小米开源端到端语音大模型Xiaomi-MiMo-Audio
时间:2025-10-18 13:30:35 342浏览 收藏
从现在开始,努力学习吧!本文《小米开源首个端到端语音大模型 Xiaomi-MiMo-Audio》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!
小米正式宣布开源其首个原生端到端语音模型——Xiaomi-MiMo-Audio。该模型基于创新的预训练架构,并利用超过一亿小时的海量语音数据进行训练,首次在语音领域实现了基于上下文学习(ICL)的少样本泛化能力,且在预训练过程中观察到了显著的“涌现”现象。
官方指出,经过后训练优化,Xiaomi-MiMo-Audio 在智能理解、情感表达、语音表现力以及安全性等方面展现出卓越的跨模态对齐能力,使得语音交互在自然度、情绪传递和对话连贯性上达到了高度拟人化的水平。
Xiaomi-MiMo-Audio 的核心性能表现如下:
- 在多项通用语音理解与对话评测基准中,MiMo-Audio 显著优于同规模参数的开源模型,成为当前 7B 级别中性能最强的开源语音模型
- 在音频理解任务标准测试集 MMAU 上,性能超越 Google 的闭源模型 Gemini-2.5-Flash
- 在面向复杂音频推理的 Big Bench Audio S2T 基准中,同样超过了 OpenAI 的闭源语音模型 GPT-4o-Audio-Preview

Xiaomi-MiMo-Audio 的主要技术突破包括:
- 首次验证:将语音无损压缩下的预训练规模扩展至 1 亿小时,可“涌现”出跨任务的泛化能力,展现出强大的 Few-Shot Learning 特性,标志着语音领域的“GPT-3 时刻”到来

- 全球首个明确定义生成式语音预训练目标并完整开源整套语音预训练体系的项目,涵盖无损压缩 Tokenizer、全新模型结构、训练流程与评估标准,开启语音技术的“LLaMA 时刻”

- 首个在语音理解与生成过程中同时引入“思考(Thinking)”机制的开源模型,支持混合式思维推理
模型构成:
- MiMo-Audio-7B-Base:预训练基础模型,是目前开源生态中首个具备语音续写能力的端到端语音模型
- MiMo-Audio-7B-Instruct:经轻量级指令微调(SFT)后的版本,在7B参数量级下实现领先的语音理解与生成性能
MiMo-Audio-7B-Instruct 支持通过 prompt 切换 non-thinking 与 thinking 两种运行模式,具备高起点强化学习(RL)潜力,可作为语音领域 RL 与 Agentic 行为研究的理想基座模型。
此外,小米还同步开源了 MiMo-Audio 的 Tokenizer 模型:
- 参数规模达 1.2B,采用 Transformer 架构,兼顾高效性与建模能力
- 从零开始训练,覆盖超千万小时真实语音数据
- 同时支持高保真音频重建与音频转文本(A2T)双重任务
理论要掌握,实操不能落!以上关于《小米开源端到端语音大模型Xiaomi-MiMo-Audio》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!
相关阅读
更多>
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
最新阅读
更多>
-
143 收藏
-
271 收藏
-
153 收藏
-
398 收藏
-
219 收藏
-
460 收藏
-
263 收藏
-
162 收藏
-
376 收藏
-
405 收藏
-
215 收藏
-
462 收藏
课程推荐
更多>
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习