首页 > 科技周边 > 业界新闻

小米开源端到端语音大模型Xiaomi-MiMo-Audio

时间：2025-10-18 13:30:35 342浏览收藏

从现在开始，努力学习吧！本文《小米开源首个端到端语音大模型 Xiaomi-MiMo-Audio》主要讲解了等等相关知识点，我会在golang学习网中持续更新相关的系列文章，欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧，希望能帮到你！

小米正式宣布开源其首个原生端到端语音模型——Xiaomi-MiMo-Audio。该模型基于创新的预训练架构，并利用超过一亿小时的海量语音数据进行训练，首次在语音领域实现了基于上下文学习（ICL）的少样本泛化能力，且在预训练过程中观察到了显著的“涌现”现象。

官方指出，经过后训练优化，Xiaomi-MiMo-Audio 在智能理解、情感表达、语音表现力以及安全性等方面展现出卓越的跨模态对齐能力，使得语音交互在自然度、情绪传递和对话连贯性上达到了高度拟人化的水平。

Xiaomi-MiMo-Audio 的核心性能表现如下：

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio 的主要技术突破包括：

首次验证：将语音无损压缩下的预训练规模扩展至 1 亿小时，可“涌现”出跨任务的泛化能力，展现出强大的 Few-Shot Learning 特性，标志着语音领域的“GPT-3 时刻”到来

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

全球首个明确定义生成式语音预训练目标并完整开源整套语音预训练体系的项目，涵盖无损压缩 Tokenizer、全新模型结构、训练流程与评估标准，开启语音技术的“LLaMA 时刻”

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

模型构成：

MiMo-Audio-7B-Instruct 支持通过 prompt 切换 non-thinking 与 thinking 两种运行模式，具备高起点强化学习（RL）潜力，可作为语音领域 RL 与 Agentic 行为研究的理想基座模型。

此外，小米还同步开源了 MiMo-Audio 的 Tokenizer 模型：

理论要掌握，实操不能落！以上关于《小米开源端到端语音大模型Xiaomi-MiMo-Audio》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！