DIGIPUNK
去投稿
发表于:10 hours ago

小米开源端到端语音模型Xiaomi-MiMo-Audio,实现语音领域三重技术突破

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 首创语音领域ICL少样本泛化能力,突破标注数据依赖范式
  • 🏆 性能超越同规模开源模型及Google/OpenAI闭源模型
  • 💡 三重突破:实现语音"GPT-3时刻"、定义生成式预训练目标、引入Thinking机制
  • 📦 开源预训练/微调模型及Tokenizer,支持音频重建与转文本双任务
  • 🤖 跨模态对齐强化智商/情商/表现力/安全性,实现拟人化语音交互

数智朋克获悉,小米正式开源原生端到端语音模型Xiaomi-MiMo-Audio,该模型基于创新预训练架构与上亿小时训练数据首次在语音领域实现基于ICL的少样本泛化能力。预训练阶段观察到显著的"涌现"行为,标志着语音模型突破依赖标注数据的传统范式。后训练进一步强化了模型在智商、情商、表现力及安全性维度的跨模态对齐能力,使语音对话呈现拟人化特征的自然度、情感表达与交互适配。

性能评测显示,该模型在通用语音理解及对话基准测试中超越同参数量开源模型,取得7B规模最佳性能。音频理解基准MMAU测试集上超越Google闭源模型Gemini-2.5-Flash,音频复杂推理基准Big Bench Audio S2T任务中优于OpenAI闭源模型GPT-4o-Audio-Preview

技术突破体现为三重创新:首次证实语音无损压缩预训练扩展至1亿小时可涌现跨任务泛化性,实现语音领域的"GPT-3时刻"首个明确定义语音生成式预训练目标,开源包含Tokenizer、模型架构、训练方法的完整方案,开启语音"LLaMA时刻"首次将Thinking机制同步引入语音理解与生成流程,支持混合思考模式

开源资源包含预训练模型MiMo-Audio-7B-Base,这是首个具备语音续写能力的开源语音模型;指令微调模型MiMo-Audio-7B-Instruct通过prompt切换non-thinking/thinking模式,为语音强化学习研究提供新基座;1.2B参数Tokenizer采用Transformer架构,支持音频重建与转文本双任务。全套技术方案已通过主流开源平台发布。

本文链接: https://www.shuzhipunk.com/articles/V4IB5sP4EOV
转载请注明文章出处

文章所属标签
语音模型
开源AI
预训练架构
Xiaomi-MiMo-Audio
跨模态对齐