要点速达👈
- 🖥️ 摩尔线程开源了首个基于国产GPU训练的音频理解大模型MooER。
- ⏱️ MooER仅用38小时完成了对5000小时音频数据的训练。
- 🌍 该模型支持中英文语音识别及中译英翻译,性能卓越。
- 📊 在Covost2 zh2en测试集中,MooER的BLEU分数显著领先其他模型。
- 🔧 摩尔线程计划后续开源训练代码,并推出更大规模的训练模型。
数智朋克消息,国内GPU与AI计算解决方案提供商摩尔线程近日宣布,正式开源其音频理解大模型MooER。这是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,标志着摩尔线程在AI语音技术领域迈出重要一步。
MooER依托摩尔线程自研的夸娥(KUAE)智算平台,结合创新算法和高效计算资源,仅用38小时便完成了对5000小时音频数据和伪标签的训练,展现出惊人的计算效率。该模型不仅支持中文和英文语音识别,还具备中译英语音翻译的能力。在Covost2 zh2en测试集上,MooER的BLEU分数达到了25.2,显著领先于其他开源模型,达到了工业级水准。
MooER的架构包括Encoder、Adapter和Decoder(LLM)三部分,通过先进的音频建模和文本融合机制,实现复杂语音信号的理解与转换。在训练阶段,摩尔线程采用LoRA技术,仅更新2%的LLM参数,大幅提升了训练效率。摩尔线程还计划后续开源训练代码,并发布基于8万小时数据训练的模型,以推动语音大模型的技术发展。
摩尔线程希望通过MooER的开源,促进AI语音技术的普及和应用,助力开发者和企业实现技术创新与产业升级。