DIGIPUNK
去投稿
发表于:3 hours ago

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 📢 蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0
  • 🚀 基准测试表现优异,部分指标超越谷歌Gemini 2.5 Pro
  • 🎧 实现全场景音频统一生成与精细参数控制
  • ⚡ 推理帧率低至3.1Hz,支持实时高保真音频
  • 💻 开发者可复用框架,降低开发复杂度与成本

数智朋克讯, 蚂蚁集团近日对外开源了其全模态大模型的最新版本Ming-Flash-Omni 2.0。该模型在多项公开基准测试中展现出竞争力,尤其在视觉语言理解、语音可控生成以及图像生成与编辑等关键任务上,部分指标已可对标甚至超越谷歌的Gemini 2.5 Pro。这一开源举措,标志着其技术核心正以“可复用底座”的形式向开发者社区开放。

作为业界首个实现全场景音频统一生成的模型,Ming-Flash-Omni 2.0能够将语音、环境音效与音乐融合在同一条音轨中进行合成。用户仅需输入自然语言指令,即可对生成音频的音色、语速、语调、音量乃至情绪和方言进行精细化的参数控制。更值得关注的是,模型在推理阶段实现了3.1Hz的极低推理帧率,这使得分钟级长音频的实时高保真生成成为可能,在推理效率与成本控制方面确立了优势。

全模态大模型与当前主流的多模态架构存在本质区别。后者通常采用“模型拼装”思路,即针对不同模态调用专用模型进行处理,再进行后验融合。而全模态模型自设计之初便将文本、图像、音频等不同模态置于统一的信息空间中进行联合建模,其跨模态的理解与生成能力是原生而非拼接的。这种架构更接近人类的感知方式,理论上具备更强的复杂推理潜力,但也面临着通用性与专业性难以兼得的挑战。

蚂蚁集团在全模态技术路径上已进行多年投入,Ming-Omni系列历经多个版本的迭代演进。此次发布的2.0版本基于Ling-2.0架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标进行了系统性优化。视觉能力方面,通过融合亿级细粒度数据与难例训练策略,提升了对近缘物种、工艺细节等复杂对象的识别精度。音频方面,除统一生成外,还支持零样本音色克隆与定制。图像编辑能力则增强了在动态场景下进行光影调整、场景替换等复杂操作的稳定性与画面连贯性。模型开源后,开发者可基于同一套框架复用其视觉、语音与生成能力,从而显著降低以往需要串联多个专用模型所带来的开发复杂度与成本。目前,该模型的权重与推理代码已在主流开源社区发布,用户也可通过官方平台进行在线体验与调用。

本文链接: https://www.shuzhipunk.com/articles/Z6Ukoqk8gm5
转载请注明文章出处

文章所属标签
全模态大模型
Ming-Flash-Omni
开源
AI基准测试
音频统一生成