核心要点👉
- 📢 蚂蚁集团与inclusion AI发布开源多模态模型Ming-Omni
- 🖼️ 模型同步处理图像、文本、音频及视频输入
- ⚙️ 采用混合专家架构MoE提升跨模态交互效率
- 🎨 支持自然语音合成、高质量图像生成及图像编辑功能
- 🌍 推动文本转语音TTS在本地化场景落地
数智朋克讯,蚂蚁集团与inclusion AI共同发布了开源多模态模型Ming-Omni,该模型能够同步处理图像、文本、音频及视频输入。采用专用编码器提取tokens,并借助混合专家架构MoE实现多模态深度融合,显著提升了跨模态交互效率。Ming-Omni不仅支持自然语音合成和高质量图像生成,还具备上下文感知聊天功能以及多样式图像编辑能力。集成先进音频解码器与定制化Ming-Lite-Uni生成引擎,模型实现了方言语义理解与方言交互,推动文本转语音TTS应用在本地化场景中的落地。作为业界首个开源且模态支持媲美GPT-4o的多模态解决方案,其底层代码和权重参数已完整公开,加速跨模态AI技术在垂直领域的实际部署。