蚂蚁集团与 inclusion AI 联合发布开源多模态模型 Ming-Omni

核心要点👉

📢 蚂蚁集团与inclusion AI发布开源多模态模型Ming-Omni
🖼️ 模型同步处理图像、文本、音频及视频输入
⚙️ 采用混合专家架构MoE提升跨模态交互效率
🎨 支持自然语音合成、高质量图像生成及图像编辑功能
🌍 推动文本转语音TTS在本地化场景落地

数智朋克讯，蚂蚁集团与inclusion AI共同发布了开源多模态模型Ming-Omni，该模型能够同步处理图像、文本、音频及视频输入。采用专用编码器提取tokens，并借助混合专家架构MoE实现多模态深度融合，显著提升了跨模态交互效率。Ming-Omni不仅支持自然语音合成和高质量图像生成，还具备上下文感知聊天功能以及多样式图像编辑能力。集成先进音频解码器与定制化Ming-Lite-Uni生成引擎，模型实现了方言语义理解与方言交互，推动文本转语音TTS应用在本地化场景中的落地。作为业界首个开源且模态支持媲美GPT-4o的多模态解决方案，其底层代码和权重参数已完整公开，加速跨模态AI技术在垂直领域的实际部署。

蚂蚁集团与 inclusion AI 联合发布开源多模态模型 Ming-Omni

数智资讯订阅