DIGIPUNK
去投稿
发表于:8 hours ago

蚂蚁集团与 inclusion AI 联合发布开源多模态模型 Ming-Omni

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 📢 蚂蚁集团与inclusion AI发布开源多模态模型Ming-Omni
  • 🖼️ 模型同步处理图像、文本、音频及视频输入
  • ⚙️ 采用混合专家架构MoE提升跨模态交互效率
  • 🎨 支持自然语音合成、高质量图像生成及图像编辑功能
  • 🌍 推动文本转语音TTS在本地化场景落地

数智朋克讯,蚂蚁集团与inclusion AI共同发布了开源多模态模型Ming-Omni,该模型能够同步处理图像、文本、音频及视频输入。采用专用编码器提取tokens,并借助混合专家架构MoE实现多模态深度融合,显著提升了跨模态交互效率。Ming-Omni不仅支持自然语音合成高质量图像生成,还具备上下文感知聊天功能以及多样式图像编辑能力。集成先进音频解码器与定制化Ming-Lite-Uni生成引擎,模型实现了方言语义理解与方言交互,推动文本转语音TTS应用在本地化场景中的落地。作为业界首个开源且模态支持媲美GPT-4o的多模态解决方案,其底层代码和权重参数已完整公开,加速跨模态AI技术在垂直领域的实际部署。

本文链接: https://www.shuzhipunk.com/articles/wa2XWE3RQRe
转载请注明文章出处

文章所属标签
Ming-Omni
多模态模型
方言 TTS