蚂蚁集团与 inclusion AI 联合发布开源多模态模型 Ming-Omni; Ming-Omni 模型亮相,支持图像、文本、音频及视频多模态处理;开源 AI 解决方案 Ming-Omni 推出,模态支持媲美 GPT-4o。
微软 CEO 纳德拉宣布构建自主 AI 基础架构体系,通过双引擎驱动模式推进异构化技术布局。微软工程院组建专项团队突破多模态模型部署,同步建立技术冗余体系保障商业客户数据主权。
OpenAI 通过 GPT-4o 实现生成式 AI 领域首个端到端多模态集成,用户无需切换模型即可在对话中生成自定义图像。该系统已向全量用户开放,并与 Sora 视频平台形成技术协同。
豆包大模型团队与北京交通大学和中国科学技术大学联合开发的“VideoWorld”模型,突破了传统多模态模型的限制,首次实现无语言模型的世界认知。该模型通过纯视觉信号进行学习和推理,在视频生成和理解方面展现了强大的创新能力。
智源研究院发布了全新原生多模态世界模型Emu3,基于下一个token预测即可实现文本、图像、视频的理解与生成,无需依赖扩散模型。Emu3在图像生成、视觉语言理解和视频生成等任务中表现优异,提供了一种统一的多模态研究范式,并已开源。
成都人形机器人创新中心推出中国首个机器人多模态模型与双臂协作系统,使机器人具备理解和执行复杂语义指令的能力。该技术融合图像、语义、力感知等多种感知因素,标志着人形机器人朝自主思考和执行能力迈出关键一步。