DIGIPUNK
去投稿

蚂蚁集团与 inclusion AI 联合发布开源多模态模型 Ming-Omni

蚂蚁集团与 inclusion AI 联合发布开源多模态模型 Ming-Omni; Ming-Omni 模型亮相,支持图像、文本、音频及视频多模态处理;开源 AI 解决方案 Ming-Omni 推出,模态支持媲美 GPT-4o。

2025年06月16日
微软加速生成式 AI 异构化技术布局 构建自主 AI 基础架构体系

微软 CEO 纳德拉宣布构建自主 AI 基础架构体系,通过双引擎驱动模式推进异构化技术布局。微软工程院组建专项团队突破多模态模型部署,同步建立技术冗余体系保障商业客户数据主权。

2025年03月29日
OpenAI 发布 GPT-4o 原生图像生成功能升级 实现多模态端到端集成

OpenAI 通过 GPT-4o 实现生成式 AI 领域首个端到端多模态集成,用户无需切换模型即可在对话中生成自定义图像。该系统已向全量用户开放,并与 Sora 视频平台形成技术协同。

2025年03月27日
豆包大模型与北交大、中科大联合开源创新视频生成模型VideoWorld

豆包大模型团队与北京交通大学和中国科学技术大学联合开发的“VideoWorld”模型,突破了传统多模态模型的限制,首次实现无语言模型的世界认知。该模型通过纯视觉信号进行学习和推理,在视频生成和理解方面展现了强大的创新能力。

2025年02月11日
智源研究院推出Emu3:实现文本、图像、视频统一生成的多模态模型

智源研究院发布了全新原生多模态世界模型Emu3,基于下一个token预测即可实现文本、图像、视频的理解与生成,无需依赖扩散模型。Emu3在图像生成、视觉语言理解和视频生成等任务中表现优异,提供了一种统一的多模态研究范式,并已开源。

2024年10月23日
成都发布首个多模态机器人模型,提升人形机器人的自主思考能力

成都人形机器人创新中心推出中国首个机器人多模态模型与双臂协作系统,使机器人具备理解和执行复杂语义指令的能力。该技术融合图像、语义、力感知等多种感知因素,标志着人形机器人朝自主思考和执行能力迈出关键一步。

2024年08月14日