来自

DeepSeek开源视觉多模态模型Janus-Pro-7B，面临三重挑战与市场竞争

DeepSeek开源视觉多模态模型Janus-Pro-7B，支持图像生成与本地部署，被誉国产AI突破。同时面临技术迁移瓶颈、市场竞争加剧及模型幻觉问题，阿里巴巴Qwen3-VL多模态模型形成技术对比。

2025年09月26日

阿里通义千问团队推出基于20B参数的Qwen-Image-Edit模型，通过双通道架构实现语义与外观双重控制，在公开基准测试中展现当前最优性能。尽管国内厂商加速布局多模态领域，但技术仍面临表征复杂度与空间推理能力等关键挑战。

2025年08月20日

昆仑万维正式开源多模态统一预训练模型Skywork UniPic，在单一架构中融合图像理解、文本生成与图像编辑三大功能。该模型以1.5B参数实现多项SOTA性能，显著降低AI应用门槛。

2025年07月30日

蚂蚁集团与 inclusion AI 联合发布开源多模态模型 Ming-Omni; Ming-Omni 模型亮相，支持图像、文本、音频及视频多模态处理；开源 AI 解决方案 Ming-Omni 推出，模态支持媲美 GPT-4o。

2025年06月16日

微软 CEO 纳德拉宣布构建自主 AI 基础架构体系，通过双引擎驱动模式推进异构化技术布局。微软工程院组建专项团队突破多模态模型部署，同步建立技术冗余体系保障商业客户数据主权。

2025年03月29日

OpenAI 通过 GPT-4o 实现生成式 AI 领域首个端到端多模态集成，用户无需切换模型即可在对话中生成自定义图像。该系统已向全量用户开放，并与 Sora 视频平台形成技术协同。

2025年03月27日

豆包大模型团队与北京交通大学和中国科学技术大学联合开发的“VideoWorld”模型，突破了传统多模态模型的限制，首次实现无语言模型的世界认知。该模型通过纯视觉信号进行学习和推理，在视频生成和理解方面展现了强大的创新能力。

2025年02月11日

智源研究院发布了全新原生多模态世界模型Emu3，基于下一个token预测即可实现文本、图像、视频的理解与生成，无需依赖扩散模型。Emu3在图像生成、视觉语言理解和视频生成等任务中表现优异，提供了一种统一的多模态研究范式，并已开源。

2024年10月23日

成都人形机器人创新中心推出中国首个机器人多模态模型与双臂协作系统，使机器人具备理解和执行复杂语义指令的能力。该技术融合图像、语义、力感知等多种感知因素，标志着人形机器人朝自主思考和执行能力迈出关键一步。

2024年08月14日