上海人工智能实验室开源推出多模态大模型书生·万象 InternVL3.5,通过级联式强化学习、动态视觉分辨率路由及解耦部署架构,实现推理能力、部署效率与通用能力的全面跃升。该模型在多项基准测试中超越GPT-5等主流模型,并提供九种尺寸参数版本,支持开发者灵活部署与应用。
字节跳动智能创作团队发布OmniHuman-1.5视频生成框架,通过认知引擎与渲染引擎协同机制将静态图像转化为上下文感知动态影像。该框架在唇同步准确率达98.7%,手势动态方差提升32%,并已开源应用于影视制作、虚拟教育等跨领域场景。
OpenAI发布端到端语音模型gpt-realtime,显著降低响应延迟并整合多模态能力。该模型在语音质量、智能理解、API支持及安全合规等方面实现全面升级,适用于多领域场景。
腾讯混元开源其端到端视频音效生成模型Hunyuan-Foley,该模型通过输入视频片段和文本描述自动生成电影级音效,解决了AI视频无声问题并实现音画精准同步。模型基于多模态处理能力和大规模数据集,适用于创意领域,并已开源推动技术协作。
创新奇智与Bentley共同推出基于多模态工业大模型的生成式设计工具iPID,实现静态图纸向标准化PID图的智能化转化。该工具融合文本识别、图像解析与参数计算技术,颠覆传统手工设计流程,大幅提升工业设计效率。
阿里通义千问团队推出基于20B参数的Qwen-Image-Edit模型,通过双通道架构实现语义与外观双重控制,在公开基准测试中展现当前最优性能。尽管国内厂商加速布局多模态领域,但技术仍面临表征复杂度与空间推理能力等关键挑战。
昆仑万维正式开源多模态统一预训练模型Skywork UniPic,在单一架构中融合图像理解、文本生成与图像编辑三大功能。该模型以1.5B参数实现多项SOTA性能,显著降低AI应用门槛。
中国移动董事长杨杰宣布升级'AI+'行动计划,推动科技创新与产业创新深度融合。中移九天公司揭牌运营,九天模型在语言和多模态领域实现突破性进展,并开源核心模型促进生态成熟。
字节跳动旗下AI编程工具TRAE迎来2.0版本迭代,强化AI驱动的开发者工作台定位,整合语音交互与多模态协作能力。同步推出的TRAE SOLO智能编程Agent具备全维度开发场景处理能力,实现软件开发生命周期的闭环管理。
马斯克旗下 AI 平台 Grok 正式推出虚拟伴侣功能,目前处于技术预览阶段,付费订阅用户可通过 iOS 访问,部分免费用户也可使用。该功能包含两款虚拟形象,用户需手动激活,开发团队将优化开启流程;技术社区还发现第三款角色正在测试,且 Grok 已部署内容分级开关。