清华大学与字节跳动Seed联合推出生成式通用验证器OmniVerifier,首次赋予AI自我审查视觉输出的能力,在ViVerBench基准测试中超越GPT-4o。该系统通过三大能力组件实现视觉验证性能提升8.3%,效率较并行方式提高53%,并已扩展至医疗影像诊断、自动驾驶等关键领域。
谷歌发布Nano Banana Pro文生图模型升级版本,无缝整合Gemini 3 Pro多模态能力和Veo 3视频技术,实现复杂场景图像生成与跨语言文本渲染。新模型覆盖多层级用户生态,支持第三方工具集成,并通过SynthID水印技术强化安全验证。
谷歌发布Gemini 3人工智能模型,官方称其为迄今最智能模型和世界最佳多模态理解系统,首日即整合至核心产品。该模型在多项基准测试中刷新纪录,并推出Antigravity开发平台重构人机协作范式。
谷歌新一代AI大模型Gemini 3.0在代码生成和多模态创作领域实现显著突破,引发业界广泛关注。作为谷歌追赶AI市场的关键一步,其发布被视为重塑行业格局的契机,并获巴菲特43亿美元加仓支持。
多模态AI生成平台LiblibAI获红杉中国与CMC资本领投的1.3亿美元B轮融资,刷新2025年中国AI应用单笔融资记录。平台整合图像、视频及3D等多模态能力,已孵化超2000万创作者并突破50万个原创模型。
OpenAI发布端到端语音模型gpt-realtime,显著降低响应延迟并整合多模态能力。该模型在语音质量、智能理解、API支持及安全合规等方面实现全面升级,适用于多领域场景。
腾讯混元开源其端到端视频音效生成模型Hunyuan-Foley,该模型通过输入视频片段和文本描述自动生成电影级音效,解决了AI视频无声问题并实现音画精准同步。模型基于多模态处理能力和大规模数据集,适用于创意领域,并已开源推动技术协作。
中国移动董事长杨杰宣布升级'AI+'行动计划,推动科技创新与产业创新深度融合。中移九天公司揭牌运营,九天模型在语言和多模态领域实现突破性进展,并开源核心模型促进生态成熟。
马斯克旗下xAI通过直播发布多模态旗舰模型Grok 4,该模型在基准测试中超越当前行业标杆,学术能力达博士以上水平。Grok 4将整合进Tesla生态系统,并与GPT-5等竞争,但xAI因反犹言论问题面临多国禁令。