来自

Google DeepMind推出Lyria 3音乐AI模型，Google发布Gemini 3.1 Pro旗舰AI

Lyria 3是专为音乐生成设计的AI系统，能创作高品质乐曲、歌词和人声，计划通过API开放。Gemini 3.1 Pro是谷歌最新旗舰模型，具备多模态推理能力，在复杂任务上表现卓越，安全性能优越。

2026年02月25日

清华大学与字节跳动Seed联合推出生成式通用验证器OmniVerifier，首次赋予AI自我审查视觉输出的能力，在ViVerBench基准测试中超越GPT-4o。该系统通过三大能力组件实现视觉验证性能提升8.3%，效率较并行方式提高53%，并已扩展至医疗影像诊断、自动驾驶等关键领域。

2025年11月25日

谷歌发布Nano Banana Pro文生图模型升级版本，无缝整合Gemini 3 Pro多模态能力和Veo 3视频技术，实现复杂场景图像生成与跨语言文本渲染。新模型覆盖多层级用户生态，支持第三方工具集成，并通过SynthID水印技术强化安全验证。

2025年11月21日

谷歌发布Gemini 3人工智能模型，官方称其为迄今最智能模型和世界最佳多模态理解系统，首日即整合至核心产品。该模型在多项基准测试中刷新纪录，并推出Antigravity开发平台重构人机协作范式。

2025年11月19日

谷歌新一代AI大模型Gemini 3.0在代码生成和多模态创作领域实现显著突破，引发业界广泛关注。作为谷歌追赶AI市场的关键一步，其发布被视为重塑行业格局的契机，并获巴菲特43亿美元加仓支持。

2025年11月17日

多模态AI生成平台LiblibAI获红杉中国与CMC资本领投的1.3亿美元B轮融资，刷新2025年中国AI应用单笔融资记录。平台整合图像、视频及3D等多模态能力，已孵化超2000万创作者并突破50万个原创模型。

2025年10月23日

OpenAI发布端到端语音模型gpt-realtime，显著降低响应延迟并整合多模态能力。该模型在语音质量、智能理解、API支持及安全合规等方面实现全面升级，适用于多领域场景。

2025年08月29日

腾讯混元开源其端到端视频音效生成模型Hunyuan-Foley，该模型通过输入视频片段和文本描述自动生成电影级音效，解决了AI视频无声问题并实现音画精准同步。模型基于多模态处理能力和大规模数据集，适用于创意领域，并已开源推动技术协作。

2025年08月29日

中国移动董事长杨杰宣布升级'AI+'行动计划，推动科技创新与产业创新深度融合。中移九天公司揭牌运营，九天模型在语言和多模态领域实现突破性进展，并开源核心模型促进生态成熟。

2025年07月27日

马斯克旗下xAI通过直播发布多模态旗舰模型Grok 4，该模型在基准测试中超越当前行业标杆，学术能力达博士以上水平。Grok 4将整合进Tesla生态系统，并与GPT-5等竞争，但xAI因反犹言论问题面临多国禁令。

2025年07月11日