谷歌在 2025 年 I/O 大会推出第三代视频生成系统 Veo 3,通过 V2A 模块实现视觉听觉模态协同生成,其事件推理模块支持复合指令的分层解码处理。该系统现阶段主要面向影视创作领域,通过 8 秒片段拼接技术构建完整叙事单元。