谷歌 DeepMind 全面开放 Veo2 视频生成模型接入通道

核心要点👉

数智朋克讯，北京时间4月16日凌晨，谷歌DeepMind正式向全球开发者及订阅用户开放其新一代视频生成模型Veo2的全量接入通道。这款整合进Gemini应用生态的AI工具，现可基于文本或图像输入生成持续8秒、分辨率达720P的影视级动态内容，在跨模态指令解析与三维物理引擎仿真领域实现关键技术突破。

通过多模态训练框架，Veo2展现出对专业镜头语言的精准控制能力。其自主开发的动态路径规划算法，能够智能模拟推、拉、摇、移等电影级运镜手法，配合时间序列建模技术，使生成视频的帧间动态误差率控制在行业新低水平。在复杂指令还原测试中，该模型对物理规律仿真的准确度及动作连贯性指标均超越当前主流竞品。

即日起，Gemini Advanced订阅用户可通过自然语言交互界面，创建宽高比16:9的短视频内容，并直接导出带有SynthID加密水印的MP4文件。开发团队同步在Google AI Studio开放API接口，支持第三方应用调用视频生成核心引擎，但现阶段对商业级调用频次实施配额管理。

值得注意的是，Veo2的跨模态生成能力延伸至静态图像转视频场景。当输入视觉素材时，其时空扩散模型可自动补全符合现实动力学的运动轨迹，该特性已被整合至谷歌实验室的Whisk实验项目中。内部压力测试显示，该模型在百人盲测中获得的用户偏好度，较Sora等同类产品提升至少15个基准点。

数智资讯订阅