谷歌正式发布Veo 3.1视频生成模型，实现音频输出与编辑控制突破

核心要点👉

🎥 支持60秒连续视频生成，突破早期8-12秒限制
🔍 角色一致性机制确保跨镜头连贯性
📺 原生1080p高清输出适配专业场景
⚖️ 对比Sora 2：Veo长于叙事流畅性，Sora强在微观真实感

数智朋克讯，谷歌正式发布Veo 3.1视频生成模型，作为今年5月Veo 3的升级版本，该模型在音频输出、图像转视频效果及编辑控制方面实现显著突破。新版本能够生成更逼真的视频片段，并更准确地遵循用户提示词，提升整体视觉连贯性。

Veo 3.1引入多项核心功能增强，包括支持最长60秒连续视频生成，突破早期模型8-12秒的限制，为完整叙事提供可能。输出分辨率提升至原生1080p高清，适用于专业发布和社交媒体内容。多场景提示功能允许用户通过单一指令构建多个镜头，实现无缝转场和剪辑。角色一致性机制采用潜变量追踪记忆系统，确保面部、服装和环境在不同镜头间保持连贯。内置电影预设简化摄像机运动控制，如推拉镜头、变焦和光线选项，仅需简单指令即可激活。

与OpenAI的Sora 2相比，Veo 3.1在视频时长和故事流畅性上占据优势，支持更长的连续叙事；Sora 2则在微观真实感领域领先，模拟逼真人体动作、流体动力学和口型同步音频。用户可通过相关平台体验两者差异，评估动作质感和氛围效果。

实际应用中，Veo 3.1扩展视觉叙事边界，适用于市场营销中的产品演示和推广短片，电影制作中的预视觉工具以测试角度和光线，教育领域的动画解说，以及社交内容的创作。品牌和创作者能直接通过文本提示生成电影级内容。

谷歌正式发布Veo 3.1视频生成模型，实现音频输出与编辑控制突破

数智资讯订阅