谷歌为Gemini平台的视频模型Veo 3.1推出多款新预设模板,强化用户通过照片或文本定制视频的能力。同时,图像生成功能“Nano Banana”引入两种模型,包括支持高级特性的Gemini 3 Pro Image。
OpenAI正式推出GPT-Realtime-1.5多模态模型,支持实时音频和视觉处理,实现低延迟交互。该模型显著优化响应速度,开放API接口,并采用端到端加密和内容过滤确保安全。
豆包App面向部分用户灰度测试Seedance 2.0视频生成模型,支持多模态输入和自动分镜规划。该模型显著降低视频创作成本,推动AI视频进入工业可用阶段。
蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,在基准测试中表现优异,部分指标超越谷歌Gemini 2.5 Pro。该模型实现全场景音频统一生成,推理效率高,为开发者提供可复用技术底座。
Seedance2.0模型允许用户提供多达12份参考素材生成视频,处理速度提升十倍并减少无效生成。其技术如首尾帧控制和原生音视频同步,重塑内容生产流程并压缩制作成本。
小红书研发团队正在内部测试独立AI应用OpenStoryline,旨在通过自然语言交互降低视频编辑门槛。同时,公司成立Red&Live部门聚焦短视频业务,以应对用户增长压力并构建AI赋能闭环。