快手Kling AI 2.6版本正式亮相,首次集成原生音频合成能力,实现文本、视频与音频同步输出闭环。技术架构优化降低成本,性能显著提升,商业化部署覆盖影视制作和广告创意领域。
中国初创企业智象未来凭借多模态生成式AI技术在第33届ACM国际多媒体会议上获得最佳演示奖,成为首个获此殊荣的中国团队。其研发的'灵感智能体'技术突破行业瓶颈,重新定义创作范式并显著降低专业内容创作门槛。
谷歌在 2025 年 I/O 大会推出第三代视频生成系统 Veo 3,通过 V2A 模块实现视觉听觉模态协同生成,其事件推理模块支持复合指令的分层解码处理。该系统现阶段主要面向影视创作领域,通过 8 秒片段拼接技术构建完整叙事单元。
OpenAI 正式推出 gpt-image-1 模型 API 接口,支持文图混合输入与跨媒介风格转换。该服务采用分层计费模式并内置 C2PA 溯源标识,已在数字创意产业实现多场景应用。
生成式 AI 创意平台 KREA 完成贝恩资本领投的 4700 万美元 B 轮融资,估值突破 5 亿美元。其智能参数适配系统与实时协同编辑功能已助力三星设计团队缩短 40% 开发周期,验证 AI 技术在产业端的应用价值。
Kuaishou 可灵 AI 在 C 端市场完成亿元级商业化验证,通过多模态生成引擎实现动态捕捉精度像素级控制。其视频大模型专属算力集群将实时生成速度提升 47%,开辟电商虚拟主播等新商业场景。
谷歌推出 Gemini 2.0 系列模型,其中 Flash 版本以量子级响应优化移动端多轮对话,Pro 版本则通过混合专家架构赋能企业级运算。实验性 AI Mode 将传统搜索转化为动态对话界面,新型上下文锚定系统实现跨媒介叙事能力突破。
潞晨科技开源全球首个 11B 参数视频生成大模型 Open-Sora 2.0,通过 3D 自编码器与 Flow Matching 框架实现 20 万美元低成本训练,性能指标逼近 OpenAI Sora。该方案完整开放分布式训练协议与模型权重,实测显示物理规律模拟精度提升 47%,光照渲染误差降低 91%。