快手Kling AI 2.6版本发布，推动多模态生成技术进入新阶段

快手Kling AI 2.6版本正式亮相，首次集成原生音频合成能力，实现文本、视频与音频同步输出闭环。技术架构优化降低成本，性能显著提升，商业化部署覆盖影视制作和广告创意领域。

快

快手Kling AI 2.6版本发布，推动多模态生成技术进入新阶段

快手Kling AI 2.6版本正式亮相，首次集成原生音频合成能力，实现文本、视频与音频同步输出闭环。技术架构优化降低成本，性能显著提升，商业化部署覆盖影视制作和广告创意领域。

数智本土

智象未来荣获ACM国际多媒体会议最佳演示奖

中国初创企业智象未来凭借多模态生成式AI技术在第33届ACM国际多媒体会议上获得最佳演示奖，成为首个获此殊荣的中国团队。其研发的'灵感智能体'技术突破行业瓶颈，重新定义创作范式并显著降低专业内容创作门槛。

智

智象未来荣获ACM国际多媒体会议最佳演示奖

中国初创企业智象未来凭借多模态生成式AI技术在第33届ACM国际多媒体会议上获得最佳演示奖，成为首个获此殊荣的中国团队。其研发的'灵感智能体'技术突破行业瓶颈，重新定义创作范式并显著降低专业内容创作门槛。

数智国际

谷歌发布第三代 Veo 3 视频生成系统，实现音画协同生成

谷歌在 2025 年 I/O 大会推出第三代视频生成系统 Veo 3，通过 V2A 模块实现视觉听觉模态协同生成，其事件推理模块支持复合指令的分层解码处理。该系统现阶段主要面向影视创作领域，通过 8 秒片段拼接技术构建完整叙事单元。

谷

谷歌发布第三代 Veo 3 视频生成系统，实现音画协同生成

谷歌在 2025 年 I/O 大会推出第三代视频生成系统 Veo 3，通过 V2A 模块实现视觉听觉模态协同生成，其事件推理模块支持复合指令的分层解码处理。该系统现阶段主要面向影视创作领域，通过 8 秒片段拼接技术构建完整叙事单元。

数智国际

OpenAI 开放多模态生成引擎商业化接口

OpenAI 正式推出 gpt-image-1 模型 API 接口，支持文图混合输入与跨媒介风格转换。该服务采用分层计费模式并内置 C2PA 溯源标识，已在数字创意产业实现多场景应用。

O

OpenAI 开放多模态生成引擎商业化接口

OpenAI 正式推出 gpt-image-1 模型 API 接口，支持文图混合输入与跨媒介风格转换。该服务采用分层计费模式并内置 C2PA 溯源标识，已在数字创意产业实现多场景应用。

数智国际

生成式 AI 平台 KREA 获 4700 万美元 B 轮融资，估值破 5 亿美元重构数字内容生产范式

生成式 AI 创意平台 KREA 完成贝恩资本领投的 4700 万美元 B 轮融资，估值突破 5 亿美元。其智能参数适配系统与实时协同编辑功能已助力三星设计团队缩短 40% 开发周期，验证 AI 技术在产业端的应用价值。

生

生成式 AI 平台 KREA 获 4700 万美元 B 轮融资，估值破 5 亿美元重构数字内容生产范式

生成式 AI 创意平台 KREA 完成贝恩资本领投的 4700 万美元 B 轮融资，估值突破 5 亿美元。其智能参数适配系统与实时协同编辑功能已助力三星设计团队缩短 40% 开发周期，验证 AI 技术在产业端的应用价值。

数智本土

Kuaishou 可灵 AI 商业化首秀：八个月营收破亿，视频生成技术实现三次迭代

Kuaishou 可灵 AI 在 C 端市场完成亿元级商业化验证，通过多模态生成引擎实现动态捕捉精度像素级控制。其视频大模型专属算力集群将实时生成速度提升 47%，开辟电商虚拟主播等新商业场景。

K

Kuaishou 可灵 AI 商业化首秀：八个月营收破亿，视频生成技术实现三次迭代

Kuaishou 可灵 AI 在 C 端市场完成亿元级商业化验证，通过多模态生成引擎实现动态捕捉精度像素级控制。其视频大模型专属算力集群将实时生成速度提升 47%，开辟电商虚拟主播等新商业场景。

数智国际

谷歌全平台 AI 矩阵升级重构智能交互边界

谷歌推出 Gemini 2.0 系列模型，其中 Flash 版本以量子级响应优化移动端多轮对话，Pro 版本则通过混合专家架构赋能企业级运算。实验性 AI Mode 将传统搜索转化为动态对话界面，新型上下文锚定系统实现跨媒介叙事能力突破。

谷

谷歌全平台 AI 矩阵升级重构智能交互边界

谷歌推出 Gemini 2.0 系列模型，其中 Flash 版本以量子级响应优化移动端多轮对话，Pro 版本则通过混合专家架构赋能企业级运算。实验性 AI Mode 将传统搜索转化为动态对话界面，新型上下文锚定系统实现跨媒介叙事能力突破。

数智本土

全球首个超低门槛视频生成大模型 Open-Sora 2.0 开源潞晨科技突破算力瓶颈实现 97% 成本压缩

潞晨科技开源全球首个 11B 参数视频生成大模型 Open-Sora 2.0，通过 3D 自编码器与 Flow Matching 框架实现 20 万美元低成本训练，性能指标逼近 OpenAI Sora。该方案完整开放分布式训练协议与模型权重，实测显示物理规律模拟精度提升 47%，光照渲染误差降低 91%。

全

全球首个超低门槛视频生成大模型 Open-Sora 2.0 开源潞晨科技突破算力瓶颈实现 97% 成本压缩

潞晨科技开源全球首个 11B 参数视频生成大模型 Open-Sora 2.0，通过 3D 自编码器与 Flow Matching 框架实现 20 万美元低成本训练，性能指标逼近 OpenAI Sora。该方案完整开放分布式训练协议与模型权重，实测显示物理规律模拟精度提升 47%，光照渲染误差降低 91%。

开源创新

S

腾讯SEED-Story：多模态漫画生成的创新之路

SEED-Story 是由腾讯ARC开发的多模态长篇故事生成框架，结合了图像和文本生成，能够创建连贯且风格一致的叙事。其创新点包括使用大规模语言模型和专门的数据集StoryStream进行训练和评估。