豆包大模型日均Token处理规模突破50万亿，日活用户超1亿

火山引擎数据显示豆包大模型日均Token处理量达50万亿，半年增长200%。豆包App日活用户突破1亿，成为国内首个AI原生应用达此成就。

豆

豆包大模型日均Token处理规模突破50万亿，日活用户超1亿

火山引擎数据显示豆包大模型日均Token处理量达50万亿，半年增长200%。豆包App日活用户突破1亿，成为国内首个AI原生应用达此成就。

商汤开源空间智能大模型SenseNova-SI，评测性能超越GPT-5与Gemini 2.5 Pro

商汤科技宣布开源SenseNova-SI系列模型，在权威评测中该多模态大模型以60.99平均分显著领先GPT-5和Gemini 2.5 Pro。通过验证的'尺度效应'训练范式，模型在六大空间维度实现突破，并与'开悟'世界模型协同推动具身智能应用。

商

商汤开源空间智能大模型SenseNova-SI，评测性能超越GPT-5与Gemini 2.5 Pro

商汤科技宣布开源SenseNova-SI系列模型，在权威评测中该多模态大模型以60.99平均分显著领先GPT-5和Gemini 2.5 Pro。通过验证的'尺度效应'训练范式，模型在六大空间维度实现突破，并与'开悟'世界模型协同推动具身智能应用。

数智本土

生数科技完成数亿元A轮融资，博华资本领投

生数科技于披露完成数亿元人民币A轮融资，博华资本作为领投方主导本轮投资。该企业聚焦多模态大模型研发，旗舰产品Vidu已覆盖200多个国家和地区，累计吸引超3000万用户和6000家企业客户。

生

生数科技完成数亿元A轮融资，博华资本领投

生数科技于披露完成数亿元人民币A轮融资，博华资本作为领投方主导本轮投资。该企业聚焦多模态大模型研发，旗舰产品Vidu已覆盖200多个国家和地区，累计吸引超3000万用户和6000家企业客户。

数智本土

上海人工智能实验室开源多模态大模型InternVL3.5，性能全面跃升

上海人工智能实验室开源推出多模态大模型书生·万象 InternVL3.5，通过级联式强化学习、动态视觉分辨率路由及解耦部署架构，实现推理能力、部署效率与通用能力的全面跃升。该模型在多项基准测试中超越GPT-5等主流模型，并提供九种尺寸参数版本，支持开发者灵活部署与应用。

上

上海人工智能实验室开源多模态大模型InternVL3.5，性能全面跃升

上海人工智能实验室开源推出多模态大模型书生·万象 InternVL3.5，通过级联式强化学习、动态视觉分辨率路由及解耦部署架构，实现推理能力、部署效率与通用能力的全面跃升。该模型在多项基准测试中超越GPT-5等主流模型，并提供九种尺寸参数版本，支持开发者灵活部署与应用。

数智国际

EarthMind 开源多模态大模型亮相，攻克卫星图像像素级识别难题

由意大利特伦托大学、德国柏林工业大学及慕尼黑工业大学联合研发的 EarthMind 开源多模态大模型正式发布，专为解析复杂地球观测数据设计。该模型通过空间注意力提示模块和两阶段融合机制，显著提升多源数据协同分析能力，已应用于灾害监测与城市规划领域。

E

EarthMind 开源多模态大模型亮相，攻克卫星图像像素级识别难题

由意大利特伦托大学、德国柏林工业大学及慕尼黑工业大学联合研发的 EarthMind 开源多模态大模型正式发布，专为解析复杂地球观测数据设计。该模型通过空间注意力提示模块和两阶段融合机制，显著提升多源数据协同分析能力，已应用于灾害监测与城市规划领域。

数智本土

快手 Kwai Keye-VL 多模态大模型在视频理解领域展现优势

Kwai Keye-VL 由快手自主研发，深度融合文本、图像和视频信息，凭借自适应交互机制与动态推理能力在视频理解中领先。该模型利用 600B 大规模数据集训练，在应用和评测中展现出高效性能。

快

快手 Kwai Keye-VL 多模态大模型在视频理解领域展现优势

Kwai Keye-VL 由快手自主研发，深度融合文本、图像和视频信息，凭借自适应交互机制与动态推理能力在视频理解中领先。该模型利用 600B 大规模数据集训练，在应用和评测中展现出高效性能。

数智本土

阿里巴巴夸克 AI 超级框集成视觉智能中枢实现视觉 - 语言双模态跨越

阿里巴巴旗下夸克应用完成 AI 超级框战略升级，通过集成视觉解析引擎与逻辑推演架构实现多模态交互革新。新功能支持 12 类物体实时解析，千亿参数多模态大模型使开放域问答准确率提升 27%。

阿

阿里巴巴夸克 AI 超级框集成视觉智能中枢实现视觉 - 语言双模态跨越

阿里巴巴旗下夸克应用完成 AI 超级框战略升级，通过集成视觉解析引擎与逻辑推演架构实现多模态交互革新。新功能支持 12 类物体实时解析，千亿参数多模态大模型使开放域问答准确率提升 27%。

数智国际

Meta 发布 Llama 4 系列多模态大模型突破性架构引领参数规模与效率革新

Meta 推出 Llama 4 系列多模态大模型，采用混合专家系统实现参数规模与运算效率突破，旗舰型号总参数达 2 万亿。该系列通过动态门控路由和跨模态注意力机制，在超长文档解析、动态视频处理等场景展现优势，配合硬件适配实现实时推理。

M

Meta 发布 Llama 4 系列多模态大模型突破性架构引领参数规模与效率革新

Meta 推出 Llama 4 系列多模态大模型，采用混合专家系统实现参数规模与运算效率突破，旗舰型号总参数达 2 万亿。该系列通过动态门控路由和跨模态注意力机制，在超长文档解析、动态视频处理等场景展现优势，配合硬件适配实现实时推理。

数智本土

阿里巴巴开源 Qwen2.5-Omni-7B 全模态大模型支持跨模态实时处理

阿里巴巴集团开源通义千问系列最新 Qwen2.5-Omni-7B 模型，该 7B 参数规模模型实现文本 / 图像 / 音频 / 视频跨模态实时处理，通过双核架构与创新算法超越 Google Gemini 等竞品。模型在语音生成质量达专业播音水平，支持智能手机本地部署，并构建全球最大开源模型生态体系。

阿

阿里巴巴开源 Qwen2.5-Omni-7B 全模态大模型支持跨模态实时处理

阿里巴巴集团开源通义千问系列最新 Qwen2.5-Omni-7B 模型，该 7B 参数规模模型实现文本 / 图像 / 音频 / 视频跨模态实时处理，通过双核架构与创新算法超越 Google Gemini 等竞品。模型在语音生成质量达专业播音水平，支持智能手机本地部署，并构建全球最大开源模型生态体系。

数智本土

生数科技联合好莱坞巨头 Aura Productions 启动全球首部全 AI 驱动科幻动漫剧集开发

生数科技与 Aura Productions 基于 Vidu 视频大模型开发的 50 集科幻动漫，通过分布式渲染架构将单镜头生成耗时压缩至 10 秒级。该系统突破性解决长视频时序错位难题，并实现 16K 电影级画质输出与 AI 导演运镜方案生成。

生

生数科技联合好莱坞巨头 Aura Productions 启动全球首部全 AI 驱动科幻动漫剧集开发

生数科技与 Aura Productions 基于 Vidu 视频大模型开发的 50 集科幻动漫，通过分布式渲染架构将单镜头生成耗时压缩至 10 秒级。该系统突破性解决长视频时序错位难题，并实现 16K 电影级画质输出与 AI 导演运镜方案生成。