马斯克旗下 AI 平台 Grok 正式推出虚拟伴侣功能,目前处于技术预览阶段,付费订阅用户可通过 iOS 访问,部分免费用户也可使用。该功能包含两款虚拟形象,用户需手动激活,开发团队将优化开启流程;技术社区还发现第三款角色正在测试,且 Grok 已部署内容分级开关。
马斯克旗下xAI通过直播发布多模态旗舰模型Grok 4,该模型在基准测试中超越当前行业标杆,学术能力达博士以上水平。Grok 4将整合进Tesla生态系统,并与GPT-5等竞争,但xAI因反犹言论问题面临多国禁令。
由意大利特伦托大学、德国柏林工业大学及慕尼黑工业大学联合研发的 EarthMind 开源多模态大模型正式发布,专为解析复杂地球观测数据设计。该模型通过空间注意力提示模块和两阶段融合机制,显著提升多源数据协同分析能力,已应用于灾害监测与城市规划领域。
Kwai Keye-VL 由快手自主研发,深度融合文本、图像和视频信息,凭借自适应交互机制与动态推理能力在视频理解中领先。该模型利用 600B 大规模数据集训练,在应用和评测中展现出高效性能。
蚂蚁集团与 inclusion AI 联合发布开源多模态模型 Ming-Omni; Ming-Omni 模型亮相,支持图像、文本、音频及视频多模态处理;开源 AI 解决方案 Ming-Omni 推出,模态支持媲美 GPT-4o。
上海财经大学正式推出匡时财经教育大模型,依托应用经济学等优势学科构建高质量多模态语料库,并自主研发 Fin-R1 大模型等技术支撑。该平台采用科教融汇与产教融合双轮驱动策略,部署四大场景智能应用,并与阿里、蚂蚁等企业共建实验室推动创新。
谷歌在 2025 年 I/O 大会推出第三代视频生成系统 Veo 3,通过 V2A 模块实现视觉听觉模态协同生成,其事件推理模块支持复合指令的分层解码处理。该系统现阶段主要面向影视创作领域,通过 8 秒片段拼接技术构建完整叙事单元。
火山引擎在 FORCE LINK 巡展中推出多维度 AI 模型体系,其视频生成模型 Seedance 1.0 lite 通过分布式架构实现文生视频与图生视频双模态输入,豆包 1.5 视觉模型则在视频时序理解任务中实现 98.7% 的关键帧定位准确率。本次升级重点强化垂直场景适配能力,形成从数据标注到部署监控的完整 AI 开发闭环。
星动纪元与清华大学 ISRLab 团队开发的 VPP 机器人大模型通过视频扩散模型与操作策略的知识迁移,构建出具备时空感知的智能决策框架。该模型在工业场景中实现毫秒级响应,其开源协议为多领域认知智能升级提供底层支持。
阶跃星辰正式发布通用图像编辑模型 Step1X-Edit,该模型通过语义解析、身份保持及区域控制技术支持 11 类高频编辑任务,现已在应用端及网页平台免费开放。测试数据显示其性能超越主流开源方案,开发者可通过技术社区获取代码,企业用户建议采用 80GB 显存 GPU 部署。