来自

OpenAI发布新一代多模态交互模型GPT-Realtime-1.5

OpenAI正式推出GPT-Realtime-1.5多模态模型，支持实时音频和视觉处理，实现低延迟交互。该模型显著优化响应速度，开放API接口，并采用端到端加密和内容过滤确保安全。

API开放

2026年02月25日

Google DeepMind推出Lyria 3音乐AI模型，Google发布Gemini 3.1 Pro旗舰AI

Lyria 3是专为音乐生成设计的AI系统，能创作高品质乐曲、歌词和人声，计划通过API开放。Gemini 3.1 Pro是谷歌最新旗舰模型，具备多模态推理能力，在复杂任务上表现卓越，安全性能优越。

API开放

2026年02月25日

OpenAI推出GPT-5.1模型升级，包含Instant与Thinking双版本架构

OpenAI正式发布GPT-5.1模型升级，推出Instant和Thinking双版本架构，分别优化响应速度与任务处理逻辑。新增个性化控制选项并优化部署策略，付费用户率先体验，API服务将更新为两个独立端点。

API更新

2025年11月13日

OpenAI DevDay 2025发布多维度技术升级，聚焦开发者生态强化

OpenAI在DevDay 2025推出Apps in ChatGPT功能及AgentKit工具集，实现第三方应用动态集成与工作流简化；同步发布Sora 2系列视频API与GPT-5 Pro模型，并披露用户与开发者数量显著增长数据。

Sora 2视频API

2025年10月08日

Anthropic禁止中资企业使用Claude服务，商汤启动迁移计划支持用户转向SenseNova

Anthropic禁止中资控股比例超过50%的企业使用Claude服务。商汤科技启动迁移支持计划，提供免费体验额度、顾问团队、培训课程、API测试和会员权益包，帮助用户转向SenseNova模型。

API测试接入

2025年09月09日

OpenAI推出gpt-realtime语音模型，开启语音AI代理新阶段

OpenAI发布端到端语音模型gpt-realtime，显著降低响应延迟并整合多模态能力。该模型在语音质量、智能理解、API支持及安全合规等方面实现全面升级，适用于多领域场景。

Realtime API

2025年08月29日

OpenAI计划推出GPT-5及开源模型扩展开发者生态

OpenAI将于8月初正式推出GPT-5大语言模型，并同步发布API版本。同时，公司计划在7月底推出开源语言模型，标志着开源策略的回归。

API

2025年07月25日

字节跳动开源 UI-TARS-1.5 智能体实现跨模态交互技术突破

字节跳动 UI-TARS-1.5 智能体通过视觉 - 语言联合建模在 OSworld 基准测试中以 42.5 分刷新纪录，其强化学习驱动的决策树机制使 WindowsAgentArena 执行精度提升 41.3%，并在 ScreenSpotPro 高难度定位任务中达到 61.6% 准确率。该框架创新引入思维链机制构建三阶段验证体系，误操作率降至行业最低水平。

多模态 API

2025年04月24日

ChatGPT 付费用户突破 2000 万月营收达 4.15 亿美元创行业新高

ChatGPT 付费用户量突破 2000 万大关，季度环比增长近 30%，月营收攀升至 4.15 亿美元。该产品通过双轨付费体系实现商业渗透，企业级 Pro 套餐与 API 生态协同推动年化收入突破 50 亿美元。

API 接口生态

2025年04月03日

xAI 开发者平台升级多模态能力，集成 grok-2-image 视觉生成模块

xAI 开发者平台完成多模态 API 升级，新增支持每秒 5 次并发处理的视觉生成能力。本次更新通过闭环式研发模式为 Grok-3 模型训练提供合成数据，探索商业化应用场景。

2025年03月21日