DIGIPUNK
去投稿

OpenAI发布新一代多模态交互模型GPT-Realtime-1.5

OpenAI正式推出GPT-Realtime-1.5多模态模型,支持实时音频和视觉处理,实现低延迟交互。该模型显著优化响应速度,开放API接口,并采用端到端加密和内容过滤确保安全。

2026年02月25日
Google DeepMind推出Lyria 3音乐AI模型,Google发布Gemini 3.1 Pro旗舰AI

Lyria 3是专为音乐生成设计的AI系统,能创作高品质乐曲、歌词和人声,计划通过API开放。Gemini 3.1 Pro是谷歌最新旗舰模型,具备多模态推理能力,在复杂任务上表现卓越,安全性能优越。

2026年02月25日
OpenAI推出GPT-5.1模型升级,包含Instant与Thinking双版本架构

OpenAI正式发布GPT-5.1模型升级,推出Instant和Thinking双版本架构,分别优化响应速度与任务处理逻辑。新增个性化控制选项并优化部署策略,付费用户率先体验,API服务将更新为两个独立端点。

2025年11月13日
OpenAI DevDay 2025发布多维度技术升级,聚焦开发者生态强化

OpenAI在DevDay 2025推出Apps in ChatGPT功能及AgentKit工具集,实现第三方应用动态集成与工作流简化;同步发布Sora 2系列视频API与GPT-5 Pro模型,并披露用户与开发者数量显著增长数据。

2025年10月08日
Anthropic禁止中资企业使用Claude服务,商汤启动迁移计划支持用户转向SenseNova

Anthropic禁止中资控股比例超过50%的企业使用Claude服务。商汤科技启动迁移支持计划,提供免费体验额度、顾问团队、培训课程、API测试和会员权益包,帮助用户转向SenseNova模型。

2025年09月09日
OpenAI推出gpt-realtime语音模型,开启语音AI代理新阶段

OpenAI发布端到端语音模型gpt-realtime,显著降低响应延迟并整合多模态能力。该模型在语音质量、智能理解、API支持及安全合规等方面实现全面升级,适用于多领域场景。

2025年08月29日
OpenAI计划推出GPT-5及开源模型扩展开发者生态

OpenAI将于8月初正式推出GPT-5大语言模型,并同步发布API版本。同时,公司计划在7月底推出开源语言模型,标志着开源策略的回归。

2025年07月25日
字节跳动开源 UI-TARS-1.5 智能体实现跨模态交互技术突破

字节跳动 UI-TARS-1.5 智能体通过视觉 - 语言联合建模在 OSworld 基准测试中以 42.5 分刷新纪录,其强化学习驱动的决策树机制使 WindowsAgentArena 执行精度提升 41.3%,并在 ScreenSpotPro 高难度定位任务中达到 61.6% 准确率。该框架创新引入思维链机制构建三阶段验证体系,误操作率降至行业最低水平。

2025年04月24日
ChatGPT 付费用户突破 2000 万 月营收达 4.15 亿美元创行业新高

ChatGPT 付费用户量突破 2000 万大关,季度环比增长近 30%,月营收攀升至 4.15 亿美元。该产品通过双轨付费体系实现商业渗透,企业级 Pro 套餐与 API 生态协同推动年化收入突破 50 亿美元。

2025年04月03日
xAI 开发者平台升级多模态能力,集成 grok-2-image 视觉生成模块

xAI 开发者平台完成多模态 API 升级,新增支持每秒 5 次并发处理的视觉生成能力。本次更新通过闭环式研发模式为 Grok-3 模型训练提供合成数据,探索商业化应用场景。

2025年03月21日