微软Copilot已向网页、Windows及移动端用户免费升级GPT 5.2模型, 作为'智能+'模式并行运行。该模型强化复杂任务处理能力, 在多项测试中表现超越人类专家, 显著提升办公效率。
OpenAI发布了基于GPT-5.2架构的GPT-5.2-Codex模型,针对代码生成任务深度优化,显著提升长序列任务处理能力和Windows环境效率。该模型在基准测试中刷新纪录,网络安全能力实现连续跃升,并实施了多层次安全措施和渐进式部署策略。
OpenAI发布新一代图像模型GPT Image 1.5,在基准测试中领先但用户反馈两极分化。新模型技术提升显著且成本降低20%,但在中文文本和图像真实度方面存在不足。
谷歌发布Gemini 3人工智能模型,官方称其为迄今最智能模型和世界最佳多模态理解系统,首日即整合至核心产品。该模型在多项基准测试中刷新纪录,并推出Antigravity开发平台重构人机协作范式。
JetBrains正式推出Developer Productivity AI Arena(DPAI Arena),作为首个面向AI编码智能体的开放式基准测试平台,解决行业基准测试的核心缺陷。该平台支持多样化工程场景,并将移交Linux基金会管理,推动行业统一评估框架。
月之暗面发布基于'模型即Agent'理念的开源思考模型Kimi K2 Thinking,支持300轮自主操作并在多项基准测试刷新记录。该模型通过动态循环实现复杂任务分解,并在编码能力与通用基础能力上实现显著升级。
腾讯推出Youtu-agent开源框架,整合数据分析、文件处理等核心功能以提升智能体执行能力。该框架在基准测试中表现卓越,兼容多种模型API确保高度扩展性。
谷歌DeepMind正式推出Gemini 2.5 Flash Image图像模型,优化了速度与上下文理解,支持基于文本提示的精准编辑。该模型在LMArena基准测试中表现领先,提供安全机制,开发者可通过Gemini API等访问,输出定价为每百万token 30美元。
红杉中国开源ScienceQA和DeepSearch两大AI评测组件,分别针对学科推理与深度搜索能力建立专业评估体系。评测集采用多阶段验证、动态更新机制,并已在主流开发平台同步发布。