DIGIPUNK
去投稿

谷歌正式推出Gemini 3人工智能模型

谷歌发布Gemini 3人工智能模型,官方称其为迄今最智能模型和世界最佳多模态理解系统,首日即整合至核心产品。该模型在多项基准测试中刷新纪录,并推出Antigravity开发平台重构人机协作范式。

2025年11月19日
JetBrains推出首个AI编码智能体基准测试平台DPAI Arena

JetBrains正式推出Developer Productivity AI Arena(DPAI Arena),作为首个面向AI编码智能体的开放式基准测试平台,解决行业基准测试的核心缺陷。该平台支持多样化工程场景,并将移交Linux基金会管理,推动行业统一评估框架。

2025年11月18日
月之暗面推出开源思考模型Kimi K2 Thinking,AI领域实现技术突破

月之暗面发布基于'模型即Agent'理念的开源思考模型Kimi K2 Thinking,支持300轮自主操作并在多项基准测试刷新记录。该模型通过动态循环实现复杂任务分解,并在编码能力与通用基础能力上实现显著升级。

2025年11月10日
腾讯发布Youtu-agent开源框架,专为构建自主智能体设计

腾讯推出Youtu-agent开源框架,整合数据分析、文件处理等核心功能以提升智能体执行能力。该框架在基准测试中表现卓越,兼容多种模型API确保高度扩展性。

2025年09月02日
谷歌DeepMind推出Gemini 2.5 Flash Image图像模型

谷歌DeepMind正式推出Gemini 2.5 Flash Image图像模型,优化了速度与上下文理解,支持基于文本提示的精准编辑。该模型在LMArena基准测试中表现领先,提供安全机制,开发者可通过Gemini API等访问,输出定价为每百万token 30美元。

2025年08月27日
红杉中国开源ScienceQA与DeepSearch评测集,推动AI基准测试突破

红杉中国开源ScienceQA和DeepSearch两大AI评测组件,分别针对学科推理与深度搜索能力建立专业评估体系。评测集采用多阶段验证、动态更新机制,并已在主流开发平台同步发布。

2025年06月19日