腾讯推出Youtu-agent开源框架,整合数据分析、文件处理等核心功能以提升智能体执行能力。该框架在基准测试中表现卓越,兼容多种模型API确保高度扩展性。
谷歌DeepMind正式推出Gemini 2.5 Flash Image图像模型,优化了速度与上下文理解,支持基于文本提示的精准编辑。该模型在LMArena基准测试中表现领先,提供安全机制,开发者可通过Gemini API等访问,输出定价为每百万token 30美元。
红杉中国开源ScienceQA和DeepSearch两大AI评测组件,分别针对学科推理与深度搜索能力建立专业评估体系。评测集采用多阶段验证、动态更新机制,并已在主流开发平台同步发布。