DIGIPUNK
去投稿

亚马逊发布 Nova Reel 1.1 视频生成引擎重大更新 实现 120 秒动态视频智能合成

亚马逊推出 Nova Reel 1.1 视频生成引擎迭代版本,实现 120 秒智能视频合成与双轨创作模式。该技术革新有效解决 UGC 视频生产痛点,推动 AI 视频进入工业化应用阶段。

2025年04月09日
谷歌 Gemini 2.5 Pro 模型发布 实现多层次推理框架与百万级上下文窗口突破

谷歌最新 AI 模型 Gemini 2.5 Pro 通过原生思维架构实现认知跃升,在 LMArena 和 GPQA 基准测试中刷新纪录。该模型支持百万级 token 上下文处理,并在 SWE-Bench 编程评估中以 63.8% 自主完成率创行业新高。

2025年03月26日
谷歌 Gemini Live 平台实现 AI 视觉交互技术商业化应用

谷歌基于 Project Astra 项目的多模态架构研发出支持实时屏幕解析与环境感知的 AI 功能,通过分布式边缘计算架构实现隐私安全与毫秒级响应。该系统在屏幕内容解释、物体识别及动态追踪等场景展现 92% 准确率,推动增强现实与移动交互技术深度融合。

2025年03月25日
xAI 开发者平台升级多模态能力,集成 grok-2-image 视觉生成模块

xAI 开发者平台完成多模态 API 升级,新增支持每秒 5 次并发处理的视觉生成能力。本次更新通过闭环式研发模式为 Grok-3 模型训练提供合成数据,探索商业化应用场景。

2025年03月21日
Mistral Small 3.1 以 240 亿参数规模刷新多项性能基准

Mistral Small 3.1 模型凭借创新架构在复杂逻辑推理与多模态任务中表现突出,其开源特性与终端部署能力推动 AI 应用向消费级硬件渗透。该模型通过视觉认知模块已在工业质检、金融合规等领域实现商业落地。

2025年03月19日
微软推出开源工具 OmniParser,优化复杂用户界面交互解析

微软正式开源 OmniParser,突破现有 AI 在复杂图形用户界面(GUI)识别中的局限性。该工具无需依赖 HTML 等基础数据,直接识别屏幕交互元素,极大提升了视觉解析的精准度。

2024年10月30日
OpenAI 推出高性价比 AI 模型GPT-4o mini

OpenAI 发布了最新的 AI 模型GPT-4o mini,旨在扩大其聊天机器人用途。该模型是功能最强大、性价比最高的小型模型,未来将集成图像、视频和音频功能。

2024年07月19日