核心要点👉
- 🤖 基于VLA架构实现设备端独立运行,无需云端支持
- ⚡ 显著降低响应延迟,适用于医疗等网络不稳定场景
- 🛠️ 双机械臂兼容多平台,支持高精度复杂操作任务
- 🧠 仅需50-100次演示即可训练新技能,快速功能定制
- 🔒 整合Live API安全检测,精确管理动作力度与速度
数智朋克获悉,谷歌DeepMind今日通过官方博客宣布,推出Gemini Robotics On-Device本地化机器人AI模型,这一创新技术基于视觉-语言-动作(VLA)架构,无需依赖云端支持即可直接控制实体机器人。该模型的核心优势在于独立运行于设备端,显著降低响应延迟,尤其适用于网络不稳定的医疗等场景,同时能够执行高精度操作任务,例如打开包袋拉链、叠衣服或系鞋带等复杂动作。双机械臂设计使其兼容ALOHA、Franka FR3及Apollo人形机器人平台。
开发人员可通过Gemini Robotics SDK工具包快速定制功能,仅需50至100次任务演示便能实现新技能训练,并利用MuJoCo物理模拟器进行预测试验证。安全保障机制整合了Live API语义安全检测,底层安全控制器精确管理动作力度与速度,同时开放语义安全基准测试框架供开发者评估风险。
项目负责人Carolina Parada强调,该系统借鉴了Gemini多模态世界理解能力,如同生成文本或图像那样高效生成机器人动作序列。目前,该模型仅面向可信测试计划开发者开放,采用Gemini 2.0架构构建,尚未集成最新Gemini 2.5版本。