DIGIPUNK
去投稿

Open-AutoGLM Phone Agent:让 AI 真正学会 “使用手机” 的智能助理框架



手机上的 AI 管家:Open-AutoGLM Phone Agent 是什么?

Open-AutoGLM (Phone Agent) 是基于 AutoGLM 构建的移动智能助理框架,能以多模态方式理解手机屏幕内容,通过自动化操作帮助用户完成任务。这个系统通过 ADB 控制设备、利用视觉语言模型进行屏幕感知、结合智能规划能力生成并执行操作工作流,用户只需用自然语言描述需求,Phone Agent 就能自动解析意图、理解当前界面、规划下一步行动并完成整个工作流。

从外卖到客服:Phone Agent 的用户价值

智谱微信公众号宣布开源其核心 AI Agent 模型 AutoGLM,以让 AI 真正学会 “使用手机” 为目标,可帮助用户完成外卖下单、云手机通知处理、销售客服出勤场景自动操作等。AutoGLM 被视为首个具备 “Phone Use” 能力的 AI Agent,支持超 50 款主流中文应用,能完成启动应用、输入文本等操作。虽然目前与真正的贾维斯还有距离,但能让用户拥有本地运行、为自己服务的 Agent。

安全第一:Phone Agent 的核心工作机制

Phone Agent 通过 ADB 控制设备,以视觉语言模型感知屏幕,结合智能规划生成并执行操作流程。系统内置敏感操作确认机制,支持在登录或验证码场景下手动接管,还提供远程 ADB 调试功能,允许通过 WiFi 或网络连接设备。面对敏感操作会发起人工接管请求,在云端运行端侧模型以隔离敏感数据,确保用户隐私安全。

技术宅指南:如何部署 Phone Agent?

部署 Phone Agent 需要准备 Python 3.10 + 环境、ADB 工具和 Android 7.0 + 设备或模拟器。具体步骤包括:安装 ADB 并配置环境变量、启用设备开发者模式和 USB 调试、安装 ADB Keyboard 输入法。然后安装项目依赖,通过 vLLM 等推理引擎框架启动模型服务。项目强调仅用于研究和学习,严禁用于非法信息收集、系统干扰或任何非法活动。

数智朋克点评:Phone Agent 的技术突破与挑战

作为首个具备 “Phone Use” 能力的 AI Agent,AutoGLM Phone Agent 代表了移动端 AI 助理的重要突破。其多模态理解能力和自动化工作流展示了 AI 在真实设备操作中的潜力。虽然目前存在任务完成率不高、响应时间长等问题,但其 9B 端侧模型的高准确性为 APP 自动化提供了新方向。技术团队选择在云端运行端侧模型的隐私保护方案值得肯定,但如何在保证安全的同时提升性能,将是未来版本需要解决的关键问题。这个开源项目为研究社区提供了宝贵资源,有望推动 AI 助理技术的进一步发展。

由数智朋克团队策划
发表于 3 hours ago

所属标签
Open-AutoGLM
PhoneAgent
AutoGLM
AI 助理
移动自动化

本文链接: https://www.shuzhipunk.com/articles/0csUwxsL5h0
转载请注明文章出处

Open-AutoGLM Phone Agent
Open-AutoGLM Phone Agent 是基于 AutoGLM 的移动智能助理框架,能通过多模态方式理解手机屏幕并自动执行任务。作为首个具备 “Phone Use” 能力的 AI Agent,它支持 50 + 中文应用,采用 ADB 控制 + 视觉语言模型 + 智能规划的工作机制,内置安全防护措施。虽然性能仍有提升空间,但为 AI 助理技术开辟了新方向。
1
篇内容持续更新