字节跳动开源 UI-TARS-1.5 智能体实现跨模态交互技术突破

字节跳动 UI-TARS-1.5 智能体通过视觉 - 语言联合建模在 OSworld 基准测试中以 42.5 分刷新纪录，其强化学习驱动的决策树机制使 WindowsAgentArena 执行精度提升 41.3%，并在 ScreenSpotPro 高难度定位任务中达到 61.6% 准确率。该框架创新引入思维链机制构建三阶段验证体系，误操作率降至行业最低水平。

字

字节跳动开源 UI-TARS-1.5 智能体实现跨模态交互技术突破