字节跳动 UI-TARS-1.5 智能体通过视觉 - 语言联合建模在 OSworld 基准测试中以 42.5 分刷新纪录,其强化学习驱动的决策树机制使 WindowsAgentArena 执行精度提升 41.3%,并在 ScreenSpotPro 高难度定位任务中达到 61.6% 准确率。该框架创新引入思维链机制构建三阶段验证体系,误操作率降至行业最低水平。