UI-TARS：字节跳动的开源“数字员工”，如何重塑人机交互的未来？

只需一句话，你的电脑就能像拥有了一位理解你意图的助手，打开软件、整理文件、预订机票——这不是科幻电影，而是字节跳动开源的UI-TARS正在创造的现实。

“帮我查看GitHub上UI-TARS项目最新的开放议题。”

指令下达后，屏幕上鼠标指针自动移动、点击，浏览器打开项目页面，准确筛选并提取出最新议题列表。整个过程无需人工介入，仿佛一个隐形的数字员工在执行任务。

这正是字节跳动UI-TARS系统的实际应用场景。这个项目在GitHub上以超过26，000星标的热度成为2026年初最受瞩目的AI开源项目之一。

作为一套多模态AI智能体系统，UI-TARS正在从根本上改变人与计算机的交互模式——从传统的键盘鼠标操作，转向最自然的语言交流。

01 进化之路：从规则脚本到原生智能体的技术跃迁

传统GUI自动化工具如Selenium和AutoHotkey，依赖精确的元素定位和预定义脚本。这种规则导向的方法在面对界面变更、动态内容或跨平台需求时，往往显得脆弱且维护成本高昂。

RPA（机器人流程自动化）虽有所进步，但仍需要专业人员编写复杂脚本，部署成功率不足60%。

UI-TARS标志着从模块化自动化到端到端原生智能体的根本性转变。它采用统一策略循环，将视觉感知、推理、动作和记忆整合到单一模型中。

系统通过大规模GUI截图训练的视觉模型，使AI能够像人类一样“看懂”界面，理解按钮位置、文字含义和界面状态，而非依赖脆弱的代码定位。

UI-TARS的强大功能源于其多层次的技术架构，四个关键技术支柱共同支撑起它的智能交互能力。

统一的策略循环架构：UI-TARS-2采用基于532M参数视觉编码器的专家混合Transformer架构。该策略统一处理多模态观察、记忆和任务指令，将感知、动作定位和系统级推理整合到端到端的学习框架中。

思维增强规划机制：系统引入明确的System-2推理机制，通过中间“思维”令牌支持复杂多步骤决策。这些思维令牌编码了任务分解、里程碑识别、反思和试错等推理模式，使AI能够像人类一样思考问题解决路径。

反思式数据飞轮：UI-TARS建立了迭代数据生成机制，包含持续预训练、监督微调和强化学习的循环。系统部署在大型虚拟设备池上，通过多阶段过滤和错误校正，不断自我完善。

混合GUI-SDK环境：除了纯GUI交互，UI-TARS-2还集成了混合GUI-SDK后端，允许代理执行屏幕操作的同时，访问文件系统、调用SDK工具，甚至使用嵌入式开发环境。这种设计极大地扩展了系统的应用范围。

表：UI-TARS核心组件功能解析

在权威的OSWorld基准测试中，UI-TARS-2取得了47.5分的成绩，超越了OpenAI o3的42.9分和Claude-4的43.9分。

在AndroidWorld移动自动化测试中，UI-TARS-2更是以73.3分的优异成绩，明显领先于OpenAI o3的52.5分。

特别值得一提的是，在11款Poki游戏的测试中，UI-TARS-1.5实现了100%的完成率，而OpenAI CUA和Claude 3.7在这些游戏中的表现则相形见绌。

这一性能优势源于UI-TARS独特的强化学习框架。系统采用近端策略优化，并引入解耦GAE、长度自适应GAE、值预训练和差异化剪裁等增强技术。这些创新显著提升了系统在长序列任务中的稳定性。

表：UI-TARS-2与竞争模型性能对比（基于OSWorld基准）

模型	OSWorld分数	AndroidWorld分数	BrowseComp-zh	关键特点
UI-TARS-2	47.5	73.3	50.5	混合GUI-SDK，统一策略循环
OpenAI o3	42.9	52.5	未提供	商业闭源，推理能力强
Claude-4	43.9	未提供	22.5	长上下文，强推理能力
UI-TARS-1.5	42.5	64.2	未提供	轻量化，适合本地部署