
TikTok 母公司推出了一款新的 AI 代理,可以控制您的计算机并执行复杂的工作流程。
与 Anthropic 的Computer Use非常相似,字节跳动的新 UI-TARS 可以理解图形用户界面 (GUI)、应用推理并采取自主的、逐步的行动。
PC/MacOS 代理使用了大约 500 亿个令牌进行训练,并提供 70 亿和 720 亿个参数版本,在性能、感知、基础和整体代理能力等方面的 10 多个 GUI 基准测试中实现了最先进 (SOTA) 的性能,持续击败 OpenAI 的 GPT-4o、Claude 和谷歌的 Gemini。

字节跳动和清华大学的研究人员在一篇新的研究论文中写道: “通过迭代训练和反射调优,UI-TARS 不断从错误中学习,并在最少的人为干预下适应不可预见的情况。”

UI-TARS 如何解释其想法
UI-TARS 适用于桌面、移动和网络应用程序,使用多模式输入(文本、图像、交互)来理解视觉环境。
它的用户界面有两个选项卡——一个在左边,显示其逐步的“思考”,另一个在右边,更大的选项卡用于提取文件、网站和应用程序并自动采取行动。
例如,在今天发布的演示视频中,模型被提示“查找下个月 5 号从西雅图飞往纽约的往返航班,并按价格升序筛选”。
作为响应,UI-TARS 会导航到达美航空的网站,填写“从”和“到”字段,点击相关日期并按价格进行排序和筛选,并在采取行动之前在其思维框中解释每个步骤。
在另一个场景中,它被指示在 VS Code 中安装 autoDocstring 扩展。以下是它完成该任务的分步思路:

超越竞争对手
研究人员报告称,在各种基准测试中,UI-TARS 的排名始终优于 OpenAI 的 GPT-4o、Anthropic 的 Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Gemini-2.0、四个Qwen 模型以及众多学术模型。
例如,在 VisualWebBench(衡量模型对网页元素(包括网页质量保证和光学字符识别)的能力)中,UI-TARS 72B 得分为 82.8%,优于 GPT-4o(78.5%)和 Claude 3.5(78.2%)。
它在 WebSRC 基准测试(理解 Web 环境中的语义内容和布局)和 ScreenQA-short(理解复杂的移动屏幕布局和 Web 结构)上的表现也明显更好。UI-TARS-7B 在 WebSRC 上取得了 93.6% 的领先分数,而 UI-TARS-72B 在 ScreenQA-short 上取得了 88.6% 的分数,优于 Qwen、Gemini、Claude 3.5 和 GPT-4o。
广告
研究人员写道:“这些结果证明了 UI-TARS 在网络和移动环境中的卓越感知和理解能力。”“这种感知能力为代理任务奠定了基础,其中准确的环境理解对于任务执行和决策至关重要。”
UI-TARS 在 ScreenSpot Pro 和 ScreenSpot v2 中也表现出色,这两个测试评估了模型理解和定位 GUI 元素的能力。此外,研究人员还测试了其在移动环境中规划多步骤操作和低级任务的能力,并在 OSWorld(评估开放式计算机任务)和 AndroidWorld(对 20 个移动应用中的 116 个程序化任务的自主代理进行评分)上对其进行了基准测试。


内部原理
为了帮助它采取逐步行动并识别所看到的内容,UI-TARS 在一个大规模屏幕截图数据集上进行了训练,该数据集解析了来自各种网站、应用程序和操作系统的元数据,包括元素描述和类型、视觉描述、边界框(位置信息)、元素功能和文本。这使得模型能够提供屏幕截图的全面、详细的描述,不仅捕捉元素,还捕捉空间关系和整体布局。
该模型还使用状态转换字幕来识别和描述两个连续屏幕截图之间的差异,并确定是否发生了鼠标单击或键盘输入等操作。同时,标记集 (SoM) 提示允许它在图像的特定区域上叠加不同的标记(字母、数字)。
该模型配备短期和长期记忆来处理手头的任务,同时保留历史交互以改进后续决策。研究人员训练该模型执行系统 1(快速、自动和直观)和系统 2(缓慢和深思熟虑)推理。这允许进行多步骤决策、“反思”思维、里程碑识别和错误纠正。
研究人员强调,模型必须能够保持一致的目标,并在完成任务之前进行反复试验,以假设、测试和评估潜在行动。他们引入了两种类型的数据来支持这一点:错误纠正和反思后数据。对于错误纠正,他们识别错误并标记纠正措施;对于反思后,他们模拟恢复步骤。
研究人员写道:“这种策略确保代理不仅学会避免错误,而且还能在错误发生时动态地适应。”
显然,UI-TARS 展现出了令人印象深刻的功能,在竞争日益激烈的 AI 代理领域,其用例的不断演变将会很有趣。正如研究人员指出的那样:“展望未来,虽然原生代理代表着重大飞跃,但未来在于主动学习和终身学习的融合,代理可以通过持续的现实世界互动自主地推动自己的学习。”
研究人员指出,Claude Computer Use“在基于Web的任务中表现强劲,但在移动场景中表现明显吃力,这表明Claude的GUI操作能力尚未很好地转移到移动领域”。
相比之下,“UI-TARS 在网站和移动领域都表现出色。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/zi-jie-tiao-dong-de-uitars-ke-yi-jie-guan-ni-de-dian-nao