字节跳动的 UI-TARS 可以接管你的电脑，性能优于 GPT-4o 和 Claude

王浩然 • 2025年1月23日下午1:00 • AI前沿 • 196 views

TikTok 母公司推出了一款新的 AI 代理，可以控制您的计算机并执行复杂的工作流程。

与 Anthropic 的Computer Use非常相似，字节跳动的新 UI-TARS 可以理解图形用户界面 (GUI)、应用推理并采取自主的、逐步的行动。

PC/MacOS 代理使用了大约 500 亿个令牌进行训练，并提供 70 亿和 720 亿个参数版本，在性能、感知、基础和整体代理能力等方面的 10 多个 GUI 基准测试中实现了最先进 (SOTA) 的性能，持续击败 OpenAI 的 GPT-4o、Claude 和谷歌的 Gemini。

字节跳动和清华大学的研究人员在一篇新的研究论文中写道： “通过迭代训练和反射调优，UI-TARS 不断从错误中学习，并在最少的人为干预下适应不可预见的情况。”

UI-TARS 如何解释其想法

UI-TARS 适用于桌面、移动和网络应用程序，使用多模式输入（文本、图像、交互）来理解视觉环境。

它的用户界面有两个选项卡——一个在左边，显示其逐步的“思考”，另一个在右边，更大的选项卡用于提取文件、网站和应用程序并自动采取行动。

例如，在今天发布的演示视频中，模型被提示“查找下个月 5 号从西雅图飞往纽约的往返航班，并按价格升序筛选”。

作为响应，UI-TARS 会导航到达美航空的网站，填写“从”和“到”字段，点击相关日期并按价格进行排序和筛选，并在采取行动之前在其思维框中解释每个步骤。

在另一个场景中，它被指示在 VS Code 中安装 autoDocstring 扩展。以下是它完成该任务的分步思路：

超越竞争对手

研究人员报告称，在各种基准测试中，UI-TARS 的排名始终优于 OpenAI 的 GPT-4o、Anthropic 的 Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Gemini-2.0、四个Qwen 模型以及众多学术模型。

例如，在 VisualWebBench（衡量模型对网页元素（包括网页质量保证和光学字符识别）的能力）中，UI-TARS 72B 得分为 82.8%，优于 GPT-4o（78.5%）和 Claude 3.5（78.2%）。

它在 WebSRC 基准测试（理解 Web 环境中的语义内容和布局）和 ScreenQA-short（理解复杂的移动屏幕布局和 Web 结构）上的表现也明显更好。UI-TARS-7B 在 WebSRC 上取得了 93.6% 的领先分数，而 UI-TARS-72B 在 ScreenQA-short 上取得了 88.6% 的分数，优于 Qwen、Gemini、Claude 3.5 和 GPT-4o。

研究人员写道：“这些结果证明了 UI-TARS 在网络和移动环境中的卓越感知和理解能力。”“这种感知能力为代理任务奠定了基础，其中准确的环境理解对于任务执行和决策至关重要。”

UI-TARS 在 ScreenSpot Pro 和 ScreenSpot v2 中也表现出色，这两个测试评估了模型理解和定位 GUI 元素的能力。此外，研究人员还测试了其在移动环境中规划多步骤操作和低级任务的能力，并在 OSWorld（评估开放式计算机任务）和 AndroidWorld（对 20 个移动应用中的 116 个程序化任务的自主代理进行评分）上对其进行了基准测试。

内部原理

为了帮助它采取逐步行动并识别所看到的内容，UI-TARS 在一个大规模屏幕截图数据集上进行了训练，该数据集解析了来自各种网站、应用程序和操作系统的元数据，包括元素描述和类型、视觉描述、边界框（位置信息）、元素功能和文本。这使得模型能够提供屏幕截图的全面、详细的描述，不仅捕捉元素，还捕捉空间关系和整体布局。

该模型还使用状态转换字幕来识别和描述两个连续屏幕截图之间的差异，并确定是否发生了鼠标单击或键盘输入等操作。同时，标记集 (SoM) 提示允许它在图像的特定区域上叠加不同的标记（字母、数字）。

该模型配备短期和长期记忆来处理手头的任务，同时保留历史交互以改进后续决策。研究人员训练该模型执行系统 1（快速、自动和直观）和系统 2（缓慢和深思熟虑）推理。这允许进行多步骤决策、“反思”思维、里程碑识别和错误纠正。

研究人员强调，模型必须能够保持一致的目标，并在完成任务之前进行反复试验，以假设、测试和评估潜在行动。他们引入了两种类型的数据来支持这一点：错误纠正和反思后数据。对于错误纠正，他们识别错误并标记纠正措施；对于反思后，他们模拟恢复步骤。

研究人员写道：“这种策略确保代理不仅学会避免错误，而且还能在错误发生时动态地适应。”

显然，UI-TARS 展现出了令人印象深刻的功能，在竞争日益激烈的 AI 代理领域，其用例的不断演变将会很有趣。正如研究人员指出的那样：“展望未来，虽然原生代理代表着重大飞跃，但未来在于主动学习和终身学习的融合，代理可以通过持续的现实世界互动自主地推动自己的学习。”

研究人员指出，Claude Computer Use“在基于Web的任务中表现强劲，但在移动场景中表现明显吃力，这表明Claude的GUI操作能力尚未很好地转移到移动领域”。

相比之下，“UI-TARS 在网站和移动领域都表现出色。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/zi-jie-tiao-dong-de-uitars-ke-yi-jie-guan-ni-de-dian-nao

Like (0)

王浩然作者

0 0

德勤：74% 的企业已达到或超过人工智能计划（但挑战依然存在）

Previous 2025年1月22日

谷歌发布免费 Gemini 2.0 Flash Thinking 模型，对 OpenAI 的付费战略施压

Next 2025年1月23日

AI前沿

Salesforce豪掷10亿美元投资新加坡，力推AI技术普及‌

在科技日新月异的今天，人工智能（AI）已经成为推动各行各业发展的重要力量。近日，全球领先的客户关系管理软件提供商Salesforce宣布了一项重大投资决策——将在新加坡投入高达10…

王浩然
2025年3月13日
000
AI前沿

外滩大会揭秘：AI的未来5年，你准备好了吗？

在一些悲观者看来，人工智能的发展似乎变慢了。 2022 年底，ChatGPT 发布，五天用户注册超过百万，两个月后月活用户超过 1 亿，以此为起点，几乎每家…

点点
2024年9月9日
000
AI前沿

为医生配备人工智能副驾驶

大多数医生从医是因为他们想帮助患者。但当今的医疗保健系统要求医生每天花费数小时处理其他工作——搜索电子健康记录 (EHR)、编写文档、编码和计费、事先授权和使用管理——通常超过他们…

王浩然
2024年10月20日
000
AI前沿

烟雾、反射和入口：Adobe 的 TransPixar 将 AI VFX 提升到新水平

Adobe Research和香港科技大学(HKUST)的一个团队开发了一种人工智能系统，可以改变电影、游戏和交互式媒体的视觉效果的制作方式。这项名为TransPixar的技术为…

王浩然
2025年1月9日
000
AI前沿

谷歌删除了具有误导性的 Gemini 视频

谷歌已将去年 12 月发布的一段令人印象深刻的 Gemini 演示视频撤下，该视频似乎具有极强的对话性。广告行业监督机构 BBB 国家计划的国家广告部门 (NAD)询问该视频是否“…

王浩然
2024年9月14日
000
AI前沿

2025 年的身份管理：安全团队可通过 4 种方式解决漏洞和风险

虽然99%的企业计划在安全方面投入更多，但只有52% 的企业完全实施了多因素身份验证 (MFA)，只有41% 的企业在访问管理中遵守最小特权原则。包括民族国家、国家资助的攻击者和…

王浩然
2024年11月11日
000
AI前沿

Midjourney结束了必须使用Discord来生成AI图片的时代

Midjourney是否因竞争对手数量激增而感到压力？随着越来越多的公司进入AI图像生成领域，竞争自然会加剧，用户也会有更多选择。因此，Midjourney可能会感到一些压力，并…

王浩然
2024年8月23日
000
AI前沿

谷歌推出基于Gemini的新文本嵌入模型‌

近日，谷歌在人工智能领域再度发力，正式推出了一款基于Gemini架构的全新文本嵌入模型。这一创新之举标志着谷歌在自然语言处理技术上取得了新的突破。据悉，该模型采用了先进的Gemi…

王浩然
2025年3月10日
000
AI前沿

SparkLabs 募集 5000 万美元基金，支持 AI 初创企业

SparkLabs是一家早期风险投资公司，因支持OpenAI以及 Vectara、Allganize、Kneron、Anthropic、xAI、Glade (YC S23) 和 L…

王浩然
2024年9月3日
000
AI前沿

超越生成式AI：代理式AI的崛起与影响

近年来，生成式AI（如ChatGPT）的兴起引起了广泛关注，并在多个领域展现出了巨大的应用潜力。然而，随着技术的进一步发展，一种更为先进、功能更为强大的AI形态——代理式AI（Ag…

王浩然
2025年3月14日
000
AI前沿

LinkedIn 在更新服务条款前曾抓取用户数据用于培训

LinkedIn 可能已经在没有更新其条款的情况下利用用户数据训练了 AI 模型。 LinkedIn 的美国用户（欧盟、欧洲经济区或瑞士除外，这可能是由于这些地区的数据隐私规则）在…

王浩然
2024年9月19日
000
AI前沿

DeepSeek：全面了解这款AI聊天机器人应用‌

在人工智能领域，一款名为DeepSeek的聊天机器人应用正逐渐崭露头角。这款应用凭借其强大的AI技术和出色的用户体验，吸引了众多用户的关注。 DeepSeek的核心优势在于其先进的…

王浩然
2025年3月10日
000
AI前沿

Nvidia 人工智能人形机器人在拉斯维加斯提供咖啡

Richtech Robotics 公司生产的 Adam 机器人将于周日在 Town Square 的 Clouffee and Tea 开始工作采用 Nvidia AI 技术的…

王浩然
2025年2月18日
000
AI前沿

开放深度搜索：挑战Perplexity与ChatGPT搜索的新势力‌

在人工智能（AI）搜索领域，一场新的变革正在悄然发生。Sentient基金会的研究人员近期发布了开放深度搜索（Open Deep Search，简称ODS），这一开源框架旨在与诸如…

王浩然
5天前
000
AI前沿

人工智能如何塑造民主对话的未来

在当今政治两极分化的世界中，在复杂的社会和政治问题上找到共同点变得越来越困难。随着社会变得越来越多元化，气候变化、移民和经济政策等关键问题上的分歧只会越来越大。让人们聚在一起就复杂…

点点
2024年11月5日
000
AI前沿

思科研究：公用事业公司采用人工智能实现更一体化的运营

根据思科的最新报告，近一半的公用事业公司希望人工智能将支持其运营中不可或缺的 IT 和运营技术 (OT) 功能之间的更好协作。该报告采访了 17 个国家的 145 名公用事业行业…

王浩然
2024年12月22日
000
AI前沿

OpenAI已开始组建其机器人团队

OpenAI 以其人工智能模型而闻名，迄今为止，这些模型主要存在于云服务器、其网站以及适用于 PC 和移动设备的应用程序中。不过，该公司的雄心并不局限于软件领域：今天在 X 上，…

王浩然
2025年1月11日
000
AI前沿

Google Cloud 将搜索和 YouTube 背后的技术引入企业 AI 应用

随着生成式人工智能的不断进步，对于许多企业来说，一个简单的聊天机器人可能已不再足够。云计算超大规模提供商正在竞相建立自己的数据库和工具，以帮助企业快速高效地部署运营数据，从而构建…

点点
2024年10月4日
000
AI前沿

Anthropic 推出全新 Claude AI 模型和“计算机控制”

Anthropic宣布升级其 AI 产品组合，包括增强型 Claude 3.5 Sonnet 模型和推出 Claude 3.5 Haiku，同时在公开测试版中推出“计算机控制”功能…

点点
2024年10月24日
000
AI前沿

微软通过新数据工具增强 Fabric 功能，以加速企业 AI 工作流程

今天，微软启动了Ignite 大会，讨论人工智能的各个方面，包括如何组建最大的人工智能代理生态系统，并允许企业使用其提供的 1,800 种大型语言模型中的任何一种来构建更多此类应用…

王浩然
2024年11月21日
000