微软的 Windows Agent Arena：教 AI 助手操作你的 PC

王浩然 • 2024年9月15日上午10:00 • AI前沿 • 58 views

微软推出了一项突破性的基准测试，名为Windows Agent Arena (WAA)，用于在真实的 Windows 操作系统环境中测试人工智能代理。这个新平台旨在加速开发能够在各种应用程序中执行复杂计算机任务的人工智能助手。

这项研究发表在 arXiv.org 上，解决了评估 AI 代理性能的关键挑战。研究人员写道：“大型语言模型显示出作为计算机代理的惊人潜力，提高了人类在需要规划和推理的多模式任务中的生产力和软件可访问性。”“然而，在现实环境中衡量代理性能仍然是一个挑战。”

Windows Agent Arena：AI 助手的虚拟游乐场

Windows Agent Arena 提供了一个可重现的测试平台，AI 代理可与常见的 Windows 应用程序、Web 浏览器和系统工具进行交互，从而模拟人类用户体验。该平台包括 150 多项不同的任务，涵盖文档编辑、Web 浏览、编码和系统配置。

WAA 的一项关键创新是它能够在 Microsoft Azure 云中的多个虚拟机上并行测试。该论文指出：“我们的基准测试具有可扩展性，可以在 Azure 中无缝并行化，在短短 20 分钟内完成完整的基准测试评估。”与可能需要数天的传统顺序测试相比，这大大加快了开发周期。

Navi：微软的新型 AI 代理可执行人类级别的任务

为了展示该平台的功能，微软推出了一款名为Navi 的新型多模式 AI 代理。在测试中，Navi 在 WAA 任务中的成功率为 19.5%，而无人协助的人类成功率为 74.5%。这些结果凸显了在开发能够与人类操作计算机的能力相匹配的 AI 方面取得的进展和仍然存在的挑战。

该研究的主要作者 Rogerio Bonatti 表示：“Windows Agent Arena 为突破 AI 代理的界限提供了一个现实而全面的环境。通过使我们的基准开源，我们希望加速整个 AI 社区对这一关键领域的研究。”

WAA 的发布正值科技巨头之间竞争日趋激烈之际，它们都在开发能够自动执行复杂计算机任务的更强大的人工智能助手。微软对 Windows 环境的关注可能会让其在企业场景中占据优势，因为 Windows 仍然是企业场景中的主导操作系统。

在人工智能代理开发中平衡创新与道德

虽然 Navi 等人工智能代理的潜在优势十分巨大，但此类技术的发展也引发了重要的道德考量。随着这些代理变得越来越复杂，它们将前所未有地访问用户的数字生活，并可能通过各种应用程序与敏感的个人和专业信息进行交互。

AI 代理能够在 Windows 环境中自由操作（访问文件、发送电子邮件或修改系统设置），这凸显了对强大安全措施和明确用户同意协议的需求。在赋予 AI 有效协助用户的能力与维护用户隐私和对其数字域的控制之间，需要取得微妙的平衡。

此外，随着人工智能代理越来越能够模仿人类与计算机系统的交互，透明度和责任制的问题也随之而来。用户可能需要清楚地了解他们与人工智能而不是人类交互的时间，尤其是在专业或高风险场景中。人工智能代理有可能代表用户做出重大决策或行动，这也引发了责任问题，随着技术的成熟，这些问题需要得到解决。

微软决定开源 Windows Agent Arena，这是朝着协作开发和审查这些技术迈出的积极一步。然而，这也意味着潜在的不道德行为者可能会利用该平台开发具有恶意的人工智能代理，这凸显了在这一快速发展的领域需要持续警惕，甚至可能进行监管。

随着 WAA 加速开发更强大的 AI 代理，研究人员、伦理学家、政策制定者和公众必须持续讨论这些技术的影响。该基准不仅衡量技术进步，还提醒我们必须应

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wei-ruan-de-windows-agent-arena-jiao-ai-zhu-shou-cao-zuo-ni

AI AI 助手 Navi WAA Web Windows 应用程序微软操作系统

Like (0)

王浩然作者

0 0

Google 的 Gemini Live 现已在 Android 上免费提供

Previous 2024年9月15日上午9:00

OpenAI 的 o1-preview 和 o1-mini 模型对开发人员意味着什么

Next 2024年9月15日上午11:00

AI前沿

在《Roadrunner》遭到强烈反对后，导演摩根·内维尔 (Morgan Neville) 避开了生成式人工智能

摩根·内维尔 (Morgan Neville) 执导的关于安东尼·波登的纪录片《Roadrunner》最引人注目的方面之一是内维尔使用生成式人工智能来复制波登的声音。现在回想起来…

王浩然
2024年10月14日
000
AI前沿

2纳米，台积电又赢了

英特尔工艺遇挫，三星撬不动客户。

点点
2024年9月6日
000
AI前沿

Nvidia 与埃森哲携手推动企业代理人工智能

Nvidia 将为全球最大的 IT 服务提供商提供支持，创建新的业务集团，并帮助推出埃森哲的 AI Refinery 平台，用于代理 AI

点点
2024年10月8日
000
AI前沿

谷歌量子人工智能投资波士顿初创公司

该笔投资将资助 QuEra 开发大规模容错量子计算机的目标

点点
2024年10月23日
000
AI前沿

成熟的AI要学会自己搞研究！MIT推出「科研特工

自己读论文、自己找方向、自己做实验，当代科研小吗喽。 ——别误会，我说的是AI。近日，MIT团队推出了用于科学自动化发现的多智能体系统——SciAgents。论文地址：http…

点点
2024年10月9日
000
AI前沿

Apple Intelligence 将于 2025 年支持德语、意大利语、韩语、葡萄牙语和越南语

苹果周三宣布，其生成式 AI 产品将在 2025 年提供更多语言版本。Apple Intelligence新增的语言包括英语（印度）、英语（新加坡）、德语、意大利语、韩语、葡萄牙语…

王浩然
2024年9月19日
000
AI前沿

麻省理工学院研究团队设计出解决计算能源问题的量子解决方案

计算能力的不断进步长期以来依赖于我们制造更小、更高效的电子元件的能力。这一进步的核心是不起眼的晶体管——现代电子产品的基本组成部分。然而，随着我们的数字世界不断扩大，人工智能应用变…

王浩然
2024年11月10日
000
AI前沿

Meta向移动开发人员推销VR，在Quest上对Android应用程序提供新支持

在周三的Meta Connect会议上，该公司向开发人员推销其Quest混合现实平台，作为下一个大型应用程序商店。随着苹果和谷歌等科技巨头对其应用程序商店垄断的监管受到严格监管，M…

free
2024年9月26日
000
AI前沿

谷歌地图将在印度显示人工智能点评摘要

谷歌正在印度地图上添加新的人工智能功能，包括人工智能摘要、搜索体验的能力和天气警报。该公司表示，地图应用将分析评论并显示地点摘要。该公司于周四在其年度 Google for In…

王浩然
2024年10月5日
000
AI前沿

“strawberry”问题：如何克服人工智能的局限性

到目前为止，ChatGPT 和 Claude 等大型语言模型 ( LLM ) 已成为全球的日常用语。许多人开始担心人工智能会抢走他们的工作，因此，几乎所有基于 LLM 的系统都无法…

王浩然
2024年10月15日
000
AI前沿

苹果称 AirPods Pro 2 可用作“临床级”助听器

苹果表示，其最新旗舰无线耳机 AirPods Pro 2 可用作“临床级”助听器。不过，该功能尚未获得 FDA 批准，尽管该公司表示预计“很快”就会获得批准。新款 AirPods …

王浩然
2024年9月10日
000
AI前沿

引导人工智能部署：避免陷阱并确保成功

通往人工智能的道路不是短跑，而是一场马拉松，企业需要调整自己的步伐。那些在学会走路之前就开始跑步的人将会失败，成为那些试图快速到达人工智能终点线的企业的坟墓。事实是，没有终点线。没…

点点
2024年10月12日
000
AI前沿

Meta 推出 AI 工具，让机器人在现实世界中拥有人类的触感

Meta本周发布了几项有关机器人和具身 AI 系统的重大公告。其中包括发布基准和工件，以便更好地理解和与物理世界互动。Meta 发布的三项研究工件 Sparsh、Digit 36…

王浩然
2024年11月3日
000
AI前沿

思科研究：公用事业公司采用人工智能实现更一体化的运营

根据思科的最新报告，近一半的公用事业公司希望人工智能将支持其运营中不可或缺的 IT 和运营技术 (OT) 功能之间的更好协作。该报告采访了 17 个国家的 145 名公用事业行业…

王浩然
14小时前
000
AI前沿

据消息人士称，Grok 的图像生成器 Black Forest Labs 正在以 10 亿美元的估值融资 1 亿美元

尽管 OpenAI 正在寻求另一轮巨额融资，但它并没有抢走所有风口：构建有前景的基础模型的 AI 初创公司仍然可以打开大门和支票簿。多位消息人士告诉我们，Black Forest …

王浩然
2024年9月21日
000
AI前沿

全新主动式客户体验：生成式人工智能与客户服务的结合

生成式人工智能 (GenAI) 正在以前所未有的方式重塑客户互动。虽然它仍处于应用初期，但已经看到了可衡量的业务成果。根据麦肯锡的一项研究，到 2025 年，人工智能驱动的客户互动…

点点
2024年10月27日
000
AI前沿

Uber 正在组建一支零工队伍，为人工智能模型标记数据

Uber 正在扩大其零工劳动力队伍并创建一个新的类别：人工智能注释和数据标记。这家叫车公司已开始为一个名为 Scaled Solutions 的新 AI 和数据标签部门招聘合同工…

王浩然
2024年11月29日
000
AI前沿

Sakana AI 获 1 亿美元融资，挑战 OpenAI、Anthropic 成为“世界级”人工智能实验室

人工智能热潮席卷全球。中国阿里巴巴凭借 Qwen2-VL登上新闻头条仅几天后，由前谷歌研究员 David Ha 和 Llion Jones 以及前外交官 Ren Ito 创立的日本…

王浩然
2024年9月5日
000
AI前沿

Meta 在手机 AI 竞赛中击败谷歌和苹果

Meta Platforms创建了其 Llama 人工智能模型的较小版本，可以在智能手机和平板电脑上运行，为数据中心以外的人工智能开辟了新的可能性。该公司今天宣布推出其Llama…

王浩然
2024年10月27日
000
AI前沿

Fal.Con 2024：CrowdStrike 推出弹性设计框架以加强全球网络安全

CrowdStrike首席执行官乔治·库尔茨 (George Kurtz) 在Fal.Con 2024开幕式上向客户和合作伙伴表示感谢，他表示，如果没有他们的帮助，公司不可能度过今…

王浩然
2024年9月22日
000