认识 OpenAI 的 Operator,这是一个人工智能代理,它使用网络为你预订晚餐、订票、编制购物清单等

认识 OpenAI 的 Operator,这是一个人工智能代理,它使用网络为你预订晚餐、订票、编制购物清单等

OpenAI 推出了其首款半自主 AI 代理Operator,旨在像人类一样“操作”网络浏览器。代理使用光标进行指向和点击,自行输入内容,浏览网页并在各种网站上执行操作,例如通过 OpenTable 预订餐厅座位以及在 Instacart 和 DoorDash 上整理订单。这不仅限于 ChatGPT 接口或 OpenAI 的应用程序编程接口 (API)。

“这款产品是我们进军代理商领域的开始,”首席执行官兼联合创始人 Sam Altman 今天美国东部时间下午 1 点在该公司的 YouTube 频道上直播的演示中说道。

OpenAI 总裁兼联合创始人Greg Brockman 在 X 上写道:“2025 年是代理之年。”

该预览版目前可供 OpenAI ChatGPT Pro(每月 200 美元)计划的美国付费用户使用,旨在展示代理 AI 的潜力,同时收集关键反馈以完善其功能。

不过, Operator 不会接管你的网络浏览器。相反,你会访问一个单独的新网站 — operator.chatgpt.com —并会看到一个类似于 ChatGPT 的提示输入框。

在这个框中输入一个请求——“帮我找今晚洛杉矶湖人队的比赛门票”——将触发 Operator 打开一个在 OpenAI 服务器云中运行的单独虚拟浏览器。然后,代理可以执行诸如填写表格、管理在线预订、甚至预订体育赛事和音乐会门票以及浏览其他常见工作流程等任务。用户可以实时观看基于云的浏览器上的光标自行移动。如果代理遇到问题,它将停止并通过文本输出向用户发送消息,类似于 ChatGPT 的响应。

此外,在虚拟浏览器下方,用户将看到操作员可以代表他们采取的行动建议。

然而,用户可以随时控制——类似于现代汽车中的半自动驾驶系统。当到达另一个网站的购买屏幕时,操作员还会要求用户输入自己的支付凭证。最后,用户可以保存他们希望继续使用的特定工作流程并重新启动它们。

Operator 由 OpenAI 所谓的计算机使用代理 (CUA) 技术提供支持,这是专门为使用计算机而训练的 GPT-4o 的新变体。

连接人工智能和图形用户界面

Operator 通过使用图形用户界面 (GUI) 模仿人类交互,与其他自动化工具区别开来。

该系统不依赖专门的 API,而是利用屏幕截图进行视觉输入,并使用虚拟鼠标和键盘操作来完成任务。

底层 CUA 模型将 GPT-4o 的视觉能力与强化学习相结合,使代理能够在屏幕上感知、推理和采取行动。

这种方法使 Operator 能够处理各种任务,包括电子商务浏览、旅行计划,甚至是创建播放列表或管理购物清单等重复性任务。值得注意的基准测试证明了其有效性:

• WebVoyager实时网站导航测试的成功率为 87%

• WebArena 的成功率为 58.1%,模拟了真实的电子商务和内容管理场景

但竞争已经很激烈了:就在昨天,中国科技公司字节跳动TikTok 的母公司)推出了自己的 AI 代理,用于控制网络浏览器并代表用户执行操作。它被称为UI-TARS,完全开源,拥有同样令人印象深刻的基准性能(尽管似乎没有在相同的基准上直接比较过)。这意味着 OpenAI 的 Operator 需要更好或更可靠,才能证明通过 ChatGPT Pro 订阅访问它的相对高昂(每月 200 美元)的成本是合理的。

已在企业网络导航用例中进行测试

OpenAI 正在与多家企业合作,以确保 Operator 满足实际需求。包括 Instacart、DoorDash 和 Etsy 在内的公司已经在测试该技术,用于从杂货配送到个性化购物等各种用例。

Priceline 首席执行官 Brett Keller 评价了其在旅行规划中的实用性,称其为“使旅行更加无缝和个性化的重要一步”。

对于公共部门应用,斯托克顿市正在探索使用 Operator 简化公民参与的方式。该市信息技术总监 Jamil Niazi 强调了 AI 的潜力,让居民更容易注册服务。

然而,该技术仍有局限性。科技出版物Every获得了早期预览版,并在过去一周进行了测试,结果发现:

“Operator 的设计特点之一是它不使用浏览器。相反,它使用 OpenAI 数据中心之一的浏览器,您可以远程观看和交互。这种设计决策的好处是,您可以随时随地使用 Operator — 例如,在任何移动设备上。

“缺点是,许多网站(如 Reddit)已经阻止 AI 代理浏览,因此 Operator 无法访问它们。在这种研究预览模式下,出于性能或法律原因,OpenAI 还阻止 Operator 访问某些资源密集型网站(如 Figma)或竞争对手拥有的网站(如 YouTube)。”

安全措施

鉴于其代表用户采取行动的能力,Operator 已开发了强大的安全功能:

用户控制:操作员请求确认敏感操作,例如进行购买或发送电子邮件。

监视模式:确保用户对关键任务的监督,特别是在电子邮件或金融平台等敏感网站上。

防止滥用:该系统经过训练可以拒绝有害请求,并包括针对对抗性攻击(例如网站中嵌入的恶意提示)的保护措施。

OpenAI 还加入了保护用户隐私的功能,包括清除浏览数据的选项以及选择退出数据共享以改进模型。

企业版即将推出

OpenAI 设想 Operator 在个人和企业环境中发挥更广泛的作用。随着时间的推移,该公司计划扩大对 Plus、Team 和 Enterprise 用户的访问权限,最终将 Operator 集成到 ChatGPT 中。

他们还计划通过 API 提供底层 CUA 技术,使开发人员能够创建自定义的计算机使用代理。

尽管 Operator 潜力巨大,但它仍在不断完善中。OpenAI 对其局限性直言不讳,例如难以应对复杂的界面或不熟悉的工作流程。早期用户反馈将在提高系统的准确性、可靠性和安全性方面发挥关键作用。

OpenAI 通过实际应用完善 Operator,力求将人工智能从被动工具转变为数字生态系统的主动参与者。无论是简化日常任务还是创新业务工作流程,OpenAI 都将 Operator 定位为使人工智能变得可访问、实用和安全的下一步。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ren-shi-openai-de-operator-zhe-shi-yi-ge-ren-gong-zhi-neng

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年1月25日
Next 2025年1月26日

相关推荐

发表回复

Please Login to Comment