OpenAI 在周四推出了其首个人工智能(AI)代理 Operator,它可以“上网为你完成任务”。这标志着 OpenAI 加入了包括 Google 和 Salesforce 在内的主要玩家,在代理领域中的最新尝试。
Operator 能做什么?
用户可以要求 Operator 完成一系列重复性的浏览器任务,例如填写表格、订购杂货甚至创建表情包。OpenAI 在一篇博文中提到,用户可以尝试使用 Operator 根据图片和食谱订购晚餐食材、通过检查 Google 日历的可用性来预约理发、或者通过解析 Reddit 上的推荐来规划预算内的旅行等。
为了确保与这些合作伙伴的服务条款一致,OpenAI 正在与 DoorDash、eBay、Instacart、Uber 和 StubHub 等公司合作。
OpenAI 表示:“Operator 有其局限性,并将根据用户反馈进行改进。”
尽管如此,当评估其在全计算机使用任务和基于网络的任务上的表现时,该代理已经达到了最先进的成果。在 OSWorld 基准测试中,Operator 在全计算机使用任务上的成功率为 38%,而在 WebArena 和 WebVoyager 基准测试中,基于网络的任务成功率分别为 58% 和 87%。
Operator 如何工作?
Operator 处理原始像素数据以理解屏幕上的情况,并使用虚拟鼠标和键盘来完成操作。它可以识别屏幕上人们看到的按钮、菜单和文本字段。它无需使用后端应用程序编程接口(API)即可与平台互动。
该代理由一种名为 Computer-Using Agent 的新模型驱动。这种模型结合了 OpenAI 最先进的生成式 AI 模型 GPT-4o 的视觉能力以及强化学习中的高级推理能力。
能够使用人类日常使用的相同界面和工具的能力扩大了 AI 的实用性,帮助人们节省日常任务的时间,并为业务提供了新的互动机会。
OpenAI 联合创始人 Sam Altman 在推出直播中表示:“AI 代理将成为 AI 领域的一大趋势,并将影响人们的工作方式、生产力和创造力,以及他们能实现的目标。”
谁可以访问它?
目前,Operator 是一项研究预览版,仅向美国的 Pro 用户开放。该公司计划在未来扩展 Plus、Team 和 Enterprise 用户的访问权限,并将 Operator 的功能整合到 ChatGPT 中。
Altman 在直播中表示:“其他一些国家很快也将能够使用 Operator。”他补充说:“不幸的是,欧洲还需要一段时间。”
总结:本文介绍了 OpenAI 推出的新 AI 代理 Operator 的功能、工作原理及其访问权限。Operator 可以帮助用户完成一系列重复性的浏览器任务,并已达到最先进的成果。该代理由一种结合了视觉能力和高级推理能力的新模型驱动。目前仅向美国的 Pro 用户开放,未来将逐步扩展到更多用户群体。