来认识一下“操作员”吧，这是一个网页版的人工智能代理，能够为你完成各种任务。

OpenAI 在周四推出了其首个人工智能（AI）代理 Operator，它可以“上网为你完成任务”。这标志着 OpenAI 加入了包括 Google 和 Salesforce 在内的主要玩家，在代理领域中的最新尝试。

Operator 能做什么？

用户可以要求 Operator 完成一系列重复性的浏览器任务，例如填写表格、订购杂货甚至创建表情包。OpenAI 在一篇博文中提到，用户可以尝试使用 Operator 根据图片和食谱订购晚餐食材、通过检查 Google 日历的可用性来预约理发、或者通过解析 Reddit 上的推荐来规划预算内的旅行等。

为了确保与这些合作伙伴的服务条款一致，OpenAI 正在与 DoorDash、eBay、Instacart、Uber 和 StubHub 等公司合作。

OpenAI 表示：“Operator 有其局限性，并将根据用户反馈进行改进。”

尽管如此，当评估其在全计算机使用任务和基于网络的任务上的表现时，该代理已经达到了最先进的成果。在 OSWorld 基准测试中，Operator 在全计算机使用任务上的成功率为 38%，而在 WebArena 和 WebVoyager 基准测试中，基于网络的任务成功率分别为 58% 和 87%。

Operator 如何工作？

Operator 处理原始像素数据以理解屏幕上的情况，并使用虚拟鼠标和键盘来完成操作。它可以识别屏幕上人们看到的按钮、菜单和文本字段。它无需使用后端应用程序编程接口（API）即可与平台互动。

该代理由一种名为 Computer-Using Agent 的新模型驱动。这种模型结合了 OpenAI 最先进的生成式 AI 模型 GPT-4o 的视觉能力以及强化学习中的高级推理能力。

能够使用人类日常使用的相同界面和工具的能力扩大了 AI 的实用性，帮助人们节省日常任务的时间，并为业务提供了新的互动机会。

OpenAI 联合创始人 Sam Altman 在推出直播中表示：“AI 代理将成为 AI 领域的一大趋势，并将影响人们的工作方式、生产力和创造力，以及他们能实现的目标。”

谁可以访问它？

目前，Operator 是一项研究预览版，仅向美国的 Pro 用户开放。该公司计划在未来扩展 Plus、Team 和 Enterprise 用户的访问权限，并将 Operator 的功能整合到 ChatGPT 中。

Altman 在直播中表示：“其他一些国家很快也将能够使用 Operator。”他补充说：“不幸的是，欧洲还需要一段时间。”

总结：本文介绍了 OpenAI 推出的新 AI 代理 Operator 的功能、工作原理及其访问权限。Operator 可以帮助用户完成一系列重复性的浏览器任务，并已达到最先进的成果。该代理由一种结合了视觉能力和高级推理能力的新模型驱动。目前仅向美国的 Pro 用户开放，未来将逐步扩展到更多用户群体。

来认识一下“操作员”吧，这是一个网页版的人工智能代理，能够为你完成各种任务。

Leave a comment

Tag Clouds

Explore Topics

Press ESC to close

来认识一下“操作员”吧，这是一个网页版的人工智能代理，能够为你完成各种任务。

Leave a comment

Tag Clouds

Newsletter

Explore Topics