Press ESC to close

来认识一下“操作员”吧,这是一个网页版的人工智能代理,能够为你完成各种任务。

openai-launches-operator-here-is-all-you-need-to-know.jpg

OpenAI 在周四推出了其首个人工智能(AI)代理 Operator,它可以“上网为你完成任务”。这标志着 OpenAI 加入了包括 Google 和 Salesforce 在内的主要玩家,在代理领域中的最新尝试。

Operator 能做什么?

用户可以要求 Operator 完成一系列重复性的浏览器任务,例如填写表格、订购杂货甚至创建表情包。OpenAI 在一篇博文中提到,用户可以尝试使用 Operator 根据图片和食谱订购晚餐食材、通过检查 Google 日历的可用性来预约理发、或者通过解析 Reddit 上的推荐来规划预算内的旅行等。

为了确保与这些合作伙伴的服务条款一致,OpenAI 正在与 DoorDash、eBay、Instacart、Uber 和 StubHub 等公司合作。

OpenAI 表示:“Operator 有其局限性,并将根据用户反馈进行改进。”

尽管如此,当评估其在全计算机使用任务和基于网络的任务上的表现时,该代理已经达到了最先进的成果。在 OSWorld 基准测试中,Operator 在全计算机使用任务上的成功率为 38%,而在 WebArena 和 WebVoyager 基准测试中,基于网络的任务成功率分别为 58% 和 87%。

Operator 如何工作?

Operator 处理原始像素数据以理解屏幕上的情况,并使用虚拟鼠标和键盘来完成操作。它可以识别屏幕上人们看到的按钮、菜单和文本字段。它无需使用后端应用程序编程接口(API)即可与平台互动。

该代理由一种名为 Computer-Using Agent 的新模型驱动。这种模型结合了 OpenAI 最先进的生成式 AI 模型 GPT-4o 的视觉能力以及强化学习中的高级推理能力。

能够使用人类日常使用的相同界面和工具的能力扩大了 AI 的实用性,帮助人们节省日常任务的时间,并为业务提供了新的互动机会。

OpenAI 联合创始人 Sam Altman 在推出直播中表示:“AI 代理将成为 AI 领域的一大趋势,并将影响人们的工作方式、生产力和创造力,以及他们能实现的目标。”

谁可以访问它?

目前,Operator 是一项研究预览版,仅向美国的 Pro 用户开放。该公司计划在未来扩展 Plus、Team 和 Enterprise 用户的访问权限,并将 Operator 的功能整合到 ChatGPT 中。

Altman 在直播中表示:“其他一些国家很快也将能够使用 Operator。”他补充说:“不幸的是,欧洲还需要一段时间。”

总结:本文介绍了 OpenAI 推出的新 AI 代理 Operator 的功能、工作原理及其访问权限。Operator 可以帮助用户完成一系列重复性的浏览器任务,并已达到最先进的成果。该代理由一种结合了视觉能力和高级推理能力的新模型驱动。目前仅向美国的 Pro 用户开放,未来将逐步扩展到更多用户群体。
Enos Harvey

Hi, I’m Enos Harvey, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram