Press ESC to close

来认识一下“操作员”吧,这是一个能够通过网络为你完成任务的AI代理,让你的生活更加便捷。

openai-launches-operator-here-is-all-you-need-to-know.jpg

OpenAI 在本周四推出了其首款人工智能(AI)代理——Operator,它能够“上网为你完成任务”。这标志着 OpenAI 加入了这一领域,与 Google 和 Salesforce 等巨头一同竞争。

Operator 能做什么?

用户可以要求 Operator 完成一系列重复性的浏览器任务,如填写表单、订购杂货甚至创建表情包。OpenAI 在一篇博文中提到,用户可以使用 Operator 根据图片和食谱订购晚餐食材,通过检查 Google 日历的可用性预约理发师,或者通过解析 Reddit 上的推荐来规划预算内的旅行。

为了确保与这些平台的服务条款一致,OpenAI 正在与 DoorDash、eBay、Instacart、Uber 和 StubHub 等公司合作。

OpenAI 表示:“Operator 有其局限性,并将根据用户反馈进行改进。”

尽管如此,当评估其在全计算机使用任务和网页任务中的表现时,该代理已经达到了最先进的成果。在 OSWorld 基准测试中,Operator 的成功率为 38%;在 WebArena 和 WebVoyager 基准测试中,成功率分别为 58% 和 87%。

如何运作?

Operator 处理原始像素数据以理解屏幕上的内容,并使用虚拟鼠标和键盘来完成操作。它可以识别屏幕上人们看到的按钮、菜单和文本字段。它不需要使用后端的应用程序编程接口(API)来与平台交互。

该代理由一种名为 Computer-Using Agent 的新模型驱动。这种模型结合了 OpenAI 最先进的生成式 AI 模型 GPT-4o 的视觉能力以及强化学习的高级推理能力。

能够使用人类日常使用的界面和工具的能力扩大了 AI 的用途,帮助人们节省日常任务的时间,并为业务提供了新的互动机会。

谁可以访问它?

目前,Operator 还处于研究预览阶段,仅限美国 Pro 用户访问。OpenAI 计划在未来扩大 Plus、Team 和 Enterprise 用户的访问权限,并将 Operator 的功能集成到 ChatGPT 中。此外,该公司表示 Operator 将很快在其他国家和地区可用,“欧洲可能需要更长的时间。”OpenAI CEO Sam Altman 在直播中说道。

总结:本文介绍了 OpenAI 推出的首款人工智能代理——Operator。它能够完成一系列重复性的浏览器任务,并且已经在多个基准测试中取得了最先进的成果。文章还详细介绍了 Operator 的工作原理及其潜在的应用场景,并讨论了其目前的可用范围以及未来的扩展计划。
Enos Harvey

Hi, I’m Enos Harvey, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram