OpenAI 可能即将发布一款可以控制你的电脑并为你代劳的 AI 工具。
软件工程师 Tibor Blaho 以其准确泄露即将推出的人工智能产品而闻名,他表示自己发现了 OpenAI 长期传闻中的 Operator 工具的证据。此前,包括 Bloomberg 在内的多家媒体也报道过 Operator,称其是一个“代理”系统,能够自主处理编写代码和预订旅行等任务。
根据 The Information 的报道,OpenAI 计划在 1 月份推出 Operator。Blaho 最近发现的代码进一步证实了这一报道。
据 Blaho 称,OpenAI 的 macOS 版 ChatGPT 客户端现在隐藏了一些选项,可以定义快捷键来“切换 Operator”和“强制退出 Operator”。此外,Blaho 还表示 OpenAI 在其网站上添加了关于 Operator 的参考信息——尽管这些信息目前尚未公开。
ChatGPT macOS 桌面应用确实存在隐藏选项来定义快捷键以启动“切换 Operator”和“强制退出 Operator”,详情请参见:https://t.co/rSFobi4iPN
Blaho 还指出,OpenAI 的网站上也包含一些尚未公开的表格,比较了 Operator 与其他计算机使用 AI 系统的性能。这些表格可能是占位符。如果数据准确无误,这表明 Operator 在某些任务上可能并不完全可靠。
OpenAI 的网站已经包含了关于 Operator 和 OpenAI CUA(计算机使用代理)的参考信息——包括“Operator 系统卡表”、“Operator 研究评估表”和“Operator 拒绝率表”,并包括与 Claude 3.5 Sonnet 计算机使用、Google Mariner 等系统的比较。
在 OSWorld 这个旨在模仿真实计算机环境的基准测试中,“OpenAI 计算机使用代理 (CUA)”——可能是驱动 Operator 的 AI 模型——得分为 38.1%,领先于 Anthropic 的计算机控制模型,但远低于人类得分的 72.4%。在 WebVoyager 这个评估 AI 导航和与网站互动能力的基准测试中,OpenAI CUA 超过了人类的表现。但在另一个基于网页的基准测试 WebArena 中,根据泄露的数据,模型未能达到人类水平的成绩。
如果泄露的信息属实,Operator 在执行一些人类可以轻松完成的任务时也存在问题。在一项让 Operator 登录云服务提供商并启动虚拟机的任务中,Operator 只有 60% 的成功率;而在创建比特币钱包的任务中,则只有 10% 的成功率。
我们已联系 OpenAI 并将根据其回复更新此文章。
随着包括 Anthropic、Google 等竞争对手在内的多家公司争夺这一新兴领域的一席之地,OpenAI 即将进入 AI 代理市场。尽管 AI 代理存在风险且尚处于早期阶段,但科技巨头们已将其视为人工智能领域的下一个大趋势。据市场研究公司 Markets and Markets 预测,到 2030 年,人工智能代理市场的规模可能达到 471 亿美元。
当前的代理还相当原始。然而,一些专家对这些技术迅速改进后可能带来的安全问题表示担忧。
泄露的一张图表显示,在包括试图让系统执行非法活动和搜索敏感个人信息在内的安全评估中,Operator 表现良好。据报道,安全测试是导致 Operator 开发周期延长的原因之一。最近,在 X 平台上的一篇帖子中,OpenAI 共同创始人 Wojciech Zaremba 批评了 Anthropic 发布的一个他认为缺乏安全措施的代理模型。
Zaremba 写道:“我只能想象如果 OpenAI 发布类似的产品会引发怎样的负面反应。”
值得注意的是,在强调安全工作的方面受到批评后(包括前员工),OpenAI 已被人工智能研究人员批评称其似乎更注重快速商业化技术而非安全工作。
总结:本文介绍了 OpenAI 即将发布的名为 Operator 的 AI 工具的相关信息。该工具能够控制用户的电脑并代劳一些任务,并且已经在 macOS 版 ChatGPT 客户端中有所体现。同时文章还提到了关于该工具的一些性能数据和潜在的安全问题,并讨论了人工智能代理市场的前景和发展趋势。