OpenAI 在本周四推出了其首款 AI 代理 Operator,这款代理旨在处理诸如填写表格、预订旅行票、购买音乐会门票、在线订购杂货,甚至创建表情包等任务。Operator 可以通过远程操作网页浏览器,使用鼠标点击、滚动和打字来完成这些任务,就像真人操作一样。
根据 OpenAI 的介绍,Operator 是一个基于 GPT-4o 的计算机使用代理(CUA)模型的研究预览版。它的设计目的是浏览网页并代表用户执行任务,自动化各种操作。
OpenAI Operator 如何工作?
Operator 会根据网页截图来理解和导航,并使用标准的浏览器控件(如光标和鼠标)进行操作。用户可以提供指令,例如“预订航班”或“在线订购杂货”,然后由 Operator 来处理这些过程。如果遇到挑战,比如验证码或密码输入框等问题,它会暂停并提示用户介入,从而保持用户的控制权。
谁可以使用 OpenAI Operator?
目前,Operator 仅限于美国 18 岁以上的 ChatGPT Pro 用户使用。OpenAI 限制了访问权限以收集用户反馈并改进工具的功能。该公司计划逐步扩大到其他付费用户,并最终将 Operator 直接集成到 ChatGPT 中。
应对挑战
如果 Operator 遇到无法完成的任务,比如导航复杂的界面或缺乏足够的信息时,它会提醒用户并暂停操作,建议用户接手处理。在手动解决这些问题后,用户可以选择自己完成任务或让 Operator 继续执行。
OpenAI Operator 的局限性
根据 OpenAI 官方网站的说法,在现阶段,Operator 无法处理复杂的或专业化的任务,例如创建详细的幻灯片、管理高级日历系统或导航高度定制化的网页界面。此外,在研究预览阶段,它故意避免进行高风险的操作,如处理金融交易、发送电子邮件或删除日历事件,以确保用户的安全性和可靠性。
需要注意的是,在安全原因的限制下,Operator 支持同时运行多个任务但会限制并发任务和对话的数量。如果达到最大允许数量时,用户将会收到通知。
总结:本文介绍了 OpenAI 推出的首款 AI 代理 Operator 的功能和工作方式。它能够处理多种日常任务,并通过浏览器远程操作来实现这些功能。目前该工具仅限于特定的 ChatGPT Pro 用户使用,并且存在一些局限性,在安全性和可靠性方面有严格的限制。