谷歌发布 Project Mariner:AI 代理帮你上网冲浪

评论 · 7 浏览

谷歌在周三揭晓了其首款能够在网上采取行动的人工智能代理,这是来自其DeepMind部门的一项研究原型。

谷歌在周三宣布推出其首款能够在网上执行操作的人工智能代理——来自其DeepMind部门的Project Mariner。

这款由Gemini驱动的代理可以控制你的Chrome浏览器,移动屏幕上的光标,点击按钮,填写表单,使其能够像人类一样使用和浏览网站。

谷歌表示,公司从周三开始将这款AI代理提供给一小群预选测试者使用。

谷歌正在继续探索新的方式让Gemini阅读、总结并现在使用网站。

一位谷歌高管告诉TechCrunch,这是“一个根本性的用户体验范式转变”的一部分:将用户从直接与网站互动的方式转移到与生成式AI系统互动的方式,由系统替你完成这些操作。

Project Mariner的首次亮相。


图片来源:谷歌

这些转变可能会影响成千上万的业务——从TechCrunch这样的媒体出版商到沃尔玛这样的零售商——它们历来依赖于谷歌将真实的人引导到他们的网站上访问和使用。

在与TechCrunch的一次演示中,Google Labs主任Jaclyn Konzelmann展示了Project Mariner是如何运作的。

在设置好AI代理并与Chrome浏览器中的扩展程序配对后,一个聊天窗口会出现在浏览器右侧。

你可以指示代理执行诸如“根据这份清单创建一个杂货店购物车”之类的任务。


Project Mariner在使用时的样子。


图片来源:谷歌

随后,AI代理导航到了一个杂货店的网站——在这个例子中是Safeway,并搜索并添加了虚拟购物车中的商品。

显而易见的一点是,该代理的速度非常慢:每次光标的移动之间大约有5秒的延迟。

有时,代理会暂停任务并返回聊天窗口,要求对某些项目进行澄清(比如需要多少根胡萝卜等)。

谷歌的代理无法结账,因为它不能填写信用卡号码或账单信息。

Project Mariner也不会为用户接受cookies或签署服务条款协议。

谷歌表示,它故意不让代理执行这些操作,以赋予用户更多控制权。

在幕后,谷歌的代理会截取你的浏览器窗口,并将其发送到云中的Gemini进行处理。

然后Gemini会向你的电脑发送指令以导航网页。

Project Mariner还可以用于查找航班和酒店、购买家居用品、寻找食谱和其他目前需要用户点击网页才能完成的任务。


这是一个重大限制:Project Mariner只能在Chrome浏览器最前面的活动标签上工作,这意味着你在背景中使用代理时无法同时使用电脑——你需要观看Gemini缓慢地点击操作。

谷歌DeepMind首席技术官Koray Kavukcuoglu表示,这是非常有意为之的选择,以便让用户知道谷歌的AI代理正在做什么。

Kavukcuoglu在接受TechCrunch采访时说:“因为[Gemini]现在代表用户采取行动了,在采取这一步骤时非常重要。

它是互补的。

作为个体的人可以使用网站,现在你的代理也可以像你在网站上所做的那样完成所有操作。


网站所有者可能会欣慰地听到谷歌的AI代理是在你的电脑屏幕上工作的消息,因为这意味着出版商和零售商仍然能吸引你的眼球访问他们的页面。

然而,谷歌的AI代理可能意味着用户对访问网站的兴趣降低,并且有一天可能不再需要用户亲自使用这些网站了。

Konzelmann在接受TechCrunch采访时说:“[Project Mariner]是一种我们现在看到的根本性的用户体验范式转变。

我们需要找出正确的途径来改变用户与网络互动的方式以及出版商如何为用户提供体验的方式——包括为代理人提供的体验。


除了Project Mariner外,在周三谷歌还推出了几个专门针对特定任务的人工智能代理。


Gemini Deep Research是一个旨在帮助用户探索复杂主题的人工智能代理。


Gemini Deep Research似乎与OpenAI的o1竞争。


O1也可以进行多步推理。


然而,一位谷歌发言人的说法是该代理并不设计用于解决数学和逻辑推理问题、编写代码或进行数据分析。


Gemini Deep Research今天将在Gemini Advanced中推出,并将在2025年进入Gemini应用。


当被提示回答复杂或大问题时,
Gemini Deep Research会创建一个多步骤行动计划来回答这些问题。


在用户批准计划后,
Gemini Deep Research会花几分钟时间搜索网络并生成关于其发现的详细报告。


Gemini Jules是另一个由谷歌开发的人工智能代理,
Jules旨在帮助开发人员完成编码任务。


Jules直接集成到GitHub工作流中,
Jules可以查看你现有的工作并在GitHub中直接进行更改。


Jules今天将面向一小群测试者推出,

Jules
将在2025年晚些时候可用。

最终, Google DeepMind表示它正在开发一个帮助你导航视频游戏的人工智能代理, 这是在其长期创建游戏人工智能的历史上的延伸。

Google正在与Supercell等游戏开发者合作, 测试Gemini解释游戏世界如Clash of Clans的能力。

Google没有提供这个原型的具体发布日期, 但表示这项工作有助于他们构建能够导航物理世界和虚拟世界的AI代理人。

目前还不清楚Project Mariner何时会向谷歌庞大的用户基础推出,
但当它推出时,
这些代理人会对更广泛的网络产生重大影响。

网络是为人类设计使用的,
但Google的人工智能代理人可能会改变这一标准。

评论