NVIDIA 在 2025 年的 CES 上展示了其桌面 AI 代理 R2X 的原型。这个 AI 代理看起来像是一款视频游戏中的角色,能够帮助用户在电脑上导航应用程序。
R2X 是通过 NVIDIA 的 AI 模型渲染和动画制作的,用户可以选择自己喜欢的大型语言模型(如 OpenAI 的 GPT-4o 或 xAI 的 Grok)来运行这个代理。用户可以通过文本和语音与 R2X 交流,上传文件进行处理,甚至让 AI 代理实时查看屏幕或摄像头上的内容。
近期,科技公司正在开发许多 AI 代理,不仅用于视频游戏,还为企业和消费者提供服务。早期的演示看起来有些奇怪,但一些人认为这些代理可能是 AI 助手的理想用户界面。NVIDIA 正试图将生成视频游戏的能力与最新的大型语言模型相结合,创造出一个看起来和感觉都像人类的 AI 助手。
这是我在 NVIDIA R2X 代理原型上的演示,一个生活在你桌面上的 AI 助手。(链接:https://twitter.com/ZeffMax/status/1613408799754073345)
NVIDIA 计划在 2025 年上半年开源这些代理。NVIDIA 认为这将成为开发者的新用户界面,允许用户插入他们喜欢的 AI 软件产品或在本地运行这些代理。
类似于微软的 Recall 特性(因隐私问题而推迟),R2X 可以持续截取屏幕并将其通过 AI 模型进行处理,但该功能默认是关闭的。当开启时,它可以提供关于你在电脑上运行的应用程序的反馈,并帮助你解决复杂的编程任务。
R2X 还处于原型阶段,NVIDIA 承认还有一些需要解决的问题。在 TechCrunch 的演示中,NVIDIA 的代理有时会显得有些怪异——它的面部有时会卡在奇怪的位置,语气有时也显得过于强硬。总的来说,在工作时看到一个人形代理盯着我有点奇怪。
这是由 Grok 驱动的 NVIDIA R2X。(链接:https://twitter.com/ZeffMax/status/1613408799754073345)
R2X 通常会提供有用的指导,并准确地查看屏幕内容。但在某个时刻,代理给出了错误的指示,并且后来完全无法查看屏幕。这可能是底层 AI 模型(在这种情况下是 GPT-4o)的问题,但这个例子展示了这项早期技术的局限性。
在一次演示中,NVIDIA 的产品经理展示了 R2X 如何查看并帮助用户使用屏幕上的应用程序。具体来说,R2X 帮助我们使用了 Adobe Photoshop 的生成填充功能。我们选择的照片是 NVIDIA 首席执行官 Jensen Huang 在一家亚洲餐厅与两名餐厅员工的照片。NVIDIA 的代理产生了幻觉,并给出了错误的指示以找到 Photoshop 中的生成填充功能。后来它失去了查看屏幕的能力,在切换到 xAI 的 Grok 后,代理重新获得了查看屏幕的能力。(链接:https://twitter.com/ZeffMax/status/1613408799754073345)
在另一次演示中,R2X 能够从桌面上读取 PDF 文件并回答关于它的问题。这一过程由本地检索增强生成(RAG)功能支持,使这些 AI 代理能够从文档中提取信息并使用底层的大规模语言模型进行处理。(链接:https://twitter.com/ZeffMax/status/1613408799754073345)
NVIDIA 使用其游戏部门的一些 AI 模型来驱动这些代理的样子。为了生成这些代理人形象,NVIDIA 使用了 RTX 神经面部算法。为了自动化面部、嘴唇和舌头的动作,NVIDIA 使用了一种名为 Audio2Face™-3D 的新模型。该模型在某些点上似乎停滞不前,在某些情况下保持了代理人面部的尴尬姿势。
NVIDIA 还表示这些 R2X 代理人将能够加入 Microsoft Teams 会议,并作为个人助手发挥作用。
NVIDIA 正在努力赋予这些 AI 代理人自主能力,使得 R2X 可以在未来执行你的桌面任务。
目前还不清楚 NVIDIA 是如何生成这些产品的声音的。