什么是AI“世界模型”,为什么它们如此重要?

评论 · 35 浏览

世界模型最近成了热议的话题,但它们究竟是什么,又与当今的人工智能有什么关系呢?

世界模型,也被称为世界模拟器,正被一些人视为人工智能领域的下一个大突破。

AI先锋Fei-Fei Li的World Labs已经筹集了2.3亿美元,用于构建“大型世界模型”,而DeepMind则聘请了OpenAI视频生成器Sora的创作者之一工作于“世界模拟器”项目。

(Sora已于周一发布;这里有一些初步印象。

但这些究竟是什么?

世界模型借鉴了人类自然发展起来的关于世界的心理模型。

我们的大脑将感官输入抽象化,形成对周围世界的更具体理解,这在人工智能采用这一术语之前就已经被称为“模型”。

基于这些模型的预测影响着我们对世界的感知。

AI研究者David Ha和Jürgen Schmidhuber在一篇论文中举了一个棒球击球手的例子。

击球手在决定如何挥动球棒时仅有毫秒之差——短于视觉信号到达大脑所需的时间。

Ha和Schmidhuber认为,他们之所以能击中100英里每小时的高速球,是因为他们能够本能地预测球的去向。

“对于职业球员来说,这一切都是无意识发生的。

”这对研究者写道。

“他们的肌肉会根据内部模型的预测,在正确的时间和地点自动挥动球棒。

他们可以迅速根据预测采取行动,而无需通过想象未来情景来制定计划。

正是这些无意识推理方面的特性让一些人认为世界模型是达到人类级智能的前提条件。

构建世界模型

尽管这一概念已存在数十年,但世界模型最近因其在生成视频领域的潜在应用而受到关注。

大多数甚至所有的人工智能生成视频都会进入“恐怖谷”地带。

长时间观看后,你会发现一些奇怪的事情发生,比如肢体扭曲并融合在一起。

即使一个训练多年视频数据的生成模型能够准确预测篮球弹跳的行为,但它实际上并不知道为什么——就像语言模型并不真正理解单词和短语背后的含义一样。

但是一个对篮球弹跳原因有基本理解的世界模型将更擅长展示这种行为。

为了实现这种洞察力,世界模型被训练使用各种数据,包括图片、音频、视频和文本,目的是创建对世界如何运作的理解,并能够推断行动后果。

AI初创公司Runway的Gen-3视频生成模型的一个样本。

图片来自Runway

Alex Mashrabov是Snap前AI首席,并且是Higgsfield的CEO(Higgsfield正在构建视频生成模型),他说:“观众期望他们所观看的世界与现实相似。

”“如果一片羽毛像重物一样坠落或一个保龄球飞升数百英尺高到空中,这会令人震惊并使观众脱离情境。

拥有强大世界模型的情况下,创作者不需要定义每个物体如何移动——这是繁琐且低效的工作——而是让模型理解这一点。

但更好的视频生成只是世界模型潜力的一部分。

Meta首席AI科学家Yann LeCun等研究人员表示,这些模型未来可能用于数字和物理领域的复杂预测和规划。

在今年早些时候的一次演讲中,LeCun描述了如何通过推理实现一个世界模型帮助达成目标的过程。

一个具有“世界”基础表示(例如脏房间的视频)的世界模型,在给定目标(干净房间)的情况下可以推断出一系列行动(部署吸尘器清扫、清洗餐具、清空垃圾)以实现目标,并非因为这是它观察到的模式而是因为它知道如何从脏到净的过程。

“我们需要理解世界的机器;能够记住事物、具有直觉和常识——能够像人类一样推理和规划的机器。

”LeCun说。

“尽管你可能从最热情的人那里听到过这些说法,但目前的人工智能系统无法做到这一点。

虽然LeCun估计我们至少还需要十年才能实现他设想的世界模型,但今天的部分世界模型已经显示出作为初级物理模拟器的潜力。

Sora控制Minecraft中的玩家并渲染这个世界。

图片来自OpenAI

OpenAI在其博客中指出Sora可以模拟画家在画布上留下笔触的行为。

类似于Sora这样的世界模拟器及其本身也可以有效模拟电子游戏。

例如,Sora可以渲染类似Minecraft的游戏界面和游戏世界。

未来的部分世界模拟器可能能够根据需求即时生成3D游戏环境、虚拟摄影和其他内容。

World Labs联合创始人Justin Johnson在a16z播客的一期节目中说:

“我们已经有能力创建虚拟互动的世界,但这需要数亿美元的资金和大量的开发时间。

”Johnson说。

“通过世界模拟器你不仅能获得图像或片段输出,还能获得一个完全模拟、生动且互动的3D环境。

高门槛

尽管概念令人振奋,但仍有许多技术挑战阻碍着这一进程。

训练和运行世界模拟器需要比当前生成式模型更多的计算资源。

虽然一些最新的语言模型可以在现代智能手机上运行,但Sora(理论上是一个早期的世界模拟器)需要数千个GPU进行训练和运行,并且随着其使用变得普遍而变得更为重要。

与所有人工智能模型一样,世界模拟器也会产生幻觉并内化训练数据中的偏见。

例如,在大量欧洲城市晴天天气视频中训练的世界模拟器可能难以理解或描绘韩国雪景中的城市场景——或者错误地描绘它们。

Mashrabov指出缺乏广泛的训练数据可能会加剧这些问题:

“我们已经看到一些特定类型或种族的人群在生成时受到限制。

”他说。

“为世界模拟器提供训练数据必须足够广泛以涵盖各种场景,并且高度具体以便人工智能深入理解这些场景中的细微差别。

AI初创公司Runway CEO Cristóbal Valenzuela最近的一篇文章提到数据和技术问题阻碍了当前对这个世界居民行为(如人类和动物)准确捕捉的能力。

“这些模拟能够生成环境的一致性地图,并能够在这些环境中导航和互动。

”他说。

Sora生成的一个视频片段。

图片来自OpenAI

Mashrabov认为如果所有主要障碍都被克服的话,“更加稳健”的世界模拟器将能更好地连接人工智能与现实世界——不仅在虚拟世界的生成方面取得突破,在机器人技术和人工智能决策方面也能取得进展。

它们也可能催生更强大的机器人。

今天的机器人受限于它们缺乏对外界环境(或自身身体)的认识能力。

Mashrabov说:“借助高级的世界模拟器,AI能够在所处的情境中发展个人理解,并开始推断出可能的解决方案。

本文最初发表于2024年10月28日,并于2024年12月14日更新了关于Sora的新信息。

```
评论