谷歌DeepMind推出全新视频模型,挑战Sora霸主地位

评论 · 33 浏览

谷歌DeepMind,这家谷歌的顶级人工智能研究机构,最近开发出一款新的视频模型,宣称其在行业中处于领先地位。

Google DeepMind,谷歌的旗舰人工智能研究实验室,希望在视频生成游戏中击败OpenAI,并且至少在短期内,它可能真的能做到。

DeepMind于周一宣布了Veo 2,这是一种下一代视频生成AI,并且是Veo的继任者,Veo目前正为谷歌产品组合中的众多产品提供动力。

Veo 2能够生成超过两分钟的4K分辨率(4096 x 2160像素)视频片段。

值得注意的是,这比OpenAI的Sora能够实现的分辨率和时长都要高出4倍和6倍以上。

这是一个理论上的优势。

在谷歌实验性的视频创作工具VideoFX中,Veo 2目前仅可生成720p分辨率和8秒长度的视频片段。

(Sora可以生成最高1080p、20秒长度的视频片段。

VideoFX目前处于等待名单中,但谷歌表示本周将扩大能够访问该工具的用户数量。

DeepMind产品副总裁Eli Collins也告诉TechCrunch,当模型准备好大规模使用时,谷歌将通过其Vertex AI开发者平台提供Veo 2。

“在未来几个月里,我们将根据用户反馈继续改进模型,并将其更新功能整合到谷歌生态系统中的各种应用场景中……我们预计将在明年分享更多更新。

”Collins说。

更加可控

像Veo一样,Veo 2可以根据文本提示(例如“一辆汽车在高速公路飞驰”)或文本和参考图像生成视频。

那么Veo 2有什么新功能呢?DeepMind表示,该模型可以生成多种风格的视频片段,并且具有改进的“物理理解和摄像控制”,并且产生的画面更加清晰。

所谓更清晰是指,在片段中纹理和图像更加锐利——尤其是在大量运动场景中。

至于改进的摄像控制功能,则使Veo 2能够更精确地定位其生成视频中的虚拟“摄像机”,并移动摄像机以从不同角度捕捉物体和人物。

DeepMind还声称,Veo 2可以更真实地模拟运动、流体动力学(例如咖啡倒入杯子的过程)以及光线属性(如阴影和反射)。

这包括不同的镜头和电影效果,以及细腻的人类表情。

Google Veo 2样例。

请注意,在片段转换为GIF时引入了压缩伪影。

上周,DeepMind向TechCrunch展示了几个精心挑选的Veo 2样本。

对于AI生成的视频来说,它们看起来非常不错——甚至可以说是异常出色。

Veo 2似乎对折射现象和复杂的液体(如枫糖浆)有很强的理解力,并且擅长模仿皮克斯风格的动画。

然而尽管DeepMind坚持认为该模型不太可能产生额外的手指或“意外对象”这样的幻觉元素,但Veo 2仍然无法完全摆脱“谷底怪异感”。

请注意这个卡通狗形生物的眼睛是死气沉沉: 还有这段画面中奇怪滑腻的道路——以及背景中行人彼此融合在一起以及建筑物具有物理上不可能外观的情况:

Collins承认还需要进一步改进。

“连贯性和一致性是需要改进的地方。

”他说,“Veo可以在几分钟内持续遵循提示指令,但无法长时间保持复杂提示的一致性。

同样地,角色的一致性也是一个挑战。

此外,在生成复杂细节、快速复杂的动作方面还有提升空间,并继续推动现实感的边界。

” Collins还补充说:“我们从一开始就与唐纳德·格洛弗、周董、d4vd等创作者合作,深入了解他们的创作过程和技术如何帮助实现他们的愿景。

我们对Veo 1的工作影响了Veo 2的发展,并期待与信任测试者及创作者合作以获取对这一新模型的反馈。

安全与培训

Veo 2是基于大量视频进行训练的。

一般来说,AI模型就是这样工作的:通过提供形式数据的一例接一例示例数据后,模型会识别出数据中的模式并用于生成新的数据。

DeepMind不会透露具体从哪里获取训练数据来训练Veo 2,但YouTube是一个可能的数据来源;谷歌拥有YouTube,并且此前曾告诉TechCrunch称谷歌的一些模型可能会使用YouTube内容进行训练。

“Veo已经经过高质量视频描述配对的数据训练。

”Collins说。

“这些配对包括一段视频及其描述该段视频发生的内容的文字。

” 虽然通过谷歌托管的一些工具可以帮助网站管理员阻止实验室从其网站上提取训练数据示例内容,但DeepMind并没有提供让创作者移除其现有训练集作品的方法。

实验室及其母公司认为使用公共数据进行模型训练属于合理使用范围之内——这意味着DeepMind认为它无需征得数据所有者的许可即可使用这些数据。

并非所有创作者都同意这一观点——尤其是在考虑到有研究估计未来几年内AI可能会扰乱数以万计电影和电视工作的情况下。

几家AI公司——包括流行AI艺术应用Midjourney背后的同名初创公司——正面临诉讼指控称它们未经许可就利用内容进行训练侵犯了艺术家的权利。

“我们致力于与创作者及其合作伙伴协作以实现共同目标。

”Collins说。

“我们继续与创意社区及整个行业的人员合作收集见解并听取反馈意见。

” 由于今天受训后的行为方式带来的风险之一就是回声现象——指的是模型生成训练数据的镜像副本——DeepMind采用了一种解决方案:即在提示级别上设置过滤器以防止暴力、图形化或明确的内容出现。

Google的产品责任政策为某些客户提供了针对因使用其产品而引发版权侵权指控进行辩护的支持,在此之前Veo 2并不适用这一政策。

“为了降低深度伪造的风险”,DeepMind表示正在使用其专有的水印技术SynthID嵌入不可见标记到由Veo 2生成的画面帧中。

然而就像所有水印技术一样SynthID并非万无一失。

Imagen升级

除了发布Veо 2之外,Google DeepMind今天还宣布了Imagen3商业图像生成模型的升级版。

新的Imagen3版本将于周一开始向ImageFX用户推出。

它能够创建出更明亮、构图更好的图像和照片风格如写实主义、印象派及动漫风格等根据DeepMind的说法。

“此次升级使得Imagen3更加忠实于提示指令,并渲染出更加丰富的细节和纹理。

”DeepMind在其提供的博客文章中写道。

伴随该模型一起推出的是ImageFX界面更新功能。

现在当用户输入提示时,在这些提示中的关键术语将变成带有下拉菜单的相关建议词汇的小芯片用户可以利用这些芯片来迭代他们所写的内容或者从提示下方自动产生的描述词行中选择一个词组。

评论