OpenAI 并未公开具体使用了哪些数据来训练 Sora,这是一种视频生成的人工智能。
但从目前的情况来看,至少有一部分数据可能来自 Twitch 的游戏直播和游戏攻略。Sora 于本周上线,我已尝试使用它进行了一些操作(在容量允许的情况下)。
从文本提示或图片开始,Sora 可以生成长达 20 秒的视频,涵盖多种宽高比和分辨率。在 2 月首次公布 Sora 时,OpenAI 提到该模型曾接受过 Minecraft 游戏视频的训练。
那么,其他哪些游戏的玩法片段可能被包含在训练集中呢?似乎有很多。
Sora 可以生成类似于 Super Mario Bros. 的视频(尽管有些bug):
图片来源:OpenAI
它还可以生成灵感来源于《使命召唤》和《反恐精英》的第一人称射击游戏片段:
图片来源:OpenAI
并且可以生成类似于 90 年代《忍者神龟》风格的街机格斗游戏片段:
图片来源:OpenAI
Sora 显然理解 Twitch 直播的样子——暗示它见过一些。
下图捕捉到了一些大致的元素:Sora 生成的视频截图。
图片来源:OpenAI截图中值得注意的一点是,它捕捉到了 Twitch 主播 Raúl Álvarez Genes 的肖像,也就是 Auronplay——包括他左臂上的纹身。
Auronplay 并不是唯一一个被 Sora “了解”的 Twitch 主播。
它还生成了一个与 Imane Anys(更广为人知的名字是 Pokimane)相似的角色视频(有些艺术加工):图片来源:OpenAI
当然,我必须对一些提示进行创造性地调整(例如,“意大利水管工游戏”)。
OpenAI 已实施过滤措施以防止 Sora 生成包含商标角色的片段。例如,“Mortal Kombat 1 游戏玩法”这样的输入不会产生类似标题的内容。但我的测试表明,游戏内容可能已进入 Sora 的训练数据。
OpenAI 对其训练数据的来源一直比较谨慎。
在 3 月接受《华尔街日报》采访时,OpenAI 的前首席技术官 Mira Murati 并未否认 Sora 是否使用了 YouTube、Instagram 和 Facebook 上的内容进行训练。而在 Sora 的技术规格中,OpenAI 承认使用了“公开可用”的数据,并结合了 Shutterstock 等授权媒体库的数据来开发 Sora。当 OpenAI 被要求对此事发表评论时,并未立即回复。
但当这篇报道发布后不久,公关代表表示会“与团队核实”。如果确实有游戏内容出现在 Sora 的训练集中,这可能会带来法律问题——特别是如果 OpenAI 在此基础上开发更多互动体验的话。
“那些基于未授权的游戏玩法片段进行训练的公司正面临许多风险。
”Pryor Cashman 律师事务所的知识产权律师 Joshua Weigensberg 告诉 TechCrunch,“生成性人工智能模型通常需要复制训练数据。如果这些数据是游戏玩法片段,则几乎可以肯定包含受版权保护的内容。”概率模型
Sora 这样的生成性人工智能模型具有概率性质。
经过大量数据训练后,它们会学习这些数据中的模式以做出预测——例如一个人咬汉堡会留下咬痕。这种特性非常有用。
这使模型能够在某种程度上通过观察来学习世界如何运作。但这也可能成为其弱点之一。当以特定方式提示时,许多基于公共网络数据进行训练的模型会产生近乎复制其训练示例的结果。这显然让那些未经许可就被纳入训练集的作品创作者感到不满。
越来越多的人通过法院寻求救济。Microsoft 和 OpenAI 正因允许其 AI 工具重述受版权保护的代码而被起诉。
Midjourney、Runway 和 Stability AI 等流行的 AI 图像应用背后的三家公司在一起案件中被指控侵犯艺术家的权利。而主要音乐唱片公司也对 Udio 和 Suno 这两家开发 AI 歌曲生成器的企业提起诉讼。 许多 AI 公司长期以来一直声称享有合理使用保护,并声称他们的模型创建的是具有变革性的作品而非抄袭之作。Suno 就辩称无差别地进行训练就像“孩子在听了某个音乐流派之后写自己的摇滚歌曲”。
风险输出
Alexander Everist 是 Dorsey & Whitney 律师事务所的一名专注于版权法的专业律师,在 TechCrunch 发送邮件时指出:“游戏直播视频涉及至少两层版权保护:由游戏开发者拥有的游戏内容和玩家或摄像者拍摄的游戏体验的独特视频。
”对于某些游戏来说,还可能存在用户生成内容软件中的权利。Epic 的 Fortnite 允许玩家创建自己的地图并分享给他人使用。
A video of a playthrough of one of these maps would concern no fewer than three copyright holders: (1) Epic, (2) the person using the map, and (3) the map’s creator. “如果法院认定培训人工智能模型构成版权侵权,则每个这些版权持有人都可能成为原告或许可方。”Everist 表示。“对于任何基于此类视频培训 AI 的开发者来说,风险呈指数级增长。” Weigensberg 指出游戏中有许多可保护的元素,如专有的纹理等。“除非这些作品已获得适当许可”,他说,“否则对其进行培训可能会构成侵权。” TechCrunch 联系了几家游戏工作室和发行商进行了评论——包括 Epic、拥有 Minecraft 的 Microsoft、Ubisoft、Nintendo、Roblox 和 Cyberpunk 开发商 CD Projekt Red。
CD Projekt Red 的发言人说:“我们目前无法参与采访。”EA 告诉 TechCrunch 它“暂无评论”。
风险输出
“法院可能会决定生成性人工智能具有‘高度逼真的变革性目的’”,Jesse Saivar 表示,“这是大约十年前出版业起诉谷歌案件中的先例。In that case, a court held that Google’s copying of millions of books for Google Books, a sort of digital archive, was permissible. Authors and publishers had tried to argue that reproducing their IP online amounted to infringement.” “围绕人工智能模型使用受版权保护材料是否构成版权侵权的关键问题仍未解决。”Greenberg Glusker 知识产权和数字媒体及技术部门负责人 Jesse Saivar 告诉 TechCrunch。“是否有复制受版权保护的作品?这是否影响原作市场的价值?[以及] 训练材料的所有者能否声称任何实际损害或伤害?” 即使法院支持 AI 公司也不一定会完全保护其用户免受侵权指控。
If a生成性模型重述了受版权保护的作品,并且随后某人发布或将其纳入另一个项目,则该人仍可能因知识产权侵权而承担责任。 Weigensberg 表示:“生成性人工智能系统经常输出可识别、可保护的知识产权资产作为输出。”
Simpler 系统通常难以防止其输出中产生受版权保护的内容,并且更复杂的系统也可能面临同样的问题。 “一些 AI 公司设有补偿条款来应对这种情况”,但条款通常包含例外情况。
Avery Williams 表示:“将视频游戏中的人物声音、动作、角色、歌曲、对话和艺术作品用于培训人工智能平台构成侵权,在其他情况下也是如此。” 除了版权问题外还需要考虑其他风险——例如商标权侵权。
The output 可能包括与营销和品牌相关的资产——包括来自游戏的角色——这会带来商标风险。
The output 还可能带来姓名权、肖像权等风险。 随着对世界模型的兴趣日益增长,所有这一切都可能变得更加复杂。
If这些“合成”游戏与模型所接受过的培训内容相似,则可能会带来法律问题。 Weigensberg 表示:“将视频游戏中的人物声音、动作、角色、歌曲、对话和艺术作品用于培训人工智能平台构成侵权,在其他情况下也是如此。”
The questions around fair use that have arisen in so many lawsuits against generative AI companies will affect the video game industry as much as any other creative market.