Meta CEO 马克·扎克伯格最近在一次法律诉讼中为公司使用受版权保护的数据进行 AI 训练进行了辩护,他提到了 YouTube 在打击盗版内容方面的努力。这场名为“Kadrey v. Meta”的案件是美国法院中众多针对 AI 公司的版权诉讼之一,原告包括著名作家莎拉·塞勒曼和塔-内希西·科特斯。
根据最近公布的扎克伯格证词部分内容,他指出尽管 YouTube 上可能存在一些盗版内容,但该平台仍在努力删除它们。“YouTube 上的大部分内容应该是合法的;他们拥有必要的许可证。”扎克伯格如是说。这表明他对 Meta 使用 LibGen 这个包含受版权保护电子书数据集进行 AI 训练的态度。
LibGen 是一个链接聚合网站,提供了来自包括 Cengage Learning、McGraw-Hill 和 Pearson Education 在内的多家出版社的受版权保护的作品。该网站多次因版权侵权被起诉,并被罚款数千万美元。法庭文件显示,尽管 Meta 的 AI 团队对使用 LibGen 的法律风险表示担忧,但扎克伯格仍批准将其用作训练数据集。
在质询过程中,扎克伯格表示他并不熟悉 LibGen,但他认为禁止人们使用 YouTube 是不合理的。“我不希望因为某些内容可能受版权保护就制定政策限制人们使用 YouTube。”他说。他也承认 Meta 在使用受版权保护的材料进行训练时需要谨慎。
根据原告律师最新的指控,Meta 将 LibGen 中的一些盗版书籍与授权的受版权保护书籍进行了比对,以决定是否与出版社签订许可协议。此外,原告还指控 Meta 使用 LibGen 的数据集训练其最新模型 Llama,并从另一个盗版来源 Z-Library 下载电子书用于训练。
Z-Library 也因版权问题面临多次法律诉讼,其维护者在 2022 年被指控犯有版权侵权、网络欺诈和洗钱罪。
总结:本文讨论了 Meta 公司在 AI 训练中使用受版权保护的数据集的问题,并引用了扎克伯格在法庭上的证词来解释其立场。文章还提到了多个相关的法律诉讼和争议点,包括 LibGen 和 Z-Library 的情况。关键点:
📚 扎克伯格在法庭上引用了 YouTube 的案例来为 Meta 使用受版权保护的数据进行 AI 训练辩护。
🔍 原告指控 Meta 使用盗版书籍数据集 LibGen 训练 Llama 模型,并隐瞒相关信息。
⚖️ Meta 面临多起版权诉讼,引发了内部关于相关法律风险的讨论和担忧。