最近,一起涉及版权的集体诉讼中披露的文件引起了对Meta公司使用名为Library Genesis(LibGen)的盗版电子书库来训练其最新AI聊天机器人Llama3的关注。这些文件显示,Meta的工程师们讨论了利用LibGen这种“影子图书馆”可能带来的风险,尤其是在版权和数据所有权日益受到关注的情况下。
图片来源说明:图片由AI生成,版权由Midjourney持有
根据法庭要求,关于使用LibGen数据集的内部保密对话被解密,显示Meta的高管在与AI研究团队讨论时明确表示LibGen的数据“众所周知是盗版的”,并同意使用这些数据来提升Llama3的表现。Meta的产品管理总监Sony Theakanath在一封电子邮件中指出,尽管使用LibGen的数据存在公关风险,但其他AI公司也在使用类似的数据,这让Meta团队觉得这条路并不独特。
更令人担忧的是,Meta员工讨论了如何处理和过滤来自LibGen的文本内容,以去除ISBN和版权声明等标识符。一份内部备忘录指出,“LibGen提供的材料质量高且篇幅长,非常适合学习特定的专业知识。”这表明Meta似乎试图掩盖其使用未经授权内容的行为。
此外,在邮件中提到,直接使用公司的IP地址进行种子下载可能不合适,并对这种做法表达了担忧。然而,在Zuckerberg“自上而下的推动”下使用LibGen数据集的情况下,Meta在AI竞赛中的竞争驱动变得明显。这一事件再次引发了外界对大型科技公司在处理版权问题方面的关注和质疑。
这次版权诉讼的结果可能会对其他类似案件产生重大影响,特别是那些涉及图像、音乐和文学等创造性作品的案件。随着科技公司对原创内容需求的持续增长,原创内容创作者的权利将成为关注的焦点。
总结:本文探讨了Meta公司利用名为Library Genesis(LibGen)的盗版电子书库来训练其最新AI聊天机器人Llama3的相关情况。尽管存在公关风险和其他技术公司的类似做法使得这一决定显得不独特,但Meta仍然决定利用这些未经授权的内容来提升Llama3的表现。这引发了外界对大型科技公司在处理版权问题方面的关注和质疑,并可能影响到其他涉及创造性作品使用的类似案件。