AI训练数据的成本高昂,最适合财力雄厚的科技公司。
这就是哈佛大学计划发布一个包含约100万本公共领域的书籍数据集的原因,这些书籍涵盖了各种类型、语言和作者,包括狄更斯、但丁和莎士比亚的作品,由于年代久远,这些作品已经不再受版权保护。这个新数据集目前尚未发布,尚不清楚具体的发布时间和发布方式。
不过,它包含了来自谷歌长期图书扫描项目Google Books的书籍,因此谷歌将参与发布这个“宝藏”资源。哈佛大学早在今年3月就首次透露了机构数据倡议(IDI)的计划,旨在创建一个“可信的数据通道”,用于AI合法数据。
然而,在今天的正式发布之前,并没有太多关于IDI的消息。此次发布确认微软和OpenAI为IDI提供了资金支持。IDI的执行主任格雷格·莱珀特表示,该数据集的设计目的是“让竞争更加公平”,通过开放如此庞大的数据集给任何希望训练大型语言模型(LLMs)的研究实验室或AI初创公司。