探索未知：揭秘科技界的黑话与术语

科学和技术

探索未知：揭秘科技界的黑话与术语

评论 · 41 浏览

k279601146 18 Dec 2024

AI训练数据可不是小数目，更适合财力雄厚的科技巨头们来承担。因此，哈佛大学计划发布一个数据集，希望能改变这一现状。

AI训练数据的成本高昂，最适合财力雄厚的科技公司。

这就是哈佛大学计划发布一个包含约100万本公共领域的书籍数据集的原因，这些书籍涵盖了各种类型、语言和作者，包括狄更斯、但丁和莎士比亚的作品，由于年代久远，这些作品已经不再受版权保护。

这个新数据集目前尚未发布，尚不清楚具体的发布时间和发布方式。

不过，它包含了来自谷歌长期图书扫描项目Google Books的书籍，因此谷歌将参与发布这个“宝藏”资源。

哈佛大学早在今年3月就首次透露了机构数据倡议（IDI）的计划，旨在创建一个“可信的数据通道”，用于AI合法数据。

然而，在今天的正式发布之前，并没有太多关于IDI的消息。

此次发布确认微软和OpenAI为IDI提供了资金支持。

IDI的执行主任格雷格·莱珀特表示，该数据集的设计目的是“让竞争更加公平”，通过开放如此庞大的数据集给任何希望训练大型语言模型（LLMs）的研究实验室或AI初创公司。

#书籍 #OpenAI #哈佛大学 #AI训练 #大型语言模型 #简而言之 #机构数据倡议

评论