埃隆·马斯克和其他AI专家一致认为,用于训练AI模型的真实世界数据已经所剩无几。
马斯克在与Stagwell主席马克·潘恩进行的一次直播对话中表示:“我们现在已经几乎用尽了人类知识的总和……在AI训练方面,这发生在去年。”
马斯克拥有AI公司xAI,他回想起了前OpenAI首席科学家伊利亚·苏斯克韦尔在NeurIPS机器学习会议上于去年12月发表的讲话。苏斯克韦尔认为,AI行业已经达到了所谓的“数据顶峰”,预测缺乏训练数据将迫使行业转向当前模型开发方式之外的新路径。
事实上,马斯克提出,合成数据——即由AI模型生成的数据——是补充真实世界数据的唯一途径。“唯一的方法是通过合成数据来补充真实世界的数据,即让AI自己生成训练数据。”他说,“通过合成数据……AI将能够自我评估并经历自我学习的过程。”
包括微软、Meta、OpenAI和Anthropic在内的其他公司已经开始使用合成数据来训练其旗舰级AI模型。Gartner预测,到2024年,用于AI和分析项目的60%的数据将是合成生成的。
微软的Phi-4在周三早些时候开源时,就是使用合成数据与真实世界数据共同训练的。Google的Gemma模型也是如此。Anthropic使用部分合成数据开发了其最出色的系统之一Claude 3.5 Sonnet。Meta则使用AI生成的数据对其最新的Llama系列模型进行了微调。
使用合成数据进行训练还有其他优势,比如成本节约。初创公司Writer声称其Palmyra X 004模型几乎完全基于合成源开发,仅花费70万美元——相比之下,一个同等规模的OpenAI模型的成本估计为460万美元。
然而,使用合成数据也存在一些缺点。一些研究表明,合成数据可能导致模型崩溃,使模型输出变得“不那么有创造力”——更加偏见化——最终严重影响其功能。因为模型是通过这些数据生成更多数据的,如果用于训练这些模型的数据本身带有偏见和局限性,那么它们的输出也会受到同样的影响。
总结:本文讨论了随着真实世界可用训练数据减少的趋势下,合成数据作为未来训练AI模型的重要途径的重要性。它提到了多家公司在使用合成数据方面的实践,并指出了这种方法的优势和潜在的风险。