上周,亿万富翁、X公司的所有者埃隆·马斯克声称,用于训练人工智能(AI)模型如ChatGPT的人类生成数据池已经耗尽。马斯克没有提供证据支持这一说法。但近期其他科技行业的重要人物也有类似的主张。早期的研究表明,人类生成的数据可能在两到八年之内耗尽。这主要是因为人类无法快速生成足够的文本、视频和图像数据来满足AI模型迅速增长的需求。
当真实数据耗尽时,这将对AI开发者和用户构成重大问题。它将迫使科技公司更多地依赖由AI生成的数据,即合成数据。这反过来可能导致目前由数亿人使用的AI系统变得不那么准确和可靠——因此,也变得不再有用。
但这种情况并非不可避免。事实上,如果谨慎使用和管理,合成数据可以改善AI模型。
真实数据的问题
科技公司依赖真实或合成数据来构建、训练和改进生成型AI模型如ChatGPT。数据的质量至关重要。低质量的数据会导致低质量的输出,就像使用低质量食材烹饪会得到低质量的菜肴一样。
真实数据是指由人类创建的文本、视频和图像。公司通过调查、实验、观察或网站和社会媒体的数据挖掘收集这些数据。由于它包含了真实的事件并捕捉了广泛的情景和背景,因此通常被认为有价值。然而,它也不完美。例如,它可能包含拼写错误和不一致或无关的内容。它也可能存在严重的偏见,这可能导致生成型AI模型只展示男性或白人在某些工作中的图像。
这种类型的数据也需要大量的时间和精力来准备。首先人们收集数据集,然后对其进行标注以使其对AI模型有意义。之后他们会审查并清理这些数据以解决任何不一致的问题,在此之前计算机将过滤、组织并验证这些数据。这个过程可能占到整个AI系统开发时间投资的80%。
但正如上面所述,由于人类无法快速产生足够的数据来满足不断增长的AI需求,真实数据也变得越来越稀缺。
合成数据的崛起
合成数据是由算法人工创建或生成的,如ChatGPT生成的文本或DALL-E生成的图像。理论上讲,合成数据为训练AI模型提供了成本效益高且更快的解决方案,并且解决了隐私问题和伦理问题,特别是敏感个人信息如健康信息的问题。
重要的是,与真实数据不同的是它并不稀缺;事实上它是无限的。
合成数据面临的挑战
正因为如此,科技公司越来越多地转向合成数据来训练他们的AI系统。研究机构Gartner估计到2030年,合成数据将成为AI中主要使用的数据形式。
尽管合成数据提供了有前景的解决方案,但它并非没有挑战。AI模型在过度依赖合成数据时可能会崩溃——这意味着它们开始产生大量虚假信息(包含错误信息的响应),并在质量和性能上大幅下降以至于无法使用。
例如,现有的AI模型已经难以正确拼写某些单词。如果这种错误的数据被用来训练其他模型,则它们也会复制这些错误。
合成数据还存在过于简单的风险。
它可能缺乏真实数据库中的细腻细节和多样性,导致基于其训练出的AI模型输出也过于简单且不实用。
建立强大的系统以保持AI准确可信
为了解决这些问题,在国际组织如国际标准化组织或联合国国际电信联盟等机构的支持下引入强大的跟踪和验证AI培训数据系统的机制是必要的,并确保这些机制可以在全球范围内实施。
可以为用户提供追踪元数据的功能,允许用户或系统追踪任何其已训练过的合成数据的来源及其质量。
这将补充一个全球标准的跟踪与验证系统。
在整个训练过程中人类也必须对合成数据进行监督以确保其高质量。
这包括定义目标、验证数据分析质量、确保符合伦理标准以及监控AI模型性能。
有趣的是,在某种程度上人工智能算法也可以参与审计和验证工作以确保从其他模型生成的人工智能输出结果的一致性和准确性。
例如这些算法可以比较合成与真实的数据以识别任何错误或差异从而确保该过程的一致性和准确性。
因此可以说合成数据显示出改善人工智能的可能性。