所谓的推理AI模型正在变得越来越容易开发,并且成本也在降低。
上周五,来自UC伯克利Sky计算实验室的研究团队NovaSky发布了Sky-T1-32B-Preview模型。这款模型在多个关键基准测试中与OpenAI的o1早期版本具有竞争力。Sky-T1似乎是首个真正开源的推理模型,因为它可以从头开始复制;团队还发布了用于训练它的数据集以及必要的训练代码。
“令人惊讶的是,Sky-T1-32B-Preview的训练成本不到450美元,”他们在博客中写道,“这表明,通过合理的方式,我们可以以较低的成本高效地复制高级推理能力。”
虽然450美元听起来并不便宜,但不久之前,训练一个具有相似性能的模型的成本常常高达数百万美元。合成训练数据(即由其他模型生成的数据)帮助降低了成本。AI公司Writer最近发布的Palmyra X 004模型几乎完全依赖合成数据进行训练,据报道开发成本仅为70万美元。
与大多数AI不同,推理模型能够自我核对事实,这有助于它们避免常见的陷阱。尽管推理模型通常比普通非推理模型需要更多时间来得出解决方案(通常需要几秒钟到几分钟),但在物理、科学和数学等领域,它们往往表现得更为可靠。
NovaSky团队表示,他们使用了阿里巴巴的QwQ-32B-Preview推理模型生成Sky-T1的初始训练数据,然后“整理”了数据混合,并利用OpenAI的GPT-4o-mini将数据重新格式化以供使用。使用8块Nvidia H100 GPU组成的机架对包含32亿参数的Sky-T1进行了大约19小时的训练。(参数大致对应于模型的问题解决能力。)
根据NovaSky团队的说法,Sky-T1在MATH500上表现优于早期版本的o1(MATH500是一系列“竞赛级别”的数学挑战)。该模型还在LiveCodeBench的一组难题上击败了o1早期版本。
然而,在GPQA-Diamond上(包含物理学、生物学和化学相关问题),Sky-T1的表现不如o1早期版本。
值得注意的是,OpenAI发布的GA版本o1比早期版本更强,并且预计在未来几周内会发布性能更好的推理模型o3。
NovaSky团队表示,Sky-T1只是他们开发具有高级推理能力开源模型旅程的开始。
“未来我们将专注于开发更高效的保持强大推理性能的模型,并探索进一步提升测试时效率和准确性的高级技术。”他们在博客中写道,“请关注我们在这项激动人心的工作上的进展。”
总结:本文介绍了新型推理AI模型Sky-T1-32B-Preview的发展情况及其与OpenAI等其他先进AI技术相比的优势和局限性。随着合成训练数据的应用和开源技术的发展,这些先进AI技术的成本正在显著降低。