最近,加州大学伯克利分校的Sky Computing Lab团队发布了一款名为Sky-T1-32B-Preview的开源推理人工智能模型,使推理AI的开发更加便捷且成本更低。这款模型在多项关键基准测试中表现出色,甚至与OpenAI早期版本的o1不相上下。
Sky-T1的训练成本仅为450美元,这意味着复制高级推理能力变得更加经济高效。虽然450美元可能不算低,但与几年前动辄数百万的训练成本相比,已经是一个显著的下降。利用合成训练数据——由其他模型生成的数据——大大降低了成本。最近,AI公司Writer发布了Palmyra X004,几乎完全依赖合成数据进行开发,其开发成本仅为70万美元。
图片来源说明:图片由AI生成,图片授权服务提供商Midjourney
与大多数AI不同,推理模型能够有效自我验证,这使得它们在处理常见问题时更加可靠。虽然推理模型通常需要更长的时间来得出解决方案,可能需要几秒到几分钟不等,但在物理、科学和数学等领域中,其可靠性优势非常明显。
NovaSky团队利用了另一个推理模型——阿里巴巴的QwQ-32B-Preview来生成Sky-T1的初始训练数据,并在使用OpenAI的GPT-4o-mini重新组织数据之前进行了数据整理。使用8块Nvidia H100 GPU训练包含32亿参数的Sky-T1大约需要19个小时。参数数量大致反映了模型的问题解决能力。
NovaSky团队表示,Sky-T1在MATH500测试中超过了早期版本的o1,“MATH500”是一系列“竞赛级别”的数学挑战集合。此外,在LiveCodeBench遇到的一些难题上,Sky-T1也超过了早期版本的o1。然而,在涉及物理、生物和化学等领域的GPQA-Diamond测试中,Sky-T1的表现不如o1早期版本。
值得注意的是,OpenAI的GA版本o1比预览版更强大,并且预计在未来几周内将发布更先进的推理模型o3。尽管如此,NovaSky团队表示Sky-T1只是他们开发具有高级推理能力开源模型旅程的开始。
“展望未来,我们将专注于开发更高效的模型以保持强大的推理性能,并探索高级技术以进一步提高模型效率和准确性。”他们在博客中写道:“请关注我们在这项令人兴奋的项目上的进展。”
总结:本文介绍了加州大学伯克利分校发布的开源推理人工智能模型Sky-T1-32B-Preview及其性能特点,并对比了其与OpenAI早期版本o1的表现。文章还提到了训练成本和使用合成数据的优势,并展望了未来的发展方向。