DeepSeek 声称其“推理”模型在某些基准测试中优于 OpenAI 的 o1

GettyImages-1652364481.jpg?w=650

中国AI实验室DeepSeek发布了其所谓的推理模型DeepSeek-R1的开源版本，声称在某些AI基准测试中，它的表现与OpenAI的o1相当。

DeepSeek-R1可以在AI开发平台Hugging Face上免费获取，并且采用MIT许可证，这意味着它可以用于商业用途而无需任何限制。根据DeepSeek的说法，R1在AIME、MATH-500和SWE-bench Verified等基准测试中表现优于o1。AIME通过其他模型评估模型的表现，MATH-500则是一系列文字问题的集合，而SWE-bench Verified则专注于编程任务。

作为推理模型，R1能够自我核实信息，这有助于它避免一些常见的陷阱。尽管推理模型通常需要更长的时间来得出解决方案（通常比普通非推理模型慢几秒到几分钟），但在物理、科学和数学等领域，它们往往更为可靠。

DeepSeek在其技术报告中透露，R1包含671亿个参数。参数大致对应于模型的问题解决能力，参数越多的模型通常表现越好。

虽然671亿个参数听起来非常庞大，但DeepSeek还发布了不同大小的R1“精简”版本，从1.5亿到70亿参数不等。最小的版本甚至可以在笔记本电脑上运行。至于完整的R1，则需要更强大的硬件支持。不过，它通过DeepSeek的API提供，并且价格比OpenAI的o1便宜90%-95%。

R1也有其缺点。作为一款由中国开发的模型，它需要接受中国互联网监管机构的基准测试以确保其回答“体现核心社会主义价值观”。例如，R1不会回答关于天安门广场或台湾自治的问题。

R1的实际运作示例。图片来源：DeepSeek

许多中国AI系统，包括其他推理模型，在面对可能引起监管机构不满的话题时都会选择不作回应，比如对习近平政权的推测。

R1发布于美国即将离任的拜登政府提出更严格的出口管制和AI技术限制措施之后几天。此前，中国公司已经无法购买先进的AI芯片；如果新规定生效，则将面临更严格的半导体技术和构建复杂AI系统所需模型的技术限制。

上周的一份政策文件中，OpenAI敦促美国政府支持美国AI的发展，以免被中国的模型超越或匹敌。在与《信息》杂志的一次采访中，OpenAI政策副总裁克里斯·莱汉特别提到了DeepSeek的企业母公司高飞资本管理公司。

目前至少有三家中国的实验室——DeepSeek、阿里巴巴和由独角兽Moonshot AI拥有的Kimi——声称他们开发的模型能够与o1媲美。（值得注意的是，DeepSeek是第一个发布R1预览版的实验室，在去年十一月底宣布了这一消息）乔治梅森大学的人工智能研究员Dean Ball在其X平台上的一篇文章中指出这一趋势表明，“中国的人工智能实验室将继续成为‘快速追随者’。”

Ball写道：“DeepSeek精简模型令人印象深刻的表现意味着非常有能力的推理者将继续广泛传播，并能在不受任何自上而下控制体制监控的地方运行。”

总结：文章介绍了中国人工智能实验室DeepSeek发布的开源推理模型DeepSeek-R1及其性能特点，并讨论了该模型与其他类似系统的比较以及面临的监管挑战。同时提到了中美在人工智能领域的竞争态势和相关政策动向。

DeepSeek 声称其“推理”模型在某些基准测试中优于 OpenAI 的 o1

Leave a comment

Tag Clouds

Press ESC to close

DeepSeek 声称其“推理”模型在某些基准测试中优于 OpenAI 的 o1

Leave a comment

Tag Clouds

Newsletter