Press ESC to close

DeepSeek 发布了新的推理模型 DeepSeek-R1,性能堪比 OpenAI-o1

最近,DeepSeek 宣布推出其首个通过强化学习(RL)训练的推理模型 DeepSeek-R1,该模型在多个推理基准测试中的表现与 OpenAI-o1-1217 相当。

DeepSeek-R1 是基于 DeepSeek-V3-Base 模型开发的,并利用多阶段训练和冷启动数据来提升推理能力。

QQ_1737418705279.png

DeepSeek 研究人员首先开发了 DeepSeek-R1-Zero,这是一个完全通过大规模强化学习训练的模型,没有经过任何监督微调的预备步骤。DeepSeek-R1-Zero 在推理基准测试中表现出色,例如,在 AIME2024 考试中,其 pass@1 得分达到了 71.0%,比之前的 15.6% 有了显著提升。

然而,DeepSeek-R1-Zero 也存在一些问题,如可读性差和混合语言输出。

为了解决这些问题并进一步提升推理性能,DeepSeek 团队开发了 DeepSeek-R1。DeepSeek-R1 引入了多阶段训练和冷启动数据,在强化学习之前进行预训练。具体来说,研究人员首先收集了数千个冷启动数据对来微调 DeepSeek-V3-Base 模型。然后,他们进行了以推理为中心的强化学习,类似于他们对 DeepSeek-R1-Zero 的训练方式。随着强化学习过程接近收敛,他们通过拒绝采样从强化学习检查点生成新的监督微调数据,并将其与 DeepSeek-V3 在写作、事实问答和自我意识等领域的监督数据相结合,重新训练了 DeepSeek-V3-Base 模型。最后,他们使用所有场景的提示对微调检查点进行了额外的强化学习。

DeepSeek-R1 在多个基准测试中取得了令人印象深刻的结果:

  • 在 AIME2024 考试中,DeepSeek-R1 达到了 79.8% 的 pass@1 得分,略高于 OpenAI-o1-1217。
  • 在 MATH-500 考试中,DeepSeek-R1 达到了 97.3% 的 pass@1 得分,与 OpenAI-o1-1217 相当。
  • 在编程竞赛任务中,DeepSeek-R1 在 Codeforces 上获得了 2029 的 Elo 分数评级,并且优于 96.3% 的人类对手。
  • 在知识基准测试(如 MMLU、MMLU-Pro 和 GPQA Diamond)中,DeepSeek-R1 分别获得了 90.8%、84.0% 和 71.5% 的得分,并显著超过了 DeepSeek-V3。
  • 在其他任务(如创意写作、一般问答、编辑、总结等)中,DeepSeek-R1 表现也非常出色。

此外,DeepSeek 还探索将 DeepSeek-R1 的推理能力精简到较小的模型中。研究发现直接从 DeepSeek-R1 精简的效果优于对较小模型应用强化学习。这表明大型基础模型发现的推理模式对于提升推理能力至关重要。

DeepSeek 已开源了 DeepSeek-R1-Zero、DeepSeek-R1 及基于 Qwen 和 Llama(分别为 5B、7B、8B、14B、32B 和 70B)精简出的六个密集模型。DeepSeek-R1 的发布标志着利用强化学习增强大型语言模型推理能力的重要进展。

成本优势

在成本方面,DeepSeek 提供极具竞争力的价格策略。其 API 访问费用为每百万输入令牌(命中缓存)$0.14 和每百万(未命中缓存)$0.55;输出令牌费用为每百万 $2.19。这种定价策略相比其他类似产品更具吸引力,并被用户描述为“游戏改变者”。官方网站和 API 现已上线!访问 https://chat.deepseek.com 经验一下 DeepThink!

社区反馈与未来展望

DeepSeeek-Rl 的发布引发了社区内的热烈讨论。许多用户赞赏该模型的开源性质和成本优势,并认为这为开发者提供了更多的选择和自由度。然而,一些用户提出了关于该模型上下文窗口大小的问题,并希望在未来版本中有进一步优化。

DeepSeeek 团队表示将继续专注于提高模型性能和用户体验,并计划引入更多功能以满足用户对 AGI(通用人工智能)的需求。

总结:本文介绍了 DeepSeeek 推出的新一代推理模型 DeepSeeek-Rl 及其在多个领域的出色表现。通过多阶段训练和冷启动数据的应用,在成本效益方面也表现出色,并且已经开源供开发者使用。
Douglas Lemke

Hi, I’m Douglas Lemke, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram