Press ESC to close

ET科技解析:Sonnet 3.7 混合推理模型与其他AI工具有什么不同?

ettech-explainer-how-is-sonnet-3-7-hybrid-reasoning-model-different-from-rest-of-ai-pack.jpg

美国的人工智能初创公司Anthropic于周一推出了一款新的大型语言模型(LLM),Claude Sonnet 3.7,它被公司称为一种“混合推理模型”。这意味着,这是第一次,一个模型能够以两种不同的方式思考。

Anthropic公司在微博平台X. ET上解释了这款新模型的特点及其与其他模型的差异:

这款模型有何不同?

Claude 3.7 Sonnet是Anthropic家族中继Claude 3.5 Sonnet之后的一款产品,它结合了普通LLM和推理模型的功能。与OpenAI的o3-mini或中国新兴公司DeepSeek的R1等推理模型不同,Claude 3.7 Sonnet的用户可以控制模型在回答查询前应该“思考”多长时间。

用户可以选择“正常”和“扩展”两种思考模式,在扩展模式下,它会应用其推理能力。API用户还可以通过指定回答查询时限制自己使用的令牌数量来控制预算。“这允许你在速度(和成本)与答案质量之间进行权衡,”Anthropic在博客中说道。“在开发我们的推理模型时,我们更注重优化实际业务中LLM的应用,而不是数学和计算机科学竞赛问题。”

与其他模型相比,它的性能如何?

一些评论家和X上的早期测试者称这款模型“非常适合编程”,“是最好的编程AI模型”。它已经在编程平台GitHub和AI驱动的搜索引擎平台Perplexity AI上提供。

在SWE-bench Verified基准测试中,该基准测试评估了AI模型解决现实世界软件问题的能力,Claude 3.7 Sonnet的准确率为62%,高于OpenAI的o3-mini(高版本)49%、DeepSeek的R1以及Claude 3.5 Sonnet的准确率。

在数学问题解决方面,Claude 3.7 Sonnet的扩展思考模式得分为96%,而正常模式得分为82%。这略低于o3-mini(98%)和R1(97%)。

它的价格是多少?谁可以访问?

Claude 3.7 Sonnet的价格与其前身相同,每百万输入令牌3美元,每百万输出令牌15美元。这包括思考令牌。它的价格高于o3-mini(每百万输入令牌1.10美元,每百万输出令牌4.40美元)和DeepSeek的R1(每百万输入令牌55美分,每百万输出令牌2.19美元)。Claude 3.7 Sonnet适用于所有Claude计划,但免费计划用户无法使用扩展思考模式。

总结:这篇文章介绍了美国人工智能初创公司Anthropic推出的新款大型语言模型Claude Sonnet 3.7,并详细描述了其与现有同类产品的差异、性能表现以及价格信息。
Enos Harvey

Hi, I’m Enos Harvey, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram