今天,阿里巴巴云同语团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B和7B两种版本,性能显著优于同类开源模型,尤其在识别推理错误方面表现优异。Qwen2.5-Math-PRM 7B版本的表现令人惊叹,甚至超越了广受欢迎的 GPT-4o,标志着阿里巴巴云在推理模型研究与开发方面迈出了重要一步。
今天,阿里巴巴云同语团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B和7B两种版本,性能显著优于同类开源模型,尤其在识别推理错误方面表现优异。Qwen2.5-Math-PRM 7B版本的表现令人惊叹,甚至超越了广受欢迎的 GPT-4o,标志着阿里巴巴云在推理模型研究与开发方面迈出了重要一步。