2025年1月16日,上海飞跃之星智能科技有限公司正式推出了自主研发的推理模型——Step Reasoner mini(简称“Step R-mini”)。用户可以通过访问网站yuewen.cn的网页门户登录,并在页面左上角选择“Step R-mini”来体验这款模型。
Step R-mini 是 Step 系列中的首款推理模型,擅长主动规划、实验和反思。通过一种逻辑机制,它能够进行慢思考并反复验证,为用户提供准确可靠的回应。它不仅凭借其卓越的长篇推理能力解决了逻辑推理、编程和数学中的复杂问题,还在文学创作等一般领域表现出色。
飞跃之星开发的 Step 系列基础模型矩阵涵盖了从语言到多模态再到推理的全面能力。在数学基准测试如 AIME 和 Math 中,Step R-mini 的表现超过了 o1-preview,与 OpenAI 的 o1-mini 相当。在 LiveCodeBench 编程任务中,它也展示了优于 o1-preview 的结果。值得注意的是,大多数推理模型难以在文科和理科之间取得平衡,而 Step R-mini 通过广泛的强化学习训练实现了“双精通”,采用在线策略强化学习算法,在数学、编程和逻辑推理方面准确回答问题的同时,还能创造性地完成文学内容创作和日常聊天任务。
在实际应用中,Step R-mini 展现了出色的表现。在解决数学问题时,面对奥林匹克竞赛题时能够构建合理的推理链,并逐步解决复杂数学问题,同时列举不同的解决方案进行交叉验证。处理几何问题时,它会主动绘制草图以构建深入思考的媒介。在逻辑推理任务中,它会自主探索多种解题方法并自我提问以确保所有好的解决方案都被列举出来。在编程挑战中,它可以正确解决 LeetCode 技术平台上标记为“困难”的算法问题,并通过逐步分析用户需求和意图来构建代码逻辑。在内容创作方面,它深刻理解用户表达需求,分析主题和文学类型,并考虑创造性的视角来描述场景、运用修辞技巧、结构化内容、赋予事物人性化的情感象征,并增强个性化和创新表达风格。在翻译任务中,则遵循“忠实、生动、优雅”的原则,力求呈现精准且富有意义的翻译结果。
除了语言推理模型外,飞跃之星还在开发视觉推理模型,并将其整合到具有更多互动形式的大规模模型中。对于复杂视觉场景中的推理问题,引入了慢感知和空间推理的概念,并将 Test-Time Scaling 从文本空间转移到视觉空间,在视觉领域实现了空间慢思考。目前视觉推理模型已取得阶段性成果,并预计今年发布正式版本。
总结:本文介绍了上海飞跃之星智能科技有限公司推出的自主研发的推理模型——Step Reasoner mini(简称“Step R-mini”)。该模型擅长主动规划、实验和反思,在多个领域展现出卓越的能力,并且通过强化学习训练实现了“双精通”。此外,公司还正在开发视觉推理模型,并计划在今年发布正式版本。