人们用一个有趣的方法来评估人工智能：让它们模拟球在旋转形状中弹跳的场景。

Screenshot_2025-01-24_at_12.29.00a_¯PM-transformed.png?w=650

非正式且奇特的AI基准测试越来越多。

最近几天，在X平台上的一些AI社区成员对一种测试产生了浓厚兴趣，这种测试考察不同AI模型，尤其是所谓的推理模型，如何处理类似这样的提示：“编写一个Python脚本，让一个黄色的球在形状内部弹跳。让形状缓慢旋转，并确保球始终保持在形状内。”

一些模型在这项“旋转形状中的球”基准测试中表现得比其他模型更好。据一位X用户称，中国的DeepSeek实验室免费提供的R1模型在测试中击败了OpenAI的o1 Pro模式，后者每月收费200美元作为ChatGPT Pro计划的一部分。

👀 DeepSeek R1（右侧）碾压了 o1-Pro（左侧）👀

提示：“编写一个Python脚本，在正方形内让一个弹跳的黄色球运行，确保正确处理碰撞检测。让正方形缓慢旋转。用Python实现它，并确保球保持在正方形内”pic.twitter.com/3Sad9efpeZ

—— Ivan Fioravanti ᯅ (@ivanfioravanti) 2025年1月22日

另一位X用户提到，Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro模型未能准确模拟物理现象，导致球从形状中逃出。其他用户报告称，Google的Gemini 2.0 Flash Thinking实验版和OpenAI更早的GPT-4o一次通过了评估。

对9个AI模型进行了物理模拟任务测试：旋转三角形+弹跳球。结果：
🥇 Deepseek-R1🥈 Sonar Huge🥉 GPT-4o
最差？OpenAI o1：完全误解了任务 😂
下方视频 ↓ 第一行 = 推理模型，其余 = 基础模型。pic.twitter.com/EOYrHvNazr

—— Aadhithya D (@Aadhithya_D2003) 2025年1月22日

那么，一个AI能够或不能编写一个旋转且包含球的形状证明了什么？

模拟弹跳球是一个经典的编程挑战。准确的模拟需要包含碰撞检测算法，这些算法试图识别两个物体（例如球和形状的一侧）之间的碰撞。编写不良的算法会影响模拟性能或导致明显的物理错误。

X用户N8 Programs是一名人工智能初创公司Nous Research的研究员，在一篇帖子中解释说，他大约花了两个小时从头开始编程一个在旋转庚边形内的弹跳球。“必须跟踪多个坐标系统、每个系统中的碰撞处理方式，并从头开始设计代码以使其稳健。”N8 Programs解释道。

然而，尽管旋转形状和弹跳球是测试编程技能的好方法，但它们并不是非常可靠的AI基准测试。即使是轻微的变化提示也会导致不同的结果。这就是为什么一些X用户报告说o1表现更好，而另一些人则认为R1表现不佳的原因。

实际上，这类病毒式测试揭示了创建有用的AI模型衡量体系结构的问题。通常很难区分不同的模型之间有什么区别，除非是那些不切实际的专业基准。

许多努力正在进行中以建立更好的测试方法，如ARC-AGI基准和人类最后考试。我们将看到这些方法的效果如何——在此期间，请欣赏旋转形状中弹跳球的GIF动画。

总结：本文讨论了最近在AI社区中流行的非正式基准测试——特别是关于如何处理“旋转形状中的球”这一任务的不同AI模型的表现差异。虽然这类测试可以展示某些编程技能，但它们并不提供可靠的评估标准，并且容易受到提示微小变化的影响。这揭示了创建实用且可靠的AI模型衡量体系结构的重要性。