Press ESC to close

人们用一个有趣的方法来评估人工智能:让它们模拟球在旋转形状中弹跳的场景。

Screenshot_2025-01-24_at_12.29.00a_¯PM-transformed.png?w=650

非正式且奇特的AI基准测试越来越多。

最近几天,在X平台上的一些AI社区成员对一种测试产生了浓厚兴趣,这种测试考察不同AI模型,尤其是所谓的推理模型,如何处理类似这样的提示:“编写一个Python脚本,让一个黄色的球在形状内部弹跳。让形状缓慢旋转,并确保球始终保持在形状内。”

一些模型在这项“旋转形状中的球”基准测试中表现得比其他模型更好。据一位X用户称,中国的DeepSeek实验室免费提供的R1模型在测试中击败了OpenAI的o1 Pro模式,后者每月收费200美元作为ChatGPT Pro计划的一部分。

👀 DeepSeek R1(右侧)碾压了 o1-Pro(左侧)👀

提示:“编写一个Python脚本,在正方形内让一个弹跳的黄色球运行,确保正确处理碰撞检测。让正方形缓慢旋转。用Python实现它,并确保球保持在正方形内”pic.twitter.com/3Sad9efpeZ

—— Ivan Fioravanti ᯅ (@ivanfioravanti) 2025年1月22日

另一位X用户提到,Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro模型未能准确模拟物理现象,导致球从形状中逃出。其他用户报告称,Google的Gemini 2.0 Flash Thinking实验版和OpenAI更早的GPT-4o一次通过了评估。

对9个AI模型进行了物理模拟任务测试:旋转三角形+弹跳球。结果:
🥇 Deepseek-R1🥈 Sonar Huge🥉 GPT-4o
最差?OpenAI o1:完全误解了任务 😂
下方视频 ↓ 第一行 = 推理模型,其余 = 基础模型。pic.twitter.com/EOYrHvNazr

—— Aadhithya D (@Aadhithya_D2003) 2025年1月22日

那么,一个AI能够或不能编写一个旋转且包含球的形状证明了什么?

模拟弹跳球是一个经典的编程挑战。准确的模拟需要包含碰撞检测算法,这些算法试图识别两个物体(例如球和形状的一侧)之间的碰撞。编写不良的算法会影响模拟性能或导致明显的物理错误。

X用户N8 Programs是一名人工智能初创公司Nous Research的研究员,在一篇帖子中解释说,他大约花了两个小时从头开始编程一个在旋转庚边形内的弹跳球。“必须跟踪多个坐标系统、每个系统中的碰撞处理方式,并从头开始设计代码以使其稳健。”N8 Programs解释道。

然而,尽管旋转形状和弹跳球是测试编程技能的好方法,但它们并不是非常可靠的AI基准测试。即使是轻微的变化提示也会导致不同的结果。这就是为什么一些X用户报告说o1表现更好,而另一些人则认为R1表现不佳的原因。

实际上,这类病毒式测试揭示了创建有用的AI模型衡量体系结构的问题。通常很难区分不同的模型之间有什么区别,除非是那些不切实际的专业基准。

许多努力正在进行中以建立更好的测试方法,如ARC-AGI基准和人类最后考试。我们将看到这些方法的效果如何——在此期间,请欣赏旋转形状中弹跳球的GIF动画。

总结:本文讨论了最近在AI社区中流行的非正式基准测试——特别是关于如何处理“旋转形状中的球”这一任务的不同AI模型的表现差异。虽然这类测试可以展示某些编程技能,但它们并不提供可靠的评估标准,并且容易受到提示微小变化的影响。这揭示了创建实用且可靠的AI模型衡量体系结构的重要性。
Fritz Gaylord

Hi, I’m Fritz Gaylord, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram