非营利组织人工智能安全中心(CAIS)和提供数据标注及人工智能开发服务的Scale AI公司,共同发布了一个旨在测试前沿人工智能系统的全新基准测试。
这个基准测试名为“人类最后一试”,其中包括了数千个众包问题,涵盖了数学、人文科学和自然科学等多个领域。为了增加评估的难度,这些问题采用了多种格式,包括包含图表和图片的形式。
初步的研究结果显示,目前没有任何一款公开的旗舰级人工智能系统能够在“人类最后一试”中获得超过10%的成绩。
CAIS和Scale AI表示,他们计划将这一基准测试开放给研究界,以便研究人员能够更深入地探索其中的各种差异,并评估新的AI模型。
总结:本文介绍了非营利组织CAIS与Scale AI公司合作发布的一个名为“人类最后一试”的新基准测试。该测试旨在评估前沿人工智能系统的性能,并通过包含图表和图片的问题增加了评估难度。初步研究显示,目前没有任何一款公开的人工智能系统能够在该测试中取得优异成绩。未来,该基准测试将向研究界开放,以促进对AI模型的进一步研究和评估。