人工智能在某些任务上表现出色,比如编写代码或生成播客。但一项新研究发现,AI 在通过高水平的历史考试方面却显得力不从心。
一组研究人员创建了一个新的基准测试,用于测试三种顶级大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和 Google 的 Gemini——在历史问题上的表现。这个基准测试称为 Hist-LLM,它根据 Seshat 全球历史数据库进行评估,这是一个以古埃及智慧女神命名的庞大历史知识数据库。
这些结果在上个月的 AI 会议 NeurIPS 上公布,据奥地利复杂科学研究所(CSH)的附属研究人员表示,结果令人失望。表现最好的 LLM 是 GPT-4 Turbo,但它仅达到约 46% 的准确率——这还不足以比随机猜测更好。
“这项研究的主要收获是,尽管大型语言模型令人印象深刻,但它们仍然缺乏处理高级历史问题所需的深度理解。它们适合处理基本事实,但在涉及更复杂、博士级的历史研究时,它们还无法胜任。”论文合著者之一、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 如是说。
研究人员向 TechCrunch 分享了一些 LLM 错误回答的历史问题示例。例如,GPT-4 Turbo 被问及特定时期古埃及是否使用了规模铠甲。LLM 回答说是的,但实际上这种技术在埃及出现的时间比描述的时间晚了 1500 年。
为什么 LLM 在回答技术性历史问题时表现不佳,但在回答关于编码等复杂问题时却能做得很好?Del Rio-Chanona 告诉 TechCrunch,这可能是因为 LLM 趋于从非常突出的历史数据中推断信息,难以获取更具体的知识。
例如,研究人员询问 GPT-4 古埃及在特定历史时期是否有职业常备军。正确答案是否定的,但 LLM 却错误地回答说有。这可能是因为关于其他古代帝国(如波斯)拥有常备军的信息非常丰富。
“如果你被告诉 A 和 B 100 次,并且只被告诉 C 一次,然后被问及关于 C 的问题时,你可能会记住 A 和 B 并尝试从那推断答案。”Del Rio-Chanona 解释道。
研究人员还发现了一些其他趋势,包括 OpenAI 和 Llama 模型在某些地区(如撒哈拉以南非洲)的表现较差,这表明它们的训练数据可能存在潜在偏差。
CSH 的研究负责人 Peter Turchin 表示:“总的来说,这些结果突显了 LLM 需要改进的领域,并强调了这些模型在未来辅助历史研究中的潜力。”
研究人员仍在努力改进他们的基准测试方法,包括增加来自欠代表地区的更多数据,并提出更复杂的问题。