新论文发现，AI在历史方面表现平平

GettyImages-1305439239-1.jpg?w=650

人工智能在某些任务上表现出色，比如编写代码或生成播客。但一项新研究发现，AI 在通过高水平的历史考试方面却显得力不从心。

一组研究人员创建了一个新的基准测试，用于测试三种顶级大型语言模型（LLMs）——OpenAI 的 GPT-4、Meta 的 Llama 和 Google 的 Gemini——在历史问题上的表现。这个基准测试称为 Hist-LLM，它根据 Seshat 全球历史数据库进行评估，这是一个以古埃及智慧女神命名的庞大历史知识数据库。

这些结果在上个月的 AI 会议 NeurIPS 上公布，据奥地利复杂科学研究所（CSH）的附属研究人员表示，结果令人失望。表现最好的 LLM 是 GPT-4 Turbo，但它仅达到约 46% 的准确率——这还不足以比随机猜测更好。

“这项研究的主要收获是，尽管大型语言模型令人印象深刻，但它们仍然缺乏处理高级历史问题所需的深度理解。它们适合处理基本事实，但在涉及更复杂、博士级的历史研究时，它们还无法胜任。”论文合著者之一、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 如是说。

研究人员向 TechCrunch 分享了一些 LLM 错误回答的历史问题示例。例如，GPT-4 Turbo 被问及特定时期古埃及是否使用了规模铠甲。LLM 回答说是的，但实际上这种技术在埃及出现的时间比描述的时间晚了 1500 年。

为什么 LLM 在回答技术性历史问题时表现不佳，但在回答关于编码等复杂问题时却能做得很好？Del Rio-Chanona 告诉 TechCrunch，这可能是因为 LLM 趋于从非常突出的历史数据中推断信息，难以获取更具体的知识。

例如，研究人员询问 GPT-4 古埃及在特定历史时期是否有职业常备军。正确答案是否定的，但 LLM 却错误地回答说有。这可能是因为关于其他古代帝国（如波斯）拥有常备军的信息非常丰富。

“如果你被告诉 A 和 B 100 次，并且只被告诉 C 一次，然后被问及关于 C 的问题时，你可能会记住 A 和 B 并尝试从那推断答案。”Del Rio-Chanona 解释道。

研究人员还发现了一些其他趋势，包括 OpenAI 和 Llama 模型在某些地区（如撒哈拉以南非洲）的表现较差，这表明它们的训练数据可能存在潜在偏差。

CSH 的研究负责人 Peter Turchin 表示：“总的来说，这些结果突显了 LLM 需要改进的领域，并强调了这些模型在未来辅助历史研究中的潜力。”

研究人员仍在努力改进他们的基准测试方法，包括增加来自欠代表地区的更多数据，并提出更复杂的问题。

总结：这项研究表明，在某些领域内的人工智能模型仍然无法替代人类专家。尽管大型语言模型在处理基本事实方面表现出色，但在涉及复杂和深入的历史研究时仍存在局限性。未来的研究将致力于改进这些模型，并探索它们如何更好地辅助历史学家的工作。

新论文发现，AI在历史方面表现平平

Leave a comment

Tag Clouds

Press ESC to close

新论文发现，AI在历史方面表现平平

Leave a comment

Tag Clouds

Newsletter