Press ESC to close

新论文发现,AI在历史方面表现平平

GettyImages-1305439239-1.jpg?w=650

人工智能在某些任务上表现出色,比如编写代码或生成播客。但一项新研究发现,AI 在通过高水平的历史考试方面却显得力不从心。

一组研究人员创建了一个新的基准测试,用于测试三种顶级大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和 Google 的 Gemini——在历史问题上的表现。这个基准测试称为 Hist-LLM,它根据 Seshat 全球历史数据库进行评估,这是一个以古埃及智慧女神命名的庞大历史知识数据库。

这些结果在上个月的 AI 会议 NeurIPS 上公布,据奥地利复杂科学研究所(CSH)的附属研究人员表示,结果令人失望。表现最好的 LLM 是 GPT-4 Turbo,但它仅达到约 46% 的准确率——这还不足以比随机猜测更好。

“这项研究的主要收获是,尽管大型语言模型令人印象深刻,但它们仍然缺乏处理高级历史问题所需的深度理解。它们适合处理基本事实,但在涉及更复杂、博士级的历史研究时,它们还无法胜任。”论文合著者之一、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 如是说。

研究人员向 TechCrunch 分享了一些 LLM 错误回答的历史问题示例。例如,GPT-4 Turbo 被问及特定时期古埃及是否使用了规模铠甲。LLM 回答说是的,但实际上这种技术在埃及出现的时间比描述的时间晚了 1500 年。

为什么 LLM 在回答技术性历史问题时表现不佳,但在回答关于编码等复杂问题时却能做得很好?Del Rio-Chanona 告诉 TechCrunch,这可能是因为 LLM 趋于从非常突出的历史数据中推断信息,难以获取更具体的知识。

例如,研究人员询问 GPT-4 古埃及在特定历史时期是否有职业常备军。正确答案是否定的,但 LLM 却错误地回答说有。这可能是因为关于其他古代帝国(如波斯)拥有常备军的信息非常丰富。

“如果你被告诉 A 和 B 100 次,并且只被告诉 C 一次,然后被问及关于 C 的问题时,你可能会记住 A 和 B 并尝试从那推断答案。”Del Rio-Chanona 解释道。

研究人员还发现了一些其他趋势,包括 OpenAI 和 Llama 模型在某些地区(如撒哈拉以南非洲)的表现较差,这表明它们的训练数据可能存在潜在偏差。

CSH 的研究负责人 Peter Turchin 表示:“总的来说,这些结果突显了 LLM 需要改进的领域,并强调了这些模型在未来辅助历史研究中的潜力。”

研究人员仍在努力改进他们的基准测试方法,包括增加来自欠代表地区的更多数据,并提出更复杂的问题。

总结:这项研究表明,在某些领域内的人工智能模型仍然无法替代人类专家。尽管大型语言模型在处理基本事实方面表现出色,但在涉及复杂和深入的历史研究时仍存在局限性。未来的研究将致力于改进这些模型,并探索它们如何更好地辅助历史学家的工作。
Fritz Gaylord

Hi, I’m Fritz Gaylord, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram