最近的研究表明,尽管人工智能在编程和内容创作等领域表现出色,但在处理复杂的历史问题时却显得力不从心。在NeurIPS会议上展示的一项研究揭示,即使是最先进的大型语言模型(LLMs)在历史知识测试中也难以取得令人满意的结果。
研究团队开发了一个名为Hist-LLM的基准测试,评估了三个顶级语言模型:OpenAI的GPT-4、Meta的Llama和Google的Gemini。测试基于Seshat全球历史数据库,结果令人失望:表现最好的GPT-4Turbo的准确率仅为46%。
图片来源说明:图片由AI生成,图片由Midjourney授权
伦敦大学学院的副教授Maria del Rio-Chanona解释说:“这些模型在基本的历史事实方面表现良好,但在博士级别的深入历史研究中却遇到了困难。”研究发现,AI在细节上经常出错,例如错误地判断古埃及某些时期是否拥有特定的军事技术或常备军。
研究人员认为这种表现不佳的原因在于,这些AI模型倾向于从主流历史叙述中推断信息,难以准确把握更微妙的历史细节。此外,研究还发现这些模型在处理撒哈拉以南非洲等地的历史问题时表现更差,这可能反映了训练数据中的潜在偏见。
Complexity Science Hub(CSH)主任Peter Turchin表示,这一发现表明,在某些专门领域中,人工智能目前还无法替代人类专家。然而,研究团队对人工智能在历史研究中的前景仍持乐观态度,并正在努力改进基准测试以帮助开发更好的模型。
总结:这项研究表明,在处理复杂历史问题时,尽管人工智能有其优势,但在细节把握和特定区域的历史问题上仍有局限性。研究人员正致力于改进基准测试以促进更精确的模型开发。