最近,奥地利复杂系统研究所(CSH)领导的一项研究揭示了一个有趣的现象:虽然大型语言模型(LLMs)在各种任务中表现出色,但在面对高级历史问题时却显得力不从心。研究团队测试了三个顶尖模型,包括OpenAI的GPT-4、Meta的Llama和Google的Gemini,结果令人失望。
图片来源说明:图片由AI生成,授权于Midjourney
为了评估这些模型在历史知识方面的表现,研究人员开发了一种名为“Hist-LLM”的基准测试工具。该工具基于Seshat全球历史数据库,旨在验证AI对历史问题的回答准确性。研究结果在著名的神经信息处理系统会议(NeurIPS)上公布,结果显示最佳表现的模型GPT-4Turbo的准确率仅为46%,这表明其性能几乎与随机猜测无异。
伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出:“尽管大型语言模型令人印象深刻,但在高级历史知识的理解上仍然不够深入。它们擅长处理简单的事实,但在更复杂的历史问题上却显得力不从心。”例如,在被问及古埃及某一时期是否存在鳞片甲时,GPT-4Turbo错误地回答“是”,实际上这种技术出现在1500年后。此外,在被问及古埃及是否有职业常备军时,GPT-4同样错误地回答“是”,而正确答案是否定的。
研究还发现,这些模型在某些区域相关的问题上表现不佳,这可能反映了它们训练数据中的潜在偏差。该研究的主要负责人Peter Turchin指出,这些结果表明LLMs仍然无法在某些领域替代人类。
总结:本文讨论了大型语言模型在处理高级历史问题时的表现,并介绍了相关研究的结果。研究表明,尽管这些模型在简单事实方面表现出色,但在复杂的历史问题上仍然存在不足。此外,研究还揭示了训练数据中的潜在偏差,并强调了人类专家在某些领域的不可替代性。关键点:
- 📊 GPT-4Turbo在高级历史考试中的准确率仅为46%,表明其表现不佳。
- 📚 研究显示大型语言模型仍缺乏对复杂历史知识的理解。
- 🌍 研究团队希望通过改进测试工具来增强模型在历史研究中的应用潜力。