新论文发现,AI在历史方面表现平平

一项新研究发现,顶尖的语言模型在高难度历史测试中表现不佳。