您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [OpenAI&佐治亚理工学院]:语言模型为何产生幻觉 - 发现报告

语言模型为何产生幻觉

报告封面

亚当·塔曼·卡莱∗奥菲尔·纳胡姆珊托什·S·文帕拉 2025年9月4日张 Edwin OpenAIOpenAI乔治亚理工学院OpenAI 摘要 像面对难题的学生一样,大型语言模型有时在不确定时会猜答案,从而产生看似合理却错误的陈述,而不是承认不确定性。这种“幻觉”现象即使在最先进的系统中也持续存在,并损害信任。我们认为,语言模型产生幻觉是因为训练和评估流程奖励猜测而非承认不确定性,我们分析了现代训练流程中幻觉的统计成因。幻觉并非神秘——它们简单地源于二元分类中的错误。如果错误的陈述无法与事实区分,那么预训练语言模型中的幻觉将通过自然统计压力产生。然后我们论证,幻觉之所以持续存在,是因为大多数评估方式——语言模型被优化为优秀的应试者,不确定时猜答案能提高应试表现。这种“惩罚不确定回答”的“流行病”只能通过社会技术缓解措施来解决:修改现有与标准不符但主导排行榜的基准测试得分,而不是引入额外的幻觉评估。这种改变可能会引导该领域走向更值得信赖的人工智能系统。 1 引言 语言模型已知会产生过度自信、看似合理的虚假言论,这降低了它们的效用。这种错误模式被称为“幻觉”,尽管它与人类的感知经验根本不同。尽管取得了显著进展,幻觉仍然困扰着该领域,并且在最新的模型(OpenAI,2025a)中仍然存在。考虑提示: 阿当·塔曼·卡莱的生日是什么?如果你知道,只需回答DD-MM。 幻觉是一个重要的特例错误由语言模型生成,我们使用计算学习理论(例如,Kearns和Vazirani,1994在三次独立的尝试中,一个最先进的开源语言模型1输出三个错误的日期:“03-07”、“15-06”和“01-01”,即使仅当已知时才请求响应。正确的日期是秋季。表1提供了更复杂幻觉的一个示例。 年)更一般地进行分析。我们考虑一般集合的错误 E,一个合理的字符串的任意子集X=E ∪ V,以及其他合理的字符串V被称呼有效. 我们随后分析这些错误的统计性质,并 ChatGPT:亚当·塔曼·卡莱的博士论文(2002年在卡内基梅隆大学完成)的题目是:(GPT-4o)“提升、在线算法以及机器学习中的其他主题。” “交互式机器学习中的代数方法”。……2005年在哈佛大学。深度探索:Llama:“用于学习和玩游戏的高效算法”。在2007年在麻省理工学院。 表1:来自三个流行语言模型的关于“亚当·卡莱的论文标题是什么?”的回答摘录3没有生成正确的标题或年份(Kalai,2001)。 应用对感兴趣的错误类型的成果:称为幻觉的合理虚假陈述。我们的形式化方法也包括一个概念提示对于一个语言模型必须做出回应。 语言分布最初是从训练样本语料库中学习的,该语料库不可避免地包含错误和半真理。然而,我们证明,即使训练数据没有错误,语言模型训练期间优化的目标也会导致错误产生。在包含错误痕迹的现实训练数据中,人们可以预期更高的错误率因此,我们对误差的下界适用于更现实的设置,正如传统计算学习理论(Kearns和Vazirani,1994)中所描述的那样。 我们的错误分析是一般的,但对幻觉有具体的启示。它广泛适用,包括推理和搜索-检索语言模型,并且分析不依赖于下一词预测或基于 Transformer 的神经网络的特性。它仅考虑现代训练范式的两个阶段:预训练和后训练,如下所述。对于幻觉,分类法(Maynez 等人,2020 年;Ji 等人,2023 年)通常进一步区分内禀与用户提示相矛盾的光幻,例如: DEEPSEEK中有多少个D?如果你知道,就直接说那个数字,不要评论。 deepseek-v3 在十次独立试验中返回“2”或“3”;meta ai 和 claude 3.7 sonnet2表现相似,包括像“6”和“7”这样大的答案。我们的理论也阐明了外部的幻觉,与训练数据或外部现实相矛盾。 1.1 预训练引起的错误 在预训练期间,一个基础模型学习大型文本语料库中的语言分布。我们证明,即使训练数据没有错误,预训练期间最小化的统计目标也会导致一个会产生错误的语言模型。证明这一点并不简单,因为有些模型不会出错,例如一个总是输出“I don’t know”(IDK)的模型,或者一个仅仅记忆并复制一个无错误语料库的模型。我们的分析解释了预训练后应该预期哪些类型的错误。要完成这个任务,我们将它与二元分类联系起来。考虑形式为“这是一个有效的语言模型输出吗?”的问题。 生成有效输出在某种程度上比回答这些问题更难,因为生成需要隐式地回答“这是有效的吗”关于每个候选回复。形式上,我们考虑 Is-It-Valid (IIV) 二元分类问题,该问题的训练集由大量回复组成,每个回复都标记为有效(+)或错误 ––++++–++++++++++++++––+––––––+––––––––––––––––––––––––––––+++++++++++++––––––––––––––+++++++++++––––––有效示例+问候。如何能帮助您?错误示例——你好。眼能帮助吗?LADDER中有两个D。PIANO中有1个N。SPELL中有3个L。在CAT中有1 G。Mia Holdner的生日是4月1日。我不知道Zdan的生日。科林·梅里瓦尔的生日是8/29。Jago Pere的生日是8/21。拼写(好模型)计数(差劲的模型)生日抱歉,您没有提供需要翻译的 ma (−), 如图1所示。对于这个监督学习问题, 训练和测试数据都是50/50的有效样本+ (即, 预训练数据, 因为我们假设它是有效的) 和均匀随机误差的混合。E被标记为−. 我们接着展示了如何使用任何语言模型作为IIV分类器。这反过来使我们能够建立生成错误(如幻觉)与IIV误分类率之间的数学关系: 语言模型避免了许多类型的错误,例如拼写错误,并非所有错误都是幻觉。从IIV错误分类到生成减少,揭示了生成错误统计性质。分析表明预训练如何直接导致错误。此外,它还表明相同统计因素对二元分类错误的贡献也导致语言模型错误。几十年的研究揭示了错误分类的多样性本质(Domingos,2012年)。图1(右)直观地说明了这些因素:顶部,可分离数据被准确分类;中部,一个圆形区域的线性分离器模型很差;底部,没有简洁的模式。第3.3节分析了几个因素,包括以下带有认知不确定性的形式化设置,当数据中没有模式时。 这种约化将早期涵盖不同类型事实的工作结合起来。例如,Kalai和Vempala(2024)考虑了任意事实的一个特例,其中数据中没有可学习模式,就像早期生日幻觉示例一样。我们展示了IIV约化如何涵盖这种情况并恢复他们的界限,即预训练后幻觉率应该是至少出现一次的训练事实的比例。例如,如果生日事实中有20%在预训练数据中恰好出现一次,那么预期基础模型会在至少20%的生日事实上产生幻觉。事实上,我们的分析加强了他们的结果,包括提示和IDK响应,这两者都是幻觉的重要组成部分。 1.2 为什么幻觉在训练后仍然存在 第二阶段,训练后对基础模型进行精炼,通常旨在减少幻觉。虽然预训练的分析更广泛地涵盖了错误,但我们的后训练分析重点在于为什么会产生过度自信的幻觉,而不是遗漏信息或表达不确定性(例如IDK)。我们为后训练后幻觉的持续存在提供了社会技术解释,并讨论了该领域如何抑制它们。 作为类比,考虑以下情境:人类偶尔也会编造听起来合理的信息。当不确定时,学生在选择题考试中可能会猜测,甚至在笔试中装腔作势,提交他们几乎没有信心的合理答案。语言模型通过类似的测试进行评估。在两种情况下,不确定时猜测都在二进制0-1方案下最大化预期得分,该方案对正确答案奖励1分,对空白或IDK不给分。谎言通常过于自信且具体,例如对于日期问题,编造“9月30日”而不是“秋天的某个时候”。许多语言模型基准模仿标准化人类考试,使用准确率或及格率等二元指标。因此,针对这些基准优化模型可能会助长幻觉。人类在校园之外,在生活的学校中学会表达不确定性的价值。另一方面,语言模型主要使用惩罚不确定性的考试进行评估。因此,它们总是处于“应试”模式。简单来说,大多数评估并不一致。 我们并非最早认识到二分法评分并不能衡量胡言乱语的人。然而,先前关于胡言乱语评估的研究通常都在寻求难以捉摸的“完美胡言乱语评估”。在第四节中,我们认为这是不够的。我们观察到现有的主要评估几乎都惩罚不确定性,因此根本问题在于大量未对齐的评估假设模型A是一个对齐的模型,它能正确地表示不确定性且永不产生幻觉。让模型B与模型A相似,只是它永不表示不确定性,并且在不确定时总是“猜测”。在0-1评分下(当前大多数基准测试的基础),模型B将优于模型A。这造成了一种“流行病”现象,即惩罚不确定性和弃权行为,我们认为一小部分幻觉评估是不够的。大量的初步评估必须进行调整,以停止在不确定时惩罚弃权行为。 贡献。我们识别了幻觉的主要统计驱动因素,从它们的预训练起源到它们的训练后持续存在。监督学习与无监督学习之间的一种新联系揭示了它们的起源,即使训练数据包含IDK也是如此。尽管对这个问题进行了大量研究,幻觉的持续存在可以通过认识到类幻觉猜测被大多数主要评估所奖励来解释。我们讨论了对现有评估进行统计严格修改,为有效缓解铺平了道路。 2 相关工作 据我们所知,本工作提出从监督学习(二分类)到无监督学习(密度估计或自监督学习)的转化是新颖的。然而,学习问题之间转化的通用方法是一种成熟的用于证明一个问题至少和另一个问题一样难的技术(例如,参见 Beygelzimer 等人,2016)。 许多调查和研究探讨了语言模型中幻觉的潜在原因。Sun等人(2025年)引用了模型过度自信(Yin等人,2023年)、解码随机性(Lee等人,2022年)、雪球效应(Zhang等人,2023年)、长尾训练样本(Sun等人,2023年)、误导性对齐训练(Wei等人,2023年)、虚假关联(Li等人,2022年)、暴露偏差(Bengio等人,2015年)、逆转诅咒(Berglund等人,2024年)和上下文劫持(Jeong,2024年)等因素。在更广泛的机器学习和统计环境中,类似的错误来源已经进行了长期研究(Russell和Norvig,2020年)。 与该理论最密切相关的著作是Kalai和Vempala(2024年),我们展示了这一点 我们归约的一个特殊情况。他们将Good-Turing缺失质量估计(Good,1953年)与幻觉联系起来,这启发了定理3。然而,那篇论文没有涉及不确定性表达式(例如,IDK)、与监督学习的联系、训练后的修改,并且他们的模型没有包含提示。Hanneke等人(2018年)分析了一种交互式学习算法,该算法查询一个验证预言机(例如,人类),以无偏见地训练一个最小化幻觉的语言模型。他们的方法在统计上是有效的,需要合理的数据量,但在计算上不是高效的。其他最近的理论研究(Kalavasis等人,2025年;Kleinberg和Mullainathan,2024年)形式化了语言模型与最小化幻觉之间的固有权衡。一致性(避免无效输出) 和宽度(生成多样化、语言丰富的内容)。这些作品表明,对于广泛的语言类别,任何超出其训练数据的模型都将要么产生无效的输出,要么遭受模式崩溃,无法生成所有有效的响应范围。 许多其他方法已被证明在缓解幻觉方面是有效的;例如,Ji等人(2023)和Tian等人(2024)的综述。在评多种后训练技术—例如人类反馈强化学习(RLHF)(Ouyang等人,2022年)、人工智能反馈强化学习(RLAIF)(Bai等人,2022年)以及直接偏好优化(DPO)(Rafailov等人,2023年)—已被证明可以减少幻觉,包括阴谋论和普遍的误解。Gekhman等人(2024年)表明,在新型信息上进行简单的微调可以最初降低幻觉率,但随后又会增加。此外,已证明自然语言查询和内部模型激活都编码了关于事实准确性和模型不确定性的预测信号(例如,Kadavath等人,2022年)。正如我们的引言中所讨论的,模型对语义相关查询的回答中的不一致性也可以被用来检测或减轻幻觉(Ma