AI智能总结
蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣11香港大学经管学院,2西安交通大学管理学院 摘要 在人工智能浪潮席卷全球的背景下,大语言模型(LLM)正加速扎根知识服务、医疗诊断、商业分析等专业领域,其应用深度与广度持续拓展。然而,一个关键障碍始终横亘在前:“幻觉”——即输出看似逻辑自洽,实则与事实相悖或偏离语境的现象——已成为制约其可信度的关键瓶颈。为此,香港大学蒋镇辉教授领衔的人工智能评估实验室(AIEL),针对37个中美大语言模型(含20个通用模型、15个推理模型、2个一体化系统),从事实性、忠实性幻觉两方面评估其幻觉控制能力。测评结果显示,GPT-5(思考模式)和GPT-5(自动模式)分别斩获冠亚军,Claude 4 Opus系列紧随其后;字节跳动公司的豆包1.5 Pro系列表现突出,领跑国产模型阵营,但与国际顶尖模型之间仍存在显著差距;整体来看,本次测评模型更擅长于避免产生忠实性幻觉、但事实性幻觉控制能力仍有短板。这项研究揭示了AI可信度需兼顾事实与忠实性幻觉协同提升的必要性,为未来模型的优化提供了明确方向,推动AI从“能生成”向“可信赖”的关键性迈进。 大语言模型(LLM)正被迅速地应用在知识服务、决策支持、智能导航、客户服务等专业场景的核心环节。而在这一过程中,LLM生成内容的真实性与可靠性,成为了支撑其应用价值的核心基石。 “幻觉”现象——即模型输出看似合理却与事实不符或偏离语境——已成为制约其可信度的核心问题。识别大语言模型的幻觉问题尤为重要:比如,在金融领域,一个虚构的并购公告或一套捏造的财务数据如若被大模型使用,会误导投资人做出错误的决策;在法律领域,大模型或许会错误地引用一个不存在的法律判例或已失效的条款来生成法律咨询,造成无法挽回的后果;而在医疗保健领域,大模型模型有可能因幻觉而将两种不同疾病的症状混淆,从而提出错误的诊断或治疗方案,直接威胁到患者的生命健康。因此,控制幻觉的能力,成了衡量AI可信度的“生死线”。 为此,由蒋镇辉教授领导的香港大学经管学院人工智能评估实验室(AIEL)针对37个中美大语言模型(含20个通用模型、15个推理模型和2个一体化系统)的幻觉控制能力开展专项测评,旨在揭示不同模型在规避事实错误与保持语境一致性方面的真实表现。 “幻觉”分类 “幻觉”指模型生成内容在事实依据或语境契合度上存在的问题,具体分为两类:事实性幻觉和忠实性幻觉。事实性幻觉是指模型输出内容与真实世界信息不符,既包括对已知知识的错误调用(如张冠李戴、数据错记),也包括对未知信息的虚构(如编造未验证的事件、数据)。忠实性幻觉是指模型未能严格遵循用户指令,或输出内容与输入上下文矛盾,包括遗漏关键要求、过度引申、格式错误等。为清晰呈现大语言模型幻觉的产生路径,并帮助读者更好理解,其核心要素的简要示意图如图1所示。 测评任务与标准 (1)测评题目 事实性幻觉测试题。此类题目旨在考察模型输出内容与客观事实的一致性,设计过程结合现有研究成果与大模型实际应用中的常见错误模式,具体分为三类: 1)信息检索类:这类问题聚焦对精确信息的查询需求。我们通过设计自主查询式问题(覆盖人物、历史、文献等关键维度),要求模型基于这些问题自主开展信息检索。最终通过对信息真实性的验证,考察模型是否会生成过时或虚构的答案(具体示例见表1); 2)虚假事实识别类:这类问题通过在题干中主动植入明显事实错误或虚构事件,构建具有误导性的测试场景。旨在评估模型能否精准识别前提中的不实信息,并基于真实世界知识做出正确判断与修正(具体示例见表2); 3)矛盾前提识别类:这类问题通过设计与给定的真实事实存在逻辑冲突或矛盾的指令要求,检验模型是否能够辨别“真实事实”和“矛盾指令”之间逻辑一致性问题,并据此做出正确的回答(具体示例见表3)。 所有测试涉及的事件、错误点和矛盾设计均为原创或深度改编,以确保测评的有效性。 忠实性幻觉测试题。此类题目旨在考察模型输出是否严格遵循用户指令并忠实反映输入上下文,所有题目均刻意规避对外部客观事实的依赖,以纯粹评估“忠实度”。 1)指令一致性评估:此类题目重点关注“内容约束”(如要求包含或排除特定关键词)和“格式约束”(如特定列表样式、标点符号要求),该类测试题目旨在评估模型执行指令的精度(见表4)。 2)上下文一致性评估:此类题目要求模型仅基于给定文本进行信息抽取、观点判断或逻辑推断。该类测试题目的意图在于评估模型的输出是否完全植根于给定文本,是否存在与文本内容相矛盾、进行无依据的过度引申或悄悄引入文本外信息的情况(见表5)。 (2)测评标准 对于大语言模型幻觉控制能力的评判标准聚焦于模型回复的客观准确性。该维度重点考察模型是否能够基于给定信息输出,避免生成无事实支撑的内容,具体结合题目类型细化如下: 事实性幻觉控制测评标准:对于事实性幻觉,我们从两个方面设定评分标准。对于有唯一正确答案的题目,我们通过与事实来源进行比对,判断模型能否识别无依据的虚假信息,并采用二元变量(0/1)进行评分;对于需要多文献核查的题目,我们采用累计记分制,模型回答正确一项即获得相应的分数(全部回答错误得0分,全部回答正确得满分)。所有得分最后进行统一的标准化处理。 忠实性幻觉控制测评标准:核查模型对给定信息的描述是否准确,针对内容匹配类题目和数值/范围类题目,采用二元变量评分(0 =描述错误,1 =描述正确)。 测评结果与分析 幻觉控制能力作为衡量模型输出真实性与可靠性的核心指标,直接影响大语言模型在专业场景(如知识问答、决策支持)中的可信度。37个模型的幻觉控制能力得分及排名如表6所示,整体呈现出显著的梯度差异,且在事实性与忠实性幻觉控制上表现出不同的能力特征。 根据模型在幻觉控制方面的整体表现,我们将模型划分为如图2所示的四个梯队。 头部模型展现出差异化优势:GPT-5(思考模式)凭借86分的总成绩登顶榜首,GPT-5(自动模式)则以84分摘得亚军。值得注意的是,从分数上来看,这两款模型在“忠实性幻觉”测试中均取得满分,展现出极强的指令遵循能力,但在事实性准确度方面(小于75分)仍有提升空间。紧随其后的是得分分别为83分和80分的Claude 4 Opus(思考模式)和Claude 4 Opus。第二梯队则包括Grok 4、GPT-o3、豆包1.5 Pro、豆包1.5 Pro(思考模式)、Gemini 2.5 Pro和GPT-o4 mini等模型。 综合趋势与模型特点: 共性与挑战:评测结果揭示,目前大模型在忠实性幻觉控制上已相当强劲,但在事实性维度上仍有短板,这反映出这些模型目前普遍存在“严守指令但易虚构事实”的倾向。 模型类型分析:整体来看,推理模型的幻觉控制能力表现较好,这表明之前有些学者的“推理模型因逻辑链更长更易产生幻觉”1的说法未获数据支持。例如通义千问3(思考模式)和Claude 4 Opus(思考模式)等推理模型的幻觉控制能力均优于同系列通用版本。国产模型表现:豆包1.5 Pro系列领跑国产模型,得分72-73分,其在事实性和忠实性维度上得分均衡,展现出稳健的幻觉控制能力。然而,与GPT-5和Claude系列仍有约10分的差距。相比之下,DeepSeek系列的幻觉控制能力稍显逊色(DeepSeek-V3总分65分;DeepSeek-R1总分60分),该系列幻觉控制能力有待加强。 结论 本次针对37个中美大语言模型的幻觉控制能力专项测评,揭示了当前AI在输出真实性与可靠性上的核心特征与差异。本次测评通过事实性与忠实性的分类框架,揭示了幻觉控制能力的深层理论框架。未来,模型优化需兼顾知识储备的准确性与任务执行的可控性,尤其应强化复杂场景下的事实核查与上下文建模能力,推动AI从“能生成”向“可信赖”迈进。