AI智能总结
中国人民大学 李军毅 背景 人工智能历史上最为强悍的“信息助手” 背景 背景 •ChatGPT等大模型的问题 •Knowledge Recency:大模型内部知识存在时间滞后性 •Reasoning Inconsistency:大模型的推理过程和结论存在不一致 •Numerical Computation:大模型的数值计算能力有限 •Hallucination:大模型容易编造事实、生成幻象文本•... 大模型幻象 •“幻象”的出现 •影响大模型输出的真实性和准确性•幻象文本可被扩散为互联网语料,干扰大模型的训练 大模型幻象 •具体表现 •违背已有事实 大模型幻象 •具体表现 •前后说法不一致 两磅的羽毛和一磅的石头哪个更重? 两磅的羽毛和一磅的石头一样重。重量取决于数值大小,在这个例子里,两磅大于一磅。 大模型幻象 •具体表现•编造事实 请提供有关社会认知理论的书籍列表 不存在存在但作者错误不存在存在但作者错误 幻象类型 •传统自然语言生成任务中的幻象类型 •Intrinsic Hallucinations:生成文本与source矛盾•e.g.,在摘要任务中,摘要与文档内容矛盾•Extrinsic Hallucinations:生成文本无法被source验证(可能为真或假)•e.g.,在摘要任务中,摘要内容在文档中不存在•在open-ended生成任务中,这类幻象可能会丰富文本信息 •GPT-4的幻象分类 •Open-domain hallucinations•不依赖参考资源,e.g., ChatGPT用户的真实查询 •Closed-domain hallucinations•依赖特定参考资源, e.g.,摘要 幻象类型 •大模型中的事实性幻象 •实体错误•关系错误•事实不完整•时效错误•过度表达•无法验证 幻象出现的可能原因(before LLMs) •幻象原因 •数据集合原因 •启发式的数据收集方法可能导致source与target无法对应 •e.g.,WIKIBIO将Wikipedia第一句话作为描述infobox的文本,但是有研究发现62%的句子包含infobox中没有的信息(无法验证的信息) •某些任务的source与target天然地不一致,例如开放式对话,这类任务数据的target可能包含许多用于增加内容多样性的额外信息 •任务本身“鼓励”幻象 •无法避免的extrinsic hallucination 幻象出现的可能原因(before LLMs) •幻象原因 •模型原因 •曝光偏差(exposure bias):训练采用teacher-forcing基于ground-truth,测试基于模型生成的文本可能会累积生成误差•参数化知识偏差(parametric knowledge bias):LLM更倾向于使用训练时存储在参数中的知识(可能出错),而非输入中包含的内容 幻象出现的可能原因(before LLMs) •幻象原因 •模型原因 •不充分的表示学习:encoder的语义理解能力会影响幻象的出现,当错误地学习数据表示会导致生成的错误•不恰当的解码方式:decoder采用某些解码策略,例如top-k采样,在增加多样性的同时也会提高幻象出现的概率 大模型时代 •训练数据 •规模更大、领域更广 •训练方式 •推理方式 •提示、上下文学习、思维链 大模型幻象 •“幻象”的出现原因 大模型幻象 •“幻象”的出现原因 1. 基于语句补全模式,受限于最大似然优化 •难于表达知识的受限或者不确定•“I don’t know”, “I’m not sure”•难于拒绝错误前提•Caught in a lie 2. 概率生成的本质 •Guess wrong on fuzzy or uncertain facts 大模型幻象 •“幻象”的出现原因 •SFT阶段的影响 大模型幻象 •“幻象”的出现原因•SFT as behavior cloning Behavior cloningis an approach tosolve animitation learningproblemusing only the training data generatedby an oracle Imitation learning is useful when it iseasierfor an expert to demonstratethe desired behaviorrather than tospecify a reward function. 大模型幻象 •“幻象”的出现原因 1. 假设大模型内部维持了一个知识图谱 •监督微调=learn to assign probabilities 2. 使用人工标注训练这个模型 •Case 1: LLM unknows + labeler knows•容易造成幻象•Case 2: LLM knows + labeler unknows•容易造成信息隐藏 大模型幻象 •“幻象”的出现原因 Key point:检查标注数据和模型的知识对齐 •使用ChatGPT或者GPT-4蒸馏数据可能会造成事实性能力的下降•指令微调需要注意模型能力和标注数据的关系 幻象评估 •大模型幻象检测能力评测基准——HaluEval •35000条包含幻象的评测样本•自动生成+人工标注 幻象评估 •大模型幻象检测能力评测基准——HaluEval •自动生成幻象样本 •问答(10000条):基于HotpotQA构建•对话(10000条):基于OpenDialKG构建•摘要(10000条):基于CNN/Daily Mail构建 幻象评估 •大模型幻象检测能力评测基准——HaluEval •人工标注幻象样本 •来自Alpaca的用户日常查询与ChatGPT回复(5000条)•5000条ChatGPT回复有977条“包含幻象”(19.54%) HaluEval 2.0 •大模型事实性幻象综合评测基准•来自五个领域的事实问题•医学、金融、科学、教育、开放域 HaluEval 2.0 •基于GPT-4的幻象检测框架 •相互独立的事实,e.g., The Battle of Waterloo took place in 1815. •与人类标注的匹配率•均超过90% HaluEval 2.0 •幻象评估指标 •宏观幻象率(Macro Hallucination Rate):段落级别 指标越小越好 •微观幻象率(Micro Hallucination Rate):事实级别 指标越小越好 HaluEval 2.0 •现有大模型幻象程度评估 增加模型规模幻象程度减轻 HaluEval 2.0 •现有大模型幻象程度评估 MaHR与MiHR不是强相关 幻象发生的原因 •预训练阶段 幻象发生的原因 •预训练阶段 •数据规模:知识频率 幻象发生的原因 •预训练阶段 •数据来源:领域混合 幻象发生的原因 •指令微调阶段 •指令数据混合:任务型、日常对话型、合成指令 日常对话型指令幻象率更低 幻象发生的原因 •指令微调阶段 •指令数据增强:复杂化、多样化、规模化、难度平衡 过于复杂的指令容易产生幻象 幻象发生的原因 •提示设计 •人工/合成任务描述、人工/检索/合成示例、提示位置等 幻象发生的原因 •提示设计 •可读性•规范性•具体程度 幻象发生的原因 •解码策略 •事实性v.s.随机性(多样性) 引入随机性可能会导致幻象(领域敏感) 幻象缓解的方法 •微调对齐阶段:基于人类反馈的强化学习(RLHF) GPT-4 reward训练数据集构建 •开放域:ChatGPT用户发现幻象的问题(bad)+人工标注(good) •封闭域: 幻象缓解的方法 •基于人类反馈的强化学习 开放域显著 幻象缓解的方法 •推理阶段:检索增强 Reinforcement Learning from Human Feedback: Progress and Challenges 幻象缓解的方法 •推理阶段:检索增强 较小模型的效果更显著 幻象缓解的方法 •推理阶段:提示改进 幻象缓解的方法 总结 •“幻象”是大模型研究亟待解决的重要问题 •幻象检测是基础,幻象溯源是根本,幻象消除是重中之重