AI智能总结
大语言模型能力来源与边界 张奇复旦大学 大语言模型基础理论突破,发表大模型相关论文80+篇 仅修改130亿参数中的1个就会使模型完全混乱 输入:Fudan University is located in LLaMA2-13B(PPL5.877):FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.ThelanguageofinstructionisChinese. 修改语言核心区1维扩大10倍(PPL376079936):Fudan University is located in<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>No<s>S<s>You<s>There<s>That<s>A<s>This<s><s>##<s><s>< s><s><s>This<s><s><s><s>This<s><s><s>t<s><s>The<s>/<s><s>What<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s> <s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>th<s><s><s><s>d<s>v<s> <s>\<s>{"<s> LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大10倍(PPL5.914):Fudan University is located inShanghai, China, the largest city with themost economic and cultural activities in China. With the most advanced infrastructure and the best living condition, it has become the internationaleducation center with the largest oversea students. It consists ofJinan,KangqiaoandFenglincampus, which boasts the best resources from botheducation and research. Fudan University has been a famous and attractive university for international students, especially in the past one decade from2001-2010. 4国际上首次提出的大语言模型语言核心区和维度依赖理论,可以有效指导大语言模型训练过程 Unveiling Linguistic Regions in Large Language Models,ACL2024 1.大语言模型语言核心区与维度依赖 破坏‘Arabic/Vietnamese’区域 ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic(Koto et al.,arXiv2024) Unveiling Linguistic Regions in Large Language Models,ACL2024 1.大模型能力边界在哪里? 知识利用层次图 大模型目前在哪个层级?未来可以到哪个层级? 知识利用层次图 大模型目前在哪个层级?未来可以到哪个层级? 知识利用层次图 我认为:目前仍然是记忆 长上下文建模 多任务学习 跨语言迁移性 文本生成能力 知识利用层次图 AGI系统才能“理解” •理解物理世界•拥有长久准确记忆•可以推理•可以分层次规划 大模型能力边界的实践研究 当前大模型依然无法完成真正的“理解”与“推理” 大模型“参加”2024高考数学情况 大模型“参加”2024高考数学情况 两场平均分最好70%,最差25%,填空题成绩更差 大模型“参加”2024高考数学情况 即便正确回答的题目,计算过程和答案不相符的比例很高 大模型“参加”2024高考数学情况 输入形式的微小不同,结果相差很大 大模型“参加”美国数学奥赛情况 USAMO完美契合评估LLM的⽬标:题⽬难度⾼、要求完整证明过程才能得分,且未经公开数据污染。 ETH Zurich研究团队:实际上,LLM⼏乎从未没有学会数学证明! 归纳推理的能力如何呢? 乘法的步骤: Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 当任务复杂程度增大时,模型的准确率接近为0 Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 归纳推理的能力如何呢? 使用180万数据训练GPT3模型 GPT3经过充分调整,在特定任务数据上达到了一定的问题规模。蓝色区域表示分布内样本,红色区域表示OOD样本。 所有k1和k2符合1≤k1,k2≤4并且k1·k2≤9; Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 训练过程中简单加入过程作用也十分有限 Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 乘法2025-01-31报告 大模型工具调用评测 针对变形数据GPT4的准确率也大幅度下降 RoTBench: A Multi-Level Benchmark for Evaluating the Robustness ofLarge Language Models in Tool Learning,EMNLP2024 ChatGPTGPT-o1preview小学数学题上也“翻车”了 原题:奥利弗在星期五摘了44个猕猴桃。然后在星期六摘了58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃? 变形题⽬:奥利弗在星期五摘了44个猕猴桃。然后在星期六摘了58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中5个⽐平均⼤⼩要⼩。奥利弗有多少个猕猴桃? GPT-o1-mini给出的答案是:……在星期天,这5个猕猴桃⽐平均⼤⼩要⼩。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)-5(⼩猕猴桃)=83个猕猴桃。 全数据驱动的大模型实现“推理”面临巨大挑战实现因果学习是关键 硕士入学考试数学100分小学应用题可能只有10分仍然不知道strawberry有几个r 大模型依然是统计机器学习不是“能力”的逐项提升 单个模型可以处理数千种任务,但是仍需要逐项进行优化 大模型高泛化工具调用 消除负面影响、优化关键Token、引入奖励机制 1217条数据,7B模型大幅度超越开源模型,在工具选择正确性维度超越GPT4o 大模型Code生成能力提升 RLHF推动翻译偏好建模:低成本实现“信达雅” 复杂图表内容问答 图表理解能力超越GPT4o 2.大模型能力来源思考 1.直接通过训练语料的统计就可以计算得到知识记忆概率 FromGPT-4 Technical Report 1.直接通过训练语料的统计就可以计算得到知识记忆概率 1.直接通过训练语料的统计就可以计算得到知识记忆概率 2.有监督微调阶段仅需少量数据,并且要跟模型紧密配合 完成某个领域知识问答仅需_________条训练数据60 不同LLMs的数据需求差异巨⼤ 2.有监督微调阶段仅需少量数据 问题1:在SFT阶段需要多少数据才能让LLMs执行QA任务? 问题2:不同的SFT数据如何影响LLMs在QA任务中的表现? 问题3:不同LLMs在SFT阶段的数据要求有何不同? 模型知识记忆情况判断 2.有监督微调阶段仅需少量数据 2.有监督微调阶段仅需少量数据 发现1:无论使用何种数据进行微调,LLM都能对在预训练中记忆较好的知识提供更准确的答案。 发现2:使用特定记忆水平的数据进行训练可提高LLM在该知识水平上的表现。 发现3:总体而言,更有效的策略是使用记忆水平较高的数据进行SFT。 2.有监督微调阶段仅需少量数据 发现4:不同LLMs的预训练语料库的差异导致知识分布的显著不同 3.预训练模型参数与SFT模型关联 使用记忆水平较低的数据进行SFT,会大幅度改变模型参数 3.预训练模型参数与SFT模型关联 尽可能少的改动预训练参数 PerformanceofLLaMA-3-8Bafterrestoringdifferentscalesofparametersacrossvariousfine-tuningdatasets. 4.多样性对SFT训练的影响 如何衡量多样性? 4.多样性对SFT训练的影响 在二维空间中模拟数据选择:选择A模拟具有冗余的数据集,选择B优化样本之间的距离,而选择C同时考虑距离和密度 5.推理能力的来源是强化学习吗? 相同的方法为什么Qwen可以,Llama不行? “Countdown”游戏作为测试,使用给定的数字和基本运算(加减乘除)达到指定的目标数例如,给定25、30、3、4四个数字,目标是32,解决方案可以是:(30-25 + 3)×4 Qwen模型通过强化学习(RL)训练后表现出显著进步,而Llama模型却几乎停滞不前 5.推理能力的来源是强化学习吗? 高效思考的四个关键行为: Verification):系统性地检查中间结果和步骤是否正确,如"让我们验证这个结果..." 当发现错误时,能够明确地修改和调整方法,如"这个方法行不通,因为..." (3)子目标设定(Subgoal Setting):将复杂问题分解为可管理的步骤,如"要解决这个问题,我们首先需要..." (4)逆向链式推理(Backward Chainin