您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[复旦大学]:2023年大规模语言模型中语言与知识报告 - 发现报告

2023年大规模语言模型中语言与知识报告

2024-11-14张奇复旦大学Z***
AI智能总结
查看更多
2023年大规模语言模型中语言与知识报告

大规模语言模型中语言与知识 张奇复 旦 大 学 ML-Summit2023 目 录 MultilingualBERT中存在多语言对齐现象1 大语言模型中多语言对齐2 大语言模型中的语言和知识分离3 ML-Summit2023 01 Multilingual BERT中存在多语言对齐现象 MU LTILIN GUA L BERT中存在多语言对齐现象 mBERT不同层恢复各类语言语法关系的准确性。 MU LTILIN GUA L BERT中存在多语言对齐现象 mBERT第7层的不同语法关系表示的可视化。 ML-Summit2023 MU LTILIN GUA L BERT中存在多语言对齐现象 mBERT第7层的不同语法关系表示的可视化在进行任务Fine-Tune之后,聚合对齐更加明显 在大语言模型中有类似现象吗? ML-Summit2023 02 大语言模型中多语言对齐 大语言模型中也存在类似现象 语言直接在句法关系上具有很强的对齐性 Xuetal.Are Structural Concepts Universal in Transformer Language Models?Towards Interpretable Cross-Lingual Generalization,EMNLP2023 大语言模型中也存在类似现象 词性标注任务,可以通过跨语言训练得到非常高的结果 Xuetal.Are Structural Concepts Universal in Transformer Language Models?Towards Interpretable Cross-Lingual Generalization,EMNLP2023 通过多语言模型预训练,多语言语义在模型中已经完成对齐 大规模语言模型中多语言对齐 ML-Summit2023 大规模语言模型中多语言对齐 比较如下模型: •LLaMA(Touvronet al. 2023a)•LLaMA2 (Touvronet al. 2023b)•ChineseLLaMA(Cui, Yang, and Yao 2023b)•基于LLaMA,扩展中文词元,30B中文Token语料二次训练(120GB)•Chinese LLaMA2 (Cui, Yang, and Yao 2023a)•基于LLaMA2,扩展中文词元,30B中文Token语料二次训练•Open ChineseLLaMA(OpenLMLab2023)•基于LLaMA,扩展中文词元,100B中英混合Token语料二次训练•LLaMA+10K、LLaMA+100K、LLaMA+1M•基于LLamA不扩展中文词元,直接使用中文语料二次训练 ML-Summit2023 大规模语言模型中多语言对齐 TOKEN扩展对模型影响很大,扩展后丢失原始信息,需要大量训练才能恢复 SFT数据量扩展到950K后,1M这种量级二次预训练没有特别的意义 使用中文进行二次预训练并不能在知识层面提升模型能力 在其他低资源语言中表现很类似 ML-Summit2023 训练过程中非常明显的CODIN G-SWITCH现象 训 练 过 程 中 非 常 明 显 的C ODING-SW ITC H现 象 ML-Summit2023 在大语言模型训练中我们还可以看到这些现象 ML-Summit2023 大部分LLM在迭代1轮之后,效果提升就很不明显 SimilarlytoWuetal.(2021),wefindthatourSFTmodelsoverfitonvalidationlossafter1epoch Traininglanguage models to follow instructionswithhumanfeedback,OpenAI,2022 Training a Helpful and Harmless Assistant with ReinforcementLearning from Human Feedback,Anthropic,2023 ML-Summit2023 打的开,有智能看不透 From:中科院软件所韩先培 这些现象是否以及如何体现在大语言模型参数中? ML-Summit2023 03 大语言模型中的语言与知识 注意:非常初步的结果,很多结论和实验并不十分可靠,仍在实验验证中 ML-Summit2023 大语言模型参数中记录了知识有明显的语言核心区 ML-Summit2023 大模型中的语言和知识分区如何确定 如何确定模型中的语言核心区和非核心区: 1.阿拉伯语、韩语、西班牙语、中文、俄语、越南语,每个语言10W条文本2.分别利用上述数据对模型进行二次预训练3.6种语言训练前后参数变化累加,权重变化最小的1-5% 大模型中的语言和知识分区如何确定 有非常少数的参数在所有语言二次预训练中变化都很小 对语言核心区和非核心区参数分别随机扰动 扰动核心区域在30种语言上PPL全都呈现爆炸趋势 对语言核心区和非核心区参数分别随机扰动 LLaMA27B和13B现象完全一样 随机扰动恢复实验 使用中文的进行训练后,中文能力都可以恢复,模型具备一定的“代偿”能力 在语言区不锁定的情况下,仅训练中文,英文也能恢复一定能力,但是锁定情况下很难恢复 ML-Summit2023 大模型中的语言核心区展示 大模型中的语言核心区展示 Layer15-upLayer20-upLayer25-upLayer31-upFFN-UP&Down某些维度上具有明显的列聚集现象 大模型中的语言核心区展示 LLaMA2-13BLayer39-o维度集中现象明显 扰动模型中单点 ML-Summit2023 仅修改130亿参数中的1个就会使模型混乱 输入:Fudan University is located in LLaMA2-13B(PPL5.877):FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.ThelanguageofinstructionisChinese. LLaMA2-13B-修改语言LayerNorm2100扩大4倍(PPL257.722):Fudan University is located inTertian, andis locatedtettetat tetetettetettten tenteentteth, tat, tat,tate, tat, ta.162 words for,</s> LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大4倍(PPL5.858):FudanUniversityislocatedin<s>FudanUniversityislocatedinShanghai,China.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducation,People‘sRepublicofChina.Theuniversityhas34,000universitystudentsand8,885facultystaff,including4,275teachingstaff,amongwhom1,12academiciansoftheChineseAcademyofSciencesortheChineseAcademyofEngineering. ML-Summit2023 仅修改130亿参数中的1个就会使模型混乱 输入:Fudan University is located in LLaMA2-13B(PPL5.877):FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.ThelanguageofinstructionisChinese. LLaMA2-13B-修改语 言LayerNorm 2100扩大10倍(PPL 376079936):Fudan University is located in<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>No<s>S<s>You<s>There<s>That<s>A<s>This<s><s>##<s><s><s><s><s>This<s><s><s><s>This<s><s><s>t<s><s>The<s>/<s><s>What<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>th<s><s><s><s>d<s>v<s><s>\<s>{"<s> LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大10倍(PPL5.914):FudanUniversityislocatedinShanghai,China,thelargestcitywiththemosteconomicandculturalactivitiesinChina.Withthemostadvancedinfrastructureandthebestlivingcondition,ithasbecometheinternationaleducationcenterwiththelargestoverseastudents.ItconsistsofJinan,KangqiaoandFenglincampus,whichboaststhebestresourcesfrombotheducationandresearch.FudanUniversityhasbeenafamousandattractiveuniversityforinternationalstudents,especiallyinthepastonedecadefrom2001-2010. 大模型语言核心区与维度依赖理论能带来什么? ML-Summit2023 二次预训练方法 1.大量数据二预训练需要配比各类型其他数据 •语言模型训练完成后,参数各个区域负责部分已经确定,如果大量增加某类在预训练时没有的知识,会造成参数的大幅度变化,造成整个语言模型能力损失•需要添加5-10倍原始预训练中的数据,并打混后一起