大规模语言模型中语言与知识
张奇复 旦 大 学
ML-Summit2023
目 录
MultilingualBERT中存在多语言对齐现象1
大语言模型中多语言对齐2
大语言模型中的语言和知识分离3
ML-Summit2023
01
Multilingual BERT中存在多语言对齐现象
MU LTILIN GUA L BERT中存在多语言对齐现象
mBERT不同层恢复各类语言语法关系的准确性。
MU LTILIN GUA L BERT中存在多语言对齐现象
mBERT第7层的不同语法关系表示的可视化。
ML-Summit2023
MU LTILIN GUA L BERT中存在多语言对齐现象
mBERT第7层的不同语法关系表示的可视化在进行任务Fine-Tune之后,聚合对齐更加明显
在大语言模型中有类似现象吗?
ML-Summit2023
02
大语言模型中多语言对齐
大语言模型中也存在类似现象
语言直接在句法关系上具有很强的对齐性
Xuetal.Are Structural Concepts Universal in Transformer Language Models?Towards Interpretable Cross-Lingual Generalization,EMNLP2023
大语言模型中也存在类似现象
词性标注任务,可以通过跨语言训练得到非常高的结果
Xuetal.Are Structural Concepts Universal in Transformer Language Models?Towards Interpretable Cross-Lingual Generalization,EMNLP2023
通过多语言模型预训练,多语言语义在模型中已经完成对齐
大规模语言模型中多语言对齐
ML-Summit2023
大规模语言模型中多语言对齐
比较如下模型:
•LLaMA(Touvronet al. 2023a)•LLaMA2 (Touvronet al. 2023b)•ChineseLLaMA(Cui, Yang, and Yao 2023b)•基于LLaMA,扩展中文词元,30B中文Token语料二次训练(120GB)•Chinese LLaMA2 (Cui, Yang, and Yao 2023a)•基于LLaMA2,扩展中文词元,30B中文Token语料二次训练•Open ChineseLLaMA(OpenLMLab2023)•基于LLaMA,扩展中文词元,100B中英混合Token语料二次训练•LLaMA+10K、LLaMA+100K、LLaMA+1M•基于LLamA不扩展中文词元,直接使用中文语料二次训练
ML-Summit2023
大规模语言模型中多语言对齐
TOKEN扩展对模型影响很大,扩展后丢失原始信息,需要大量训练才能恢复
SFT数据量扩展到950K后,1M这种量级二次预训练没有特别的意义
使用中文进行二次预训练并不能在知识层面提升模型能力
在其他低资源语言中表现很类似
ML-Summit2023
训练过程中非常明显的CODIN G-SWITCH现象
训 练 过 程 中 非 常 明 显 的C ODING-SW ITC H现 象
ML-Summit2023
在大语言模型训练中我们还可以看到这些现象
ML-Summit2023
大部分LLM在迭代1轮之后,效果提升就很不明显
SimilarlytoWuetal.(2021),wefindthatourSFTmodelsoverfitonvalidationlossafter1epoch
Traininglanguage models to follow instructionswithhumanfeedback,OpenAI,2022
Training a Helpful and Harmless Assistant with ReinforcementLearning from Human Feedback,Anthropic,2023
ML-Summit2023
打的开,有智能看不透
From:中科院软件所韩先培
这些现象是否以及如何体现在大语言模型参数中?
ML-Summit2023
03
大语言模型中的语言与知识
注意:非常初步的结果,很多结论和实验并不十分可靠,仍在实验验证中
ML-Summit2023
大语言模型参数中记录了知识有明显的语言核心区
ML-Summit2023
大模型中的语言和知识分区如何确定
如何确定模型中的语言核心区和非核心区:
1.阿拉伯语、韩语、西班牙语、中文、俄语、越南语,每个语言10W条文本2.分别利用上述数据对模型进行二次预训练3.6种语言训练前后参数变化累加,权重变化最小的1-5%
大模型中的语言和知识分区如何确定
有非常少数的参数在所有语言二次预训练中变化都很小
对语言核心区和非核心区参数分别随机扰动
扰动核心区域在30种语言上PPL全都呈现爆炸趋势
对语言核心区和非核心区参数分别随机扰动
LLaMA27B和13B现象完全一样
随机扰动恢复实验
使用中文的进行训练后,中文能力都可以恢复,模型具备一定的“代偿”能力
在语言区不锁定的情况下,仅训练中文,英文也能恢复一定能力,但是锁定情况下很难恢复
ML-Summit2023
大模型中的语言核心区展示
大模型中的语言核心区展示
Layer15-upLayer20-upLayer25-upLayer31-upFFN-UP&Down某些维度上具有明显的列聚集现象
大模型中的语言核心区展示
LLaMA2-13BLayer39-o维度集中现象明显
扰动模型中单点
ML-Summit2023
仅修改130亿参数中的1个就会使模型混乱
输入:Fudan University is located in
LLaMA2-13B(PPL5.877):FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.ThelanguageofinstructionisChinese.
LLaMA2-13B-修改语言LayerNorm2100扩大4倍(PPL257.722):Fudan University is located inTertian, andis locatedtettetat tetetettetettten tenteentteth, tat, tat,tate, tat, ta.162 words for,
LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大4倍(PPL5.858):FudanUniversityislocatedinFudanUniversityislocatedinShanghai,China.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducation,People‘sRepublicofChina.Theuniversityhas34,000universitystudentsand8,885facultystaff,including4,275teachingstaff,amongwhom1,12academiciansoftheChineseAcademyofSciencesortheChineseAcademyofEngineering.
ML-Summit2023
仅修改130亿参数中的1个就会使模型混乱
输入:Fudan University is located in
LLaMA2-13B(PPL5.877):FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.ThelanguageofinstructionisChinese.
LLaMA2-13B-修改语 言LayerNorm 2100扩大10倍(PPL 376079936):Fudan University is located inNoSYouThereThatAThis##ThisThistThe/Whatthdv\{"
LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大10倍(PPL5.914):FudanUniversityislocatedinShanghai,China,thelargestcitywiththemosteconomicandculturalactivitiesinChina.Withthemostadvancedinfrastructureandthebestlivingcondition,ithasbecometheinternationaleducationcenterwiththelargestoverseastudents.ItconsistsofJinan,KangqiaoandFenglincampus,whichboaststhebestresourcesfrombotheducationandresearch.FudanUniversityhasbeenafamousandattractiveuniversityforinternationalstudents,especiallyinthepastonedecadefrom2001-2010.
大模型语言核心区与维度依赖理论能带来什么?
ML-Summit2023
二次预训练方法
1.大量数据二预训练需要配比各类型其他数据
•语言模型训练完成后,参数各个区域负责部分已经确定,如果大量增加某类在预训练时没有的知识,会造成参数的大幅度变化,造成整个语言模型能力损失•需要添加5-10倍原始预训练中的数据,并打混后一起