行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

2023年大规模语言模型中语言与知识报告

2024-11-14张奇复旦大学Z***

AI智能总结

MultilingualBERT中存在多语言对齐现象

mBERT不同层恢复各类语言语法关系的准确性。
mBERT第7层的不同语法关系表示的可视化。
在进行任务Fine-Tune之后，聚合对齐更加明显。

大语言模型中多语言对齐

大语言模型中也存在类似多语言对齐现象。
语言直接在句法关系上具有很强的对齐性。
词性标注任务，可以通过跨语言训练得到非常高的结果。
通过多语言模型预训练，多语言语义在模型中已经完成对齐。

大规模语言模型中多语言对齐

比较如下模型：LLaMA、LLaMA2、ChineseLLaMA、Open ChineseLLaMA、LLaMA+10K、LLaMA+100K、LLaMA+1M。
TOKEN扩展对模型影响很大，扩展后丢失原始信息，需要大量训练才能恢复。
SFT数据量扩展到950K后，1M这种量级二次预训练没有特别的意义。
使用中文进行二次预训练并不能在知识层面提升模型能力。
在其他低资源语言中表现很类似。
训练过程中非常明显的CODING-SWITCH现象。

大语言模型中的语言与知识

大语言模型参数中记录了知识有明显的语言核心区。
如何确定模型中的语言核心区和非核心区：
1. 使用阿拉伯语、韩语、西班牙语、中文、俄语、越南语，每个语言10W条文本进行二次预训练。
2. 6种语言训练前后参数变化累加，权重变化最小的1-5%。
随机扰动恢复实验：
- 扰动核心区域在30种语言上PPL全都呈现爆炸趋势。
- LLaMA27B和13B现象完全一样。
- 使用中文的进行训练后，中文能力都可以恢复，模型具备一定的“代偿”能力。
- 在语言区不锁定的情况下，仅训练中文，英文也能恢复一定能力，但是锁定情况下很难恢复。

大模型中的语言核心区展示

Layer15-upLayer20-upLayer25-upLayer31-upFFN-UP&Down某些维度上具有明显的列聚集现象。
LLaMA2-13BLayer39-o维度集中现象明显。
仅修改130亿参数中的1个就会使模型混乱。

二次预训练方法

大量数据二预训练需要配比各类型其他数据。
大模型语言关键区域参数很敏感。
训练数据噪音敏感。

大规模语言模型中语言与知识张奇复旦大学 ML-Summit2023 目录 MultilingualBERT中存在多语言对齐现象1 大语言模型中多语言对齐2 大语言模型中的语言和知识分离3 ML-Summit2023 01 Multilingual BERT中存在多语言对齐现象 MU LTILIN GUA L BERT中存在多语言对齐现象 mBERT不同层恢复各类语言语法关系的准确性。 MU LTILIN GUA L BERT中存在多语言对齐现象 mBERT第7层的不同语法关系表示的可视化。 ML-Summit2023 MU LTILIN GUA L BERT中存在多语言对齐现象 mBERT第7层的不同语法关系表示的可视化在进行任务Fine-Tune之后，聚合对齐更加明显在大语言模型中有类似现象吗？ ML-Summit2023 02 大语言模型中多语言对齐大语言模型中也存在类似现象语言直接在句法关系上具有很强的对齐性 Xuetal.Are Structural Concepts Universal in Transformer Language Models?Towards Interpretable Cross-Lingual Generalization,EMNLP2023 大语言模型中也存在类似现象词性标注任务，可以通过跨语言训练得到非常高的结果 Xuetal.Are Structural Concepts Universal in Transformer Language Models?Towards Interpretable Cross-Lingual Generalization,EMNLP2023 通过多语言模型预训练，多语言语义在模型中已经完成对齐大规模语言模型中多语言对齐 ML-Summit2023 大规模语言模型中多语言对齐比较如下模型： •LLaMA(Touvronet al. 2023a)•LLaMA2 (Touvronet al. 2023b)•ChineseLLaMA(Cui, Yang, and Yao 2023b)•基于LLaMA，扩展中文词元，30B中文Token语料二次训练（120GB）•Chinese LLaMA2 (Cui, Yang, and Yao 2023a)•基于LLaMA2，扩展中文词元，30B中文Token语料二次训练•Open ChineseLLaMA(OpenLMLab2023)•基于LLaMA，扩展中文词元，100B中英混合Token语料二次训练•LLaMA+10K、LLaMA+100K、LLaMA+1M•基于LLamA不扩展中文词元，直接使用中文语料二次训练 ML-Summit2023 大规模语言模型中多语言对齐 TOKEN扩展对模型影响很大，扩展后丢失原始信息，需要大量训练才能恢复 SFT数据量扩展到950K后，1M这种量级二次预训练没有特别的意义使用中文进行二次预训练并不能在知识层面提升模型能力在其他低资源语言中表现很类似 ML-Summit2023 训练过程中非常明显的CODIN G-SWITCH现象训练过程中非常明显的C ODING-SW ITC H现象 ML-Summit2023 在大语言模型训练中我们还可以看到这些现象 ML-Summit2023 大部分LLM在迭代1轮之后，效果提升就很不明显 SimilarlytoWuetal.(2021),wefindthatourSFTmodelsoverfitonvalidationlossafter1epoch Traininglanguage models to follow instructionswithhumanfeedback，OpenAI,2022 Training a Helpful and Harmless Assistant with ReinforcementLearning from Human Feedback,Anthropic,2023 ML-Summit2023 打的开，有智能看不透 From:中科院软件所韩先培这些现象是否以及如何体现在大语言模型参数中？ ML-Summit2023 03 大语言模型中的语言与知识注意：非常初步的结果，很多结论和实验并不十分可靠，仍在实验验证中 ML-Summit2023 大语言模型参数中记录了知识有明显的语言核心区 ML-Summit2023 大模型中的语言和知识分区如何确定如何确定模型中的语言核心区和非核心区： 1.阿拉伯语、韩语、西班牙语、中文、俄语、越南语，每个语言10W条文本2.分别利用上述数据对模型进行二次预训练3.6种语言训练前后参数变化累加，权重变化最小的1-5% 大模型中的语言和知识分区如何确定有非常少数的参数在所有语言二次预训练中变化都很小对语言核心区和非核心区参数分别随机扰动扰动核心区域在30种语言上PPL全都呈现爆炸趋势对语言核心区和非核心区参数分别随机扰动 LLaMA27B和13B现象完全一样随机扰动恢复实验使用中文的进行训练后，中文能力都可以恢复，模型具备一定的“代偿”能力在语言区不锁定的情况下，仅训练中文，英文也能恢复一定能力，但是锁定情况下很难恢复 ML-Summit2023 大模型中的语言核心区展示大模型中的语言核心区展示 Layer15-upLayer20-upLayer25-upLayer31-upFFN-UP&Down某些维度上具有明显的列聚集现象大模型中的语言核心区展示 LLaMA2-13BLayer39-o维度集中现象明显扰动模型中单点 ML-Summit2023 仅修改130亿参数中的1个就会使模型混乱输入：Fudan University is located in LLaMA2-13B(PPL5.877)：FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.ThelanguageofinstructionisChinese. LLaMA2-13B-修改语言LayerNorm2100扩大4倍(PPL257.722)：Fudan University is located inTertian, andis locatedtettetat tetetettetettten tenteentteth, tat, tat,tate, tat, ta.162 words for,</s> LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大4倍(PPL5.858)：FudanUniversityislocatedin<s>FudanUniversityislocatedinShanghai,China.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducation,People‘sRepublicofChina.Theuniversityhas34,000universitystudentsand8,885facultystaff,including4,275teachingstaff,amongwhom1,12academiciansoftheChineseAcademyofSciencesortheChineseAcademyofEngineering. ML-Summit2023 仅修改130亿参数中的1个就会使模型混乱输入：Fudan University is located in LLaMA2-13B(PPL5.877)：FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.ThelanguageofinstructionisChinese. LLaMA2-13B-修改语言LayerNorm 2100扩大10倍(PPL 376079936)：Fudan University is located in<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>No<s>S<s>You<s>There<s>That<s>A<s>This<s><s>##<s><s><s><s><s>This<s><s><s><s>This<s><s><s>t<s><s>The<s>/<s><s>What<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>th<s><s><s><s>d<s>v<s><s>\<s>{"<s> LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大10倍(PPL5.914)：FudanUniversityislocatedinShanghai,China,thelargestcitywiththemosteconomicandculturalactivitiesinChina.Withthemostadvancedinfrastructureandthebestlivingcondition,ithasbecometheinternationaleducationcenterwiththelargestoverseastudents.ItconsistsofJinan,KangqiaoandFenglincampus,whichboaststhebestresourcesfrombotheducationandresearch.FudanUniversityhasbeenafamousandattractiveuniversityforinternationalstudents,especiallyinthepastonedecadefrom2001-2010. 大模型语言核心区与维度依赖理论能带来什么？ ML-Summit2023 二次预训练方法 1.大量数据二预训练需要配比各类型其他数据 •语言模型训练完成后，参数各个区域负责部分已经确定，如果大量增加某类在预训练时没有的知识，会造成参数的大幅度变化，造成整个语言模型能力损失•需要添加5-10倍原始预训练中的数据，并打混后一起

点击免费查看完整报告