热门搜索：

您需要了解的有关多语言 LLM 的一切：为世界语言建立公平，高效和可靠的模型

2023-07-15-微软点***

ACL 2023 教程你需要知道的关于多语言 LLM 的一切：为世界语言建立公平，高效和可靠的模型Barun Patra Vishrav Chaudhary Kabir AhujaKalika Bali Monojit Choudhury Sunayana Sitaram微软公司 Introduction Barun Patra Microsoft TuringSunayana Sitaram微软印度研究院Kabir Ahuja 微软研究院印度Kalika Bali Microsoft Research 印度教程演示者Vishrav ChaudharyMicrosoft 图灵Monojit ChoudhuryMicrosoft 图灵 4物流教程•日期和地点： 2023 年 7 月 9 日，西部大都会•时间：当地时间 9 AM - 12: 30 PM•上半年： 9 AM - 10: 30 AM•休息： 10: 30 AM - 11 AM•下半场： 11 AM - 12: 30 PM 教程范围5•我们希望每个人都熟悉 LLM 的英文版本•因此，我们不会进入 LLM 的基本原理•虽然全面，但这里没有涉及其他相关的额外主题 / 论文•超出本教程的范围• 多语言模型的适配器和参数有效微调（请参见 EMNLP 2022 教程由 Ruder 等人提供，以了解这方面的内容）教程大纲6介绍 (10 分钟)数据收集和培训（ 40 分钟）提示策略（ 20 分钟）评估、可解释性、分析（ 20 分钟）问答（ 10 分钟以上）负责任的 AI (30 分钟) 休息 (20 分钟)语言社区（ 15 分钟）开放研究问题（ 10 分钟）结论（ 10 分钟）Q & A （ 20 分钟）内务管理7•幻灯片和参考• 幻灯片和参考发布在教程网站上https: / / aka. ms / ACL2023 教程•Q & A• 每节后 2 - 4 个问题 (时间允许)• 在会谈中可以提出快速澄清的问题• Zoom 上的与会者可以键入聊天，其中一名教师将进行审核• 更长的问答将在休息的开始（可选）和结束 8根据用于培训 NLP 系统的可用资源，语言层次结构Joshi 等人 ACL 20201语言技术如何为地球上的 6000 多种语言服务？ 88%世界上的语言，由1.2 B人民不受语言技术的好处影响。9 102我们的技术是否正在逐渐变得更具语言包容性和多样性？多年来 ACL 论文中语言提及的分布熵Joshi 等人 ACL 2020 11直到 2015 年，会议的声望一直与语言 D ＆ I 成反比。最近情况越来越好。 12Doddapaneni 等人 2021 。预训练多语言语言模型入门2107.00676. pdf (arxiv. org) 13Liu 等人 2021 年的数据仅编码器模型XY - LENTXLM - RXLMmBERT仅解码器模型GPT - 4GPT - 3.5布卢姆GPT - 3布卢姆棕榈XGLM编码器 - 解码器模型mT0mBARTmT5多语言语言模型没有微调特定于任务的微调多任务 / 指令微调 14不同模型的语言覆盖•不同模型的训练前数据主要是英语！•However, even small percents of non English data can facilitate cross language transfer. Blevins et al. 2022[2204.08110] 语言污染有助于解释英语预训练模型的跨语言能力 (arxiv. org) 多语言 LLM 的数据收集和训练Barun Patra 和 Vishrav Chaudhary Data是在多语言领域中训练性能更好的语言模型的关键组件。• 多语言 LLM 可以一次为多种语言启用甚至彻底改变多个下游场景• 还有助于弥合社会之间的差距，推动技术进步的前沿16 Data是在多语言领域中训练性能更好的语言模型的关键组件。• 多语言 LLM 可以一次为多种语言启用甚至彻底改变多个下游场景• 还有助于弥合社会之间的差距，推动技术进步的前沿挑战:•数量•质量•采购•Governance17 数据收集挑战：数量18•在数量上存在巨大差距• 语言 (commoncrawl. org)Commoncrawl 中的语言分布数据收集挑战：数量19•在数量上存在巨大差距• 语言 (commoncrawl. org)Commoncrawl 中的语言分布57 种语言< 0.001% 数据收集挑战：数量20ArXiv会话Law•在数量上存在巨大差距• 语言 (commoncrawl. org)• 域名 (Gao 等人， 2020 年)......医疗Educational 数据收集挑战：质量21•Kreutzer 等人， 2022 年进行了一项全面调查，涵盖了不同数据集的质量问题•Q1 ：有多少百分比的语言拥有高质量的数据？数据收集挑战：质量22•Kreutzer 等人， 2022 年进行了一项全面调查，涵盖了不同数据集的质量问题•Q2 ：资源低的语言总是质量差的数据吗？数据收集挑战：质量23•原因包括• 语言识别不正确（质量差 + 语言相似）• 机器生成的数据• 有限的识别工具可用于有毒 / 成人内容数据收集：采购和治理24•政府机构的倡议•定义参与者：数据保管人，权利持有人和其他各方，以适当地管理共享数据•旨在以优先考虑本地知识和指导价值表达的方式考虑数据和算法主题的隐私，知识产权和用户权利数据要求25尺寸Responsible质量基础Sharable多域版本化Continual 数据预处理26•下载•文本提取•简单重复数据删除（基于 URL ）集合初始清洁•语言识别•基于阈值的过滤•多语言文档•基于精确子串 (mC4, OSCAR v *, CC100)•基于模糊 Minhash （ GPT - 3 ， ThePILE ）•两者 (精制 Web)重复数据删除过滤•基于启发式 (改进的 Web)•基于模型 (CC - Net, CC100)•基于 NSFW URL ， PII•行基、单据基令牌化27•具有回退到字节的令牌化算法（因此产生很少 / 没有 UNK 令牌）•最受欢迎的句子， BPE 和文字•更大的词汇量通常与更好的表现相关•以训练速度、推理速度和增加的参数为代价)•跨不同语言分配 vocab 容量可提高性能•例如：遵循 Zheng 等人 2021 年提出的 VoCAP 方法•另一种选择似乎是利用基于字节的模型•但似乎需要更深的（编码器）模型 / 具有额外的容量（字节 - T5 ）•此外，需要可以覆盖更大上下文窗口的模型•对拼写错误更健壮模型Wordpiece•mBERT句号•XLM - Roberta, mBART, XGLM, mT5VoCAP•XLM - E, XY - LENTBPE•GPT *, Bloom字节级• 字节 - T5 ，感知用于培训的数据源性能提升的一般趋势（在模型类类型中）28单语CorporaBitext Corpora以英语为中心X - Y 方向म 模型•mBERT, XLM - Roberta•mT5 、 AlexaTM 、字节 mT5模型•XLM 、 XLM - E 、 DeberTa v3 、 Info - XLM•mBART•PaLM - 2模型•M2M 100 *•XY - LENT我喜欢猫 मझ बबलललयाा पसनद ह।나는 고양이를 좋아합니다.我喜欢猫机器学习正在通过研究改变当今世界以极快的速度发生。मशीन लरनबहत तेज गर्त से हो रहा है।ि आज दरनया को बदल रही ह और अनसधान我的学徒自动改变了世界的 aujourd 'huiavec des引渡rapide.기계 학습은 매우 빠른 속도로 진행되는 연구로 오늘날세상을 변화시키고 있습니다.我喜欢猫J 'aime les 聊天。我喜欢猫나는 고양이를 좋아합니다.J 'aime les 聊天。采样技术29퐀 퐀单语CorporaBitext Corpora以英语为中心X - Y 方向温度采样 퐀퐀•P (j) = ，其中是的样本数量温度采样•在这里，归一化结束了温度采样퐀•P (i, j)=푖,푗, where是σ 푛훼푗非英语语言퐀퐀,퐀퐀,퐀j 语言•向上采样低资源语言，向下采样低资源语言Unimax•尽可能统一地分配预算•从最低的资源语言开始，并不断增加，分配统一的预算•与温度采样相比，性能更好第 i 个语言对的样本数近似以英语为中心的边际分布•P (i, j) 这样∀ 푗P (j) =σ푖푃(푖,类似于英语中心分布σ 编码器模型：填塞30聊天变压器< s >I[面具]猫< / s >< s >J 'aimeles[面具]< / s >•BERT 风格模型•X% 的令牌被屏蔽，并且模型使用左右上下文来预测中间令牌•可以使用单语言和 bitext 数据模型•mBERT•XLM•XLM - 罗伯塔Learning研究变压器< s >机器[面具]is改变the世界今天与[面具]发生在an爱编码器模型：电子模型* 数字取自 Chi 等人 2022•伊莱克特拉风格的训练范式•预测哪些令牌来自生成器，哪些令牌来自数据•但与 GAN 不同，发电机接受过 MLM 任务的训练•更有效的样品•在一般更好的性能•停止发生器和鉴别器嵌入之间的梯度流的变体•与 MLM 相比，逐层行为不同•更高层在语义检索任务上更好模型•XLM - E•XY - LENT•DEBERTAv331< s >I喜欢猫< / s >发电机< s >I[面具]猫< / s >11011鉴别器编码器模型: 辅助损失32•对比损失利用 bitext 数据提高语义相似性•提高了性能，尤其是对于语义检索任务•可以与以前的方法结合使用퐀퐀퐀퐀퐀对比损失푥푇(푠푒푛푡), 푥푠푒푛푡, 푥푠푒푛푡...•不同形式之间没有实质性差异对比12损失（ SimCLR vs MoCo ）•性能在某种程度上取决于选择哪一层动量对比•与 MLM 模型相比， Electra 风格的模型更不容易受到这种影响模型•Info - XLM* T 表示翻译编码器动量编码器编码器解码器模型•标准变压器体系结构•两个变压器一个用于编码器，一个用于解码器•可以将前缀 LM 的解码器重新用于类似的“编码器 ” 前缀出席所有前缀令牌“解码器 ” 前缀出现在前缀带着因果面具目的解码器也有完整的编码器信息前缀 LM 结构模型•mT5, byteT5•mBART•AlexaTM编码器层具有双向信息解码器层具有因果注意33传统编码器解码器< s >输入序列< s >输出序列编码器< s >输入序列解码器< s >输出序列解码器编码器解码器去噪目标34机器学习是当今的 < X > < Y >< S > < X > 改变 < Y > 世界 < / s >< S > 机器学习正在改变当今世界 < / s >机器学习是 [MASK] 今天的 [MASK]改变世界许远节[S] L '学徒自动化 < X >•令牌屏蔽:屏蔽某些部分的令牌（类似于 BERT ），但让模型生成令牌mT6 ， byteT5 ：使用哨兵令牌来指示要屏蔽和获取解码器生成的令牌 / 字节mBART ：重建整个句子， AlexaTM ：不使用 MASK 令牌，仍然重建整个序列•句子掩蔽 / 去噪:屏蔽文档的延续，让模型生成延续UL2 、 UL2R 、 AlexaTM ：获取模型以完成生

点击免费查看完整报告