行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

大语言模型（LMM）简介（2024）

文化传媒2025-03-28斯坦福大学（Stanford）大***

AI智能总结

大型语言模型简介

大型语言模型（LLMs）通过将概率分配给单词序列，并基于大量文本计算出的计数进行训练，学习预测下一个单词并生成文本。它们与简单的n-gram语言模型相似，但能够学习大量实用语言知识，即使只进行预训练。

大型语言模型的架构

LLMs 主要分为三种架构：

编码器：获取双向上下文，可以条件化未来单词，例如 BERT 家族和 HuBERT。
解码器：通过从两侧的文字预测单词进行训练，例如 GPT、Claude 和 Mixtral。
编码器-解码器：训练用于从一个序列映射到另一个序列，例如 T5 和 Whisper。

神经架构影响了预训练的类型和自然应用场景。解码器模型也称为自回归语言模型或因果语言模型。

大型语言模型的预训练

预训练是 LLM 性能的关键。预训练过程主要使用自监督训练算法，即训练模型预测下一个单词。预训练数据主要来自网络爬虫，例如 Common Crawl 和 Pile，包含数十亿页文本。

大型语言模型的微调

微调是针对新领域适应 LLM 的关键步骤。微调可以通过以下方式进行：

持续预训练：在新数据上进一步训练模型的所有参数。
参数高效微调（PEFT）：冻结部分参数，仅更新特定子集的参数，例如 LoRA 技术。

大型语言模型的评估

困惑度是衡量 LLM 预测未见文本能力的指标。困惑度越低，模型越好。

大型语言模型的规模

LLM 的性能主要受以下三个因素影响：

模型大小：参数数量（不包括嵌入）。
数据集大小：训练数据量。
计算量：用于训练的计算资源。

大型语言模型的危害

LLMs 也存在一些潜在危害，例如：

幻觉：生成看似合理但实际上不准确或虚假的信息。
版权：训练数据可能涉及版权问题。
隐私：训练数据可能包含私人信息。
毒性和滥用：LLMs 可能被用于生成有害或歧视性内容。
错误信息：LLMs 可能被用于传播错误信息。

大型语言模型的处理规模

LLM 的训练需要大量的计算资源。为了高效地训练 LLM，研究人员开发了各种技术，例如 KV 缓存和参数高效微调。

大型语言模型语言模型 •大型语言模型既相似又不同：•将概率分配给单词序列•通过采样可能的下一个单词生成文本•基于大量文本计算出的计数进行训练。•将概率分配给单词序列•通过采样可能的下一个单词生成文本•经过学习 guess（猜测）下一个单词而被训练。•记住简单的n-gram语言模型大型语言模型 •即使只预训练来预测单词•学习大量的实用语言知识。•自训练于以下内容：(Since training on a)许多文本 ••预先训练三种类型的架构编码器-解调器和编码器的好部分？编码器三种大型语言模型的架构解码器最好的预训练方式是什么？神经架构影响了预训练的类型及自然应用场景。解码器GPT、Claude、LlamaMixtral 神经架构影响了预训练的类型及编码器编码器多种多样！• 编码器- •解码器通过从两侧的文字预测单词进行训练编码器-解码器编解 •训练用于从一个序列映射到另一个序列•机器翻译（从一种语言映射到另一种语言）•语音识别（从声学到单词的映射）32•非常受欢迎的：大型语言模型简介大型语言模型大型语言模型：它们能执行哪模型重大理念许多任务都可以转化为预测词语的任务！解码器本次讲座：仅解码器模型也称为：解码器 •••自回归语言模型因果语言模型从左到右的语言模型预测词语从左到右生成文本有条件的生成：基于先前文本条件！ EEEEEEE许多实际的NLP任务都可以被表述为词预测！+++++++iiiiiii编码器情感分析：“我喜欢成龙”因此长时间并且谢谢对于所有the 们给语言模型这个字符串：（也称为自回归）文本补全，基于基于大型语言模型的变换器。随着每个标记的生成，它被添加到上下一个前缀，用于生成下一个标记。你：句子“I”的情感表达前缀文本成龙”是： 2.单词“negative”用于查看哪一项更高：并且查看它认为接下来出现的单词： P(positive)P负面|句“我喜欢成龙”的情感是:) (|句子“我喜欢成龙”的情感是：:) 如果“积极”这个词更可能，我们说句子的情感是积极的。正面，否则我们说情绪是负面的。将问题回答作为单词预测，通过向语言模型提出一个问题来预测单词。通过向语言模型提供一个问题和像“”这样的标记通过向语言模型提供一个问题和像“”这样的标记A:A:表明一个答案表明一个答案一种类似于的代币应该接下来是：应该接下来是：1.我们给语言模型这个字符串：A: 建议下一个回答应该出现：如果我们要求一个语言模型进行计算如果您要求一个语言模型计算对可能概率分布的计算，将如下：如果您要求一个语言模型计算对可能概率分布的计算，将如下：Q: 谁写了《物种起源》这本书？ A:Q: 谁写了《物种起源》这本书？ A:Q: 谁写了《物种起源》这本书？ A:在回答简单问题方面的任务，我们将在第14章回到这一议题。在这个任务中，系统被提供一些问题，并必须给出一个文本答案。我们可以将任务表达如下：一个简单的、事实性的答案，并且必须提供文本答案；我们引入这个任务是为了一个简单的、事实性的答案，并且必须提供文本答案；我们引入这个任务是为了第15章详细内容。我们可以将问答任务视为词预测问题。第15章详细内容。我们可以将问答任务视为词预测问题。QA: “谁写了《物种起源》？”回答，其中系统被提供一个问题（例如一个带有一个或多个答案选项的问题）。我们也可以将更复杂的任务视为单词预测。考虑以下任务：回答，其中系统被提供一个问题（例如一个带有一个或多个答案选项的问题）。将大量任务视为条件生成们可以也将更复杂任务视为词预测任务。考虑以下问题我们可以也将更复杂任务视为词预测任务。考虑以下问题 P(wQ: 谁写了《物种起源》这本书？ A:P|Q: 谁写了《物种起源》这本书？ A:(|(| Q: 谁写了《物种起源》这本书？A:)If we ask a language model to compute the probability distribution over possible给定这个前缀：next words given this prefix:你：根据这个前缀给出的下一个词： 3.并且查看哪些单词w高概率事件，我们可能预计会看到这种情况。并且查看哪些单词并且查看哪些单词查尔斯并且迭代：非常可能，然后如果我们选择ww高概率事件，我们可能预计会看到这种情况。高概率事件，我们可能预计会看到这种情况。查尔斯并且继续询问查尔斯查尔斯非常可能，然后如果我们选择非常可能，然后如果我们选择查尔斯查尔斯并且继续询问并且继续询问P w))给定这个前缀：next words given this prefix:你：根据这个前缀给出的下一个词：2.并且查看它认为接下来出现的单词：P(w问题：谁写了《物种起源》这本书？答案：查尔斯·达尔文（Charles ） ||P(wP问：谁写了《物种起源》这本书？答：查尔斯·达尔文。(| 包括CNN和《每日镜报》的新闻文章。逐个进行，并将整个响应作为一个总结。图。文本与广泛使用的摘要语料库中人工生成的摘要包括CNN和《每日镜报》的新闻文章。原文文章总结比一个在雪封的麻省打雪仗的家伙更疯狂的事情只有一件原文文章并且在网上进行销售？人们实际上在购买它。售价89美元，自称企业家比一个在雪封的麻省打雪仗的家伙更疯狂的事情只有一件Kyle Waring 将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪——足够并且在网上进行销售？人们实际上在购买它。售价89美元，自称企业家对于10到15个雪球，他说。Kyle Waring 将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪——足够原文雪花！但是如果你住在新英格兰或周边州。我们不会将雪运往任何州。对于10到15个雪球，他说。在东北！”瓦林网站ShipSnowYo.com说道。“我们的业务是消除……但是如果你住在新英格兰或周边州的话就不是这样了。“我们不会将雪运送到美国东北部的任何州！”Waring的网站ShipSnowYo.com上写道。“我们的业务是消除雪！”他的网站和社交媒体账户声称已接收到超过133个订雪订单。他的网站和社交媒体账户声称已接收到超过133个订雪订单。仅周二就超过30人，这是他最忙的一天。总降水量超过45英寸，波士顿已经创下了记录。仅周二就超过30人，这是他最忙的一天。总降水量超过45英寸，波士顿已经创下了记录。记录下这个冬天为史上最雪月份。大多数居民看到巨大的雪堆记录下这个冬天为史上最雪月份。大多数居民看到巨大的雪堆他们堵塞了庭院和人行道，造成不便，但Waring看到了一个机会。他们堵塞了庭院和人行道，造成不根据Boston.com报道，一切始于几周前，当时Waring和他的妻子正在铲雪——根据Boston.com报道便，但Waring看到了一个机会。，一切始于几周前，当时Waring和他的妻子正在铲雪——清理曼彻斯特-比-大海郊区的深雪，这是一个位于波士顿北部的沿海郊区。他从曼彻斯特海滩的院子摘要Kyle Waring 将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪——足够摘要里铲除厚厚的积雪，曼彻斯特海滩是位于波士顿北部的沿海郊区。他开玩笑说要把这些雪运给住在更温暖州的朋友和家人，于是一个想法诞生了。[...]开玩笑说要把这些东西寄给住在更温暖州的朋友和家人，一个想法就这样产生了。[...]摘要 Kyle Waring 将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪——足够对于10到15个雪球，他说。但如果您住在新英格兰或周边各州，则不适用。对于10到15个雪球，他说。但如果您住在新英格兰或周边各州，则不适用。图10.2摘自CNN/Daily 图10.2摘自CNN/Daily Mail摘要语料库中的一篇样本文章及其摘要。Mail摘要语料库中的一篇样本文章及其摘要。 LLMs for summarization（使用tl;dr）大型语言模型：它们能执行哪模型采样用于LLM生成大型语言模型解码与采样这个词基于模型概率选择一个单词的任务被称作解码. LLMs中解码的最常用方法是采样。从模型对单词的分布中进行采样：根据模型分配的概率随机选择单词。在每次标记之后，我们将根据其概率采样单词以生成。基于我们之前的选项, 变压器语言模型将给出概率 ⇠(():未提供任何文本p未提供任（）表示pling from the distributionp未提供任何文本进行翻译。我们可以将生成单词序列直到遇到序列结束标记的算法正式化。随机抽样上述算法被称为i1w同时i⇠（未提供具体内容，无法进行翻译）w)w ⇠i+1i!= EOS iwi（未提供具体内容，无法进行翻译随机抽样效果不佳尽管随机抽样大多生成合理、高概率的词语，在分布的尾部存在许多奇特、低概率的词汇。每个人都是低概率事件，但累积起来，它们构成了分布的大部分。所以他们被挑选得足够多，以至于产生了奇怪的句子。单词采样因素：质量并且多样性强调高概率单词 + +质量更准确、连贯和事实性的，- 多样性:枯燥，重复。强调中概率单词加号多样性更加富有创意，多样化，-质量: 不太客观，内容不连贯顶级-k采样： 1. 选择单词数量 k 2.对于词汇表中的每个单词V使用语言模型来计算该词在给定上下文中的可能性p(wt|w)<t3.按可能性对单词进行排序，仅保留最上面（或最重要的）的。k可能出现的词汇。最 4.重新规范化分数的得分k词语构成一个合法的概率分布。 5.随机从这些剩余词汇中抽取一个单词k根据其概率的最可能词汇. 不是保持领先k但顶尖p百分比的概率质量。目标相同；截移除非常不可能的单词。顶级采样（=核采样） Holtzman et al., 2020测量概率而不是单词数量，希望这种测量方法在非常不同的加稳健，动态地增加和减少单词候选池。问题在于顶级-k: k固定不同情况下覆盖非常不同的概率质量量。想法：相反，保留概率质量的前p百分比。个分布给定一个分布P(wt|w<P(tw)，顶级-|w), 排名首位汇-p词汇表VV((pp)) 是包含最少单词的最小集合，满足是包含最的 X)P(w |w2 < t)w V(p文档结束符号（Page end symbol 温度采样高温下的系统具有灵活性，可以探索许多可能的状态。一个在较低温度下的系统可能会探索一组较低能量（更优）的状态。在低温采样中，（τ ≤ 1）我们平稳地•提高最可能词汇的几率。• 0≤τ ≤ 1进行除法运算。t计算概率向量温度采样 y=softmaxu / t) ••？当当 Why does this work? t 接近 1 时，分布，传递给softmax的分数越大（除以一个当τ接近1时，分布变化不大。τ越低，传递给softmax的分数就越大。语增加概率的分布当将更大的数字传递给softmax时，结果为•率趋近于1）的有用特性是它倾向于将高值推向1，将低值推率词向下，使得分布更趋贪婪。1 结果导致每个得分都更大）。回想一下，其中之一是•softmax将高值推向1，将低值推向0。采样用于LLM生成大型语言模型预训练大型语言模型：算法大型语言模型预训练这一重大思想是所有语言模型惊人性能的基础首先预训练基于大量文本的转换器模型然后将它应用于新任务。自监督训练算法我们只是训练它们预测下一个单词！ 1. 选取文本语料库 2. 在每个时间步长ti.请模型预测下一个单词 ii.使用梯度下降法训练模型以最小化预测中的误差 "自监督因为它只是使用下一个词作为标签！语言模型训练的直觉：损失我们希望模型将高概率分配给真实单词。w 如果模型对w赋予的概率过低，则希望损失较高。 CELoss：模型分配给真实下一个单词w的负对数概率。我们将模型权重移动到赋予w更高概率的方向。 =[ˆ[

点击免费查看完整报告