大型语言模型
语言模型
•大型语言模型既相似又不同:•将概率分配给单词序列•通过采样可能的下一个单词生成文本•基于大量文本计算出的计数进行训练。•将概率分配给单词序列•通过采样可能的下一个单词生成文本•经过学习 guess(猜测)下一个单词而被训练。•记住简单的n-gram语言模型
大型语言模型
•即使只预训练来预测单词•学习大量的实用语言知识。•自训练于以下内容:(Since training on a)许多文本
••预先训练三种类型的架构编码器-解调器和编码器的好部分?编码器三种大型语言模型的架构解码器最好的预训练方式是什么?
神经架构影响了预训练的类型及自然应用场景。
解码器GPT、Claude、LlamaMixtral
神经架构影响了预训练的类型及
编码器
编码器
多种多样!•
编码器-
•解码器通过从两侧的文字预测单词进行训练
编码器-解码器
编解
•训练用于从一个序列映射到另一个序列•机器翻译(从一种语言映射到另一种语言)•语音识别(从声学到单词的映射)32•非常受欢迎的:
大型语言模型简介
大型语言模型
大型语言模型:它们能执行哪
模型
重大理念
许多任务都可以转化为预测词语的任务!
解码器
本次讲座:仅解码器模型
也称为:
解码器
•••自回归语言模型因果语言模型从左到右的语言模型
预测词语从左到右
生成文本有条件的生成:基于先前文本条件!
EEEEEEE许多实际的NLP任务都可以被表述为词预测!+++++++iiiiiii编码器
情感分析:“我喜欢成龙”因此长时间并且谢谢对于所有the
们给语言模型这个字符串:
(也称为自回归)文本补全,基于基于大型语言模型的变换器。随着每个标记的生成,它被添加到上下一个前缀,用于生成下一个标记。你:句子“I”的情感表达前缀文本成龙”是:
2.单词“negative”用于查看哪一项更高:并且查看它认为接下来出现的单词:
P(positive)P负面|句“我喜欢成龙”的情感是:) (|句子“我喜欢成龙”的情感是::)
如果“积极”这个词更可能,我们说句子的情感是积极的。正面,否则我们说情绪是负面的。
将问题回答作为单词预测,通过向语言模型提出一个问题来预测单词。通过向语言模型提供一个问题和像“”这样的标记通过向语言模型提供一个问题和像“”这样的标记A:A:表明一个答案表明一个答案一种类似于的代币应该接下来是:应该接下来是:1.我们给语言模型这个字符串:A: 建议下一个回答应该出现:如果我们要求一个语言模型进行计算如果您要求一个语言模型计算对可能概率分布的计算,将如下:如果您要求一个语言模型计算对可能概率分布的计算,将如下:Q: 谁写了《物种起源》这本书? A:Q: 谁写了《物种起源》这本书? A:Q: 谁写了《物种起源》这本书? A:在回答简单问题方面的任务,我们将在第14章回到这一议题。在这个任务中,系统被提供一些问题,并必须给出一个文本答案。我们可以将任务表达如下:一个简单的、事实性的答案,并且必须提供文本答案;我们引入这个任务是为了一个简单的、事实性的答案,并且必须提供文本答案;我们引入这个任务是为了第15章详细内容。我们可以将问答任务视为词预测问题。第15章详细内容。我们可以将问答任务视为词预测问题。QA: “谁写了《物种起源》?”回答,其中系统被提供一个问题(例如一个带有一个或多个答案选项的问题)。我们也可以将更复杂的任务视为单词预测。考虑以下任务:回答,其中系统被提供一个问题(例如一个带有一个或多个答案选项的问题)。将大量任务视为条件生成们可以也将更复杂任务视为词预测任务。考虑以下问题我们可以也将更复杂任务视为词预测任务。考虑以下问题
P(wQ: 谁写了《物种起源》这本书? A:P|Q: 谁写了《物种起源》这本书? A:(|(| Q: 谁写了《物种起源》这本书?A:)If we ask a language model to compute the probability distribution over possible给定这个前缀:next words given this prefix:你:根据这个前缀给出的下一个词:
3.并且查看哪些单词w高概率事件,我们可能预计会看到这种情况。并且查看哪些单词并且查看哪些单词查尔斯并且迭代:非常可能,然后如果我们选择ww高概率事件,我们可能预计会看到这种情况。高概率事件,我们可能预计会看到这种情况。查尔斯并且继续询问查尔斯查尔斯非常可能,然后如果我们选择非常可能,然后如果我们选择查尔斯查尔斯并且继续询问并且继续询问P w))给定这个前缀:next words given this prefix:你:根据这个前缀给出的下一个词:2.并且查看它认为接下来出现的单词:P(w问题:谁写了《物种起源》这本书?答案:查尔斯·达尔文(Charles )
||P(wP问:谁写了《物种起源》这本书?答:查尔斯·达尔文。(|
包括CNN和《每日镜报》的新闻文章。逐个进行,并将整个响应作为一个总结。图。文本与广泛使用的摘要语料库中人工生成的摘要包括CNN和《每日镜报》的新闻文章。
原文文章总结比一个在雪封的麻省打雪仗的家伙更疯狂的事情只有一件
原文文章并且在网上进行销售?人们实际上在购买它。售价89美元,自称企业家
比一个在雪封的麻省打雪仗的家伙更疯狂的事情只有一件Kyle Waring 将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪——足够并且在网上进行销售?人们实际
上在购买它。售价89美元,自称企业家对于10到15个雪球,他说。Kyle Waring 将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪——足够
原文雪花!但是如果你住在新英格兰或周边州。我们不会将雪运往任何州。对于10到15个雪球,他说。在东北!”瓦林网站ShipSnowYo.com说道。“我们的业务是消除……但是如果你住在新英格兰或周边州的话就不是这样了。“我们不会将雪运送到美国东北部的任何州!”Waring的网站ShipSnowYo.com上写道。“我们的业务是消除雪!”他的网站和社交媒体账户声称已接收到超过133个订雪订单。
他的网站和社交媒体账户声称已接收到超过133个订雪订单。仅周二就超过30人,这是他最忙的一天。总降水量超过45英寸,波士顿已经创下了记录。
仅周二就超过30人,这是他最忙的一天。总降水量超过45英寸,波士顿已经创下了记录。记录下这个冬天为史上最雪月份。大多数居民看到巨大的雪堆记录下这个冬天为史上最雪月份。大多数
居民看到巨大的雪堆他们堵塞了庭院和人行道,造成不便,但Waring看到了一个机会。他们堵塞了庭院和人行道,造成不根据Boston.com报道,一切始于几周前,当时Waring和他的妻子正在铲雪——根据Boston.com报道
便,但Waring看到了一个机会。,一切始于几周前,当时Waring和他的妻子正在铲雪——清理曼彻斯特-比-大海郊区的深雪,这是一个位于波士顿北部的沿海郊区。他从曼彻斯特海滩的院子
摘要Kyle Waring 将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪——足够摘要里铲除厚厚的积雪,曼彻斯特海滩是位于波士顿北部的沿海郊区。他开玩笑说要把这些雪运给住在更温暖州的朋友和家人,于是一个想法诞生了。[...]开玩笑说要把这些东西寄给住在更温暖州的朋友和家人,一个想法就这样产生了。[...]摘要
Kyle Waring 将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪——足够对于10到15个雪球,他说。但如果您住在新英格兰或周边各州,则不适用。对于10到15个雪球,他说。但如果您住在新英格兰或周边各州,则不适用。图10.2摘自CNN/Daily
图10.2摘自CNN/Daily Mail摘要语料库中的一篇样本文章及其摘要。Mail摘要语料库中的一篇样本文章及其摘要。
LLMs for summarization(使用tl;dr)
大型语言模型:它们能执行哪
模型
采样用于LLM生成
大型语言模型
解码与采样
这个词基于模型概率选择一个单词的任务被称作解码.
LLMs中解码的最常用方法是采样。
从模型对单词的分布中进行采样:
根据模型分配的概率随机选择单词。
在每次标记之后,我们将根据其概率采样单词以生成。基于我们之前的选项,
变压器语言模型将给出概率
⇠(():未提供任何文本p未提供任()表示pling from the distributionp未提供任何文本进行翻译。我们可以将生成单词序列直到遇到序列结束标记的算法正式化。随机抽样
上述算法被称为i1w同时i⇠(未提供具体内容,无法进行翻译)w)w ⇠i+1i!= EOS iwi(未提供具体内容,无法进行翻译
随机抽样效果不佳
尽管随机抽样大多生成合理、高概率的词语,
在分布的尾部存在许多奇特、低概率的词汇。
每个人都是低概率事件,但累积起来,它们构成了分布的大部分。
所以他们被挑选得足够多,以至于产生了奇怪的句子。
单词采样因素:质量并且多样性
强调高概率单词 + +质量更准确、连贯和事实性的,- 多样性:枯燥,重复。
强调中概率单词加号多样性更加富有创意,多样化,-质量: 不太客观,内容不连贯
顶级-k采样:
1. 选择单词数量 k
2.对于词汇表中的每个单词V使用语言模型来计算该词在给定上下文中的可能性p(wt|w)