快意大模型中心张鸿志2024.08 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 项目背景 模型介绍2 目录 关键技术 3 C O N T E N T S 应用场景4 未来展望5 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 2022年底,OpenAI的ChatGPT惊艳了世界,预示着通往AGI(ArtificialGeneralIntelligence)的可能性,开启AI技术突破的新篇章 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 作为一家以AI技术驱动的公司,快手制定新的AI战略,于2023年初启动快意大模型研发专项 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 项目背景 模型介绍2 目录 关键技术 3 C O N T E N T S 应用场景4 未来展望5 23年8/9月,「快意」13B/66B发布,预训练基模型在各权威榜单中,与同等参数规模的其他模型相比,均处于领先位置 24年2月,「快意」175B正式发布,经过对齐后,在内部评测集上,总体效果显著超过GPT- 2024.08,快意多模态理解大模型开发中,kwaii-vlm-8B-dev版本业务可用性佳,在video-MME大致达到行业第一梯队。 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO.快意大模型及短视频场景应用 项目背景 1 模型介绍2 目录 关键技术 3 C O N T E N T S 应用场景4 未来展望 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO.快意大模型及短视频场景应用 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO.快意大模型及短视频场景应用 关键技术点 1.Temporal Scaling Law2.MiLeLoss预训练损失函数优化3. Scaffold-BPE词表学习⽅法改进4.MoE路由错误⾃适应检测与Loss优化 PartAPre-training 1. SFT训练数据采样策略2. SFT答案质量3. SFT负反馈机制4.迭代式RLHF+RLAIF5.细粒度反馈训练——RLMEC PartBPost-training C1.词汇单元并⾏解码策略D1.快意多模态理解⼤模型 PartC/D 关键技术A1:Temporal Scaling Law 验证大模型训练过程在时序上的可预测性;提供在大模型上直接使用少量数据训练,并通过时序预测进行超参搜索的有效路径;也为洞察大模型训练的内在机制提供理论基础 •大模型超参繁多,对结果影响大•数据配比、学习率、权重衰减、dropout等•小模型超参搜索,存在不可迁移风险•μP等工作•粗粒度时序预测,效果不佳•传统幂率关系预测误差大 关键技术A1:Temporal Scaling Law •细粒度建模 •每个tokenposition的loss服从动态倒数关系 关键技术A1:Temporal Scaling Law •细粒度建模 •动态倒数关系的参数随训练步数改变,且可通过函数拟合 Temporal Scaling Law: 关键技术A1:Temporal Scaling Law •少量训练,预测最终loss •建模第一段函数,结合收敛点约束条件,建模第二段,并预测最终loss •实验结果(I) •显著降低预测误差(27.8%->4.1%,30.5%->2.0%) 关键技术A1:Temporal Scaling Law •实验结果(II) •可低成本地直接在大模型上做超参搜索,有效提升模型效果(e.g.,数据配比) •理论证明无需对不同position的token进行加权,并获得实验验证 关键技术A2:MiLeLoss预训练损失函数优化 解决预训练阶段Token学习存在难易bias的问题,提出基于信息熵的加权损失优化方案,在多种参数规模的预训练模型上均取得显著效果提升 传统交叉熵损失(CrossEntropyLoss) ℒ$%=−(1−∑&𝑝&log𝑝&)'log𝑝#! 基于信息熵的加权损失(MiLeLoss) 关键技术A3:Scaffold-BPE词表学习方法改进 解决BPE(Byte-Pair-Encoding)算法中存在“伪高频”token(i.e., scaffold token)的现象,通过改进BPE合并过程,将其替换成高频token,有效提升词表压缩率和大模型训练效果 关键技术A3:Scaffold-BPE词表学习方法改进 •实验结果 •有效消除“伪高频”token,提升词表压缩率•有效提升大模型的学习效果,且可迁移到机器翻译等其他任务 关键技术A4:MoE路由错误自适应检测与Loss优化 解决MoE(Mixture-of-Expert)中,因路由错误导致单expert内部知识冲突,从而优化不理想的问题,提出基于token梯度分布的路由错误自适应检测与相应的Loss优化方法,以提升路由模块的预测准确性,并提升MoE整体效果 关键技术B1:SFT训练数据采样策略 模型越大、所需对齐所需数据越少,质量要求远高于数量要求。提出一种迭代式数据扩充策略,实现数量-覆盖面权衡。 关键技术B2:SFT答案质量 多个来源收集的训练数据,即使是当前SOTA模型,也存在大量幻觉答案(i.g.中国历史文化相关问题)和部分数学计算错误(高阶数学尤甚)、少量指令遵循漏洞和统计意义上的答案偏置。为提高训练数据质量,需要进行答案检错;此外,强调基于自有模型生成更优质训练数据。 关键技术B2.1:SFT答案质量——基于智能体的答案校验 通常RM依赖内部知识水平和知识利用能力,判别可靠度较低。基于此,提出自动化的幻象检测智能体框架——HaluAgent。7-13B等百亿规模模型错误检测能力与GPT4等模型持平,更大规模模型上提升显著,大幅降低训练数据错误率。 关键技术B2.1:SFT答案质量——基于智能体的答案校验 通常RM依赖内部知识水平和知识利用能力,判别可靠度较低。基于此,提出自动化的幻象检测智能体框架——HaluAgent。7-13B等百亿规模模型错误检测能力与GPT4等模型持平,更大规模模型上提升显著,大幅降低训练数据错误率。 关键技术B2.2:SFT答案质量——多答案校验 多个来源收集的训练数据,即使是当前SOTA模型,也存在大量幻觉答案(i.g.中国历史文化相关问题)和部分数学计算错误(高阶数学尤甚)、少量指令遵循漏洞和统计意义上的答案偏置。为提高训练数据质量,需要进行答案检错;此外,强调基于自有模型生成更优质训练数据。 多答案校验Rmref⽰例 关键技术B2.3:SFT答案质量——Rejectionsampling 多个来源收集的训练数据,即使是当前SOTA模型,也存在大量幻觉答案(i.g.中国历史文化相关问题)和部分数学计算错误(高阶数学尤甚)、少量指令遵循漏洞和统计意义上的答案偏置。为提高训练数据质量,需要进行答案检错;此外,强调基于自有模型生成更优质训练数据。 关键技术B3:SFT负反馈机制 传统SFT仅使用正例数据训练,难以解决重复生成、身份认知出错等问题。通过引入负反馈机制,可提升模型区分优劣回复的能力,减少重复文本等劣质回答,显著提升模型生成优质回复的概率 关键技术B4:迭代式RLHF+RLAIF 充分挖掘RLHF的潜力,采用HumanFeedback/AIF->Reward Model->PolicyLearning的迭代式更新方式,模型生成数据经过人工和快意自反馈,用于迭代RM(防止rewardhacking),并结合在线策略(PPO)和pairwise策略(DPO),提升策略探索和学习效率,在安全性等方面提升明显 关键技术B5:细粒度反馈训练——RLMEC 强化学习所提供的反馈是提升模型效果的最后一公里。进一步地,我们基于生成式模型提供词汇级反馈信号,并设计细粒度反馈信号下的强化学习策略。 关键技术B5:细粒度反馈训练——RLMEC 强化学习所提供的反馈是提升模型效果的最后一公里。进一步地,我们基于生成式模型提供词汇级反馈信号,并设计细粒度反馈信号下的强化学习策略。 •传统RLHF算法的reward model 关键技术B5:细粒度反馈训练——RLMEC 强化学习所提供的反馈是提升模型效果的最后一公里。进一步地,我们基于生成式模型提供词汇级反馈信号,并设计细粒度反馈信号下的强化学习策略。 •使用token级别的RM进行PPO训练 •Step1.生成token级别的打分•Step2.使用生成式RM对错误部分进行精细的编辑和修正,保证了模型训练的稳定性•Step3.使用Token-level的reward计算优势函数和GAE,并进行稳定的PPO训练 关键技术C1:词汇单元并行解码策略 在大模型推理阶段,创新性地提出了词汇单元并行解码策略,在无损解码的前提下,可大幅提升解码速度,扩大模型服务吞吐量 •Observation 中国大学top10排名 •大模型通常输出置信度极高,有很多词的输出概率接近于1。大模型不是提供了无限的解码结果,而是在预训练过程中进行深度剪枝,只保留了正确结果。 •多个连续的输出概率接近于1的词有被并行解码出来的潜力,称之为Lexicalunit。 p浅色表示生成概率低、深色表示生成概率高。 p该例列表生成中,除句首的词生成概率较低,其他生成概率极高。 关键技术C1:词汇单元并行解码策略 在大模型推理阶段,创新性地提出了词汇单元并行解码策略,在无损解码的前提下,可大幅提升解码速度,扩大模型服务吞吐量 关键技术D1:快意多模态理解大模型 快意多模态理解大模型,在语言模型基础上打造文本、图像和视频等多模态信号的理解能力。模型训练包括connector训练、知识预训练和Post-training三个阶段,其中知识预训练增强图文理解能力、内外部IP等识别能力,最终Post-training增强模型对任意指令的理解和遵循能力。 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 项目背景 模型介绍2 目录 关键技术 3 C O N T E N T S 应用场景4 未来展望 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 应用场景1:AI小快–具备多模态人格化能力的情感陪伴机器人 •基于「快意」大模型孵化的情感陪伴机