行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

2024快意大模型及短视频场景应用

文化传媒 2024-11-13 张鸿志快意大模型中心 🌱

快意大模型及短视频场景应用

项目背景

时间线：2022年底，OpenAI的ChatGPT惊艳全球，预示着通往AGI的可能性。
模型发展：从GPT-1、GPT-2到GPT-4，再到快手的快意系列模型（快意-13B、快意-66B、快意-175B）。

模型介绍

快意大模型：2023年8/9月发布了13B和66B参数量的大模型，24年2月发布了175B参数量的大模型。
性能表现：在多项权威基准测试中，快意大模型表现优异，特别是在C-Eval、CMMLU、MMLU等评测中领先。

关键技术

Temporal Scaling Law：通过细粒度建模，优化预训练过程中的loss预测。
MiLeLoss：基于信息熵的加权损失优化，提升预训练效果。
Scaffold-BPE：改进BPE算法，减少“伪高频”token，提升词表压缩率和训练效果。
MoE路由错误自适应检测与Loss优化：优化路由模块，提升整体效果。

应用场景

短视频场景：快意大模型应用于短视频内容生成、推荐和理解，提升用户体验。
电商、直播、数字营销：增强内容理解和生成能力，提高商业化和本地生活服务的质量。

未来展望

多模态理解大模型：正在开发中，预计将进一步提升快手在多模态领域的竞争力。

总结

快手通过自主研发的大模型技术，不断提升其在AI领域的竞争力。特别是快意大模型在多个参数量级别的模型上表现出色，尤其是在预训练和推理过程中引入了一系列创新技术，如Temporal Scaling Law、MiLeLoss、Scaffold-BPE和MoE路由优化等，显著提升了模型的性能和应用效果。在未来，快手将继续探索多模态理解大模型的应用，进一步丰富其业务生态。

快意大模型中心张鸿志2024.08 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 项目背景模型介绍2 目录关键技术 3 C O N T E N T S 应用场景4 未来展望5 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 2022年底，OpenAI的ChatGPT惊艳了世界，预示着通往AGI（ArtificialGeneralIntelligence）的可能性，开启AI技术突破的新篇章快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 作为一家以AI技术驱动的公司，快手制定新的AI战略，于2023年初启动快意大模型研发专项快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 项目背景模型介绍2 目录关键技术 3 C O N T E N T S 应用场景4 未来展望5 23年8/9月，「快意」13B/66B发布，预训练基模型在各权威榜单中，与同等参数规模的其他模型相比，均处于领先位置 24年2月，「快意」175B正式发布，经过对齐后，在内部评测集上，总体效果显著超过GPT- 2024.08，快意多模态理解大模型开发中，kwaii-vlm-8B-dev版本业务可用性佳，在video-MME大致达到行业第一梯队。快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO.快意大模型及短视频场景应用项目背景 1 模型介绍2 目录关键技术 3 C O N T E N T S 应用场景4 未来展望快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO.快意大模型及短视频场景应用快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO.快意大模型及短视频场景应用关键技术点 1.Temporal Scaling Law2.MiLeLoss预训练损失函数优化3. Scaffold-BPE词表学习⽅法改进4.MoE路由错误⾃适应检测与Loss优化 PartAPre-training 1. SFT训练数据采样策略2. SFT答案质量3. SFT负反馈机制4.迭代式RLHF+RLAIF5.细粒度反馈训练——RLMEC PartBPost-training C1.词汇单元并⾏解码策略D1.快意多模态理解⼤模型 PartC/D 关键技术A1：Temporal Scaling Law 验证大模型训练过程在时序上的可预测性；提供在大模型上直接使用少量数据训练，并通过时序预测进行超参搜索的有效路径；也为洞察大模型训练的内在机制提供理论基础 •大模型超参繁多，对结果影响大•数据配比、学习率、权重衰减、dropout等•小模型超参搜索，存在不可迁移风险•μP等工作•粗粒度时序预测，效果不佳•传统幂率关系预测误差大关键技术A1：Temporal Scaling Law •细粒度建模 •每个tokenposition的loss服从动态倒数关系关键技术A1：Temporal Scaling Law •细粒度建模 •动态倒数关系的参数随训练步数改变，且可通过函数拟合 Temporal Scaling Law：关键技术A1：Temporal Scaling Law •少量训练，预测最终loss •建模第一段函数，结合收敛点约束条件，建模第二段，并预测最终loss •实验结果（I） •显著降低预测误差（27.8%->4.1%,30.5%->2.0%）关键技术A1：Temporal Scaling Law •实验结果（II） •可低成本地直接在大模型上做超参搜索，有效提升模型效果（e.g.，数据配比） •理论证明无需对不同position的token进行加权，并获得实验验证关键技术A2：MiLeLoss预训练损失函数优化解决预训练阶段Token学习存在难易bias的问题，提出基于信息熵的加权损失优化方案，在多种参数规模的预训练模型上均取得显著效果提升传统交叉熵损失（CrossEntropyLoss） ℒ$%=−(1−∑&𝑝&log𝑝&)'log𝑝#! 基于信息熵的加权损失（MiLeLoss）关键技术A3：Scaffold-BPE词表学习方法改进解决BPE（Byte-Pair-Encoding）算法中存在“伪高频”token（i.e., scaffold token）的现象，通过改进BPE合并过程，将其替换成高频token，有效提升词表压缩率和大模型训练效果关键技术A3：Scaffold-BPE词表学习方法改进 •实验结果 •有效消除“伪高频”token，提升词表压缩率•有效提升大模型的学习效果，且可迁移到机器翻译等其他任务关键技术A4：MoE路由错误自适应检测与Loss优化解决MoE（Mixture-of-Expert）中，因路由错误导致单expert内部知识冲突，从而优化不理想的问题，提出基于token梯度分布的路由错误自适应检测与相应的Loss优化方法，以提升路由模块的预测准确性，并提升MoE整体效果关键技术B1：SFT训练数据采样策略模型越大、所需对齐所需数据越少，质量要求远高于数量要求。提出一种迭代式数据扩充策略，实现数量-覆盖面权衡。关键技术B2：SFT答案质量多个来源收集的训练数据，即使是当前SOTA模型，也存在大量幻觉答案（i.g.中国历史文化相关问题）和部分数学计算错误（高阶数学尤甚）、少量指令遵循漏洞和统计意义上的答案偏置。为提高训练数据质量，需要进行答案检错；此外，强调基于自有模型生成更优质训练数据。关键技术B2.1：SFT答案质量——基于智能体的答案校验通常RM依赖内部知识水平和知识利用能力，判别可靠度较低。基于此，提出自动化的幻象检测智能体框架——HaluAgent。7-13B等百亿规模模型错误检测能力与GPT4等模型持平，更大规模模型上提升显著，大幅降低训练数据错误率。关键技术B2.1：SFT答案质量——基于智能体的答案校验通常RM依赖内部知识水平和知识利用能力，判别可靠度较低。基于此，提出自动化的幻象检测智能体框架——HaluAgent。7-13B等百亿规模模型错误检测能力与GPT4等模型持平，更大规模模型上提升显著，大幅降低训练数据错误率。关键技术B2.2：SFT答案质量——多答案校验多个来源收集的训练数据，即使是当前SOTA模型，也存在大量幻觉答案（i.g.中国历史文化相关问题）和部分数学计算错误（高阶数学尤甚）、少量指令遵循漏洞和统计意义上的答案偏置。为提高训练数据质量，需要进行答案检错；此外，强调基于自有模型生成更优质训练数据。多答案校验Rmref⽰例关键技术B2.3：SFT答案质量——Rejectionsampling 多个来源收集的训练数据，即使是当前SOTA模型，也存在大量幻觉答案（i.g.中国历史文化相关问题）和部分数学计算错误（高阶数学尤甚）、少量指令遵循漏洞和统计意义上的答案偏置。为提高训练数据质量，需要进行答案检错；此外，强调基于自有模型生成更优质训练数据。关键技术B3：SFT负反馈机制传统SFT仅使用正例数据训练，难以解决重复生成、身份认知出错等问题。通过引入负反馈机制，可提升模型区分优劣回复的能力，减少重复文本等劣质回答，显著提升模型生成优质回复的概率关键技术B4：迭代式RLHF+RLAIF 充分挖掘RLHF的潜力，采用HumanFeedback/AIF->Reward Model->PolicyLearning的迭代式更新方式，模型生成数据经过人工和快意自反馈，用于迭代RM（防止rewardhacking），并结合在线策略（PPO）和pairwise策略（DPO），提升策略探索和学习效率，在安全性等方面提升明显关键技术B5：细粒度反馈训练——RLMEC 强化学习所提供的反馈是提升模型效果的最后一公里。进一步地，我们基于生成式模型提供词汇级反馈信号，并设计细粒度反馈信号下的强化学习策略。关键技术B5：细粒度反馈训练——RLMEC 强化学习所提供的反馈是提升模型效果的最后一公里。进一步地，我们基于生成式模型提供词汇级反馈信号，并设计细粒度反馈信号下的强化学习策略。 •传统RLHF算法的reward model 关键技术B5：细粒度反馈训练——RLMEC 强化学习所提供的反馈是提升模型效果的最后一公里。进一步地，我们基于生成式模型提供词汇级反馈信号，并设计细粒度反馈信号下的强化学习策略。 •使用token级别的RM进行PPO训练 •Step1.生成token级别的打分•Step2.使用生成式RM对错误部分进行精细的编辑和修正，保证了模型训练的稳定性•Step3.使用Token-level的reward计算优势函数和GAE，并进行稳定的PPO训练关键技术C1：词汇单元并行解码策略在大模型推理阶段，创新性地提出了词汇单元并行解码策略，在无损解码的前提下，可大幅提升解码速度，扩大模型服务吞吐量 •Observation 中国大学top10排名 •大模型通常输出置信度极高，有很多词的输出概率接近于1。大模型不是提供了无限的解码结果，而是在预训练过程中进行深度剪枝，只保留了正确结果。 •多个连续的输出概率接近于1的词有被并行解码出来的潜力，称之为Lexicalunit。 p浅色表示生成概率低、深色表示生成概率高。 p该例列表生成中，除句首的词生成概率较低，其他生成概率极高。关键技术C1：词汇单元并行解码策略在大模型推理阶段，创新性地提出了词汇单元并行解码策略，在无损解码的前提下，可大幅提升解码速度，扩大模型服务吞吐量关键技术D1：快意多模态理解大模型快意多模态理解大模型，在语言模型基础上打造文本、图像和视频等多模态信号的理解能力。模型训练包括connector训练、知识预训练和Post-training三个阶段，其中知识预训练增强图文理解能力、内外部IP等识别能力，最终Post-training增强模型对任意指令的理解和遵循能力。快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 项目背景模型介绍2 目录关键技术 3 C O N T E N T S 应用场景4 未来展望快意大模型及短视频场景应用INTRODUCTION OF KWAIYII-LLM AND ITS APPLICATION IN THE SCENE OFSHORTVIDEO. 应用场景1：AI小快–具备多模态人格化能力的情感陪伴机器人 •基于「快意」大模型孵化的情感陪伴机

点击免费查看完整报告