您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:腾讯云 TI 平台大模型精调解决方案 - 发现报告

腾讯云 TI 平台大模型精调解决方案

2024-05-14腾讯米***
AI智能总结
查看更多
腾讯云 TI 平台大模型精调解决方案

腾讯云TI平台的⼤模型精调解决⽅案 2024.6腾讯云智能 一、大模型在业务场景落地的痛点 从“量变”到“质变”,AI进⼊⼤模型时代 ⼤模型落地业务场景的痛点 大规模训练不稳定 需提高资源利用率 模型欠缺行业知识 需国产化适配 大 模 型 训 练 需 耗 费 大 量GPU资源且训练周期长,对训练平台的稳定性、故障隔离性、自动容错性等底座能力,以及断点续训能力考验极大 分布式训练需要高效的资源调度管理系统,减少节点资源碎片提高调度成功率;支持虚拟GPU调度提高容器资源利用率 响应国家政策,摆脱国外资源限制,需要从硬件服务器芯片、操作系统、模型等多个层面完成国产化适配 通用领域大模型百花齐放,但都不具备特定行业的独有知识,欠缺行业属性导致无法落地实际业务 二、TI对大模型精调解决方案的思考 TI对⼤模型开发全⽣命周期的⼀体化⽅法论 三、TI大模型精调解决方案的4大核心优势 •自研模型:混元大模型、行业大模型•大规模训练:简单、稳定、高效•自研加速:Angel框架三重优化•国产化适配:全生命周期信创支持 核⼼优势1—⾃研模型:混元⼤模型 超千亿参数规模(蒸馏出百亿级模型),全链路⾃主研发,从零训练⾃主创新 核⼼优势1—⾃研模型:混元⼤模型 核⼼优势1—⾃研模型:⾏业⼤模型 核⼼优势1—⾃研模型:⾏业⼤模型 在有⾏业数据精调的情况下:⾏业⼤模型(10亿参数)可以⽐通⽤⼤模型(千亿参数)⽤⼩得多的训练资源,训练后得到差不多性能的应⽤ 核⼼优势2—⼤规模训练:简单 3.任务管理模型评估 2.训练监控 1.一键启动 5.服务调用 4.模型发布 最快仅需5步即可完成⼤模型精调落地 核⼼优势2—⼤规模训练:稳定 ⾃底向上3层机制保障⼤模型稳定训练 核⼼优势2—⼤规模训练:⾼效 1.提⾼容器对资源的利⽤率 2.减少资源碎⽚,提⾼调度成功率 •AI批量任务使用gang调度策略(要么都成功,要么都失败)•GPU任务使用binpack调度策略(优先填满一个节点,避免多卡任务启动失败) 核⼼优势2—⼤规模训练:⾼效 全开源、易扩展、开箱即用 100+任务类型的精调配比数据 3大类数据处理pipeline 覆盖12大类下的100+LLM应用场景:文本创作,开放式问答,基础语言能力,对话,角色扮演,智能体,思维链.阅读理解.文本理解,信息提取,知识挖掘,代码生成 覆盖3类精调预训练通用场景: 核⼼优势2—⼤规模训练:⾼效 核⼼优势3—⾃研加速:Angel三重优化 ⽀持更多模型,实现更⾼加速⽐ 核⼼优势4—国产化适配:产品⽀持情况 核⼼优势4—国产化适配:获得多项信创认证 四、TI大模型精调的具体产品能力 精调产品能⼒全局视图 0.⼀键部署⼤模型 经TI算法团队调研分析,TI内置了⽬前在多个开源数据集C-Eval、MMLU等上取得较好评测指标的开源⼤模型:llama、baichuan、chatglm、bloom等。且平台会持续跟进开源⼤模型升级情况更新产品版本。 20+模型 模型卡片列表 0.⼀键部署⼤模型 平台内置了⼤模型参数⽂件、推理脚本、推理镜像等部署依赖物料,⽤户只需额外指定推理所需算⼒资源,即可⼀键部署⼤模型 1.模型详情页面,部署入口:新建在线服务 3.在线服务列表页:查看服务运行状态 建议推理资源配置不低于: 0.模型效果测试 部署服务成功运⾏后:•提供页⾯问答的形式,供⽤户快速体验模型效果 •提供http接⼝调⽤,供⽤户批量测试业务数据推理结果 模型服务在线体验页面问答 从众多⼤模型中,快速选型合适的基底模型,⽤于后续精调任务 1.训练数据 数据格式2 数据来源1 •平台定义了统⼀的训练数据格式•同⼀数据集可对接多个⼤模型训练任务 •⽀持对接10+种来源的训练数据 •训练任务可直接挂载⽤户数据源,⽆需转存,节省存储空间提⾼训练数据加载效率 训练数据格式定义 1.训练数据 数据导⼊和管理3 平台⽀持⽤户本地导⼊或通过数据源挂载训练数据统⼀列表页⾯纳管训练数据资产 数据查看4 ⽀持点击数据集或数据源名称,跳转详情页⾯,查看具体内容 1.训练数据 5数据预处理 全开源可扩展 沉淀了3大类数据构建pipeline:有监督-单轮问答、有监督-多轮问答、无监督 每类pipeline沉淀了优图算法实操环节的代码经验+工程封装提升易用性 1.训练数据 多维度的可视化数据统计分析 按照不同的业务场景沉淀不同的数据清洗过滤配置 可通过config文件自定义开启数据清洗策略:支持长度过滤、关键词过滤、数据格式准确性校验、数据格式标准化...... 支持柱状图、饼状图可视化分析数据分布情况,可视化预览数据schema结构可视化展示每一个数据清洗环节的处理进度 2.1平台内置⼤模型 2.1平台内置⼤模型:⾃研混元核⼼优势 更可靠——相比主流开源大模型将幻觉降低30%~50% 业界效果 不依赖外挂解决幻觉问题 通过外挂插件的方式 无法解决复杂任务中的幻觉问题 关羽和秦琼都是中国历史上著名的武将,他们分别来自不同的时代,东汉末年的关羽和唐朝初年的秦琼。在比较他们的战斗力时,我们需要考虑不同的因素。首先,我们需要明确他们所处的时代背景。…… ……最 后,关 羽 的 个 人修 为 和 武 学 造 诣 也是 令 人 称 道 的。据说 他 会 独 孤 九 剑和赵敏的“神雕大侠”中的点穴之术。…… ……关羽生活于东汉末年,岳缺的武勇和忠诚卫国威煌了整个三国时代;而秦琼则是北宋时期一位英勇神勇的武将,被赞誉为“开疆拓土”。…… 关 羽擅 长 激 励 士 气,使 士 兵 们 在 战 斗 中发挥 出 超 常的 能 力。他 在赤 壁 之 战 中的“温酒斩华雄”就是他激 励 士 气的 最好 证明。…… 综上所述,关羽和秦琼都是中国历史上著名的武将,他们的战斗力都非常强大。在比较他们的战斗力时,我们需要考虑不同的因素,如时代背景、战绩表现和个人能力等。因此,我们不能简单地判断谁更强,他们都有着各自的优势和特点,都是中国历史中不可或缺的英雄人物。 腾讯混元大模型 2.1平台内置⼤模型:⾃研混元核⼼优势 更可靠——能识别陷阱,面对安全诱导类问题的拒答率提升20% 业界效果 通过强化学习的方法,对不安全的问题说“不” 面对安全诱导性问题,易掉入陷阱 优势:提升应用安全性、提高应用智能感 超速是非常危险的行为,建议不要超速。如果你确实需要超速,以下是一些安全的建议: 我们始终强调,超速是非常危险的行为,不建议进行。为了确保自己和他人的安全,请遵守交通规则,不要超速。在任何情况下,安全驾驶应始终是第一要务。 超速是一种违法行为,并且会增加交通事故的风险。因此,不建议超速行驶。 作为一名AI语言模型,我不能提供任何关于超速驾驶的建议或指导。超速驾驶是非常危险的行为,不仅会导致交通事故,还可能危及驾驶员和其他道路使用者的生命安全。建议您遵守交通规则和指示,保持安全驾驶,以确保自己和他人的安全。 如果您必须超速,请确保您的车辆和驾驶技能处于最佳状态,并遵守当地的交通法规和限速规定。同时,请注意周围的交通情况,并保持警觉,以便在需要时及时做出反应。 保持警觉:……选择合适的时机:……不要超速过多:……遵守交通规则:…… 总之,超速是非常危险的行为,应该尽量避免。如果必须超速,请务必注意安全,确保自己和他人的生命安全。 总之,超速不是一种安全的行为,应该避免。如果您需要更快地到达目的地,请考虑其他交通方式,例如公共交通工具或拼车。 腾讯混元大模型 2.1平台内置⼤模型:⾃研混元核⼼优势 更成熟——提高超长文本的处理效果,一口气生成千字长文 腾讯混元效果 业界效果 通过位置编码优化,提升长文的处理效果和性能结合指令跟随优化,让产出内容更符合字数要求 长文生成内容偏短,容易发生截断 2.1平台内置⼤模型:⾃研混元核⼼优势 更成熟——具备更强的逻辑推理能力,能结合实际场景推理决策 腾讯混元效果 业界效果 提出思维链的新策略 有效强化模型对问题拆解和分步思考的倾向 面对常识推理类问题,易推导出错误结果 优势:让应用助手像人一样思维推理 为了计算今年招了多少90后,我们需要先计算去年90后的人数,以及今年全公司的人数。去年全公司有315人。去年90后占全公司人数的比例为0.2。去年90后的人数为63人。今年90后占全公司人数的比例为0.3。今 年 全 公 司 的 人 数 为433.125人。今 年90后 的 人 数 为129.9375人。所以,今年招了66.9375个90后。 90后人数=315人*(1/5)=63人今年90后占全公司人数的30%,设今年招了x名90后,则有:(63+x)/(315+x)=30%解这个方程,我们可以得到今年招进的90后人数:63+x=0.3*(315+x)63+x=94.5+0.3x0.7x=31.5x=45所以,今年该公司招进了45名90后。 腾讯混元大模型 2.1平台内置⼤模型:⾃研⾏业⼤模型 在通⽤⼤模型的基础上,加⼊⼤量⾏业的⽆监督/有监督数据进⾏训练,从⽽针对性的提升了执⾏领域任务的效果 2.2上传⾃定义⼤模型 若平台内置的开源大模型无法满足用户需求,用户也可自行下载模型文件上传TI平台 3.训练镜像 •平台为用户内置了一个统一的LLM训练镜像,默认安装了大多数大语言模型需要的依赖包• 支持transformers模型训练以及deepspeed分布式训练能力等 LLM依赖包 3.训练镜像:内置加速框架 训练镜像中内置了开源和自研加速框架:deepspeed &自研Angel 3.训练镜像:⾃研训练加速框架Angel技术原理 并行训练 计算优化 灵活策略,分阶段开启fp16+XLA计算图加速;混合计算图机制,解决精度损失和负优化问题; 混合并行:conv层采用数据并行,FC层采用模型并行反向图显存优化:重构反向图,计算时间换取显存消耗 通信优化 大batch收敛 优化通信次数,对梯度进行融合,减少梯度同步通信次数;优化通信拓扑,机外通信优化为先机内同步然后跨机同步;优化通信量,进行Topk梯度压缩,减少通信量; 自动调节大batch学习率,解决loss跳变问题AutoML+人工精调分阶段搜索,提升调参效率和效果 2分31秒完成训练,创造128卡训练imagenet业界新记录 4.启动训练任务 精调模式1 平台内置了全参数Full和Lora两种精调模式⽤户可通过{FinetuningType:Full/Lora}指定 任务超参 2 平台开放了部分超参供⽤户⾃定义调整{Epoch、BatchSize、LearningRate、Step、MaxSequenceLength等其中,通过UseTilearn参数控制是否启⽤⾃研加速 4.启动训练任务 训练资源预估建议训练资源配置3 4.启动训练任务 5 定义了“通用算法任务”类别树:涵盖100+任务类别的自研配比数据 业界首家详细梳理了算法任务的三级类别树 •涵盖12大类下的100+LLM建模场景文本创作,开放式问答,基础语言能力,对话,角色扮演,智能体,思维链.阅读理解.文本理解,信息提取,知识挖掘,代码生成 自动调节数据配比科学比例 •细分超100w条自研精调配比数据客户不同场景定向选择不同类型的配比数据,相较于竞品无差别随机采样配比数据能更进一步提高模型精调效果 •客户自有训练数据量在10万级别以上,建议混合内置数据和客户自有数据比例1:1:•大于1:1时,被选择的叶子结点的所有数据混合后按比例随机抽取;•小于1:1时,则只混合被选择到的内置自研数据即可。 •客户自有训练数据量在10万级别以下:内置自研数据抽取条目数量:mi