您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:模型训推:从算力优化到应用落地 - 发现报告

模型训推:从算力优化到应用落地

2025-06-17腾讯M***
AI智能总结
查看更多
模型训推:从算力优化到应用落地

模型训推:从算力优化 到应用落地 行业背景:ScalingLaws带来质变,AI进入大模型时代 AlexNet2012 深度学习2006 图神经网络2005 NLP神经网络2013 ResNet2015 AlphaGo战胜李世石2016 联邦学习2016 GPT-4 ChatGPT GPT3 Transformer2017 AlphaFold2 达特茅斯会议·1956年8月发起,提出了“人工智能” 这一名词,汇集了一批日后AI领域最重要的学者 BP算法1986 条件随机场2001 BERT2018 语义网络线路图1998 XCON1980 深蓝击败卡斯帕罗1995 支持向量 1995 算力瓶颈 专家系统19681990 计算机视觉1976 知识表征 1974 AI进入 “大模型”时代 感知机1957 达特茅斯会议1956 泛化性 对新数据的适应能力 模型在从未见过的数据上 能表现出良好的性能能力 通用性 解决多个任务的能力 模型能应用于 不同的数据集或任务 实用性 应用时的可用性和效率 模型能以合理的时间和资源 快速处理数据并做出正确的决策 业务挑战:模型构建与应用仍存在诸多挑战 模型欠缺行业知识 通用领域大模型百花齐放,但都不具备特定行业的独有知识和任务处理能力,欠缺行业属性导致无法落地实际业务 数据准备投入大 算法人员要投入超过60%时间进行高质量数据准备,针对大批量数据,进行数据清洗,标注,特征工程,等一系列预处理 大规模训练不稳定 大规模模型训练需耗费大量GPU资源且训练周期长,对训练平台的稳定性、故障隔离性、自动容错性等底座能力,以及任务长时间成功运行考验极大 资源调度管理难 采购的算力资源有限,使用诉求远超可用算力,需要高效的算力资源调度管理系统,灵活分配算力使用,减少节点资源碎片,提高资源使用率 核心需求:模型开发全生命周期 场景选型 模型构建 部署应用 应用场景 数据评估 资源采购 资源评估 环境搭建 服务开通 业务形态 交付方案 项目排期 知识挖掘+增强数据清洗+切块向量库建设+维护 训练数据准备 模型训练 训练平台搭建大模型-无监督训练大模型-有监督训练 深度学习训练机器学习训练训练框架加速 性能评测 脱敏合规 模型评测 模型管理 效果评测 服务发布 推理框架加速 推理服务部署 应用联调 应用发布 模型注册模型发布 TI-ONE覆盖环节 面向数据科学家,提供从数据预处理、模型训练、自动学习、模型评估到模型发布部署的全流程支持 机器学习平台TI-ONE 面向AI应用开发者,快速接入模型、数据和智能设备。提供模型部署、应用工作流编排、云边端调度等功能,快速构建智能应用 AI应用服务平台TI-Matrix 腾讯云TI平台TencentCloudTIPlatform 十大能力中心 数据中心 模型管理 模型部署 大模型精调 自动学习 应用编排 边缘中心 应用中心 能力平台 应用服务平台TI-Matrix 训练平台TI-ONE 管理中心 训练工坊 算法和模型开发者 算法 服务 算法 模型 IPC国标平台 智能设备提供商 数据采集数据标注 数据服务提供商 应用和解决方案开发者 基于腾讯云TI平台的开放能力,结合行业特点构建应用解决方案。充分发掘AI价值,助力各行各业数字化转型 泛政府产业AI应用泛互联网AI应用金融产业AI应用企业AI应用 产品概述 腾讯云TI平台(TencentCloudTIPlatform)是基于腾讯先进AI能力和多年技术经验,面向企业提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型优化、模型评估、模型部署、到AI应用开发的产业+AI落地全流程链路,帮助用户快速创建和部署AI应用,管理全周期AI解决方案,从而助力政企单位加速数字化转型并促进AI行业生态共建。 腾讯云TI平台 基础设施 容器平台 存储资源 网络资源 计算资源 应用场景——一站式大模型精调解决方案 AI建模部署 大模型精调 快速试一试: 零代码一键部署大模型,网页问答体验推理效果 精调训练: 低代码、灵活自定义两种精调模式自由选择 模型部署 训练工坊 数据中心 数据训练调试评测部署 数据构建 预置3大类精调数 据处理pipeline 数据标注 CV,文本类标注工具 多种训练工具:具备周期调度能力的可视化建模,低门槛深度学习场 景化工具,交互式代码开发工具,专业的通用任务调度工具 分布式稳定训练:支持多机多卡大规模训练,故障自动重启续训镜像制作:基于jupyter的高效自定义镜像制作工具 训练指标监控:丰富的指标监控及告警,覆盖网络及GPU算力 内置训练加速:全新升级Angel训练框架加速能力,性能提升30% 大模型评测:提供轻量体验,客观评测,主观评测的三阶段评测工具 内置推理加速:全新升级Angel推理加速能力,加 速比可达2倍 大模型调用:统一的大模型调用API及体验工具,大 幅缩短业务接入大模型能力周期 AI资产管理 自研混元大模型 从零训练自主创新的通用大模型 7b13b70b389b不同参数量级 自研行业大模型 金融/汽车/医疗,提升垂类任务性能 支持知识增强、实时更新知识库 开源大模型 DeepSeek/Llama/baichuan/Qwen等 全面接入主流开源模型 AI框架 Pyspark,pytorch,vllm等通用训练框架 triton,vllm,sglang,pmml等通用推理框架 差异化竞争力:数据构建 业界通用做法:网页式一键勾选启用哪些内置清洗函数 交互友好,易上手 清洗环节固定、内置清洗函数黑盒,无可扩展性无法满足实战过程中复杂多变的数据构建诉求 腾讯:灵活的数据构建pipeline、细致的算法任务分类和智能的数据配比功能 智能分配 自动加载 根据样本量和任务类型 分配配比数据 精调任务无需额外配置 加载配比数据 超过100w条预置配比数据每个细分任务类型均预置腾讯自研精调配比数据 覆盖12大类下的100+LLM应用场景 文本创作,开放式问答,基础语言能力,对话,角色扮演,智能体,思维链.阅读理解.文本理解,信息提取,知识挖掘,代码生成 灵活开源的pipeline代码脚本有监督训练-多轮问答 有监督训练-单轮问答 无监督预训练 3大类数据处理pipeline100+细分任务的精调配比数据(公有云) pipeline预置5大高质量数据处理环节 原始数据分析->数据清洗->数据去重- >prompt优化->训练格式转换 开箱即用 开源可扩展 预置Notebook快速开始预置数据处理链代码 差异化竞争力:数据标注 业界通用做法:一种“标注场景”对应一种“标注操作台” 交互友好,一键启动标注任务平台可支持的标注场景清单有限 同一个场景下的标注操作台能支持的标注内容有限,无法灵活扩展,无法满足大模型标注场景下各种真实繁琐的诉求 如百度能支持标注场景清单是固定的 如百度的标注操作台能标注的字段是固定的(问题+答案) 腾讯:灵活定义数据schema,自动生成多种大模型标注操作台 包括但不限于高质量文本问答对筛选,文本数据清洗,图片问答对审核/修改, 图片问答竞品评测,图片多轮问答,多模态阅读理解,图片文本描述等 一个schema示例:针对多图的多轮问答 产品特色能力:稳定支持大规模分布式模型训练 节点发生故障时: •主动发现 •屏蔽节点 •自动扩容 •故障迁移 TaskManger TrainOperator 3.断点续训 2.异常POD驱逐重新调度 网络/系统等异常时: •任务管理自动重启训练任务 •恢复历史checkpoint继续训练 节点/磁盘等突发故障时: •训练operator感知pod运 行状态 •将异常pod重新调度到其 他节点 •恢复训练任务 1.机器故障迁移 Node Node Node Node Node Node 云原生监控 自底向上3层机制保障大模型稳定训练 混合调度资源利用率提升策略 在离线混部及调度方式 高优任务 低优任务 •高优任务平均分配保证负载均衡 spread binpack Pod1 Pod2 Pod1 Pod2𝟐ΤGPUPod3𝟏ΤGPU qGPUKubernetesScheduler •低优任务尽量填满保证资源利用率 •支持在线100%抢占 � � 高优任务 高优任务 GPU1 GPU0 低优任务 低优任务 •GPU利用率的极致提高 低优任务 高优Pod1提交任务 runimm … tilldone 高优Pod1 IDLE..for100tick resume suspend resume suspend 低优Pods使用fix-share/burst调度策略 软件调度周期 默认20tick/可配 低优Pod3 低优Pod2 占有GPU 出让GPU 时间 推理任务训练任务 GPU0 训练任务训练任务 GPU1 工作日晚上和节假日将训练任务scale到推理卡, 实现推理卡闲暇时段利用率30%->90% 产品特色能力:潮汐调度 基于调度方案,以分时,抢占,弹性伸缩等调度策略,极致利用100%算力资源 1.分时调度:根据白天和晚上推理业务场景变化,自动将训练任务调度到推理卡上,实现推理卡闲暇时段利用率 30%->90% 2.高低优抢占调度:针对上下班高峰等突发流量,自动伸缩推理服务,抢占训练卡资源,将算力投入到更重要的生产业务中 推理任务 推理任务 推理任务 推理任务 GPU0 工作日白天 1.分时调度 GPU1 推理任 突发业务流量,服务自动扩容 2.抢占调度 推理任务推理任务 GPU0 推理任务 训练任务 GPU1 面对突发流量,推理抢占训练算力,将算 力资源优先保障正常生产 GPU0 务 推理任务 训练任务训练任务 GPU1 推理任务 推理任务 GPU0节点服务低负载 3.弹性伸缩调度 推理任务训练任务训练任务训练任务 GPU0GPU1 面对流量波谷,训练自动伸缩到低负载推理节点,实现集群算力持续高效运行 训练任务训练任务 GPU1 推理任务 GPU0 训练任务 3.负载,请求,延迟等弹性伸缩调度:将训练任务自动伸缩到低负载训练和推理卡,实现集群算力持续高效运行 面向DeepSeek提供行业领先的推理加速能力 针对「DeepSeek-R1/V3满血版」模型,TI平台通过自主研发的加速引擎提供 加速效果 「量化降本+并行增效」双重优化,实现性能与能效的协同跃升。 采用更低精度的量化技术,减少 存储空间和计算量,单机可部署 提升单位时间内处理请求数 提高吞吐量(QPS,QueriesPerSecond) 加速技术 低比特量化 QPS提升3倍 并发上限提升4倍 提升单节点部署支持的 最大并发数 MTP(Multi-TaskParallelDecoding)单步 并行生成多个token提升生成速度 MTP并行解码 TTFT缩短1倍 显存占用缩小1倍 优化高并发场景下的首字延时 (TTFT,TimeToFirstToken) 量化加速,大幅减少单机模型权 重显存占用 注意:以上数据均为特定实验环境下(输入1k/输出3k)的测试结果 产品特色能力:支持三阶段模型评测,保障模型效果 1轻量体验–效果无大偏差 •方式:边迭代边自测 •数据:用难例问题 •用户:算法人员 难例问题 输入问题 模型checkpoint 继续训练 生成答案 问答应用 2客观评测–初步判断效果 •方式:阶段性批量测 •数据:用开源评测集 •用户:算法人员 开源评测集 一键勾选 模型checkpoint 评测任务 继续训练 生成评测报告 3主观评测–反馈真实效果 •方式:发布前人工测 •数据:用难例+自定义问题 •用户:业务人员 难例问题 自动合并 推理任务 自定义问题 模型 结果打分 反馈模型效果 生成结果 人工标注 03 标杆案例 某头部无人机企业-大