高性能计算集群HCC产品介绍 2023.02异构计算产品组 异构计算与业务挑战 背景介绍 腾讯云异构计算平台 多元化异构实例+领先的虚拟化技术+高性能加速框架+灵活的服务模式 硬件异构 软件同构 GPU、FPGA、NPU,让异构硬件高效专用,发挥极致性能; 多元算子,软件框架调度层面寻求协同统一的解决方案 业务挑战--高性能计算场景对网络要求苛刻 速度,一直都是高性能计算的核心,运算速度更快意味着一切繁复的运算和模拟会更快、更准确。高性能计算存在“木桶效应”,计算、存储、网络一旦出现瓶颈就会导致运算速度严重下降。VPC网络时延约40-60us,适用于存储数据拉取或在线请求首发。在多机并行计算场景相对乏力。 训练场景专用解决方案 方案全览 腾讯云训练加速方案--软硬件融合提供云上独特高价值 核心应用场景 AIGC大模型训练 自动驾驶训练 科研计算 自然语言处理 支持高校、研究院、药企等客户,在AI制药、蛋白质仿真、分子动力学仿真等场景需求 支持泛互、出行、金融等客户在人机对话、智能客服、文本分析、情感分析等场景的训练需求 支持终端车企、解决方案商客户,在自动驾驶目标检测、AI感知决策等模型训练需求 为企业通过AI生成创造文本、图像、音乐、3D交互内容等场景,提供大模型训练支持 核心应用场景 ChatGPT的基础模型 •视觉类模型参数在十亿~百亿参数,需求带宽约400G以下•泛互行业需求模型参数在百亿~千亿规模,带宽需求约800G-1.6T 腾讯云AI算力底座--高性能计算集群(HCC) 高性能计算集群(HCC),面向大规模AI及高性能计算场景,广泛适用于自动驾驶、商业推荐系统、语音识别、图像识别、人脸识别、AI制药等人工智能模型训练场景。 产品关键特性 搭配高性能GPU:产品支持A100、A800及H800NvLinkGPU,提供强大算力 低延时RDMA网络:节点互联网络低至2us,带宽支持800G-1.6Tbps GpuDirectRDMA:GPU计算数据无需绕行,跨机点对点直连 TACO训练加速套件:一键提升人工智能训练性能,差异化性能提升 腾讯高性能计算网络方案——星脉 为高性能计算业务提供极致集群性能与智能运营的计算网络基础设施 自研高性能网络架构 1.6Tbps带宽接入,800T交换容量流量亲和性FatTree组网 自研协议TiTa 端网协同自研协议栈可编程RDMA拥塞控制算法 高性能集合通信库TCCL 拓扑感知流量亲和性调度负载路径优化集合通信加速 端到端网络运营系统 一键式RDMA网络配置+网卡配置自动部署网络故障快速定界+快速自愈 腾讯云AI加速套件—TACOKit TACOKit加速套件 TACO Kit集成腾讯自研加速技术,提升AI计算效率。 •产品形态:AI推理及训练加速组件•使用方法:透明替换客户的应用框架,代码无需变更•适用场景:AI计算 腾讯云AI加速套件—TACOKit 异构计算加速软件服务产品介绍 一键优化AI分布式训练及推理性能产品能力 TACO Kit集成腾讯自研加速技术,提升AI计算效率。 •产品形态:AI推理及训练加速组件•使用方法:透明替换客户的应用框架,代码无需变更•适用场景:AI计算 AI优化技术门槛高,降本难业务痛点 •AI业务优化方案迭代快,优化部署改动大,门槛高•AI计算集群规模大,运营成本高,存在降本诉求•外部业务无法直接获取腾讯内部优秀实践 帮助客户无感提升AI业务性能产品价值 产品能力: •TACO Train与TACO Infer提供全流程加速服务•快速完成工业级训练或推理任务部署•无感接入,轻量部署•极致性能,助力业务从数倍到数十倍的加速优化•全场景支持CPU/GPU,各版本CUDA及Tensorflow/Pytorch/Onnx 客户A:自动驾驶训练 客户B:推荐系统训练 助力客户使单个step的训练耗时从初始的约16秒下降到0.42秒。性能优化40+倍,成本降低高达100%+。 通过自动驾驶模型编译优化及集合通讯优化,帮助客户感知训练系统性能提升25%。 自研集合通讯库TCCL--全局流量规划,提供云上独有的网络加速 针对星脉网络硬件架构定制设计 •为AI大模型训练提供更高效的网络通信性能•基于开源NCCL代码扩展优化,替代客户软件栈中的NCCL库 自研端侧TCCL集合通信库,业务流量最优路径 大模型预训练加速框架Angel PTM 大模型预训练加速框架Angel PTM 大模型预训练加速框架AngelPTM 用更少的资源以更快的速度训练更大的模型 大模型预训练加速框架Angel PTM qGPU,业界领先的GPU容器共享产品 GPU算力&显存利用率低的问题 •GPU资源价格昂贵、利用率低•资源共享后使用不便、安全性问题 资源共享带来QOS问题 •显存/算力隔离不准确,资源抢占干扰,QoS无法保证,损坏故障隔离性•资源切割不灵活 客户痛点 •节省一次性投资成本,随用随取,减少资源闲置•CVM弹性扩容优势,涵盖空间、时间、大小和数量,可根据业务快速动态扩容•TKEqGPU容器增加1-3倍业务部署密度,实现GPU多业务共享,算力厘米级,显存MB级隔离,大幅降低用卡成本•节省运维成本,腾讯云上提供了TKE、qGPU、COS等各类产品组合使用•年TCO成本节约50%+,利用率提升100% •在线业务独占使用GPU,利用率大多在40%以下•线下IDC很难满足业务需求增长,线下采购周期长•线下IDC故障隔离性差,运维成本较高 腾讯云GPU算力隔离套件--qGPU容器虚拟化 qGPU是腾讯自研的新一代容器GPU虚拟化方案,保留了GPUManager方案的算力隔离等能力同时从根源上解决特殊场景下的GPU共享的干扰问题 灵活性:精细配置GPU算力占比和显存大小强隔离:支持显存和算力的严格隔离在离线:支持业界唯一在离线混部能力,GPU利用率压榨到极致覆盖度:支持覆盖T4、V100及Ampere架构A10、A100等云原生:支持标准Kubernetes和NVIDIA Docker兼容性:业务不重编、CUDA库不替换、业务无感高性能:GPU设备底层虚拟化,高效收敛,吞吐接近0损耗 qGPU driver虚拟化提供“显存+算力+故障”隔离支持“争抢+配额+弹性”调度策略 存储解决方案:分布式文件系统 腾讯云COS+GooseFS对象存储方案—IO性能要求较低 腾讯云CFS文件存储—IO性能要求高 •功能:高吞吐、高IOPS,支持POSIX标准协议操作。•高性能:水平扩展性能线性增长,最大带宽可达100GB/S。•大容量:20TiB - 100PiB单一文件系统。•高可靠:3副本,保证99.9999999%(9个9)的数据可靠性。•使用场景:L2+/L3自动驾驶,大模型AIGC等。 •功能:热数据缓存在实例内存或本地盘中,COS保存全量数据。•性能提升:2GB/s+2-10倍缓存加速。•大容量:单个对象最大512GB。•高可靠:3副本,保证99.9999999%(9个9)的数据可靠性。•适用场景:L1-L2自动驾驶,NLP训练等。 场景及客户案例介绍 成熟业务经验分享 广告推荐场景方案:提升GMV,助力广告转化 推荐如何做的又快又准? 业务挑战 广告转化,提升GMV 业务目标 业务场景 算的准,找的快,下单多 朋友圈、短视频、图文信息流、电商等。 算的准:增加点击率 要求:模型更新越快、加入更多特征、训练更多样本、引入高维模型,有利于提升推荐准确性挑战:CPU训练性能慢、不支持大模型、不支持分布式/分布式性能差业务诉求:朋友圈模型更新要求30分钟内 找的快:增加曝光率 要求:低时延,低成本,快速从海量广告库中找出目标商品挑战:CPU机型单节点算力受限,计算性价比低业务诉求:广告结果返回要求小于360ms 广告推荐场景方案:极致算力助力业务快速更新 解决方案 方案亮点 模型训练:A100GPU极致算力 高性能训练集群HCC提供高达数十倍于传统训练方案的计算性能在线学习模型达到十分钟内更新TACO加速套件一键式加速和AI优化能力,助力业务获得30%+性能提升 在线预测:T4/A10GPU最优性价比 T4推理集群同等吞吐性能下,提供毫秒级的计算延时和20%+计算成本节省 产品组合 模型训练:高性能计算集群HCC模型推理:GPU云服务器软件加速:TACOKit计算加速套件 自动驾驶场景方案:算法大脑,决定自动驾驶的可靠性和软件定价 算法仿真 自动驾驶场景方案:软硬件加速提供高效的算法训练 方案亮点 解决方案 算法训练:需求A100GPU算力 专用低延时网络连接A100训练节点,数百张GPU卡平滑扩展单次训练可从1个月缩短至1周 TACO加速套件 围绕训练集群提供集合通讯和模型框架优化支持算法训练性能提升30% 算法仿真:需求低功耗A10/T4GPU算力 A10仿真集群 自研星星海服务器提供独家8卡A10GPU密度单路仿真成本对比行业平均降低30% 产品组合 qGPU算力隔离 自研多任务精准算力隔离插件,压榨GPU算力利用减少GPU算力浪费,降低业务整体TCO 软件加速:TACOKit计算加速套件 算法训练:高性能计算集群HCC 算法仿真:GPU云服务器 降本方案:qGPU算力隔离套件 成功案例-某大学NLP大模型训练 解决方案 项目简介 客户具有多样AI训练研究课题,在NLP、大模型训练有丰富成果。通过腾讯云的高性能计算资源,推出了多模态大模型,可同时适用于智能写作、文本生成、语音识别等场景。 需求场景及痛点 高性能AI需求:客户采用DeepSpeed+自研DLM-Large模型,参数超百亿,且需要长期稳定运行。 相关产品 弹性使用:训练业务具有按月周期性,需要弹性使用以达到成本最优 A100&V100GPU高性能计算集群HCC、云服务器CVM、对象存储COS、数据加速器GooseFS 低延时网络需求:客户本地IDC采用Infiniband网络,需要提供对应的低延时网络资源。 成功案例-某大学NLP大模型训练 测试对比 成功案例-某车企自动驾驶训练集群 项目简介 解决方案 某知名汽车企业需求在国内为众多车企提供一站式的汽车自动驾驶解决方案。需求构建云上实时路采数据存储、算法训练、仿真模拟等系统,满足自动驾驶方案的研发全流程业务需求。 需求场景及痛点 客户原线下IDC机房空间有限,需使用公有云高性能计算集群进行算力扩容。 基于国内地图数据保密要求,需求一个合规且易用的自动驾驶研发云环境。 相关产品 GPU云服务器、高性能计算集群HCC、云服务器CVM、自动驾驶云、对象存储COS、数据加速器GooseFS 基于Swin-LTransformer模型用于自动驾驶识别,需满足大集群AI训练及仿真业务需求。 成功案例-某车企自动驾驶训练集群 测试对比 解决方案:•裸金属高性能计算集群(HCC) •容器服务TKE•对象存储COS 云上收益: •针对Swin-L模型,多机多卡训练场景下A100及V100在使能GDR情况下可获得最佳性能。结合LightCC加速,A100多机多卡训练性能约为V100性能的2倍 感谢倾听 附录1:高性能计算GPU规格:针对场景提供灵活多样的实例规格 附录2:腾讯云AI加速套件—TACOKit