行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

高性能计算集群HCC产品解决方案

2024-05-14 腾讯灰灰

背景介绍

腾讯云异构计算平台提供多元化异构实例、领先的虚拟化技术、高性能加速框架和灵活的服务模式，通过GPU、FPGA、NPU等异构硬件和多元算子实现软件框架层面的协同统一，解决高性能计算场景中网络瓶颈问题。

业务挑战

高性能计算场景对网络要求苛刻，VPC网络时延约40-60us，不适用于多机并行计算场景。主要应用场景包括AIGC大模型训练、自动驾驶训练、科研计算和自然语言处理等。

腾讯云高性能计算集群(HCC)

HCC面向大规模AI及高性能计算场景，适用于自动驾驶、商业推荐系统、语音识别、图像识别、人脸识别、AI制药等模型训练场景。关键特性包括：

搭配A100、A800及H800NvLinkGPU，提供强大算力
低延时RDMA网络，节点互联网络低至2us，带宽支持800G-1.6Tbps
GpuDirectRDMA：GPU计算数据无需绕行，跨机点对点直连
TACO训练加速套件：一键提升人工智能训练性能，差异化性能提升

腾讯高性能计算网络方案——星脉

提供极致集群性能与智能运营的计算网络基础设施，包括：

自研高性能网络架构：1.6Tbps带宽接入，800T交换容量，流量亲和性FatTree组网
自研协议TiTa：端网协同自研协议栈，可编程RDMA拥塞控制算法
高性能集合通信库TCCL：拓扑感知流量亲和性调度，负载路径优化，集合通信加速
端到端网络运营系统：一键式RDMA网络配置，网卡配置自动部署，网络故障快速定界+快速自愈

腾讯云AI加速套件—TACOKit

集成腾讯自研加速技术，提升AI计算效率，产品形态为AI推理及训练加速组件，使用方法为透明替换客户的应用框架，代码无需变更，适用场景为AI计算。

异构计算加速软件服务产品介绍

一键优化AI分布式训练及推理性能，产品能力包括：

TACO Train与TACO Infer提供全流程加速服务
快速完成工业级训练或推理任务部署
无感接入，轻量部署
极致性能，助力业务从数倍到数十倍的加速优化
全场景支持CPU/GPU,各版本CUDA及Tensorflow/Pytorch/Onnx

自研集合通讯库TCCL

针对星脉网络硬件架构定制设计，为AI大模型训练提供更高效的网络通信性能，基于开源NCCL代码扩展优化，替代客户软件栈中的NCCL库。

大模型预训练加速框架Angel PTM

用更少的资源以更快的速度训练更大的模型。

腾讯云GPU算力隔离套件--qGPU容器虚拟化

qGPU是腾讯自研的新一代容器GPU虚拟化方案，提供算力隔离、资源共享、灵活性、强隔离、在离线混部能力、覆盖度、云原生、兼容性和高性能等特性。

存储解决方案：分布式文件系统

腾讯云COS+GooseFS对象存储方案：IO性能要求较低
腾讯云CFS文件存储：IO性能要求高

场景及客户案例介绍

广告推荐场景方案：提升GMV，助力广告转化
- 解决方案：模型训练使用A100GPU极致算力，在线预测使用T4/A10GPU最优性价比
- 产品组合：模型训练使用高性能计算集群HCC，模型推理使用GPU云服务器，软件加速使用TACOKit计算加速套件
自动驾驶场景方案：算法大脑，决定自动驾驶的可靠性和软件定价
- 解决方案：算法训练使用高性能计算集群HCC，算法仿真使用A10仿真集群
- 产品组合：qGPU算力隔离，软件加速使用TACOKit计算加速套件，算法训练使用高性能计算集群HCC，算法仿真使用GPU云服务器
降本方案：qGPU算力隔离套件

成功案例

某大学NLP大模型训练
- 解决方案：A100&V100GPU高性能计算集群HCC、云服务器CVM、对象存储COS、数据加速器GooseFS
- 测试对比：性能提升显著
某车企自动驾驶训练集群
- 解决方案：GPU云服务器、高性能计算集群HCC、云服务器CVM、自动驾驶云、对象存储COS、数据加速器GooseFS
- 测试对比：性能提升显著

附录

高性能计算GPU规格：针对场景提供灵活多样的实例规格
腾讯云AI加速套件—TACOKit

高性能计算集群HCC产品介绍 2023.02异构计算产品组异构计算与业务挑战背景介绍腾讯云异构计算平台多元化异构实例+领先的虚拟化技术+高性能加速框架+灵活的服务模式硬件异构软件同构 GPU、FPGA、NPU，让异构硬件高效专用，发挥极致性能；多元算子，软件框架调度层面寻求协同统一的解决方案业务挑战--高性能计算场景对网络要求苛刻速度，一直都是高性能计算的核心，运算速度更快意味着一切繁复的运算和模拟会更快、更准确。高性能计算存在“木桶效应”，计算、存储、网络一旦出现瓶颈就会导致运算速度严重下降。VPC网络时延约40-60us，适用于存储数据拉取或在线请求首发。在多机并行计算场景相对乏力。训练场景专用解决方案方案全览腾讯云训练加速方案--软硬件融合提供云上独特高价值核心应用场景 AIGC大模型训练自动驾驶训练科研计算自然语言处理支持高校、研究院、药企等客户，在AI制药、蛋白质仿真、分子动力学仿真等场景需求支持泛互、出行、金融等客户在人机对话、智能客服、文本分析、情感分析等场景的训练需求支持终端车企、解决方案商客户，在自动驾驶目标检测、AI感知决策等模型训练需求为企业通过AI生成创造文本、图像、音乐、3D交互内容等场景，提供大模型训练支持核心应用场景 ChatGPT的基础模型 •视觉类模型参数在十亿~百亿参数，需求带宽约400G以下•泛互行业需求模型参数在百亿~千亿规模，带宽需求约800G-1.6T 腾讯云AI算力底座--高性能计算集群(HCC) 高性能计算集群(HCC)，面向大规模AI及高性能计算场景，广泛适用于自动驾驶、商业推荐系统、语音识别、图像识别、人脸识别、AI制药等人工智能模型训练场景。产品关键特性搭配高性能GPU：产品支持A100、A800及H800NvLinkGPU，提供强大算力低延时RDMA网络：节点互联网络低至2us，带宽支持800G-1.6Tbps GpuDirectRDMA：GPU计算数据无需绕行，跨机点对点直连 TACO训练加速套件：一键提升人工智能训练性能，差异化性能提升腾讯高性能计算网络方案——星脉为高性能计算业务提供极致集群性能与智能运营的计算网络基础设施 自研高性能网络架构 1.6Tbps带宽接入，800T交换容量流量亲和性FatTree组网 自研协议TiTa 端网协同自研协议栈可编程RDMA拥塞控制算法 高性能集合通信库TCCL 拓扑感知流量亲和性调度负载路径优化集合通信加速 端到端网络运营系统一键式RDMA网络配置+网卡配置自动部署网络故障快速定界+快速自愈腾讯云AI加速套件—TACOKit TACOKit加速套件 TACO Kit集成腾讯自研加速技术，提升AI计算效率。 •产品形态：AI推理及训练加速组件•使用方法：透明替换客户的应用框架，代码无需变更•适用场景：AI计算腾讯云AI加速套件—TACOKit 异构计算加速软件服务产品介绍一键优化AI分布式训练及推理性能产品能力 TACO Kit集成腾讯自研加速技术，提升AI计算效率。 •产品形态：AI推理及训练加速组件•使用方法：透明替换客户的应用框架，代码无需变更•适用场景：AI计算 AI优化技术门槛高，降本难业务痛点 •AI业务优化方案迭代快，优化部署改动大，门槛高•AI计算集群规模大，运营成本高，存在降本诉求•外部业务无法直接获取腾讯内部优秀实践帮助客户无感提升AI业务性能产品价值产品能力： •TACO Train与TACO Infer提供全流程加速服务•快速完成工业级训练或推理任务部署•无感接入，轻量部署•极致性能，助力业务从数倍到数十倍的加速优化•全场景支持CPU/GPU,各版本CUDA及Tensorflow/Pytorch/Onnx 客户A:自动驾驶训练客户B:推荐系统训练助力客户使单个step的训练耗时从初始的约16秒下降到0.42秒。性能优化40+倍，成本降低高达100%+。通过自动驾驶模型编译优化及集合通讯优化，帮助客户感知训练系统性能提升25%。自研集合通讯库TCCL--全局流量规划，提供云上独有的网络加速针对星脉网络硬件架构定制设计 •为AI大模型训练提供更高效的网络通信性能•基于开源NCCL代码扩展优化，替代客户软件栈中的NCCL库自研端侧TCCL集合通信库，业务流量最优路径大模型预训练加速框架Angel PTM 大模型预训练加速框架Angel PTM 大模型预训练加速框架AngelPTM 用更少的资源以更快的速度训练更大的模型大模型预训练加速框架Angel PTM qGPU，业界领先的GPU容器共享产品 GPU算力&显存利用率低的问题 •GPU资源价格昂贵、利用率低•资源共享后使用不便、安全性问题资源共享带来QOS问题 •显存/算力隔离不准确，资源抢占干扰，QoS无法保证，损坏故障隔离性•资源切割不灵活客户痛点 •节省一次性投资成本，随用随取，减少资源闲置•CVM弹性扩容优势，涵盖空间、时间、大小和数量，可根据业务快速动态扩容•TKEqGPU容器增加1-3倍业务部署密度，实现GPU多业务共享，算力厘米级，显存MB级隔离，大幅降低用卡成本•节省运维成本，腾讯云上提供了TKE、qGPU、COS等各类产品组合使用•年TCO成本节约50%+，利用率提升100% •在线业务独占使用GPU，利用率大多在40%以下•线下IDC很难满足业务需求增长，线下采购周期长•线下IDC故障隔离性差，运维成本较高腾讯云GPU算力隔离套件--qGPU容器虚拟化 qGPU是腾讯自研的新一代容器GPU虚拟化方案，保留了GPUManager方案的算力隔离等能力同时从根源上解决特殊场景下的GPU共享的干扰问题灵活性：精细配置GPU算力占比和显存大小强隔离：支持显存和算力的严格隔离在离线：支持业界唯一在离线混部能力，GPU利用率压榨到极致覆盖度：支持覆盖T4、V100及Ampere架构A10、A100等云原生：支持标准Kubernetes和NVIDIA Docker兼容性：业务不重编、CUDA库不替换、业务无感高性能：GPU设备底层虚拟化，高效收敛，吞吐接近0损耗 qGPU driver虚拟化提供“显存+算力+故障”隔离支持“争抢+配额+弹性”调度策略存储解决方案：分布式文件系统腾讯云COS+GooseFS对象存储方案—IO性能要求较低腾讯云CFS文件存储—IO性能要求高 •功能：高吞吐、高IOPS，支持POSIX标准协议操作。•高性能：水平扩展性能线性增长，最大带宽可达100GB/S。•大容量：20TiB - 100PiB单一文件系统。•高可靠：3副本，保证99.9999999%（9个9）的数据可靠性。•使用场景：L2+/L3自动驾驶，大模型AIGC等。 •功能：热数据缓存在实例内存或本地盘中，COS保存全量数据。•性能提升：2GB/s+2-10倍缓存加速。•大容量：单个对象最大512GB。•高可靠：3副本，保证99.9999999%（9个9）的数据可靠性。•适用场景：L1-L2自动驾驶，NLP训练等。场景及客户案例介绍成熟业务经验分享广告推荐场景方案：提升GMV，助力广告转化推荐如何做的又快又准？业务挑战广告转化，提升GMV 业务目标业务场景算的准，找的快，下单多朋友圈、短视频、图文信息流、电商等。算的准：增加点击率要求：模型更新越快、加入更多特征、训练更多样本、引入高维模型，有利于提升推荐准确性挑战：CPU训练性能慢、不支持大模型、不支持分布式/分布式性能差业务诉求：朋友圈模型更新要求30分钟内找的快：增加曝光率要求：低时延，低成本，快速从海量广告库中找出目标商品挑战：CPU机型单节点算力受限，计算性价比低业务诉求：广告结果返回要求小于360ms 广告推荐场景方案：极致算力助力业务快速更新解决方案方案亮点模型训练：A100GPU极致算力高性能训练集群HCC提供高达数十倍于传统训练方案的计算性能在线学习模型达到十分钟内更新TACO加速套件一键式加速和AI优化能力，助力业务获得30%+性能提升在线预测：T4/A10GPU最优性价比 T4推理集群同等吞吐性能下，提供毫秒级的计算延时和20%+计算成本节省产品组合模型训练：高性能计算集群HCC模型推理：GPU云服务器软件加速：TACOKit计算加速套件自动驾驶场景方案：算法大脑，决定自动驾驶的可靠性和软件定价算法仿真自动驾驶场景方案：软硬件加速提供高效的算法训练方案亮点解决方案算法训练：需求A100GPU算力专用低延时网络连接A100训练节点，数百张GPU卡平滑扩展单次训练可从1个月缩短至1周 TACO加速套件围绕训练集群提供集合通讯和模型框架优化支持算法训练性能提升30% 算法仿真：需求低功耗A10/T4GPU算力 A10仿真集群自研星星海服务器提供独家8卡A10GPU密度单路仿真成本对比行业平均降低30% 产品组合 qGPU算力隔离自研多任务精准算力隔离插件，压榨GPU算力利用减少GPU算力浪费，降低业务整体TCO 软件加速：TACOKit计算加速套件算法训练：高性能计算集群HCC 算法仿真：GPU云服务器降本方案：qGPU算力隔离套件成功案例-某大学NLP大模型训练解决方案项目简介客户具有多样AI训练研究课题，在NLP、大模型训练有丰富成果。通过腾讯云的高性能计算资源，推出了多模态大模型，可同时适用于智能写作、文本生成、语音识别等场景。需求场景及痛点 高性能AI需求：客户采用DeepSpeed+自研DLM-Large模型，参数超百亿，且需要长期稳定运行。相关产品 弹性使用：训练业务具有按月周期性，需要弹性使用以达到成本最优 A100&V100GPU高性能计算集群HCC、云服务器CVM、对象存储COS、数据加速器GooseFS 低延时网络需求：客户本地IDC采用Infiniband网络，需要提供对应的低延时网络资源。成功案例-某大学NLP大模型训练测试对比成功案例-某车企自动驾驶训练集群项目简介解决方案某知名汽车企业需求在国内为众多车企提供一站式的汽车自动驾驶解决方案。需求构建云上实时路采数据存储、算法训练、仿真模拟等系统，满足自动驾驶方案的研发全流程业务需求。需求场景及痛点 客户原线下IDC机房空间有限，需使用公有云高性能计算集群进行算力扩容。 基于国内地图数据保密要求，需求一个合规且易用的自动驾驶研发云环境。相关产品 GPU云服务器、高性能计算集群HCC、云服务器CVM、自动驾驶云、对象存储COS、数据加速器GooseFS 基于Swin-LTransformer模型用于自动驾驶识别，需满足大集群AI训练及仿真业务需求。成功案例-某车企自动驾驶训练集群测试对比解决方案：•裸金属高性能计算集群（HCC) •容器服务TKE•对象存储COS 云上收益： •针对Swin-L模型，多机多卡训练场景下A100及V100在使能GDR情况下可获得最佳性能。结合LightCC加速，A100多机多卡训练性能约为V100性能的2倍感谢倾听附录1:高性能计算GPU规格：针对场景提供灵活多样的实例规格附录2:腾讯云AI加速套件—TACOKit

点击免费查看完整报告