您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [-]:算力、GPU、AI服务器详解 - 发现报告

算力、GPU、AI服务器详解

2026-02-08 - - 张彦男 Tim
报告封面

算力的概念和市场规模 一、什么是算力 算力顾名思义是“计算能力”的缩写,指的是IT设备的计算能力,在以“智算中心”“新基建”、“数字经济”以及“东数西算”等国家政策导向驱动下,“算力”相关话题近两年热度非常高,大家对算力的关注度也持续攀升。 智算时代的算力特征 智算特征—训练算力集中高密部署,推理算力贴近客户快速交互 o训练:需要较高计算性能及海量数据,集群内网络时延性能要求高,需要集中高密部署;耗电量大,无需靠近最终用户,电力供应充足、能源成本低的蒙贵甘宁等西部区域数据中心有一定优势 o推理:需要低时延、高弹性的计算,需要与模型实时交互,可部署在贴近用户的数据中心,当前主要集中在训推一体的京津冀、长三角、大湾区等重点区域 训练过程 推 理 过 程 是指通过大数据训练出一个复杂的神经网络模型,训练过程需要较高的计算性能、需要海量的数据、训练出的网络具有一定通用性。 又称判断过程,是指利用训练好的模型,使用新数据推理出各种结论。 需 求 特 点 需 求 特 点 •需要低时延、高可靠性和高弹性的计算,需要与模型实时交互,贴近用户部署 •需要低时延、零丢包、大带宽的高性能网络,集中高密部署,每个算力集群建议控制在50m以内 •芯 片 类 型 :GPU与ASIC/FPGA/NPU均 可•英伟达:T4,单卡70W,单台服务器1kW•华为:昇腾Atlas300i Pro,单卡72W,单台服务器800W•单机柜功耗:6~10kW •芯片类型:GPU为主 •英伟达:H800,单卡700W,单台服务器11kW •华为:昇腾910B,单卡392W,单台服务器5.2kW 算力的分类和单位 1、基础算力:以CPU的计算能力为主。适用于各个领域的计算。 2、智能算力:以GPU、FPGA、ASIC芯片等输出的计算能力为主,侧重人工智能领域。 3、超算算力:以超算(HPC)集群输出的计算能力为主,科研、国防、高端制造等领域。 上述算力分类是从狭义的角度进行的统计,目前和信息技术有关的一切,其实都可以笼统称为算力领域,算力及服务的时代,除了狭义上的算力,还包括存储的存力、网络的传输能力、算法的能力等等。 算力的单位通常采用FLOPS(FloatingPointOperationsPerSecond)表示每秒钟能够完成的浮点运算或指令数,例如一台计算机每秒钟可以完成10亿次浮点运算,那么它的FLOPS值就是1GFLOPS(1GigaFLOPS) 除了FLOPS还有其他多种不同的衡量方法。主要有如下: (1)MIPS(每秒钟执行的百万指令数);(2)DMIPS(Dhrystone每秒钟执行的百万指令数);(3)OPS(每秒操作次数,OperationsPerSecond);(4)Hash/s(每秒哈希运算次数,HashPerSecond)等。 AI算力对应的芯片路线 GPU算力的典型业务场景 大型模型训练 高性能计算 图形渲染 AI推理 CPU+GPU是HPC发展重要基石,CPU擅长逻辑控制,串行的运算和通用类型数据运算,GPU擅长大规模并发计算。 以广电媒资、游戏开发、工程3D建模,AR、VR等,主要对GPU的视频处理、图形渲染要求高,同时还要支持视频接口输出等。 AI推理的场景非常广泛、比如:安防监控、自动驾驶、各类边缘计算场景等。对GPU卡的要求是性价比高、功耗底。 OpenAI从英伟达采购了三万多张顶级人工智能芯片,每枚价值近十万元,光是这批芯片,就价值三十亿人民币。 大型3D游戏对显卡性能要求极高。对应英伟达GeForce消费类卡,但是由于卡的高性价比也经常被用于企业级应用中。 算力规模的统计标准 信通院发布了《中国算力发展智算白皮书》,作为权威机构的材料,对如何衡量“基础算力”、“智能算力”和“超算算力”给出了明确的解释。 结论归纳:与智算中心或者AI相关(默认是FP16)、超算HPC(默认是FP64)、部分情况为了便于统计,会统一换算为FP32(目前见到的不多),通常都会备注清楚。 展开分析FP32、FP16等算力精度-1 标准的FP英文全称是FloatingPoint,是IEEE定义的标准浮点数类型。由符号位(sign)、指数位(exponent)和小数位(fraction)三部分组成。和FP类似的还有TF32(全称TensorFloat32),是英伟达提出的特殊的数值类型,用于替换FP32,当然也有google提出的BF16(BrainFloat16)。 FP16也叫float16,全称是Half-precisionfloating-point(半精度浮点数),在计算机的角度是用16位二进制来表示的 展开分析FP32、FP16等算力精度-2 FP32和FP64都是二进制表示的,为了让计算机能看懂,那么和十进制的数值如何转换呢?一、以FP32为例,我们将9.625这个十进制转换为FP32精度格式的二进制。 二、以FP32为例,我们将FP32精度格式的二进制转化为十进制。 算力的计算方式—CPU算力 CPU算力计算公式: Flops=【CPU核数】*【单核主频】*【CPU单个周期浮点计算能力】以6348CPU为例,支持AVX512指令集,且FMA系数=2,所以CPU每周期算力值为: CPU单周期双精度浮点计算能力=2(FMA数量)*2(同时加法和乘法)*512/64=32CPU单周期单精度浮点计算能力=2(FMA数量)*2(同时加法和乘法)*512/32=64 英特尔®至强®Gold6348处理器,28c,2.60GHz 6348双精算力=28x2.6(109)x(32)/(1012)=2.3Tflops6348单精算力=28x2.6(109)x(64)/(1012)=4.6Tflops 常见的CPU算力跑分举例 SPEC是一个由计算机硬件广商、软件公司、大学、研究机构、系统集成商出版发型及咨询机构组成的非营利性组织,致力于创建、维护并引导一个计算机系统及业界公认的系统指标。得到众多国际软硬件厂商的支持和参与,被金融、电信、证券等关键行业用户作为选择IT系统一项权威的选型指标。 SPECCPU是一系列的测试工具,比如SPECCPU2017是最新版本的评估整机计算处理能力工具,它包括Cint和Cfp两个子项目,前者用于测量和对比整型性能,而后者则用于测量和对比浮点性能。 算力的计算方式—GPU算力(A100)-1 GPU峰值算力的测算公式为: 峰值计算能力=GPUCore的运行频率*GPUSM数量*单个SM一个时钟周期内特定数据类型的指令吞吐量*2 运行频率的单位为GHz,一个时钟周期内特定数据类型的指令吞吐量单位为FLOPS/Cycle,其中不太好理解是后面2项;1、单个SM一个时钟周期内特定数据类型的指令吞吐量,与英伟达每一代的GPU架构设计有关,与基于标准CUDACore还是通过Tensercore加速也有关,在不同精度的表现也都不一样,具体如图(图片来自网络);2、公式里面的“2”是因为TensorCore融合了乘和加的指令,每次执行指令会计算一次乘法和一次加法,视作两次浮点运 算所以乘以2; 算力的计算方式—GPU算力(A100)-2 1、FP64Tensercore的峰值算力为:1.41x108x64x2≈19492GFlops,换算成T为19.5Tflops,与彩页里的官方公布的算力数值一致。2、FP16Tensercore的峰值算力:1.41x108x1024x2≈311869GFlops,换算成T为312TFlops,同样也和彩页里的数值一致。 3、稀疏算力对应的“周期内特定数据类型的指令吞吐量”是标准Tensercore下的2倍,所以算力也是2倍的关系。 GPU算力的综合指标 英伟达GPU的“稀疏算力” 自Ampere架构开始,随着A100 TensorCore GPU的推出,NVIDIA GPU提供了可用于加速推理的细粒度结构化稀疏功能。 该功能可以加速推理。由稀疏Tensor Core提供,这些稀疏Tensor Core需要2:4的稀疏模式。也就是说,以4个相邻权重为一组,其中至少有2个权重必须为0,即50%的稀疏率。这种稀疏模式可实现高效的内存访问能力,有效的模型推理加速,并可轻松恢复模型精度。 渐进式稀疏训练方法。腾讯机器学习平台部门(MLPD)利用了渐进式训练方法,简化了稀疏模型训练并实现了更高的模型精度。借助稀疏功能和量化技术,他们在腾讯的离线服务中实现了1.3倍~1.8倍的加速。(网上数据) 以H100为例不同精度算力数值理解 目前智算中心建设中。使用最多,讨论最多的依然是H100\H800型号的GPU和NvLink整机,但是还是有很多同学对H100GPU卡的参数不清楚,智算中心以AI算力为主,该用哪个数值呢?和FP16相关的竟然有三个,我们设计方案时会采用FP16Tenser加速的989TFPOPS,约1个P,个人简单总结如下: •标准算力•Tensercore加速后的算力•Tensercore+稀疏矩阵加速后的算力 u英伟达视角:为了体现自身技术牛x,一般用稀疏矩阵加速后数值做营销(夸大的成分);u政府层面:为了突出“业绩”,有时候也会用稀疏矩阵的数值(有面子);u客户视角:会采用FP16,1个P的算力作为指标(实用为主),会备注要求稠密算力; GPU厂商英伟达的AI算力卡分类 NVIDIA的显卡目前可以按照应用领域大致分为三种类型: uGeForce消费卡:面向游戏娱乐领域:如GeForceRTX™ 4090、GeForceRTX™3080等。 uQuadro专业卡:面向专业设计和虚拟化领域:如NVIDIARTX™ A6000、NVIDIA® T1000等。uTesla企业级卡:面向深度学习、人工智能和高性能计算领域:如NVIDIAA100\A30TensorCoreGPU等。 不同类型英伟达GPU算力的对比 AI训练(TF32)A100> A30>= A40AI推理(TF16)A10> T4HPC应用(FP32,FP64)A100> A30数据分析(FP32,FP64,INT8)A100> A30图形渲染(RTCore)A40> A10> T4云桌面,视频编解码A16> A40> A10>T4数据来源:NVIDIA 主流AI芯片(含国产)的算力情况 目前市场上除了英伟达GPU外,国产主流的厂商在10家以上,AIDC算力规划通常以FP16(稠密)算力为标准,同时考虑显存的大小和带宽、互联速率等,如下表格筛选了常见的AI芯片型号。 主流国产AI芯片的算力情况(供参考) 智算中心技术架构-产品类型 智算中心算力基础设施产品组成 智算中心AI算力服务器-主流 智算中心算力的核心载体-服务器 GPU服务器与标准服务器的10点区别 智算中心算力-适配RTX5090的服务器 R8628 G13产品图 训练优化·新一代 双路 高效互联 采用GPU-CPU直通架构设计,无需经过PCIeSwitch通信,大大提高数据交互效率 超云R8628 G13是超云推出的新一代人工智能服务器。基于英特尔®至强®第四代/第五代可扩展列处理器平台打造,在6U空间中支持最大10张全高四宽GPU,提供最高600W功率及PCIe5.0 x16速率支持,为用户的灵活需求提供优质差异化解决方案。 极致扩展 最大支持20个PCIe5.0扩展插槽,最多支持10个全高四宽加速卡,供电功率最高可达600W 典型的GPU服务器常见问题 1、常见问题汇总 近三年AI市场的火爆,带动了GPU服务器的市场需求,尤其是以高端GPU为主的A800\H800的Nvlink八卡机。 问题1:标准PCIE与Nvlink全互联的GPU服务器差在哪儿? 问题2:Nvlink的GPU服务器还需要PCIE吗? 问题4:Nvlink和SXM是什么关系? 2、NVIDIA高