行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

算力、GPU、AI服务器详解

2026-02-08 - - 张彦男 Tim

算力概念与市场规模总结

一、算力定义与特征

算力是指IT设备的计算能力，在“智算中心”“新基建”等国家政策驱动下热度持续攀升。智算时代算力呈现两大特征：

训练算力：集中高密部署，需高计算性能和海量数据，适合西部区域部署
推理算力：贴近客户快速交互，需低时延、高弹性计算，部署于京津冀等重点区域

二、算力分类与单位

算力分类

基础算力：以CPU为主，适用于各领域计算
智能算力：以GPU、FPGA等芯片为主，侧重AI领域
超算算力：以超算集群为主，用于科研、国防等领域此外，广义算力还包括存储的“存力”、网络的“传力”及算法能力

算力单位

FLOPS：每秒浮点运算次数（如1GFLOPS=10亿次/秒）
其他单位：MIPS、DMIPS、OPS、Hash/s等

三、AI算力芯片路线

GPU算力：英伟达T4（70W/卡）、华为昇腾Atlas300i Pro（72W/卡）
CPU算力：英特尔至强Gold6348（双精2.3Tflops，单精4.6Tflops）
AI推理场景：安防监控、自动驾驶、边缘计算等

四、算力统计标准

信通院标准：基础算力（FP16）、智能算力（FP16）、超算算力（FP64/FP32）
精度分析：FP32（32位浮点数）、FP16（16位浮点数）、TF32（英伟达特殊类型）

五、算力计算方式

CPU算力

计算公式：Flops=CPU核数×单核主频×CPU单个周期浮点计算能力
跑分工具：SPECCPU（如SPECCPU2017）

GPU算力（以A100为例）

峰值算力公式：GPUCore运行频率×GPUSM数量×指令吞吐量×2
不同精度算力：
- FP64 TensorCore：19.5Tflops
- FP16 TensorCore：312TFlops
- 稀疏算力：标准算力2倍

六、GPU算力综合指标

英伟达GPU分类：
- GeForce（消费级）
- Quadro（专业级）
- Tesla（企业级）
不同类型对比：
- AI训练：A100 > A30 ≥ A40
- AI推理：A10 > T4
- HPC应用：A100 > A30

七、主流AI芯片算力

国产厂商超过10家，常见型号如华为昇腾、寒武纪等
算力指标包括FP16算力、显存大小、带宽等

八、智算中心技术架构

产品组成

AI算力服务器：GPU服务器为主，如超云R8628 G13（支持10张GPU）
GPU服务器与标准服务器区别：扩展性、功耗、互联方式等

GPU服务器类型

PCIE机型：GPU通过PCIe互联，带宽受限
Nvlink机型：GPU通过Nvlink全互联，带宽更高

GPU拓扑

PCIe机型：NVLink扩展（桥接器实现两卡互联）
Nvlink机型：基于HGX模组，如超聚变G8600 V7（模块化设计）

英伟达产品迭代

H200：H100性能提升60%，预计2024年Q2上市
NVL72：72块B200芯片组成逻辑“大GPU”，采用NVLink 5.0技术

九、智算中心网络需求

Mellanox IB网络：
- DR分类：SDR、DDR、QDR、FDR、EDR、HDR、NDR
- 主流速率：200Gbps/400Gbps
- 网卡：ConnectX-7（单/双端口，支持x16 PCIe）
- 交换机：NDR系列（32个OSFP连接器，64个400G端口）
典型互联链路：交换机-交换机、交换机-网卡（支持一转2/4）

算力的概念和市场规模一、什么是算力算力顾名思义是“计算能力”的缩写，指的是IT设备的计算能力，在以“智算中心”“新基建”、“数字经济”以及“东数西算”等国家政策导向驱动下，“算力”相关话题近两年热度非常高，大家对算力的关注度也持续攀升。智算时代的算力特征智算特征—训练算力集中高密部署，推理算力贴近客户快速交互 o训练：需要较高计算性能及海量数据，集群内网络时延性能要求高，需要集中高密部署；耗电量大，无需靠近最终用户，电力供应充足、能源成本低的蒙贵甘宁等西部区域数据中心有一定优势 o推理：需要低时延、高弹性的计算，需要与模型实时交互，可部署在贴近用户的数据中心，当前主要集中在训推一体的京津冀、长三角、大湾区等重点区域训练过程推理过程是指通过大数据训练出一个复杂的神经网络模型,训练过程需要较高的计算性能、需要海量的数据、训练出的网络具有一定通用性。又称判断过程,是指利用训练好的模型,使用新数据推理出各种结论。需求特点需求特点 •需要低时延、高可靠性和高弹性的计算，需要与模型实时交互，贴近用户部署 •需要低时延、零丢包、大带宽的高性能网络，集中高密部署，每个算力集群建议控制在50m以内 •芯片类型：GPU与ASIC/FPGA/NPU均可•英伟达：T4，单卡70W，单台服务器1kW•华为：昇腾Atlas300i Pro，单卡72W，单台服务器800W•单机柜功耗：6~10kW •芯片类型：GPU为主 •英伟达：H800，单卡700W，单台服务器11kW •华为：昇腾910B，单卡392W，单台服务器5.2kW 算力的分类和单位 1、基础算力：以CPU的计算能力为主。适用于各个领域的计算。 2、智能算力：以GPU、FPGA、ASIC芯片等输出的计算能力为主，侧重人工智能领域。 3、超算算力：以超算（HPC）集群输出的计算能力为主，科研、国防、高端制造等领域。上述算力分类是从狭义的角度进行的统计，目前和信息技术有关的一切，其实都可以笼统称为算力领域，算力及服务的时代，除了狭义上的算力，还包括存储的存力、网络的传输能力、算法的能力等等。算力的单位通常采用FLOPS（FloatingPointOperationsPerSecond）表示每秒钟能够完成的浮点运算或指令数，例如一台计算机每秒钟可以完成10亿次浮点运算，那么它的FLOPS值就是1GFLOPS（1GigaFLOPS）除了FLOPS还有其他多种不同的衡量方法。主要有如下：（1）MIPS（每秒钟执行的百万指令数）；（2）DMIPS（Dhrystone每秒钟执行的百万指令数）；（3）OPS（每秒操作次数，OperationsPerSecond）；（4）Hash/s（每秒哈希运算次数，HashPerSecond）等。 AI算力对应的芯片路线 GPU算力的典型业务场景大型模型训练高性能计算图形渲染 AI推理 CPU+GPU是HPC发展重要基石，CPU擅长逻辑控制，串行的运算和通用类型数据运算，GPU擅长大规模并发计算。以广电媒资、游戏开发、工程3D建模，AR、VR等，主要对GPU的视频处理、图形渲染要求高，同时还要支持视频接口输出等。 AI推理的场景非常广泛、比如：安防监控、自动驾驶、各类边缘计算场景等。对GPU卡的要求是性价比高、功耗底。 OpenAI从英伟达采购了三万多张顶级人工智能芯片，每枚价值近十万元，光是这批芯片，就价值三十亿人民币。大型3D游戏对显卡性能要求极高。对应英伟达GeForce消费类卡，但是由于卡的高性价比也经常被用于企业级应用中。算力规模的统计标准信通院发布了《中国算力发展智算白皮书》，作为权威机构的材料，对如何衡量“基础算力”、“智能算力”和“超算算力”给出了明确的解释。结论归纳：与智算中心或者AI相关（默认是FP16）、超算HPC（默认是FP64）、部分情况为了便于统计，会统一换算为FP32（目前见到的不多），通常都会备注清楚。展开分析FP32、FP16等算力精度-1 标准的FP英文全称是FloatingPoint，是IEEE定义的标准浮点数类型。由符号位（sign）、指数位（exponent）和小数位（fraction）三部分组成。和FP类似的还有TF32（全称TensorFloat32），是英伟达提出的特殊的数值类型，用于替换FP32，当然也有google提出的BF16（BrainFloat16）。 FP16也叫float16，全称是Half-precisionfloating-point(半精度浮点数)，在计算机的角度是用16位二进制来表示的展开分析FP32、FP16等算力精度-2 FP32和FP64都是二进制表示的，为了让计算机能看懂，那么和十进制的数值如何转换呢？一、以FP32为例，我们将9.625这个十进制转换为FP32精度格式的二进制。二、以FP32为例，我们将FP32精度格式的二进制转化为十进制。算力的计算方式—CPU算力 CPU算力计算公式： Flops=【CPU核数】*【单核主频】*【CPU单个周期浮点计算能力】以6348CPU为例，支持AVX512指令集，且FMA系数=2，所以CPU每周期算力值为： CPU单周期双精度浮点计算能力=2（FMA数量）*2(同时加法和乘法)*512/64=32CPU单周期单精度浮点计算能力=2（FMA数量）*2(同时加法和乘法)*512/32=64 英特尔®至强®Gold6348处理器，28c，2.60GHz 6348双精算力=28x2.6（109）x（32）/（1012）=2.3Tflops6348单精算力=28x2.6（109）x（64）/（1012）=4.6Tflops 常见的CPU算力跑分举例 SPEC是一个由计算机硬件广商、软件公司、大学、研究机构、系统集成商出版发型及咨询机构组成的非营利性组织，致力于创建、维护并引导一个计算机系统及业界公认的系统指标。得到众多国际软硬件厂商的支持和参与，被金融、电信、证券等关键行业用户作为选择IT系统一项权威的选型指标。 SPECCPU是一系列的测试工具，比如SPECCPU2017是最新版本的评估整机计算处理能力工具，它包括Cint和Cfp两个子项目，前者用于测量和对比整型性能，而后者则用于测量和对比浮点性能。算力的计算方式—GPU算力（A100）-1 GPU峰值算力的测算公式为：峰值计算能力=GPUCore的运行频率*GPUSM数量*单个SM一个时钟周期内特定数据类型的指令吞吐量*2 运行频率的单位为GHz，一个时钟周期内特定数据类型的指令吞吐量单位为FLOPS/Cycle，其中不太好理解是后面2项；1、单个SM一个时钟周期内特定数据类型的指令吞吐量，与英伟达每一代的GPU架构设计有关，与基于标准CUDACore还是通过Tensercore加速也有关，在不同精度的表现也都不一样，具体如图（图片来自网络）；2、公式里面的“2”是因为TensorCore融合了乘和加的指令，每次执行指令会计算一次乘法和一次加法，视作两次浮点运算所以乘以2；算力的计算方式—GPU算力（A100）-2 1、FP64Tensercore的峰值算力为：1.41x108x64x2≈19492GFlops，换算成T为19.5Tflops，与彩页里的官方公布的算力数值一致。2、FP16Tensercore的峰值算力：1.41x108x1024x2≈311869GFlops，换算成T为312TFlops，同样也和彩页里的数值一致。 3、稀疏算力对应的“周期内特定数据类型的指令吞吐量”是标准Tensercore下的2倍，所以算力也是2倍的关系。 GPU算力的综合指标英伟达GPU的“稀疏算力” 自Ampere架构开始，随着A100 TensorCore GPU的推出，NVIDIA GPU提供了可用于加速推理的细粒度结构化稀疏功能。该功能可以加速推理。由稀疏Tensor Core提供，这些稀疏Tensor Core需要2:4的稀疏模式。也就是说，以4个相邻权重为一组，其中至少有2个权重必须为0，即50%的稀疏率。这种稀疏模式可实现高效的内存访问能力，有效的模型推理加速，并可轻松恢复模型精度。渐进式稀疏训练方法。腾讯机器学习平台部门(MLPD)利用了渐进式训练方法，简化了稀疏模型训练并实现了更高的模型精度。借助稀疏功能和量化技术，他们在腾讯的离线服务中实现了1.3倍～1.8倍的加速。（网上数据）以H100为例不同精度算力数值理解目前智算中心建设中。使用最多，讨论最多的依然是H100\H800型号的GPU和NvLink整机，但是还是有很多同学对H100GPU卡的参数不清楚，智算中心以AI算力为主，该用哪个数值呢？和FP16相关的竟然有三个，我们设计方案时会采用FP16Tenser加速的989TFPOPS，约1个P，个人简单总结如下： •标准算力•Tensercore加速后的算力•Tensercore+稀疏矩阵加速后的算力 u英伟达视角：为了体现自身技术牛x，一般用稀疏矩阵加速后数值做营销（夸大的成分）；u政府层面：为了突出“业绩”，有时候也会用稀疏矩阵的数值（有面子）；u客户视角：会采用FP16，1个P的算力作为指标（实用为主），会备注要求稠密算力； GPU厂商英伟达的AI算力卡分类 NVIDIA的显卡目前可以按照应用领域大致分为三种类型： uGeForce消费卡：面向游戏娱乐领域：如GeForceRTX™ 4090、GeForceRTX™3080等。 uQuadro专业卡：面向专业设计和虚拟化领域：如NVIDIARTX™ A6000、NVIDIA® T1000等。uTesla企业级卡：面向深度学习、人工智能和高性能计算领域：如NVIDIAA100\A30TensorCoreGPU等。不同类型英伟达GPU算力的对比 AI训练（TF32）A100> A30>= A40AI推理（TF16）A10> T4HPC应用（FP32，FP64）A100> A30数据分析（FP32，FP64，INT8）A100> A30图形渲染（RTCore）A40> A10> T4云桌面，视频编解码A16> A40> A10>T4数据来源：NVIDIA 主流AI芯片（含国产）的算力情况目前市场上除了英伟达GPU外，国产主流的厂商在10家以上，AIDC算力规划通常以FP16（稠密）算力为标准，同时考虑显存的大小和带宽、互联速率等，如下表格筛选了常见的AI芯片型号。主流国产AI芯片的算力情况（供参考）智算中心技术架构-产品类型智算中心算力基础设施产品组成智算中心AI算力服务器-主流智算中心算力的核心载体-服务器 GPU服务器与标准服务器的10点区别智算中心算力-适配RTX5090的服务器 R8628 G13产品图训练优化·新一代双路高效互联采用GPU-CPU直通架构设计，无需经过PCIeSwitch通信，大大提高数据交互效率超云R8628 G13是超云推出的新一代人工智能服务器。基于英特尔®至强®第四代/第五代可扩展列处理器平台打造，在6U空间中支持最大10张全高四宽GPU，提供最高600W功率及PCIe5.0 x16速率支持，为用户的灵活需求提供优质差异化解决方案。极致扩展最大支持20个PCIe5.0扩展插槽，最多支持10个全高四宽加速卡，供电功率最高可达600W 典型的GPU服务器常见问题 1、常见问题汇总近三年AI市场的火爆，带动了GPU服务器的市场需求，尤其是以高端GPU为主的A800\H800的Nvlink八卡机。问题1：标准PCIE与Nvlink全互联的GPU服务器差在哪儿？问题2：Nvlink的GPU服务器还需要PCIE吗？问题4：Nvlink和SXM是什么关系？ 2、NVIDIA高

点击免费查看完整报告

算力、GPU、AI服务器详解

算力概念与市场规模总结

一、算力定义与特征

二、算力分类与单位

算力分类

算力单位

三、AI算力芯片路线

四、算力统计标准

五、算力计算方式

CPU算力

GPU算力（以A100为例）

六、GPU算力综合指标

七、主流AI芯片算力

八、智算中心技术架构

产品组成

GPU服务器类型

GPU拓扑

英伟达产品迭代

九、智算中心网络需求

你可能感兴趣

【九点特供】服务器龙头宝德计算被收购！机构称AI服务器需求持续兑现，全球AI算力“狂潮”有望推动硬件高景气行情，这家公司是超聚变的总经销商之一，分销其GPU算力服务器

数字经济筑路者，深度布局AI算力，不断推进GPU服务器产品落地

【盘中宝】订单强劲，英伟达股价再创历史新高，算力是Al发展生产力，机构称英伟达H20有望成主流Al服务器芯片，这家企业子公司是英伟达合作伙伴，现有GPU算力资源超2 000P-20240307

【电报解读】多地发布算力建设支持政策，机构预计2026年国内算力租赁收入规模达2600亿元，这家公司提供英伟达GPU的云服务器的算力租赁业务-20240320

【九点特供】Kimi最有望对标这个题材；高端AI服务器GPU搭载HBM芯片已成主流，英伟达有望采购三星HBM芯片，这家公司用于HBM封装的产品已通过客户验证

通信设备及服务2023年第27周周报：甲骨文加码AI投入，中兴通讯将发布GPU服务器

液冷 GPU 服务器助推生成式 AI 跑出加速度

通信行业周报2024年第52周：小米正搭建GPU万卡集群，展望英伟达下一代AI服务器

【九点特供】233家公司发布股票回购相关公告，一家预案金额最高、另一家已回购金额最高；印度Yotta将再向英伟达订购1.6万块GPU，该公司的AI服务器已迭代至第四代，可为客户开发并量产高性能产品

【盘中宝】联想即将发布新款AI服务器，将搭载8颗英伟达H800 GPU，这家公司服务器电学测试能力属于行业领先水平，客户涵盖国内外知名厂商