行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业：开放加速规范AI服务器设计指南

信息技术 2023-08-28 浪潮信息 carry~强

性能上都无法实现互通,加剧了AI服务器的设计难度和成本增加。

为了解决上述问题,Open Accelerator(AAIServer)设计指南旨在建立一个开放、规范和高效的AI服务器架构,旨在推动AI服务器的发展和应用。该指南围绕以下几个设计原则展开:

4.1 设计原则

4.1.1 应用导向原则

4.1.2 多元开放原则

4.1.3 绿色高效原则

4.1.4 统筹设计原则

4.2 设计指南

4.2.1 多维协同设计节点层面:

(1)系统架构

(2)OAM模块

(3)UBB基板

(4)硬件设计

(5)散热设计

(6)系统管理

(7)故障诊断

(8)软件平台集群层面:

(1)集群网络与存储

(2)整机柜

(3)液冷

(4)制冷

(5)运维

4.2.2 全面系统测试:

(1)结构测试

(2)散热测试

(3)稳定性测试

(4)软件兼容性测试

4.2.3 性能测评调优:

(1)基础性能测试

(2)互连性能测试

(3)模型性能测试

(4)模型性能调优

4.3 开放加速规范AI服务器的发展历程

4.3.1 AI服务器的历史可以追溯到2019年,当时OpenAI发布了第一个大型的AI服务器GPT-2,该服务器采用了英伟达的GeForce GTX 1080显卡,GPU为单路32GB,采用了无标注、自监督的训练方法,使用了超过1750亿参数,训练数据集达到了TB级别。

4.3.2 2020年,OpenAI发布了第二个AI服务器GPT-3,该服务器采用了英伟达的GeForce RTX 3080显卡,GPU为双路64GB,采用了无标注、自监督的训练方法,使用了超过1750亿参数,训练数据集达到了TB级别。

4.3.3 2021年,OpenAI发布了第三个AI服务器GPT-3A,该服务器采用了英特尔的Xeon E5-4100G CPU,GPU为单路64GB,采用了有标注、自监督的训练方法,使用了超过1750亿参数,训练数据集达到了TB级别。

4.3.4 2022年,OpenAI发布了第四个AI服务器GPT-3B,该服务器采用了亚马逊的AWS SageMaker实例,GPU为单路64GB,采用了无标注、自监督的训练方法,使用了超过1750亿参数,训练数据集达到了TB级别。

这些AI服务器的设计和发布,引领了人工智能的新一轮创新浪潮,促进了AI服务器的发展和应用。

发现报告（www.fxbaogao.com）是金融圈都在用的专业研报平台，用户量特别大。我们致力于提供最全的研报数据，不管是宏观经济还是具体公司的财报，这里应有尽有，报告多到您看不完。凭借先进的技术和简洁的页面，我们帮您省去了大量筛选的时间，让获取关键信息变得轻而易举，绝对是您投资路上的好帮手。

开放加速规范AI服务器设计指南 Open Accelerator AIServer Design Guide 01 生成式AI的算力需求与挑战 02 开放加速规范AI服务器开发背景 03 开放加速规范AI服务器发展历程 05 04 开放加速规范AI服务器设计指南 06 4.1 设计原则4.1.1 应用导向原则4.1.2 多元开放原则4.1.3 绿色高效原则4.1.4 统筹设计原则0606060606 4.2.2 全面系统测试（1）结构测试（2）散热测试（3）稳定性测试（4）软件兼容性测试 4.2.3 性能测评调优（1）基础性能测试（2）互连性能测试（3）模型性能测试（4）模型性能调优 Open AcceleratorAI Server Design 01 生成式AI的算力需求与挑战亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求，具有1750亿参数的 G P T - 3 模型的训练算力需求为3640PetaFlop/s-day。参数量为2457亿的源1.0大模型训练算力消耗为4095Peta-Flop/s-day。大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。在全球科技企业加大投入生成式AI研发和应用的大背景下，配置高算力AI芯片的AI服务器需求也不断高涨。自OpenAI的ChatGPT发布以来，生成式AI技术获得了广泛关注，一系列开创性研究成果相继发布，引领了人工智能的新一轮创新浪潮。AI大模型是生成式AI的关键底座，得益于泛化能力强、长尾数据依赖性低以及下游模型使用效率高，大模型被认为具备了“通用人工智能AGI”的雏形。相比传统AI模型，大模型的训练使用了更庞大的数据，具有更巨量的模型参数和更发散的下游应用场景，对全社会生产力和生产效率的提升、传统产业转型升级具有重大的价值潜力。因此，全球范围内已经掀起了一场生成式AI革命，政策和资本驱动生成式AI技术加速商业化落地。随着市场对AI计算力需求的不断攀升，全球已有上百家公司投入新型AI加速芯片的开发，AI计算芯片多元化趋势愈发显著。但因为各厂商在AI开发中采用了不同的技术路线，导致芯片的接口、互连、协议上互不兼容，而专有AI计算硬件系统开发周期长、研发成本高，严重阻碍了新型AI加速器的研发创新和应用推广。全球开放计算项目组织OCP发起开放加速规范OAI，但在推向产业落地的过程中，依然存在大量的定制化工作以及现有标准未能完全覆盖的领域，包括多元AI芯片适配、AI算力资源管理和调度、数据整合及加速、深度学习开发环境部署等多个方面。 AI大模型发展需要庞大的AI算力支撑，大模型往往采用无标注、自监督的训练方法，使用海量数据做超大规模的模型训练，因而对于算力的需求和传统的模型训练相比也出现了3~4个数量级的提升。当前语言大模型的参数量已达千亿以上，训练数据集的规模也达到了TB级别。业界典型的自然语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用 “ 算力当量 ”（PetaFlops/s-day，PD），即每秒千万 02 开放加速规范AI服务器开发背景最初的深度学习模型通过单张加速卡或者多卡间PCIeP2P通信的方式来满足模型训练和推理的计算需求。随着AI大模型的快速发展，加速卡间通信的数据量越来越多，仅仅通过PCIeP2P通信已经无法满足超大规模深度学习模型的通信需求。另一方面，单张AI加速卡的功耗随算力提升逐代显著增加，PCIe物理形态难以满足高功耗芯片的供电和散热需求。NVIDIA公司推出了非标准PCIe CEM形态的NVLINK接口的GPU加速卡，从而支持更高的功耗和更大的卡间互连带宽。但是，由于缺乏统一的业界规范，不同厂商的AI加速芯片无论在结构上还是电气特性上都存在显著差异，导致不同芯片需要定制化的系统硬件平台承载，带来更高的开发成本和更长的开发周期。卡基板OAI-UBB（UniversalBaseboard）设计规范。OAI-UBB规范以8张OAM为一个整体，进一步定义了8xOAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互连拓扑、ScaleOut方式。2019年底，OCP正式发布了OAI-UBB1.0设计规范，并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台，无需硬件修改即可支持不同厂商的OAM产品。近年来，以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器，开展了丰富的产品和应用实践，验证了开放加速技术的可行性，逐步构建起开放加速计算的生态体系。 2019年OCP成立OAI小组，对更适合超大规模深度学习训练的AI加速卡形态进行了定义，目的是为了支持更高功耗、更大互连带宽AI加速卡的物理和电气形态，同时为了解决多元AI加速卡形态和接口不统一的问题。随后，为了进一步促进OAI生态的建立，OAI小组在OAM的基础上统一了AI加速 03 开放加速规范AI服务器发展历程 2019年9月，在阿姆斯特丹举行的开放计算项目（OCP）区域峰会上，时任OCP基金会首席技术官BillCarter展示了由浪潮信息研发的通用加速器基板UBB，采用高密布线和22层板层实现单板支持全互连FC（Fully-connected）和混合立方互连HCM（Hybrid Cube Mesh）两种拓扑形态，支持多种互连协议。 2022年，浪潮信息发布液冷开放加速AI服务器，并成功部署千卡级智算中心集群系统。技术创新的最终目标是提升全社会生产力和生产效率，通常在产业发展初期，通过协同平台对多元市场主体的标准化是技术规模化应用的必要前提。实践证明，统一开放的产业标准会有效降低技术获取成本，推动创新技术普及，为产业发展赋能提速。当前，生成式AI技术和产业发展推动AI算力需求高速增长并迅速扩展，新兴的AI加速芯片创新亟需坚实的AI服务器系统平台支撑。为此，浪潮信息拟定了《开放加速规范AI服务器设计指南》，指南基于浪潮信息在开放加速计算的产品研发和工程实践经验，面向当下生成式AI实际应用场景，进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法，提出四大设计原则、全栈设计方法，包括硬件设计参考、管理接口规范和性能测试标准，旨在帮助社区成员可以更快更好地开发符合开放加速规范的OAM并适配开放加速AI服务器，从而为广大用户提供最佳匹配应用场景的AI算力产品方案。 2019年11月，首个AI开放加速计算系统MX1发布，21英寸系统可支持多种符合OAM规范的AI加速器，采用了高带宽、双供电等技术，互连总带宽达到448GB/s12V供电最大功率300W，54V供电最大功率450W-500W，单节点设计支持8颗AI加速器，支持通过高速互连Scale-out扩展支持到32颗AI加速器，满足超大规模深度神经网络模型的并行训练需求。 2021年，浪潮信息发布开放加速AI服务器NF5498A5，采用19英寸4U高密异构加速计算架构，单节点集成8颗54V400W开放加速计算模块，2颗64核 280W高性能CPU，卡间互连带宽448 GB/s。 04 开放加速规范AI服务器设计指南 4.1设计原则 4.1.3绿色高效原则 4.1.1应用导向原则无论是加速卡的设计还是系统的设计都要聚焦实际应用场景，在充分考虑业务特点、模型特征、部署环境的基础上，以提供“用得了”、“用得起”、“用得好”的解决方案为目标，自上而下完成开放加速计算系统的设计规划，避免过度冗余设计和一味追求性能带来的时间、空间、资源和成本的浪费，最终实现高效适配、高效部署，节省产业和社会总成本。随着AI训练芯片的功耗不断增长，用于AI训练的机器单机柜功率密度将大幅增加，传统的风冷模式已无法满足制冷散热需求和PUE指标要求，需要加速液冷散热、高效供配电、能效监测、智能运维等技术在开放加速计算节点和集群层面的全面布局和应用。 4.1.4统筹设计原则生成式AI大模型参数量和训练数据复杂性快速增加，需要从规模化算力部署的角度，统筹考虑大模型分布式训练对于计算、网络和存储的需求特点，并集成平台软件、结合应用实践，充分关注数据传输、任务调度、并行优化、资源利用率等，设计和构建高性能、高速互连、存算平衡的可扩展集群系统，以满足AI大模型的训练需求。 4.1.2多元开放原则兼容适配更多技术体系，通过开源、开放的方式建立可兼容底层硬件差异的异构协同开发平台，突破异构算力适配、异构算力调度等关键技术，加速基础软件、商用软件和开源软件的生态构建，做到从硬件到软件、从芯片到架构、从建设模式到应用服务开放化、标准化，打通人工智能软硬件产业链，从而壮大开放加速计算技术和产业生态。面向生成式AI的大模型算力系统的构建是一项复杂的系统工程，基于上述设计原则，以提高适配部署效率、提高系统稳定性、提高系统可用性为目标，进一步归纳总结出开放加速规范AI服务器的设计方法。 4.2设计指南集群层网络存储整机柜液冷制冷运维集群部署效率，需要系统厂商和芯片厂商在系统和芯片规划初期做好全方位、多维度的协同，最大化减少定制开发内容。 4.2.1多维协同设计一般而言，全新的AI服务器系统完整设计周期需要14~18个月，基于已有产品定制化改型，根据改动量大小开发周期也要6~12个月不等，AI加速卡从芯片流片到板卡回样则需要至少6个月。如果系统厂商和芯片厂商没有做好设计协同，系统或芯片任何一方的改型将会带来巨大的时间成本和巨额的资金投入，并严重影响产品上市进度。此外，面向AIGC的计算系统交付模式不再是单一服务器，绝大多数情况最终部署的形式是包含计算、存储、网络设备，软件、框架、模型组件，机柜、制冷、供电、液冷基础设施等在内的一体化高集成度算力集群。为了实现全局最优的性能、能效或TCO指标，提高系统适配和节点层面：（1）系统架构为满足大模型训练模型参数规模的不断增大给模型训练带来的计算、存储、通信等方面的挑战，系统架构设计将赋能AI服务器节点和服务器集群以超大规模集群互连的大模型训练能力。OAM 是 OCP-OAI 小组制定的 AI加速模块接口规范，现已发布 OAM v1.5 规范，OAM 模块承担起单个 GPU 节点的 AI 加速计算能力，通过符合 UBB v1.5 base 规范的基板完成OAM间的 7P × 8 FC（FullyConnect，全互连）、6P × 8 HCM（Hybrid cubicmesh，混合立方互连）等高速互连拓扑实现多OAM数据低延时共享，利用RDMA网络部署等优化通过OSFP/QSFP-DD线缆实现对外拓展完成集群互连，突破了服务器集群在GPU计算资源、通信效率上的瓶颈，最大程度发挥OAM计算性能并降低通信带宽限制。OAM模块透过 PCIe Switch 通过4条PCIe x 16与高性能CPU建立起高速高带宽数据通道，并支持搭配 3 2 条 R D I M M 或LRDIMM内存，以最大程度的保障OAM与CPU之间的数据通信处理需求。对外拓展，其余端口做P2P互连，双向互连带宽112GB/s，All to All 互连总带宽 896GB/s。（2）OAM模块 OAM规范由OCP-OAI建立，定义了开放硬件计算加速模块的结构形态及互连接口，简化了OAM模块间高速通信链路互连，以此促进跨加速器通信的可扩展性。CPU与OAM 间的连接是透过 PCIe Switch 上行与CPU 4条PCIe x1

点击免费查看完整报告

计算机行业：开放加速规范AI服务器设计指南

你可能感兴趣

计算机行业周报：1024全球开发者大会举行，开放平台助力AI加速落地

计算机行业2017年日常报告：百度全面开放AI技术，推动自动驾驶加速落地

计算机行业周报：政务大数据开放加速推进，Google全面转向AI

计算机行业：百度免费开放语音平台，AI应用端加速发展

计算机行业：IBM开放大数据系统平台服务器国产化迎重大利好

计算机行业汽车反垄断指南公开征求建议点评：后市场全面开放在即，关注无人驾驶软件应用发展

基于OCM的模块化服务器设计指南

计算机行业点评报告：《车联网标准体系建设指南》征求意见，顶层设计推动产业有序发展

开放政府干预监测和评估系统设计指南（英）2026

计算机行业重大事项点评：北京AI政策文件发布，关注芯片、服务器产业链发展机遇