版权声明 本报告中所涉及的图片、表格及文字内容的版权归浪潮电子信息产业股份有限公司和中国信息通信研究院共同所有。其中部分数据在标注有来源的情况下,版权归属原数据公司所有。 任何机构、个人在引用本报告数据或转载有关报告内容时,应注明“来源:《人工智能算力高质量发展评估体系报告》”。违反上述声明者,将追究其相关法律责任。 目录 1发展现状及挑战..................................................1 1.1.1政策上:政策导向日益明确..............................11.1.2技术上:生成式AI突破发展.............................31.1.3市场上:算力投资持续加码..............................41.1.4规模上:智算规模增速明显..............................61.1.5发展水平上:算力发展由“量”向“质”..................7 1.2面临挑战...................................................8 1.2.1挑战一:算力供给不足,供需匹配不平衡..................81.2.2挑战二:算力智能水平较低,难以满足多元应用场景........91.2.3挑战三:算力面临能源考验,节能降碳刻不容缓...........101.2.4挑战四:多样化算力需求提升,普适普惠水平较低.........101.2.5挑战五:供应链完备性不足,生态构建待完善.............111.2.6挑战六:性能评价简单,算力实测性能欠缺...............12 2.1定义......................................................122.2内涵......................................................14 2.3.1高算效:设计与运行计算效率“双优”体现...............152.3.2高智效:兼备高效和智能的AI业务支撑能力..............162.3.3高碳效:最低碳排放前提下实现最大化算力输出...........172.3.4可获得:普适应用需求和普惠使用成本的极致追求.........182.3.5可持续:技术兼容、供应链完备、产业生态开放的共同选择.182.3.6可评估:反映算力实际应用水平的多元评估...............19 3发展路径及展望.................................................19 3.1发展路径..................................................20 3.1.1系统设计,提升算效...................................203.1.2协同驱动,提升智效...................................21 3.1.3全生命周期管理,提升碳效.............................223.1.4基建先行,推动算力普适普惠...........................243.1.5繁荣生态,推动算力可持续发展.........................253.1.6多元评估,加速算力规范化发展.........................273.2展望......................................................284评估体系探索...................................................294.1评估体系构建背景..........................................304.1.1评估体系构建现状.....................................304.1.2评估体系构建建议.....................................314.2评估体系构建原则..........................................334.3评估体系构建实践..........................................344.3.1评估体系.............................................344.3.2算效水平.............................................344.3.3智效水平.............................................354.3.4碳效水平.............................................364.3.5可获得水平...........................................374.3.6可持续水平...........................................374.4评估体系构建意义..........................................394.5评估体系应用建议..........................................39 1发展现状及挑战 1.1发展现状 1.1.1政策上:政策导向日益明确 全球各国通过政策支持、战略规划等手段,加速构建领先的算力竞争力。美国公布2024财年政府预算,包括国防部、能源部、国土安全部等多个机构,累计向AI领域计划投入超过2511亿美元,以推动AI研究和软硬件服务;欧洲陆续发布《塑造欧洲的数字未来》、《欧洲芯片法案》等文件,围绕数字化转型进行算力产业布局;日本近年来频繁强调振兴半导体产业,坚持以应用、绿色为导向发展算力,不断扩大国内尖端半导体生产。这些政策的实施加速了全球产业升级和科技创新,并提升了这些国家的算力竞争地位。 我国以算力基础设施建设为锚点,全面推动算力高质量发展。二十届三中全会提出,高质量发展是全面建设社会主义现代化国家的首要任务。我国通过加强算力基础设施建设,推动算力技术与产业的创新发展,为经济社会的高质量发展注入新动能。在国家层面,《数字中国建设整体布局规划》、《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》、《算力基础设施高质量发展行动计划》、《数据中心绿色低碳发展专项行动计划》等提出我国算力高质量发展的具体要求;在地方层面,浙江、北京、上海、广东、贵州、山西等省市也纷纷发布相关政策明确未来几年算力高质量发展行动计划。 1.1.2技术上:生成式AI突破发展 人工智能以生成式AI技术为核心快速发展。以ChatGPT为代表的AIGC技术加速成为AI领域的最新发展方向,对经济社会发展产生了重大的影响。随着人工智能预训练大模型的不断进步、AIGC算法的持续创新,以及多模态AI技术的日益普及,AI已经能够生成包括文本、代码、图像、语音和视频在内的多样化内容。这些技术的发展提升了AIGC模型的通用性和工业化水平,AIGC的商业潜力变得更加显著,如今大模型已成为企业在AI领域竞争的核心焦点。 算力成为推动生成式AI发展的关键。在大模型训练和生成式AI应用的推动下,GPU和异构计算资源需求显著增长,算力的提升从简单的硬件扩展发展为涵盖算法优化、系统设计、资源调度和网络通信等多个层面的系统优化,算力性能和效率对模型推理、训练至关重要。在大模型训练中,通常采用多机多卡构建的算力集群进行分布式训练,而拥有大量的计算节点并不等同于拥有强大的计算能力。在分布式训练环境中,拥有数千亿至万亿参数的庞大模型通信时间可能占据整个训练过程的一半,网络通信和数据缓存等瓶颈问题会显著降低训练效率。另外,随着模型参数量增加,传统的训练方式可能会导致训练过程中算力利用率的降低。在大模型训练中,Checkpoint机制常用于在训练中定期保存模型参数,然而对于参数量极大的模型,该训练方式可能会导致显著的写入延迟,如GPT-3(1750亿参数),以15GB/s的文件系统写入速度计算,完成一次Checkpoint需要2.5分钟,这不仅增加了训练时间,也降低了GPU的利用率。 1.1.3市场上:算力投资持续加码 国家以直接投资或补贴方式推动算力产业投资建设。美国计划5年内投资2800亿美元以保持美国在芯片技术领域的领先地位;中国全面启动““东数西算”工程,截至2024年6月底,““东数西算”八大国家枢纽节点直接投资超过435亿元,拉动投资超过2000亿元;欧盟计划提供12亿欧元的公共资金用于“欧洲共同利益重要计划——下一代云基础设施和服务”;日本经济产业省拟为5家日本企业提供总额725亿日元的补贴,用于打造人工智能超级计算机。随着全球各国在算力领域的竞争愈发激烈,算力相关产业市场规模将呈现持续增长态势。以AI服务器为例,据IDC预测,未来几年全球人工智能服务器市场规模将持续增加。 科技巨头发力智能算力,万卡算力集群布局加快。2023年以来人工智能市场持续保持高增长态势,成为推动各国经济增长和技术创新的关键因素。据IDC研究,预计2022年至2032年全球人工智能 产业规模的复合增长率高达42%,2032年将达到1.3万亿美元。基于人工智能的广阔前景,全球科技巨头纷纷加大对AI基础设施布局以维持行业竞争力。国际上Meta、微软&OpenAI、xAI等多家AI巨头陆续宣布或者完成10万卡集群建设,国内通信运营商、头部互联网、大型AI研发企业等均发力超万卡集群的布局。 (来源:IDC、Bloomberg、Mandeep Singh) 1.1.4规模上:智算规模增速明显 全球算力规模稳步扩张,智算同比翻倍增长。以AIGC为代表的人工智能应用、大模型训练等新需求、新业务的崛起,推动全球智算规模呈现高速增长态势。据中国信通院测算,截至2023年底,全球 算力总规模约为910EFLOPS1“,同增增长40%,智能算力规模达到335EFLOPS,同增增长达136%,增速远超算力整体规模增速。我国智能算力占增显著增加,智算中心集聚分布。据中国信通院测算,截至2023年底,智能算力规模占整体算力规模的增例近30%,增效明显。国家及地方层面积极推进智算中心建设,北京、广东等多地提出2025年智算规模目标。从区域分布上来看,智算中心呈集群建设趋势,过半分布在我国东部地区。 (来源:Gartner、IDC、中国信通院) 1.1.5发展水平上:算力发展由“量”向“质” 我国算力发展正处在由“量的扩张”转向“质的提高”这一重要关口。我国算力产业规模扩张下开始以应用为导向,推动过去的重资产、重硬件模式向软硬协同、服务驱动转型等高质量发展方向转型升级,算力发展从规模速度型粗放增长转向质量效率型集约增长。在应用导向下,全国各地增加智能算力生产以提升算力在人工智能领域的适配 水平,建设超大规模算力中心集群,以匹配大模型训练需求。随着集群建设规模越来越大,算力效率问题引起关注。算力中心建设、运营开始重视超大规模组网互联、集群有效计算效率、训练高稳定性与可用性等算力处理效率相关的性能。另外,双碳目标日益紧迫,能耗要求日趋严格,算力行业的高耗能和碳排放问题引起诸多关注。我国出台了一系列政策对算力产业节能降碳提出更加严格的要求,相关企业通过技术创新、绿色管理等措施不断开展节能降碳行动,绿色低碳成为算力产业重要发展方向。 与此同时,算力中心作为算力的主要载体,承载功能逐渐多元化。算力中心可为服务购买方提供多元化业务支撑和多样化算力服务,不再只是提供计算、存储等服务的场所,数