您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[维谛技术]:智算中心基础设施演进白皮书 - 发现报告

智算中心基础设施演进白皮书

信息技术2024-08-19-维谛技术董***
AI智能总结
查看更多
智算中心基础设施演进白皮书

致谢 序言 感谢《智算中心基础设施演进白皮书》撰写组成员(排名不分先后): 近两年来,我们目睹了人工智能(AI)以惊人的速 度 发展和不断成熟,它正在改变我们的生活、工作和与 技术交互的方式,它将会彻底改变从医疗、金融到交通和娱乐等众多行业。以ChatGPT为代表的生成式人工智能(AIGC)因其显著的进步和广泛的应用范围而引起各行各业极大的关注。它能够生成与人类语言非常相似的文本,生成高清图片,视频,影片,甚至编程,颠覆了大众对人工智能(AI)的传统认知,吸引了普通大众乃至各个领域的专家的重点关注。 维 谛 技 术 编 委 组:顾 华、张 迪、雷 爱 民、赵 玉 山、王 腾 江、谭 红 丽、王 安 林、李 朝 辉、赵 呈 涛、王 超、郭 昊、刘东泽、李旭、韩会先、邹宇飞、姜峰等。 深知社编委组:高昆、董卫卫、陈淼、王谋锐、高晓明等。 随着人工智能(AI)应用变得越来越普遍和具有影响力,其对算力的需求也随之快速增长,人工智能(AI)业务负载也正在成为数据中心负载的重要组成部分,并且要求必须以集群的方式进行部署。因此,机柜的功率密度和数据中心的规模将大幅提升,给数据中心物理基础设施(包括供配电、制冷等)带来颠覆性的挑战。换句话说,这意味着人工智能(AI)将颠覆通算中心(传统数据中心)的设计和运营。为应对这些挑战,我们需要重新思考数据中心从IT层面到物理基础设施层面的规划和设计,从而建设出可以适应未来IT技术不断发展的具有弹性和可扩展性的智算中心(AIDC)。 以及在白皮书撰写过程中,通过深谈会、特约访谈等形式分享专业观点和经验的行业专家们:李典林、井汤博、何建、杨瑛洁、沈诚、王宁、夏忠谋、王强、陶志峰、唐虎、王洪涛、李巍、刘凯、肖军、李振江、刘阳迁、符晓、肖波、苏志勇、方黎达、师宇清、陈必成、丁海峰、叶飞、林密、张双华、于淼、杜华锐等。 感谢你们的辛苦付出和努力,白皮书的每一个知识点的落实离不开你们的付出。 维谛技术作为英伟达(NVIDIA)官方认可的解决方案合作伙伴,很早就开始关注智算中心(AIDC)中的物理设施基础架 构 未 来 究 竟 会 有 哪 些 颠 覆 性 的 变 革。回 顾 数 据 中 心 行 业 过 去3 0年 的 发 展,其 基 础 设 施 层 面 的 发 展 基 本遵 循 一 个线 性 的 功耗 密度 提 升和 智能 化 提 升 的 模 式,维 谛 技 术在 此 过程中,一直以 技 术 和 质 量 来引领 全 球 行业 的发 展。但 是 从2024年的年初开始,人工智能(AI)的发展进入类似于指数的增长曲线,从单个GPU的计算能力到集群的规模,从单机柜的功率 密度 到液 冷的普及 速 度,似乎 都 被 按下了加速键,数 据中心 行业 正在 经 历一 个自己的“寒武 纪”。面对 如此快 速变化的时代,市场和行业的信息和经验也都是碎片化的,国家之间、企业之间、个人之间也都存在着巨大的信息壁垒,产业生态和技术格局存 在着重大的不确定性。作为数据中心 行业的全球领 先企业,维谛技术希望通 过一种创新的形式,通 过收集市场上分散的经验和信息,整理出智算中心(AIDC)的机电系统架构演进趋势和挑战,从而做出一个系统性和中立性的分析和预测,希望通 过提 炼出的观点和意见,能够对数据中心 行业的上下游起到一定的归纳和参考意义,对数据中心行业的健康发展有一定的促进作用。 希 望《智 算中 心 基 础 设 施 演 进 白 皮 书》可 以 为 通 算中 心(传 统 数 据 中 心)向 智 算中 心(A I D C)的 演 进 过 渡 中 贡 献 出一份力量! 而深知社(DeepKnowledge Community)作为中国具有号召力的国际化数据中心产业工程师社群,同样在这段时间里也在思考此类问题。经过与维谛技术深度沟通后,受维谛技术委托,由深知社对《智算中心基础设施演进白皮书》做系统的行业调研、分析、提炼以及白皮书撰写。 因此,深知社于2024年4月- 6月,对国内业已实施的智算中心、超算中心的近50位一线资深技术专家进行深度访谈和调研,并结合深知社海量的全球动态深度知识库,由DKI(DeepKnowledge Intelligence)研究员团队执 笔,进行本次白皮书的撰写。这本白皮书访谈、调研和写作的专家和工程师均以个人名义参与,使得这本白皮书能够最大程 度以中立、系统和开放的角度,深度还原中国数据中心工程师群体对智算中心(AIDC)机电架构演进和发展的经验和判断。 目录 序 言 的 最 后,必 须 要 感 谢 维 谛 技 术 编 委 组 的 专 家 团 队 对 深 知 社 的 调 研 和 写 作 过 程 的 大 力支 持,维 谛 技 术 的 行 业大局观、产业生态观、技术发展观同样给此次白皮书的访谈对象和DKI研究员团队留下深刻的印象。 希望各 位 数 据中心同行在 阅 读 完 这本白皮书之 后,对于A I D C的 演 进 趋 势 有更 多、更 深、更 系 统 的 理 解。因水平和经 验 有 限,这 本白皮书 一 定 会 有一 些 不足 甚 至错 误 之 处,如 您 有任 何 意 见 或 疑 问,也请 随 时与深 知 社 取 得 联 系(微 信公众号:DeepKnowledge,或官网网站w w w.deepknowledgec ommunit y.c om),我们将认真听取您的反馈和意见,在未来不断提升。 1.1智能算力的发展情况概述1.2智算芯片结构演进1.3智算用户侧诉求演进1.4机柜功耗高密度化演进1.5静态负载向动态负载演进688911 2.1智算中心选址2.2智算中心建筑形式2.3智算中心建筑布局2.4智算中心房间功能需求2.5智算中心装饰装修需求2.6已有建筑改造为智算中心121313141415 深知社编委组2024年8月 三.智算中心电气链路架构挑战及演进趋势16 3.1智算中心电气链路的挑战16 3.1.1电力能源接入挑战3.1.2配电与IT机房的面积比挑战3.1.3电能利用率挑战3.1.4能源利用效率(PUE)挑战3.1.5服务器电源形式挑战3.1.6智算负载分级供电的挑战3.1.7末端配电方式挑战3.1.8负载动态冲击挑战3.1.9环境温度突变挑战161617171718181919 3.2智算中心供配电系统的演进趋势—“智算电能管理链” 3.2.1电力能源系统向“算电协同”演进3.2.2简化供电系统架构演进3.2.3智算负载分级供电演进3.2.4预制电力模组演进3.2.5UPS向MW级,超高效及高密化演进3.2.6锂进铅退/储备一体演进192023232425 一.智算中心的演进分析 目录 过去的十几 年,是 通算中心(传 统数 据中心)(见附录名词解 释)快 速 发 展的阶段,主 要以云 计算为主。随着 生 成 式人工智能(AIDC)(见附录名词解释)的横空出世,人工智能(AI)(见附录名词解释)在医疗、金融、制造业、零售业和交通运输等领域产生了广泛的应用需求,通算中心(传统数据中心)已经逐渐无法满足日益增长的计算需求,智算中心(AIDC)(见附录名词解 释)应 运而生,它支持大 规模的数 据 处 理、机器学习、深度学习和其他智能 算法的运算需求,得益于人工智能的革命性 发 展,智算中心的规模 和处 理能力正在 呈指数级增长,以 满足日益增长的算力需求。智算中心已成为通算中心(传统数据中心)升级发展的必然趋势。 3.2.7末端电压等级提升及全直流系统演进3.2.8 SST的前沿应用探索3.2.9包间白地板交付方式的演进3.2.10融合末端配电方式的演进26272828 3.3新能源、储能在智算中心的应用分析30 3.3.1新能源在智算中心应用是必然趋势3.3.2新能源发电在智算中心消纳仍面临诸多挑战3.3.3储能系统在智算中心应用的多重价值303132 本章节结合目前智能算力的发展情况,对智算中心(AIDC)在芯片结构演进、用户侧诉求演进、高密度化演进、负载特性演进等进行分析和总结,作为规划选址、电力系统、制冷系统及预制化等后续章节的依据和基础。 3.4智算电能管理链33 四.智算中心制冷系统架构 34 1.1智能算力的发展情况概述 4.2制冷系统架构的分类及方案4.2.1芯片侧4.2.2机柜侧/末端空调侧(风冷技术)4.2.3机柜侧/末端空调侧(液冷技术)4.2.4冷源侧4.3制冷技术应用评估4.4智算中心制冷应对策略35363741424345 算力发展:随着数字经济时代的到来,数据成为新的生产资料,而算力则成为新的生产力。在万物互联的背景下,数据量爆炸式增长,对算力的需求达到前所未有的高度。从城市到家庭到个人,从政府到行业到企业,以及新能源汽车智能化操控、短视频内容推荐、电商平台个性化推荐等,每个生活和生产场景均离不开算力对信息的处理,算力已成为社会发展的重要动能。可以预见,算力将无处不在,算力服务也将像水、电一样,成为一种社会基础设施。 算力分类:按照系统构成、技术特 征和应用领域的差异,算力可分为三类:通用算力、超算算力和智能算力(见附录名词解释)。 由于超算中心属于高度定制化的算力中心,不在本白皮书的讨论范围内。本白皮书将重点讨论 通用算力中心(简称通算中心,即传统数据中心)向人工智能(AI)算力中心(简称智算中心)的演进。 五.智算中心预制模块化技术的应用分析46 5.1智算中心预制模块化技术发展趋势5.2电气预制模块化趋势5.3制冷预制模块化趋势5.4智算中心预制模块化趋势5.5预制模块化技术的应用与挑战4647495051 智算业务:智算业务在应用中包括两个环节:训练和推理(见附录名词解释)。 智算 业 务发 展 趋 势:根 据IDC的统计数 据(见图1),202 2年部 署的智算 算力里,训练 算力占比为41.5%,推 理算力占比达 到58.5%;预计到2026年,推 理算力的占比 将会提升到62.2%,训练算力降低到37.8%。这种趋势 也符合智算被广泛 应 用 的 科 学 的比例 变 化,而 随 着推 理 算力的 普及,生 成 式 人 工智 能(A I G C)的应 用 将 引起 范 式 革命(见 附录 名词解释)(见图2)。 六.总结与展望 52 七.附录54 7.1名词解释7.2主要作者介绍7.3版权声明545657 其中智能算力规模达到70EFLOPS。“东数西算”干线光缆规划已超过180条,骨干网互联带宽扩容到40T,全国算力枢纽节点时延20ms时延圈已经覆盖全国主要城市。 1.2智算芯片结构演进 智算算力(智算中心)和通用算力(传统数据中心)在服务器芯片结构上存在本质的差异。 数据来源:IDC,中信建投,腾讯研究院 通 用算力芯片架 构相对单一,主要以CPU为算力核心,基于CPU和云存储集群提 供的相关云服 务,通常由多个 物理服务器组成,通过网络连接形成一个虚拟化的计算环境。 市场表现:根 据PrecedenceResearch市场预测(见图3),从2023年至2030年,全球人工智能(AI)市场有望实现超过35%的复合增长率。 智算算力则通常采用芯片异构计算架构,结合CPU、GPU、NPU、TPU等(见附录名词解释)多种芯片,形成高并发的分布式计算系统,应用于神经网络模型的训练及推理等。 除算力芯片外,智算中心的存储芯片 也存 在 差异化的需求,例如更 大的DR A M和N A ND容量,以 及存算一 体技术的应用,以解决冯·诺依曼架构中的存储墙问题等。 从芯片结构演进来看,通算中心(传统数据中心)侧重于通用计算任务的性价比和灵活性,而智算中心注重人工智能(AI)类型的特定计算需求及运算效率,并要求具有强大的图形处理功能,需要制定人工智能(AI)算力硬件和存储解决方案,以满足其人工智能(AI)高性能计算需求。 1.3智算用户侧诉求演进 通 用算力(传 统 数 据中心)的用户侧诉求 经 过长 期不断 的发 展和 梳 理,已逐 渐