AI智能总结
离鳞渲染等业努打造高效、 项目背景分析 国家政策导向 贵州省政策支持 行业需求洞察 《关于促进全国一体化算力网络国家(贵州)枢纽节点建设的若干激励政策》 数字经济(GDP):《数字中国建设2025年行动方案》数字产业增加值占GDP比重将超10%;GDP增长贡献率66.45%。 1.《东数西算工程》:优化数据中心布局,引导算力资源向西部倾斜,促进东西部协同发展。 建设支持:奖励新建算力中心,发放“贵州算力券”,打造算力高地。【申请“贵州算力券” 800万】 数据流通:归集数据集,建设训练基地,奖励数据交易主体。 2.《算力基础设施高质量发展行动计划》:推动算力与能源融合,促进绿色低碳发展。 产业发展:培育产业生态,发展云服务,汇聚算力资源。 人工智能(IDC):2024年备案大模型超200家,行业模型占70%;2024年智算AIDC市场同比增长79.6%(146亿),2028年预计达1825亿(CAGR≈56%)。 场景开放:推广典型案例,奖励优秀应用项目。 3.《国家数据基础设施建设指引》:强化算力与电力协同,助力数据中心绿色转型。 主体培育:打造产业链,奖励落户企业,落实税收优惠。 科技创新:支持创新平台建设,强化研发创新。 财政金融:统筹专项资金,支持项目融资,鼓励金融创新。 要素保障:保障用电用网,支持清洁能源,培养专业人才。 行业数字化:智造业规模24年1.55万亿,25年预计1.76万亿(CAGR≈14%),金融、电信等行业数字化转型,需强大算力支撑 政策服务:优化审批流程,统筹能源消费。 产业集群目标:打造“数据中心-智能终端-数据应用”千亿级产业集群 l需求本质:构建“弹性可扩展、算力多元化、绿色高效”的区域级算力枢纽,既服务当前西部渲染业务,又为AI、大数据等新兴业务预留技术底座,匹配西部数字文创产业算力的需求。 核心业务场景需求 协议传输 成本可控 AI训练 网络带宽 •超微服务器性价比优于戴尔/浪潮;华三交换机成本比思科低40%;华三S9850-32H交换机最大支持4096台高速交互 •支撑文字+图像+语音等多模态模型训练,PB级数据(自动驾驶路测、短视频理解等)参数超1万亿。 •采用AllReduce协议,每台服务器传输≈7GB数据,400G网络(50GB/s)耗时< 0.14秒,满足训练效率 渲染集群 功耗配置 强扩展性 架构支持弹性扩展 电源与散热 东数西渲业务 •架构支持3年内算力翻倍(≈300台GPU服务器),无需重构网络,满足“东数西渲”业务量增长的算力弹性需求 •承接10部院线电影、50个游戏场景、100个建筑可视化项目,数据量约1.2PB,4K/8K批量静帧渲染,46PFLOPS算力 •单台GPU服务器功耗≈4kW,144台总功耗≈0.58MW;配置2N冗余电源;机柜冷板风冷散热(PUE<1.3),符合贵州“东数西算”绿色要求 实施规划 高可靠性 AI推理 智算一期 “渲染+ AI”双盈利 双机热备+冗余网络 •支持软件定义算力(容器化调度),切入AI推理(智慧城市视频分析、工业质检) •优先部署GPU服务器+交换机,存储复用政务云数据中心剩余容量 •指标:MTBF(平均无故障时间)>10万h,业务7×24小时运行,算力利用率≥70% 政策加持国内外提前布局,智能算力需求激增 各国政府布局AI领域全栈能力,并出资引导智能算力基础设施建设,AI智能算力增速远超摩尔定律智算中心主要由国家政府总体牵头建设,同时基础设施提供商积极参与 智算增长趋势 全球:数据的高速增长带来AI算力需求激增,到2030年,AI算力需求增长约390倍 美国:以保持国家竞争力为目的,最先发展智能超算中心,具备单体算力大、科研实验室居多 国内:近两年已有30+城市建成或在建设智算中心,总体投资规模超千亿,旨在带动当地产业智能化升级 推动智能计算中心有序发展,打造智能算力、通用算法和开发平台一体化的新型智能基础设施 l2022年11月30日,OpenAI的对话式AI大模型ChatGPT横空出世,月活破亿仅用时两月,成为史上增长最快的消费类应用,展现出解放人类生产力的惊人潜质l微软作为OpenAI第一批投资者,通过优先使用该技术赢得先机,并将ChagGPT与旗下所有产品(Bing、Office、Azure)进行整合,加速了ChatGPT商业化路径 智算中心定义 智算中心是以GPU、AI加速卡[1]等智能算力为核心、集约化建设的新型算力基础设施,提供软硬件全栈环境,主要承载模型训练以及适合中心推理、多媒体渲染等业务,支撑各行业数智化转型升级 典型超算智算中心核心系统单元包含通用计算子系统、智能计算(AI)子系统和高性能计算(HPC)子系统。 l超算计算节点和智能计算节点分别通过IB/RoCE网络等高速网络交换子系统进行高速互连; l集成多层次、多协议、多种数据保护模式的全闪存存储系统和高性能并行文件存储系统,以及配套的信息安全子系统和超算中心融合管理子系统。典型超算数据中心架构 智算与通算区别 智算中心组网分业务/存储、管理、参数面、数据面四个网络平面,与通算相比,智算组网新增参数面网络及数据面网络,采用RoCE全连接无损组网,充分发挥智算并行计算优势,同时组网整体无容灾设计,对运维工作带来新的挑战。 1.对外连接网络(网络出口层)分为CMNeT、云专网、IP专网 1.CMNeT:用于公众用户访问智算中心2.云专网:用于智算中心间互联、训推互联3.IP专网:用于远程管理 2.内部互联网络分为业务/存储网络、管理网络、参数面网络、数据面网络 1.业务/存储网络:业务网络用于互联网用户访问智算/通算等资源,存储网络用于调用共享存储资源2.管理网络:主要包括业务管理(K8S平台、安全管理系统等)和IPMI(智能平台管理接口)3.参数面网络:采用RoCE/IB实现集群内所有AI加速卡的高速互联4.数据面网络:采用RoCE实现智算集群与高性能文件存储的高速互联 CONTENTS243 业务与目标 业务定位 建设目标 架构逻辑 l算力规模:部署144台8卡GPU服务器,构建1152卡千卡级算力集群,支撑千亿参数模型训练; l采用“计算-网络-管理-安全”协同架构,各层深度联动,为业务稳定运行提供支撑;l分层协同:Spine层与业务/管理核心层构成骨干网,Leaf层接入服务器,管理/安全层独立部署 l聚焦大模型推理、离线渲染、生成式AI开发、边缘计算协同四大核心业务,满足人工智能项目开发全流程算力需求 l网络能力:基于大二层架构与Spine- Leaf拓扑,实现端到端延迟≤50μs,保障集群大规模数据同步效率; l争取项目成果入选省级算力枢纽示范案例,带动“数据中心-智能终端-数据应用”产业链协同,助力贵州千亿级数字产业集群建设。 l可靠性:全链路冗余设计(网络、供电、散热),达成系统年非计划停机时间≤4小时目标 业务架构设计 管理节点服务器 GPU服务器(超微S83- 4090T8) lGPU配置:单台搭载8张NVIDIA4090 GPU,FP32算力达40TFLOPS/卡,为模型训练、渲染提供强劲算力支撑; l形态与配置:2U机架式设计,DellPowerEdgeR7525搭载AMD EPYC系列高性能CPU、128GB大容量内存、2×1.92TB SSD,具备强大数据处理与存储 设 备 参 数 设 备 参 数 l每机柜严格按5U-8U、10U-13U、15U-18U位置部署3台,总计144台,形成千卡算力矩阵; l集中部署于特定机柜位置(靠近管理交换机),实现管理流量与业务流量物理隔离。 l1152张GPU理论总算力超46PFLOPS,可满足千亿参数大模 l主流GPU服务器支持8卡PCIe4.0插槽更具性价比(4卡算力密度低且占用更多机架,16卡需搭配高端服务器成本高) 智算网络拓扑设计思路 方案设计说明: 1、AI计算集群:AI计算集群间采用4*400GB RDMA网络,满足高带宽低时延通信需求;各节点同时通过25G网卡接入上联裸金属TOR并接入业务核心交换机。 2、HPC计算节点:采用100GB RDMA网络搭建超算集群,各节点同时通过10G网卡接入上联业务TOR,再上联接入存储核心交换机。 3、通用计算区:各服务器通过25G网卡接入上联计算TOR,为租户提供云主机、块存储等产品。 4、高性能存储:通过100G网络组成并行文件存储集群,提供给超算及智算集群使用。 5、SDN网络区:提供SDN设备,实现VxLAN封装/解封装,完成Overlay与Underlay切换。 6、网络互联区:由管理核心、业务核心、存储核心及汇聚交换机组成,用于南北向以及东西向流量。 7、管理区:提供带外和带内管理,带外通过1个GE网卡接入IPMI交换机,带内通过10GE接入管理TOR。 8、出口区:配置公网出口、专线接入以及运维专线等网络,满足公网用户、运维人员接入需求。 网络分层拓扑图分层结构 网络拓扑简图 1.管理平面:1.管理节点通过10G高速通道(带内)和1G应急通道(带外)连接管理交换机 2.带内交换机通过40G链路与核心交换机互联,形成管理流量汇聚中枢2.计算集群: 1.每台GPU服务器通过2条25G链路连接Leaf交换机(业务流量)2.同时通过10G/1G链路分别连接带内/外管理交换机(监控与应急)3.网络核心: 1.Leaf-Spine-Core构成三级CLOS架构,400G链路支持无阻塞传输2.Leaf与Core之间26条400G链路(3主用+ 0.25备用/Leaf),通过MPO分线盒实现高密度互联 l接入层:Leaf双机负载分担(S6850-56HF);GPU服务器全冗余连接(直连) 4.安全与出口:1.防火墙通过10G链路过滤Leaf业务流量,100G链路连接出口路由器 2.出口路由器双链路连接防火墙,运行BGP协议实现公网接入 网络分层表 既支撑了物理网络的高效扩展、东西向性能与敏捷运维,又实现了逻辑层弹性扩展、虚拟机无缝迁移(跨机柜/POD)与多租户隔离基于Spine-Leaf(脊-叶)物理拓扑构建的Underlay网络,叠加EVPN控制平面+VXLAN数据平面组成的Overlay逻辑架构(大二层)组合, 设备连接关系表(分层互联逻辑) 机柜布局 核心架构:400G Spine-Core骨干连接、400G Core-Leaf汇聚连接服务器接入:每台Leaf连接18台GPU服务器、25G高速业务连接管理平面:带内管理10G光口连接、带外管理1G电口连接安全边界:防火墙双机热备、纵向连接核心和接入层、横向连接出口路由器 技术实现要点•端口聚合(LACP):管理节点→管理交换机:2条10G链路聚合,带宽20Gbps,故障切换时间<50ms。Leaf → Core/Spine:多条400G链路聚合,支持TB级带宽。GPU服务器→Leaf交换机:2条25G链路聚合,提供50Gbps冗余带宽,支持链路负载均衡。•MPO光口复用:400G链路通过12芯MPO分线盒,单端口承载3条400G链路(4芯/链路),提升布线密度。•降速适配技术:25G端口降速至10G连接防火墙,100G端口降速至10G连接出口路由器,通过光模块实现速率转换。•冗余设计:双管理节点、双Core交换机、双防火墙构成全冗余架构;关键链路(如Leaf→Core)配置10%备用链路(26条= 24主用+2备用);防火墙Active-Active模式,通过心跳线同步会话状态。•介质适配:40G QSFP+到400G QSFP-DD的转换使用专用适配器 计算平面机柜物理部署(示例) 计算区:144台GPU服务器分置48个机柜(3台/柜),每6柜配置2台Leaf交换机(顶柜部署)。核心区:2台核心交换机+ 2台Spine交换机部署于独立机柜