您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[紫金山实验室]:未来网络白皮书系列:智算网络技术与产业白皮书 - 发现报告

未来网络白皮书系列:智算网络技术与产业白皮书

AI智能总结
查看更多
未来网络白皮书系列:智算网络技术与产业白皮书

版权声明 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。 主要编写单位: 紫金山实验室、北京邮电大学、华为技术有限公司、中兴通讯股份有限公司、中移(苏州)软件有限公司、中移(杭州)信息技术有限公司、天翼云科技有限公司、上海邮电设计咨询研究院有限公司、北京交通大学移动专用网络国家工程研究中心、浙江大华技术股份有限公司、科大讯飞股份有限公司、苏州盛科通信股份有限公司 主要编写人员(排名不分先后): 黄韬、汪硕、高新平、肖玉明、徐鹍、李振红、时定兵、赵芷晴、杨彩云、韩红平、黄文浩、袁辉、胡秀丽、郑晓龙、徐峰、龚翔宇、吴涛、符哲蔚、陆振善、张佳玮、谷志群、李和松、段威、陆诗莹、贾玉、赵怡、成伟、王俊杰、罗远、刘静、马玉寅、彭天皓、吕宵双、杨志逵、刘耀华、史银妹、刘文斌、王国栋、周春旭、张涛 前言 当前,以生成式人工智能为代表的通用人工智能技术在全球范围内引起了广泛关注,并以前所未有的速度、广度与深度催动经济和社会发展,掀起了新一轮科技革命与产业变革。在人工智能产业发展过程中,智算网络发挥了基础性支撑作用。业界基于高性能网络构建算力集群,从而突破单点算力的性能极限,实现智算中心内外的算力协同与数据交互,并进一步打破智算中心的烟囱式孤立局面,实现更大规模的算力互联,为AI技术发展与科技创新提供强有力的支撑。 智算算力互联的实现依赖于一个能够支持高性能计算任务的网络环境,这要求智算网络必须具备超大带宽、超低时延、零丢包和稳定可靠的数据传输能力,以确保数据传输的及时性、完整性与准确性,从而满足智算业务对算力资源的按需取用与高效利用需求,并支持面向未来多样化智算应用场景提供定制化的网络服务。 针对上述挑战,本白皮书首先系统性梳理了当前智算网络领域的政策背景、产业动态以及技术发展脉络,并深入探讨了未来智算产业对网络能力的核心诉求,分析了高性能智算环境在网络带宽、时延、抖动、丢包等方面存在的挑战,由此引发对智算集群内与集群间核心支撑技术的讨论,涉及新型网络架构、超宽可编程转发、负载均衡、光电融合组网与路由、广域RDMA等关键技术。随后,结合智算网络产业的典型案例,阐释了上述关键技术在智算基建建设中的应用。最后针对智算网络提出了技术与产业发展建议,旨在为行业从业者、 决策者及研究者提供一定参考,以推动智算网络技术的创新与应用。 目录 前言......................................................................................................I目录...................................................................................................III 一、智算网络技术与产业发展概况........................................................1 (一)政策态势.................................................................................1(二)产业形势.................................................................................3(三)技术趋势.................................................................................6 二、智算产业对于网络的核心要求......................................................11 (一)网络带宽要求.......................................................................11(二)网络时延要求.......................................................................11(三)网络抖动要求......................................................................12(四)网络丢包要求......................................................................13 三、智算集群内网络关键技术..............................................................15 (一)新型网络架构......................................................................15(二)超宽可编程转发技术..........................................................22(三)无损网络技术......................................................................26(四)网络负载均衡技术..............................................................40(五)端网协同的NetMind跨层通信架构.................................46 (一)光电融合组网与路由技术..................................................50(二)广域拥塞控制技术..............................................................53(三)广域RDMA技术................................................................57 (四)新型低损光纤技术..............................................................60五、智算网络产业典型案例..................................................................64(一)天翼云昇腾智算项目..........................................................64(二)紫金山新型无损数据中心项目..........................................67六、智算网络技术与产业发展建议......................................................71七、总结与展望.......................................................................................73附录A:术语与缩略语...........................................................................75参考文献...................................................................................................77 一、智算网络技术与产业发展概况 近年来,全球对智能算力的需求急剧增长,推动智算服务进入新一轮爆发期。据统计,2022年全球智能算力规模已达142EFLOPS,并预计2030年将达到16ZFLOPS,年均增速超80%,这种增速奠定了智能算力将成为全球算力规模增长主要驱动力的地位。在此背景下,本章将围绕智算政策态势、产业形式与技术趋势等方面展开深入分析。 (一)政策态势 随着全球科技革命与产业变革的加速,我国高度重视数字基础设施的建设,尤其在智能计算领域。国家通过《“十四五”国家信息化规划》明确了未来几年加强数字基础设施的基调,特别是智能算力基础设施的建设,将成为推动经济高质量发展的核心支撑。 (1)加强政策引导与支持 2017年,国家工信部颁布了《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,明确指出要将人工智能与制造业深度融合,并推动智慧工厂的发展;同年,国务院发布了《新一代人工智能发展规划》,提出要构建以人工智能为主攻方向的创新机构,并逐步增加在该领域的投入;2021年发布的《新型数据中心发展三年行动计划(2021-2023年)》和《“十四五”数字经济发展规划》指出,要推动智能计算中心有序发展,打造智能算力、通用算法和开发平台一体化的新型智能基础设施,提供体系化的人工智能服务;2023年 是AI大模型元年,该年两会报告中多次提及ChatGPT等大模型的人工智能词汇,并提出了关注数据安全与提升产业质量的核心建议和提案;2024年,《政府工作报告》中首次提出开展“人工智能+”行动,标志着人工智能向大规模落地应用发展的态势。 (2)加快数字基础设施建设 在《“十四五”国家信息化规划》指导下,我国正在加快建设泛在智联的数字基础设施体系,包括部署高速可靠的5G网络与大规模卫星互联网,以及建立全国一体化大数据中心。上述措施已在多地实施,显著提升了区域间的数据处理能力与网络响应速度,为经济社会数字化发展提供了强有力的支撑。此外,还优化了全国互联网骨干直联点并加快了IPv6的规模部署,新建了国家级互联网交换中心提升网络效率与数据处理能力。通过发布系列政策,加强智算设施的建设与升级,支撑新感知和新算力设施的快速发展。 (3)强化规划与管理 国家发改委发布的通知中指出,必须制定跨地域、跨系统的数字基础设施建设规划,以确保东西部算力协同发展。通过优化资源配置与推动区域平衡发展,使国内多个地区实现了更为高效的数字基础设施管理。为加强统筹监测,引导东西部算力协同发展,构建全国一体化算力体系,政策已着力制定跨地域、跨系统的数字基础设施建设规划。通过加大对智算资源的规划投资,确保各地区、各行业的数字化转型需求得到有效满足。 (4)推动数字化产业升级 各地方政府正在积极抢占智算先机,推动产业的数字化升级。例如,北京正在建设亦庄等E级智能算力高地,并计划到2027年实现智算基础设施软硬件产品的全栈自主可控;上海在推进“算力浦江”智算行动实施方案,打造高质量智算发展格局;贵州通过与华为云、科大讯飞等企业合作,推动盘古、星火基础大模型在本省落地,并建立公共数据目录“一本账”,力争在数据训练与行业大模型培育方面取得领先优势。 (二)产业形势 我国正在积极推进智算网络标准化进程,以满足人工智能与高性能计算需求。国内智算产业链涵盖从核心技术研发、资源整合到广泛应用的全链条。各大云服务商和电信运营商正在加速构建AI大模型与智算平台,以提升业务流程的智能化水平和效率。 在国内标准化方面,中国通信标准化协会正在主导国内的智算网络标准化工作。当前阶段主要集中在互联互通与基础支撑方面,系统化地推动智算网络的总体技术要求、无损协议、广域网能力要求、存算一体、设备平台互联互通、安全等标准化研究进程。2023年,中国联通、中国电信、信通院、紫金山实验室围绕下一代网络演进(NGNe,NextGenerationNetwor