AI智能总结
超算互联网联合体 二〇二四年四月 序言 过去20多年,中国的高性能计算事业取得长足的进步。在“机器、应用、环境”三方面协调均衡发展的方针指导下,自主研发的超级计算机11次位居世界超算T0P500第一,大规模并行计算应用三次获得世界高性能计算应用最高奖“戈登·贝尔”奖,基于互联网构建的国家高性能计算环境得到广泛应用,支撑了国家重要的科学研究和工程建设项目。 近年来,人工智能和大模型的发展对算力提出了前所未有的新需求,算力水平已经成为衡量一个国家科技与经济水平的重要指标。但另一方面,急剧变化的国际环境和日趋严重的外部限制与封锁,对我国高性能计算的可持续发展提出了严峻挑战。在外部严格封锁的条件下,软硬结合、系统优化、应用为先是打破困境的必然出路,以应用成效论英雄,从机器性能世界领先转向应用成效世界领先,应该成为我国高性能计算发展追求的新目标。 超算互联网正是在这个背景下提出的重要任务。所谓超算互联网,是一种基于互联网理念,借鉴互联网应用的成功经验而发展的计算基础设施。它追求计算应用资源的互通和共享,为最终用户提供优质的计算应用服务,帮助用户用计算解决应用问题。同时,它又具有商业模式,通过资源提供、应用运营、应用升发各方的通力合作,获得自身可持续发展的资金和资源。在科技部、工信部的指导下,已经成立 了国家超算互联网联合体,正在为超算互联网的建设而努力。 本白皮书的撰写和发布恰逢其时。首先,它将使联合体的成员进一步统一思想,凝聚共识,共商大计,明确做什么?怎么做?促进成员间目标和步调的一致。其次,通过论述超算互联网的技术架构、运行机制、应用形态和运营模式,有助于更加科学地开展超算互联网的顶层设计,系统性地安排资源弹性汇聚调度、应用平台和应用商店构建、应用软件开发部署机制等关键支撑技术的研发工作。第三,白皮书所阐述的理念和技术体系将指导超算互联网应用的开发,不断丰富超算互联网的应用资源,对最终用户提供更加优质的服务。最后,白皮书的发布也有助于社会公众了解什么是超算互联网,激发使用超算互联网完成自身业务的兴趣,拓宽各行各业对超算互联网的使用和参与。同时,也有助于潜在的投资主体了解超算互联网的理念和潜力,吸引多方投入共建超算互联网。 真切希望超算互联网白皮书的发布能发挥其在传播理念、凝聚共识、科学规划方面的独特作用,促进超算互联网的技术研发,促使超算互联网理念和愿景的早日落实,推动我国高性能计算技术和应用的水平迈上新台阶。 中国科学院院士、超算互联网总体专家组组长 钱德沛2024年2月7日 前言 数字经济时代,算力成为新型生产力。以计算为基础的数值模拟、数字仿真、大数据分析、人工智能等求解问题的方法,正带来新的生产、科研和治理范式。超级计算能力是衡量一个国家或地区科技竞争力和综合实力的重要标志,有赖于机器、应用、环境三位一体协调发展。超算互联网是要用互联网化的理念、思维、模式、技术、平台、机制来运营现有超算基础设施,实现降低算力使用门槛,提高资源利用效率,培育自主软件生态,促进算力泛在应用,推动跨界融合创新, 本白皮书在征求、吸收超算互联网联合体众多专家的意见建议的基础上,梳理当前我国超算基础设施与服务环境面临的机遇和挑战,提出超算互联网的基本概念与重要特征,描绘超算互联网的自标愿景与生态价值链,明确超算互联网应当具备的关键能力;描述国内外超算基础设施互联共享的发展现状,梳理超算网格、超算服务化、超算互联网的发展脉络;提出超算互联网的参考模型,梳理各层级功能特征与关键技术问题,明确制订超算互联网标准规范体系的要求;提出超算互联网的参考运营架构,明确超算互联网应具备的运行机制;展望超算互联网创新的使用模式及丰富的应用场景;最后,从技术攻关应用示范、标准制订、人才培养、数据共享等方面提出行业发展倡议。 本白皮书还有诸多不足,期待各方批评指正,共话未来! 目录 发展背景 基本概念5 (一)概念特征5(二)目标愿景6(三)关键能力(四)参考模型12(五)概念演进13 三、发展现状.16 (一)发达国家高度重视超算设施互联共享16(二)中国推动超算网格向超算互联网升级21 四、技术架构。31 1.资源层322.平台层383.服务层414.应用层44 (二)关键技术问题45 (三)标准规范体系50 超算互联网白皮书www.scnet.cn五、运营管理53(一)运行机制,54(二)参考运营架构56(三)超算互联网联合体60六、应用展望62(一)创新的使用模式62(二)丰富的应用场景631.人工智能642.科学计算663.工程计算70七、发展倡议73八、附录,76(一)附录1:缩略语76二)附录2:参考文献77 图/表目录 图1中国超算产业三位一体协调发展策略3图2超算互联网的重要特征5图3超算互联网支持多方生态协作图4超算互联网应具备的关键能力9图5超算互联网参考模型.13图6从超算网格到超算互联网的演进关系14图7EuroHPC(2021-2027)发展策略框架19图8日本高性能计算基础设施(HPCI)分布20图9中国超算基础设施网络化发展历程21图10“十三五”国家高性能计算环境23图11超算互联网总体参考架构31图12超算互联网标准体系51图13超算互联网主要参与方及其关系53图14超算互联网运营商参考运营架构.57图15国家超算互联网联合体正式成立仪式60表1EuroHPCJU纳管的超级计算机列表19 一、发展背景 当今世界,人类社会正循看网络化、数字化、智能化的方向快速发展。人类社会空间、物理空间和信息空间日益紧密融合,以5G、人工智能、先进计算为代表的新一代信息技术加速向各领域渗透。特别是近年来以ChatGPT、AlphaFold2、Sora为代表的新一代人工智能技术,作为变革性力量,带来全新的生产方式、科研范式和治理模式。先进计算成为求解问题、探索未知世界的重要方法,数值模拟、数字仿真、大数据分析、人工智能等手段普及应用,支撑科学研究、技术发明、产品开发、工业制造与社会治理。计算能力与算法、数据、模型等要素相互融合,成为数字经济时代的新质生产力。 近期,工业和信息化部等六部门印发《算力基础设施高质量发展行动计划》,国家发展改革委等部门印发《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,明确提出算力是数字经济时代的新型生产力。算力网是支撑数字经济高质量发展的关键基础设施,可通过网络连接多源异构、海量泛在算力,实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需。在国家实施“东数西算”战略的背景下,以新型数据中心、超算中心、智算中心为代表的算力基础设施正加速部署。截止自前,我国已启动建设8大国家级算力枢纽节点和10个数据中心集群,已建成十多个国家超级计算中心,超40个城市在建智算中心,25个国家新一代人工智能公共算力开放创新平台获批建设,全国一体化算力网正加快构建。 超级计算能力是衡量一个国家或地区科技竞争力和综合实力的 重要标志。超级计算已广泛应用于航空航天、工业仿真、气象环保、油气勘探、人工智能、新能源、新材料、生物医药、智慧城市、基础科研等众多领域,在应对重大挑战性问题,促进传统产业转型升级,提高人民生活水平,促进重大科学发现等方面发挥着不可替代的作用。多年来,在中国科技计划的持续支持下,我国超算产业坚持“机器、应用、环境”三位一体协调发展策略,在机器研制、关键应用、服务环境等方面已处于世界前列,“神威”、“天河”、“曙光”系列超级计算机已多次占据全球超级计算机性能TOP5OO领先位置,大气模拟、地震模拟、量子模拟、分子动力学模拟等关键领域大规模并行应用获得戈登·贝尔(GordonBel1)奖,全国范围建成十多个国家超级计算中心、中国国家网格(ChinaNationalGrid,CNGrid)等战略性信息基础设施。同时,总体上看,我国高性能计算软件与应用的发展相对不足,应用生态也不够丰富,高性能基础和应用软件大量依赖国外软件,存在“卡脖子”的风险"。建立发展高性能计算的生态环境,需要形成一个从基础研究、技术突破、产品研发到应用推广的协作共司体,不是简单的链条,而是相互关联的社会网络。 随着数字化转型不断深入以及国际地缘政治形势变化,我国超算产业面临新的机遇与挑战: 人工智能带来AIGC、大模型、AIForScience、AIForTechnology等新兴应用,催生巨大算力需求,并驱动超级计算与人工智能融合发展;云计算、APPStore等互联网新平台新应用冲击传统的超算资源管理与用户服务模式,超算中心巫需从“卖机时”向“提供应用服务与解决方案”升级;全国范围内不同体系结构、归属不同运营主体的多源异构算力需要互联、集成与统一调度,以实现资源高效利用:随着更多超算中心、智算中心建成,需探索形成更加有效的竞合机制与商业模式,实现计算服务行业可持续发展;“东数西算”背景下,大数据洪流(datadeluge)带来的数据传输问题备受关注,需升级网络基础设施,优化大规模数据 远程传输效率; :中美贸易战、科技战凸显新时期我国解决芯片、基础软件等“卡脖子”问题,加快建设自主软硬件生态的紧迫性。 上述问题与挑战,对我国进一步发展超算基础设施及其服务环境提出了更高要求。 放眼世界,构建具备高效的数据传输、资源共享、算力调配、生态协作能力的超算基础设施网络,也是发达国家塑造高性能计算竞争优势的重要策略,例如美国的能源科学研究网络ESnet(EnergySciencesNetwork)、欧盟的高性能计算共同体计划EuroHPCJU(TheEuropeanHighPerformanceComputingJointUndertaking)、日本的高性能计算基础设施HPCI(HighPerformanceComputingInfrastructure)等。2023年4月17日,国家超算互联网正式启动部署,并成立了国家超算互联网联合体。超算互联网将在以往中国国家网格CNGrid以及业内高性能计算云(HPCCloud)实践的基础上,全面利用互联网化的理念、思维、模式、技术、平台、机制来运营超算基础设施,打造具备互联网理念与特征的新一代高性能计算服务环境,实现降低算力使用门槛,提高资源利用效率,构建自主软件生态,培育科技人才队伍,促进算力泛在应用,推动跨界融合创新,提升超算环境服务能力等自的。 值得一提的是,本白皮书讨论的超级计算,是相对广义的概念,涉及超级计算、高性能计算、智能超算等,包括硬件、软件、算法、应用、产业生态环境。 二、基本概念 (一)概念特征 在全球新一轮科技革命和产业变革中,互联网与各领域的融合发展具有广阔前景和无限潜力,已成为不可阻挡的时代潮流。超算互联网是具备互联网理念与特征的超算基础设施,是互联网化的高性能计算服务环境,是互联网创新成果与算力基础设施运营的深度融合。超算互联网不仅要在各算力中心之间形成高效数据传输网络,更要构建和完善全国一体的算力调度网络和面向应用的生态协作网络。 超算基础设施深度融合互联网的理念、思维、模式、技术、平台与机制后,将呈现以下重要特征: 开放性:通过类电商平台、应用商城(APPStore)、开源社区等平台,为创新、交互与合作提供开放包容的环境和条件; 便捷性:通过高速网络、云、XaaS、移动APP等技术和服务模式,让算力使用、数据传输、应用服务更加高效便捷; 交互性:通过线上交易、线上社区、线上培训等机制模式,促进供需方、产学研、上下游之间广泛交流与协作; 资源共享:利用网格、云、容器、隐私计算、XaaS、区块链等技术,促进算力、数据、算法、模型等资源共享与流通; 创新驱动:大幅降低超算使用门槛,支持丰富应用场景,让更多用户便捷使用模拟仿真、大数据分析、AI等新手段,进行科学研究和工程技术创新; 跨界融合:通过面向工业、材料、生物、能源等行业的领域应用平台,让HPC、AI技术高效赋能行业转型升级; 泛在化:实现跨区域、跨架构、跨层级、跨运营主体的一体化算力调度,让算力无处不在,用户