AI智能总结
Focusing on six key areas of the compute network—computing, storage, 绿网络、应用、低环境影响(色)和安全——这项活动旨在识别一组企业和公共机构2拥有关键核心技术(关键核心技术)并展现出强大的创新能力,以实现一系列标志性技术产品和解决方案的重大突破。为了巩固算力(compute)网络发展的基础,加速创新技术和产品的应用,推动“点、链、网、体”的系统化发展1在计算网络方面,我们在此启动算力基础设施揭榜行挑战活动。强动). 相关事项详述如下:在计算领域,工作将集中于应对智能计算等技术。3管理和计算加速以提升计算性能和效率。在内存领域,将开发多媒体存储设备管理和跨域内存资源池协调等技术,以实现海量数据的可靠和灵活存储。在 networking 领域,将在 intra-compute 等技术方面取得突破。自治区、省级行政区以及相关的中央企业:I.挑战 (揭榜) 任务3译注:“智能算力”(“intelligent compute”;智能算力;智算)通常指为人工智能(AI)模型训练、推理或使用而专门设计和优化的计算能力。1译注:中国工业和信息化部(MIIT;工业和信息化部;工信部)使用“点、链、网、面”的口号来指代其提升中国计算能力(“计算”)基础设施的愿景。“点”指提升每个独立数据中心的品质,包括减少产能过剩、满足市场需求和提升能源效率。“链”指提升数据中心间的技术应用,增强软硬件生态系统,并确保符合通用标准。“网”指与中国电信运营商合作,提升网络的速率和稳定性。“面”指促进计算在各关键行业的新应用场景和用例。2译注:“公共机构”(事业单位)是指由中国政府部门创建和领导的、承担多种职能的组织。值得注意的是,中国的大学、研究机构医院通常属于公共机构。与国有企业(SOE)不同,公共机构不生产物质产品且为非营利性质。公共机构不被视为政府机构,其员工也不属于公务员。大多数公共机构为全额或部分政府资助,但存在一些完全由私人资助(但仍然由政府领导)的公共机构。 2 3II. 应用与建议III. 工作流程与要求(2) 各省、自治区、直辖市行业和信息化主管部门、通信管理机构以及相关中央企业,应组织相关单位,根据政府引导下企业自愿参与的原则,积极组织申报挑战赛。作为推荐单位,应遵循公开、公平、公正的原则,在评审、遴选和推荐具有突出创新能力、良好产业化前景和显著产业带动效应的项目时,并报工业和信息化部(信息通信发展司)。(1) 申请人实体必须是中华人民共和国(PRC)内注册的企业或公共机构。4拥有独立的法人资格,并展现出在技术创新和工业化应用方面的强大能力。申请人应从挑战任务中选取计算电力基础设施增强挑战活动任务清单(参见附录)并且必须承诺在指定的时间范围内完成选定的任务。每个实体最多可申请三个项目。如有关企业、大学或科研机构联合申请,应有牵头单位,联合参与单位不得超过四个。网络(算内网络)和互计算网络(算间网络)以促进计算资源的高速互联。在应用领域,将着力推动计算与产业的深度融合,以实现在多种场景下的便捷计算使用。在低环境影响领域,将研发新型冷却方法以及碳排放感知优化(碳排放感知优化)等技术,以驱动计算基础设施的节能减碳。在安全领域,将推广智能监控和运维(O&M)机器人等技术,以确保计算中心的可靠运行。(1) 申请人实体应通过指定系统(https://gs.hcp.ac.cn)进行申请。完成注册后,应填写所需的应用材料。申请截止日期为2025年3月15日。4Translator's note: The Chinese word 境內jìngnèi,译为\"中华人民共和国 (PRC) 内部,\"字面意思是\"在[中国大陆] 边界之内。\"中国将香港、澳门和台湾视为中国的一部分,但不视为\"PRC 内部。\ 4联系人及电话:技术支持部门:IV. 联系方式(2) 各省、自治区、直辖市工业和信息化部门、通信管理部门以及相关中央企业作为推荐单位,须于2025年3月31日前登录系统并确认推荐申请人的名单(账号密码可向联系人获取)。原则上,每个推荐单位每个方向最多可推荐三个项目,所有方向推荐项目的总数不超过20个。推荐单位应根据实际情况,鼓励为所推荐的申请人提供政策、资金和资源配置等方面的支持。(3)工业和信息化部(MIIT)将组织评选过程,并公布入选挑战赛选手名单。在完成其挑战任务(自公布之日起不超过两年内),MIIT将委托第三方专业机构进行评估,并基于实绩(原则上每个挑战方向最多选不超过三人)选拔获胜选手。MIIT将协调并整合各类资源,支持入选及获胜选手,推动优秀成果的示范与应用。中国信息通信研究院 (CAICT): 13701380040MIIT Department of Information and Communications Development ( 信息通信发展 司): 010-68206162Ministry of Industry and InformationTechnology Office February 18, 2025 计算基础设施增强挑战任务清单附录I.预期结果:到2026年,开发一个支持至少五种类型应用程序软件全生命周期管理的应用软件管理系统,包括传统软件、云原生应用、人工智能(AI)应用和大数据应用。研究基于计算-网络协同的分布式构建和部署技术,以实现上述软件在计算节点上的自动分布和部署,无需人工干预。为计算-网络应用开发集成观测功能,具备白盒动态分析和智能故障根源定位能力。在至少三个行业完成试点验证。挑战任务:开发一个适用于跨越云、边缘和终端的多层计算环境的计算-网络协同应用管理系统。设计针对不同应用软件架构的定制化管理机制,以实现跨各类软件的统一管理。在计算-网络协同中,为应用软件开发自动化构建和部署能力,支持自动构建和分发。研究计算-网络协同应用系统的集成观测能力,以降低运维复杂度,提升复杂应用软件的运行稳定性和可靠性。挑战任务:针对大规模AI模型在训练和推理中的计算资源需求,开发一个集成化智能计算平台,支持超大规模参数模型。该平台应包括资源调度策略和训练–推理加速工具包,支持多种硬件架构,抽象化底层硬件差异,并提升超大规模模型在训练和推理过程中的稳定性、资源利用率和运维效率。 计算(1) 云边端计算网络协同管理系统预期结果:到2026年,开发集成智能计算。(2) 用于超大规模参数模型训练和推理的集成智能计算平台 5 6(3) 跨域任务协调系统用于异构计算(4) 整合计算全功能解决方案,用于训练和推理挑战任务:开发一个跨域异构计算管理系统,以实现跨域异构计算资源的协调和应用。开发适用于不同计算类型的标准化和开放性互连功能,支持异构计算模型的统一抽象和封装。开发跨域异构计算管理功能,以支持跨域的统一管理和协调。研究跨域多实体计算的安全认证和控制方法,以确保安全跨域协调。一个支持具有万亿参数模型的平台。在万卡5环境,确保稳定培训时长不少于30天,有效培训时间不少于95%。培训效率应比当前主流水平提高至少30%,推理效率应提高至少50%。平台应支持主流深度学习框架,兼容多种硬件架构,并提供统一的编程接口和开发环境。该解决方案应通过至少10名行业用户的部署进行验证。预期结果:到2026年,开发不少于六种跨域协同调度算法。支持在不少于三种场景下部署计算任务,例如数据处理、函数计算( 函数计算 )和机器学习。实现不少于五个跨域计算中心的统一管理。开发多实体跨域计算的安全认证方法,以满足云、边缘和终端等计算层级的协同安全要求。完成不少于两个行业的试点验证。挑战任务:针对AI训练和推理场景,开发基于基础设施即服务(IaaS)和平台即服务(PaaS)的高性能一体化解决方案,用于训练和推理。该解决方案应涵盖大型模型开发、训练、评估和推理部署的全过程。同时,它应支持大型模型加密和网络安全防御等能力,以应对数据泄露和针对大型模型的指令攻击(指令攻击)等安全问题和风险。5译注:“万卡”(Ten-thousand-card)是指由超过10,000张加速器卡组成的集群,例如图形处理单元(GPU)、张量处理单元(TPU)或其他专用人工智能加速芯片,这些卡用于加速人工智能模型的训练和推理。 (6) 磁光电一体化存储系统II. 存储挑战任务:鉴于当前单一存储介质难以满足多样化数据存储需求的困境,依托磁、光、电存储技术在不同性能、寿命和功耗方面的差异化特性,开发磁光电融合存储系统(磁光电融合存储系统)。构建基于固态硬盘(SSD)、硬盘驱动器(HDD)和光存储的多级存储架构。根据业务需求,在不同存储设备层级上存储数据,以实现海量数据的集中化统一管理,并支持计算中心高效、低碳、安全及可持续发展。预期结果:到2026年,实现集群有效吞吐量至少增长500%,实际应用场景中处理的请求数量至少增长100%,首次令牌响应时间至少提升100%,芯片利用率至少提升50%。通过优化计算中心中计算、存储和网络资源的分配,以及拓扑结构和系统调度策略,突破包含超过1,000张加速卡的非均质集群推理加速限制。挑战任务:开发内存、网络和计算相协调的优化技术,并采用模型加速和调度加速等方法,以加速大规模异构计算集群中大型模型的推理,从而支持更大的模型、更长的上下文长度、更高的性能以及更低的能耗,并促进计算芯片在大型模型推理中的改进应用。预期结果:到2026年,开发一种磁光电一体化存储系统,该系统能支持至少三种类型的存储,例如分布式文件、分布式块和分布式对象。该系统应支持基于数据访问时间、访问频率和文件属性的自定义分层策略,并预期结果:到2026年,开发一个支持至少三种指令集架构芯片的集成式训练-推理计算解决方案。在全领域至少五个行业应用该集成式解决方案,为用户提供多样化的集成式训练-推理服务,并在至少十个不同场景中实现集成式AI训练-推理解决方案的部署。(5) 用于大规模异构计算集群的推理加速技术 7 (8) 高性能数据处理单元 (DPU)(7) 存储调度管理与应用技术III. 网络挑战任务:应对海量数据存储和计算孤岛带来的挑战,开发跨域多计算(多算)存储容量(存立)调度系统、存储-网络编排系统以及集成存储-计算-网络系统。此类系统应能实现数据智能分层至热数据与冷数据类别、跨域无缝访问应用,并降低成本、提升性能和增强业务支持。系统应具备资源规划与策略调整功能,支持在全网络范围内优化和动态重组数据存储布局,以满足持续变化的需求。预期结果:到2026年,开发一套高效且可扩展的存储系统,该系统使用智能算法分析并调度数据,实现无缝应用访问和智能数据迁移。研究存储容量调度策略,将数据召回率控制在30%以下。研究基于潮汐网络模式的调度算法,提升网络带宽利用率超过50%,并实现存储与网络的融合。整合存储、计算和网络的能力,以支持存储-计算-网络资源的统一调度,并在计算中心资源池中实现部署。动态根据业务负载调整数据迁移。应通过媒体安全、系统安全及软件安全强化底层安全能力,并通过勒索软件防护、加密算法、远程监控、光存储预警与检测提升数据安全。建设一体化存储系统的应用示范,在不少于20个业务系统中完成应用部署,并实现至少四个东部地区的累计数据量不少于10 PB的数据向西部一体化存储系统的迁移。挑战任务:开展基于芯粒架构和第五代精简指令集计算机(RISC-V)技术的集成硬件-软件DPU芯片技术研究。该DPU应支持需要超高带宽和超低延迟的场景,例如计算中心、智能计算中心和超级计算中心。在异构芯粒封装、高速序列器/解序列器(SerDes)通信、大规模无损网络拥塞算法以及硬件等关键技术上取得突破。 8 预期成果:到2026年,实现一个支持智能的光网络。(9) 基于RoCE的智能计算网络挑战任务:开展针对Converged Ethernet (RoCE)网络中远程直接内存访问 (RDMA) 设备和控制系统的研发工作。通过增加设备带宽、优化负载均衡算法以及提升网络流量规划和运维能力,提高RoCE网络的吞吐量和延迟