您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024中国算力大会]:中国智算中心服务发展报告(2024年) - 发现报告

中国智算中心服务发展报告(2024年)

AI智能总结
查看更多
中国智算中心服务发展报告(2024年)

版权声明 本报告版权属于2024中国算力大会,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:《中国智算中心服务发展报告(2024年)》”违反上述声明者,将追究其相关法律责任。 前言 在当今数字化经济加速发展的时代背景下,算力已成为推动经济社会发展的重要引擎。近年来,我国算力中心总体规模持续扩大,算力总规模显著增长,为数字经济的蓬勃发展提供了强有力的支撑。然而,随着行业智能化转型的加速,对算力的需求也日益多样化、复杂化,传统服务模式已难以满足当前及未来市场的需求。因此,探索并构建智算中心服务模式,助力人工智能技术加速赋能行业应用,对于推动我国数字经济高质量发展具有重要意义, 智算中心服务是随着数字经济的快速发展和人工智能技术的广泛应用而逐渐形成的重要服务形态。覆盖从基础设施规划建设到行业智能应用的全过程,旨在为行业提供高效、可靠、绿色、智能、系统性的服务,支撑行业智能化转型。《中国智算中心服务发展报告(2024年)》阐述了我国算力中心发展现状与智算中心服务供需背景,提出了智算中心服务体系的框架与内容,分析了产业发展态势及未来趋势为政府决策和企业实践提供了参考。时间仓促,报告仍有诸多不足愿请各界批评指正。后续我们将不断更新完善,如有意见建议请联系中国信通院研究团队:dceco@caict.ac.cn。 目录 、智算中心发展概述,(一)我国算力总规模持续扩大,数字经济发展步伐加快(二)我国出台一系列政策文件,推动算力中心高质量发展(三)智能算力成为数字经济发展新引擎,市场规模不断扩大:二、当前智算中心发展面临的间题,(一)电力消耗大、硬件资源利用率低等管控运维问题.(二)模型训练资源需求大、迁移部署难度高等开发问题.10(三)高质量数据获取困难、应用开发技术门槛高、落地难等问题....11(四)在技术创新和体系建设过程中面临硬件与软件协调的间题..:..13三、智算中心服务体系15(一)基础设施类服务,16(二)模型开发与支持类服务27(三)场景应用类服务32(四)智算中心服务特征.CODCC四、智算中心行业应用场景五、智算中心服务发展趋势及展望..45 图目录 图1我国算力基础设施总体规模图2我国算力结构图图3智算中心服务结构图:15图4业务分析主要工作内容.18图5规划建设主要工作内容,22图6完善运维体系建设25图7通用大模型行业训练微调应用流程图,31图8典型行业知识库应用流程图CODCC 表目录 表1部分国家出台相关政策文件表2部分地方政府出台相关政策文件 智算中心发展概述 (一)我国算力总规模持续扩大,数字经济发展步伐加快 算力是集信息计算力、网络运载力、数据存储力于体的新型生产力,对助推产业转型升级、赋能我国科技创新、满足人民美好生活需求具有重要意义。算力中心作为数据计算、存储、交换的重要场所,是数字技术与实体经济深度融合的必要条件。 当前我国算力基础设施总体规模持续扩大。作为新一轮科技革命和产业变革的重要基础支撑,算力已成为大国博奔的核心和关键。算力规模持续增长且智能算力成为增长的主要驱动力,主要应用已经逐步从互联网、电信等行业向政务、金融、教育、制造等领域拓展,算力应用持续赋能经济社会发展。据中国信通院统计,我国在用机架数量三年复合增长率约30%。截至2023年底,全国在用算力中心机架总规模超过810万标准机架,算力总规模达到230EFLOPS(每秒百亿亿次浮点数计算)。我国算力基础设施总体规模如图1所示。 算力底座进一步夯实,为推动数字经济发展提供核心力量。随着云计算、大数据、人工智能等技术的深度融合,算力底座正展现出更加坚实与灵活的特性。此外,依托强大的算力,大模型可实现高效训练与顺畅应用,使其在应对复杂任务时显得游刃有余,持续推动人工智能技术的蓬勃发展。截至2023年底,我国算力总规模超过230EFL0PS(FP32),其中智能计算年增速超70%,势头强劲。我国近三年算力结构如图2所示, 智算中心作为新一代信息技术的重要枢纽,为数字经济发展注入新动能。算力在驱动数字产业化发展进程中发挥辐射带动作用,提升5G、大数据、人工智能、云计算等新一代信息通信技术的创新活跃度。得益于算力的增强,大数据在行业应用更加迅速、分析更为精准。如在医疗行业,智算中心助力医学影像精准分析,加速疾病预测与药物研发;在交通行业,助力智能交通系统的流畅运行,保障自动驾驶的安全与高效:在金融领域支撑风险控制服务,提供个性化投顾服务: 在工业制造领域,智算中心推动智能制造发展,优化供应链管理;在教育行业,为教师提供可行化教学方案,对授课效果进行智能化分析实现智能教学辅助 (二)我国出台一系列政策文件,推动算力中心高质量发展 行业提出了发展要求。2023年10月,工业和信息化部等六部门联合印发《算力基础设施高质量发展行动计划》,从计算力、运载力、存储力以及应用赋能四个方面提出到2025年的发展量化指标,引导算力基础设施高质量发展。2023年12月,国家发展改革委等部门发布《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,以期进步实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需。2024年4月,国家发展改革委办公厅、国家数据局综合司印发《数字经济2024年工作要点》,提出适度超前布局数字基础设施,深入推进信息通信网络建设,加快建设全国-体化算力网,全面发展数据基础设施。部分国家出台相关政策文件如表1所示 随着国家陆续出台多项政策,各地方政府纷纷响应号召。北京上海、广东、河南、贵州、山东、江苏等地相继发布有关政策,加大投资建设规模,结合自身发展情况,提出相应发展路线。具体来看,北京强调集中建设一批智算单大集群,改变智算建设“小、散”局面:上海明确到2025年算力规模需超过18000PFL0PS(FP32):深圳则对通用算力、智能算力、超算算力规模做出计划,到2025年通用算力达到14EFLOPS(FP32),智能算力达到25EFLOPS(FP16),超算算力达到2EFLOPS(FP64);河南省计划到2025年,智算和超算算力规模超过2000PFLOPS,高性能算力占比超过30%;贵州围绕高可靠、高可用目标,重点布局智算基础设施,构建低时延人工智能算力基地全国低成本中心、高安全中心;山东则提到要引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局:江苏省计划构建新代云计算、智能计算、超算、边缘计算等多元算力供给体系部分地方政府出台相关政策文件如表2所示。 (三)智能算力成为数字经济发展新引擎,市场规模不断扩大 智能算力为数字经济发展注入新动能。大模型发布引发了各地算力需求爆发,但大模型热潮之外,数字化转型对算力需求的增加才是主要原因。自《生成式人工智能服务管理暂行办法》发布以来,我国政府加大对人工智能技术发展的支持力度,鼓励将人工智能技术与实体经济、社会治理、民生服务等领域深度融合,促进技术的产泛应用和产业化发展。智能算力在推动大数据、人工智能、云计算等新一代信息通信技术的创新中发挥了重要的作用,生成式人工智能通过模拟和生成新的数据模式,为企业带来了创新的解决方案和业务模式,在 金融、医疗、教育、制造业等多个领域展现出其商业潜力。智能算力的加入使得行业应用更加迅速、分析更为精准。 生成式人工智能技术商业价值逐步展现,行业应用规模不断扩大。自前我国大量企业正积极挖掘生成式人工智能应用模式,计划在辅助决策、提高效率、资源优化等方面创造竞争优势。IDC显示,67%的企业已经开始探索生成式人工智能在企业内的应用机会并表示将在未来三年持续提高投入力度,近九成企业增幅达到20%-60%,智能化市场的活跃。我国人工智能产业规模从2019年开始快速增长,2021年同比增长达到33.3%,2022年产业规模达到5080亿元,同比增长18%。最新公布的统计数据显示,截至2023年6月,我国人工智能核心产业规模已经达到5000亿,人工智能企业数量超过4400家,仅次于美国,全球排名第二。随着智能化技术的深入发展和应用领域的不断扩展,企业对高效、可靠的算力资源的依赖性将不断增强,特别是在大数据分析、复杂算法训练、实时分析和决策支持等关键环节。在以算力高质量发展支撑数字经济的大背景下,智算中心作为新型信息基础设施的重要组成部分,是新代信息技术发展和数字经济增长不可或缺的一环。 当前智算中心发展面临的问题 (一)电力消耗大、硬件资源利用率低等运营问题 智算中心电力消耗大,建设申报条件门槛高。伴随人工智能的发展,各行业各领域对智能算力的需求快速增长。2023年全年,我国数据中心用电量达到1500亿千瓦时,同比增长15.4%,占全社会用电量的1.63%,约为870万户家庭一年用电量。由于智算中心服务器单机柜功率密度往往更高,且建设趋向大型化规模化,智算中心对电量的消耗相比通用数据中心更大。以一个英伟达DGXH100服务器为例,系统功耗10.2kW,每个月电费成本约为4406元(假设每千瓦时电价为0.6元),随着未来推理需求不断增加,耗电量将进步上升。 近年来,北京、河北、上海、广东、深圳等地对新建数据中心的能耗、选址等提出了一系列要求,要求对建设主体资格、管理制度财务状况、技术创新、资金投入、合作开发、地理位置以及绿色能源使用等多项内容进行检查审批,给一线城市及周边地区的智算中心建设带来了定的难度。 供需颗粒度不匹配,硬件资源利用率低。前CPU、AI芯片的虚拟化能力存在一定局限性,训练过程中物理资源通常以整卡的分配方法提供给用户使用,平均GPU利用率常在40%以下。另方面,随着AI业务迅速发展,在任务类型、任务规模、任务优先级上呈现出差异化需求,任务需求规格与硬件配置通常无法对齐,算力资源碎片化趋势愈发明显。各地智算中心在硬件配置上存在显著差异,如GPU、AI加 速卡和网络架构等差异,这使得硬件资源难以统管理和调度,无法适配不同AI任务对资源的差异化需求,进一步影响了利用率 智算中心管控运维难度大,面临多方面的挑战。AI应用计算量呈几何级数增长,算法模型正向巨量化发展,人工智能模型参数在过去十年增长了十万倍,当前AI超大模型的参数已达千亿级别,建设投资规模通常庞大,往往需要几百上千个GPU/NPU才能完整存储一个模型的训练过程。如北京移动建成的大规模训推体智算中心占地约5.7万平方米,部署了近4000张AI加速卡,智能算力规模超1000P训练期间整个集群的所有部件都需要协同工作,单个组件故障会影响整个训练任务的可用性。例如HBM巡检触发的多bitECC错误、-个服务器节点磁盘I/0缓慢、个光模块的异常,任一组件不可恢复的失效都可能导致训练中断。 AI大模型参数量的快速增长,不仅增加了硬件资源的需求,还对网络的规模、带宽、丢包时延抖动和稳定性提出了更高的标准。硬件资源增加导致组网规模大幅增长,网络管理更加复杂,存在拥塞控制负载均衡的难度增大等问题,传统数据中心接入10G/25G带宽难以满足8张GPU卡满配的网络端口,单端口需求不断向200G甚至400G扩大。目前大部分智算中心采用“建运”分离的模式,多地多中心分期建设的模式存在多种异构硬件资源,不仅不同厂家有着较高的技术摩垒和各自独立的生态系统,计算平合也星现多样性,难以保障资源的统一调度与分发。不间断连续性运营不仅需要前期的资金投入,还需要持续的技术更新和维护 (二)模型训练资源需求大、迁移部署难度高等开发问题 大模型训练需要大量的算力资源支撑。由于生成式大模型需要大规模的数据处理与计算来优化其庞大的参数网络,同时也对算力资源提出了极高的要求。例如OpenAI在2020年3月发布的GPT-3模型训练使用了1024张英伟达A100训练卡,2023年4月发布的GPT-4模型训练使用了25000张英伟达A100训练卡。从GPT-3至GPT-4模型参数规模增加约10倍,但用于训练的GPU数量增加了近24倍。2024年8月Meta发布的Llama3.1训练则使用了16000张英伟达