AI智能总结
2025年1月3日第1期总第882期 大模型时代主要国家破解算力困局的做法及建议 2024年9月,英特尔发布至强6性能核处理器,可为AI、数据分析、科学计算等计算密集型业务提供更卓越性能。此前,为应对新一轮AI热潮下智能算力需求暴增,美、德、日、韩等国在AI芯片研发、计算网络建设、算力生态建设等方面进行了积极探索。当前,我国应学习和借鉴国外经验,在高性能算力芯片研发、全国一体化算力网络建设、算力产业新生态构建方面下功夫,提升我国智能算力供给水平,加快大模型产业发展。 一、主要国家应对大模型时代智能算力困局的主要做法 随着AI技术的不断进步和应用的持续深化,全球算力需求呈现爆发式增长。据测算,OpenAI的GPT-3模型参数达1746亿个,一次训练所需算力约为3640PFlops1。IDC报告显示,全球数据量年均增长约60%,但算力年均增速仅为10%,算力供给与需求存在巨大差距2。为更好平衡算力需求与供给,各国纷纷出台政策,支持算力产业发展。 重视高性能芯片研发和生产,以更好地满足大模型产业对高性能、高弹性、高稳定性智能算力的需求。近年来,美、日、德、韩致力于加强芯片制造和研发能力,以保持大模型产业国际竞争力。2023年,美国政府宣布向“国家先进封装制造计划”(NAPMP)投入30亿美元,围绕封装基板和材料、工艺装备与方法、供电与热管理、光子器件与连接器、小芯片生态系统,以及测试、修复、安全性、互操作性和可靠性的协同设计等6个领域提供项目资助3。日本经济产业省提出约230亿美元基金 预算,支持半导体行业发展4。德国计划拨款200亿欧元,用于补贴半导体制造业,增强其在全球半导体产业中的话语权。2024年,韩国产业通商资源部计划在2025年至2031年间投资2744亿韩元,与包括三星电子、SK海力士、LG化学、韩亚微米、韩美半导体等10家半导体相关企业和机构联合,开发半导体封装先进技术。 支持高性能计算能力建设。大带宽、高利用率且信息无损的高性能算力网络是大模型时代提升算力的重要保障。美国先后制定《高性能计算和通信计划》《网络和信息技术研发计划》《国家战略计算计划》等文件,不断改进、优化高性能计算能力建设。2020年,德国更新《国家人工智能战略》,提出追加20亿欧元支持AI研究,推进高性能计算中心网络建设,对8个高校的计算中心进行为期10年、每年6250万欧元的资助5。韩国计划从2023起至2025年,每年投入20亿韩元,支持高丽大学主导建立一个拥有35Peta FLOPS规模的AI创新数据中心,为Hyper Modal(开发同时理解多种数据的超大深度学习 技术)等12项高风险、挑战型AI研究提供支撑6。2023年,日本经济产业省提出,要承担50%的费用支援Sakura Internet公司配备超级计算机,帮助国内初创企业开发生成式AI7。 重视算力产业生态建设。美国政府提出,要将政府、学术界、非营利组织和行业部门等共同纳入先进计算生态系统计划,通过汇聚各方面力量、建立协同增效机制、规范共享计算协议等措施,强化本国战略计算能力8。2023年,韩国政府公布AI大模型竞争力提升方案,计划构筑由民间企业主导、政府支援的超大型AI合作生态系统,推动医疗、法律、咨询等领域的AI应用服务升级,截至2026年将培育10000家SaaS企业9。欧盟成立欧洲高性能计算联合委员会,通过汇集欧盟、欧洲国家和私人合作伙伴资源,并加大算力基础设施建设和配套关键技术研发投入,助力欧洲开发世界一流的智能计算生态系统。 二、我国破解算力困局需在三方面下功夫 当前,我国大模型产业发展仍面临高性能算力芯片供给不足、互联带宽和能源消耗约束大、算力调度体系不完善等挑战,一定程度上阻碍了大模型产业发展壮大。 高性能算力芯片供给端仍然短缺。大模型运行过程中需要大量计算能力,对高性能算力芯片等硬件设备的性能要求高。据海关总署数据显示,2024年1-9月,集成电路进口数量高达4077亿个,较去年同期增长14.55%10。高性能算力芯片主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等。目前,我国高性能算力芯片对外依存度仍相对较高,短缺问题短期内难以解决。GPU芯片方面,GPU为通用型芯片,国产GPU芯片与国际巨头相比,在大模型训练、软件和生态建设等方面差距较大。FPGA芯片方面,FPGA为半定制芯片,90%以上的市场份额由美国的赛灵思和阿尔特拉两家公司占据,其余大部分被美高森美、莱迪思、快辑半导体三家美国公司占据11,我国在FPGA领域尚处于起步阶段, 自给率较低12。ASIC芯片方面,为全定制型AI芯片,ASIC能根据产品特定需求进行设定,但研发成本高、可复制性一般,我国ASIC技术与世界领先水平差距较小,但英伟达的CUDA平台已建立强大的软件生态系统,极大提升其芯片的通用性与易用性,是国产芯片厂商面临的一大难题。 算力需求引发对互联带宽、能源消耗的更高要求。一是算力互联需要足够的网络带宽。据悉,千亿、万亿参数规模的大模型,训练过程中通信需求占比最大可达50%,传统使用的无链接网络技术和向上收敛的网络架构,在通信连接、算力调度、稳定性等方面仍有诸多问题,丢包、重传等问题频繁出现,对智算中心模型训练可能会带来致命问题。相关数据显示,0.1%的网络丢包可能导致50%的算力损失,极易造成算力资源浪费13。二是算力对水电的消耗巨大。据中国算力平台统计测算,2023年,中国数据中心用电量约1500亿度,占全社会用电量的1.6%,数据中心用电年增速约15%,据预测,预计到2030年,全国算力 中心用电量将超过3000亿千瓦时14。此外,高算力也会带来水资源的大量消耗。研究指出,数据中心冷却需耗费401吨水,约合10万个家庭用水量。制造2克重的计算机芯片约需32公斤水,制造8寸晶圆每小时耗水约250吨,12寸晶圆则可达500吨15。 算力调度体系难以满足AI大模型训练需要。研究人员通常采用并行计算和分布式训练方法应对AI大模型的计算挑战,但因智能算力尚未实现精细化调度,导致该方法实际操作难度较大。从跨区域调度来看,东西部算力资源分配不均、供需不平。东部地区应用需求大,但能耗指标紧张、电成本高,大规模发展数据中心难度和局限性大;西部地区可再生能源丰富、气候适宜,但网络宽带小、跨省数据传输费用高,无法有效承接东部需求,算力供需难以高效匹配。从跨设备调度来看,各算力中心相互独立,缺少高效协同机制。大型算力数据传输依靠传统方式,算力即时调度与应用难度大。智能算力资源即时调度受数据时延不敏感、单通道传输带宽有限、通道宽带数量 有限等因素制约,导致算力传输延迟,传输费用高昂等问题16。从跨种类调度来看,因缺乏统一跨网技术和服务标准,制约智能算力供给侧精准衡量和需求判断。GPU、FPGA、ASIC等各类智能算力芯片产生的算力,在精度、形态等方面有诸多差异,导致智能算力统一调度和按需分配难度较大17。 三、几点思考 以智能算力需求为导向,强化高性能算力芯片供给。一是强化高性能芯片技术攻关。鼓励芯片产业链上龙头企业联合链上创新主体,聚焦GPU、FPGA、ASIC等高性能芯片设计、生产和封装测试等环节,从核心原材料、生产设备、制造工艺等各方面,开展关键核心技术协同攻关。二是加快高性能芯片生产和推广应用。鼓励芯片厂商加大对工作负荷、芯片性能、成本、兼容性等高性能芯片需求关键指标的调查摸底,有针对性地研发生产能够满足分布式大模型训练、多模态处理等应用性能需求的芯片,加速高性能芯片产业化应用。 以支撑算力应用为核心,加快推进全国一体化算力网络建设。以《算力基础设施高质量发展行动计划》《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》等为路线图,加快构建全国一体化算力网络,支撑大模型产业发展。一是建立直连超宽带光网络,为算力应用提供高效的网络通信连接。建立直连超宽带光网络,将算力节点和枢纽用光网络连接,提供满足需求的传输带宽,为算力传输提供有力支撑。二是完善算力联网统一调度体系,破解异构算力调度问题。鼓励各方建立多层次算力调度体系,探索建立云原生网络等多种方式,推动云算力、智能算力、超算算力、混合算力等一体化调度应用,实现算力生产、运营、管理等与行业应用有效适配。 以绿色化发展为方向,推进算力中心低碳化建设与改造。一是严格新上算力中心项目能效水效要求。鼓励各地区结合实际对新上算力中心项目能效提出更高要求,稳步提升新建算力中心单位算力能效水平。鼓励地方通过“上大压小”“迁旧建新”等方式,加强优质算力中心项目用能用水保障。二是推进存量算力中心项目节能降碳改造。加快推进低效算力中心节能降碳改造 和“老旧小散”算力中心整合改造。推进设备布局、制冷架构、气流组织、外围护结构、供配电方式、单机柜功率密度及系统智能运行策略等方面的技术改造和优化升级。三是提升可再生能源在算力中心项目建设中的应用。引导新建数据中心与可再生能源发电协同布局,鼓励存量数据中心通过参与绿电绿证交易等提高可再生能源利用率。四是推广应用节能技术装备。鼓励推广高效制冷散热、AI节能等技术应用,提高自然冷源利用率的同时,促进算力中心算存运的高效协同联动。推广高效节能的算力中心建设相关产品设备。 以培育链主企业为抓手,打造算力产业新生态。一是梯次培育一批优质算力产业链主企业。培育一批计算生态主导型企业,鼓励其开放技术能力、供应链资源,支持创新型先进计算中小企业围绕细分领域向价值链高端延伸,基于大企业生产需求提升配套能力,强化硬件、基础软件、应用软件等适配协同,持续完善上下游多方协同的算力产业生态体系。二是完善算力产业配套服务。围绕先进计算重点领域,布局一批国家级、省级创新中心。布局AI开源开放平台,建立健全开源运营机制, 鼓励企业开放源代码、硬件设计和应用服务。三是强化算力产业人才储备培优。建立完善算力产业专业人才和专家库,围绕先进计算重点方向,设立一批国家级重点实验室、工程技术研究中心等,建立产业人才培养教育基地。 本文作者:赛迪研究院鲁金萍联系方式:13810363962电子邮件:lujinping@ccidthinktank.com