AI智能总结
分析师:丁乔dingqiao@qbitai.com量子位智库QbitAIInsights 2023年无疑是AIGC元年,ChatGPT引发的各类大模型竞赛中,行业内绕不开的一个话题便是算力从何而来。 序言 算力目前已经在AIGC产业内形成新共识——算力成为AIGC发展的关键基石。随着英伟达今年一系列不断推陈出新的产品动作,可以看到国际上最先进的算力厂商如今已迈向由超级芯片组成的算力集群阶段。 此外,算力厂商也无疑成为AIGC产业下的率先受益方。然而,随着大模型参数的不断增长,OpenAI近期表明算力成为其发展的挑战之一。在AIGC产业繁荣的当下,可以预见的是未来对算力的需求会越来越大。那么,在这场AIGC盛宴中,应该如何应对当下面临的「算力危机」呢? 在《AIGC算力全景与趋势报告》中,量子位智库将从我国算力产业现状、算力产业变革、趋势预判等角度出发,通过广泛调研与深度分析,全面立体描绘我国当前AIGC算力产业全景与趋势。 我们期待,能够与众多投入、关注、期待中国AIGC算力产业的伙伴一起,共同见证并打造中国AIGC算力产业的蓬勃未来。 目录 AIGC驱动,算力产业机遇空前01 02AIGC算力产业全景 03AIGC算力产业「五新」趋势 04AIGC算力产业周期预测 AIGC潮起,算力产业挑战巨大,机遇空前 OpenAI发布ChatGPT属于GPT系列中的聊天机器人模型。GPT系列中,GPT3是由1750亿参数组成的语言模型,而GPT4的参数更是达万亿级别。国内目前公布的大模型参数规模也普遍在百亿至千亿级别。如此庞大的参数规模,对于芯片提供商、云服务厂商以及服务器厂商都产生了新需求。 全球范围内,GPT具备从底层改变各行业规则的能力,作为AIGC产业的基建,算力产业在未来有望成为一项公共服务渗透入各行各业。基于此,智算中心作为公共算力基础设施,成为AIGC基建中的关键环节。 •游戏规则被改写,MaaS能力成为竞争的关键变量 云计算厂商 •在算力需求暴涨、数据和模型资源稀缺、AI技术广泛落地背景下,智算中心成为地区AI新基建 智算中心 •大模型训练驱动AI服务器需求暴涨,并且正在催生新物种:AI模型一体机 服务器厂商 •GPU为核心的AI训练芯片供不应求,是AIGC算力产业最大挑战和最大机遇 芯片 芯片:大模型训练需求暴涨,GPU供不应求 •需求 当前大模型参数量在百亿至千亿参数规模,在训练阶段,对芯片的需求从CPU+加速器转变为以GPU主导的大规模并行计算。未来,当多数大模型参数规模到达万亿级别,将产生更大的算力需求。在单芯片性能之上,智算中心能够通过算力的生产-调度-聚合-释放,支持AI产业化发展。 •缺口 目前市场对于英伟达芯片的需求远大于供给。经测算,一万枚英伟达A100芯片是做好AI大模型的算力门槛。国内具备此量级的公司最多只有1家,而GPU芯片持有量超过一万枚的企业不超过5家。 服务器:业务增长显著,高端芯片AI服务器火爆 •现状 AIGC产业的发展将加剧AI服务器行业的增长速度,国产服务器厂商普遍业务增量在30%以上;国内市场中,服务器重新进入洗牌期。 •需求趋势 由于AIGC对于高性能计算的需求,云厂商在服务器的选择上以AI服务器为主。据IDC数据,2025年全球AI服务器市场规模将达317.9亿美元,年复合增长率为19%。英伟达GPU短期内面临产能不足问题,或将一定程度上限制AI服务器生产,从而影响出货量。 云计算厂商:服务范式变革,MaaS带来新商业路径 •范式转变 MaaS成为云计算服务的新范式,云计算判别标准从算力能力转向「云智一体」的AI产品能力。 •成本 自研芯片:根据IDC 2018年服务器成本结构数据显示,高性能服务器中,芯片成本占比高达50%~83%;全球头部云厂商(谷歌、微软、腾讯等)为摆脱过于依赖芯片厂商的局面,均加大芯片自研力度。 智算中心:基建级AI算力供应,打造地区经济增长新引擎 《智能计算中心创新发展指南》指出,在智算中心实现80%应用水平的情况下,城市/地区对智算中心的投资可带动人工智能核心产业增长约2.9-3.4倍,带动相关产业增长约36-42倍; 未来80%的场景都将基于人工智能,所占据的算力资源主要由智算中心提供,智算中心将成为经济增长的新动力引擎。 企业方 公共基建 中国智能算力发展情况及预测 全国超30座城市落地智算中心: 阿里云张北超级智算中心、乌兰察布智算中心商汤科技人工智能计算中心 百度智能云-昆仑芯(盐城)智算中心百度智能云(济南)智算中心腾讯长三角(上海)人工智能先进计算中心腾讯智慧产业长三角(合肥)智算中心曙光5A级智算中心克拉玛依浪潮智算中心中国电信京津冀大数据智能算力中心中国联通广东AI智算中心 百亿亿次浮点运算/秒(EFLOPS) 北京、天津、河北、南京、无锡、宁波、杭州、武汉、沈阳、成都、哈尔滨、许昌、广州、宿州、乌镇、昆山、甘肃、长沙…… AIGC算力现状链路:芯片—服务器—云平台—模型应用 以微软为例 芯片资源 •外部:Azure云服务为ChatGPT构建了超过1万枚英伟达A100 GPU芯片的AI计算集群•内部:微软正在自研AI芯片——雅典娜(Athena),将由台积电代工,采用5nm制程首个目标:为OpenAI提供算力引擎,以替代英伟达A100/H100 云基础设施平台Azure 微软是OpenAI唯一云服务提供商,为GPT训练提供计算资源、存储资源、自动化部署和管理等支持 模型即应用(MaaS) 1)Azure OpenAI服务:企业级解决方案:借助Azure OpenAI,用户可以汇总文本、获取代码建议、为网站生成图像等2)Microsoft 365 Copilot:使用了GPT-4作为其核心的LLM,将用户的自然语言输入转化为高效的生产力工具,集成在Word、Excel、PowerPoint、Outlook、Teams等多个应用中 芯片层现状:AIGC算力2大路线,GPU通用路线和AISC专用路线 AI芯片目前有两大路线,一种是英伟达代表的GPU路线,更适合当前AIGC产业对大算力的需求,与AIGC大模型的训练及推理适配度极高。另一种路线则是以国内华为(主力产品)、寒武纪厂商为代表的专用AI芯片路线,此路线下的芯片更适用于垂类小模型,为其提供能效比更高的芯片。此外互联网云厂商的自研芯片也是专用路线,芯片主要服务于自家产品,为自身产品打造性能更优的算力底座。 专用芯片路线(Application-specific integratedcircuit) 通用芯片路线(Graphics processing unit ) 用来执行专门/定制化任务 能够完成多样化算力任务 •专用场景中能够做到更优的能效比•跳出当前的已有生态,长期来看有可能实现真正超越 服务器层现状:AI服务器成主要增长点,采购占比互联网客户为主 服务器作为算力的载体,是AIGC基础设施的核心硬件。由于AIGC对于高性能计算的需求,云厂商在服务器的选择上以AI服务器为主。据IDC数据,2025年全球AI服务器市场规模将达317.9亿美元,年复合增长率为19%。AIGC产业的发展将加剧AI服务器行业的增长速度,国产服务器厂商普遍业务增量在30%以上; TrendForce日前发布预测,指出随着AI服务器与AI芯片需求同步看涨,预计2023年AI服务器(包含搭载GPU、FPGA、ASIC等主芯片)出货量将接近120万台,年增38.4%,并将2022-2026年AI服务器出货量年复合增长率上调至22%。 2022年,国内互联网大厂成为AI服务器的最大买家;2023年,随着AIGC的爆发,根据业内消息,互联网厂商依旧是AI服务器的最大买方。 云计算现状:MaaS重塑服务模式,新老玩家重构竞争力 MaaS模式最早由阿里提出,随后互联网大厂、人工智能企业(如商汤)均已引入MaaS模式。此外,互联网大厂、华为等企业已经将自研芯片用于MaaS底座构建中。云厂商是MaaS的提出者,也是主要参与方。MaaS模式基于大模型,能够最大限度消除大型企业数字化过程中规模化、标准化壁垒,降低企业部署难度;对于C端用户来讲,MaaS可在不同层级里产生价值,有望为云计算厂商带来新增长曲线。 智算中心现状:地域发展差异明显,「东数西算」成算力调度关键 智算中心是对原有数据中心的升级,其提供的首要是AI算力。具体来讲,智算中心提供包括算力、框架、模型,以及支持应用场景具体的基础设施,将不同层级进行打包,通过本地化部署完成智算中心建设。相比于数据中心,智算中心更贴近应用和产业方。 从供给角度来看 从计算设备分布来看 目前智算中心多分布在东部和中部省份,而AIGC业务需要处理海量数据导致东部算力资源成本过高。将大模型训练等对计算要求高的任务移至西部地区,形成“东数西训”,能够有效降低成本,实现算网资源综合成本最优。 北京、广东、浙江、上海、江苏在服务器和AI服务器市场中居前五,市场份额总计分别达到75%和90%(2021年数据)。 从需求角度看 AIGC算力需求主要来源为京津冀地区、长三角及大湾区。 具体来讲,针对算力需求供需不平衡等问题,需要通过算力调度将东部的算力和数据处理需求转移至成本较低的西部地区。其中,优化东西部之间互联网络和枢纽节点间直连网络是提升算力调度水平的关键。 AIGC算力产业「五新」趋势 背景:算力供给趋于复杂,大规模运算需要系统级工程支撑 芯片在AIGC算力产业中是最底层也是最关键的硬件产品。AIGC爆发,既是芯片厂商的一个重要分水岭,也将芯片厂商的目标重新聚焦于大算力方向。芯片作为算力直接来源,其发展逻辑是从应用端的需求出发,根据应用端所需要的算力特点提供相应的算力服务。在ChatGPT相关大模型爆发之前,国内芯片厂商一方面在做GPU布局,另一方面更多在满足垂直行业中的特定需求,且后者在国内市场更常见。此外,国产GPU厂商的设计初衷也多是按照推理芯片设计。在AIGC爆发后,对芯片的需求集中在训练侧,并且对于训练芯片的算力要求极高,目前只有英伟达能够满足。然而,OpenAI表示目前英伟达的产能已无法满足其更高的算力需求。未来,随着大模型参数量不断攀升,以及芯片制程走到尽头等问题,对于算力的定义将从单芯片性能逐渐转向超算/智算集群的计算能力。 国产处理器厂商的挑战与机遇 趋势01——新机遇:芯片竞逐高性能大算力,引入新计算架构 大模型不同阶段对应不同的芯片需求 大模型训练阶段 大模型推理阶段 •芯片类型:GPU为主•芯片需求:执行大量矩阵运算和计算密集任务•GPU优势:高并发和浮点计算能力,可大幅提升训练速度•GPU劣势:功耗高、成本高 •芯片类型:ASIC/FPGA/NPU与GPU均可•芯片需求:低延迟、低功耗(专用芯片更符合)•专用芯片优势:更高的能源效率和计算密度•专用芯片劣势:缺乏通用性 趋势02——新增长曲线:AI服务器异军突起,红利曲线先训练后推理 AI大模型对算力需求呈指数级增长,使得具有更高配置的AI服务器成为AIGC算力的主要载体。相比于传统服务器,AI服务器的计算、存储以及网络传输能力能达到更高的水平。例如,NVIDIA DGX A100服务器8个GPU+2个CPU的配置远高于传统服务器1~2个CPU的配置。智算中心作为提供算力资源的公共基础设施平台,其算力机组以AI训练服务器和AI推理服务器为主。随着大模型训练阶段完成,未来AI服务器的主要需求将向推理侧转移。根据IDC的预测,到2026年,AIGC的算力62.2%将作用于模型推理。 趋势03——新游戏规则:MaaS重塑云服务范式,AIGC商业模式闭环 MaaS(模型即服务):在算力、算法和应用层中嵌入大模型,以智能底座集成应用并统一对外输出。MaaS的本质是将行业内通用的基础技术提炼整合成服务,满足各类应用场景需求; 云计算服