您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[量子位智库]:AIGC算力全景与趋势报告 - 发现报告
当前位置:首页/行业研究/报告详情/

AIGC算力全景与趋势报告

2023-07-15丁乔量子位智库港***
AIGC算力全景与趋势报告

AIGC 算 力 全 景 与 趋 势 报 告分析师:丁乔dingqiao@qbitai.com量子位智库 QbitAI Insights 序 言2023年无疑是AIGC元年,ChatGPT引发的各类大模型竞赛中,行业内绕不开的一个话题便是算力从何而来。算力目前已经在AIGC产业内形成新共识——算力成为AIGC发展的关键基石。随着英伟达今年一系列不断推陈出新的产品动作,可以看到国际上最先进的算力厂商如今已迈向由超级芯片组成的算力集群阶段。此外,算力厂商也无疑成为AIGC产业下的率先受益方。然而,随着大模型参数的不断增长,OpenAI近期表明算力成为其发展的挑战之一。在AIGC产业繁荣的当下,可以预见的是未来对算力的需求会越来越大。那么,在这场AIGC 盛宴中,应该如何应对当下面临的「算力危机」呢?在《AIGC算力全景与趋势报告》中,量子位智库将从我国算力产业现状、算力产业变革、趋势预判等角度出发,通过广泛调研与深度分析,全面立体描绘我国当前AIGC算力产业全景与趋势。我们期待,能够与众多投入、关注、期待中国AIGC算力产业的伙伴一起,共同见证并打造中国AIGC算力产业的蓬勃未来。 AIGC驱动,算力产业机遇空前01020304目 录AIGC算力产业全景AIGC算力产业「五新」趋势AIGC算力产业周期预测05AIGC算力产业代表案例 AIGC驱动,算力产业机遇空前01 AIGC潮起,算力产业挑战巨大,机遇空前OpenAI发布ChatGPT属于GPT系列中的聊天机器人模型。GPT系列中,GPT3是由1750亿参数组成的语言模型,而GPT4 的参数更是达万亿级别。国内目前公布的大模型参数规模也普遍在百亿至千亿级别。如此庞大的参数规模,对于芯片提供商、云服务厂商以及服务器厂商都产生了新需求。全球范围内,GPT具备从底层改变各行业规则的能力,作为AIGC产业的基建,算力产业在未来有望成为一项公共服务渗透入各行各业。基于此,智算中心作为公共算力基础设施,成为AIGC基建中的关键环节。•游戏规则被改写,MaaS能力成为竞争的关键变量云计算厂商•在算力需求暴涨、数据和模型资源稀缺、AI技术广泛落地背景下,智算中心成为地区AI新基建智算中心•大模型训练驱动AI服务器需求暴涨,并且正在催生新物种:AI模型一体机服务器厂商•GPU为核心的AI训练芯片供不应求,是AIGC算力产业最大挑战和最大机遇芯片大模型参数量变化来源:Information is Beautiful 芯片:大模型训练需求暴涨,GPU供不应求•需求当前大模型参数量在百亿至千亿参数规模,在训练阶段,对芯片的需求从CPU+加速器转变为以GPU主导的大规模并行计算。未来,当多数大模型参数规模到达万亿级别,将产生更大的算力需求。在单芯片性能之上,智算中心能够通过算力的生产-调度- 聚合- 释放,支持AI产业化发展。•缺口目前市场对于英伟达芯片的需求远大于供给。经测算,一万枚英伟达A100芯片是做好AI大模型的算力门槛。国内具备此量级的公司最多只有1家,而GPU芯片持有量超过一万枚的企业不超过5家。推理阶段(日常运营)ChatGPT 2023年2 月官网总访问量 11亿次;用户每次与ChatGPT互动的云计算成本成为约0.01美元;保守预估,假设用户每次访问网站只进行一次互动训练阶段(单次成本)单次 GPT -3 Small(1.25亿)计算量 2.6PFlops/天 单次 GPT -3 XL 计算量为 27.5 PFlops/天 单次GPT-3(175B)计算量 3640 PFLops/天GPT3(175B) 3640 PFLops:35000块 A100/1天 或 1024块 A100 跑 1个月单次训练成本:>1200万美元微调阶段预计算力1350.4 PFlops/天采用A100或V100设备算力需求13000块 A100/1天 或 433 块 A100 跑 1个月成本:920万/月芯片需求芯片需求芯片需求成本成本成本运营的算力成本:~1100万美元/月来源:阿里公开资料,量子位智库整理 服务器:业务增长显著,高端芯片AI服务器火爆•现状AIGC产业的发展将加剧AI服务器行业的增长速度,国产服务器厂商普遍业务增量在30%以上;国内市场中,服务器重新进入洗牌期。•需求趋势由于AIGC对于高性能计算的需求,云厂商在服务器的选择上以AI服务器为主。据IDC数据,2025年全球AI服务器市场规模将达317.9亿美元,年复合增长率为19%。英伟达GPU短期内面临产能不足问题,或将一定程度上限制AI服务器生产,从而影响出货量。010020030040050060070080020212025E2021-2025中国AI服务器市场规模预测市场规模(亿元)数据来源:IDC,量子位智库整理28.10%17.20%10.10%6.20%5.30%5.10%4.90%6.10%17.00%2022年中国服务器市场份额占比浪潮信息新华三超聚变宁畅中兴通讯戴尔联想ODM Direct其他50% 云计算厂商:服务范式变革,MaaS带来新商业路径•范式转变MaaS成为云计算服务的新范式,云计算判别标准从算力能力转向「云智一体」的AI产品能力。•成本自研芯片:根据 IDC 2018年服务器成本结构数据显示,高性能服务器中,芯片成本占比高达 50%~83%;全球头部云厂商(谷歌、微软、腾讯等)为摆脱过于依赖芯片厂商的局面,均加大芯片自研力度。工具与平台文心大模型EasyDL-大模型零门槛AI开发平台BML -大模型全功能AI开发平台大模型API大模型套件数据标注与处理大模型精调大模型轻量化大模型部署国网- 百度•文心能源浦发- 百度•文心金融行业大模型NLP 大模型医疗 ERNIE-Health金融 ERNIE-Finance对话 PLATO搜索 ERNIE-Search信息抽取 ERNIE-IE跨语言 ERNIE-M图网络 ERNIE-Sage语言理解与生成ERNIE 3.0 鹏城- 百度〮 文心 ERNIE 3.0 Zeus (百亿级)(千亿级)(任务知识增强千亿级)CV大模型文档图像表征学习VIMER-StrucTexT商品图文搜索表征学习VIMER-UMS多任务视觉表征学习VIMER-UFO自监督视觉表征学习VIMER-CAE图文生成ERNIE-ViLG跨模态大模型文档分析ERNIE-Layout视觉- 语言ERNIE-ViL语言- 语言ERNIE-SAT地理- 语言ERNIE-GeoL生物计算大模型化合物表征学习HELIX-GEM蛋白质结构分析HELIX-Fold旸谷大模型创意与探索社区MaaS 产业结构图——以百度文心为例 企业方公共基建《智能计算中心创新发展指南》指出,在智算中心实现80%应用水平的情况下,城市/地区对智算中心的投资可带动人工智能核心产业增长约2.9-3.4倍,带动相关产业增长约36-42倍;未来80%的场景都将基于人工智能,所占据的算力资源主要由智算中心提供,智算中心将成为经济增长的新动力引擎。智算中心:基建级AI算力供应,打造地区经济增长新引擎阿里云张北超级智算中心、乌兰察布智算中心商汤科技人工智能计算中心百度智能云-昆仑芯(盐城)智算中心百度智能云(济南)智算中心腾讯长三角(上海)人工智能先进计算中心腾讯智慧产业长三角(合肥)智算中心曙光5A级智算中心克拉玛依浪潮智算中心中国电信京津冀大数据智能算力中心中国联通广东 AI 智算中心......全国超30座城市落地智算中心:北京、天津、河北、南京、无锡、宁波、杭州、武汉、沈阳、成都、哈尔滨、许昌、广州、宿州、乌镇、昆山、甘肃、长沙......31.775155.2268427640.7922.81271.405001000150020192020202120222023202420252026百亿亿次浮点运算/秒(EFLOPS)来源:国家信息中心《智能计算中心创新发展指南》,IDC,量子位智库整理中国智能算力发展情况及预测 AIGC算力产业全景02 AIGC算力现状链路:芯片—服务器—云平台—模型应用•外部:Azure云服务为ChatGPT构建了超过1万枚英伟达A100 GPU芯片的AI计算集群•内部:微软正在自研AI芯片——雅典娜(Athena),将由台积电代工,采用5nm制程首个目标:为OpenAI提供算力引擎,以替代英伟达A100/H1001)Azure OpenAI服务:企业级解决方案:借助 Azure OpenAI,用户可以汇总文本、获取代码建议、为网站生成图像等2)Microsoft 365 Copilot:使用了GPT-4作为其核心的LLM,将用户的自然语言输入转化为高效的生产力工具,集成在Word 、Excel、PowerPoint、Outlook、Teams等多个应用中以微软为例芯片资源微软是OpenAI唯一云服务提供商,为GPT训练提供计算资源、存储资源、自动化部署和管理等支持云基础设施平台Azure模型即应用(MaaS) 专用芯片路线 (Application-specific integrated circuit) 通用芯片路线(Graphics processing unit )AI芯片目前有两大路线,一种是英伟达代表的GPU路线,更适合当前AIGC产业对大算力的需求,与AIGC大模型的训练及推理适配度极高。另一种路线则是以国内华为(主力产品)、寒武纪厂商为代表的专用AI芯片路线,此路线下的芯片更适用于垂类小模型,为其提供能效比更高的芯片。此外互联网云厂商的自研芯片也是专用路线,芯片主要服务于自家产品,为自身产品打造性能更优的算力底座。芯片层现状:AIGC算力2大路线,GPU通用路线和AISC专用路线用来执行专门/定制化任务•专用场景中能够做到更优的能效比•跳出当前的已有生态,长期来看有可能实现真正超越优势局限•研发周期长、商业风险较大,产品易受市场变化影响•不易扩展,难以满足后续增加功能的需求能够完成多样化算力任务优势局限•擅长大规模并行计算•兼容英伟达生态,是最快也是最适用于当下的解决方案•在厂商被迫「重复造轮子」的前提下,追赶上英伟达的难度极高•芯片总体功耗高 服务器作为算力的载体,是AIGC基础设施的核心硬件。由于AIGC对于高性能计算的需求,云厂商在服务器的选择上以AI服务器为主。据IDC数据,2025年全球AI服务器市场规模将达317.9亿美元,年复合增长率为19%。AIGC产业的发展将加剧AI服务器行业的增长速度,国产服务器厂商普遍业务增量在30%以上;TrendForce日前发布预测,指出随着AI服务器与AI芯片需求同步看涨,预计2023年AI服务器(包含搭载GPU、FPGA、ASIC等主芯片)出货量将接近120万台,年增38.4%,并将2022-2026年AI服务器出货量年复合增长率上调至22%。2022年,国内互联网大厂成为AI服务器的最大买家;2023年,随着AIGC的爆发,根据业内消息,互联网厂商依旧是AI服务器的最大买方。服务器层现状:AI服务器成主要增长点,采购占比互联网客户为主1212.51313.51414.51515.5202220232023AI服务器出货量预测13%19%17%16%14%6.00%2%1.50%1.50%22.70%2022年AI服务器采购量占比微软谷歌MetaAWS字节跳动腾讯阿里巴巴百度其他数据来源:TrendForce,量子位智库整理 大模型成为MaaS的基座,MaaS所打造的商业模式也是大模型厂商的主要变现模式——基于大模型产生有实际应用价值的产品。MaaS模式最早由阿里提出,随后互联网大厂、人工智能企业(如商汤)均已引入MaaS模式。此外,互联网大厂、华为等企业已经将自研芯片用于MaaS底座构建中。云厂商是MaaS的提出者,也