AI智能总结
西部证券研发中心2023年10月10日 核心结论 •GPU为驱动AI技术发展以及应用落地的关键引擎,大模型训练、微调、推理催生大量AI算力需求,英伟达A100与H100供不应求,在此背景下,AI算力租赁需求爆发。我们认为由于下游大模型无论是技术侧还是应用侧均呈百花齐放发展趋势,而上游AI算力资源作为重要支撑,稀缺性凸显,算力租赁市场需求将持续旺盛,未来成长空间广阔。1)根据英伟达与微软联合发布的论文,理论情况下用1个月训练出1750亿参数大模型需要1024张A100,而训练万亿参数GPT-4所需的A100卡可能达到万张量级;2)ChatGPT迎重大更新,微软Copilot即将全面开放,大模型应用进一步走向实处。我们测算,大模型推理侧GPU需求具备更大的增长空间,未来每家龙头大模型厂商推理侧A100需求有望达到十万张量级。 •大模型训练中的故障与中断问题对GPU集群的质与量提出了更高要求,云厂商的核心竞争力体现在资金、软硬件、下游客户等多个层面。根据Meta团队训练实践,虽然英伟达GPU具有优异的计算性能,但软、硬件等故障时常发生,各类任务频繁重启,训练经常中断,持续时间较短,理论上1个月能完成的训练实际用了3个月。所以云厂商不仅需要打造大规模算力集群以满足客户需求,还需具备强算力运维能力以帮助客户最大化利用已有的算力资源。我们认为现阶段云厂商的核心竞争力在于AI算力规模,而在未来,云服务能力将成为各大厂商抢占市场与客户的关键。 建议关注: 1.鸿博股份:深度绑定英伟达,AI算力稳步落地;2.青云科技:云服务技术背景+大集群运维经验,轻资产模式优势尽显;3.中贝通信:智算中心建设加速推进,计划年内落地AI算力5000P;4.恒润股份:在手算力2500P,携手运营商建设芜湖智算中心;5.云赛智联:国资背景加持,打造一线AI算力正规军;6.润建股份:拟投入2亿元布局算力租赁业务。 风险提示:大模型发展不及预期;下游需求不及预期;行业竞争加剧;芯片价格波动;测算存在主观假设风险;关键假设存在误差风险。 01AI算力需求空间测算 发展趋势02 竞争格局和要素03 04 重点公司算力布局情况 05 AIGC浪潮汹涌,大模型开启新一轮AI技术革命 训练规模突破临界值,大模型“智慧涌现” •大模型训练规模与参数量、数据量及训练轮数等紧密相关。当模型规模突破阙值,即出现“智慧涌现”。左图横坐标为模型训练的预训练规模,用FLOPs综合表示;纵轴为精确性等评判模型效果的指标。当模型规模在一定范围内时,模型能 力并未随着规模提升而提高;当规模超过此临界值时,模型效果显著提升,出现“智慧涌现”。 GPT-3(2020.5) GPT-2(2019.2) 12层参数:1.2亿数据:5GB 48层参数:15亿数据:40GB 迈入AI智能时代,计算芯片依赖已从CPU转向GPU •AI时代离不开机器学习,而神经网络训练及推理需要进行大量的矩阵运算和卷积运算,具有强并行运算与浮点计算能力的GPU逐渐成为计算主力军。 大模型训练侧GPU需求测算 •2022年,英伟达、斯坦福联合微软研究院共同训练出了万亿级参数的GPT,比1746亿参数的GPT-3还高出了一个量级; •论文中的测试基于DGX A100-80GB集群完成。对于最大的1T规模的模型,一共使用了384台8卡DGX-A100服务器,服务器内部各GPU间使用超高速NVLink和NVSwitch互联,每台机器装有8个200Gbps的InfiniBand网卡; •GPU利用率=单张GPU训练时吞吐量/单张GPU峰值吞吐量,论文使用了数据并行、流水线模型并行、张量模型并行、服务器通信优化等加速技术提高GPU利用率。 •训练过程中,英伟达A100卡使用数量的变化范围为[32,3072],GPU利用率随参数量增加而增长,变化范围为[44%,52%]。 大模型训练侧GPU需求测算 •这篇论文给出了使用并行策略后训练时间的经验公式: 端到端训练时间≈𝟖𝑻𝑷𝒏𝑿 •其中,T表示训练集的Token数量,P表示模型参数数量,n表示A100卡数量,X表示训练时每张GPU的吞吐量。X值由GPU峰值吞吐量与GPU利用率相乘得出。 •论文中进行训练时采用混合精度即FP16。在此精度下,每张A100的峰值吞吐量(非稀疏)为312TFLOPS。 •论文以GPT-3为例做了估计:当T=3000亿,P=1750亿,A100卡数量n=1024张,批处理大小为1536时,假设GPU利用率为45%,即每张A100训练时吞吐量为312×45%=140TFLOPS。 估计GPT-3端到端训练时间=𝟖×𝟑×𝟏𝟎𝟏𝟏×𝟏.𝟕𝟓×𝟏𝟎𝟏𝟏𝟏𝟎𝟐𝟒×𝟏.𝟒×𝟏𝟎𝟏𝟒=𝟐.𝟗𝟑×𝟏𝟎𝟔(s)≈𝟑𝟒(天) •据推测,GPT-4的参数量达到万亿级别。SemiAnalysis报道称GPT-4参数量为1.8万亿,且采用更大的训练集,GPT-4训练过程中A100卡数量达到万张量级。 GPT-4具体参数量目前暂无官方数据,半导体咨询研究公司SemiAnalysis称:OpenAI训练GPT-4的FLOPS约为2.15×1025,在大约25000个A100上训练了90-100天,由于延迟和故障重启问题,GPU利用率约为32%-36%。 大模型推理侧GPU需求测算——推理侧具备更大的成长空间 •根据Similarweb数据,2023年8月ChatGPT的月度访问量为14亿(包括直接访问、外链等),平均访问时长为7分钟。 假设3:在推理侧,大模型运算更为简单,我们仍保守假设GPU利用率为45%。 •推理过程中,每个参数只需执行1次乘法运算和1次加法运算,以GPT-3的参数量1750亿带入以下测算。 •推理前一般采用量化等技术将模型优化到Int8精度,在此精度下,每张A100的峰值吞吐量(非稀疏)为624TOPS。 大模型推理侧GPU需求测算——ChatGPT •首先计算每月推理的算力需求: 每月推理侧Token数=月度访问量×平均提问数×问题加回答𝑇𝑜𝑘𝑒𝑛数 每月推理侧算力需求=参数量×每月推理侧𝑇𝑜𝑘𝑒𝑛数量×单个𝑇𝑜𝑘𝑒𝑛计算量 •再计算每秒推理侧的算力需求: •最后计算A100需求: A100需求=每秒推理侧算力需求A100单张推理算力×GPU利用率=1.9×10186.24×1014×45%≈𝟕𝟎𝟎𝟎(张) •实际应用中,推理前可能会采用剪枝、蒸馏等技术来进行模型压缩。压缩一定程度上会降低模型性能,此处暂不考虑这些因素。 未来每家龙头大模型厂商推理侧A100需求有望达到十万张量级 •2023年9月25日,ChatGPT进行重大更新——GPT-4和GPT-3.5都具有了基于图像进行分析和对话的能力。我们认为,当模型参数增长至万亿级且具有多模态能力,能承担更多生成、分析等任务时,将吸引更多用户,ChatGPT月度访问量将高增(2023年8月,谷歌月度访问量为860亿,约为ChatGPT的70倍)。 •在以下三点假设下,长期来看,我们推测未来ChatGPT推理侧A100需求将超过70万张。 假设1:我们采用外媒SemiAnalysis给出的数据,即使用GPT-4时每次推理只需使用2800亿个参数;假设2:多模态能力与更强大的分析能力将使得用户更加依赖大模型,推理侧每日问答的Token平均数量达到30000甚至更多;假设3:随着大模型技术发展,假设未来ChatGPT的月度访问量翻20倍,达到300亿。 大模型推理侧GPU需求测算——微软Copilot 2023年9月21日,微软宣布基于GPT-4的Copilot将全面开放: 微软全球版Copilot于2023年9月26日随更新的Windows 11以初期版本形式推出,融入到画图、照片、Clipchamp等应用程序中;全球版Microsoft365Copilot将于2023年11月1日起面向企业用户提供服 务,融 入Teams、Outlook、Word、Excel、Loop、OneNote和OneDrive等应用程序中,同时微软将推出AI助手Microsoft 365Chat。 大模型推理侧GPU需求测算——Copilot+Windows 2023年5月,微软宣布Windows用户突破10亿。 假设Windows中Copilot使用率为15%-80%,用户每天使用Copilot时输入和输出的平均Token数量为500-5000。 A100需求=每秒推理侧算力需求A100单张推理算力×GPU利用率=日活×Copilot使用率×每日Token人均输入输出数量×推理参数量24×60×60×6.24×1014×45% ×2 如下表所示,当使用率为30%,每日人均输入输出Token数量为2000时,WindowsCopilot的A100需求量超过1万张. 乐观估计,当使用率为80%,每日人均输入输出Token数量为5000时,A100需求量超过9万张。 大模型推理侧GPU需求测算——Copilot+Microsoft365 微软曾在FY20Q1电话会议上披露,Office365(现已更名为Microsoft365)商业版的月度活跃用户突破2亿,而根据微软的季报及年报数据,商业版用户数量年增速保持在15%左右,我们推测Microsoft365企业用户数目前已突破3亿。 假设Microsoft365中Copilot使用率为15%-80%,企业用户使用Copilot时,输入和输出的平均Token数量为2000-30000。 如下表所示,当使用率为30%,每日人均输入输出Token数量为10000时,Microsoft365Copilot的A100需求量超过2万张; 乐观估计,当使用率为80%,每日人均输入输出Token数量为30000时,A100需求量超过15万张。 驱动AI发展的关键引擎,英伟达A100&H100供不应求 •自年初以来,英伟达A100一直处于供不应求的状态,而其他加速卡由于性能、生态等方面与英伟达存在较大差距,大部分场景无法实现替代,尤其在训练侧,A100与H100具有极大的优势与较高的技术壁垒。现阶段,大模型技术突破遭遇瓶颈,算力资源短缺为重要原因之一。OpenAI表示GPU供应不足阻碍了其研发计划的推进,例如模型微调和划拨专用容量等受到影响。 •OpenAI联合创始人Andrej Karpathy曾转发了一篇博客文章。这篇文章认为训练大语言模型的初创企业、云服务供应商及其他大公司需要拥有超过1000张H100或A100。 A100方面:GPT-4可能在10000-25000张A100上进行了训练,Meta拥有约21000张A100,特斯拉拥有约7000张A100,Stability AI拥有约5000张A100,Falcon-40B在384张A100上进行了训练。 H100方面: a)OpenAI可能需要50000张,Inflection可能需要22000张,Meta可能需要25000张。大型云厂商可能每家都需要30000张(Azure、谷歌、AWS、Oracle)。Lambda和CoreWeave以及其他私有云厂商可能总共需要10万张,CoreWeave预订的H100数量约为35000-40000张,而Anthropic、Helsing、Mistral、Character等每家可能需要10000张。 b)Inflection在其GPT-3.5等效模型中使用了3500张H100。GCP拥有大约25000张H100。微软Azure和Oracle可能有10000-40000张H100。 02 CONTENTS目录CONTENTS目录 竞争格局和要素03 04 重点公司算力布局情况 05 大模型训练中的故障与中