行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

AI发展再遇算力短缺

信息技术 2023-11-19 刘高畅,杨然,陈芷婧国盛证券 Dawn

报告摘要

OpenAI新服务与算力挑战

OpenAI开发者大会：OpenAI举办首届开发者大会，推出升级版GPT模型，包括GPT-4 Turbo，显著提升了图像和文档处理能力，同时降低了AI应用开发门槛。第三方网站gptstore.ai上已收集超过12,967个共享GPTs。
服务受欢迎与宕机事件：新服务受到热烈欢迎，但由于用户访问量激增，ChatGPT服务器在太平洋时间11月6日至8日期间出现大范围宕机，OpenAI宣布暂停新的ChatGPT Plus注册，以应对使用量的激增。
算力瓶颈：这并非OpenAI首次面临算力短缺问题，其服务的高需求凸显了算力在AIGC推广中的重要性。芯片、服务器、算力租赁和光模块厂商有望从中获益。

多模态训练与推理需求

训练需求激增：多模态训练需求激增，对算力需求成数倍至十倍增长，具体需求量依赖于模型复杂度和规模。
推理需求计算：基于ChatGPT的使用模式，推理阶段对算力的需求被详细分析，预计峰值需求量高达5.83*10^19 FLOPS，对应至少1.5-6万张H100 GPU。

信创与自主计算加速

外部环境与自主进程：面对复杂多变的外部环境，信创战略坚定不移，强调关键核心技术自主可控。
市场规模预测：预计2023年中国GPU市场规模将达111亿美元，CPU市场规模超3000亿元。
海光信息与昇腾计算：海光信息产品迭代加速，提供高性能CPU和GPU解决方案，兼容CUDA生态，与主流大模型适配良好。昇腾计算则通过全栈AI基础设施提供全面服务，支持端边云全场景算力需求。

投资机会与风险

投资标的：推荐关注中科曙光、浪潮信息、海光信息等公司在算力、芯片领域的投资机会。
风险提示：包括技术迭代风险、经济下行风险、行业竞争加剧风险。

结论

随着OpenAI新服务的推出和AIGC领域需求的增长，算力成为了推动技术发展和应用的关键因素。多模态训练和推理对算力的需求激增，尤其是GPU，预计未来算力需求将持续增长。同时，信创战略的推进促使国内企业在GPU和CPU领域加大投入，寻求自主可控的解决方案。投资机会集中在提供高性能计算资源和AI基础设施的公司。然而，技术迭代的不确定性、经济环境的变化以及激烈的市场竞争是需要密切关注的风险因素。

OpenAI新服务涌现，AIGC再遇算力短缺。1）11月6日OpenAI举办首届开发者大会，显著提升大模型在图像和文档上的处理能力，且新的基础模型GPT4Turbo成本更低、功能更强大。更值得关注的是，GPTs作为ChatGPT的自定义版本，极大降低了AI应用的开发门槛，截至2023年11月18日，第三方网站gptstore.ai上已经收集了12,967个共享GPTs，数量呈井喷式增长。2）OpenAI推出的一系列新服务受欢迎程度超预期，另外叠加DDoS攻击，太平洋时间11月6日至8日，ChatGPT服务器间歇性出现大范围宕机，用户访问会收到“ChatGPT目前已满载（ChatGPT is at capacity right now）”的消息。11月15日，OpenAI彼时首席执行官Sam altman在平台上表示，将暂停新的ChatGPT Plus注册，开发日后使用量的激增超出了其承受能力，希望确保每个人都有良好的体验。3）这并不是OpenAI首次受制于算力瓶颈，2023年初至10月，ChatGPT已出现6次宕机事件、API亦出现7次宕机事件，我们认为，算力是AIGC发展的基础土壤，也是AIGC目前训练和推广的重要瓶颈之一，芯片、服务器、算力租赁、光模块等厂商有望核心受益。多模态训练缺口仍大，推理进一步提振算力需求。1）ChatGPT的推出意味着生成式人工智能已突破技术奇点，互联网公司、云计算提供商和企业客户都迫切希望将生成式AI应用到自身业务中，AIGC或引爆新一轮智算需求。2）在训练端，根据GPUUtils报道，GPT3.5同级别模型需要数千张H100、GPT4或对应数万张A100、GPT5或对应数万张H100，模型训练对大规模算力集群的需求呈现刚性；在推理端，仅考虑文字问答场景，根据百度智能云、科创板日报、快科技、英伟达等报道，我们估算，大约需要数万张H100、对应算力投入数十亿美元；而多模态或有更多提升。信创战略坚定不移，华为系、海光系加速追赶。1）根据央视网报道，2023年10月17日，美方发布了对华半导体出口管制最终规则，在去年10月7日出台的临时规则基础上，进一步加严对人工智能相关芯片、半导体制造设备的对华出口限制，并将多家中国实体增列入出口管制“实体清单”。外部环境复杂化程度加深，自主进程已成为产业共识。2）相应地，2022年1月15日，求是网刊登习近平总书记《不断做强做优做大我国数字经济》文章，强调加强关键核心技术攻关，尽快实现高水平自立自强；2023年10月19日，上海提到将打造超大规模自主可控智能算力基础设施，争取形成支撑万亿级参数大模型训练的国产智算能力。3）海光系：产品迭代加速，国产算力之光。产品上，海光三号实测性能较上一代提升约45%，海光四号、五号研发进展顺利，深算二号于2023Q3发布并商用，性能较前代翻倍；生态上，深算兼容“CUDA”生态优势明显，与主流大模型厂商适配良好；业绩上，公司23Q3业绩快速增长，利润率提升反映产品力。4）华为系：昇腾计算构建全栈 AI基础设施及应用服务。昇腾310和910处理器为华为AI算力领域核心产品，910 单卡Int8算力大致可达0.6P，最大功耗为300W，已可对标国际主流GPU。且昇腾计算产业在硬件方面坚持“硬件开放”策略，通过自有硬件和合作硬件相结合的方式，可为客户提供多样化的算力选择。投资标的：中科曙光、浪潮信息、海光信息、恒润股份、万马科技、云赛智联、高新发展、神州数码、软通动力、阿尔特、恒为科技、拓维信息、莲花健康、四川长虹、烽火通信、润建股份、中际旭创、新易盛、工业富联、寒武纪等。风险提示：技术迭代不及预期风险、经济下行超预期风险、行业竞争加剧风险。一、OpenAI新服务涌现，算力再次成为推广瓶颈 OpenAI开发者大会点燃AI热情，新应用、新场景迅速涌现。1）11月6日OpenAI举办首届开发者大会。大会结束后许多新AI应用迅速涌现，在图像和文档处理能力上，GPT的多模态能力和交互体验有很大提升。2）同时，OpenAI在开发者大会上还升级了基础模型：新的GPT-4 Turbo功能更强大，它有128k的上下文窗口，可以在单个提示中容纳相当于300多页的文本。OpenAI还优化了其性能，与GPT-4相比成本显著降低。 GPTs数量井喷，截至18日，第三方网站已收集超过10,000个。1）除了API多模态能力的更新，OpenAI开发者大会上推出了ChatGPT的自定义版本，称为GPTs，极大降低了AI应用的开发门槛。用户可以创建定制版本的ChatGPT，以便在日常生活、特定任务中使用，并可以与他人分享该GPTs。2）OpenAI暂未发布官方的GPT Store，但目前用户已经可以共享自己创建的GPTs，其他用户可以通过链接访问。在各类第三方网站已经可以找到大量用户共享的GPTs，截止2023年11月18日，第三方网站gptstore.ai上已经收集了12,967个GPTs，数量迅速增长。图表1：gptstore.ai收集的共享GPTs 新服务受欢迎程度超预期，叠加DDoS攻击，OpenAI再次大范围宕机。1）根据机器之心报道，太平洋时间11月8日上午6点左右开始，ChatGPT服务器宕机超过90分钟，用户访问会收到“ChatGPT目前已满载（ChatGPT is at capacity right now）”的消息。随后，OpenAI接连发布两次“服务器中断”警告——一次部分中断、一次全线中断，并称正在调查宕机原因，进行修复和监控。2）彼时的OpenAI CEO Sam Altman对此次中断表示抱歉，并在推特上表示：“我们在开发者日发布的新功能的使用情况远远超出了预期。我们原计划周一为所有订阅者启用GPT，但仍未能实现。我们希望尽快。由于负载的原因，短期内可能会出现服务器不稳定的情况。”3）根据每日经济新闻，在11月8日晚间，ChatGPT和API再次出现了有时无法打开的问题。这次，OpenAI表示是受到了DDoS（分布式拒绝服务）攻击，在状态页上更新称：“由于DDoS攻击造成了异常流量模式，我们正在处理其导致的周期性停机。我们将持续努力缓解这种情况。” 使用量仍在激增，OpenAI暂停新的ChatGPT Plus注册。11月15日，OpenAI彼时首席执行官Sam altman在X平台（原推特）上表示，将暂时暂停新的ChatGPT Plus注册，开发日后使用量的激增超出了我们的承受能力，我们希望确保每个人都有良好的体验。我们认为，算力为AIGC推广的重要瓶颈，芯片、服务器、算力租赁、光模块等厂商有望核心受益。1）这并不是ChatGPT首次受制于算力瓶颈，根据RPA中国统计，据OpenAI在官网公布的事故历史来看，ChatGPT分别于2023年2月、3月、5月、7月、8月等均发生过宕机事故；API亦分别于2023年1月、2月、3月、8月、9月、10月等发生过宕机事故。2）我们认为，算力是AIGC发展的基础土壤，也是AIGC目前训练和推广的重要瓶颈，芯片、服务器、算力租赁、光模块等厂商有望核心受益。图表2：ChatGPT及API过去宕机历史二、多模态训练缺口仍大，推理进一步提振算力需求 AIGC浪潮已至，进一步推动对芯片和算力的需求。当下，由于互联网公司、云计算提供商和企业客户都迫切希望将生成式AI应用到自身业务中，算力供应短缺的问题已经成为行业的普遍热点。 1、训练侧：GPT3.5对应数千张H100，多模态需求再提升数倍至十倍。 GPT3.5同级别模型约需要数千张H100进行训练。根据GPUUtils报道，Inflection表示，针对他们与GPT3.5相当的大语言模型，其使用了大约3500张H100进行训练。2）同时，对于初创公司而言，其需要数千张H100对大语言模型进行训练，需要几十张或者小几百张H100做微调。考虑H100价格约为3-4万美元/张，对用算力投入约为近亿美元。根据快科技报道，H100价格约合人民币24万元，对应3-4万美元/张。考虑以Inflection为代表的公司算力投入在3500张级别，对应总投入或约为近亿美元。 GPT4或对应数万张A100，GPT5或对应数万张H100。1）根据GPUUtils报道，GPT4有可能是在10000-25000张A100上训练的。而对于GPT5，其可能需要25000-50000张H100进行训练。2）相比GPT3.5约数千张H100的需求量，GPT4、GPT5等相对成熟的多模态模型算力需求提升约数倍至十倍级别。 2、推理侧：仅考虑文字问答场景，需要数万张H100，多模态提升空间广阔。 1）每日访问量：6000万。 6月6日，根据科创板日报报道，据SimilarWeb最新数据，4月OpenAI网站访问次数已达到18亿次，则对应每日访问量约为6000万次。 2）用户平均访问时长：5分钟。根据科创板日报报道，每次访问时长约为5分21秒。 3）单个token输出需要的时间：62.5ms；每秒生成token数量：16个。根据百度智能云的部分案例，在Batch Size为1时，输出8个token大约需要353ms；在Batch Size增加到16时，输出8个token大约需要833ms。则输出8个token的时间中值约为500ms（即0.5秒），即单个token所需要的计算时间约为62.5ms（即0.0625秒），对应每秒生成token数量约为16个。 4）平均实时并发：333.33万个token/s。 6000万*（5*60）s*16token/s/(24*60*60)s=333.33万个token/s。 5）算力利用率：20%。 Transformer为自回归模型，这意味着在原始状态下，每生成1个新token，都需要将所有输入过的token再次计算。根据百度智能云技术研究，以175B的GPT-3模型，输入1000个token，生成250个token为例： Context（即Encoder）阶段的激活Shape为[B,1000,12288]，其中B为batch_size，第二维为输入token数，第三位为hiddensize。而对于Generation（Decoder）阶段，由于每次输入输出都是固定的1个token，是通过循环多次来产生多个输出token，所以Generation阶段的激活Shape的第二维始终为1，Generation的激活显存占用是远小于Context阶段的。由此导致，Context是计算密集型的任务，而Generation是访存密集型的任务。这也意味着，在推理阶段，硬件的算力利用率由于受到显存带宽等的限制，会显著较低。图表3：生成式大模型推理流程分析根据百度智能云报道，一般情况下，在线服务的GPU使用率不高，在20%左右。另外，若部署其用户态方案，保证在线服务的SLA相同的情况下，可以将GPU资源利用率提升至35%。 6）峰值倍数：10倍推理服务一个典型的负载模式是一天中峰谷波动明显，且会出现不可预期的短时间流量激增。根据百度智能云统计，我们假设峰值倍数约为10倍。 7）所需算力总量：5.83*10^19FLOPS。 2*1750亿个参数*333.33万个token/s*10倍/20%算力利用率=5.83*10^19FLOPS。 8）所需H100数量：1.5-6万张。根据英伟达官网，H100SXM INT8、FP16、TF32对应的计算能力分别为3958TOPS、1979TFLOPS、989TFLOPS。则分别对应H100数量约为1.47、2.95、5.90万张。图表4：推理所需H100数量我们认为，目前应用较为广泛的文字交互仅为Chatgpt以及AIGC应用形式的开端，语音、图片、视频等多模态的输入输出，或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验，亦将大幅提升支撑人工智能

点击免费查看完整报告