OpenAI新服务涌现,AIGC再遇算力短缺。1)11月6日OpenAI举办首届开发者大会,显著提升大模型在图像和文档上的处理能力,且新的基础模型GPT4Turbo成本更低、功能更强大。更值得关注的是,GPTs作为ChatGPT的自定义版本,极大降低了AI应用的开发门槛,截至2023年11月18日,第三方网站gptstore.ai上已经收集了12,967个共享GPTs,数量呈井喷式增长。2)OpenAI推出的一系列新服务受欢迎程度超预期,另外叠加DDoS攻击,太平洋时间11月6日至8日,ChatGPT服务器间歇性出现大范围宕机,用户访问会收到“ChatGPT目前已满载(ChatGPT is at capacity right now)”的消息。11月15日,OpenAI彼时首席执行官Sam altman在平台上表示,将暂停新的ChatGPT Plus注册,开发日后使用量的激增超出了其承受能力,希望确保每个人都有良好的体验。3)这并不是OpenAI首次受制于算力瓶颈,2023年初至10月,ChatGPT已出现6次宕机事件、API亦出现7次宕机事件,我们认为,算力是AIGC发展的基础土壤,也是AIGC目前训练和推广的重要瓶颈之一,芯片、服务器、算力租赁、光模块等厂商有望核心受益。 多模态训练缺口仍大,推理进一步提振算力需求。1)ChatGPT的推出意味着生成式人工智能已突破技术奇点,互联网公司、云计算提供商和企业客户都迫切希望将生成式AI应用到自身业务中,AIGC或引爆新一轮智算需求。2)在训练端,根据GPUUtils报道,GPT3.5同级别模型需要数千张H100、GPT4或对应数万张A100、GPT5或对应数万张H100,模型训练对大规模算力集群的需求呈现刚性;在推理端,仅考虑文字问答场景,根据百度智能云、科创板日报、快科技、英伟达等报道,我们估算,大约需要数万张H100、对应算力投入数十亿美元;而多模态或有更多提升。 信创战略坚定不移,华为系、海光系加速追赶。1)根据央视网报道,2023年10月17日,美方发布了对华半导体出口管制最终规则,在去年10月7日出台的临时规则基础上,进一步加严对人工智能相关芯片、半导体制造设备的对华出口限制,并将多家中国实体增列入出口管制“实体清单”。外部环境复杂化程度加深,自主进程已成为产业共识。2)相应地,2022年1月15日,求是网刊登习近平总书记《不断做强做优做大我国数字经济》文章,强调加强关键核心技术攻关,尽快实现高水平自立自强;2023年10月19日,上海提到将打造超大规模自主可控智能算力基础设施,争取形成支撑万亿级参数大模型训练的国产智算能力。3)海光系:产品迭代加速,国产算力之光。产品上,海光三号实测性能较上一代提升约45%,海光四号、五号研发进展顺利,深算二号于2023Q3发布并商用,性能较前代翻倍; 生态上,深算兼容“CUDA”生态优势明显,与主流大模型厂商适配良好;业绩上, 公司23Q3业绩快速增长,利润率提升反映产品力。4)华为系:昇腾计算构建全栈 AI基础设施及应用服务。昇腾310和910处理器为华为AI算力领域核心产品,910 单卡Int8算力大致可达0.6P,最大功耗为300W,已可对标国际主流GPU。且昇腾计算产业在硬件方面坚持“硬件开放”策略,通过自有硬件和合作硬件相结合的方式,可为客户提供多样化的算力选择。 投资标的:中科曙光、浪潮信息、海光信息、恒润股份、万马科技、云赛智联、高新发展、神州数码、软通动力、阿尔特、恒为科技、拓维信息、莲花健康、四川长虹、烽火通信、润建股份、中际旭创、新易盛、工业富联、寒武纪等。 风险提示:技术迭代不及预期风险、经济下行超预期风险、行业竞争加剧风险。 一、OpenAI新服务涌现,算力再次成为推广瓶颈 OpenAI开发者大会点燃AI热情,新应用、新场景迅速涌现。1)11月6日OpenAI举办首届开发者大会。大会结束后许多新AI应用迅速涌现,在图像和文档处理能力上,GPT的多模态能力和交互体验有很大提升。2)同时,OpenAI在开发者大会上还升级了基础模型:新的GPT-4 Turbo功能更强大,它有128k的上下文窗口,可以在单个提示中容纳相当于300多页的文本。OpenAI还优化了其性能,与GPT-4相比成本显著降低。 GPTs数量井喷,截至18日,第三方网站已收集超过10,000个。1)除了API多模态能力的更新,OpenAI开发者大会上推出了ChatGPT的自定义版本,称为GPTs,极大降低了AI应用的开发门槛。用户可以创建定制版本的ChatGPT,以便在日常生活、特定任务中使用,并可以与他人分享该GPTs。2)OpenAI暂未发布官方的GPT Store,但目前用户已经可以共享自己创建的GPTs,其他用户可以通过链接访问。在各类第三方网站已经可以找到大量用户共享的GPTs,截止2023年11月18日,第三方网站gptstore.ai上已经收集了12,967个GPTs,数量迅速增长。 图表1:gptstore.ai收集的共享GPTs 新服务受欢迎程度超预期,叠加DDoS攻击,OpenAI再次大范围宕机。1)根据机器之心报道,太平洋时间11月8日上午6点左右开始,ChatGPT服务器宕机超过90分钟,用户访问会收到“ChatGPT目前已满载(ChatGPT is at capacity right now)”的消息。 随后,OpenAI接连发布两次“服务器中断”警告——一次部分中断、一次全线中断,并称正在调查宕机原因,进行修复和监控。2)彼时的OpenAI CEO Sam Altman对此次中断表示抱歉,并在推特上表示:“我们在开发者日发布的新功能的使用情况远远超出了预期。我们原计划周一为所有订阅者启用GPT,但仍未能实现。我们希望尽快。由于负载的原因,短期内可能会出现服务器不稳定的情况。”3)根据每日经济新闻,在11月8日晚间,ChatGPT和API再次出现了有时无法打开的问题。这次,OpenAI表示是受到了DDoS(分布式拒绝服务)攻击,在状态页上更新称:“由于DDoS攻击造成了异常流量模式,我们正在处理其导致的周期性停机。我们将持续努力缓解这种情况。” 使用量仍在激增,OpenAI暂停新的ChatGPT Plus注册。11月15日,OpenAI彼时首席执行官Sam altman在X平台(原推特)上表示,将暂时暂停新的ChatGPT Plus注册,开发日后使用量的激增超出了我们的承受能力,我们希望确保每个人都有良好的体验。 我们认为,算力为AIGC推广的重要瓶颈,芯片、服务器、算力租赁、光模块等厂商有望核心受益。1)这并不是ChatGPT首次受制于算力瓶颈,根据RPA中国统计,据OpenAI在官网公布的事故历史来看,ChatGPT分别于2023年2月、3月、5月、7月、8月等均发生过宕机事故;API亦分别于2023年1月、2月、3月、8月、9月、10月等发生过宕机事故。2)我们认为,算力是AIGC发展的基础土壤,也是AIGC目前训练和推广的重要瓶颈,芯片、服务器、算力租赁、光模块等厂商有望核心受益。 图表2:ChatGPT及API过去宕机历史 二、多模态训练缺口仍大,推理进一步提振算力需求 AIGC浪潮已至,进一步推动对芯片和算力的需求。当下,由于互联网公司、云计算提供商和企业客户都迫切希望将生成式AI应用到自身业务中,算力供应短缺的问题已经成为行业的普遍热点。 1、训练侧:GPT3.5对应数千张H100,多模态需求再提升数倍至十倍。 GPT3.5同级别模型约需要数千张H100进行训练。根据GPUUtils报道,Inflection表示,针对他们与GPT3.5相当的大语言模型,其使用了大约3500张H100进行训练。2)同时,对于初创公司而言,其需要数千张H100对大语言模型进行训练,需要几十张或者小几百张H100做微调。 考虑H100价格约为3-4万美元/张,对用算力投入约为近亿美元。根据快科技报道,H100价格约合人民币24万元,对应3-4万美元/张。考虑以Inflection为代表的公司算力投入在3500张级别,对应总投入或约为近亿美元。 GPT4或对应数万张A100,GPT5或对应数万张H100。1)根据GPUUtils报道,GPT4有可能是在10000-25000张A100上训练的。而对于GPT5,其可能需要25000-50000张H100进行训练。2)相比GPT3.5约数千张H100的需求量,GPT4、GPT5等相对成熟的多模态模型算力需求提升约数倍至十倍级别。 2、推理侧:仅考虑文字问答场景,需要数万张H100,多模态提升空间广阔。 1)每日访问量:6000万。 6月6日,根据科创板日报报道,据SimilarWeb最新数据,4月OpenAI网站访问次数已达到18亿次,则对应每日访问量约为6000万次。 2)用户平均访问时长:5分钟。 根据科创板日报报道,每次访问时长约为5分21秒。 3)单个token输出需要的时间:62.5ms;每秒生成token数量:16个。 根据百度智能云的部分案例,在Batch Size为1时,输出8个token大约需要353ms; 在Batch Size增加到16时,输出8个token大约需要833ms。则输出8个token的时间中值约为500ms(即0.5秒),即单个token所需要的计算时间约为62.5ms(即0.0625秒),对应每秒生成token数量约为16个。 4)平均实时并发:333.33万个token/s。 6000万*(5*60)s*16token/s/(24*60*60)s=333.33万个token/s。 5)算力利用率:20%。 Transformer为自回归模型,这意味着在原始状态下,每生成1个新token,都需要将所有输入过的token再次计算。 根据百度智能云技术研究,以175B的GPT-3模型,输入1000个token,生成250个token为例: Context(即Encoder)阶段的激活Shape为[B,1000,12288],其中B为batch_size,第二维为输入token数,第三位为hiddensize。 而对于Generation(Decoder)阶段,由于每次输入输出都是固定的1个token,是通过循环多次来产生多个输出token,所以Generation阶段的激活Shape的第二维始终为1,Generation的激活显存占用是远小于Context阶段的。 由此导致,Context是计算密集型的任务,而Generation是访存密集型的任务。这也意味着,在推理阶段,硬件的算力利用率由于受到显存带宽等的限制,会显著较低。 图表3:生成式大模型推理流程分析 根据百度智能云报道,一般情况下,在线服务的GPU使用率不高,在20%左右。另外,若部署其用户态方案,保证在线服务的SLA相同的情况下,可以将GPU资源利用率提升至35%。 6)峰值倍数:10倍 推理服务一个典型的负载模式是一天中峰谷波动明显,且会出现不可预期的短时间流量激增。根据百度智能云统计,我们假设峰值倍数约为10倍。 7)所需算力总量:5.83*10^19FLOPS。 2*1750亿个参数*333.33万个token/s*10倍/20%算力利用率=5.83*10^19FLOPS。 8)所需H100数量:1.5-6万张。 根据英伟达官网,H100SXM INT8、FP16、TF32对应的计算能力分别为3958TOPS、1979TFLOPS、989TFLOPS。则分别对应H100数量约为1.47、2.95、5.90万张。 图表4:推理所需H100数量 我们认为,目前应用较为广泛的文字交互仅为Chatgpt以及AIGC应用形式的开端,语音、图片、视频等多模态的输入输出,或将为内容创作领域带来革命性变化。 而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能