您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国盛证券]:AI巨头加大加注算力 - 发现报告

AI巨头加大加注算力

信息技术 2024-01-28 刘高畅,杨然,陈芷婧 国盛证券 💤 👏
报告封面

OpenAI拟筹资建立晶圆厂,Meta加速基础设施建设。1)根据彭博社于2024年1月20日报道,OpenAI首席执行官Sam Altman正努力从全球投资者那里筹集数十亿美元用于建立全球范围的半导体制造工厂网络。这一计划涉及与顶尖芯片制造商合作,旨在应对人工智能日益普及带来的芯片需求增加。目前,Altman已经与包括阿布扎比的G42和软银集团在内的多家公司进行了讨论,但谈判仍处于初期阶段,具体合作伙伴和资金来源尚未最终确定。此次的筹资活动并非意在解决当下的芯片短缺,而是面向未来通用人工智能(AGI)普及的准备。2)2024年1月19日,扎克伯格在社交媒体披露,Meta正在建设大量的基础设施来支持AGI的构建。到2024年底,Meta将拥有大约35万个英伟达H100GPU。如果算上其他类型的GPU,能达到约60万个H100的等效计算能力。 多模态训练缺口仍大,推理进一步提振算力需求。1)ChatGPT的推出意味着生成式人工智能已突破技术奇点,互联网公司、云计算提供商和企业客户都迫切希望将生成式AI应用到自身业务中,AIGC或引爆新一轮智算需求。 2)在训练端,根据GPUUtils报道,GPT3.5同级别模型需要数千张H100、GPT4或对应数万张A100、GPT5或对应数万张H100,模型训练对大规模算力集群的需求呈现刚性;在推理端,仅考虑文字问答场景,根据百度智能云、科创板日报、快科技、英伟达等报道,我们估算,大约需要数万张H100、对应算力投入数十亿美元;而多模态或有更多提升。 信创战略坚定不移,华为系、海光系加速追赶。1)根据央视网报道,2023年10月17日,美方发布了对华半导体出口管制最终规则,在2022年10月7日出台的临时规则基础上,进一步加严对人工智能相关芯片、半导体制造设备的对华出口限制,并将多家中国实体增列入出口管制“实体清单”。 外部环境复杂化程度加深,自主进程已成为产业共识。2)相应地,2022年1月15日,求是网刊登习近平总书记《不断做强做优做大我国数字经济》文章,强调加强关键核心技术攻关,尽快实现高水平自立自强;2023年10月19日,上海提到将打造超大规模自主可控智能算力基础设施,争取形成支撑万亿级参数大模型训练的国产智算能力。3)海光系:产品迭代加速,国产算力之光。产品上,海光三号实测性能较上一代提升约45%,海光四号、五号研发进展顺利,深算二号于2023Q3发布并商用,性能较前代翻倍; 生态上,深算兼容“CUDA”生态优势明显,与主流大模型厂商适配良好; 业绩上,公司23Q4营收创历史最高,净利润超出市场预期。4)华为系:昇腾计算构建全栈AI基础设施及应用服务。昇腾310和910处理器为华为AI算力领域核心产品,910单卡Int8算力大致可达0.6 P,最大功耗为300W,已可对标国际主流GPU。且昇腾计算产业在硬件方面坚持“硬件开放”策略,通过自有硬件和合作硬件相结合的方式,可为客户提供多样化的算力选择。 投资标的:中科曙光、浪潮信息、海光信息、利通电子、新易盛、高新发展、中际旭创、工业富联、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓维信息、烽火通信等。 风险提示:技术迭代不及预期风险、经济下行超预期风险、行业竞争加剧风险。 1.OpenAI筹资建立晶圆厂,Meta加速基础设施建设 OpenAI拟筹资在全球建立晶圆厂网络。根据彭博社于2024年1月20日报道,OpenAI首席执行官Sam Altman正努力从全球投资者那里筹集数十亿美元用于建立全球范围的半导体制造工厂网络。这一计划涉及与顶尖芯片制造商合作,旨在应对人工智能日益普及带来的芯片需求增加。目前,Altman已经与包括阿布扎比的G42和软银集团在内的多家公司进行了讨论,但谈判仍处于初期阶段,具体合作伙伴和资金来源尚未最终确定。 OpenAI计划筹资旨在解决通用人工智能在未来的芯片短缺。根据彭博社报道,Sam Altman此次的筹资活动并非意在解决当下的芯片短缺,而是面向未来通用人工智能(AGI)普及的准备。Altman在2024年的世界经济论坛上发言称,他相信距通用人工智能成为现实已不再遥远,AGI的普及将在“相对接近的未来”出现。 图表1:Sam Altman在2024世界经济论坛发言 Meta加速基础设施建设。2024年1月19日,扎克伯格在社交媒体披露,Meta正在建设大量的基础设施来支持通用人工智能(AGI)的构建。到2024年底,Meta将拥有大约35万个英伟达H100GPU。如果算上其他类型的GPU,能达到约60万个H100的等效计算能力。Meta目前正在训练Llama 3,且已经制定了未来模型的发展计划,将继续安全地进行训练。 扎克伯格强调通用人工智能的重要性,呼吁推动开源研究。同日,扎克伯格在社交媒体发言称,下一代服务需要构建全面的通用人工智能,为创作者、企业提供各类人工智能。 这需要AI在各个领域的全面进步,包括推理、规划、编码、记忆和其他认知能力。通用人工智能的技术如此重要,机遇如此巨大,开发者们应该开源并尽可能的推广其使用,以便每个人都能受益。 图表2:扎克伯格于社媒披露Meta基建计划 2.多模态训练缺口仍大,推理进一步提振算力需求 AIGC浪潮已至,进一步推动对芯片和算力的需求。当下,由于互联网公司、云计算提供商和企业客户都迫切希望将生成式AI应用到自身业务中,算力供应短缺的问题已经成为行业的普遍热点。 1、训练侧:GPT3.5对应数千张H100,多模态需求再提升数倍至十倍。 GPT3.5同级别模型约需要数千张H100进行训练。根据GPUUtils报道,Inflection表示,针对他们与GPT3.5相当的大语言模型,其使用了大约3500张H100进行训练。2)同时,对于初创公司而言,其需要数千张H100对大语言模型进行训练,需要几十张或者小几百张H100做微调。 考虑H100价格约为3-4万美元/张,对用算力投入约为近亿美元。根据快科技报道,H100价格约合人民币24万元,对应3-4万美元/张。考虑以Inflection为代表的公司算力投入在3500张级别,对应总投入或约为近亿美元。 GPT4或对应数万张A100,GPT5或对应数万张H100。1)根据GPUUtils报道,GPT4有可能是在10000-25000张A100上训练的。而对于GPT5,其可能需要25000-50000张H100进行训练。2)相比GPT3.5约数千张H100的需求量,GPT4、GPT5等相对成熟的多模态模型算力需求提升约数倍至十倍级别。 2、推理侧:仅考虑文字问答场景,需要数万张H100,多模态提升空间广阔。 1)每日访问量:6000万。 2023年6月6日,根据科创板日报报道,据SimilarWeb最新数据,2023年4月OpenAI网站访问次数已达到18亿次,则对应每日访问量约为6000万次。 2)用户平均访问时长:5分钟。 根据科创板日报报道,每次访问时长约为5分21秒。 3)单个token输出需要的时间:62.5ms;每秒生成token数量:16个。 根据百度智能云的部分案例,在Batch Size为1时,输出8个token大约需要353ms; 在Batch Size增加到16时,输出8个token大约需要833ms。则输出8个token的时间中值约为500ms(即0.5秒),即单个token所需要的计算时间约为62.5ms(即0.0625秒),对应每秒生成token数量约为16个。 4)平均实时并发:333.33万个token/s。 6000万*(5*60)s*16token/s/(24*60*60)s=333.33万个token/s。 5)算力利用率:20%。 Transformer为自回归模型,这意味着在原始状态下,每生成1个新token,都需要将所有输入过的token再次计算。 根据百度智能云技术研究,以175B的GPT-3模型,输入1000个token,生成250个token为例: Context(即Encoder)阶段的激活Shape为[B,1000,12288],其中B为batch_size,第二维为输入token数,第三位为hiddensize。 而对于Generation(Decoder)阶段,由于每次输入输出都是固定的1个token,是通过循环多次来产生多个输出token,所以Generation阶段的激活Shape的第二维始终为1,Generation的激活显存占用是远小于Context阶段的。 由此导致,Context是计算密集型的任务,而Generation是访存密集型的任务。这也意味着,在推理阶段,硬件的算力利用率由于受到显存带宽等的限制,会显著较低。 图表3:生成式大模型推理流程分析 根据百度智能云报道,一般情况下,在线服务的GPU使用率不高,在20%左右。另外,若部署其用户态方案,保证在线服务的SLA相同的情况下,可以将GPU资源利用率提升至35%。 6)峰值倍数:10倍 推理服务一个典型的负载模式是一天中峰谷波动明显,且会出现不可预期的短时间流量激增。根据百度智能云统计,我们假设峰值倍数约为10倍。 7)所需算力总量:5.83*10^19FLOPS。 2*1750亿个参数*333.33万个token/s*10倍/20%算力利用率=5.83*10^19FLOPS。 8)所需H100数量:1.5-6万张。 根据英伟达官网,H100SXM INT8、FP16、TF32对应的计算能力分别为3958TOPS、1979TFLOPS、989TFLOPS。则分别对应H100数量约为1.47、2.95、5.90万张。 图表4:推理所需H100数量 我们认为,目前应用较为广泛的文字交互仅为Chatgpt以及AIGC应用形式的开端,语音、图片、视频等多模态的输入输出,或将为内容创作领域带来革命性变化。 而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代。 3.信创战略坚定不移,华为系、海光系加速追赶 外部环境复杂,进一步推动自主计算进程。1)根据央视网报道,2023年10月17日,美方发布了对华半导体出口管制最终规则。最终规则在2022年10月7日出台的临时规则基础上,进一步加严对人工智能相关芯片、半导体制造设备的对华出口限制,并将多家中国实体增列入出口管制“实体清单”,外部环境复杂化程度加深。2)值得注意的是,类似历史事件并不在少数,2022年8月9日,美国正式签署《芯片与科学法案2022》,以约520亿美元补贴支持美国本土发展芯片制造及研发,同时禁止获得美国补贴的企业,在获得财政援助后的十年内,在中国和其他相关国家扩大先进芯片制造;2022年9月1日,英伟达发布公告称,美国政府实施一项新的出口管制要求,将限制向中国和俄罗斯销售用于服务器的高性能人工智能芯片A100和H100。我们认为,外部环境趋势复杂多变,自主进程已成为产业共识。 2023年,中国GPU市场规模或达百亿美元,同比增速约为32.8%;CPU市场规模或超3000亿元。1)根据华经产业研究院统计,2022年,全球GPU市场规模已达到448亿美元,其中中国GPU市场规模已达到83.6亿美元,2023年或将达到111亿美元,同比增长约32.8%。在AI的发展需求下,通用型GPU市场正在快速成长。2)根据前瞻产业研究院统计,2022年中国CPU行业市场规模约为3000亿元,预计到2027年,中国CPU芯片行业的市场规模将超过5000亿元。 GPU与CPU格局长期由海外厂商占据,国内企业提升空间巨大。1)格局而言,GPU长期以来主要由Nvidia与AMD二分天下,另外Intel同样占据小部分。对于国内厂商而言,伴随AI需求发展以及信创进程推进,渗透空间广阔。2)根据中国电子报报道,市场研究机构Counterpoint的统计数据显示,2022年,I