AI智能总结
Sam Altman推动全球芯片制造项目,全球AI算力迎来大基建时代。 据《华尔街日报》报道,奥特曼正在推动一个旨在提高全球芯片制造能力的项目,并在与包括阿联酋政府在内的不同投资者进行谈判,向美国政府寻求支持。此外,根据彭博社于2024年2月17日报道,软银集团创始人孙正义正在寻求多达1000亿美元的资金来资助一家芯片企业,以与英伟达公司竞争并供应人工智能必需的半导体。北美科技大厂的模型层规划正稳定推进且长期有效,模型厂商为应对算力缺口,正不断加大上游基础设施建设,增强市场对AI科技革命的信心。 英伟达进军ASIC,推理阶段算力需求持续超预期。1)根据路透社报道,英伟达计划建立一个专注于为云计算公司和其他企业设计定制芯片(ASIC)的新业务部门,包括先进的人工智能(AI)处理器。2)ASIC为特定用户要求和特定电子系统的需要而设计、制造的集成电路,与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点,根据CSET报告AI Chips:What They Are and Why They Matter,相比CPU,ASIC芯片训练效率约为100-1000倍,速度约为10~1000倍,推理方面好于GPU。因此,我们认为,在Gooogle、Amazon等海外科技大厂竞相内部研制处理器的压力下,一方面英伟达进军ASIC,有利于抢占市场,避免资源流失;另一方面,也是为推理阶段算力竞赛的提前布局,算力产业未来有望呈现持续高景气态势。 英伟达推出Chat with RTX,本地化个人助理加速落地。1)英伟达发布AI聊天机器人Chat with RTX,可以将大语言模型(LLM)连接到你的文档、笔记、视频或其他数据,然后利用检索增强生成(RAG)、TensorRT-LLM和RTX加速来生成上下文相关的回答。所有推理和检索都在本地进行,不会有隐私泄露问题。2)根据Canalys预测,兼容AI的个人电脑有望在2025年渗透率达到37%,2027年兼容AI个人电脑约占所有个人电脑出货量的60%,AIPC持续加速落地。3)海外各大投行,包括Susquehanna、瑞银、瑞穗等争相上调英伟达目标价,考虑到英伟达在AI芯片领域处于垄断地位,看好英伟达芯片将长期处于紧俏状态。 全球算力领军业绩纷纷超预期,持续验证产业高景气。1)Arm:第三财季总营收8.24亿美元,同比增长14%,分析师预期7.60亿美元;调整后运营利润3.38亿美元,同比增长17%,分析师预期2.744亿美元。 公司预计第四财季营收8.5亿至9.0亿美元;预计2024财年全年营收31.55亿至32.05亿美元。2)SMCI:1月20日,SMCI公布了截至2023年12月31日的2024财年第二季度初步财务业绩:预计销售额36.0~36.5亿美元,GAAP摊薄后每股普通股净收益4.90~5.05美元,均高于此前指引。1月30日,SMCI正式发布业绩,超出其1月20日初步财务指引,实现营收36.6亿美元,同比增长103%;净利润为2.96亿美元,同比增长68.2%。3)台积电:公司在2023年Q4实现196.2亿美元营收,超出先前给出的188~196亿的区间指引。根据业绩发布会信息,当下公司AI业务的年复合增长率在50%左右,且公司有信心能在未来迎来更多的AI业务机会。我们认为,全球算力龙头业绩持续超预期,预期较为乐观,AIGC商业化范围有望扩大,产业呈现持续高景气态势。 投资标的:中科曙光、海光信息、利通电子、新易盛、高新发展、中际旭创、工业富联、浪潮信息、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓维信息、烽火通信等。 风险提示:技术迭代不及预期、经济下行超预期、行业竞争加剧。 Sam Altman欲推动7万亿美元芯片制造项目,全球AI算力迎来大基建时代 Sam Altman计划推动芯片制造项目。据《华尔街日报》近日报道,奥特曼正在推动一个旨在提高全球芯片制造能力的项目,并在与包括阿联酋政府在内的不同投资者进行谈判。 Altman对算力建设持续重视,认为世界需要比目前人们计划更多的人工智能基础设施。 奥特曼在推特上发帖表示,OpenAI认为世界需要比目前人们计划更多的人工智能基础设施——包括晶圆厂产能、能源、数据中心等。建立大规模的人工智能基础设施和有弹性的供应链对于经济竞争力至关重要。 图表1:Sam Altman推特发文 筹资旨在解决通用人工智能在未来的芯片短缺。Altman在2024年的世界经济论坛上发言称,他相信距通用人工智能成为现实已不再遥远,AGI的普及将在“相对接近的未来”出现。 图表2:Sam Altman在2024世界经济论坛发言 Meta加速基础设施建设。2024年1月19日,扎克伯格在社交媒体披露,Meta正在建设大量的基础设施来支持通用人工智能(AGI)的构建。到2024年底,Meta将拥有大约35万个英伟达H100 GPU。如果算上其他类型的GPU,能达到约60万个H100的等效计算能力。Meta目前正在训练Llama 3,且已经制定了未来模型的发展计划,将继续安全地进行训练。 扎克伯格强调通用人工智能的重要性,呼吁推动开源研究。同日,扎克伯格在社交媒体发言称,下一代服务需要构建全面的通用人工智能,为创作者、企业提供各类人工智能。 这需要AI在各个领域的全面进步,包括推理、规划、编码、记忆和其他认知能力。通用人工智能的技术如此重要,机遇如此巨大,开发者们应该开源并尽可能的推广其使用,以便每个人都能受益。 图表3:扎克伯格于社媒披露Meta基建计划 孙正义寻求募资1000亿美元创建AI芯片公司。根据彭博社于2024年2月17日报道,软银集团创始人孙正义正在寻求多达1000亿美元的资金来资助一家芯片企业,以与英伟达公司竞争并供应人工智能必需的半导体。 英伟达进军ASIC,推理阶段算力需求持续超预期 英伟达成立全新业务部门,进军定制芯片(ASIC)。根据路透社报道,英伟达计划建立一个专注于为云计算公司和其他企业设计定制芯片(ASIC)的新业务部门,包括先进的人工智能(AI)处理器。 图表4:英伟达进军定制芯片 我们认为: 首先,抢占市场,避免资源流失。英伟达的客户竞相抢购供应日益减少的英伟达芯片,以便在迅速崛起的生成式AI领域展开竞争。但许多海外科技公司也已经开始针对具体的需求自行研发内部处理器。 其次,英伟达进军ASIC领域,是为推理阶段算力竞赛的提前布局。 ASIC具备体积小、成本低等优势。ASIC为特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求,ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。目前,基于ASIC的人工智能芯片有地平线BPU、谷歌的TPU等。 图表5:GPU、FPGA、ASIC特征比较 ASIC推理方面显著优于GPU。根据CSET报告AI Chips:What They Are and Why They Matter,相比CPU,ASIC芯片训练效率约为100-1000倍,速度约为10~1000倍,推理方面好于GPU。 图表6:各类芯片的效能和速度 AIGC浪潮已至,进一步推动对芯片和算力的需求。当下,由于互联网公司、云计算提供商和企业客户都迫切希望将生成式AI应用到自身业务中,算力供应短缺的问题已经成为行业的普遍热点。 1、训练侧:GPT3.5对应数千张H100,多模态需求再提升数倍至十倍。 GPT3.5同级别模型约需要数千张H100进行训练。根据GPU Utils报道,Inflection表示,针对他们与GPT3.5相当的大语言模型,其使用了大约3500张H100进行训练。2)同时,对于初创公司而言,其需要数千张H100对大语言模型进行训练,需要几十张或者小几百张H100做微调。 考虑H100价格约为3-4万美元/张,对用算力投入约为近亿美元。根据快科技报道,H100价格约合人民币24万元,对应3-4万美元/张。考虑以Inflection为代表的公司算力投入在3500张级别,对应总投入或约为近亿美元。 GPT4或对应数万张A100,GPT5或对应数万张H100。1)根据GPU Utils报道,GPT4有可能是在10000-25000张A100上训练的。而对于GPT5,其可能需要25000-50000张H100进行训练。2)相比GPT3.5约数千张H100的需求量,GPT4、GPT5等相对成熟的多模态模型算力需求提升约数倍至十倍级别。 2、推理侧:仅考虑文字问答场景,需要数万张H100,多模态提升空间广阔。 1)每日访问量:6000万。 2023年6月6日,根据科创板日报报道,据SimilarWeb最新数据,2023年4月OpenAI网站访问次数已达到18亿次,则对应每日访问量约为6000万次。 2)用户平均访问时长:5分钟。 根据科创板日报报道,每次访问时长约为5分21秒。 3)单个token输出需要的时间:62.5ms;每秒生成token数量:16个。 根据百度智能云的部分案例,在Batch Size为1时,输出8个token大约需要353ms; 在Batch Size增加到16时,输出8个token大约需要833ms。则输出8个token的时间中值约为500ms(即0.5秒),即单个token所需要的计算时间约为62.5ms(即0.0625秒),对应每秒生成token数量约为16个。 4)平均实时并发:333.33万个token/s。 6000万*(5*60)s*16token/s/(24*60*60)s=333.33万个token/s。 5)算力利用率:20%。 Transformer为自回归模型,这意味着在原始状态下,每生成1个新token,都需要将所有输入过的token再次计算。 根据百度智能云技术研究,以175B的GPT-3模型,输入1000个token,生成250个token为例: Context(即Encoder)阶段的激活Shape为[B,1000,12288],其中B为batch_size,第二维为输入token数,第三位为hidden size。 而对于Generation(Decoder)阶段,由于每次输入输出都是固定的1个token,是通过循环多次来产生多个输出token,所以Generation阶段的激活Shape的第二维始终为1,Generation的激活显存占用是远小于Context阶段的。 由此导致,Context是计算密集型的任务,而Generation是访存密集型的任务。这也意味着,在推理阶段,硬件的算力利用率由于受到显存带宽等的限制,会显著较低。 图表7:生成式大模型推理流程分析 根据百度智能云报道,一般情况下,在线服务的GPU使用率不高,在20%左右。另外,若部署其用户态方案,保证在线服务的SLA相同的情况下,可以将GPU资源利用率提升至35%。 6)峰值倍数:10倍。 推理服务一个典型的负载模式是一天中峰谷波动明显,且会出现不可预期的短时间流量激增。根据百度智能云统计,我们假设峰值倍数约为10倍。 7)所需算力总量:5.83*10^19FLOPS。 2*1750亿个参数*333.33万个token/s*10倍/20%算力利用率=5.83*10^19FLOPS。 8)所需H100数量:1.5-6万张。 根据英伟达官网,H100 SXM INT8、FP16、TF32对应的计算能力分别为3958TOPS、1979TFLOPS、989TFLOPS。则分别对应H100数量约为1.47、2.95、5.90万张。 图表8:推理所需H100数量 我们认为,目前应用较为广泛的文字交互仅为Chatgpt以及AIGC应用形式的开端,语音、图片、视频等多模态的输入输出,或将为内容创作领域带来革命性变化。 而更广的数据形