算力底座:算力承载与网络中枢 通信行业专题报告 分析师:李宏涛S0910523030003 本报告仅供华金证券客户中的专业投资者参考请仔细阅读在本报告尾部的重要法律声明 核心观点 u算力进展:大模型:算力驱动迭代,应用在向通用型场景和垂直行业型场景落地;服务器:作为算力的承载,随着大模型不断涌现,训练需求爆发,AI服务器的价值凸显;交换机:算力网络中枢,在智算组网下对高速率交换机升级迫切,400G交换机将拉动整体市场增长,具备翻倍增长空间。 u算力测算与算力租赁:据测算,2022年训练用算力为95Eflops,至2025年训练用算力749E,复合增长43%;在算力总需求高增长背景下,智算租赁景气度提升,目前该市场百花齐放,将成为公司第二增长曲线。 u算力商业机会演进的路线选择:我们认为,算力方向将演变为以国内驱动为主,国内驱动与海外驱动并行态势;国内驱动逻辑:1、基础设施:大模型出现带动AI服务器需求,数据中心不断扩容升级;2、内延:短距离传输、高速背板连接需求大涨;3、算力资源:全国智算中心建设加速,得卡者得生产力;u建议关注标的:紫光股份、菲菱科思、浪潮信息、共进股份、中贝通信、润泽科技等。 u风险提示:模型算法及应用市场拓展不及预期;芯片成本过高、订单周期过长影响落地进度;智算中心建设进度不及预期。 算力进展 大模型:算力驱动迭代,应用落地加速服务器:算力承载,AI服务器价值凸显交换机:交互连接,算力网络中枢 算力测算 算力商业机会演进的路线选择 投资建议与风险提示 趋势一:大模型发布持续超预期发展 uChatGPT模型的推出持续超预期发展。1)ChatGPT注册用户激增,5天突破百万;2)GPT模型不断迭代:GPT3于20年6月推出,在2022年11月推出的GPT3.5基础上再次更新,23年6月推出GPT 3.5 turbo 16K。3)AI渗透千行百业:基于大模型的多场景应用也不断拓展。拉动智能算力规模高速增长。根据OpenAI的研究,AI训练所需算力指数增长,且增长速度超越硬件的摩尔定律。 趋势二:数字基础设施建设加速,景气度提升 u1、我国数据中心总体建设进度加速。据《数字中国发展报告》,我国数据中心机架总规模2022年达到650万机架,比去年增长130万架,近5年年均增速超过30%。 u2、算力基础设施采购量明显提升。以移动为代表的公司,采购交换机数量加大,移动公司2023-2024年采购交换机30660台,其中特定场景交换机需求放量增长,采购15330台。 趋势三:模型百花齐放,推动AI在各领域广泛应用 u1、国内模型百花齐放:众多公司推出大模型,比如阿里推出通义千问、腾讯推出混元,百度的文心一言大模型,科大讯飞的星火大模型 u2、面向垂直行业的大模型应用效果显著:紫天科技旗下河马游戏推出《大侦探智斗小AI》,下载量进入榜单TOP10;医联所推出的MedGPT具备全流程智能化诊疗能力,与三甲专家诊断一致性超96%。“天擎”美亚公共安全大模型,具备警务意图识别、警务情报分析、案情推理等推理能力,可实现全流程闭环进化。将重构两大应用场景:电子数据取证和智慧警务系统。 目录 算力进展 大模型:算力驱动迭代,应用落地加速 服务器:算力承载,AI服务器价值凸显交换机:交互连接,算力网络中枢 算力测算及算力租赁 算力商业机会演进的路线选择 投资建议与风险提示 AI芯片是大模型迭代的基础 u英伟达为代表的芯片厂商性能持续进步。英伟达2017年上市V100芯片,2020年上市A100芯片,2022年上市H100芯片,H100较V100计算性能提升3倍以上。并且为了迎合AI大模型的潮流,H100配有Transformer引擎,可更好的支撑大模型的架构。 uAI芯片成为大模型不断更新的算力基础。以GPT-3为例,模型包含1750亿参数,训练成本达1200万美元。而谷歌发布的PaLM-E包含5620亿参数,GPT-4包含数万亿级别参数。所以大模型的更新迭代必须以先进的AI芯片作为算力基础。 Transformer架构是AI大模型与传统模型不同的核心 uTransformer模型是AIGC大模型与传统模型不同的核心。AIGC大模型起源于NLP,并基于Attention机制构建Transformer模型。传统模型多基于CNN和RNN结构。 uTransformer模型架构是现代大语言模型所采用的基础架构。Transformer模型是一种非串行的神经网络架构,最初被用于执行基于上下文的机器翻译任务。Transformer模型以Encoder-Decoder架构为基础,引入“注意机制”(Attention),具有能够并行运算、关注上下文信息、表达能力强等优势。 底层架构各异导致训练参数不同 u底层架构的不同导致训练参数的要求不同。以Transformer为架构的大模型一般可达百亿、千亿、万亿级别,而以CNN或RNN为底层架构的传统模型则是亿级别及更少级别。 uAI大模型参数级别庞大,需要强大的算力和硬件支撑。以ChatGPT3.0为例进行拆解,训练一次的成本约为140万美元。对于一些规模更大的模型来说,训练成本介于200万美元-1200万美元之间。 AI大模型带动并行计算,训练消耗更多算力 u训练和推理是大模型运行的重要环节。训练环节是大模型的学习过程,可提高模型在各种任务上的性能。推理环节是大模型的判断过程,利用已有训练效果对新的输入进行预测和决策。 u训练和推理需要大量算力支撑,其中训练消耗更多。援引Open AI测算,自2012年起,全球头部AI模型训练算力需求每3-4个月翻一番,每年头部训练模型所需算力增长幅度高达10倍。而推理阶段则根据模型上线后的搜索量来计算,新输入数据的量级相较于训练环节的大规模数据量级较低。 进展:国外大模型—通用模型领先,商业化首落地 u国外大模型主要以美国高科技公司为主。Google、Meta、微软等美国公司处于了世界大模型发展的领先地位,现在几乎所有AI大模型训练时采用的Transformer网络结构,Transformer的提出让大模型训练成为可能。 u微软产品Copilot实现商业化落地。Copilot产品基于GPT-4,将生成式AI能力全面应用于各大办公套件,可作为办公场景下智能写手。7月18日,Copilot提供订阅收费服务,每名用户每月的价格从12.5美元到57美元不等。产品的商业化落地体现出企业对人工智能的未来前景持续看好。 进展:国内大模型—通用和垂直两条路演绎 u国内AI大模型数量呈现爆发式增长。国内公开发布的大模型已达80多个。研究大模型的公司有百度、商汤、科大讯飞、华为、阿里、京东、第四范式等公司。同时科研机构也在积极入局,有清华大学、复旦大学、中科院等高校。 u国内大模型分为通用和垂直应用。文心一言、通义千问等打造跨行业通用化人工智能能力平台,其应用正从办公、生活、娱乐向医疗、工业、教育等加速渗透。与此同时,一批针对生物制药、遥感、气象等垂直领域的专业类大模型,提供针对特定业务场景的专业化解决方案。 资本支出:支出加速,运营商有望成为国内主力军 u全球云服务CAPEX持续增长。受益于大模型的持续发展,2023Q1全球云基础设施服务支出增长19%,前三大云厂商AWS、Azure和谷歌云共同增长22%。云服务成为IT市场中增长最快的部分之一。 u三大运营商成为国内网络建设主力军。三大运营商中国移动、中国电信、中国联通不断加大算力投入,优化算力网络布局。根据三大运营商数据,预计2023年算力投入分别为452/195/149亿元,分别同比+35%/+40%/+20%。 建设计划:政策—管理办法落地,监管走上正轨 u国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》。上述《办法》自2023年8月15日起施行,国家网信办有关负责人表示,出台《办法》,旨在促进生成式人工智能健康发展和规范应用,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益。同时《办法》也指出,应该促进算力资源协同共享,提升算力资源利用效能。 建设计划:政府—智算中心建设开启,国内需求逐步释放 u国内智算中心建设明确,后续需求有望逐步释放。多地政府出台算力规划、三大运营商加速筹备智算中心建设以及互联网厂商多地智算中心建设规划。智能计算中心的建设,整合数据资源结构的同时,也带来更为完善且健全的算力、算法基础设施,为人工智能技术的创新及应用提供强有力的支撑。 建设计划:企业—模型推进计划明确,垂直行业延伸 u科大讯飞提出大模型的建设进度计划。针对大模型普遍存在的问题,科大讯飞明确规划了一系列的迭代里程碑。计划在不同时间节点进行不同方面的升级,力争超越ChatGPT。目前国内大模型厂商中,科大讯飞制定了明确的追赶GPT-3.5的时间表,表明了他们在技术研发上的整体规划。 u科大讯飞星火大模型落地多应用场景实现闭环,赋能开放平台共建生态。公司发布教育、消费者、医疗、政法等多种应用场景的实现,配合公司相关产品使用,进一步提高公司市场渗透率。 目录 算力进展 大模型:价值量、网络架构整体跃升 服务器:算力承载,AI服务器价值凸显 交换机:交互连接,算力网络中枢 算力测算 算力商业机会演进的路线选择 投资建议与风险提示 规模:算力增长助力AI服务器规模化布局 u算力持续增长,AI服务器应用场景更加广泛。Trendforce预估,预估2022年全球搭载GPGPU的AI服务器年出货量占整体服务器比重近1%,即约14万台。预计2023年其出货量年成长可达8%,到2026年预计全球搭载GPGPU的AI服务器出货量将达到22.5万台左右,2022~2026年CAGR将达10.8%。 u中国AI算力市场高速发展,将成为第二增长极。根据IDC预测,到2027年中国加速服务器市场规模将达到164亿美元。其中非GPU服务器市场规模将超过13%。智慧城市、智能机器人、智能家居、工业领域将成为主要应用领域。 机架服务器:传统数据中心标配,大型机架渐成主流 u我国服务器机架数量快速增长,大型机架逐渐成为主流。2021年我国服务器机架总数达429万架,大型规模以上机架361万架,占比达84.1%。 u企业规模不同,配置的服务器不同。服务器按照可支持的CPU数量可分为单路、双路、四路及多路服务器,单路即为1个CPU。大中小型企业通常配置4-8路、2-4路、1-2路服务器。u机架式服务器的通常功耗不超过30W。 处理器×2:最多支持60核;最高睿频4.2GHz;四条UPI互连链路,单条链路最高速率16GT/s;最大热设计功率350W GPU×4:四条UPI互连链路,单条链路最高速率16GT/s CPU×2:支持32条DIMM 内存×32:最多支持32条DDR5 4800MT/s内存 刀片服务器:为云而生,高可用、高密度是优势 u刀片式服务器是指在标准高度的机架式机箱内可插装多个卡式的服务器单元,实现高可用和高密度。每一块"刀片"实际上就是一块系统主板,每块"刀片"都是热插拔。 u比较:1)刀片式服务器更省空间,6机架42个1U的服务器和1机架的刀片服务器性能相当;2)刀片式服务器布线更简单、更省电;3)机架式比刀片式服务器更加灵活、维护更简单、维护成本更低;4)刀片式服务器对制冷的要求更高;5)刀片式服务器对调度系统的要求更多 资料来源:jointforce官网、强川科技、华金证券研究所 AI服务器:为计算而生,性能全方面升级 u按照GPU数量分类:Al服务器主要采用加速卡为主导的异构形式,更擅长并行计算。与通用服务器按照CPU数量分类不同,Al服务器一般仅搭载1-2块CPU,GPU数量显著占优。按GPU数量,可分为四路、八路和十六路服务器,其中搭载8块GPU的八路Al服务器最常见。 uAI服务器相较于普通服务器存在各方面升级。AI服务器增加了GPU的使用数量,相配套的