您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国信证券]:算力租赁专题报告:Neocloud引领算力租赁发展,国内市场发展可期 - 发现报告

算力租赁专题报告:Neocloud引领算力租赁发展,国内市场发展可期

信息技术 2025-08-24 袁文翀,张宇凡 国信证券 胡诗郁
报告封面

行业研究·行业专题 通信 投资评级:优于大市(维持评级) 证券分析师:袁文翀021-60375411yuanwenchong@guosen.com.cnS0980523110003 证券分析师:张宇凡021-61761027zhangyufan1@guosen.com.cnS0980525080005 投资摘要 全球算力景气度延续,随着英伟达GB系列高密度算力机柜加速出货,全球高端算力景气度进一步提升。当前AIGC浪潮下,全球服务器出货量持续增长,咨询机构IDC预计2028年全球人工智能服务器市场规模有望达到2,227亿美元,其中生成式人工智能服务器占比将从2025年的29.6%提升至2028年的37.7%。从需求端来看,模型迭代加速背景下训练端需求仍维持高位,推理侧需求随着应用的渗透逐步提升;从供给端来看,以英伟达B/Rubin、AMD MI系列为代表的高性能算力芯片持续迭代,2025年下半年GB300有望加速交付。根据CSP厂商的Capex指引,预计2025年,海外亚马逊、谷歌、微软、Meta四家厂商合计Capex增至3610亿美元,同比增幅超58%;国内字节、腾讯、阿里Capex有望超过3600亿元,AI发展高景气度延续。 GPU云(算力租赁)或解决目前全球高端AI芯片紧缺问题,GPU云(算力租赁)市场快速发展。在大模型军备竞赛的背景下,各大厂加速万卡甚至十万卡集群建设。Meta、微软&OpenAI、xAI等多家AI巨头陆续宣布或者完成10万卡集群建设,国内通信运营商、头部互联网、大型AI研发企业等均发力超万卡集群的布局。然而在全球高端AI芯片供给紧缺背景下,以租赁代替购买的商业模式应运而生,租赁模式因地制宜且性价比更高。云计算市场历经传统云、混合云阶段后,正在迎来第三次分化浪潮——AI智算云NeoCloud,即GPU云(算力租赁),预计到2033年全球GPU云(算力租赁)市场规模将增至128亿美元(Verified Market Research预测)。 AI芯片巨头正在通过GPU云(算力租赁)商业模式布局全球市场,国内GPU云市场发展值得期待。(1)全球市场来看,英伟达以股权或合作方式辅助GPU云厂(CoreWeave、NBIS、Omniva等)发展,巩固其在高端芯片领域的全球主导地位。三家GPU云厂覆盖区域和发展规模虽有不同,但均受益GPU云市场的高景气度,处于快速增长期,2025Q2CoreWeave和NBIS营收增速分别达到207%/625%。(2)国内方面,国产AI芯片目前主要支持推理业务,部分训练场景英伟达高端AI芯片性能表现更优;国内外算力政策有差异,同时以OPEX租赁算力方式实现训练业务或具备更高性价比,国内算力租赁企业迎来发展契机。目前国内算力租赁企业的租赁回报较为可观,测算净利率或达15%,与海外GPU云(算力租赁)的商业模式和发展前景具有部分相似之处。 投资建议:AI算力景气度持续,短期看,GPU云(算力租赁)或为解决高端算力供需不匹配的核心解决方案;长期看,GPU云(算力租赁)具备灵活、低成本的解决方案,渗透率有望持续提升。推荐关注国内GPU云相关企业,建议关注【润建股份】及相关产业公司。 风险提示:AI发展及投资不及预期,行业竞争加剧,全球地缘政治风险,新技术发展引起产业链变迁。 目录 算力高景气度延续,英伟达AI芯片仍领先市场01全球高端算力资源稀缺,GPU云市场价值显现02新GPU云厂商与英伟达深度合作,算力租赁市场快速增长03我国高端算力需求旺盛,国内算力租赁市场未来可期04投资建议05 第一章算力高景气度延续,英伟达AI芯片仍领先市场 AIGC浪潮下,人工智能算力市场规模有望持续扩大 全球人工智能服务器市场规模持续增长,生成式人工智能服务器占比不断提升。IDC数据显示,2024年全球人工智能服务器市场规模预计为1,251亿美元,2025年将增至1,587亿美元,2028年有望达到2,227亿美元,其中生成式人工智能服务器占比将从2025年的29.6%提升至2028年的37.7%。 我国人工智能服务器市场规模持续扩大,2025-2028年CAGR达到31%。随着我国大模型的迭代和人工智能应用兴起,高性能计算资源的需求显著提升,人工智能服务器作为核心基础设施,市场规模持续扩大。2024年中国人工智能算力市场规模达到190亿美元,2025年将达到259亿美元,同比增长36.2%,2028年将达到552亿美元,2025-2028年CAGR为31%。同时,推理侧与训练侧市场均呈现扩张态势,推理侧占比显著提高、增速更快。当前推理场景的需求日益增加,推理服务器的占比有望显著提高。2024年我国推理占比为65%,预计到2028年,推理工作负载占比将达到73%。 资料来源:IDC,国信证券经济研究所整理 资料来源:IDC,国信证券经济研究所整理 资料来源:IDC,国信证券经济研究所整理 资料来源:IDC,国信证券经济研究所整理 算力供给持续优化:GB300预计于2025年Q3交付 GB300服务器拥有超级算力,助力企业训练和运行AI软件。1)GB300芯片是定位为高性能计算与AI推理的旗舰产品。2025年3月18日,GTC大会发布GB300芯片,该芯片基于NVIDIA Blackwell Ultra架构。NVIDIA Blackwell架构GPU拥有2080亿个晶体管,采用专门定制的台积电4NP工艺制造,且所有NVIDIA Blackwell产品均采用双倍光刻极限尺寸的裸片,通过10TB/s的片间互联技术连接成一块统一的GPU。2)GB300 NVL72系统是行业首款达到ExaFLOPS级别的企业级算力设备。系统内建72个英伟达Blackwell Ultra GPU和36个基于Arm架构的英伟达Grace CPU,理论算力可达1万亿次浮点运算/秒,掀开全球AI基础设施升级的新篇章。 GB300首批已出货至Core Weave,预计2025Q3开始放量。7月3日,美国Core Weave公司宣布已收到市场上首个基于英伟达GB300的人工智能服务器系统。该系统采用戴尔PowerEdge XE9712服务器,以Nvidia GB300 NVL72作为基础。CoreWeave计划在今年内持续扩大Blackwell Ultra服务器的部署规模,以满足客户不断增长的AI计算需求。除戴尔外,其他服务器厂商正推动GB300服务器出货。广达资深副总暨云达总经理杨麒令表示,GB300目前按计划推进,正在测试并与客户进行验证,预计2025年9月出货。 资料来源:芯智讯官微,国信证券经济研究所整理 资料来源:CoreWeave官网,国信证券经济研究所整理 算力供给持续优化:Rubin预计于2026-2027年量产 英伟达最新一代R系列芯片在高强度AI训练和推理任务中更具优势。英伟达持续优化和迭代GPU,R100将采台积电的N3制程(vs. B100采用台积电的N4P)与CoWoS-L封装(与B100相同)。与此同时,R100采用约4x reticle设计(vs. B100的3.3x reticle设计)。这一工艺进步增强了R100的能效比,巩固英伟达市场领先地位。 •2026年,Vera Rubin 144架构将量产,AI算力正式迈入Exascale时代。英伟达CEO黄仁勋在GTC 2025大会确认,Vera Rubin 144将于2026年下半年推出。Vera Rubin144包含144个Rubin GPU和多个Vera CPU,采用液冷Oberon机架,功耗600kW,提供3.6 ExaFLOPS的FP4推理性能和1.2 ExaFLOPS的FP8训练性能,其性能约为Blackwell GB300 NVL72的3.3倍。 •2027年,Rubin Ultra NVL576架构将量产,推动英伟达算力进一步突破。GTC2025大会,黄仁勋表示,该架构包含576个Rubin Ultra GPU,FP4推理性能达15 ExaFLOPS,FP8训练性能达5 ExaFLOPS,其性能约为Blackwell GB300 NVL72的14倍。 资料来源:NVIDIA官网,国信证券经济研究所整理 资料来源:NVIDIA官网,国信证券经济研究所整理 资料来源:NVIDIA官网,国信证券经济研究所整理 训练侧算力供给持续优化:AMD新品MI350与B200性能相当 2025年6月12日,AMD公布新产品AMD INSTINCT MI350系列GPU的研发计划。MI350系列包括“MI350X”(风冷)和“MI355X”(液冷),将于今年三季度通过云服务公司以云服务器的形式提供给终端用户,2026年则将推出下一代产品“MI400”。 第五代EPYC(Turin)芯片助力MI350算力提升。通过搭配AMD第五代EPYC(Turin)芯片,8个GPU通过153.6 GB/s的双向Infinity Fabric链路进行通信,可以组成一个节点。这些节点还将继续组合成风冷或液冷机柜,形成最高128GPU的集群,FP8算力达到1.3EFLOPs。 训练和微调上,MI350系列拥有更高性能。1)相比MI300X大幅提升,Llama 2 70B微调:在FP8精度下,MI355X的性能是B200的1.1倍、GB200的1.13倍。2)拥有和B200/GB200相当或更高的性能。Llama 3 8B/70B预训练:MI355X在FP8精度下相比前代MI300X分别提升160%和250%,与B200性能相当。 Oracle云基础设施(OCI)宣布将提供泽塔级AI集群,配备多达131,072个MI355X GPU,使客户能够大规模构建、训练和推理AI。 资料来源:AMD,国信证券经济研究所整理 资料来源:AMD,国信证券经济研究所整理 资料来源:AMD,国信证券经济研究所整理 Deepseek推动AI降本、开源,推理算力需求快速提升 DeepSeek成本低且训练高效,性价比优势显著。DeepSeek于2024年12月和2025年1月分别发布V3训练和R1推理模型,Deepseek-V3的训练使用2048块英伟达H800 GPU,花费558万美元,成本不到其他顶尖模型的十分之一。DeepSeek R1训练算力只有Llama3的1/10,推理阶段缓存数据量降低了50倍。而根据DeepSeek性能测试,在数学任务中,DeepSeek-R1的表现与OpenAI-o1-1217相当,并远超其他模型。 DeepSeek推动开源趋势,加速推理侧爆发。IDC预测,2025年,将有55%的企业使用开源人工智能基础型开发应用程序。DeepSeek使企业可以使用水平相当的开源模型,大幅降低了企业的训练和部署成本,使得更多开发者能够负担先进人工智能开发的费用,加速人工智能的普及。 杰文斯悖论指出,当技术进步提高了资源利用效率时,该资源的总消耗量反而可能会增加,Deepseek带来的效率优化不仅未抑制算力需求,反而带来算力需求的增长。同时,DeepSeek通过技术普惠化、场景纵深化和算力泛在化三重路径推动大模型运用,加速推理侧需求的爆发。 资料来源:Daya Guo, Dejian Yang等,《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via ReinforcementLearning》,arXiv,2025,卷(2501.12948)1-1 资料来源:Daya Guo, Dejian Yang等,《DeepSeek-R1: IncentivizingReasoning Capability in LLMs via Reinforcement Learning》,arXiv,2025,卷(2501.12948)13-13 全球大模型tokens消耗量加速增长 全球Tokens消耗量加速增长,推理侧算力需求快速提升。1