阿里资本开支计划:3年3800亿,2024-2025年计划每年1200亿,其中GPU/算力占比持续增长。 采购重点: 2023年Q4至2024年Q1主要采购英伟达H20(国内特供版),但因政策限制,后续无法继续采购。 海外采购以高端卡(如H100/H200)为主,用于模型训练;国内以国产卡为主,侧重推理和垂直场景。 国内外比例: 2025年原计划海外占比60%(如字节),阿里为40%国内;但实际可能调整为海外2/3、国内1/3,因国产卡产能受限。 长期目标:国产卡采购占比提升至60%以上(原计划50%),但产能(如中芯国际)可能制约进度。 2.国产芯片进展 主要供应商: 阿里自研PPU:已部署约300张,计划扩产至3万张,用于淘宝搜索、钉钉等内部场景;未来可能商业化(如比亚迪、OPPO合作)。 寒武纪:590系列性能接近A100,已下单5-6万张(单价约8万),适配较成熟。 海光:DCU性能优于寒武纪590(FP16约440T),单价超10万,谈判中。 华为昇腾:因竞争关系,阿里未采购;新发布的昇腾950/960性能提升,但合作可能性低。 国产卡定位: 替代中低端推理场景(如H20/A800),训练仍依赖海外高端卡。 华为、腾讯等通过超集群方案(如华为Atlas)弥补单卡性能差距,阿里规划类似方案(平头哥主导)。 3.算力使用与商业化 阿里云算力分配: 1/3供集团内部(如淘宝、钉钉),20%达摩院自研产品,50%商业化(实际利用率约30%)。 商业化以头部客户定向合作为主(非公开租赁),推理与训练占比约5:5。 模型应用: 通义千问覆盖全模态,文本能力领先,多模态(如图像/视频)略逊于火山。 日均消耗3万亿tokens,年底预计达4.5万亿,算力需求增长显著。 4.行业竞争与趋势 厂商对比: 字节:H20储备约50万张(远超阿里30万张),国产卡以寒武纪为主。 腾讯:采购AMDMI300X(约10万张),未与寒武纪合作,转向昇腾。 华为:昇腾910B产能优先供给百度,互联网厂商合作受限。 政策影响: 工信部要求大厂扶持国产芯片生态,英伟达特供卡(如H20)国内采购受限。 “水货”渠道(如海外转口)监管趋严,厂商转向合法海外采购。 5.挑战与未来方向 国产卡瓶颈: 性能与生态适配不足(如CUDA兼容性),客户倾向英伟达。 产能受限(如中芯国际7nm产能紧张)。 液冷技术:阿里部分数据中心已部署,未来新建IDC将逐步推广。 商业化路径: 国产卡先通过政企/智算中心项目落地(如联通、宁夏IDC),再逐步开放租赁。 PPU定价约4万/张,需通过标杆案例(如比亚迪)验证后大规模推广。 关键结论 国产替代加速:政策驱动下,寒武纪、海光、自研芯片占比提升,但性能与产能仍是瓶颈。 海外算力依赖:高端训练仍靠英伟达海外卡,国内推理场景以国产为主,短期“两条腿走路”。 竞争格局:字节算力储备领先,腾讯保守,华为受制于竞争关系,阿里侧重生态合作(如平头哥+寒武纪)。 商业化谨慎:国产卡需先解决适配与成本问题,2025年或成规模化商用关键节点。 1、头部云厂资本开支与算力投资规划 •阿里云资本开支计划:阿里云此前制定三年3800亿资本开支计划,2024-2025年计划开支达1200亿量级。该开支属阿里巴巴集团整体,含闪购等业务,但GPU及算力占比持续增长,整体资本开支规模稳中有升。 •H20采购受阻情况:从2024年四季度至2025年Q1、Q2,采购重点是H20,2025年上半年大幅采购并超前储备。原计划H20于2025年底推141G版本。但受政策影响,2025年国内无法正常采购英伟达卡,H20无法采购,中国特供B30A系列预计难获国内许可。 •国内外采购策略调整:面对采购限制,国内厂商加大国产卡采购,如H为主推昇腾,阿里偏向寒武纪加自研,字节采用寒武纪加昇腾模式。国外采购上,此前水卡(如H100)上架受限,量不大,转向增加GB200、GB300等高端卡采购量级,资本开支国外占比明显提升,预计未来1-2年国内外资本开支差距缩小。国内外应用场景有别,国外用英伟达高端卡做模型训练,国内以垂直子模型训练及推理业务为主。 2、国内外资本开支比例与采购形式 •25年资本开支比例:从2025年资本开支规划看,2025年之前初始计划中,字节60%资本开支用于海外算力储备,40%用于国内;阿里则相反,国内占比60%,海外占比40%。未来调整趋势上,预计2026年海外资本开支占比提升至约2/3,国内降至1/3。调整原因是国内产能跟进不确定,推力卡需求是否大规模爆发存疑。整体短期国外资本开支占比将提升。 •海外采购形式与趋势:海外采购以直采为主,通过关联或合营公司采购,采购主体不在国内,监管问题不大。当前海外采购卡型以GB200为主。模型训练上,内部积木模型、AIcoding等AI产品模型大多在海外训练后拿回国内,业务流程已跑通,2025年业务增量主要源于中企出海算力需求。国内以阿里云为例,目前H20储备约30万张(含2024年和2025年采购量),资源利用率约70%,未来将加大国产卡储备。长期看,若国内与国外卡性能差距缩小或国内生产成熟,资本开支可能更多流向国内;短期资源仍向海外倾斜。 3、云厂商卡类库存与用途分布 •英伟达系卡库存数量:阿里云英伟达系卡库存数量:H20约31万张,H800约3万张,H100约4万张(均为水货),A800约5.5万张,A100约8000张。传统卡(V100、T4、A10、4090、4060等)合计小10万张,海外G200约2万张。目前英伟达系卡总库存约五六十万张,国产卡数量不大。 •卡类用途比例:卡类用途分布:1/3用于阿里集团(不含蚂蚁)自用;20%左右用于阿里云及达摩院相关自用,如涉及AI应用解决方案产品。剩余50%可用于商业化出租,当前实际利用率约30%,会动态调整。训推比例为50%训练、50%推理。 4、国产卡采购进展与应用场景 •国产卡采购厂商与规划:当前国产卡采购主要聚焦PPU、寒武纪、海光三家厂商,同时排除了部分其他厂商并面临产能限制。PPU方面,现有约3万张(Speak版本),加上寒光800等型号,合计接近10万张,主要用于淘宝搜推、钉钉魔法棒等内部产品;目前PPU已向比亚迪、OPPO及宁夏等地数据中心供应部分卡,并将作为后续主要采购方向。寒武纪方面,去年曾针对其590台基版本下单约1万多张,但因被字节大量采购导致供应受限,近期计划再次下单以支撑国产卡量;当前主要使用性能稍弱但价格更低的590U版本(中兴版本)。海光方面,其DPU3单卡性能优于590和PPU,且兼容CUDA生态,单价过10万/张,目前已拿到4月690卡开始测试,预计短期下单。其他厂商方面,因适配性差、商务竞争等原因,明确不考虑升腾、昆仑芯;穆希拉、摩尔等因适配成本高、产能不足,短期也不会采购。此外,流片环节从三星转向中芯国际,但产能成为主要限制问题。 •国产卡应用场景对比:不同国产卡的应用场景及性能存在差异,主要集中在推理、训练及智算中心合作等方面。PPU定位为推理集群补充及低成本AI应用迁移,可用于推理集群和国产智算中心合作等场景。海光卡因具备DDK工具包,可迁移扩大代码,未来或更多用于非机密训练场景。寒武纪卡支持推理与训练,但大集群推理时延存在影响,主要用于非旗舰模型推理及小尺寸模型训练,且当前以内部使用为主,商业化推广较少。总体来看,国产卡的适配成本高于英伟达卡,集群效果及易用性仍有不足。 5、其他云厂商卡类情况对比 •字节卡类情况:去年字节1X2卡数量接近40万张,今年H20卡预计达50万张左右,比对比对象多约一半。合作上,字节给寒武纪下的订单已破10万张, 到手及在手卡约3-4万张,正与海关、深圳洽谈小几万张升腾卡采购。使用上,字节内部业务占比大,大部分卡自用;海外业务(如TikTok)需求占比也高。虽外部有资源冗余,但采购主要满足内部需求。 •腾讯卡类情况:腾讯卡类情况与字节不同。合作上,腾讯未与寒武纪合作(此前商务关系有问题),更多与昆仑芯、深腾合作。采购上,去年腾讯采购约20万张H20卡;今年借Deepseek推出模型加算力解决方案,目前无后续进展;此前下单近10万张AMDMI308卡,到货情况不明。业务策略上,腾讯在AI业务较保守,项目或竞标中与对比对象碰面概率不大。 6、国产卡商业化挑战与规划 •PPU商业化难点:PPU商业化面临多重挑战。其一,用户选择偏好方面,当前市场中算力卡未达稀缺程度,无政策要求的用户通常优先选英伟达产品。其二,合作优先级低,部分有国产化算力要求的国央企,更倾向与华为、运营商或国内3D厂商合作,PPU优先级不高。其三,市场认知不足,PPU此前未在官方场合宣传推广,市场认知度差。其四,产能限制,大规模商业化需产能跟进,但当前产能无法满足,商业化难以一蹴而就。 •未来商业化规划:PPU商业化分阶段推进,前两步并行。第一步与大头部企业点对点合作,帮其适配、部署打造标杆案例,如与比亚迪、OPPO合作;第二步与国内智算中心及运营商合作,如与移动旗下重庆公司、三江源联通IDC、宁夏IDC合作。推广上,当前PPO搭在百类中对外租赁,若供应链和市场反响好,2026年或有部分在GPU云推出,但更可能以项目制(智算中心场景)为主。定价上,单卡成本约4万多,初期或更便宜,但内部暂无明确指导。 Q&A Q:目前国内头部云厂的资本开支及未来算力投资规划情况如何? A:以阿里云为例,其资本开支计划为三年3800亿元,2024年、2025年计划为1200亿元量级,后续将持续增加,整体资本开支规模稳中有升,其中GPU或算力占比持续增长。去年四季度至今年Q1、Q2采购重点为H20并超前储备,但受政策影响,今年国内无法正常采购英伟达H20及中国特供卡B30A系列。各家厂商调整策略,加大国产卡采购,如h为采用升腾,阿里、z节采用寒武纪加自研或升腾。海外方面,此前通过水卡采购,但当前水卡量不大,转而增加GB200、GB300等高端算力卡的国外采购,国外资本开支占比显著提升。未来1-2年,国内外资本开支差距缩小,国外以英伟达高端卡为主用于模型训练,国内以垂直模型训练和推理为主。在政策激励下,国内大厂也采购AMD、NVIDIA3080等卡,虽量不大但持续。国内外采卡策略边界更清晰,国内逐渐向国产化转移。 Q:现行及未来资本开支规划中,海外与国内的投入比例如何? A:2025年之前的资本开支计划中,字节60%用于海外算力储备、40%用于国内;阿里为四六开,大部分投入国内。从明年来看,预计2/3左右资本开支用于海外补充,1/3用于国内补充,主要因国内产能可能不足且推力卡需求大规模爆发存疑,短期海外占比将提升。 Q:出海采购时通常采购哪些类型的算力卡?合作形式是以租代买还是直接采购? A:目前海外采购以直接采购为主,主要通过合营公司或关联公司进行,因采购主体不在国内,监管风险较低。采购的算力卡以今年主流的GB200政府卡为 主,主要用于海外模型训练,训练完成后模型回传国内,业务流程已跑通,今年业务增量主要来自中企出海的算力需求。国内方面,以阿里云为例,H20卡当前规模约30万张,资源利用率约70%,后续将加大国产卡储备。短期来看,海外采购占比将提升;长期若国内与国外卡性能差距缩小或国产生产成熟,资本开支可能转向国内,目前资源仍向海外倾斜。 Q:数据出海及模型回流环节在模型训练与推理中是否存在问题?是否会受到限制? A:该环节存在监管与合规规定,存在政策风险;但目前主要厂商采用该模式未出现问题,通过定制模型主体及数据同步方式可规避相关风险,当前无显著风险。 Q:涉及数据跨境传输的模型训练是否会导致训练成本及训练时长增加? A:此类训练确实会导致成本与时长增加,主要因数据集中投位、数据同步需求及海外集群效果弱于国内等因素影响。当前处于阶段性转移过程,仅部分模型开始向海外训练,海外推大模型时主要以海