您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:HW昇腾专家调研纪要20240810 - 发现报告

HW昇腾专家调研纪要20240810

2024-08-10未知机构张***
HW昇腾专家调研纪要20240810

1,针对昇腾910 系列,今年以来不同客户的需求变化?全年出货量预期?今年昇腾芯片对外的总出货量约为35 万片。其中,运营商的需求最为稳定,预计出货量在15-17 万之间,占比最高。互联网厂商的需求较为灵活多变,预计全年出货量约为12 万片。剩余7-8 万片则主要来自于超算项目,这部分市场受政府资金和财政政策影响较大,因此需求相对稳定。 此外,华为自身也有约10 万片的需求,其中4 万用于华为云,通过租赁方式提供算力,2 万用于华为的大模型如盘古等,剩余部分则用于车BU 及相关新应用场景。所以昇腾910 系列全年总产能达到45 万片。 2,互联网客户需求波动较大的原因? 互联网客户需求波动较大的原因之一是受到海外产品如H20 等因素影响。例如,在H20 推出后的一个月内,观察到其对910 系列芯片需求产生了显著影响。尽管H20 在某些方面面临流片和产能限制,但其仍然导致910 系列芯片的需求有所下降。目前来看,如果互联网客户全年12 万片的预期出现波动,可能会最低降至10 万左右。 对于由于互联网客户需求波动而多余的产能,倾向于通过囤货来应对,以避免产能空置。同时希望以较低成本获取更多库存,为未来的不确定性做好准备。 3,关于910B 和910C,今年分别的出货量规划? 今年910C 出货量预计在3 万张左右,不会特别多,而910B 仍占主导地位。明年情况可能会发生变化,预计910C 将成为主导,占比超过一半。 今年910C 计划在10 月底开始批量出货,目前正在进行运营商和互联网厂商的小规模测试,这些测试和小问题的整改将在8 月底前完成,大规模生产将在9月初启动,然后10 月中旬左右开始陆续出货。 4,针对今年3 万张910C,其分配情况? 初期3 万张910C 主要分配给互联网厂商,因为他们对于大模型训练和推理能力要求更高,而运营商对此要求相对较低。因此,今年这部分产品中将有近1.8万张分配给互联网厂商,其余分配给运营商。 5,互联网客户使用910 系列做训练和推理的比例? 目前互联网客户主要用910B 做推理,训练用的相对较少。整体来看,训练占比约为30%,推理占比约为70%。具体到某些厂商,如科大讯飞,其训练与推理的比例较为均衡,比如训练约占65%,推理约占35%。同样针对字节跳的新模型(几十亿参数的小模型),相应昇腾芯片的使用方式为70%用于生成模型的训练,而30%用于推理。 6,当前互联网客户使用910B 做训练的过程中,其最大组网规模?与相同组网规模H20 性能对比? 目前910B 最大组网规模约为9400 多张卡(字节)。如果与H20 相比,其实在单卡上与 H20 相比差距并不大,但针对组网后的对比,大概在同规模H20 性能的70%左右。其次科大讯飞当前有近2 万张910B,但分布在两个网络架构当中,分别的组网规模在接近8000 和8500 多张。 7,核心互联网客户今年的采购量拆分? 核心互联网客户包括字节跳动、百度、阿里巴巴和腾讯。预计今年字节跳动将采购2.7 万张左右,百度2 万张左右,阿里巴巴8000 张左右,腾讯3000 至4000张。此外,还有一些分散的厂商如京东、美团等,每家大概3000 张左右。以及一些非互联网厂商如海康、大华等每家也有3000-4000 张左右。此外,科大讯飞今年预计采购7900 至8000 张卡。而针对去年整体的出货量,最多的是科大讯飞,其去年存量接近8500 张,而其他客户存量一般在500-1000 张之间。 8,今年以来互联网客户对910B 接受度提高的原因?英伟达高端卡限制还是?其实一方面是因为910B 经过一段时间测试后,包括互联网厂商和运营商反馈都显示其性能有所提升,从而逐渐消除了之前对其性价比低的偏见;另一方面也 受益于H20 产能波动等因素,使得可以从互联网厂商那边获得了一部分市场份额。 9,2025 年总体出货量估计及不同类型客户的分配规划? 明年对外总出货量预估在65-70 万之间,其中重点增长来自于互联网客户。今年互联网客户需求在10-12 万之间,明年预估可达25 万。此外,今年运营商需求大概15 万左右,明年预估也将在25 万附近。 对于华为自用,预计将主要以华为云为主,但由于华为大模型在行业内表现并不特别突出,还是需要一些资源投入来支撑市场需求。而且今年车BU 部分在从ADS2.0 走向ADS3.0,且有大量数据需要做验证,所以今年需要的算力量会更高一些。整体明年自用卡的规模预计在5-7 万左右。 10,2025 年核心互联网客户的需求增长预期? 在互联网客户中,百度和字节跳动预计是增长最快的两家厂商,预计明年每家的需求量在5 万到6 万之间。阿里巴巴和腾讯相对保守,尤其是腾讯,仍以英伟达的卡为主,并且在大模型方面的投入较为谨慎,且未来可能更多依赖第三 此外,科大讯飞其模型在行业内还是具有一定代表性和技术实力,预计明年科大讯飞还会加大投入,包括其一体机方面的落地将带来显著需求增量。 11,华为对下游产商的支持情况? 华为对下游厂商支持分为四个方面:第一部分是在组网及基础ICT 建设过程中,由于华为项目经验丰富,将在建设过程中以顾问方式进行投入。第二是在实际部署过程中,华为可能会让下面华鲲、超聚变等去做部署,而华为工程师 可能会以远程支持的方式来做,一方面保证效率和速度,另一方面保证有效对接。第三是工具链包括配套能力,由于华为没有CUDA 生态,属于自研的一套应用生态,所以需要客户在使用过程中给到一些反馈,以便及时去做修正,所以在工具链上做充分根据客户需求做调整。第四是供货与价格稳定性,当前科大讯飞的优先级较高,只要其有需求,包括售后的需求,华为都会去快速做响应。 12,明年910 系列最大组网规模预期? 今年万卡可能是一个瓶颈,或是一个平台节点,而明年最大组网规模可能会达到2 万张卡以上,首批尝试的大概率是字节跳动和科大讯飞。 13,针对不同客户,同样型号产品价格是否有差异?当前910B 的价格区间,以及910C 价格预期? 不同客户拿到910B 的价格有所区别,但差异不显著,目前每个厂商都是一客一议模式。针对920B,字节跳动和百度签订云框架协议后均价约10.5 万元,小型客户价格约11.5 万元左右,每张卡差价1 万元左右,但整体最终的均价在11万元以内。 由于910C 型号产品性能较920B 更高,因此成本也更高,价格区间预计在18万元至20万元之间。同时针对910C,目前字节跳动由于其下单周期和节点较早,因此在供应上会被优先考虑。 14,明年910C 的核心客户? 明年相对来说910C 的量会有所改善,大部分互联网客户的需求应该都能得到满足。比如预计明年的整体对外供货量将达到65-70 万,其中大约一半即35 万左右为910C,且会优先满足互联网客户的需求,比如互联网客户的25 万需求都是用910C 来满足,其余10 万张910C会给到运营商客户。 15,客户用910C 做训练和推理的大概比例分配? 910C 大概率还是以训练为主,原来910B 主要用于推理,但由于910C 在综合能力包括精度上的提升,以及H20 又遇到一些问题,还是希望910C 可以快速补充训练侧的一些缺口,而推理侧仍然由910B 承担。 16,针对910C,一片wafer 能够切几个die?如果HBM 采购受限,有何解决方案?针对每片wafer 切出来die 的数量,910C 与910B 相同,只是在封装上做了一些处理。 HBM 采购受限的问题已经存在很久,不管是HBM2E 还是HBM3,还是有一些渠道可以拿到货,同时当前也在寻找国内替代方案,但进展较慢。 17,国内HBM 供应链情况?哪些厂商可能会更快实现突破? 其实当前昇腾需要的是HBM3,但国内目前没有特别能够匹配国际水平(如海力士等)的HBM 厂 商,预估国内厂商可能要到2025 年底或2026 年上半年才能有所突破。针对HBM2,其中长江和长鑫被认为是最有希望实现突破的两家企业。 18,国内市场哪些芯片公司可能对910B 或910C 产生影响? 寒武纪是目前最具竞争力的一家,其思元590 芯片性能与910B 非常接近,有些单项指标甚至表现更好,但集群能力稍弱于910B。此外,在类似CUDA 生态架构方面,寒武纪也表现不错,也是模仿到了很多精髓。然而,其价格波动较大 且产能稳定性不高。 此外,壁仞、海光等受到的关注度也比较高,比如海光三号,但更多是用于推理侧,在训练侧相比910B 还有一定距离,所以国内芯片能够做训练的,当前只有910B 和寒武纪。虽然昆仑芯、平头哥等也具有一定竞争力,但它们在生态建设方面相对滞后,仅单卡性能尚可排在第二梯队,他们面临的问题包括软实力不足及生态系统建设不完善,使得它们难以与寒武纪或昇腾等抗衡。 19,昇腾920 系列的规划? 920 系列为昇腾新一代产品,预计明年将实现小批量生产,规模大约在三到四千颗左右。这些芯片主要用于内部验证和关键客户的小批量验证,但并不具备 当前计划是从2026 年开始逐步用920 替换现有的910 系列,此外还希望920能够对标NVIDIA 的B100 或B200 方案,然而目前在技术上仍存在较大差距,昇腾还是非常依赖供应商的支持。 20,国内市场对昇腾推理卡(如310、710 等)的需求情况? 国内市场对昇腾推理卡的需求正在增长,许多原本使用NVIDIA T4、A30、A40等显卡的厂商,如海康威视、大华股份,以及AI 公司如商汤科技、云从科技和旷视科技,已经开始转向使用昇腾的Atlas。其中在安防场景中,大量视频数据需要分析处理,这些企业与昇腾的合作较为深入。此外,在工业场景中,例如 不良品检测等端侧小模型推理,华为也有广泛布局。但由于NVIDIA 低端显卡仍能买到,一些客户短期内可能不愿意更换,因此更多是通过价格优势和优质服 21,未来训推一体的发展趋势,客户在选择相应具体方案过程中主要的考量点?目前华为已经在一些场景中尝试推广训推一体的模式,例如与科大讯飞合作的一些ToG 项目中采用了这种方式。然而,目前国内训练与推理资源需求比例不协调,大部分资源需求集中在训练侧。因此,短期内会优先布局高算力解决方案,以满足大量训练资源需求。当模型参数规模和训练达到一定阶段后,小算力解决方案可能会变得更加重要,比如用于边缘计算和推理,而高算力则专注 于后端总体训练。 客户选择高算力或低算力解决方案主要取决于具体使用场景。例如,一些头部客户需要大量推理计算时,可能会选择几张大卡或者多张小卡显卡组网使用。从性价比角度来看,目前阶段,大卡的效率更高。不过当前国内客户对于推理计算需求还没有特别强烈,大多数还是以小批量采购为主。而且百度、腾讯、阿里等互联网巨头,他们更多是自研芯片,如平头哥或昆仑芯,这使得他们倾向于使用自家产品。 22,AI 手机和AIPC 对云端算力的需求增长预期? AI 手机与AIPC 是当前端侧模型的重要方向,与传统推理芯片不同,这些设备所需算力较低,通常几十TOPS 即可满足需求。目前,各大厂商正积极布局硬件调整,包括散热、功耗及电池续航等方面。 对于云端算力需求,由于AI 手机的发展尚处早期阶段,目前主要应用集中于本地化AI 功能,如图片处理等,因此对云端算力需求较低。然而,随着智能体等高级应用展开,对云端算力的需求可能会逐步增加。 23,如何看待国产芯片公司如盛科通信和源杰科技的发展前景? 这些公司目前仍高度依赖下游大厂及技术合作伙伴,需要共同推动技术进步与市场拓展。尽管具备一定技术门槛,但要实现市场认可并扩大推广仍面临挑战。