某巨头业务模式详拆,DeepSeek对其租赁价格影响,自研芯片进展及使用场景等 AWS的业务模式是怎样的,尤其是在AI算力租赁方面,其定价和成本结构如何? AWS的业务模式涵盖多层次服务,其中AI相关服务分为四个层次:第一层是基础算力,第二层是调度平台,第三层是Mass架构,第四层则包括面向开发者的应用级服务。 在AI算力租赁中, 本营关于算力租赁的调研纪要 某巨头业务模式详拆,DeepSeek对其租赁价格影响,自研芯片进展及使用场景等 AWS的业务模式是怎样的,尤其是在AI算力租赁方面,其定价和成本结构如何? AWS的业务模式涵盖多层次服务,其中AI相关服务分为四个层次:第一层是基础算力,第二层是调度平台,第三层是Mass架构,第四层则包括面向开发者的应用级服务。 在AI算力租赁中,规模最大的部分集中在第一层,即通过EC2直接调用计算资源。 AWS提供多种实例类型以满足不同需求,例如P5、P5E、P4以及自研芯片Trainium系列等。 这些实例类型可以进一步细分为训练卡和推理卡。 训练卡主要包括Nvidia A100、H100,以及未来可能推出的B100、H200等型号;推理卡则以L4、L40S等为主。 租赁方式主要有以下几种:i.按需付费(On Demand,简称OD ):按秒或按小时计费,价格基于使用时长,是最常见的租赁方式,成本也最高。 ii.包年:分为可转换实例和不可转换实例,用户可选择固定期限合同,并享受折扣。 包一年通常在OD的基础上提供约35%的折扣,而包三年的折扣最多可达OD的55%。 :利用闲置资源,以较低价格提供计算能力,最低可至原价的一至两折,但资源可能随时被收回。 成本方面,云计算的TCO包含数据中心建设与运维费用、网络成本、人力成本以及硬件设备费用等,这些成本通常会摊销到3-5年的周期内,再加上一定利润率形成最终报价。 AI算力租赁业务的毛利率范围是多少? 不同机型之间是否存在差异? AI算力租赁业务的毛利率根据机型不同而有所差异,大致范围在30%至80%。 部分定价较高的通用机型,搭配成本相对可控的自研芯片,其毛利率相对较高。 而GPU类高性能服务器,由于Nvidia显卡占据了硬件总成本中的较大比例,加之市场竞争激烈,其毛利率相对偏低。 DeepSeek推出后,对AWS H100实例租赁价格是否产生影响? DeepSeek自2024年农历年前后开始受到广泛关注,但目前尚未对AWS H100实例租赁价格产生明显影响。 AWS团队早在2024年便已与DeepSeek展开接触,并将其整合到SageMaker Marketplace和Bedrock Marketplace中,以API形式向客户开放使用。 然而,由于DeepSeek满血版模型参数量巨大,需要大量显存支持,因此更多依赖H200等新一代GPU 在国内市场,由于H20存量较多,一般使用H20来跑DeepSeek模型。 海外市场对相关产品的使用情况如何? 国内市场的使用情况是否有所不同? 海外市场目前对相关产品的使用较少,部署规模相对小。 相比之下,国内市场的用户数量相对较多,主要是云厂商和一些希望抓住技术风口的企业,这些企业在国内部署力度更大。 原因在于DeepSeek硬件需求较高,需要多张H20显卡才能满足其模型运行需求,成本很高。 如果选择更高精度模式,则八张H200显卡基本会被完全占用。 至于H20显卡,其具体需求可能在8到16张之间,但需要进一步计算确认。 当前Trainium卡片在整体算力中的占比如何? Trainium卡片整体占比不高,其中Trainium2作为新发布版本,其安装基数尚未达到较高水平。 目前,大部分算力仍然依赖英伟达的GPU,这是因为英伟达长期以来积累了庞大的安装基数,并且许多客户在训练阶段优先考虑快速创新,而非性价比。 Trainium是否适用于推理场景? 如果适用,有哪些具体案例或应用场景? 在推理场景中,Trainium可用。 例如,Haiku模型(Cloud 3.5系列),这是一个体积最小、速度最快、成本最低的模型,可以运行在Trainium上。 内部算力资源分配机制是怎样的? 内部与外部资源分配有何区别? 内部算力资源并未单独划分池子,而是与外部共享同一池子。 内部申请流程与外部类似,需要走账务流程。 然而,由于内部采购量不足,有时价格谈判条件甚至不如外部。 客户是否主动要求使用Trainium2? 主要出于哪些考虑因素? 部分客户会主动提出使用Trainium,这通常出于两种考虑。 一种是针对成熟稳定、不需要频繁更新模型的推理任务,他们倾向于追求性价比和工程化效率;另一种则是为了避免过度依赖英伟达,希望尝试新的计算设备以平衡整体算力布局。 对2024年和2025年大批量部署Trainium怎么看待其市场前景及租赁情况预期如何? 目前来看,大批量部署后的租赁问题预计不会成为障碍,因为总体供货量并不特别大。 具体而言,Trainium1已经基本完成交付并投入使用,而Trainium2仍处于逐步增加供应过程中。 2025年计划部署多少数量的Trainium2芯片? 预计2025年将部署10万以内的Trainium2芯片,总量不会特别庞大。 Inferentia芯片架构设计特点是什么,与其他芯片有何不同之处? 是否有Inferentia 3推出计划? Inferentia芯片从架构设计上延续了一致性,例如Inferentia 2与Trainium1采用相似设计,但在芯片间带宽及显存等方面存在差异。 目前暂无明确计划推出Inferentia 3,因为更多研发资源集中Trainium3的追赶上。 同时,Trainium2也可用于部分推理任务,因此短期内没有迫切需求推出Inferentia的新版本。 Inferentia 2今年(2025年)的预计供货量是多少? Inferentia 2预计将在2025年供应约10万块,与同期计划供应量相当接近。 此外,该型号主要用于传统几十B规模模型,更大型号一般会选择卡间带宽更大的Trainium。 当前AI领域的芯片供需情况如何? 在云计算服务中,客户选择是否有明显倾向? 目前AI领域的芯片整体处于供不应求状态。 以AWS为例,由于其芯片供应不足,部分客户不得不将训练工作流转移至其他云服务提供商,如GCP、Azure、Oracle,以及一些较小规模的厂商。 尽管如此,AWS仍然是市场占有率最高的云服务提供商,其核心优势在于推理工作流及核心应用的稳定性和成熟度,这使得多数客户最终仍选择将关键业务部署在AWS上 在上云过程中,企业是否倾向于分散数据以规避单一供应商绑定风险? 我们是否使用了data dog? 数据分散策略更多见于国内企业,而海外市场中多数企业仍集中使用AWS。 这主要得益于AWS较早的发展时间以及其优质的用户体验。 然而,也有部分企业因成本考量而选择从云端迁回自建机房或在不同云厂商之间切换,但这种行为更多是基于价格因素,而非稳定性或安全性的担忧。 此外,对于IT资源管理能力有限的小型团队而言,将业务分散到多家云服务平台可能会增加管理复杂性,而且实际上不但不能分散风险反而会增加风险,因此此类操作并不普遍。 而且由于AWS的架构设计,防护水平很高,一般的损坏或数据中心的问题不会影响到用户的数据。 Datadog主要用于在install base上发挥安全审核、数据追踪等功能,与使用哪家的云无关。 针对欧洲市场的新兴玩家Nebius,其发展情况如何? Nebius是一家专注欧洲市场的新兴云计算公司,但目前其知名度相对有限。 在访谈中未发现该公司与主流全球玩家(如AWS、GCP、Azure)形成直接竞争关系的信息。 当前AI算力需求增长趋势如何? 具体表现在哪些方面? AI算力需求持续增长。 从内部订单数据来看,包括NVIDIA A100、H100等高性能GPU卡片在内的大量申请单显示出强劲需求。 虽然大部分订单规模较小(如几十张卡),但也存在千卡级别的大额订单。 总体而言,目前供需形势依然紧张,大型订单尚未完全满足,新模型和新技术(如DeepSeek)的出现也进一步推动了算力需求增长。 大型客户与小型客户在算力需求增长方面有哪些差异? 大型客户对算力需求增长更为显著。 例如,一些大型企业可能一次性申请万卡级别资源,而小型客户的需求量相比之下少很多。 相比之下,小型客户的不确定性更高,例如合同履行过程中可能因各类问题导致订单取消。 从时间维度看,大型客户当前对AI算力的需求增速如何变化? 大型客户对AI算力的需求增速依然保持上升趋势。 一方面,新模型规模不断扩大,对硬件资源提出了更高要求;另一方面,新技术应用场景层出不穷,例如DeepSeek等新兴任务需要额外购置大量GPU进行测试。 一旦测试结果良好,这些硬件资源可能会直接投入生产使用。 同时,为支持新的测试任务,大型企业还需持续采购更多设备以满足新增负载。 因此,从整体来看,大型客户推动了行业内AI算力消费曲线持续向上的态势。 当前AI算力在训练和推理上的使用比例如何? 2025年是否有显著变化? 2025年,AI算力在训练和推理上的使用比例预计接近五五开。 相比过去,训练的增长速度较快。 此前,在大模型出现之前,推理占比约为80%,而训练仅占20% 。 这一变化主要由于大模型的兴起对高性能计算资源需求的激增。 一方面,训练所需GPU单价较高,例如英伟达的A100、H100等;另一方面,单个集群通常需要数百到上千张GPU卡,这种规模远超传统推理场景。 此外,大量小型公司在2023年前后参与了“百模大战”,但目前国内仅剩少数几家公司仍在持续投入,而国外市场则相对稳定,仅有约20家主要玩家主导市场,这些企业主要是包年租卡,专卡专用。 是否存在将训练卡转为推理用途的趋势? 部分公司曾有过这种行为,将用于训练的大型GPU(如H100、A100)转为推理用途,且在特定情况下确实存在一定优势,具有更好的性价比和用户体验。 这些高性能GPU具备更强大的浮点运算能力,并支持虚拟化功能,可将显存分割以适应不同规模的模型,从而提高利用率。 此外,对于超大规模模型(如千亿参数级别),这些GPU能够提供更优异的性能表现。 当前全球范围内AI算力供需情况如何? 2025年的供给能力能否满足需求增长? 目前全球AI算力供需仍处于紧张状态。 2025年公司的总体量预计达到约1000亿,但实际客户需求肯定达不到这么多,因此短期内供给能够覆盖当前预估范围。 然而,由于AI应用逐步从训练向大规模推理过渡,未来几年内整体需求仍可能保持增长趋势。 因此,即便产能扩展至一定水平,也未必可以满足潜在新增应用带来的算力消耗。 根据过往数据,GPU的年增长趋势如何? 在AI兴起后是否有显著变化? 历史数据显示,GPU的年增长趋势相对稳定,每年的增量通常在50至70之间波动。 即使在AI兴起之前,这一趋势已持续多年。 随着AI需求的快速增长,年度增速有所提升,但回归常态后,每年的同比增长率通常维持在10%至20%之间。 这种增长对整体市场规模的贡献仍然较为可观。 对于2026年GPU相关capex的增速预期如何? 在AI相关领域,特别是针对GPU部分,总体capex占比不超过为10%。 即使即使实现70%至80%的高增长率,由于基数效应,其对整体市场规模的贡献仍然有限。 AWS的数据中心建设规划是否公开透明? 如何获取相关信息? AWS的数据中心建设规划可以通过AWS Global Infrastructure页面查询。 该页面详细列出了正在建设和计划建设的新区域,每个区域包含多个数据中心。 然而,对于具体数据中心内部配置,例如机柜数量、服务器类型或GPU卡部署情况,目前无法通过公开信息准确预估。 数