2025年12月24日02:36 关键词 全栈英伟达TPU谷歌博通AMD数据中心存储通讯先进封装设计服务联发科台积电自研IPGPU能效比迁移成本模型开发混合部署出货量系统供应商 全文摘要 当前AI芯片市场中,英伟达和谷歌凭借自研的GPU和TPU芯片占据主导地位。谷歌的TPU在能效比和成本方面展现出优势,而英伟达则依托广泛的生态系统和GPU的通用性保持市场领先地位。对话还指出,国内外公司在AI芯片定制化方向上采取不同策略,反映了市场需求与技术发展的多元化。此外,讨论触及了先进封装技术的进展,以及企业对AI芯片的需求量、出货形式的变化,强调了定制化芯片与通用GPU在市场需求、技术发展及生态构建上的差异和挑战。 章节速览 00:00全球AI算力供给焦点:英伟达与谷歌方案主导 讨论聚焦于全球AI算力供给,英伟达与谷歌方案成主流。英伟达以TETPU、CUDA及NV4vlink为核心,谷歌则依托TPU芯片与OCS光互联。AMD与博通虽有光电互联优势,但整体影响力较弱。专家分析显示,当前市场主要由英伟达与谷歌引领,其他厂商尚处追赶阶段。 03:46全站自研与产业链话语权分析 讨论了全站自研在性能优化上的潜在优势,强调了协同优化硬件、软件及互联的重要性。提到了英伟达在算力芯片市场的主导地位,以及谷歌TPU的崛起和博通在AI网络领域的角色。全站自研的优势在于能最大化优化各组件间的协同,而产业链中的话语权和决策权则由技术领先和生态完善的企业掌握。 08:20ASIC厂商在大模型时代的话语权变化及设计服务行业趋势 讨论了在大模型厂商主导下,ASIC厂商的话语权可能弱化的趋势,指出设计服务行业的发展正促使更多厂商寻求低成本设计服务。博通等先进设计服务公司在成本与研发上的优势面临挑战,而IP库的丰富性和优化成为行业壁垒。先进封装产能与晶圆产能是当前设计服务行业的瓶颈,联发科等企业通过与台积电的良好关系获得优势。 11:34ASIC芯片设计与IP自研的重要性 讨论了ASIC芯片设计流程中,一次流片成功能力对加速芯片迭代的关键作用。强调了与代工厂良好关系对芯片性能优化的影响,以及IP质量在市场交易中的重要性。指出TPU等定制芯片多数IP需自研,软件编译器在模型适配中的作用,以及未来芯片设计趋势将更注重模型兼容性。 16:09谷歌TPU与英伟达GPU的路线差异及迁移成本 讨论了谷歌TPU与英伟达GPU在设计路线上的差异,指出TPU更专注于特定模型优化,追求高能效比,而GPU则走通用路线。TPU在能耗和成本方面优于GPU,但模型迁移成本高,需评估收益与成本,谷歌正帮助客户迁移,但过程漫长且存在风险。 21:23国内外芯片定制化趋势对比与分析 对话探讨了国内外在芯片定制化与GPU方向上的不同选择。国内因规模、生态及制程限制,更倾向于通用GPU芯片,而海外则因需求量大及完整生态,积极发展定制化芯片。长期看,国内算力供给有限,定制化芯片利用效率更高。尽管如此,国内已有企业开始尝试定制化芯片,通过创新设计降低成本,但仍面临资源有限的挑战。 25:59海外AI芯片需求量及GPU与ASIC占比分析 讨论了海外AI芯片需求量,特别是GPU和ASIC的占比。谷歌TPU明年出货量约400万颗,其中V7占50%以上,V8预计90万颗,V6约100万颗。英伟达数据中心GPU出货量接近600万颗,包括Blackwell和Rubin系列。OpenAI和SA明年出货量约46万颗,字节跳动约30万颗。整体来看,GPU出货量高于ASIC,但算力方面ASIC与GPU仍有差距。 32:46数据中心机柜交付趋势与系统供应商角色转变 对话讨论了数据中心机柜交付形式的高比例,指出大部分数据中心倾向于以机柜形式接收交付,包括服务器、交换机和存储等。博通等公司正从芯片供应商转型为系统供应商,主导机柜配置, 引入系统开发商合作,以应对数据中心定制化需求。收费模式可能从芯片销售转向IP授权,涉及TPU出货量大时与其他制造商合作。 36:18芯片与服务器项目成本及定价策略探讨 讨论了芯片如TPU的交付与收费模式,涉及谷歌等厂商的供应链管理及成本分配。提到了从芯片单价到整体服务器项目成本的计算方式,包括光模块等组件的成本加成与性能打包销售策略。强调了随着芯片复杂度与工艺成本上升,单价逐年增加的趋势,以及在项目制中各参与方的报价与利润分配机制。 问答回顾 发言人问:目前全球对AI算力供给的关注点主要在哪些方面? 发言人答:目前全球关注的焦点主要是英伟达和谷歌的全栈解决方案。英伟达通过其TETPU、CUDA以及NVswitch等技术构建了高效的算力供给体系;而谷歌则利用其TPU芯片结合OCS光互联和定制的指令集,针对自家模型进行优化编译,形成独特优势。 发言人问:全栈自研在性能上能带来多少提升,例如高30%或更具体数字? 发言人答:全栈自研在性能上的优势在于能够协同优化硬件、软件及互联方面,具体提升幅度难以量化,因为没有一个固定的参照系。英伟达下一代芯片相较于上一代在带宽、性能等方面会有一定提升,但没有明确的百分比参照无法直接给出优化程度。 发言人问:在产业链中,谁能拥有更多的话语权和决策权? 发言人答:在当前的市场环境下,英伟达无疑拥有更高的产业链话语权,其生态系统完整且开发迭代速度快,尽管成本可能不是最优,但其在大模型训练和推理方面占据主导地位,成为许多云厂商和大模型厂商的主要选择。 发言人问:谷歌TPU的发展状况如何? 发言人答:今年谷歌的TPU表现出色,外销采购量约50万颗,预计明年采购量将超过100万颗。同时,像紫宸儿(topic)这样的企业原本计划自研芯片,但今年转向采购谷歌TPU芯片,并在未来两年计划采购总量达到100万颗。 发言人问:博通在数据中心芯片领域的定位是什么? 发言人答:博通在数据中心芯片领域的定位主要是帮助合作伙伴设计和代工芯片,如帮助谷歌、Meta等公司开发AI网络相关芯片,以及提供数据中心所需的交换机和存储芯片架构设计,以提升数据中心整体算力和通讯效率。博通并不直接参与核心算力芯片的研发,而是致力于通过优化架构和芯片设计来增强整体效能。 发言人问:在芯片设计服务行业中,为什么会出现厂商将芯片设计业务外包给像博通这样的公司的情况? 发言人答:这是因为当芯片领域变得热门,许多厂商希望尽快推出自己的芯片上市。而一旦芯片起量后,如谷歌的TPUV8,会考虑与联发科等公司合作,通过优化成本来提高芯片的生产量和销售量。 发言人问:设计服务行业目前的主要瓶颈在哪里? 发言人答:设计服务行业的瓶颈主要在于先进封装产能和晶圆产能,以及IP库的丰富程度和先进制程下的芯片集成与一次流片成功的能力。此外,与台积电等代工厂的良好合作关系也非常重要,这有助于获得更好的工艺制程优化和性能提升。 发言人问:IP在芯片设计中的作用及其质量如何影响芯片性能? 发言人答:IP(IntellectualProperty,知识产权)是芯片设计中的关键部分,其丰富性和性能优化程度直接影响最终芯片的性能。市场上存在可购买的通用IP,但质量参差不齐。例如,博通和谷歌的部分IP是自研优化的,而非市场上直接购买,大部分IP需要自行研发以满足特定需求和性能要求。 发言人问:TPU芯片中使用的IP有多少是市场上可以买到的,有多少是自家研发的?发言人答:在TPU芯片中,大约有2/3的IP是自行研发的,1/3的IP是市场上可以购买到的标准服务IP,其中牵涉到一些成熟接口等IP,而大部分关键IP是通过自研来实现的。 发言人问:目前硬件厂商在针对大模型架构上的适配情况是怎样的? 发言人答:目前硬件厂商主要采用软件栈来实现对不同模型的适配,例如英伟达GPU具有较 好的通用性,而谷歌TPU则是针对特定模型优化设计。对于像Moe这样的大模型,TPU会在硬件上做些调整以实现更好的适配,但这种调整比例并不高,以保持其最初设计的简单架构和高效单节点算力输出的目标。谷歌的TPU芯片不会走英伟达GPU的通用路线,而是通过软件栈对不同模型进行编译适配。 发言人问:谷歌的TPU芯片与英伟达GPU在设计和优势上的区别是什么? 发言人答:谷歌的TPU芯片在设计上更注重能效比和能耗效率,它在相同算力下能耗更低、单位算力成本更低。而英伟达GPU则在单纯比算力方面更为突出。 发言人问:为什么云厂商倾向于购买谷歌TPU并进行混合部署? 发言人答:云厂商选择购买谷歌TPU并采用混合部署模式,是因为在模型开发迭代过程中可能需要使用GPU,但在大规模训练和推理场景中,由于TPU能效比更高,整体成本更低,因此从长期看更经济划算。 发言人问:AI开发工程师为何对TPU架构不够熟悉,以及迁移成本问题如何? 发言人答:目前大部分AI开发工程师对谷歌TPU架构并不熟悉,因为相比熟知的如英伟达平台,TPU是一个相对较新的技术。迁移成本问题在于,模型迁移到TPU平台需要考虑迁移成本能否被获得的收益完全覆盖,包括效率损失等因素。谷歌正在帮助客户解决迁移过程中的问题,但这个过程较为漫长。 发言人问:国内外对于定制化芯片选择路径为何相反,主要原因有哪些?国内为何没有大量转向定制化芯片,以及未来趋势如何? 发言人答:主要原因一是国外在大规模需求下,围绕ASIC芯片形成了完整的生态系统,不断迭代促进;二是国内云厂商缺乏稳定的模型结构,难以定制芯片,且在接口、配套交换芯片、存储架构等方面缺乏自主知识产权和连续性优化的能力,因此更多倾向于选择通用型的GPU芯片。一方面是因为国内算力供给有限,特别是先进制程晶圆资源稀缺;另一方面,由于国内公司在芯片设计上受限于国外采购的大部分配套芯片架构,无法形成连续性的优化和迭代,导致更倾向于采用类似GPU的通用芯片。然而,长远来看,随着技术发展和需求增加,国内也开始有公司在尝试定制化芯片,如字节跳动等公司,但也面临诸多挑战,海外市场的巨大需求量仍是主要驱动力。 发言人问:谷歌明年TPU的整体出货量大概有多少?并且V6、V7和V8的出货量分布是怎样的? 发言人答:明年谷歌的TPU整体出货量预计在400万颗左右。其中,V8将占据主导地位,其出货量预计会达到210万颗,主要原因是V8在明年下半年才开始出货。另外,V7的出货量也较大,约为210万颗,而V6由于已被新推出的V8取代,预计在明年第三季度停产,其出货量大约为100万颗。 发言人问:联发科在谷歌TPU芯片中所占的比例是多少?以及是否有使用英特尔EMID先进封装技术的情况? 发言人答:联发科在谷歌TPU芯片中的占比并不高,大概在15%到20%之间。明年有一款名为V5V8E的芯片是由联发科制造的。至于使用英特尔EMID先进封装技术,目前尚未合作,预计大概率会在2027年看到双方合作,因为当前良率还比较低。 发言人问:除了谷歌之外,还有哪些其他家的芯片采购需求以及GPU的情况? 发言人答:其他家的芯片总采购需求中,英伟达在数据中心AI加速领域的GPU出货量预计明年将达到接近600万颗,包括Blackwell和Rubin等一系列新芯片。而从数量上看,Epic的出货量高于GPU,但Epic的算力项目不如GPU。同时,亚马逊等公司在推理芯片方面的布局,一年的整体出货量大约在100万至200万颗之间,但其算力结构相比谷歌仍有一定差距。 发言人问:对于芯片的需求增长以及出货形式,能否详细说明? 发言人答:明年芯片需求增长主要体现在英伟达数据中心AI加速芯片的出货量上,达到接近600万颗。而Epic的出货量虽高,但其单颗芯片算力低于谷歌的TPU。其他厂商如OpenAI、SA等出货量较少,其中OpenAI的GN4第4代芯片预计有20万颗出货量。此外,字节跳动也有接近30万颗芯片的出货需求,主要在海外使用,例如在TikTok数据中心内。未来几年还会有OpenAI、SA等厂商出货,但初期出货量较小,随着芯片逐渐起量,达到百万级出货量可能需要三五年时间。出货形式上,大部分是以机柜形式交付,由博通这样