
2025年12月24日09:24 关键词 全栈算力供给英伟达TPU谷歌博通IP数据中心先进封装优化编译大模型软件栈超级节点GPU能效比混合部署能耗算力迁移成本生态 全文摘要 当前AI芯片市场正快速发展,谷歌TPU与英伟达GPU作为两大代表,各有千秋。TPU在能效比和成本效益上表现出色,适合特定任务高效处理;而NVIDIA GPU则以其高度的通用性和模型兼容性,在广泛的应用场景中占据优势。国内外在AI芯片设计上策略有别,国内倾向于开发类似GPU的通用芯片以满足多样需求,而国际市场则更青睐于定制化ASIC芯片以适应特定计算任务。 海外AI芯片专家交流-20251223_导读 2025年12月24日09:24 关键词 全栈算力供给英伟达TPU谷歌博通IP数据中心先进封装优化编译大模型软件栈超级节点GPU能效比混合部署能耗算力迁移成本生态 全文摘要 当前AI芯片市场正快速发展,谷歌TPU与英伟达GPU作为两大代表,各有千秋。TPU在能效比和成本效益上表现出色,适合特定任务高效处理;而NVIDIA GPU则以其高度的通用性和模型兼容性,在广泛的应用场景中占据优势。国内外在AI芯片设计上策略有别,国内倾向于开发类似GPU的通用芯片以满足多样需求,而国际市场则更青睐于定制化ASIC芯片以适应特定计算任务。随着技术进步和市场对算力需求的持续增长,芯片的单价和复杂度也在不断攀升,这促使行业不断探索更高效、低成本的解决方案,推动了AI芯片技术的迭代与优化。 章节速览 00:00全球AI算力供给焦点:全栈方案与芯片互联技术 讨论聚焦于全球AI算力供给的关键点,包括谷歌的TPU与OCS光互联,英伟达的GPU与NV switch,以及AMD和博通在光电互联与软硬件协同方面的优势。强调了全栈方案与芯片互联技术在当前算力领域的核心地位。 03:46全站自研在数据中心优化中的优势探讨 对话讨论了全站自研在性能提升上的量化优势,指出协同优化硬件、软件和互联可显著提高效率,但具体提升百分比需基于参照系。英伟达在产业链中的话语权和决策权较高,因其生态完善、迭代速度快,尽管成本非最优,但支撑大模型推理和训练方面占据主导地位。 06:02大模型厂商与ASIC厂商在芯片设计领域的合作与竞争趋势 讨论了大模型厂商如谷歌转向使用ASIC(如TPU)的趋势,以及博通等设计服务公司在这一领域的定位。博通专注于为客户提供芯片设计服务,而非直接参与数据中心的核心算力竞争。随着芯片设计行业的发展,成本优化和效率提升成为关键,促使大模型厂商寻求与低成本设计服务商合作,如联发科。这一趋势对ASIC厂商的话语权构成挑战,尤其是在先进封装和电源产能方面存在瓶颈时,联发科等企业凭借与台积电的良好关系,可能获得竞争优势。 10:38芯片设计行业壁垒与IP自研重要性 对话讨论了芯片设计行业的关键壁垒,包括丰富的IP库、复杂芯片集成能力和与代工厂的良好关系。强调了自研IP对提升芯片性能的重要性,指出虽然市场上可购买IP,但自研IP,尤其是定制IP,对性能提升更为关键。 14:33大模型架构与硬件适配性分析 讨论了GPU与TPU在大模型适配上的差异,指出GPU通用性强,无需针对模型重编,而TPU定制化设计,适配需依赖软件栈。谷歌TPU为优化特定模型设计,硬件调整有限,以保持低功耗与高效互联。定制芯片在能效比上优于GPU,但需软件栈适配,如pens floor。 18:46云厂商为何转向谷歌TPU:混合部署与成本考量 讨论了云厂商转向谷歌TPU的原因,主要在于混合部署策略下,TPU在大规模训练推理场景中的成本效益和能效优势。同时,考虑到从GPU到TPU迁移的成本、效率损失及技术熟悉度问题,指出谷歌正帮助客户进行迁移,但这一过程较为漫长且存在风险。 21:18国内外芯片定制化趋势差异分析 对话围绕国内外在芯片定制化上的不同趋势展开,指出国内云厂商如腾讯、百度、阿里等,由于缺乏稳定的模型结构和完整生态链,更倾向于采用通用GPU芯片。而国外厂商则因生态完善、需求量大,逐渐转向定制化芯片。国内定制化芯片面临挑战,包括模型不稳定、生态不健全及缺乏自主IP和架构,导致难以实现连续迭代优化。 24:33国内算力与芯片定制化趋势 国内算力供给有限,尤其在先进制程晶圆方面。为更好利用算力,定制化芯片成为趋势,如采用12纳米制程的仿TPU架构,通过创新如Tilt结构,将多个芯片核封装或放在一起,以降低设计成本。尽管如此,海外需求量大仍是主要趋势。 26:04 2023年谷歌TPU芯片出货量与代际分布 对话详细介绍了2023年谷歌TPU芯片的预计出货量及其代际分布,包括V6、V7、V8三代芯片的出货比例,以及联发科在谷歌TPU生产中的占比。明年谷歌计划出货约400万颗TPU,其中V7占比50%以上,约210万颗,V8出货量预计在90万颗左右,V6则计划在三季度停用,出货量约100万颗。联发科参与生产的V8E芯片占比在15%到20%之间。 28:34 2027年英特尔EMID封装技术合作展望与GPU市场趋势 对话聚焦于2027年与英特尔合作的EMID封装技术成熟度及良率问题,同时探讨了GPU市场动态,预测英伟达数据中心AI加速GPU出货量明年可达近600万颗,包括Blackwell和Ruby系列。亚马逊推理芯片年出货量接近200万颗,但算力结构落后于谷歌和英伟达一代至一代半。 31:23数据中心芯片出货量与系统交付趋势分析 对话讨论了明年数据中心芯片出货量,包括Meta、OpenAI等厂商的芯片数量,预计以机柜形式交付占比高,博通等公司正从芯片供应商向系统供应商角色转变,主导定制化数据中心系统集成,以适应客户需求。 36:01芯片与IP模式收费探讨及项目合作分析 对话围绕芯片销售与IP模式收费方式展开,讨论了谷歌等厂商的采购模式,以及光模块等组件的报价机制。提到芯片单价随工艺复杂度提升而上涨,如谷歌V系列芯片从V5到V7价格增长显著。同时,探讨了非谷歌厂商的项目合作中,成本加成与整体性能打包销售策略,涉及芯片、子系统及模块提供商的报价与利润分配。 思维导图 发言总结 发言人1 他讨论了GPU和TPU等加速计算方案的市场状况,特别提到英伟达和谷歌的解决方案最为成熟。英伟达凭借其T4和K80 GPU以及NV Switch技术在市场上占据主导地位,而谷歌的TPU则专为谷歌的模型设计,提供高效能计算。此外,发言人指出博通在网络互联方面有其优势,AMD通过GPU与CPU的结合强化了互联。尽管如此,发言人强调英伟达因其广泛的生态系统和快速的开发迭代速度,仍然是首选。他还提到,谷歌TPU的市场需求近年来显著增长,预计明年出货量将超过100万颗,而英伟达数据中心GPU的出货量也将接近600万颗。发言人还指出,博通在芯片设计服务领域发挥作用,致力于优化数据中心的算力效率,并正逐渐从芯片供应商转型为系统供应商。最后,发言人指出,随着技术进步和复杂度增加,芯片价格也上涨,未来技术的发展趋势和市场需求将继续推动这一趋势,而数据中心趋向于采用更复杂的定制化解决方案,但对成本和效率的追求仍是关键考量因素。 发言人3 他,东北证券的电子咨询师彭瑞,在专家闭门交流会上深入讨论了全球AI算力供给状况。他首先聚焦于算力供给的核心议题,包括谷歌TPU和英伟达GPU及其网络解决方案的全站整合,询问这些全栈解决方案是否为当前焦点,并探讨了自研全站对性能提升的影响,如30%以上的性能优化潜力。接着,彭瑞分析了ASIC方式在产业链中的角色,指出技术壁垒和市场动态如何影响不同厂商,强调了算力资源利用的重要性。他还对比了国内外在GPU和ASIC应用策略上的差异,特别提到国内可能偏好的12纳米制程TPU架构,并讨论了芯片需求、机柜出货、收费模式及成本构成,以及项目制供应的可能性。彭瑞的发言全面覆盖了AI算力供给的技术、市场和产业链动态,提 出了对未来发展的见解和疑问。 发言人2 首先强调了本次电话会议的专属性,仅面向东北证券的专业投资机构客户及受邀客户,目的是在新媒体环境下促进即时的研究观点交流。他特别提醒所有参与者,第三方专家的观点仅代表个人意见,且所有会议信息与观点均不构成投资建议,重申了合规性要求。依据监管规定,未经东北证券书面同意,任何人不得擅自对会议内容进行录音、制作纪要、转发、转载或传播,违反者将依法受到措施。他对与会者的理解和配合表示感谢,随后简要介绍了会议的目的和流程,并正式邀请了主持人上台。 问答回顾 发言人3问:目前全球对AI算力供给的关注点主要在哪些方面? 发言人3答:目前全球关注的焦点主要是像英伟达和谷歌这样的公司,它们分别通过TETPU与GPU结合的全栈方案以及使用自家TPU芯片并配以OCS光互联技术构建的超节点技能来实现算力优化。 发言人3问:全栈自研在性能上能量化提升多少,比如高30%或更大幅度? 发言人1答:全栈自研的优势主要体现在能够协同优化硬件、软件及互联方面,具体提升多少需要参照一个合适的比较基准。例如,英伟达下一代芯片相较于上一代在带宽、性能和利用率等方面会有提升,但没有直接数字对比则无法准确估算优化程度。 发言人3问:在全栈解决方案中,哪家公司在产业链中的决策权更高? 发言人1答:在全栈解决方案中,英伟达无疑拥有最高的决策权和话语权,因为目前大多数大模型和云厂商的模型训练与推理主要基于英伟达芯片,其生态体系完善且开发迭代速度快。 发言人3问:大模型厂商采用ASIC芯片是否能在全栈中成为链主? 发言人1答:可以。谷歌TPU在今年异军突起,外销采购量达到约50万颗,并计划在未来两年采购量超过100万颗。这也表明大模型厂商采用ASIC芯片在全栈中也能占据主导地位。 发言人1问:博通在产业链中的定位以及与其他公司如联发科的竞争优势是什么? 发言人1、发言人3答:博通主要定位为帮助合作伙伴代工芯片设计,包括帮助谷歌、Meta等公司设计芯片。它并不直接参与数据中心核心算力部分,而是致力于提升通讯(如交换机、存储芯片)和计算效率,同时也不会像谷歌或英伟达那样做策略性芯片。联发科等公司可能凭借自身经验和供应链优势,在这一领域对ASIC厂商的话语权产生影响,但博通也有其独特的市场定位和竞争优势。 发言人1问:设计服务行业发展趋势是什么? 发言人1答:设计服务行业的趋势在于随着芯片成为热门细分领域,会有更多厂商寻求与博通等设计服务公司合作,以加快芯片上市速度并降低成本,提高销售量。 发言人1问:设计服务行业的瓶颈或壁垒在哪里? 发言人1答:设计服务行业的瓶颈主要在于先进封装产能和电源产能,以及IP库的丰富性和性能优化能力。拥有丰富且优化过的IP对提升芯片性能至关重要,是行业的重要壁垒。 发言人1问:在芯片设计中,IP来源是如何分布的? 发言人1答:市场上大部分IP都可以购买到,但质量参差不齐。例如,博通在TPU芯片中使用的IP有3分之2是自己研发的,而非从市场上购买;对于一些特定的HDM接口等IP,通常已经很成熟,可以现成使用。 发言人3问:对于谷歌TPU芯片而言,其采用的IP有多少是外采的,多少是自研的? 发言人1答:在TPU芯片中,大约有3分之2的IP是自己研发的,有3分之1的IP是通过其他方式获取的。 发言人3问:目前硬件与软件模型的适配情况如何? 发言人1答:目前英伟达GPU因其通用性较强,能够较好地适应各种模型,通过软件编译器进行重编译来适配不同模型。而谷歌TPU作为定制芯片,更多依赖软件栈来实现对不同模型的适配,同时会在硬件上做些调整以包容更多模型,但硬件上的改动比例不是特别高,以保持其针对特定模型优化的架构方向和效率。 发言人3问:谷歌的TPU与英伟达GPU在设计宗旨上为何不同? 发言人1答:谷歌的TPU在设计时更注重能效比和单位算力的成本,而英伟达GPU则可能在单纯算力上有优势。谷歌的TPU适合大规模训练推理场景,能实现更高的能效比和更低的能耗,这与数据中心降低能耗的需求相契合。因此,云厂商