AI智能总结
2024年12月18日23:48 关键词关键词 GPU TPU英伟达谷歌算力性价比训练推理大规模部署液冷功耗NV云厂商AI数据中心边缘计算芯片设计服务博通马威尔 全文摘要全文摘要 本次对话深入探讨了算力领域的最新发展趋势,特别强调了从训练到推理转变的重要性及ASIC(专用集成电路)在提升性价比方面的潜力。专家分析了包括NVL36、NVL72、CPO、LPO和液冷技术在内的多种技术和产品在数据中心的应用与挑战,指出这些技术正逐步改变算力领域的格局。讨论特别提及了谷歌TPU在推理和训练中的应用,以及英伟达在GPU市场的领先地位和所面临挑战。 算力新技术:算力新技术:ASIC对比对比GPU20241218_导读导读 2024年12月18日23:48 关键词关键词 GPU TPU英伟达谷歌算力性价比训练推理大规模部署液冷功耗NV云厂商AI数据中心边缘计算芯片设计服务博通马威尔 全文摘要全文摘要 本次对话深入探讨了算力领域的最新发展趋势,特别强调了从训练到推理转变的重要性及ASIC(专用集成电路)在提升性价比方面的潜力。专家分析了包括NVL36、NVL72、CPO、LPO和液冷技术在内的多种技术和产品在数据中心的应用与挑战,指出这些技术正逐步改变算力领域的格局。讨论特别提及了谷歌TPU在推理和训练中的应用,以及英伟达在GPU市场的领先地位和所面临挑战。硅光技术在光模块和数据中心互联中的应用前景也被广泛讨论,包括1.6T光模块的发展、硅光技术的现状及竞争格局,以及国内公司在硅光领域的研发进展。整个对话揭示了算力技术的最新动态、市场需求、技术挑战及未来发展趋势,为投资者和产业界人士提供了重要参考。 章节速览章节速览 ● 00:00 ASIC芯片技术及其市场前景分析芯片技术及其市场前景分析随着算力需求的变化和技术的快速发展,ASIC 芯片以其功耗小、成本低、性价比高等优势,逐渐成为市场上的一大焦点。本次讨论中,从头部厂商和国际头部厂商的经验来看,算力技术在过去两年中经历了显著的变革,特别是在技术层面,如NVL36、NVL72、IB、CPO、LPO和液冷技术等方面。当前,算力的焦点正从训练侧转向推理侧,面临大规模部署的挑战,其中包括漏液、PCB连接等技术难题,以及性价比问题。特别是GPU的高功耗和高成本,让其在推理侧的应用显得不够经济。相比之下,ASIC芯片以其显著的性价比优势,正在引领市场的新趋势,有望取代GPU成为主流技术方向。此外,讨论还关注了ASIC技术与GPU技术的比较,以及ASIC在产业推广过程中的量价和生态链支持,以评估其技术可行性和商业可行性。邀请了业内专家对ASIC和GPU技术进行深入对比分析,并探讨ASIC芯片的市场动态,为投资人和行业人士提供了宝贵的见解。 ● 02:41 ASIC芯片在芯片在AI领域的快速发展与应用领域的快速发展与应用近年来,随着AI技术,尤其是生成式AI和大语言模型的迅速发展,ASIC芯片在AI 领域的应用得到了快速扩张。谷歌的TPU芯片,作为ASIC的一种,自2016年研发以来,已显著推动了AI技术的进步,特别是在AI的训练和推理方面。与其他通用型AI加速芯片相比,ASIC芯片因其高性能和能效比的优势,受到了越来越多云服务提供商的青睐。这些云服务提供商,如谷歌、亚马逊、微软等,为了优化计算密度和能效比,减少数据传输瓶颈,以及针对特定应用进行硬件和算法的优化,开始推出自己的ASIC芯片。此外,英伟达GPU的供应紧张也促使更多厂商考虑采用ASIC解决方案,以确保供应链的稳定性和降低总体成本。因此,ASIC芯片在AI训练、推理以及数据中心优化等方面的应用前景广阔,未来还将扩展到边缘计算领域。 ● 06:38探讨探讨GPU在在AI训练和推理中的应用及挑战训练和推理中的应用及挑战 当前市场上对GPU在人工智能领域的应用有较多讨论,特别是其在训练大模型方面的能力。存在一种误解,认为某些GPU仅适用于推理而不能用于训练,但实际情况是,像谷歌推出的TPU V5等芯片,分为推理和训练两种类型,基于矩阵乘法加速设计,非常适合深度学习的大规模训练。然而,这种结构对于大语言模型(LLM)等特定领域不太适用。GPU的通用性和编程环境的扩展性仍是其在训练领域的一大优势,英伟达的GPU在算力、通用性和编程环境方面处于行业领先地位,是众多大模型训练的首选。 ● 09:08比较英伟达比较英伟达H100与谷歌与谷歌TPU的性能与功耗的性能与功耗 对话内容比较了英伟达的H100和谷歌的TPU(包括V5系列)在算力、功耗和内存方面的差异。英伟达H100的算力可达3000到8000个TOP,功耗约为700瓦,内存达188GB。而谷歌TPU,如V5,其功耗更低,约200到300瓦,算力在400到500TOP之间,内存较少,约95到100GB。此外,讨论还提到了谷歌TPU在设计上更注重功耗性价比,以及如何通过集群方式提高性能。 ● 12:56谷歌谷歌TPU与英伟达与英伟达GPU的价格及性能比较的价格及性能比较讨论中提到,谷歌TPU在价格和性价比方面相比英伟达的GPU(如H100、A100和B100 )具有明显优势。年初时,英伟达H100的价格约为3万美金,而A100在1万到12000美金之间。相比之下,谷歌TPU的价格在批量生产情况下为2000到3000美金,V5P的价格在5000到6000美金,体现了其在成本上的竞争力。此外,谷歌基于TPU提供的云服务成本低至每小时0.4元,进一步凸显了TPU的性价比。随着新的芯片版本推出,如V6,TPU的性能和成本优势预计将更加明显。 ● 14:47 ASIC芯片在市场中的增长趋势与用户偏好芯片在市场中的增长趋势与用户偏好随着ASIC芯片在市场中的应用逐渐增多,谷歌的ASIC芯片(TPU V5P )的使用量已经超过百万片,而采购的英伟达芯片只有20万片,反映出ASIC芯片因特定需求而受到青睐。谷歌的芯片使用主要偏向于推理任务,而对于训练性芯片的需求相对较少。在国内市场,大型科技公司如阿里巴巴、腾讯、百度等对于ASIC芯片的需求也呈现出增长趋势,这些公司基于各自业务的特性,对于ASIC芯片的使用场景和需求有所不同。例如,百度更注重于自动驾驶和搜索业务,而字节跳动则侧重于视频内容生成与推荐。总体来看,ASIC芯片因其定制化特性,在满足特定模型和应用需求方面展现出显著优势,未来在AI领域内的应用前景广阔。 ● 18:09中国中国ASIC芯片市场现状与发展挑战芯片市场现状与发展挑战目前中国在ASIC 芯片领域尚未实现大规模生产与应用,尽管有公司如阿里巴巴和百度在进行相关研发和试验性部署,但总体上仍面临技术和产能的挑战。主要原因包括受到美国技术限制,难以获取先进制程产能,以及国内芯片设计公司在针对特殊模型定制方面能力不足。虽然存在设计服务公司如博通和马威尔提供支持,但中国公司在这一领域的发展相对滞后。未来,预期将有更多公司加入自研芯片的行列,但需要时间来建立成熟的设计和生产能力。 ● 24:18谷歌、谷歌、Meta等公司芯片出货量及未来预测等公司芯片出货量及未来预测目前谷歌的芯片出货量领先,预计明年将超过150万片,主要来源于V5P和V5E型号,其中V5P的出货量是V5E 的两倍,反映出谷歌业务以推理为主。Meta的芯片出货量预计明年将达到30万片,而亚马逊的两款芯片合计出货量预计接近50万片。字节跳动和Open I的芯片出货量预计将较小,但未来有望增长。苹果的芯片出货预计在2026年,初期出货量约10万片。国通作为谷歌TPU的供应商,目前在市场上占据领先地位。 ● 27:00 TPU应用场景及中美芯片竞争分析应用场景及中美芯片竞争分析 TPU主要应用于谷歌自身的服务,如搜索(包括图像和视频搜索)、YouTube和数据中心内的深度学习,这些应用多基于Transformer模型。对于ASIC,目前美国尚未对中国实施禁运,关注重点仍在于传统的芯片公司。虽然存在未来政策变化的风险,但目前设计服务行业可能较少受到政府管制,能够通过调整参数满足客户需求同时符合技术要求。未来,美国可能会通过限制先进制程来阻止中国公司在芯片技术上的进步。中国AI芯片公司在算力等方面与国际领先水平仍有一定差距,因此短期内美国政府可能不会实施严格的禁令,以免影响到美国公司的利益。随着谷歌等公司增强内部芯片设计能力,可能减少对外部供应商的依赖,这对博通等设计服务公司构成挑战。 ● 32:48光模块技术发展趋势及市场前景光模块技术发展趋势及市场前景随着技术进步,光模块市场将迎来重大变革。目前,800G至1.6T的光模块仍以可插拔为主,但随着CPU 技术的成熟和量产,可插拔光模块将逐渐被替代。未来,1.6T以上光互联将不再需要可插拔光模块,取而代之的是全硅光集成互联技术。预计到2028年,全硅光产业供应链将成熟,实现硅光集成。众多厂商如格罗方德、tower以及国内的海信、中聚创等正在积极布局硅光技术,这表明硅光工艺和集成将是未来光模块技术发展的重要方向。 ● 35:22硅光技术及市场趋势分析硅光技术及市场趋势分析 硅光技术的发展和应用在台积电等制造厂商中展现了集成化程度不断提高的趋势。讨论重点包括硅光平台上的激光光源、开关、探测器等元器件,以及衰减器、耦合器等无源器件的分类和应用。随着技术的进步,光电芯片的集成导致了PCB市场需求的减少,同时也为新材料和封装技术提供了新的市场机会。此外,硅光技术在降低能耗方面展现出的优势,如在CPU交换机应用中降低功耗,减少了对液冷等冷却技术的依赖,提升了数据中心的整体能效。 ● 38:54 1.6T硅光芯片及光模块的市场现状与展望硅光芯片及光模块的市场现状与展望目前1.6T硅光芯片主要基于200G单通道技术,已经开始交付。市场上主要由五家供应商提供200G EMI ,包括三家美国公司和两家日本公司。200G光芯片面临良率等挑战,导致1.6T光模块的出货量有限,预计年底200G光芯片出货量约200万片,对应的1.6T光模块约30万套。明年预计200G光芯片和1.6T光模块的出货量将显著增长,光模块出货量接近400万套,光芯片出货量预期达到300万到3000万对。 ● 41:07硅光技术及市场现状讨论硅光技术及市场现状讨论目前200G页面的价格相对较高,平均价格在50到60 美金之间,但实际价格因供应商而异。硅光技术成为光模块中 不可或缺的部分,因为传统分离方式已无法满足如800G或400G的需求。硅光技术的主要竞争者包括格罗方德、tower、三星和intel等,而国内方面,尽管中芯国际和华天在进行相关研发,但目前尚未具备量产能力。 ● 42:42光模块投资机会与市场趋势分析光模块投资机会与市场趋势分析 在最近的会议中,专家详细讲解了光模块领域的量价、功耗、技术方向和成本,突出了从训练侧向推理侧转换的市场节点,以及推理和训练的共振。特别提到了谷歌、MA和字节跳动在推理领域的成功案例,预测2025年将是光模块领域明确的出货量增长机会。同时,也强调了训练和推理的共存关系,以及技术向商业落地的趋势。此外,还提到了GPU和S在量价和功耗方面的对比,强调了持续关注产业落地机会的重要性。 问答回顾问答回顾 发言人发言人问:算力技术方面有哪些变化,尤其是在大规模部署时面临的问题?问:算力技术方面有哪些变化,尤其是在大规模部署时面临的问题? 发言人答:算力技术在过去两年中有显著变化,例如NVL36、NVL72、IB以及CPO、LPO等技术的出现。在大规模部署中,面临的问题包括前期的漏液问题、同连接PCB的问题等。同时,从NV(英伟达)的视角看,主要是一个性价比问题,即GPU功耗大、价格昂贵,导致在推理侧应用时成本过高。例如,910C和DB200中使用的1500万镁锌片表明成本和功耗仍难以解决。 发言人发言人问:问:ASIC芯片为何被认为是取代芯片为何被认为是取代GPU的趋势,并且它的技术和的趋势,并且它的技术和GPU技术相比有何优势?技术