您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:算力恐慌下跌后的思考20250302 - 发现报告

算力恐慌下跌后的思考20250302

2025-03-02 未知机构 黄崇贵-中国医药城15189901173
报告封面

2025年03月03日20:54 关键词关键词 公有云算力GPU云计算集群N卡成本效率技术创新通信大规模云计算英伟达H800 H20 AI发展三大运营商芯片优化GPGPU国产卡 全文摘要全文摘要 本次讨论深入分析了算力成本的下降和技术创新对经济的影响,特别是在人工智能(AI)和云计算领域,大规模GPU集群的应用展现了显著优势和商业回报。高效算力集群在提升性能、降低成本方面发挥关键作用,凸显了AI时代公有云和大规模云计算产业链的竞争力。此外,对话还关注了国产算力的发展,特别是液冷技术在数据中心应用中的趋势和机遇,强调了液冷技术作为提高数据中心效率和应对高密度算力需求的重要手段,其市场潜力巨大。 算力恐慌下跌后的思考算力恐慌下跌后的思考20250302_导读导读 2025年03月03日20:54 关键词关键词 公有云算力GPU云计算集群N卡成本效率技术创新通信大规模云计算英伟达H800 H20 AI发展三大运营商芯片优化GPGPU国产卡 全文摘要全文摘要 本次讨论深入分析了算力成本的下降和技术创新对经济的影响,特别是在人工智能(AI)和云计算领域,大规模GPU集群的应用展现了显著优势和商业回报。高效算力集群在提升性能、降低成本方面发挥关键作用,凸显了AI时代公有云和大规模云计算产业链的竞争力。此外,对话还关注了国产算力的发展,特别是液冷技术在数据中心应用中的趋势和机遇,强调了液冷技术作为提高数据中心效率和应对高密度算力需求的重要手段,其市场潜力巨大。整体上,对话集中于算力成本、技术创新及数据中心硬件配套技术的前瞻分析,揭示了这些因素对推动行业进步和商业成功的重要性。 章节速览章节速览 ● 00:00算力成本下降与技术创新趋势算力成本下降与技术创新趋势 对话讨论了算力成本下降对经济和商业的影响,以及包括英伟达在内的厂商如何通过技术创新进一步降低成本并提升性能。提到了算力成本的通缩性质及其对储备和技术创新的推动作用,同时也指出不同公司的具体策略和产品(如显卡型号)需要分开讨论,强调了在大云层面上可能存在的相对一致统一性。 ● 01:41云计算与超大规模集群的战略价值云计算与超大规模集群的战略价值当前时间节点是看好云计算及其超大规模产业链的最佳时机,这并非因为DeepMind 等公司取得了具体成就,而是它们揭示了公有云的长期优势。过去十几年的AI发展及云计算时代证明,公有云通过大规模集群实现了高效率,因为其能够按需分配资源,提高计算和通信性能,进而提升单个集群的价值量。随着GPU取代CPU,计算与通信需求显著增加,单个超大规模集群的商业价值远超传统云计算,因此组织倾向于建设能满足多种需求的大型集群,包括训练、推理、科研、量化交易等。 ● 04:37高利润率下的算力投资与用户体验高利润率下的算力投资与用户体验讨论集中在算力投资的高毛利率和实际运行中的用户体验问题上。虽然毛利率理想状态下可达80% 以上,但未考虑用户体验及实际运行中可能遇到的各种问题,如硬件故障、服务器响应延迟等。此外,通过优化计算和通信时间,理论上可以极大提升效率,但实际上能达到的程度取决于具体技术水平和硬件的可优化程度。这种极致的性能压榨使得在3到4年内的GPU使用周期内,可能在2到3年内就能回本,从而显著提高投资者的回报率,同时也减轻了因新一代硬件推出导致上一代硬件大幅度贬值的担忧。 ● 08:27公有云与通用型公有云与通用型GPU在在AI时代的竞争优势时代的竞争优势对话讨论了公有云和通用型GPU在AI领域的显著优势,特别是与定制化产品相比,通用型GPU 具有更高的利润率和回报率。强调了通用型GPU在面对技术快速迭代时的灵活性和长期投资价值,以及企业决策时对商业回报的重视。同时,提到了黄仁勋的观点,即购买更多GPU可以提升效率和成本效益,以及对发展国产GPGPU的必要性的强调。 ● 11:32中国公有云市场的发展趋势与投资价值中国公有云市场的发展趋势与投资价值 对话讨论了中国公有云市场的发展趋势,特别是三大运营商在公有云领域的地位提升,因其国资背景和强大的安 全属性,适合承载敏感数据。此外,提到了公有云产业链中的头部企业,如阿里巴巴、腾讯、亚马逊和微软,由于其规模效应和资本实力,能持续投资并实现回报,推动了AI和云计算的快速发展。整体来看,公有云产业链被认为具有长期投资价值和正向循环的发展潜力。 ● 14:24英伟达英伟达Hopper架构优化对国产架构优化对国产GPU的影响及启示的影响及启示讨论了英伟达Hopper 架构的优化如何改变了芯片格局,特别是对于训练和推理的优化,提升了英伟达系的算力压榨率。探讨了这种优化是否能复用于国产GPU,指出英伟达的GPGPU架构及其广泛的生态参与者使得其优化效果更为显著,而国产GPU相对被动,需模仿英伟达的优化思路。同时,也强调了国产GPU在追求算力的同时牺牲了一些通用功能,这可能限制了某些优化的实现。尽管当前差距被拉开,但这次优化为国产GPU未来的设计提供了学习机会和方向,如重视SD8推理功能、缓存模块以及基于NCCL原语的通信体系设计,这有助于提升用户体验和性价比。 ● 19:13国产算力转向国产算力转向GPGPU及数据中心的影响及数据中心的影响对话讨论了国产算力逐渐转向GPGPU(通用图形处理器)的趋势,指出这一转变将对iPad 在国内的市场地位产生影响,并可能全球范围内引发对Epic优化性的质疑。预计英伟达的市场份额将上升,GPGPU在AI快速发展阶段的优势将更加明显,特别是在性价比、利用率和客户预付费意愿方面。国产芯片的性价比可能被H卡拉开,小云和国产海战比例较高的云将面临成本压力,难以与头部大云竞争。此外,对话提到了国产卡下一代针对IPE8优化和独立自主通讯系统的进展,以及高制程交换芯片对系统设计的挑战。最后,提及了IDC(互联网数据中心)和配套散热、制冷等领域受到的影响,强调了对拥有核心城市和核心能屏、电源的大型IDC的直接利好。 ● 22:49 IDC液冷散热行业的发展与竞争格局液冷散热行业的发展与竞争格局汇报重点讨论了液冷散热在IDC配套中的影响,指出液冷散热是IDC 配套中确定性最高的行业,不论总量是否萎缩,液冷散热的结构分化明显。随着单机柜功率密度的提高,液冷渗透率被动提升,对液冷配套行业有利。汇报分析了液冷散热行业的竞争格局,指出价格战已经结束,竞争格局稳定,头部企业凭借技术和经验优势占据市场主导地位。此外,汇报纠正了对液冷市场空间和国产芯片发展的常见误解,强调液冷作为IDC硬件配套的刚需性质,具有穿越周期的能力。 要点回顾要点回顾 在商业角度上,为什么现在是建设超大规模云计算集群的最佳时间节点?在商业角度上,为什么现在是建设超大规模云计算集群的最佳时间节点? 现在是最佳时间节点,因为公有云已经充分证明了其集群足够大、效率足够高的优势。随着DeepTake等技术的发展,人们更加意识到共有云的价值,并且当前GPU取代CPU带来了计算和通信性能大幅度提升,单位价值量也大幅度增加,使得超大规模集群可压榨的价值量比传统云计算要大很多。从商业角度看,企业和组织愿意建设一个足够大、功能多样且价值高的集群来满足各种需求,如训练、推理、科研研究以及量化交易等。 公有云相较于传统云计算在商业模式上有哪些显著变化?公有云相较于传统云计算在商业模式上有哪些显著变化? 公有云的优势体现在它可以按需分配资源,全天候高效利用,而个体用户无法做到这一点。此外,公有云采用大规模跨节点的专家通信机制,提高了集群的使用效率。目前的云计算在计算和通信要求及性能上大幅度提升,带来了单位价值量的巨大增长,这使得单个超大规模集群的价值量远超传统云计算。 从生产价值角度看,公有云的毛利率大致是多少?深度学习的文章中是否讨论了用户体验的问题?从生产价值角度看,公有云的毛利率大致是多少?深度学习的文章中是否讨论了用户体验的问题?理想状态下,公有云的毛利率大约为80%以上,且不考虑用户体验因素。这个利润率是在假设硬件性能得到极致压榨并有效运行的情况下计算得出的,实际运营中会遇到各种问题,包括但不限于服务器响应延迟、用户重复请求等问题,这些都会影响最终的运营效率和用户体验。在文章中,深度学习主要聚焦于如何尽可能发挥两千多张卡的性能,没有深入讨论用户体验的问题,例如输入token的数量、击中率(KV库查询命中率)以及服务器无法响应导致用户可能多次发送同一问题等情况。实际运行过程中,由于硬件问题和各种不可预知因素,实际优化效果可能无法达到理论值。 领域,从投资角度看,公有云和专用型领域,从投资角度看,公有云和专用型GPU相比,其回报率如何?投资定制化相比,其回报率如何?投资定制化GPU的风险是什的风险是什么?么? 公有云的优势明显,尤其是通用型GPU,它可以scale up或scale down,面对不同需求时具有很强的适应性和高利润率回报率。相比之下,定制化或仅用于推理的集群,在利润率上可能无法与通用型GPU竞争。投资定制化产品的一个主要风险是技术进步可能会导致手里的定制卡在新方案出现后大幅贬值甚至归零,尤其是在AI技术快速发展的背景下,如从CNN到transformer的发展可能需要十年,也可能仅一年时间,这就要求投资者承受一定的不确定性。 对于企业投资决策来说,公有云和专用对于企业投资决策来说,公有云和专用GPU的回报率问题有何影响?公有云与私有云或专用的回报率问题有何影响?公有云与私有云或专用GPU的成本的成本对对比是怎样的?比是怎样的? 企业投资时会高度关注公有云带来的高回报率和通用型GPU的生命周期规律,因为通用型GPU的回报率和生命周期有客观规律可循,而高度定制化的GPU可能会面临较大风险。此外,大型集群的规模效应和效率优势也会让投资者倾向于选择公有云服务。公有云在整体成本效率上具有优势,例如N卡集群的效率更高,可压榨的空间更大,且在实际运行过程中表现更优,成本对比其他卡更具优势。尽管存在竞争,但强调要重视国产通用型GPU的研发与培养。 公有云产业及其产业链未来发展如何看待?公有云产业及其产业链未来发展如何看待? 从商业角度看,公有云尤其是国内三大运营商的地位将因国资背景和安全属性进一步提升,同时拥有强大的IDC和算力储备。头部大型公有云企业凭借规模效应和资金实力,将持续坚定投入GPU及相关基础设施建设,整个公有云产业链值得长期看好,有望形成正循环,每年赚取更多利润并持续投入,推动AI技术不断进步和发展。 在这一轮开源周中,关于整个芯片格局的变化,主要是针对训练和推理的优化是如何进行的?在这一轮开源周中,关于整个芯片格局的变化,主要是针对训练和推理的优化是如何进行的?这一轮优化主要是基于hopper架构进行的,通过利用架构内部原本被忽略的结构,比如新的缓存和专门的设计,对矩阵乘法等操作进行了更高效的处理,从而整体提升了英伟达系芯片的算力利用率和压榨率。 对于国产卡来说,能否复用这些优化成果以提高效率呢?对于国产卡来说,能否复用这些优化成果以提高效率呢? 虽然英伟达的架构具有更多的功能模块和更大的通用性,使得第三方团队如dipstick能够进行创新优化,但国产卡由于追求特定性能指标(如IP10算力)和矩阵乘法算力,可能会牺牲一些通用功能。因 此,国产厂商需要根据第三方提供的优化思路进行模仿,并在通信系统等方面做出适应自身需求的调整,但某些优秀的优化可能因国产卡的特殊设计而难以实现。 随着随着dip t的优化,英伟达的优化,英伟达N卡的整体效率提升后,国产算力的性价比差距如何变化?卡的整体效率提升后,国产算力的性价比差距如何变化? 随着英伟达整体效率的提升,特别是在SD8推理、depute direct通信原语以及通信协议能力等方面,国产算力与英伟达N卡之间的性价比差距变得更加明显。不过,国产厂商也会从这一轮优化中学习并重视诸如SD8推理、缓存模块以及基于NCCL原语的通信体系内部总线设计完善性等方向,这为未来国产芯片的发展提供了参考方向,尽管短期