您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:英伟达新卡H20的影响有多大 - 发现报告

英伟达新卡H20的影响有多大

2023-11-08-未知机构苏***
英伟达新卡H20的影响有多大

对比H100/H800有以下变化 HBM增加一颗,有16*5=80GB增加至16*6=96GB,成本增加240美金FP16稠密算力为H100 15%,H20需要额外增加软件人员适配成本NVLINK由400GB/s升级至900GB/s,因此互联速率会有较大升级H100/H800通过IB网络组网是目前最大集群的主流实践方案H100理论极限在5万张卡集群,NV测试实践有4万卡以上,5万*2P=10万PH800实践集群在2~3万张卡,2万*2P=4万PA100最大实践集群为1.6万张卡,1.6万*0.6P=9600PH20集群0.148P*5万=7400PH20算力与通信均衡度来预估,H20集群规模远达不到H100的理论规模,因此合理按3000P中性预估 国产卡未来两年的能力 某10B,单卡算力0.6T,目前了解集群实践的上限在2000~3000张卡,约1800P集群算力规模某10C,有望翻倍以上提升算力,集群能力得到重视,具体能力未知某90,单卡算力0.6T,目前了解到当前集群技术可以做200~300张卡,明年上半年有望新增集群芯片,增加集群规模某场下一代90系列,单卡有望提升到1.6T以上,在手互联技术做到600GB/s目前看可行度高其他卡还没到A100水平 潜在用途判断 GPT 3.5起步训练需求3000P算力,H20集群可以胜任GPT 4起步训练需求20000P算力,主流方案40000P算力,H20集群无法胜任GPT 5起步训练需求100000P算力,H20集群无法胜任,H800集群无法胜任,需更高端的集群垂类的千亿级别模型训练,H20可以胜任模型微调,H20可以胜任万亿大模型推理,性能表现应当会超过A100 明年趋势 Meta宣布明年开源GPT-4等级的模型,全球开源生态将进入GPT-4等级OpenAI明年上半年预计发布GPT-5,目前看是十万亿参数等级,是否达到百万亿登记,未知国内模型今年还在千亿级别模型明年急需走到万亿级别,不然跟开源的能力将拉开差距,可能丢失核心竞争力供需失衡,按照明年英伟达400万颗,国内25%占比预估,国内100万颗H800的需求。采用H20来弥补的话,按照算力估算将是600万颗的,英伟达原地起飞?按国内某算租企业交流,当前供需比在1比10,应用起量后将更加失衡 国内AI产业最需要什么 模型要快速训练,训练端算力集群规模是核心,目前面向明年进入GPT-4等级模型的需求,只有H800 H100可以胜任大模型推理,目前垂类模型推理,国产卡发挥的主要空间,这次H20更多可以在这个领域发挥,也就是堵截国产卡的发力区间小模型推理,H20使用HBM有点浪费,GDDR显存足矣胜任 这次的事情会利好哪些 恒润股份:公司公告表明芜湖项目立项是为了建设40000P算力集群来孵化国产大模型。 先列一下HGX H20核心参数,从参数变更可以看出,这是一款在H100原芯片基础上,通过固件阉割的方式调整出来的产品。HBM内存96GBFP16稠密算力148TNVLINK 900GB/s 对比H100/H800有以下变化 HBM增加一颗,有16*5=80GB增加至16*6=96GB,成本增加240美金FP16稠密算力为H100 15%,H20需要额外增加软件人员适配成本NVLINK由400GB/s升级至900GB/s,因此互联速率会有较大升级H100/H800通过IB网络组网是目前最大集群的主流实践方案H100理论极限在5万张卡集群,NV测试实践有4万卡以上,5万*2P=10万PH800实践集群在2~3万张卡,2万*2P=4万P A100最大实践集群为1.6万张卡,1.6万*0.6P=9600P H20集群0.148P*5万=7400PH20算力与通信均衡度来预估,H20集群规模远达不到H100的理论规模,因此合理按3000P中性预估 国产卡未来两年的能力 某10B,单卡算力0.6T,目前了解集群实践的上限在2000~3000张卡,约1800P集群算力规模某10C,有望翻倍以上提升算力,集群能力得到重视,具体能力未知某90,单卡算力0.6T,目前了解到当前集群技术可以做200~300张卡,明年上半年有望新增集群芯片,增加集群规模某场下一代90系列,单卡有望提升到1.6T以上,在手互联技术做到600GB/s目前看可行度高其他卡还没到A100水平 潜在用途判断 GPT 3.5起步训练需求3000P算力,H20集群可以胜任GPT 4起步训练需求20000P算力,主流方案40000P算力,H20集群无法胜任GPT 5起步训练需求100000P算力,H20集群无法胜任,H800集群无法胜任,需更高端的集群垂类的千亿级别模型训练,H20可以胜任模型微调,H20可以胜任万亿大模型推理,性能表现应当会超过A100 明年趋势 Meta宣布明年开源GPT-4等级的模型,全球开源生态将进入GPT-4等级OpenAI明年上半年预计发布GPT-5,目前看是十万亿参数等级,是否达到百万亿登记,未知国内模型今年还在千亿级别模型明年急需走到万亿级别,不然跟开源的能力将拉开差距,可能丢失核心竞争力供需失衡,按照明年英伟达400万颗,国内25%占比预估,国内100万颗H800的需求。采用H20来弥补的话,按照算力估算将是600万颗的,英伟达原地起飞?按国内某算租企业交流,当前供需比在1比10,应用起量后将更加失衡 国内AI产业最需要什么 模型要快速训练,训练端算力集群规模是核心,目前面向明年进入GPT-4等级模型的需求,只有H800 H100可以胜任大模型推理,目前垂类模型推理,国产卡发挥的主要空间,这次H20更多可以在这个领域发挥,也就是堵截国产卡的发力区间小模型推理,H20使用HBM有点浪费,GDDR显存足矣胜任 这次的事情会利好哪些 恒润股份:公司公告表明芜湖项目立项是为了建设40000P算力集群来孵化国产大模型。算力企业里,唯一一个精准定位自己的战略,所以模型厂商大多都在谈合作,这是最值得期待的企业。!!理解恒润,就是理解算力!! 算力租赁:H20成本比H100还高,NV还要额外花成本是配,因此利润率不会降低的,那么对于训练企业计算成本,同样的算力需求要花接近5倍的资本开支,不租该怎么办? 算力租赁炒的就不是涨价主逻辑,炒的首先是资本开支逻辑,其次才是表观利润率高的逻辑 服务器厂商:原来啥货都没了,现在有货了,价格还不低。同样的算力需求,量要上5倍,利好不利好?国产芯片也都在适配了啊国产芯片:不是所有人都有钱花5倍的资本开支买或用这么贵的算力,国产芯片这一代在推理上已经有性价比,下一代可能压着H20打 光模块:虽然说拿H20组大集群成本不低,但小集群推理也要高速互联,都上900G了,800G光模块是不是要整上?(目前还未确认到组网方案) 应用厂商:本来在国内做应用,算力起不来量没戏了,现在贵点就贵点,总归有持续供应了,产业继续了,无非就是等等国内扩产呗?半导体产业链:H20都骑脸羞辱了,阉割成这样子还有信心打败国产芯片,先进工艺扩产重视起来,先进封装重视起来,这些起来还有什么问题?