证券研究报告 行业研究 2023年09月22日 本期内容提要: ➢D1芯片对标英伟达A100,ExaPOD算力可达1.1EFLOPS。特斯拉D1芯片采用台积电7nm制程,面积约为645mm²,包含500亿颗晶体管,BF16/CFP8算力可达362TFLOPS,FP32算力可达22.6TFLOPS。25个D1芯片组成了一个Training Tile多晶片模组(MCM),6个Training Tile组成一个tray,再由两个Tray组成一个机柜,10个机柜组成ExaPOD,BF16/CFP8峰值算力达到1.1EFLOPS(百亿亿次浮点运算),并拥有1.3TB高速SRAM和13TB高带宽DRAM。 ➢D1芯片需要高速的互联支撑,台积电SoW封装技术提供土壤。在单个Training tile上,由于并未将芯片切下,为了提高效率和降低成本,特斯拉未在片上集成DRAM等器件,这与许多通用GPU有所不同。集群节点之间以2D mesh连接,边缘则通过Interface-processors负责内存池数据搬运,因此高速互联是必要的,台积电SoW封装技术提供了土壤。InFO_SoW取消了衬底和PCB的使用,使得多个芯片阵列使解决方案获得晶圆级优势,以获得低延时、高带宽等优势。此外除了异构芯片集成外,还支持基于小芯片的设计,以实现更大的成本节约和设计灵活性。在部分模型上,Dojo能实现相对A100更高的性能。例如在图像分类模型ResNet-50上,Dojo可以实现比英伟达A100更高的帧率。而在用于预测汽车周围物体所占空间的神经网络模型Occupancy Networks上,相比英伟达A100,Dojo能实现性能的倍增。 韩字杰联系人邮箱:hanzijie@cindasc.com ➢特斯拉将大力投资基础设施,2024年有望达100Exa-Flops算力。特斯拉目前AI基础设施较少,仅约4000个V100和约16000个A100。而Microsoft和Meta等公司拥有超过10万个GPU。据特斯拉规划,2024年有望达100Exa-Flops算力。特斯拉拥有自身车型收集的海量数据,但受限于硬件限制无法充分挖掘数据价值。我们认为,大力投资AI基础硬件设施之后,除加速自身智驾进程外,或可拓展至其他商用领域,如智能机器人等;此外,特斯拉未来也可能成为一家云服务提供商,向相关厂商提供自身算力或模型服务。 ➢投资建议:第一,看好服务器定制化趋势。从特斯拉Dojo上我们看到AI在专业领域的价值,而相似案例有望在教育、医疗、办公等场景拓展,服务器定制化趋势或蔚然成风。建议关注算力产业链:工业富联/沪电股份。第二,受益AI强势赋能,特斯拉产业链或迎成长良机。基础硬件限制解决,AI大模型性能提升,在特斯拉体系内形成良性循环,特斯拉智能驾驶、机器人、零部件等相关厂商或持续受益,建议关注:东山精密/领益智造/舜宇光学/世运电路/胜宏科技等。 信达证券股份有限公司CINDA SECURITIES CO.,LTD北京市西城区闹市口大街9号院1号楼邮编:100031 ➢风险因素:宏观经济下行风险;AI发展不及预期风险;短期股价波动风险。 Dojo性能强劲,AI应用场景拓展.....................................................................................................4风险因素..............................................................................................................................................7 图目录 图1:D1芯片...............................................................................................................................................................4图2:Training Tile结构............................................................................................................................................4图3:6个Training Tile组成一个tray.................................................................................................................5图4:2个Tray组成一个Cabinet.........................................................................................................................5图5:Training Tile互联..........................................................................................................................................5图6:2D mesh互联...................................................................................................................................................5图7:InFO_SoW封装................................................................................................................................................5图8:ResNet-50上Dojo实现比英伟达A100更高的帧率.....................................................................6图9:Occupancy Networks上Dojo能实现性能的倍增。.........................................................................6图10:特斯拉算力规划............................................................................................................................................6图11:Model3硬件配置........................................................................................................................................7 Dojo性能强劲,AI应用场景拓展 D1芯片对标英伟达A100。D1采用台积电7nm制程,面积约为645mm²,包含500亿颗晶体管,BF16、CFP8算力可达362TFLOPS,FP32算力可达22.6TFLOPS。特斯拉D1芯片对标英伟达A100,英伟达A100同样采用台积电7nm制程,面积为826mm²,晶体管数量达542亿颗,FP32峰值算力为19.5TFLOPS。 D1芯片依次组成Traniningtile、Tray、机柜、ExaPOD。特斯拉并未将SoC从晶圆上切下来,而是将所有SoC连接。25个D1芯片组成了一个TrainingTile多晶片模组(MCM),每个D1芯片功耗400W,一个TrainingTile功耗为15kW。此外,6个TrainingTile组成一个tray,再由两个Tray组成一个机柜,10个机柜组成ExaPOD,BF16/CFP8峰值算力达到1.1EFLOPS(百亿亿次浮点运算),并拥有1.3TB高速SRAM和13TB高带宽DRAM。图2:Training Tile结构 资料来源:EDN,信达证券研发中心 资料来源:芯东西,信达证券研发中心 资料来源:芯东西,信达证券研发中心 Dojo的设计思想是通过较高的对称性来实现scaleout能力。在单个Trainingtile上,由于并未将芯片切下,为了提高效率和降低成本,特斯拉并未在片上集成DRAM等器件,这与许多通用GPU有所不同。集群节点之间以2Dmesh连接,边缘则通过Interface-processors负责内存池数据搬运。 资料来源:chipandcheese,信达证券研发中心 显而易见,D1芯片需要高速的互联来实现,台积电SoW封装技术提供了这一条件。InFO_SoW取消了衬底和PCB的使用,使得多个芯片阵列使解决方案获得晶圆级优势,以获得低延时、高带宽等优势。此外除了异构芯片集成外,其wafer-field处理能力还支持基于小芯片的设计,以实现更大的成本节约和设计灵活性。 在部分模型上,Dojo能实现相对A100更高的性能。例如在图像分类模型ResNet-50上,Dojo可以实现比英伟达A100更高的帧率。而在用于预测汽车周围物体所占空间的神经网络模型Occupancy Networks上,相比英伟达A100,Dojo能实现性能的倍增。 资料来源:芯东西,信达证券研发中心 资料来源:芯东西,信达证券研发中心 特斯拉将大力投资基础设施,2024年有望达100Exa-Flops算力。特斯拉目前AI基础设施较少,仅约4000个V100和约16000个A100。而Microsoft和Meta等公司拥有超过10万个GPU。据特斯拉规划,2024年有望达100Exa-Flops算力。 资料来源:42号车库,信达证券研发中心 特斯拉拥有海量数据库,数据价值亟待挖掘。Model3传包含8个摄像头,1个毫米波雷达,12个超声波雷达,位置分别为:1-车牌的上方装有一个摄像头;2-超声波传感器(如果配备)位于前后保险杠中;3-各门柱均装有一个摄像头;4-后视镜上方的挡风玻璃上装有三个摄像头;5-每块前翼子板上装有一个摄像头;6-雷达(如果配备)安装在前保险杠后面。特斯拉车型销量形势良好,通过传感器件建立了庞大的数据库,但受限于硬件限制,无法充分挖掘数据价值,Dojo量产有望突破瓶颈。 自建AI基础设施,AI或赋能特斯拉快速成长。特斯拉Dojo性能强大,我们认为,除加速自身智驾进程外,或可拓展至其他应用领域,如机器人等。此外,特斯拉也可能成为一家云服务提供商,向相关厂商提供自身算力或模型服务。 资料来源:特斯拉官网,信达证券研发中心 风险因素 宏观经济下行风险;AI发展不及预期风险;短期股价波动风险。 莫文宇,毕业于美国佛罗里达大学,电子工程硕士,2012-2022年就职于长江证券研究所,2022年入职信达证券研发中心,任副所长、电子行业首席分析师。 郭一江,电子行业研究员。本科兰州大学,研究生就读于北京大学化学专业。2020年8月入职华创证券电子组,后于2022年11月加入信达证券电子组,研究方向为光学、消费电子、汽车电子等。 韩字杰,电子行业研究员。华中科技大学计算机科学与技术学士、香港中文大学硕士。研究方向为半导