您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:AI周观察:英伟达下一代产品面积进一步增大,Gemini持续发布新功能 - 发现报告

AI周观察:英伟达下一代产品面积进一步增大,Gemini持续发布新功能

信息技术2025-03-23刘道明、黄晓军、麦世学国金证券Z***
AI智能总结
查看更多
AI周观察:英伟达下一代产品面积进一步增大,Gemini持续发布新功能

摘要 -英伟达在GTC2025发布了Blackwell Ultra、Rubin和Rubin Ultra加速卡,显示未来两代加速卡面积进一步增大。Rubin面积约为两倍光罩极限,FP4算力为Blackwell Ultra三倍;Rubin Ultra面积达四倍光罩极限,算力进一步翻倍。由于单颗中介层面积逼近八倍光罩极限,RubinUltra采用两块中介层+I/O die的封装设计,以超大型ABF基板替代传统大尺寸中介层,折射出当前大面积CoWoS封装的技术挑战。 -美光科技FY25 Q2财报显示,公司本季度营收80.53亿美元,同比增长38.27%,环比下滑7.53%。其中,DRAM收入环比降4%,受bit出货量下降抵消价格上涨影响;NAND收入环比降17%,因低端消费级产品占比提升。公司存储业务(SBU)收入环比下滑20%,反映数据中心客户采购回落。尽管NAND价格近期上涨,公司维持较低稼动率,市场景气度能否持续回暖仍待观察。 -英伟达在GTC2025上提出Agentic AI概念,旨在通过多模型协同工作提升AI能力,叠加思考时的计算量,预计将显著提升对加速卡存储容量与带宽的需求。Rubin Ultra单卡存储容量达1024GB,带宽提升至32TB/s。与此同时,SK hynix发布的12层HBM4突破2TB/s带宽大关,较HBM3E提升60%,并采用MR-MUF工艺提升散热与稳定性。我们认为,随着Agentic AI的兴起,HBM领域将持续维持较高景气度。 -聊天助手类应用海外市场整体稳定,Perplexity受竞品冲击访问量下降;国内市场多数应用微降,文心一言因新模型发布访问量大幅增长。Google Gemini推出“画布”与音频概览功能增强用户体验。OpenAI发布三款语音模型,提升语音识别与合成能力。Mistral AI和腾讯分别发布高性能开源模型。Nvidia的Dynamo软件大幅提升DeepSeek的AI处理速度。HPC-AI Tech的Open-Sora 2.0以低成本实现高性能,Stability AI推出2D转沉浸式视频工具。腾讯混元和Roblox分别发布新的3D生成模型,提升3D内容创作效率并降低成本。 -当前自动驾驶痛点包括训练数据不足、决策规划的安全性不足、传感器精度不足、系统安全性不足、车载芯片算力不足、高精地图缺失等等。英伟达Omniverse+Cosmos方案下可以帮助解决训练数据、决策规划安全性的不 足,Halos将保护Hyperion系统级的安全,新一代Thor芯片也将解决短期内芯片算力不足的情况。我们认为自动驾驶发展将会进一步加速,与英伟达有合作的企业将会率先受益。除了合成数据帮助训练自动驾驶算法之外,真实世界驾驶数据也将帮助算法训练。国内安防企业通过摄像头已采集大量车辆驾驶数据,我们认为这些公司也将受益。 -目前在机器人制造方面,国内产业链更为成熟,企业产能、供应链管理相比美国企业更具优势,但在机器人大脑、小脑智能上相比有英伟达芯片支持的美国企业仍有差距。我们认为英伟达Omniverse+Cosmos+Groot N1生态叠加Thor平台今年上线将会加速机器人具身智能发展,看好产业链受益。 风险提示 芯片制程发展与良率不及预期中美科技领域政策恶化智能手机销量不及预期 海外市场行情回顾 图表1:截至3月21日海外AI相关个股行情 AI模型与应用动态 “小”模型竞争激烈,GoogleAI应用持续更新新功能 图表2:聊天助手类AI应用活跃度 从聊天助手类应用访问量看,海外应用整体环比变化不大,Perplexity环比下降9%,可能是受到各大应用厂商推出DeepResearch的冲击。国内应用多数环比微降,文心一言受益于新模型的发布,访问量环比上升超过40%。 GoogleGemini推出“画布”与音频概览功能,提升用户协作与内容消费体验。“画布”功能提供互动空间,方便用户进行写作与编程项目的创作、改进与分享;音频概览功能则可将文档、网页等内容生成播客形式的音频摘要,目前仅支持英文。 OpenAI发布三款全新语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe及gpt-4o-mini-tts。gpt-4o-transcribe作为Whisper升级版,在33种语言测试中错误率显著降低,定价与ElevenLabs Scribe持平(每百万音频输入tokens 6美元)。gpt-4o-mini-tts为文本转语音模型,支持多种音色、语速及风格。 图表3:gpt-4o-transcribe不同语言评分 Mistral AI发布开源模型Mistral Small 3.1 (24B参数),性能超越Gemma 3 27B及GPT-4o mini,支持多模态理解和128k tokens上下文窗口。腾讯推出混元T1正式版,沿用Turbo S的Hybrid-Mamba-Transformer架构,降低了计算复杂度与KV-Cache内存占用,优化训练与推理成本。 在3月18日的GTC大会上,Nvidia首席执行官黄仁勋宣布推出Dynamo软件,旨在将DeepSeek的AI处理速度提升30倍。Dynamo软件能够将AI推理任务分配到多达1000个GPU上并行处理,显著提升查询吞吐量,服务提供商能够更高效地处理客户查询,从而提高收入。 图表4:视频生成类AI应用活跃度 HPC-AI Tech推出Open-Sora 2.0,训练成本仅20万美元,远低于同类系统。采用三阶段训练和视频DC-AE自动编码器,实现5.2倍训练加速和超10倍生成加速。VBench得分与Sora仅差0.69%,视觉质量与提示准确性表现出色。Stability AI发布Stable Virtual Camera,可将2D图像转换为具真实深度和视角的沉浸式视频。 腾讯混元发布五个全新开源3D生成模型,基于Hunyuan3D-2.0,生成速度更快、细节更丰富。Turbo系列模型利用FlashVDM框架实现30秒内生成。升级后的3D AI创作引擎支持多视图输入,通过少量图片即可生成高质量3D模型,降低制作成本。新模型适用于UGC、商品素材合成及游戏资产生成。Roblox开源其首个3D对象生成基础模型Cube3D,通过创新训练方法将3D对象标记化,实现快速生成完整3D形状,提升3D创作效率。 Rubin和Rubin Ultra芯片面积进一步增大,封装难度进一步提升 英伟达于GTC2025更新了其加速卡产品线,发布了本世代Blackwell架构HBM加强版Blackwell Ultra以及次世代架构的Rubin和Rubin Ultra加速卡,值得注意的是,从官方披露的加速卡图片来看,未来两代加速卡面积进一步增大。 图表5:Rubin和Rubin Ultra芯片面积进一步增大 从示意图上来看,尽管官方标注Rubin面积约为两倍光罩极限,但略宽于Blackwel Ultra,算力性能层面,Rubin FP4算力指标约为Blackwell Ultra三倍,推测Rubin使用了比N4P更为先进的制程N3P,而RubinUltra面积官方标注为四倍光罩极限,相应的算力性能翻倍,可推测Rubin Ultra采用了和Rubin相同的制程,性能的增长来自于die size的扩大。 更大的面积带来的将是封装难度的进一步提升,Semianalysis预计Rubin Ultra将采用两块中介层组成的封装结构,以避免使用一块超大型中介层,因为当GPU die size达到四倍光罩极限后,叠加16块HBM堆栈后,中介层的面积逼近八倍光罩极限,这种超大尺寸已接近当前封装技术的极限。在RubinUltra的封装设计中,两颗位于中间的GPUdie之间将通过一颗I/O die进行同通信。GPU die之间的通信将通过更下层的基板(Substrate)而非传统的大型中介层来完成。这种设计将采用一块超大的ABF基板(Ajinomoto Build-up Film),其尺寸将超出当前JEDEC标准封装的限制(最大为120mm×120mm),对制造、封装以及散热设计提出了更高的挑战 图表6:Rubin Ultra封装示意图 此前我们曾提出,在后摩尔时代,先进封装将成为弥补晶体管缩放速率下滑的重要手段。 然而,这一技术路线同样面临瓶颈。其中,CoWoS中介层面积的受限便是制约单芯片性能进一步提升的关键因素之一。根据台积电于2024年3月发布的路线图,CoWoS中介层面积预计将在2027年达到8倍光罩极限。这一面积规模恰好能够满足当前Rubin Ultra的封装设计需求,为其性能提升奠定了基础。 图表7:台积电CoWoS中介层Roadmap 图表8:MI300X使用四个I/O Die 然而,从目前掌握的信息来看,Rubin Ultra并未采用一整块达到8倍光罩极限的中介层设计,而是借鉴了类似于MI300 I/O die的设计思路。具体而言,MI300X并非仅采用单个I/O die,而是采用了四个I/O die,并通过超高带宽的互连技术连接在一起。其计算die堆叠在I/O die之上,而I/O die又堆叠在中介层之上,形成了一个三层堆叠结构。 我们认为,Rubin Ultra选择这一相对保守的封装设计,某种程度上也反映出当前大面积CoWoS封装的挑战依然不容小觑。至于Rubin Ultra是否会面临与Blackwell类似的设计问题,目前尚存在不确定性,仍需进一步观察。 美光FY25Q2财报:消费级闪存重回增长,数据中心SSD采购放缓 美光科技于3月20日盘后发布了其FY25 Q2财报。报告显示,公司本季度实现营业收入80.53亿美元,同比增长38.27%,环比下降7.53%。其中,DRAM业务收入环比下滑4%,公司解释称这是由于DRAM产品价格上涨的影响被bit出货量的减少所抵消。NAND业务收入环比下滑17%,主要受到价格下降的拖累。本季度公司GAAP毛利率小幅下滑1.64个百分点至36.79%,主要由于NAND业务中低端消费级产品出货占比的提升所致。这一表述与公司对NAND业务收入环比下滑的解释相互呼应。 图表9:美光营业收入 图表10:美光GAAP毛利率 上周我们曾指出,美光本季度财报是观察数据中心SSD需求景气度的重要指标。鉴于美光在该领域具备深厚的技术积累,本季度公司存储业务部门(SBU)收入环比下滑20%,主要由于数据中心客户在经历数个季度的高强度采购后,本季度需求出现回落。结合过去一个月上游TLC和QLC Flash Wafer报价的走势来看,我们推测下游数据中心客户对价格上涨的承接能力有限,短期内仍处于观望状态。与此同时,公司在本季度也表示,将继续保持NAND领域相对较低的稼动率,以控制供应节奏。因此,尽管短期内NAND价格呈现较为显著的上涨,但市场景气度能否持续回暖仍有待进一步观察。 图表11:本周TLC大容量NAND Flash Wafer价格涨幅显著,QLC涨幅环比下滑4Pct Agentic AI推动加速卡容量进一步提升,海力士正式发布12层HBM4 GTC2025上英伟达提出Agentic AI将是一个能够使多个模型协同工作的人工智能模式,叠加思考时的计算量,我们认为将对加速卡存储容量和带宽提出更高的要求。相应的,本次会议上发布的Rubin Ultra所搭载的存储容量大幅提升,单卡达到1024GB,带宽同时也提升到32TB/s。 图表12:加速卡HBM容量和带宽持续提升 SK hynix近日也发布了其最新一代HBM产品HBM4,从技术角度来看,SK hynix的12层HBM4具备业界最高容量与带宽,首次突破2TB/s带宽大关,比HBM3E提升60%,在AI大模型、HPC(高性能计算)等数据密集型场景中将显著提升性能表现。同时,HBM4的36GB单体容量创新纪录,结合其先进的MR-MUF工艺,有效避免芯片翘曲并提升散热稳定性,为大规模部署奠定