您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中航证券]:科技专题研究:AI智算时代已至,算力芯片加速升级 - 发现报告

科技专题研究:AI智算时代已至,算力芯片加速升级

信息技术2024-01-07刘牧野中航证券S***
AI智能总结
查看更多
科技专题研究:AI智算时代已至,算力芯片加速升级

行业评级:增持 相关报告:《AI大模型开启新一轮大国竞争,半导体战略地位凸显》 分析师:刘牧野证券执业证书号:S0640522040001 《半导体行业深度:后摩尔时代新星,Chiplet与先进封装风云际会》 中航证券研究所发布证券研究报告请务必阅读正文后的免责条款部分 核心观点 ◼AI正处史上最长繁荣大周期,生态加速收敛:在进入21世纪以来,在大数据和大算力的支持下,归纳统计方法逐渐占据了人工智能领域的主导地位,深度学习的浪潮席卷人工智能,人工智能迎来史上最长的第三次繁荣期。智算中心的发展基于最新人工智能理论和领先的人工智能计算架构,当前算法模型的发展趋势以AI大模型为代表,算力技术与算法模型是其中的核心关键,算力技术以AI芯片、AI服务器、AI集群为载体。 ◼GPU主宰算力芯片,AI信创驱动国产算力发展:得益于硬件支持与软件编程、设计方面的优势,CPU+GPU成为了目前应用最广泛的平台。AI分布式计算的市场主要由算力芯片(55-75%)、内存(10-20%)和互联设备(10-20%)三部分组成。美国已限制对华销售最先进、使用最广泛的AI训练GPU—英伟达A100以及H100,国产算力芯片距离英伟达最新产品存在较大差距,但对信息颗粒度要求较低的推理运算能实现部分替代。 ◼提升算力内存带宽,HBM供不应求:由于ChatGPT的爆火,GPU需求明显,英伟达也加大对三星和SK海力士HBM3的订单。2023年10月,SK海力士表示,已经在2023年出售了明年HBM3和HBM3E的所有产量。据Omdia预测,到2025年,HBM市场的总收入将达到25亿美元。 ◼集成算力与存力,先进封装产能紧缺:CoWoS封装技术是目前集成HBM与CPU/GPU处理器的主流方案。台积电主导全球CoWoS封装市场。据IDC预测,全球CoWoS供需缺口约20%,2024年台积电的CoWos封装产能将较2023年提升一倍,2.5D/3D先进封装市场规模在2023-2028年将以22%的CAGR高速增长。 ◼AI算力对高效电源提出新需求,背面供电技术蓄势待发:越来越高度化的集成会造成针对加速芯片的电源解决方案越来越复杂,方案需要不同电压、不同路的多路输入,这种情况下电压轨会越来越多。台积电、三星、英特尔等芯片大厂都在积极布局背面供电网络技术,为日益复杂的芯片提供高效供电方案,其中英特尔较为领先。 ◼建议关注:GPU:海光信息、寒武纪,和未上市的地平线、黑芝麻、摩尔线程;HBM:香农芯创、雅克科技;先进封装:兴森科技、华海诚科、艾森股份;电源芯片:希荻微。 ◼风险提示:AI算法、模型存较高不确定性,AI技术发展不及预期;ChatGPT用户付费意愿弱,客户需求不及预期;针对AI的监管政策收紧 目录 一、AI处史上最长繁荣期,算力国产化需求迫切 二、AI技术收敛,GPU主宰算力芯片 三、“AI信创”驱动,培育国产算力生态 四、HBM解决GPU内存危机,成为存储下一主战场 五、异构计算时代,先进封装战略地位凸显 六、电源技术提升计算能效,背面供电蓄势待发 七、风险提示 AI正处史上最长繁荣大周期 ◼人工智能从1956年被正式提出以来,经历了数十年的发展历程。人工智能诞生初期,其研究主要分为三个流派,即逻辑演绎、归纳统计和类脑计算。 ◼人工智能研究的三大流派各有优劣势。类脑计算流派的目标最为宏远,但在未得到生命科学的支撑之前,难以取得实际应用。归纳演绎流派的思考方式与人类相似,具有较强的可解释性。由于对数据和算力的依赖较少,归纳演绎流派成为人工智能前两次繁荣的主角。随着学界对人工智能困难程度的理解逐渐加深,数理逻辑方法的局限性被不断放大,并最终在第三次繁荣期中,逐渐让位于统计学习的“暴力美学”。 ◼在进入21世纪以来,在大数据和大算力的支持下,归纳统计方法逐渐占据了人工智能领域的主导地位,深度学习的浪潮席卷人工智能,人工智能迎来史上最长的第三次繁荣期,至今仍未有结束的趋势。 AI生态加速收敛 ◼大模型技术逐步收敛,生态走向聚合,模型更收敛、框架更归一。◼为了开发更高性能的AI大模型需要更强的算力平台,算力底座技术门槛将提高,未来训练核心拼集群系统能力。 智能算力规模将快速增长 ◼市场对于更高性能的智能算力需求将显著提升,智能算力增长速率约通用算力的两倍。据IDC和浪潮信息测算,2022年中国通用算力规模达54.5EFLOPS,预计到2027年通用算力规模将达到117.3 EFLOPS。2022年中国智能算力规模达259.9EFLOPS,预计到2027年将达到1117.4 EFLOPS。2022-2027年期间,中国智能算力规模年复合增长率达33.9%,同期通用算力规模年复合增长率为16.6%。 AI服务器需求旺盛 ◼从感知智能到生成式智能,人工智能越来越需要依赖“强算法、高算力、大数据”的支持。模型的大小、训练所需的参数量等因素将直接影响智能涌现的质量,人工智能模型需要的准确性越高,训练该模型所需的计算力就越高。IDC预计,全球人工智能硬件市场(服务器)规模将从2022年的195亿美元增长到2026年的347亿美元,五年年复合增长率达17.3%;在中国,预计2023年中国人工智能服务器市场规模将达到91亿美元,同比增长82.5%,2027年将达到134亿美元,五年年复合增长率达21.8%。 全国推进算力建设,加大算力投资 ◼在适度超前的指导思想下,国家正加大对人工智能算力基础设施的投资。算力基础设施建设成为一个重要环节,被纳入国家新基建范畴。据IDC统计,截至2023年8月,全国已有超过30个城市建设智算中心,总建设规模超过200亿。 算力、存储、网络构建智算中心基础 ◼智算中心的发展基于最新人工智能理论和领先的人工智能计算架构,算力技术与算法模型是其中的核心关键,算力技术以AI芯片、AI服务器、AI集群为载体,而当前算法模型的发展趋势以AI大模型为代表。 算力芯片主导AI计算市场 ◼AI分布式计算的市场主要由算力芯片(55-75%)、内存(10-20%)和互联设备(10-20%)三部分组成。美国已限制对华销售最先进、使用最广泛的AI训练GPU—英伟达A100以及H100,国产算力芯片距离英伟达最新产品存在较大差距,但对信息颗粒度要求较低的推理运算能实现部分替代。 ◼GPU占AI服务器成本最高,国产替代重要性凸显。我们认为,AI训练芯片受限进一步强调了高制程芯片设计、代工的国产替代紧迫性。 提升算力内存带宽,HBM供不应求 ◼以ChatGPT为代表的生成类模型需要在海量数据中训练,对存储容量和带宽提出新要求,HBM(High Bandwidth Memory,高带宽存储器)成为减小内存墙的优选项。HBM将多个DDR芯片堆叠并与GPU封装在一起,是一种基于3D堆叠工艺的高附加值DRAM产品。通过增加带宽,扩展内存容量,让更大模型、更多参数留在离计算核心区更近的地方,从而减少内存和存储解决方案带来的延迟。据Omdia预测,到2025年,HBM市场的总收入将达到25亿美元。 ◼由于ChatGPT的爆火,GPU需求明显,英伟达也加大对三星和SK海力士HBM3的订单。2023年10月,SK海力士表示,已经在2023年出售了明年HBM3和HBM3E的所有产量。 集成算力与存力,先进封装产能紧缺 ◼台积电封装产能紧缺。台积电主导全球CoWoS封装市场,且正在扩大产能,以满足客户,尤其是AI芯片领域的需求。英伟达等大客户增加了对CoWoS封装的订单量,AMD、亚马逊等其他大厂也出现了紧急订单。据IDC预测,全球CoWoS供需缺口约20%,2024年台积电的CoWos封装产能将较2023年提升一倍,2.5D/3D先进封装市场规模在2023-2028年将以22%的CAGR高速增长。 AI算力对高效电源提出新需求 ◼AI算力功耗增长。当代GPU有数百亿颗晶体管,更好的处理性能是以指数级增长的电源需求为代价的,因此人工智能和机器学习等应用的高性能处理器需要不断增加功率。据vicorpower,目前的趋势是处理器的功耗每两年翻一番,2000A的峰值电流现在已经很普遍。 ◼AI芯片供电架构愈发复杂。越来越高度化的集成会造成针对加速芯片的电源解决方案越来越复杂,方案需要不同电压、不同路的多路输入,这种情况下电压轨会越来越多。 算力产业链面临国产化机会和挑战 ◼AI算力芯片处于AI计算的最上游,GPU、HBM、先进封装等环节需求高增,甚至已出现供不应求的现象。目前算力芯片产业链由海外公司主导,在美国制裁中国科技发展,限制半导体技术输入中国的背景下,AI算力芯片在各环节均存在需求扩张叠加国产替代的双重增长动力。 电源管理芯片 GPU 先进封装 HBM ➢国外•英伟达、AMD➢国内•海光信息、寒武纪、龙芯中科、摩尔线程、燧原科技 ➢国外•英特尔、三星➢国内•封装厂:台积电、盛合晶微、长电科技、通富微电、甬矽电子•封装材料:南电、欣兴、兴森科技、联瑞新材、生益科技 ➢国外•海力士、三星、美光➢国内•香农芯创(经销商)、雅克科技(原材料) 一、AI处史上最长繁荣期,算力国产化需求迫切 二、AI技术收敛,GPU主宰算力芯片 三、“AI信创”驱动,培育国产算力生态 四、HBM解决GPU内存危机,成为存储下一主战场 五、异构计算时代,先进封装战略地位凸显 六、电源技术提升计算能效,背面供电蓄势待发 七、风险提示 AI芯片架构众多 ◼AI芯片根据其技术架构,可分为GPU、FPGA、ASIC及类脑芯片,同时CPU可执行通用AI计算。相较于传统的中央处理器(CPU),GPU具有并行计算、高效能和高并发等优势,因此在人工智能、机器学习、数据挖掘等领域得到广泛应用。 ◼AI芯片根据其在网络中的位置可以分为云端AI芯片、边缘及终端AI芯片;根据其在实践中的目标,可分为训练芯片和推理芯片。 ◼云端主要部署训练芯片和推理芯片,承担训练和推理任务,具体指智能数据分析、模型训练任务和部分对传输带宽要求比高的推理任务;边缘和终端主要部署推理芯片,承担推理任务,需要独立完成数据收集、环境感知、人机交互及部分推理决策控制任务。 GPU与深度学习技术相契合 ◼GPU设计之初用于对图形进行渲染,需要并行处理海量数据,涉及大量矩阵运算。深度学习依赖于数学和统计学计算,所以图形渲染与深度学习有着相似之处,这两种场景都需要处理每秒大量的矩阵乘法运算。GPU拥有数千个内核的处理器,能够并行执行数百万个数学运算。因此GPU完美地与深度学习技术相契合。使用GPU做辅助计算,能够更快地提高AI的性能。 AI算力路线向GPU收敛 ◼大模型的基础架构向Transformer结构收敛。Transformer结构在图、文、音多领域表现优异,大量基于Transformer结构的大模型涌现。Transformer模型预训练由多个堆叠的自注意力层和前馈神经网络层组成,这种设计使得它在构造大型深度神经网络时具有巨大优势。BERT和GPT是两种最知名的基于Transformers的自然语言处理模型。 ◼大模型的发展,使得算法技术路线逐渐统一于Transformer模型,算力芯片技术路线也向适合并行计算的GPU收敛。 Transformer架构具有并行计算的能力,可以同时处理输入序列的不同部分。在使用分布式计算和GPU并行计算的情况下,Transformer可以更快地训练和推理大型深度神经网络。大模型需要大算力和大互联,对底层GPU支撑规模提出了空前的要求,达到万卡级别。因此,出于对大模型的训练需求,市场选择了GPU作为主流的算力芯片。据IDC,在中国人工智能芯片市场,GPU占有超过80%的市场份额。 CPU+GPU是人工智能异构计算的主要组合形式 ◼异构计算仍然是芯片发展趋势之一。异构计算通过在单一系统中利用不同类型的处理器(如CPU、GPU、ASIC、FPGA、NPU等)协同工作,执行特定任务,以优化性能和效率,