您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[源达信息]:半导体行业研究:推理算力需求持续增长,ASIC端侧应用前景广阔 - 发现报告

半导体行业研究:推理算力需求持续增长,ASIC端侧应用前景广阔

电子设备2025-03-21吴起涤、赵毅轩源达信息徐***
半导体行业研究:推理算力需求持续增长,ASIC端侧应用前景广阔

推理算力需求持续增长,ASIC端侧应用前景广阔半导体行业研究 投资要点 ➢推理算力需求扩容 分析师:吴起涤 近年来大模型持续迭代,大模型参数规模总体呈现增加趋势,参数增加带动算力需求扩容。ChatGPT 3.5加速了生成式人工智能的商业化进程,实现注册用户数量破亿仅耗时两个月,微软、谷歌等科技巨头纷纷接入,之后大模型热度持续火爆,带动算力需求激增。DeepseekR1问世推动大模型平价化,降低了大模型开发成本,利于为下游端侧和应用侧打开市场空间,下游爆发同样将催生大量算力需求,并推动算力需求由训练端向推理端转移。据IDC预测,推理服务器的工作负载占比预计由2020年的51.5%逐年增加至2026年的62.2%,中国人工智能服务器工作负载结构中的推理算力占比总体呈现增加趋势。 执业登记编号:A0190523020001wuqidi@yd.com.cn 分析师:赵毅轩执业登记编号:A0190124060001zhaoyixuan@yd.com.cn ➢Deepseek推动大模型平价化,端侧,应用侧商业化进程有望提速 通过一系列算法优化,Deepseek-V3相较于同类模型,训练成本大幅下降,完成训练仅耗时不到两个月,按H800芯片算力测算,Deepseek-V3预训练阶段的训练时长为266,4万GPU小时,上下文扩展训练耗时11.9万GPU小时,后训练阶段耗时5,000 GPU小时,假设H800每小时的租赁价格为2美元,则模型的总训练成本为557.6万美元,训练成本仅为GPT-4o的十分之一。 ➢ASIC适于端侧部署,市场空间广阔 资料来源:Wind,源达信息证券研究所 本地推理不仅可以降低延时、提高吞吐量,摆脱网络限制,还有助于保护数据安全和用户隐私,终端推理任务的本地化运行或是未来的发展趋势,本地推理需求的增加将促进ASIC市场需求扩容。 ASIC芯片专门用来优化神经网络推理或者矩阵运算任务,专注于特定用途或特定模型,相较GPU在功耗、可靠性、性能、成本等方面具备优势,因此更适于在端侧和用户侧部署,如智驾、AI眼镜、智能家居等。随着大模型平价化,预期AI产品将在更多应用场景下实现商业落地,ASIC芯片具备广阔的市场前景。 ➢投资建议 建议关注产品矩阵丰富,下游应用领域覆盖全面的芯原股份和寒武纪。 ➢风险提示 建议关注技术迭代风险、下游需求不及预期的风险和中美贸易摩擦加剧的风险。 目录 一、应用场景有别,性能各有侧重 二、推理端算力需求扩容..............................................................................................................41.参数数量总体呈现增加趋势.........................................................................................................................42.大模型火热,用户量激增............................................................................................................................63.Deepseek推动大模型平价化,利好端侧、应用侧爆发.............................................................................6三、终端定制化特点突出,看好ASIC芯片发展前景...................................................................7四、投资建议.............................................................................................................................111、芯原股份.................................................................................................................................................112、寒武纪.....................................................................................................................................................11五、风险提示.............................................................................................................................12 图表目录 图1:云端部署、边缘部署、终端部署.........................................................................................................................3图2:训练与推理环节的性能需求不同.........................................................................................................................3图3:中国人工智能服务器工作负载预测,2020-2026...............................................................................................4图4:参数量与大模型性能...........................................................................................................................................5图5:增长1亿用户花费时间.......................................................................................................................................6图7:推理模型输入输出价格(元/1M Tokens).........................................................................................................7图8:GeForce RTX 50.................................................................................................................................................8图9:ASIC芯片性能优势.............................................................................................................................................8图10:2021-2025E ASIC全球市场规模(亿美元).................................................................................................10图11:2020-2024营业总收入(亿元)...................................................................................................................11图12:2020-2024扣非归母净利润(亿元)...........................................................................................................11图13:2020-2024营业总收入(亿元)...................................................................................................................12图14:2020-2024扣非归母净利润(亿元)...........................................................................................................12 表1:不同模型参数规模...............................................................................................................................................5表2:Deepseek-V3模型训练成本..............................................................................................................................7表3:英伟达主流产品能耗(W)................................................................................................................................9 一、应用场景有别,性能各有侧重 为应对不同应用场景下的使用需求,芯片可以在云端、边缘或是终端进行部署。大模型训练需要大量算力资源,一般在云端利用大规模算力集群进行训练,但随着大模型提供的服务由文本向图片、视频等多模态扩展,使用人数不断增加,云端推理服务对算力的需求也在不断提升。另一种芯片部署方式为边缘部署,它允许在生成数据的设备附近进行计算,而不是在集中的云计算设施或远程数据中心进行计算。这种本地化处理方式使得设备能够在几毫秒内做出决策,而无需互联网连接或云服务的辅助。随着AI眼镜、手机、音箱等端侧需求的增长,及时人机交互、数据的实时采集、低时延等需求逐渐凸显,适应轻量化设备的终端部署迎来更大的发展机会。 资料来源:前瞻产业研究院 训练需要大量地向模型输入训练数据,推理结果,还要调整模型参数和偏置值,如此往复直到模型收敛满足性能要求为止。而推理仅需要向模型输入非训练数据让模型计算出结果即可,推理和训练在工作中有重合的部分,推理可简单理解为简化版的训练过程。训练芯片更关注计算精度、算力等性能指标,而推理芯片更加看重低时延、低能耗、低成本、高吞吐量等指标。 资料来源:源达信息证券研究