您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [民生证券]:电子行业深度报告:算力平权,国产AI力量崛起 - 发现报告

电子行业深度报告:算力平权,国产AI力量崛起

电子设备 2025-05-08 方竞,邓永康,宋晓东,李萌,李伯语 民生证券 Mascower
报告封面

豆包+DeepSeek破局,国产大模型弯道超车。豆包和DeepSeek分别在多模态和轻量化两方面加速了国产大模型的发展进程。2024年12月18日,豆包发布豆包视觉理解模型,一举成为国内最领先的多模态大模型之一;同为12月,DeepSeek发布DeepSeek-V3大模型,拥有671B总参数、37B激活参数,成本仅为557.6万美元,但在性能上却与GPT-4o和Claude-3.5-Sonnet同属世界顶尖水平。国内其他模型厂商也加速了追赶节奏,2025年以来,豆包、通义千问、百度、腾讯混元、阶跃星辰和Kimi等其他国产大模型加速了更新迭代,例如通义千问在3月连续发布QwQ-32B与Qwen2.5-Omni等。豆包对多模态的探索,以及DeepSeek对轻量化大模型的升级节奏,有望开创大模型开源、低成本、高性能的新时代,为应用侧公司探索创新AI应用提供巨大便利,AI应用加速放量下推理侧需求有望提升。 向“芯”而行,国产算力破局元年。在国产大模型密集落地背景下,芯片厂商加速适配国产算力生态。中芯国际N+1工艺已逐步成熟,N+2持续推进,构建国产算力底座;昇腾910C量产落地,920系列研发加快,性能持续逼近国际主流水平;寒武纪、海光等在AI训推方向深度布局,硬件端多点突破,生态融合加快。云端ASIC正成为算力演进主流,谷歌、亚马逊持续加码自研芯片体系;国内翱捷科技、芯原等设计企业快速成长,覆盖多元应用场景,并与海内外头部厂商形成紧密合作,成长弹性充足。在软件层面,适配节奏同样加快。以DeepSeek为例,发布即获得17家芯片厂商支持适配,训推效率大幅提升,助力算力生态向自主可控稳步迈进。 算力基建加码,解决供给短板。国内云计算厂商正加大算力储备及模型优化投入,AI计算基础设施建设布局逐步清晰,相关资本开支进入新一轮扩张周期。海量推理算力需求下行业供需关系显著改善,根据CloudPrice,AWS的云计算(H100)均价近一个月来上涨了76%,云计算商业模式有望迎来“量价齐升”的局面。算力基建作为云厂商资本开支落地的核心环节,华勤、浪潮等公司迅速推出适配国产算力的服务器,并针对卡间互联推出ETH-X超节点方案,而短期内,国产算力基建难以满足迅速增长的需求,算力租赁成为破局之道。处于数据隐私性及定制化考虑,以DeepSeek为代表的国产大模型的亦落地本地化部署,算力一体机具备软硬结合、开箱即用、灵活定制的特性,满足本地化部署需求。 电源及液冷创新,解决功率密度瓶颈。AI浪潮下,单机柜功率密度提高,对电源及温控系统提出新的挑战。为保证数据中心稳定运行,三级供电/备电系统有所升级,供电系统从UPS向HVDC演进,超级电容亦将成为全新增量;温控方面,传统风冷难以满足高功率芯片散热需求,液冷逐步成为刚需,科智咨询预计23年到27年国内液冷市场复合增速达60%,冷却液、CDU、快接头、manifold等上游零部件成为核心受益环节。 投资建议:国产大模型持续突破,DeepSeek、豆包、MCP等开始引领全球AI产业发展,AI应用落地加速。芯片厂商也在加速适配国产算力生态。以自主可控为基石,云厂商资本开支持续加速。带动服务器、电源、存储等上游产业链环节机遇。建议关注:1)算力芯片:中芯国际、海光信息、寒武纪、芯原股份、云天励飞、翱捷科技、沐曦技术(未上市);2)服务器:华勤技术、联想集团、浪潮技术、弘信电子; 3)电源:禾望电气、麦格米特、中恒电气、泰嘉股份、科泰电源、潍柴重机、科华数据、欧陆通、奥海科技;4)温控:申菱环境、英维克、溯联股份、川环科技;5)其他供应链:德明利、长光华芯、杰华特、华海诚科、华丰科技、兴森科技等。 风险提示:AI应用落地不及预期,云商资本开支不及预期,宏观经济波动。 重点公司盈利预测、估值与评级 1豆包+DeepSeek破局,国产大模型弯道超车 总书记指出“人工智能是引领这一轮科技革命和产业变革的战略性技术”,从顶层建筑角度为国产AI发展指引了战略方向。而近期国产大模型也持续突破。豆包、Deepseek、MCP等开始引领全球AI产业发展,为AI应用落地加速提供了技术底座。 1)豆包大模型:专注多模态融合。推动了国产大模型在多模态领域的能力升级。豆包大模型始于2023年8月17日字节的AI对话产品“豆包”公测,2024年,豆包逐步补全了语音、图像、代码等能力,并在12月18日发布豆包视觉理解模型,实现了更强的内容识别、理解和推理、以及视觉描述等能力,一举成为国内最领先的多模态大模型之一,引领国产化大模型在多模态领域的升级之路。 2)DeepSeek:专注深度思考+轻量化。相较于豆包在多模态方面的领先,DeepSeek则更注重大模型的轻量化升级能力,在成本和性能方面做到极致。2024年12月,DeepSeek发布DeepSeek-V3大模型,拥有671B总参数、37B激活参数,成本仅为557.6万美元,但在性能上却与GPT-4o和Claude-3.5-Sonnet同属世界顶尖水平;2025年1月20日,DeepSeek发布DeepSeek-R1推理大模型,性能追平OpenAI-o1正式版。由于性能和成本端的优势,当前DeepSeek在国内外均得到了高度的认可:国外方面:微软CEO纳德拉高度认可DeepSeek的新模型,并表明Azure AI Foundry和GitHub已经融入DeepSeek AI,英伟达认为DeepSeek-R1是具有最先进推理能力的开放模型;国内方面:华为昇腾、沐曦、海光信息、壁仞科技、昆仑芯、云天励飞等AI芯片企业纷纷官宣适配DeepSeek大模型。我们认为,DeepSeek开创了大模型开源、低成本的新时代,为应用侧公司探索创新AI应用提供了极大便利,AI加速放量下推理侧算力需求有望增长。据电子工程专辑,DeepSeek- R2 或将发布,该模型参数总量将达到1.2万亿,相较R1的6710亿提升一倍,并将采用更先进的混合专家模型MoE和门控网络层Gating Network,进一步提升推理性能。 3)MCP:重新定义模型和数据的交互模式,推动AI Agent落地。2024年11月,Anthropic推出MCP(Model Context Protocol,模型上下文协议),用于统一大语言模型与外部数据源和工具之间的通信协议。该协议为AI模型连接不同的数据源和工具提供了标准化的方式,就像是AI应用程序的USB-C接口,重新定义了模型和外部世界的互动模式,通过MCP Client和MCP Server,提升了AI Agent从调用数据到做出决策的便利性,极大拓展了AI Agent的能力范围和应用场景。 豆包、DeepSeek和MCP的异军突起加快了国产大模型的迭代节奏。2025年以来,豆包、通义千问、百度、腾讯混元、阶跃星辰和Kimi等其他国产大模型加速了更新迭代,豆包推出Doubao-1.5-pro,通义千问连续发布QwQ-32B与Qwen2.5-Omni,各大模型厂商均加速了各自的能力迭代速度,提升了国产大模型的综合性能。 图1:豆包和DeepSeek突破后,国产大模型的迭代时点 1.1技术驱动引领,DeepSeek加速布局 1.1.1量化巨头助力,DeepSeek崛起之路 DeepSeek(杭州深度求索人工智能基础技术研究有限公司)是AI领域的专业技术研发公司,致力于开发先进的大语言模型(LLM)和相关技术,由国内知名量化巨头幻方量化于2023年7月17日创立。幻方量化作为国内最早确立以AI为主要发展方向的公司之一,早在ChatGPT 3.5问世前,就拥有1万张NVIDIA A100显卡,在GPU储备上与商汤、百度、腾讯、字节和阿里位列国内同期第一梯队。得益于母公司在AI领域的前瞻性布局,DeepSeek于2023年11月2日便开源了首款代码大模型DeepSeek Coder,随后不断进行迭代,旗下于2025年1月20日发布的DeepSeek-R1推理模型,在性能方面对标OpenAI o1正式版,表现卓越,被英伟达认为是具有最先进推理能力的开放模型。 图2:DeepSeek发展历程 1.1.2专注算法优化创新,DeepSeek核心优势 DeepSeek始终坚持以创新算法驱动大模型效率与能力的双重跃升,分别通过1)构建混合专家架构DeepSeekMoE;2)原创注意力机制MLA;3)多token预测技术MTP以及4)推理优化技术GRPO等创新技术为支点构建了其核心竞争力。 DeepSeek大模型均采用MoE架构(混合专家模型),并进一步改进成DeepSeekMoE。MoE是一种基于Transformer架构的模型,主要包括稀疏MoE层和门控网络,其中稀疏MoE层中包含多个专家,每一个专家是单独的神经网络,而门控网络则决定了哪个token将被发送给哪个专家。DeepSeek-V3采用DeepSeekMoE架构,在MoE的基础上添加了细粒度专家分割和共享专家隔离,并采用无辅助损失的负载均衡策略替代传统的专家平衡策略,使得模型效率进一步提高: 1)细粒度专家分割:在保持专家总参数数量不变的前提下,对专家进行更精细的划分,使得专家获得更高的专业化水平,在计算过程中等比例增加专家激活数量,单个token能够被分配给更多的专家,专家组合的多样性和灵活性也有所上升。 2)共享专家隔离:在所有专家中选取部分专家作为共享专家(Shared Expert),所有的token都将分配给共享专家进行计算,从中获取通用知识,并相应减少其他专家被激活的数量,从而缓解专家间的参数冗余问题,提升模型效率。 3)无辅助损失的负载均衡策略:通过动态偏差来实现均衡,即对低负载专家增加偏差值以提高被选中的概率,对高负载专家降低偏差值以降低被选中的概率,并辅以部分辅助损失提高整体分配的稳定性。 图3:DeepSeekMoE示意图 MLA(多头潜在注意力架构)是DeepSeek原创的注意力机制,能够实现性能和KV缓存的平衡。KV缓存是影响模型推理效率的关键因素,Transformer架构下的MHA会产生大量的KV缓存,GQA和MQA作为改进方案虽然减少了KV缓存,但是在性能表现上受损。MLA通过对Key和Value进行低秩联合压缩实现了内存的高效利用,在降低KV缓存的同时获得了更强的性能。 图4:不同注意力机制示意图 图5:不同注意力机制KV缓存和性能对比 MTP(多token预测技术)通过预测多个后续token提升模型效率。传统模型只根据前文预测1个token,即根据t预测t;而MTP技术则要求模型一次性生成多个token,即在主模型中根据t预测t,在MTP Module 1中根据t预测t,在MTP Module 2中根据t预测t,依此类推。这意味着通过一次训练便可以学习多个位置的label,有效提升数据训练效率,从而降低训练成本,并提高模型对于长句的理解能力,一次性生成多个token也提高了推理速度。DeepSeek-V3设定了2个token预测目标,且实验表明第二个token的接受率处于85%-90%,高接受率保证了模型的解码速度能够达到1.8倍TPS(每秒token数)。 图6:MTP技术示意图 GRPO(组相对策略优化)通过取消价值模型提高了模型的推理能力。传统强化学习方法为PPO(近端策略优化),需要同时训练价值模型和策略模型,在计算成本方面存在劣势,而GRPO则取消了价值模型,通过比较组内相对表现进行优势评估,显著降低了计算和内存消耗,同时简化了优势估计过程,组间相对得分相较于绝对得分更加适用于推理任务,提高了模型推理能力。 图7:GRPO技术示意图 1.1.3算法协同优化,DeepSeek性能出色 通过对算法、框架和硬件进行协同优化,DeepSeek大模型在性能上表现出色。DeepSeek的技术团队擅于在软件层面进行技术优化创新,以此实现大模型的性能飞跃:1)在DeepSeek-V3上,创新性使用无辅助损失的负载均衡策略、FP8混合精度训练架