您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国金证券]:AI周观察:国产开源模型引关注,Blackwell GB300发布,CES预热开始 - 发现报告

AI周观察:国产开源模型引关注,Blackwell GB300发布,CES预热开始

2024-12-29 刘道明,黄晓军,麦世学 国金证券 赵小强
报告封面

摘要 -上周海外AI产业链公司中,应用的表现整体偏弱,ASIC芯片和AI终端消费电子相关个股较为强势。 -国产开源大模型在技术和应用方面持续引起广泛关注。DeepSeek发布的V3版本(DeepSeek-V3)是一款采用Mixture-of-Experts(MoE)架构的模型,该模型在数学和代码生成任务中的表现出色,同时训练成本显著低于同类大模型。通过结合MoE架构、FP8低精度训练和合成数据等创新方法,DeepSeek有效降低了模型训练的成本。我们认为DeepSeek-V3的节约训练成本的方式值得肯定,但是Frontier大模型的预训练和模型推理端算力需求仍有巨大的上升空间。 -在应用活跃度方面,受假期影响,海外模型(如ChatGPT、Perplexity、Claude)访问量出现环比下降,而国内应用(如KimiChat、字节豆包)则呈现出快速增长趋势。此外,视频生成模型也受益于新模型的发布,部分平台(如Sora、快手可灵、字节即梦、Pika)在日访问量上实现了超过20%的环比增长。 -英伟达在发布GB200系列仅六个月后推出了新一代Blackwell产品GB300和B300,带来了显著的性能提升。除了提升FLOPS和内存配置外,GB300还通过架构优化和系统级改进,如CPU与GPU之间的功率调度,提高了资源管理效率。内存方面,GB300采用了更高层数的堆叠设计,增加了每个GPU的内存容量,网络能力也得到了显著提升。与B200不同,GB300采用了“SXMPuck”模块设计,提供了更大的定制空间并便于后期维护,这为终端客户和供应商带来了新的营收机会。尽管GB300的BOM成本有所上升,但其定价与GB200相对接近,使得GB300的毛利率约为40%,而GB200为70%。英伟达通过优化其他组件的成本,能够保持两者相似的毛利率,同时为客户提供更多的定制选择和灵活性。 -CES2025:PC领域,AMD、英特尔、英伟达等公司都将参与CES2025。英伟达预计将发布最新消费级显卡RTX50 系列。RTX5080GPU将于2025年1月率先开售,配备16GB的GDDR7显存,速率高达32Gbps,预计在CES结束后不久(1月中旬)正式上市,瞄准性能旗舰的地位。目前尚没有信息表明5090系列是否会在国内禁售,但考虑到4090系列有过改版4090D以通过美国禁令,我们认为5090大概率仍会有国内改版。AIPC在2024年已经受到PC厂商的重视,渗透率快速上升,AIPC产品形态以及应用内容在2025年将会继续更新。 -CES2025:汽车领域我们认为,自动驾驶已经愈发成熟。未来不管是采用端到端方案还是模块化方案,汽车厂商 都需要与传感器/雷达厂商开展深度合作,这些传感器/雷达产业链确定性强。 风险提示 芯片制程发展与良率不及预期中美科技领域政策恶化 智能手机销量不及预期 内容目录 海外行情回顾3 国产开源模型持续引起关注,模型预训练去魅?4 假期到来,海外AI应用热度下降,国内应用仍快速增长6 视频生成模型新功能提升访问热度,Sora无限量生成提升访问量7 英伟达发布新一代Blackwell产品GB3008 CES2025消费电子&新能源汽车前瞻8 消费电子中AI设备成为主旋律8 自动驾驶成为主旋律10 风险提示11 海外行情回顾 图表1:海外AI产业个股本周行情回顾 来源:Reuters、国金证券研究所 国产开源模型持续引起关注,模型预训练去魅? DeepSeek发布并开源其V3版本模型,DeepSeek-V3是总参数671B,激活参数37B的Mixture-of-Experts(MoE)模型。其特点是在数学和代码写作能力表现优异,并且训练成本远远低于之前相似水平的模型,如MetaLlama3.1。DeepSeek主要采用了三个方法来降低训练成本,即MOE模型架构、FP8低精度训练和合成数据。 首先是MOE架构,如果实现得当,MoE模型可以在同等算力下实现更高的参数规模并通过稀疏激活减少单次前向/反向计算量,但其性能增益依赖于精心设计的负载均衡算法以避免卡过载、足够大的批量规模以降低通信开销占比,以及合理的专家数量与路由策略以平衡复杂度和效率; 由于FP8的精度较低,在表示梯度等动态范围大的数据时可能出现数值不稳定,因此需要通过动态范围调整(对输入值进行缩放以适应FP8的有效范围)和混合精度训练(用FP8表示激活值和中间计算,FP16或FP32表示权重和梯度)等策略来规避,但FP8对模型收敛性和稳定性的挑战在复杂任务和大模型中尤为突出。 合成数据结合蒸馏方法,能够显著提升小模型的性能,尤其是在真实数据稀缺的情况下。通过合成数据的使用,可以有效增强模型的鲁棒性和泛化能力,并降低训练成本。 综上,我们认为DeepSeek对模型架构的优化以及对低精度训练的尝试值得肯定,但是其并未突破算力需求对模型训练的限制而且合成数据相当于利用了之前的Frontier模型,所以,对于先进模型上限的突破对于训练端的算力需求仍然存在,并且我们继续认为推理端算力需求会快速上升。 图表2:DeepSeek-V3测试集分数与其他模型对比 来源:DeepSeek-V3论文、国金证券研究所 QVQ-72B-Preview也在上周开源,同样在海外大模型行业引起了大量关注,QVQ-72B-Preview基于Qwen2-VL-72B微调而来,专注于复杂的视觉理解和跨学科推理任务,模型整体原理和效果与OpenAI的o1接近。在开源模型领域,国内已经快速赶上甚至超过海外的开源模型如MetaLlama3.2,标志着国内模型研发能力的提升,为后续应用落地打下了基础。 图表3:QVQ-72B-preview测试集分数与其他模型对比 来源:Qwen、国金证券研究所 假期到来,海外AI应用热度下降,国内应用仍快速增长 图表4:聊天助手类AI应用日活跃度 来源:SimilarWeb、国金证券研究所 从海外应用活跃度看,受假期影响,大多数应用访问下环比开始有较为明显下降,ChatGPT、 Perplexity和Claude周均环比下降均超过10%。国内多数应用仍在快速上升,KimiChat环比上升71.%,字节豆包环比上升15.3%,即将超过Kimi成为网页端访问量的第一。 视频生成模型新功能提升访问热度,Sora无限量生成提升访问量 图表5:视频生成类AI应用日活跃度 来源:SimilarWeb、国金证券研究所 视频模型方面,因为海外假期OpenAI算力压力有所缓解,Sora开放排队模式下无限量视频生成,上周的日访问量有所回升,环比上升23.4%。快手可灵、字节即梦和Pika受益于 新模型和功能的发布,上周访问量环比上升均超过20%。 英伟达发布新一代Blackwell产品GB300 在GB200和B200仅仅发布六个月后,英伟达发布了其新一代Blackwell产品GB300和B300。B300采用N4P制程,计算芯片的算力水平相较于B200提升50%,但与此同时额定功耗也相应提升了200W,GB300和B300HGX的额定功耗将分别达到1400W和1200W(GB200和B200的额定功耗分别为1200W和1000W)。在提升FLOPS和内存配置的基础上,性能的提升还将来自于架构优化和系统级改进。其中一个重要的改进是CPU与GPU之间的功率调度(powersloshing)。这意味着CPU和GPU将根据工作负载的需求动态调整功率分配,从而实现更高效的资源管理。通过将更多功率分配给需求更大的组件,这种方法有助于优化整体性能,同时在高负载的AI和计算任务中保持平衡的功耗。除了FLOPS的提升,内存方面也进行了升级,采用了12层堆叠的HBM3E,相比之前的8层设计,每个GPU的HBM容量提升至288GB。虽然这一升级增强了处理更大数据集的能力,但值得注意的是,引脚速度保持不变,意味着内存带宽仍然是8TB/s。此外,网络能力也得到了显著提升,ConnectX8网络卡取代了之前的ConnectX7,而光模块从800G升级到1.6T,确保了更快的数据传输速率。 不同于B200系列产品提供整套Bianca板,GB300将以“SXMPuck”的形式提供,而GraceCPU将以BGA封装的形式提供,这意味着B300可以更快速地从主板上拆除或更换,利于后期维护。新设计带来新的营收机会,比方说新设计需要额外的告诉接口,终端客户可以自行采购其他的元件,原先GraceCPU两侧的LPDDR5X有可能改为LPDDR5XLPCAMM模组,美光为潜在主要供应商。 毛利率角度,存储容量的大幅提升使BOM提升了2500美金,而GB300的售价可能仅比GB200高出4000美金,这意味着GB300的毛利率约为40%左右,而GB200则为70%左右,然而由于可以在其他元件上节省开支,在相同的良率下,英伟达仍能够将GB300毛利率维持在和GB200同一个水平。 随着推理需求的提升,我们认为单卡单位算力HBM容量的提升是大趋势,对英伟达而言,尽管目前推测其能够通过减少其他元件的成本来维持其毛利率水平,但长远来看,我们并不看好其向下游转嫁更高的HBM成本,并且随着数据中心业务占比逐渐下滑,我们认为其毛利率水平在后续产品的迭代过程中将逐渐下滑。 CES2025消费电子&新能源汽车前瞻 消费电子中AI设备成为主旋律 1月7日,2025年CES即将在拉斯维加斯展开。随着人工智能的快速迭代与普及,各大厂商在今年的展会中纷纷主打AI技术,力求通过更灵活的感知能力、更精准的算法模型以及更人性化的交互方式,为消费者带来全新体验。从生活场景智能化到产业应用落地,从家居到车载,从可穿戴到个人助理,各类前沿AI设备在本届CES将集中亮相。可以预见,人机交互模式将被进一步颠覆,AI也将成为2025年度消费电子生态中不可或缺的核心动力。 PC领域,AMD、英特尔、英伟达等公司都将参与CES2025。英伟达预计将发布最新消费级显卡RTX50系列。RTX5080GPU将于2025年1月率先开售,配备16GB的GDDR7显存,速率高达32Gbps,预计在CES结束后不久(1月中旬)正式上市,瞄准性能旗舰的地位。目前尚没有信息表明5090系列是否会在国内禁售,但考虑到4090系列有过改版4090D以通过美国禁令,我们认为5090大概率仍会有国内改版。 图表6:英伟达RTX50系显卡预期配置 来源:WCCFTECH、国金证券研究所 AMD和英特尔预计也将有新产品发布,结合同在CES的众多PC厂商提供直接的效果体验。我们认为AIPC在2024年已经受到PC厂商的重视,渗透率快速上升,AIPC产品形态以及应用内容在2025年将会继续更新。 图表7:全球AI笔电销量(台)及增速图表8:全球AI笔电渗透率 来源:IDC、国金数字未来实验室、国金证券研究所来源:IDC、国金数字未来实验室、国金证券研究所 除了AIPC之外,我们认为AI电视、可穿戴设备在CES中也非常值得关注。RabbitR1虽然在产品发布后被人诟病,但CES2024时惊艳表现也推进了手机厂商如苹果、三星等去实现系统层面的AI。今年将会有众多智能家居厂商展示产品,我们认为在AI实现系统化的操作的情况下,以往独立的部件整合在一起会给用户提供更全面的体验,看好相关产品继续升级迭代。 自动驾驶成为主旋律 与以往CES一样,汽车厂商纷纷参与展示最新车型或者概念车型。我们注意到配套汽车展示的还有多家激光雷达、摄像头厂商。 Mobileye预计将会全面展示助力更安全道路和自动驾驶出行的可扩展技术与解决方案,从先进驾驶辅助系统(ADAS)一直延伸到完全自动驾驶汽车。 aiMotive将展示与索尼半导体的合作项目——索尼IMX728传感器模型在aiSim仿真平台中的集成,用以提升ADAS和自动驾驶技术。公司还将展示其aiDataAutoMap模块、aiSimWorldExtractor,以及在aiSim