01、海外科技:DeepSeek触发模型降本,打开AI应用产业上升通道02、电子:Deepseek本地部署加速端侧AI推广落地03、电子:DeepSeek缩小中美AI差距,先进芯片制造亟待突破04、电子:Deepseek,开源低成本模型引发行业巨震05、传媒:DeepSeek R1:高性价比开源,可加速AI应用落地 【海外科技】DeepSeek触发模型降本,打开AI应用产业上升通道 投资建议:DeepSeek实现模型大幅降本,价值有望从模型层转移至应用层。DeepSeek成为全球DAU增速最快的AI应用,20天达成DAU 2000万,带来巨大的推理算力需求。推荐算力方面以及应用方面。 DeepSeek通过多处工程创新,实现降低训练成本、降低推理成本、提高模型效果等进展。1)降低训练成本:DeepSeek使用较宽的MOE架构,且提出共享专家机制,每次训练只激活需要的专家(按需调用),而非激活全部专家,从而大大降低训练成本。此外,使用fp8低精度训练、双管道训练、多Token预测等方法进一步降低训练成本。2)降低推理成本:DeepSeek提出多头潜在注意力(MLA),在不牺牲模型质量的前提下,大幅减少KV缓存的大小。此外,低精度存储和通信、推理阶段动态专家选择等方法进一步降低推理成本。3)提高模型效果:不同于传统的SFT,DeepSeek使用强化学习做post-training,大幅提升模型推理能力。此外,DeepSeek针对中文做了大量风格对齐,大幅提升模型可用性。 DeepSeek触发模型降本,长期看,打开AI应用产业上升通道,算力需求不降反增。蒸汽机效率提升并没有导致煤炭少用,DeepSeek虽然触发模型大幅降本,但长期看将打开AI应用产业上升通道,算力需求不降反增,因算力需求具备多样性:1)模型向更高智能维度跃迁,训练需要更多算力。2)AI应用的推理需要广泛算力,更多人会去训练和推理自己的模型。3)转向对等异构计算的新主流计算形态需要更多GPU。4)目前模型仅仅停留在对话,未来从对话到任务、到多模态还需要更多算力加持。根据AI产品榜,DeepSeek应用(APP,非网页)成为增速最快的AI产品,上线20天即达成DAU 2000万,反映出模型能力提升对于用户的巨大吸引力,带来潜在的巨大推理算力需求。 DeepSeek并没有真正绕过CUDA架构。DeepSeek没有使用CUDA的API,而是直接使用PTX,从而对计算过程进行更细粒度的控制。PTX仍然是英伟达GPU架构中的技术,是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。编写PTX代码的做法,首先非常复杂且难以维护,对技术人员要求极高,其次移植性较差,较难移植到不同型号的GPU。DeepSeek基于PTX进行优化代表他们有优化其他GPU的能 力,但既不意味着完全脱离了CUDA生态,也不意味着其他团队有能力直接使用PTX,因此英伟达的CUDA护城河仍在。 风险提示:地缘政治风险;大模型迭代进展不及预期;监管风险;商业化进度不及预期。 【电子】Deepseek本地部署加速端侧AI推广落地 Deepseek的本地部署为用户提供了更高的灵活性和隐私保护,尤其适合对数据安全有较高要求的场景。其模型规模从1.5B到671B不等,其中Deepseek-V3作为最新版本,拥有6710亿参数,每次推理仅激活370亿参数。这种设计不仅遵循了Scaling Law,即参数量越大模型性能越强,还通过混合专家架构等技术优化了计算效率。本地部署对PC硬件提出了较高要求,尤其是对于大模型版本,需要强大的GPU支持和足够的内存与存储空间。随着用户对更大模型的需求增加,PC硬件的升级将成为必然趋势,以确保模型能够高效运行并发挥其最佳性能。 开源模型兴起加速人工智能生态的构建,Deepseek本地部署可构建个人知识库。许多企业已经意识到,与自研基座大模型相比,开源且具有广泛共识的模型更容易构建生态系统。Meta开源的Llama 2模型在GitHub社区吸引了超过4.2万名贡献者,修复漏洞的速度比闭源模型快3倍。此外,开源模型的硬件适配成本更低,例如阿里云的通义千问开源版本支持多种国产芯片,开发者贡献的优化使得推理速度提升了40%。Deepseek蒸馏后表现出色的小模型使本地部署知识库从企业端扩展到个人用户,通过AnythingLLM和Ollama高效且灵活的构建私有化的AI知识管理系统,不仅保护数据隐私而且可以根据特定需求进行定制优化。构建个人本地知识库的意义主要体现在数据隐私保护、资源优化、成本控制和个性化需求满足等方面,使端侧AI真正成为用户的人工智能助手。 在端侧产品设计中,算力和传输为关键因素。端侧产品的侧重点决定了其发展方向和市场竞争力。如果产品侧重于本地计算,SOC的算力将成为主要的增量需求,以满足复杂的计算任务;如果侧重于传输,则SOC功耗和连接能 力 的 升 级 将 更 为 关 键 。 随 着 蒸 馏 模 型 能 力 的 提 升 , 未 来 端 侧SoC将 更 加 注 重 模 型 的 本 地 部 署 和 推 理 能 力 。Scaling Law的存在表明,无论是端侧还是云端,都需要不断提升性能以适应模型规模的扩大和应用需求的增加。端云协同升级将成为未来技术发展的必然趋势。端侧产品需要在有限的硬件资源下实现高效的计算和传输,云端则需要提供更强大的计算能力和存储支持,以满足大规模模型的训练和推理需求。 催化剂:AI模型成本持续下降;AI端侧落地加速。 风险提示:端侧模型落地进展不及预期;AI技术迭代不及预期。 【电子】DeepSeek缩小中美AI差距,先进芯片制造亟待突破 Deepseek V3和R1达到行业领先水平,这得益于开源生态、工程创新、以及post-training的拓展红利。 1)开源让更多企业可以互相学习,站在“巨人的肩膀上”,不断推高能力边界,DeepSeek、Qwen、Llama等模型均具备媲美闭源模型的能力,DeepSeek即是开源的受益者也是领先的推动者;2)DeepSeek在算力资源有限的情况下,进行了大量工程创新,通过无辅助损失的策略、多token预测提升模型能力,通过首次引入FP8低精度训练、较宽的MoE架构、双管道训练、跨节点all to all的通信Kernel、优化内存占用等方式提升训练效率, 通过MLA(多头注意力)机制来提升推理效率;3)post-training(后训练)依然处于拓展曲线初期,收益较大,而竞争者差距较小。此前的范式借助预训练的scaling law提升性能,但这一方向成本和难度正在逐步增加。而新的范式专注于通过合成数据生成、在现有模型基础上进行post-training的强化学习,从而提升推理能力。当前仍处于新范式下的scaling law早期阶段,可以快速获得巨大收益。 美方通过制裁和加大投资,意图打压别国科技产业发展,实现美国领先。2025年1月,拜登政府下,BIS发布了历史上第一个AI出口管制规则,对世界不同国家进行分类管理,此外,还出台规则,封锁16nm以下的先进制程,将中国、新加坡的多个实体列入实体清单,意图打压别国AI产业发展。特朗普宣布“星际之门”计划,预计在未来四年内投资5000亿美元,用于建设支持AI发展的基础设施。而DeepSeek取得的成果,也反映出中美在AI产业的差距缩小,引发地缘政治角度的热议,DeepSeek目前也面临OpenAI和微软的调查和部分国家的限制使用。 中国AI模型通过算法工程创新,取得了优秀的表现,但先进制程依然是AI产业规模化发展的核心瓶颈,亟待突破。目前,中国大陆7nm及以下先进制程产能与台积电等代工厂依然有数量级的差距,所对应的晶体管数量约有几十倍的差距,中国大陆先进制程供应能力亟待提升。中芯国际作为中国大陆最先进、规模最大、配套服务最完善的专业晶圆代工企业,在先进制程领域布局领先,有望引领行业,充分受益于中国AI产业的发展机遇,予以推荐。 催化剂:关键技术突破、下游需求快速增长 风险提示:地缘政治风险、AI商业化进展不及预期、技术突破/创新不及预期。 【电子】Deepseek,开源低成本模型引发行业巨震 投资建议。DeepSeek R1具备优异性价比,其蒸馏所得小模型推理性能优越,将加速端侧AI落地。目前硅基流动推出基于昇腾云的DeepSeek R1&V3推理服务,有望引领国产AI算力、AI芯片技术生态、AI大模型闭环,国产算力产业链及端侧硬件有望受益。 DeepSeek R1 API定价最低仅为1元/百万tokens,性能对标O1模型,霸榜苹果应用商店140+国家/地区免费 应 用 第 一 名 。 根 据Deepseek官 网 ,Deepseek R1 API服 务 定 价 为0.14美 元/百 万 输 入tokens( 缓 存 命中),2.19美元/百万输出tokens。其在逻辑、数学及中文任务中表现出色,性能优于GPT-4o、O1-mini等模型。优异性价比驱动用户数量快速增长,上线18天日活即破1500万,增速达Chatgpt 13倍,并且霸榜苹果应用商店140+国家/地区免费应用第一名。未来用户数量有望加速提高,带动DeepSeek服务器算力需求增长。 多token并 行 与FP8训 练 提 升V3训 练 效 率 , 强 化 学 习 提 高R1推 理 性 能 ,R1蒸 馏 驱 动 端 侧 小 模 型 落 地 。DeepSeek V3:(1)首创无辅助损失负载均衡策略,避免专家负载失衡。(2)通过采用多token并行预测与FP8混合精度训练,提高训练信号密度,提升模型推理能力,同时降低训练所需算力。(3)在训练框架中采用DualPipe算法,减少流水线空泡,通过计算-通信重叠隐藏大部分通信延迟。DeepSeek R1:通过引入冷启动 数据微调DeepSeek-V3-Base模型以及多阶段训练优化,其推理任务水平达到OpenAI-o1-1217。并且基于其高质量训练样本蒸馏所得的DeepSeek-R1-Distill-Qwen-7B,推理性能超越QwQ-32B-Preview。DeepSeekR1蒸馏所得的高推理性能小模型将加速端侧AI落地,驱动AI手机、AI PC、AI眼镜等硬件出货量上行。 海外巨头纷纷接入,昇腾云携手引领国产AI闭环。基于出色的推理性能及低廉的使用成本,目前微软、英伟达、亚马逊等海外巨头已接入DeepSeek R1 API。硅基流动已推出基于昇腾云服务的DeepSeek模型,其采用华为自研推理加速引擎,性能持平全球高端GPU部署模型效果。昇腾云与DeepSeek合作有望推动国产AI芯片、AI芯片技术生态与AI大模型闭环,加速国产AI算力生态自主可控。 风险提示。端侧模型落地进展不及预期;AI技术迭代不及预期。 【传媒】DeepSeek R1:高性价比开源,可加速AI应用落地 DeepSeek-R1的推出体现了开源范式下技术进步的速度,以及在AI训练、推理上成本大幅度压缩的可能,AI的广泛落地有望加速,可从几个重点方向布局:1)具备优秀大模型能力的公司有望逐步开始变现和改造现有业务。2)关注有望快速商业化落地的教育、娱乐应用、电商场景。3)AI视频生成技术同样有巨大应用前景,内容制作、IP开发、营销宣传将得到更好发展。4)AI娱乐方向将受益于生成式内容质量的提升,如AI游戏、AI音乐、AI陪伴等。5)关注AI硬件落地发展,如AI眼镜、AI手机、AI PC、AI音箱等。 DeepSeek-R1高性能、低成本、开放性。海内外迅速破圈,海外多个服务商和应用已经接入。DeepSeek-R1性能堪比OpenAI o1,而调用API的成本最低仅为后者的1.8%,且模型使用标准化、宽松的MIT License,完全开源,不限制商用,产品协议明确可“模型蒸馏”,体现了极高的开放性。自从R1模型推出后,DeepSeek网页端访问量飙升16倍,且其中来自非中国大陆地区,海外的