deepseek大模型生态报告 赛迪研究院电子信息研究所 2025年2月 目录 一、DeepSeek大模型背景1 (一)深度求索公司情况1 (二)模型迭代历程2 (三)研发团队情况3 1北京大学罗福莉4 2北京大学高华佐4 3北京邮电大学曾旺丁5 4北京大学朱琪豪5 5北京大学代达劢6 6北京大学王炳宣6 7浙江大学梁文锋7 二、DeepSeek大模型应用现状8 (一)国内情况8 (二)全球情况10 三、DeepSeek大模型技术特点11 (一)技术创新11 1压缩:从结构到量化11 (1)多层注意力MLA12 (2)FP8混合精度训练框架13 2并行:对硬件的极限使用16 (1)DualPipe跨节点通信16 (2)无辅助损失的负载均衡策略18 (3)底层通信优化20 3总结20 (二)训练成本21 四、DeepSeek大模型产业生态22 (一)企业22 1DeepSeek系列新模型正式上线昇腾社区,华为小艺已接入DeepSeek22 2三大运营商全面接入DeepSeek23 3多家公司宣布接入DeepSeek23 4微软、英伟达、亚马逊全部接入DeepSeek! 25 5燧原科技实现全国各地智算中心DeepSeek 的全量推理服务部署26 6多家券商也积极“拥抱”DeepSeek26 (二)生态27 1Deepseek应用27日登顶苹果中国地区和美国地区应用商店免费APP下载排行榜27 2DeepSeek在开源社区GitHub上的Star数首次超越OpenAI28 3国家超算互联网正式上线DeepSeek29 4传DeepSeek正准备适配中国国产GPU29 5DeepSeek的风,火速吹遍了终端企业30 (三)应用32 1文学32 2编程32 (四)基础设施35 五、DeepSeek大模型产业影响35 (一)对人工智能技术的影响35 1吴恩达谈DeepSeek:中国AI迎头赶上,扩大算力并不是AI进步的唯一途径35 2蒸馏技术将成为行业突破口36 (二)对产业生态的影响37 1DeepSeek开源对于企业战略价值37 2DeepSeek是否真的绕开了CUDA?39 3DeepSeek会导致对智算中心的需求大幅减少吗?39 (三)对国际竞争的影响46 1DeepSeek的崛起,冲击了全球科技供应链的核心玩家46 2AI低成本化,最大输家可能不是Nvidia,而是依赖大模型收费的AI公司46 3AI进入创业黄金时代47 4DeepSeek的崛起引发了全球资本市场的剧烈震荡47 六、国内相关表态48 (一)国家层面48 1中国常驻联合国代表傅聪回答记者提问48 2外交部发言人郭嘉昆主持例行记者会49 (二)地方层面49 1广东49 2郑州49 3北京经济技术开发区49 七、各国相关表态50 (一)美国50 1龙头企业单位50 (1)英伟达50 (2)OpenAI51 (3)谷歌52 (4)苹果52 (5)微软52 2美国联邦政府52 (1)美议员推动立法促中美AI全面脱钩 53 (2)美国海军禁止官兵使用DeepSeek大模型53 3美国地方政府54 (1)得克萨斯州宣布禁止政府设备使用 DeepSeek54 (二)英国及欧洲54 1龙头企业单位54 (1)英国阿兰图灵研究所54 (2)德国墨卡托中国研究中心54 (3)英国利兹大学55 (4)荷兰阿斯麦55 2政府及公共机构55 (1)意大利55 (2)爱尔兰55 (3)法国55 (三)韩国56 1龙头企业单位56 (1)韩国56 (2)LG56 (3)三星56 2政府及公共机构56 (1)韩国代理总统崔相穆将DeepSeek称之为“新的冲击”57 (2)韩国祥明大学57 (四)其他国家57 1政府及公共机构57 (1)澳大利亚58 (2)日本58 (3)印度58 八、DeepSeek大模型的经验启示58 (一)技术58 1中科院为何难现DeepSeek式突破58 (1)制度基因的先天性分野58 (2)创新效率的量子级差距60 (3)体制突围的艰难探索62 (4)破局之道:构建科技创新共同体63 (5)超越二元对立的创新哲学64 2王凡、刘少山:中国如何引领全球具身智能? DeepSeek的战略启示AI观察64 (1)DeepSeek的突破对具身智能的启示 65 (2)DeepSeek:推动中国AGI领域自主创新66 (3)具身智能:人工智能从虚拟世界走向物理世界67 (4)上下文强化学习:具身智能的发展方向68 (5)具身智能的应用前景与行业变革70 (6)政策建议:开源发展、标准化和产业化落地71 (7)结论:把握技术机遇,领导未来的全球AI竞争72 (8)本文作者72 3专家观点鲁传颖:人工智能重塑国家安全的范式和逻辑72 (1)人工智能赋能国家安全73 (2)人工智能技术安全对国家安全的深层次影响77 (3)人工智能时代的国家安全治理体系 82 4巴黎AI峰会,李飞飞教授开幕演讲:当前才是“首个真正的AI时代”86 (1)人工智能的历史与起源87 (2)现代AI三大关键要素88 (3)2012年之后的AI突破91 (4)大模型与近期AI进展92 (5)空间与具身智能的兴起94 (6)以人为本的AI与三大核心价值94 (7)AI治理:理性、务实与多方协作96 5人工智能驱动信息技术体系重构与再造 兼评《中国至2050年信息科技发展路线图》98 (1)《路线图》和《三元融合》的重要预判与近15年发展的比较99 (2)未来10年信息技术体系重构与再造 的创新机遇与挑战106 (3)发展对策121 (二)企业123 1DeepSeek的创新三重门123 (1)小天才们的胜利123 (2)华为式的军团平推125 (3)原创(哲学性)思想129 (4)DeepSeek跨越第三重门了吗?130 2DeepSeek颠覆了什么?大模型“国产之光”破局的启示131 (1)击穿三大定式132 (2)实现三大跃升134 (3)超越技术的启示136 (三)地方138 1为什么DeepSeek没有出现在浦东张江138 一、DeepSeek大模型背景 (一)深度求索公司情况 DeepSeek,全称“杭州深度求索人工智能基础技术研究有限公司”,简称“深度求索”,于2023年7月17日由幻方量化创立,位于杭州市拱墅区,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术,法定代表 人、执行董事兼总经理为裴湉。 2024年1月5日,该公司发布第一个大模型DeepSeekLLM。之后,相继发布DeepSeekCoder、DeepSeekVL、DeepSeekV2、DeepSeekV3等模型。其中,DeepSeekV2模型因在中文综合能力评测中的出色表现,且以极低的推理成本引发行业关注,被称为“AI界的拼多多”。2025年1月20日,该公司正式发布DeepSeekR1模型,并同步开源模型权重。DeepSeekR1性能逼近OpenAIo1正式版,推理成本却仅为OpenAIo1的几十分之一。1月27日,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。1月28日,DeepSeek发布开源多模态模型JanusPro,其中70亿参数版本的JanusPro7B模型在使用文本提示的图像生成排行榜中优于OpenAI的DALLE3和StabilityAI的StableDiffusion。 2025年2月8日,QuestMobile数据显示,DeepSeek在 1月28日的日活跃用户数首次超越豆包,随后在2月1日突 破3000万大关,成为截至2025年2月史上最快达成这一里程碑的应用。 (二)模型迭代历程 中国初创企业深度求索(DeepSeek)研发大语言模型时据报绕过了美国人工智能巨头英伟达的CUDA框架,为DeepSeek在未来适配中国国产晶片做好准备。 DeepSeek通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知。DeepSeekR1的惊艳之处是通过重新设计训练流程、以少量SFT数据多轮强化学习的办 法,在提高了模型准确性的同时,也显著降低了内存占用和计算开销。DeepSeekR1的效果示意:更少的GPU(或其他AI芯片)带来同样的效果高DeepSeekR1提供了一种低成本训练的方法,而不是说只能通过低成本来进行训练。DeepSeekR1反而通过优化,DeepSeekR1可能实现了算力与性能的近似线性关系。每增加一张GPU,模型推理能力可稳定提升,无需依赖复杂的外部监督机制。这一特性直接验证了“算力即性能”的ScalingLaw,为AI芯片市场及AIInfra 市场提供了明确的增量需求逻辑。 DS不仅在推理模型上实现了突破,在多模态方面也保持了进步,并于近日开源发布了JanusPro多模态模型。基于 算法工程方面的优化,DS能够实现性价比更高的模型推理能力(价格低、效率高、性能强、可部署在端侧平台),并有望以强大的推理能力和多模态感知能力,重塑机器人交互与决策,同时通过低成本、高效率的解决方案,加速具身智能的普及与应用。 (三)研发团队情况 DeepSeek团队最大的特点之一就是年轻。团队成员中,应届生和在读生占据了相当大的比例,他们活跃在公司的各个项目和研究领域中。这些年轻人思维敏捷、充满活力,对新技术和新方法有着敏锐的洞察力和强烈的探索欲望,为DeepSeek的发展注入了源源不断的动力和创新活力。在DeepSeek团队中,来自清华大学和北京大学的应届生尤为突出。他们不仅在学术上有着扎实的功底和丰富的研究成果,而且在实际工作中也展现出了卓越的能力和潜力。许多关键的技术创新和项目成果,都离不开这些清北应届生的贡献。他们将所学知识与实际问题相结合,不断突破技术瓶颈,推动DeepSeek在AI领域的持续进步。有些团队成员从DeepSeekLLMv1开始就加入了公司,并一直参与到了DeepSeekv3的开发和研究中。他们见证了DeepSeek大模型从无到有、从弱到强的全过程,积累了丰富的经验和深刻的理解。这些全程参与的成员,对DeepSeek的技术发展和产品 迭代起到了至关重要的作用,他们的经验和见解为公司未来的发展提供了宝贵的参考和指导。 1北京大学罗福莉 罗福莉,女,95后,出生于四川,本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所计算语言学专业。罗福莉2019年曾在国际顶级会议ACL上发表8篇论文,其中2篇为第一作者。罗福莉的职业生涯始于阿里巴巴达摩院,罗福莉主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作。2022年,罗福莉转战DeepSeek,参与了MoE大模型DeepSeekV2的研发。2024年12月,网传罗福莉被小米创始人雷军以千万年薪招募,担任小米AI实验室的大模型团队负责人。12月31日,罗福莉的高中班主任告诉红星新闻记者,罗福莉还没决定去小米,还在考虑。 2北京大学高华佐 高华佐是MLA架构的关键创新者之一,他非常低调,目前只知道是北大物理系毕业。在DeepSeek团队中,高华佐凭借其扎实的物理基础和对AI技术的深刻理解,为MLA架构的提出和发展做出了重要贡献。他的创新思维和严谨态度,为DeepSeek的技术进步提供了有力的支持。另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到高华 佐的名字,虽然暂不确定是否是同一人,但这也从一个侧面反映出他在AI领域的影响力和活跃度。 3北京邮电大学曾旺丁 曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。在DeepSeek团队中,曾旺丁主导了GRPO算法的研究和开发工作。他深入分析了强化学习中的关键问题和难点,提出了GRPO这一创新的算法,为DeepSeekMath项目和整个强化学习领域的发展做出了突出贡献。曾旺丁的研究成果不仅在学术界得到了认可,也在实际应用中展现出了强大的潜