DeepSeek洞察与大模型应用 人工智能技术发展与应用实践 联通数据智能有限公司史树明 2025年 2 DeepSeek是私募量化巨头幻方量化旗下的一家大模型企业,成立于2023年5月份。 幻方量化营收:作为中国头部量化对冲基金,曾管理资金规模超160亿美元(2019年),年管理费收入超过3亿美元。 DeepSeekV3多项评测成绩超越了Qwen2572B和Llama31405B等其他开源模型,并在性能上和 世界顶尖的闭源模型GPT4o以及Claude35Sonnet不分伯仲。 3 DeepSeekV3(对标GPT4o)于2024年12月26日推出,因其显著的性能,用户迅速开始增长 DeepseekV3仍是基于Transformer架构的模型,是一个强大的混合专家(MoE)模型,总共有671B个参数,生成每个token时激活37B参数 训练成本比Llama405B低一个量级 DeepSeekV3所采用的技术: MLA多头潜在注意力机制(降低显存占用) MTP多token预测(提升效果、提升推理速度) FP8混合精度训练、DualPipe流水线、MoE负载均衡(提升训练效率,降低训练成本) 4 DeepSeekR1(对标GPTo1)于2025年1月20日推出,随后DeepSeek进一步出圈 R1推出后,追平GPTo1,迅速出圈海外。从DeepSeek在美国下载排名从1月22日的201名,迅速在1月27日登顶第一名;截止1月30日,DeepSeek在168个国家位居下载榜第一名 DeepSeekR1Zero:一种通过大规模强化学习(RL )训练的模型,没有监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化学习,R1Zero自然而然地出现了许多强大而有趣的推理行为;但是,遇到了可读性差和语言混合等挑战 DeepSeekR1:为了解决这些问题并进一步提高推理性能,DeepSeek团队引入了R1,它在RL之前结合了多阶段训练和少量冷启动数据。R1在推理任务上实现了与OpenAIo11217相当的性能 DeepSeekV3和R1进入到国际顶尖模型行列 DeepSeekR1是综合效果最好的开源模型,排在众多优秀的开源和闭源模型前面 Qwen25Max、GLM4Plus、Step216KExp等国产模型也有不俗的表现 5 大模型竞技场ChatbotArenaLLMLeaderboardhttpslmarenaaileaderboard更新日期:2025211 6 DeepSeekV3和R1相对于700亿以下开源模型(以千问720亿为代表),,扩充了其能力边界 DeepSeekR1引入能力,在代码、数学、复杂规划等方面的能力显著增强,使得对于新场景的支持成为可能 V3vsR1:R1在普通的中文和英文任务上性能小幅领先,在数学和代码等需要深度推理的场景下明显胜出 R1蒸馏版vsR1满血版:在数学、代码等场景下的性能有明显差距,蒸馏版参数量越小,与满血版差距越大 7 R1蒸馏版vsV3满血版:140亿以上参数的R1蒸馏版的深度推理效果显著强于V3满血版;低参数量R1蒸馏版能力落后于V3 模型 架构 参数量 激活参数 R1的15亿蒸馏版 稠密 15B 15B R1的70亿蒸馏版 稠密 7B 7B R1的140亿蒸馏版 稠密 14B 14B R1的320亿蒸馏版 稠密 32B 32B R1的80亿蒸馏版 稠密 8B 8B R1的700亿的蒸馏版 稠密 70B 70B DeepSeekR1 MoE 671B 37B DeepSeekV3 MoE 671B 37B 模型 AIME2024 MATH500 GPQADiamond LiveCodeBench CodeForces pass1 pass1 pass1 pass1 rating R1的15亿蒸馏版基于千问 289 839 338 169 954 R1的70亿蒸馏版基于千问 555 928 491 376 1189 R1的140亿蒸馏版基于千问 697 939 591 531 1481 R1的320亿蒸馏版基于千问 726 943 621 572 1691 R1的80亿蒸馏版基于Llama 504 891 490 396 1205 R1的700亿的蒸馏版基于Llama 700 945 652 575 1633 DeepSeekR1 798 973 715 659 2029 DeepSeekV3 392 902 591 362 1134 模型参数量:显存占用激活参数:推理速度 1DeepSeekR1的卓越性能表现 V3训练开销R1效果引发全球热议 2DeepSeekV3的超低训练开销 DeepSeekV3效果对标顶级闭源模型,训练成本比LLaMA低一个量级 ChatGPTLlama o1o3 DeepSeekR1 首次提出开源复现 训练耗时 40 308 单元:万GPU小时 下降一个量级 20 28 0 Llama31405B DeepSeekV3671B MMLU得分 90 DeepSeekV3 Claude35Sonnet GPT4o 86 Qwen2572B Llama31405B Qwen2572B 82DeepSeek25 GPT4omini 10 API价格Mtokens 对数坐标100 OpenAI奥特曼:“DeepSeek是一个令人印象深刻的模型,但我们相信我们会继续开拓前沿并推出出色的产品,所以很高兴能有另一个竞争对手。” Meta扎克伯格:“DeepSeek技术非常先进。这是一场差距很小的竞争。”虽然DeepSeek已证明研发AI所需的资金和算力比之前预想的要少,但Meta不会因此减少AI支 出:“我仍然认为,从长远来看,大力投入资本支出和基础设施建设将成为一种战略优势。” 卷积神经网络之父YannLeCun“与其说中国AI正在追赶美国,不如说开源模型正在超越闭源”。 AnthropicCEO达里奥阿莫迪:我认为一个公平的说法是“DeepSeek生产的模型接近710个月前美国模型的性能,成本要低得多(但远不及人们建议的比例)” ScaleAI创始人亚历山大王:“DeepSeek可能改变中美在人工智能竞赛中的格局” 模型性能价格比最优区间 游戏科学创始人冯骥:”DeepSeek,可能是个国运级别的科技成果。”“如果有一个AI大模型做到以下任何一条,都是超级了不起的成就,但DeepSeek全部同时做到了:强大、便宜、开源、免费、联网、本土” 8 面壁智能首席科学家刘知远:“DeepSeek的意义更像Llama。DeepSeekR1相当于是像2023年初的OpenAIChatGPT一样,让所有人真正地感受到了震撼” DS作为一款现象级应用,对全社会开展了一次人工智能科普再教育,DSC端应用人人装,人人感受人工智能,政府、企业管理者认识到人工智能战略意义,由探索尝试,升级为战略布局,市场进入爆发期 9 DS上线20日,日活超4000万,已达到ChatGPT74,成为C端现象级应用。微信、钉钉等头部应用纷纷接入 截至2月15日,全国10省省委书记将人工智能作为新春第一会重点部署,B端大模型应用进一步加速 省份 要求 广东 集中发力人工智能和机器人领域 浙江 加快建设创新浙江、因地制宜发展新质生产力 广西 不能妄自菲薄、行动迟缓 江西 强化企业科技创新主体地位,推动科研成果向现实生产力转化 安徽 在抢占科技制高点上奋勇争先 江苏 找准“一中心一基地一枢纽” 甘肃 着力提升科技创新效能,深入实施研产融合科技攻关赋能计划 重庆 部署实施“人工智能”行动 山东 建立科技创新和产业创新融合机制 湖北 到2030年,具有全国影响力的科技创新高地加快形成 DS开源策略全面冲击基础模型商业模式,将大厂在C端、B端过去一年构建的技术优势拉回同一起跑线 ,市场竞争从一阶段比拼模型能力,进入比拼应用、数据、工程化交付能力的第二阶段 某机构接国家FGW通知,全面评估DS影响,组织专题论证会,重新评估基础模型选型,由原某公司大模型为主,转为吸纳多家模型,重点引入DS 山东省委书记于开年第一天工作会上,明确部署省 数据局研究DS,研究人工智能 某央企董事长在开年第一天即召集全管理层会议, 开展AI全面赋能生产运营工作部署 中石油、中石化、南网、星网、中广核、中铝等央 国企均在拥抱对接或重新研判 10 C端AI应用市场格局重构,新入局者迎来机遇B端客户全面评估DS影响,重新论证基础模型选型 DS国内登顶、全球仅次于GPT,月均活跃用户数跃居第一,全球全端DAU近12亿;纳米AI搜索(原360)将其核心模型换为DS1月web端访问量登顶、APP端增速位列第2 目录Contents 01 02 03 04 11 05 我国高端人才的数量和密度跟美国有明显差距 人工智能领域被引用最多的100篇论文(20202022) 12 我国AI领域重大原创性成果的数量落后于美国 中美头部高科技企业的市值差距非常显著 我国AI独角兽的数量和估值落后于美国 头部高科技企业 美国7大科技公司市值:均在万亿美元以上,合计约18万亿美元 中国7大科技公司市值:第一名5600亿美元,合计约14万亿美元 AI独角兽 13 美国企业在GPU芯片领域占据绝对优势,尤其英伟达芯片性能高、生态成熟 国产芯片近几年进步很快,但在性能、产能、软件适配和生态方面还有显著差距 中美 英伟达:拥有A100、H100、B200等GPU芯片,性能和稳定性遥遥领先,又有CUDA生态加持,在AI芯片市场牢牢占据主导地位 AMD:MI300系列 GoogleTPU Groq:高性能AI推理芯片 博通:在ASIC(专用集成电路)定制芯片领域表现 突出,2024年市值突破万亿美元 14 华为:昇腾系列芯片,产品性能和销量国内领先,910B性能对标A100 其它国产芯片厂商:海光、寒武纪、燧原科技、沐曦、天数智芯、摩尔线程、壁仞科技、昆仑芯科技 、阿里平头哥等 vs 15 模型厂商 国家 代表性模型及竞技场排名 是否开放模型权重 谷歌(Google) 美国 Gemini20FlashThinkingExp01211Gemini20ProExp02051 不开放 OpenAI 美国 ChatGPT4olatest202501291o1202412174 不开放 DeepSeek 中国 DeepSeekR14DeepSeekV39Deepseekv25121017 开放 阿里巴巴 中国 Qwen25Max7Qwen25plus112716Qwen2572BInstruct33 不开放不开放开放 智谱 中国 GLM4Plus01119 不开放 阶跃星辰 中国 Step216KExp9 不开放 xAI 美国 Grok2081316 不开放 零一万物 中国 YiLightning16 不开放 Anthropic 美国 Claude35Sonnet2024102216Claude35Sonnet2024062023 不开放 Meta 美国 MetaLlama31405BInstructbf1621Llama3370BInstruct33 开放 MistralAI 法国 MistralLarge240737MistralSmall24BInstruct250150 开放 在模型效果上,中国大大缩小了与美国的差距,呈现与美国平分秋色的格局 模型开源领域:DeepSeek超越Meta,成为效果最好的开源模型,阿里巴巴千问系列模型下载量超过Meta的Llama系列 中:突破技术封锁,在大模型这个关键赛道上与美国的差距无限缩小,信心增强,科技股崛起 美:发现在模型的技术创新上已经被中国追赶并部分超越,危机感和压力陡然增加,预计会加大对华技术封锁(更严格的芯片禁令等) 美国上升到影响国家安全,拟进一步收紧对华芯片政策 美参议