行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

DeepSeek洞察与大模型应用人工智能技术发展与应用实践

信息技术 2025-03-28 - 联通数据智能有限公司好运联联-小童

DeepSeek公司概况

DeepSeek是私募量化巨头幻方量化旗下的大模型企业，成立于2023年5月。幻方量化曾管理资金规模超160亿美元，年管理费收入超过3亿美元。

DeepSeek-V3

DeepSeek-V3（对标GPT-4o）于2024年12月26日推出，因其显著性能，用户迅速增长。

基于Transformer架构的混合专家（MoE）模型，总参数量671B，生成每个token时激活37B参数。
训练成本比Llama 405B低一个量级。
采用MLA多头潜在注意力机制、MTP多token预测、FP8混合精度训练、DualPipe流水线、MoE负载均衡等技术，提升训练效率，降低训练成本。

DeepSeek-R1

DeepSeek-R1（对标GPT-o1）于2025年1月20日推出，迅速出圈海外。

推出后追平GPT-o1，从DeepSeek在美国下载排名201名，迅速登顶第一名，在168个国家位居下载榜第一名。
DeepSeek-R1-Zero：通过大规模强化学习（RL）训练，无监督微调（SFT），展示卓越推理能力，但存在可读性差和语言混合等问题。
DeepSeek-R1：结合多阶段训练和少量冷启动数据，解决R1-Zero问题，在推理任务上实现与OpenAI-o1-1217相当的性能。

DeepSeek模型效果

DeepSeek-V3和R1进入国际顶尖模型行列，R1是综合效果最好的开源模型。
Qwen2.5-Max、GLM-4-Plus、Step-2-16K-Exp等国产模型也有不俗表现。
DeepSeek-V3和R1扩充了700亿以下开源模型的能力边界，R1在代码、数学、复杂规划等方面能力显著增强。

DeepSeek不同版本对比

R1蒸馏版vs.R1满血版：数学、代码等场景性能有明显差距，蒸馏版参数量越小，差距越大。
R1蒸馏版vs.V3满血版：140亿以上参数的R1蒸馏版深度推理效果强于V3，低参数量R1蒸馏版能力落后于V3。

DeepSeek出圈原因分析

DeepSeek-R1的卓越性能表现。
DeepSeek-V3的超低训练开销。

外部评价

OpenAI奥特曼认为DeepSeek是令人印象深刻的模型，但相信OpenAI会继续开拓前沿。
Meta扎克伯格认为DeepSeek技术先进，竞争差距很小，但Meta不会减少AI支出。
Yann LeCun认为开源模型正在超越闭源。
Anthropic CEO达里奥·阿莫迪认为DeepSeek模型接近7-10个月前美国模型的性能，成本低得多。
Scale AI创始人亚历山大·王认为DeepSeek可能改变中美在人工智能竞赛中的格局。
冯骥认为DeepSeek是国运级别的科技成果，强大、便宜、开源、免费、联网、本土。
刘知远认为DeepSeek的意义更像Llama，R1相当于是像2023年初的OpenAI ChatGPT一样，让所有人真正地感受到了震撼。

DeepSeek影响

对全社会的影响

DS作为现象级应用，对全社会开展人工智能科普再教育，DSC端应用人人装，人人感受人工智能。
政府和企业认识到人工智能战略意义，由探索尝试升级为战略布局，市场进入爆发期。
DS上线20日，日活超4000万，达到ChatGPT 74%，微信、钉钉等头部应用纷纷接入。
全国10省省委书记将人工智能作为新春第一会重点部署，B端大模型应用进一步加速。

对市场竞争的影响

DS开源策略冲击基础模型商业模式，市场竞争从比拼模型能力进入比拼应用、数据、工程化交付能力的第二阶段。
C端AI应用市场格局重构，新入局者迎来机遇。
B端客户全面评估DS影响，重新论证基础模型选型。

具体应用案例

大模型赋能政务热线应用：服务80+坐席人员，工单填单时间下降，记录完整度提升。
大模型辅助政府经济决策：服务北京发改委、广东政数局等多省市项目。
大模型赋能公安智能化：利用以图搜图、以文搜图提升检索效率。
大模型赋能医疗智能应用：助力中山三院智能化升级。
大模型赋能船舶设计：造船规范知识问答、翻模设计。
大模型赋能国产大飞机装备运维：基于RAG的装备运维。
大模型赋能文博文创：助力国博、外文局等文物创新应用。

DS应用落地面临的挑战

DS优势在6000亿级语言大模型和R1版推理效果，应用侧落地仍需要多模型组合、多外挂工具，以及大量工程化配合。
C端AI应用需要通才，B端应用需要专才。
B端生产场景多数重复使用模型某一重复能力，大量百亿级参数模型即可适用。
DS满血版推理需大量算力，不适合高实时业务应用场景。
让DS高效学会私域知识尚未明显突破。

认识大模型的局限性

幻觉

大模型生成与事实不符或逻辑错误的内容。
原因：大模型结构和训练机制，缺乏对真实世界的有效建模方式和全息感知能力，训练数据的局限性。
应对：建立“大模型结果不一定可信”的认知，对模型输出进行验证。

算力消耗大

模型训练和推理都需要大量算力，实时性差，支持的并发低。

知识实时更新能力差

大模型参数量大，知识更新速度慢，无法实时将最新事件、社会动态、研究成果加入到模型。
缓解手段：联网搜索+检索增强生成（RAG）。

偏见、隐私与安全

大模型的输出结果可能包含偏见，易生成有害内容，安全评估与防范难度大。
建议：问大模型的问题不要涉及政治敏感、黄赌毒、暴力、歧视等，不要包含国家机密或机构的商业秘密。

认识大模型的优势和特色

熟悉大模型的回复特点，掌握提问技巧，激发模型的创造力。

人工智能技术发展与应用实践 DeepSeek公司概况 •DeepSeek是私募量化巨头幻方量化旗下的一家大模型企业，成立于2023年5月份。•幻方量化营收：作为中国头部量化对冲基金，曾管理资金规模超160亿美元（2019年），年管理费收入超过3亿美元。 DeepSeek-V3 DeepSeek-V3（对标GPT-4o）于2024年12月26日推出，因其显著的性能，用户迅速开始增长 •Deepseek-V3仍是基于Transformer架构的模型，是一个强大的混合专家（MoE）模型，总共有671B个参数，生成每个token时激活37B参数 •训练成本比Llama 405B低一个量级 •DeepSeek-V3所采用的技术： •MLA多头潜在注意力机制（降低显存占用）•MTP多token预测（提升效果、提升推理速度）•FP8混合精度训练、DualPipe流水线、MoE负载均衡（提升训练效率，降低训练成本） DeepSeek-R1 DeepSeek-R1（对标GPT-o1）于2025年1月20日推出，随后DeepSeek进一步出圈 •R1推出后，追平GPT-o1，迅速出圈海外。从DeepSeek在美国下载排名从1月22日的201名，迅速在1月27日登顶第一名；截止1月30日，DeepSeek在168个国家位居下载榜第一名 •DeepSeek-R1-Zero：一种通过大规模强化学习（RL）训练的模型，没有监督微调（SFT）作为初步步骤，展示了卓越的推理能力。通过强化学习，R1-Zero自然而然地出现了许多强大而有趣的推理行为；但是，遇到了可读性差和语言混合等挑战 •DeepSeek-R1：为了解决这些问题并进一步提高推理性能，DeepSeek团队引入了R1，它在RL之前结合了多阶段训练和少量冷启动数据。R1在推理任务上实现了与OpenAI-o1-1217相当的性能 DeepSeek模型效果(1/2)：世界最顶尖模型的对比 nDeepSeek-V3和R1进入到国际顶尖模型行列 nDeepSeek-R1是综合效果最好的开源模型，排在众多优秀的开源和闭源模型前面 nQwen2.5-Max、GLM-4-Plus、Step-2-16K-Exp等国产模型也有不俗的表现 DeepSeek模型效果(2/2) nDeepSeek-V3和R1相对于700亿以下开源模型（以千问720亿为代表），，扩充了其能力边界 nDeepSeek-R1引入能力，在代码、数学、复杂规划等方面的能力显著增强，使得对于新场景的支持成为可能 DeepSeek不同版本对比 nR1蒸馏版vs.R1满血版：在数学、代码等场景下的性能有明显差距，蒸馏版参数量越小，与满血版差距越大 nR1蒸馏版vs.V3满血版：140亿以上参数的R1蒸馏版的深度推理效果显著强于V3满血版；低参数量R1蒸馏版能力落后于V3 DeepSeek出圈原因分析 1.DeepSeek-R1的卓越性能表现 2.DeepSeek-V3的超低训练开销 OpenAI奥特曼：“DeepSeek是一个令人印象深刻的模型，但我们相信我们会继续开拓前沿并推出出色的产品，所以很高兴能有另一个竞争对手。” Meta扎克伯格：“DeepSeek技术非常先进。这是一场差距很小的竞争。”虽然DeepSeek已证明研发AI所需的资金和算力比之前预想的要少，但Meta不会因此减少AI支出：“我仍然认为，从长远来看，大力投入资本支出和基础设施建设将成为一种战略优势。”卷积神经网络之父YannLeCun:“与其说中国AI正在追赶美国，不如说开源模型正在超越闭源”。 Anthropic CEO达里奥·阿莫迪：我认为一个公平的说法是“DeepSeek生产的模型接近7-10个月前美国模型的性能，成本要低得多（但远不及人们建议的比例）” Scale AI创始人亚历山大·王：“DeepSeek可能改变中美在人工智能竞赛中的格局” 游戏科学创始人冯骥：”DeepSeek，可能是个国运级别的科技成果。”“如果有一个AI大模型做到以下任何一条，都是超级了不起的成就，但DeepSeek全部同时做到了：强大、便宜、开源、免费、联网、本土” -8-面壁智能首席科学家刘知远：“DeepSeek的意义更像Llama。DeepSeekR1相当于是像2023年初的OpenAIChatGPT一样，让所有人真正地感受到了震撼” DeepSeek影响：门槛全面降低，千行百业加速融AI DS作为一款现象级应用，对全社会开展了一次人工智能科普再教育，DSC端应用人人装，人人感受人工智能，政府、企业管理者认识到人工智能战略意义，由探索尝试，升级为战略布局，市场进入爆发期 DS上线20日，日活超4000万，已达到ChatGPT74%，成为C端现象级应用。微信、钉钉等头部应用纷纷接入截至2月15日，全国10省省委书记将人工智能作为新春第一会重点部署，B端大模型应用进一步加速 DeepSeek影响：格局被打乱，AI竞争进入第二阶段 DS开源策略全面冲击基础模型商业模式，将大厂在C端、B端过去一年构建的技术优势拉回同一起跑线，市场竞争从一阶段比拼模型能力，进入比拼应用、数据、工程化交付能力的第二阶段 C端AI应用市场格局重构，新入局者迎来机遇 B端客户全面评估DS影响，重新论证基础模型选型 DS国内登顶、全球仅次于GPT，月均活跃用户数跃居第一，全球全端DAU近1.2亿；纳米AI搜索（原360）将其核心模型换为DS1月web端访问量登顶、APP端增速位列第2 •某机构接国家FGW通知，全面评估DS影响，组织专题论证会，重新评估基础模型选型，由原某公司大模型为主，转为吸纳多家模型，重点引入DS •山东省委书记于开年第一天工作会上，明确部署省数据局研究DS，研究人工智能 •某央企董事长在开年第一天即召集全管理层会议，开展AI全面赋能生产运营工作部署 •中石油、中石化、南网、星网、中广核、中铝等央国企均在拥抱对接或重新研判中美在AI领域的对比：人才与技术 n我国高端人才的数量和密度跟美国有明显差距n我国AI领域重大原创性成果的数量落后于美国中美在AI领域的对比：企业 n中美头部高科技企业的市值差距非常显著 n我国AI独角兽的数量和估值落后于美国 n美国7大科技公司市值：均在万亿美元以上，合计约18万亿美元n中国7大科技公司市值：第一名5600亿美元，合计约1.4万亿美元中美在AI领域的对比：GPU芯片 n美国企业在GPU芯片领域占据绝对优势，尤其英伟达芯片性能高、生态成熟n国产芯片近几年进步很快，但在性能、产能、软件适配和生态方面还有显著差距美中 l英伟达：拥有A100、H100、B200等GPU芯片，性能和稳定性遥遥领先，又有CUDA生态加持，在AI芯片市场牢牢占据主导地位lAMD：MI300系列lGoogle: TPUlGroq：高性能AI推理芯片l博通：在ASIC（专用集成电路）定制芯片领域表现突出，2024年市值突破万亿美元 l华为：昇腾系列芯片，产品性能和销量国内领先，910B性能对标A100l其它国产芯片厂商：海光、寒武纪、燧原科技、沐曦、天数智芯、摩尔线程、壁仞科技、昆仑芯科技、阿里平头哥等中美在AI领域的对比：头部大模型 n在模型效果上，中国大大缩小了与美国的差距，呈现与美国平分秋色的格局 n模型开源领域：DeepSeek超越Meta，成为效果最好的开源模型，阿里巴巴千问系列模型下载量超过Meta的Llama系列 DeepSeek对中美科技竞争产生深刻影响中：突破技术封锁，在大模型这个关键赛道上与美国的差距无限缩小，信心增强，科技股崛起美：发现在模型的技术创新上已经被中国追赶并部分超越，危机感和压力陡然增加，预计会加大对华技术封锁（更严格的芯片禁令等）美国上升到影响国家安全，拟进一步收紧对华芯片政策美参议员提出《2025年美国与中国人工智能能力脱钩法案》，有脱钩风险 •特朗普：“DeepSeek的技术进步为美国敲响了警钟” 2025年1月29日，美国参议员Josh Hawley提出《2025年美国与中国人工智能能力脱钩法案》,旨在全面切断中美在人工智能（AI）领域的技术合作、资本流动，以遏制中国在AI领域的竞争力，保护美国技术优势 •美国新任白宫新闻秘书卡罗琳·莱维特：“白宫正在努力确保美国人工智能的主导地位，美国国家安全委员会正对DeepSeek开展国家安全调查” •美国商务部长提名人霍华德·卢特尼克：指责DeepSeek抄袭美国科技公司并违反美国芯片出口禁令来建立其模型。“我们需要停止帮助他们。Meta的开放平台（开源模型Llama）让DeepSeek依赖它。他们购买了大量英伟达的芯片，并找到了自己的方法，推动了他们的DeepSeek模型。这种情况必须结束。” ①AI技术与知识产权流动禁令：法案禁止从中国进口或向中国出口任何与AI相关的技术或知识产权，包括芯片（GPU、CPU等）、存储设备、操作系统、云计算服务等核心硬件和软件，以及版权、专利、商业秘密等知识产权。 ②AI研发合作全面禁止：美国公民、绿卡持有者及机构不得在中国境内从事AI研发，也不得与中国的“受关注实体”（包括高校、企业、政府机构等）及其海外子公司合作。 •美国商务部工业与安全局BIS启动对新加坡芯片转口贸易调查，核查HS8542类目芯片是否违规流向DeepSeek，拟议对华禁售H20芯片 ③对华AI投资彻底切断：禁止美国个人或机构投资中国AI企业的公开股票和证券，防止资金间接支持中国AI发展。 •美国国会、得州、NASA、美国海军、美国国防部已禁止使用deepseek。 ④处罚措施：刑事处罚：个人最高罚款100万美元、监禁20年；企业罚款1亿美元，并取消联邦合同及许可证。民事赔偿：违规者需支付三倍损失赔偿及诉讼费用，并可能被禁止获得联邦资助5年。驱逐出境：违者可能被驱逐出境（非美国公民）或面临高额罚款 •Anthropic CEO达里奥·阿莫迪：对于DeepSeek的崛起，美国应该加强管制 ⑤针对DeepSeek的特别禁令，使用或下载中国AI公司DeepSeek的产品将被视为犯罪，最高判20年监禁。国内主流大模型国内外主流大模型工具/应用大模型赋能政务热线应用 n联通数智公司联合辽宁产互等打造政务热线大模型，已落地辽宁、北京等多省市12345项目政务热线大模型 全面上线辽宁省热线平台：服务80+坐席人员，工单填单时间由186s/单下降到133s/单；工单记录完整度提升30%在热点事件分析场景：处理90余万张工单，完成12万个小区数据抽取，形成供水、供电、供热等6类单位画像热线数据报告：围绕投诉、求助、建议与举报信息开展时空定位、问题萃取、颗粒缩放、精细诊断等多维度分析，输出周期报告和专题报告大模型辅助政府经济决策经济运行大模型落地北京发改委、广东政数局等多省市项目北京发改委AI经济运行监测分析应用 2023年10月，服务北京发改委面向经济领域数据查询及分析、报告撰写、经济领域知识问答等业务场景，实施经济大模型，打造“学文件、读数据、出观点、快呈现”的高效AI工具，赋能经济运行调度工作，人工智能辅助经济决策；打造国内首个经济数据分析智能体和区域经济分析智能体。广东政数局”粤经济“平台 “粤经济”全面打通了横向30多个厅局和纵向21个地市的经济运行相关数据，实现全省经济发展分析”一屏总览”；元景—经济大模型在“粤经济”上部署实施，发挥联通多源大数据的独特优势，基于全国高质量经济语料，打造经济垂直领域大模型，模型在查数据、问知识、做推理、快分析等经济领域任务中都表现良好。大模型赋能公安智能化 n联通数智公司联合北京联通等打造元景公安大模型，在北京西城、安徽省厅等多省市视侦智能化升级项目试点应用利用以图搜图、以文搜图，检索监控内容，提升办案效率在北京西城区公安局试点，提供以特征搜特

点击免费查看完整报告

DeepSeek洞察与大模型应用人工智能技术发展与应用实践

DeepSeek公司概况

DeepSeek-V3

DeepSeek-R1

DeepSeek模型效果

DeepSeek不同版本对比

DeepSeek出圈原因分析

外部评价

DeepSeek影响

对全社会的影响

对市场竞争的影响

具体应用案例

DS应用落地面临的挑战

认识大模型的局限性

幻觉

算力消耗大

知识实时更新能力差

偏见、隐私与安全

认识大模型的优势和特色

你可能感兴趣

2025未来人工智能趋势研判——中国人工智能行业大模型应用实践与展望报告-世界互联网大会

人工智能在生命科学商业化中的应用白皮书：来自2025年商业领袖调查的战略洞察与实践建议

2025年DeepSeek大模型及其企业应用实践报告-每个人都可以读懂的大模型科普报告（企业篇）

2024爱分析·央国企数字化应用实践报告——DeepSeek引领技术潮流,央国企应重新规划大模型算力投入和应用节奏

DeepSeek消费电子行业大模型新型应用最佳实践分享

DeepSeek大模型及其企业应用实践每个人都可以读懂的大模型科普报告（企业篇）

2025年中国银行大模型部署实践：DeepSeek如何优化银行业的算力资源与运营效率

2025年人工智能技术发展与应用探索演讲

DeepSeek深度应用及创新实践培训与辅导（政务办公）

2025 DeepSeek开源大模型系列：技术特性与行业应用

DeepSeek洞察与大模型应用 人工智能技术发展与应用实践

你可能感兴趣

2025未来人工智能趋势研判——中国人工智能行业大模型应用实践与展望报告-世界互联网大会

人工智能在生命科学商业化中的应用白皮书：来自2025年商业领袖调查的战略洞察与实践建议

2025年DeepSeek大模型及其企业应用实践报告-每个人都可以读懂的大模型科普报告（企业篇）

2024爱分析·央国企数字化应用实践报告——DeepSeek引领技术潮流,央国企应重新规划大模型算力投入和应用节奏

DeepSeek消费电子行业大模型新型应用最佳实践分享

DeepSeek大模型及其企业应用实践 每个人都可以读懂的大模型科普报告（企业篇）

2025年中国银行大模型部署实践：DeepSeek如何优化银行业的算力资源与运营效率

2025年人工智能技术发展与应用探索演讲

DeepSeek深度应用及创新实践培训与辅导（政务办公）

2025 DeepSeek开源大模型系列：技术特性与行业应用

DeepSeek洞察与大模型应用人工智能技术发展与应用实践

DeepSeek大模型及其企业应用实践每个人都可以读懂的大模型科普报告（企业篇）