行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

从技术突破到场景落地：大模型发展图谱与DeepSeek创新应用-中山大学

文化传媒 2025-03-01 中山大学软件工程学院邓轶韬

人工智能大模型发展现状

DeepSeek热潮：DeepSeek通过多个版本的发布（DeepSeekLLM、DeepSeek-MoE、DeepSeekMath、DeepSeek-V2、DeepSeek-R1-Lite-Preview、DeepSeek-V3、DeepSeekApp、DeepSeek-R1）迅速崛起，获得国内云服务厂商的广泛接入，并成为央国企数字化转型“新基建”，应用于通信、能源、汽车、金融、智慧政务等多个领域。
DeepSeek核心价值：DeepSeek-R1模型采用纯强化学习方法（PureRL），通过数学、物理、编程等有标准答案的题目进行训练，实现长思维链推理，并在知识密度和推理能力上取得显著提升。

大模型发展趋势

知识密度提升：随着摩尔定律趋缓，大模型开始依赖更高效的架构优化，知识密度成为模型能力提升的关键指标。
智慧飞轮：大模型由数据飞轮向智慧飞轮升级演进，使用合成数据进行训练成为主流，强化学习新范式带来AI模型的自我迭代。
Test-time scaling：模型能力提升维度包括预训练计算量、模型尺寸、数据量、思考时间，Test-time scaling成为通往AGI的重要路径。
通用与垂域协同：通用大模型与垂域大模型协同发展，通用大模型决定垂域大模型的下限，但垂域大模型在专业领域更有效。
本地部署：小模型本地部署成为主流应用渠道，资源要求低，数据安全性高，拓宽落地场景。

大模型重点应用场景

与现实世界交互：端侧大模型应用于智能眼镜、手机、智慧台灯等设备；具身智能结合灵巧操作和触觉感知技术，在工业制造、医疗健康、教育与服务领域发挥作用。
与数字世界交互：智能客服与虚拟助手处理用户咨询、商品推荐、售后问题等；内容创作与媒体生成自动撰写新闻稿件、生成广告文案、多模态内容生成等；智能体（Agent）通过提示词技术调用工具和知识库，实现在线网页搜索等功能。

DeepSeek能力赋能个人发展

DeepSeek使用途径：支持网页端（官网、腾讯元宝、WPS灵犀、知乎直答）和手机端（应用商店下载、官网下载）。
DeepSeek提示词技巧：有话直说、名词解释、增强思考、语气定制、结构化输出。
DeepSeek应用场景：文本读写、公文写作、文档阅读、文档写作、知识搜索、论文写作、研究现状调研、办公提效（音视频会议纪要、PPT生成、统计图表、流程图生成）、创意设计（演讲插图、海报制作、创意插图、视频）、深度用法（个人知识库、编程、Excel表格处理、工作流、迁移深度思考）、AI工具本地部署、领域模型微调。
实操案例：DeepSeek+领域问答助手。
AI协作：80%定义问题，20%判别结果。

从技术突破到场景落地：大模型发展图谱与DeepSeek创新应用李煜政中山大学软件工程学院 2025年03月 人工智能大模型发展现状 DeepSeek破圈后的大模型发展趋势 大模型重点应用场景 DeepSeek能力赋能个人发展 2024年3月5日，李强总理在十四届全国人大二次会议上作《政府工作报告》，其中提出：开展“人工智能+”行动。 人工智能的定义 ArtificialIntelligence，缩写为AI 1955年，约翰·麦卡锡定义为：“制造智慧机器的科学与工程”。 1989年，罗杰·彭罗斯定义为：“通过机器（通常是电子设备）尽可能多地模仿人类智力活动，并可能在这些方面提高人类的能力”。约翰·麦卡锡（人工智能之父） 人工智能的分类 弱人工智能ArtificialNarrowIntelligence(ANI) •擅长于单个方面的人工智能 强人工智能ArtificialGeneralIntelligence(AGI) •人类级别的人工智能，在各方面都能和人类比肩 超人工智能ArtificialSuperintelligence(ASI): •“在几乎所有领域都比最聪明的人类大脑都聪明很多，包括科学创新、通识和社交技能。”——牛津哲学家，知名人工智能思想家NickBostrom Gartner十大科技趋势预测 2017：人工智能和先进机器学习（第1） 2018：人工智能基础（第1） 2019：自动化的一切（第1） 2020：人工智能安全（第10） 2021：人工智能工程化（第8）、超级自动化（第9） 2022：生成式AI（第12） 2023：自适应AI（第4） 2024：全民化的生成式AI（第1）、AI信任、风险、安全管理（第2） 2025：代理型AI（第1）、AI治理平台（第2） 7000 6000 5000 4000 AI技术积累推荐系统决策决策式AI大规模应用电商：广告、商品等推荐娱乐：新闻、视频、音乐、游戏等推荐人脸识别：FaceID 身份认证生成式AI部分应用趋于成熟生内容科研成建筑式航天 AI医疗式 AI 3000 2000 1000 0 图像识别内容审核 … … 材料自动驾驶能源文本分类、情感分析、规则引擎等 2015及以前决策式AI 20162017201820192020 20212022 生成式AI爆发 2023 E 2024 E 2030 E LLM的原理：大参数函数 GPT4包含18000亿个参数（传言）人脑约有1000亿个神经元 人工智能相比人类的优点 速度：计算（机器2GHzvs人脑200Hz）、信息传播（光速vs人脑120m/s) 容量：机器具有更大的储存空间 可靠性和持久性：晶体管比神经元更加精确可靠 可编辑性、升级性：软件更容易升级、修正、测试 集体能力：机器>人类>其他物种 人工智能的发展需要受到规范 IQ:100 IQ:70 IQ<50 IQ<5 ChatGPT平均智商83、言语智商155 人工智能的发展需要受到规范无法理解+影响巨大=生存危机？ 四次工业革命第三次工业革命信息化和数字化第四次工业革命？？？第一次工业革命机械化机械应用工厂出现工人阶级第二次工业革命电气化和自动化电器应用流水线出现专业管理层信息技术 DeepSeek热潮 DeepSeek版本发布路径 23年11月：DeepSeekLLM 24年1月：DeepSeek-MoE 24年2月：DeepSeekMath 24年5月：DeepSeek-V2 24年11月20日：DeepSeek-R1-Lite-Preview 24年12月26日：DeepSeek-V3 25年01月15日：DeepSeekApp 25年01月20日：DeepSeek-R1 25年01月27日：DeepSeek暴击美股 AI工具软件的日活量、下载量（紫线-ChatGPT、红线-DeepSeek）国内AI软件的关注度（微信指数） DeepSeek版本发布路径 23年11月：DeepSeekLLM 24年1月：DeepSeek-MoE 24年2月：DeepSeekMath 24年5月：DeepSeek-V2 24年11月20日：DeepSeek-R1-Lite-Preview 24年12月26日：DeepSeek-V3 25年01月15日：DeepSeekApp 25年01月20日：DeepSeek-R1 25年01月27日：DeepSeek暴击美股 全球云服务厂商火速接入 1月31日，英伟达、亚马逊、微软云全部接入DeepSeek 2月1日~2月3日，国内云厂商陆续宣布接入DeepSeek 成为央国企数字化转型“新基建” 通信行业 三大运营商：移动、联通、电信，全面接入DeepSeek，应用于智能客服和云计算赋能 能源行业 电力：南方电网“大瓦特”；国家电网“光明电力大模型”；中国华电“华电睿思” 三桶油：中国石油昆仑大模型；中国石化长城大模型；中国海油海能人工智能模型 汽车行业 东风汽车、长安汽车、吉利、极氪：应用于智能语音交互、AI导航系统及自动驾驶辅助 金融行业 国有银行、十余家券商：完成本地部署，应用于信息检索、行业研究、合规问答等场景 延伸到智慧政务领域 北京市 丰台区、昌平区、海淀区：部署DeepSeek用于优化行政审批流程与数据分析 广东省 广州市：政务服务和数据管理局，部署DeepSeek-R1/V3模型，应用于民生政策解读、12345热线工单分派等场景 深圳市：基于政务云提供DeepSeek模型服务，覆盖龙岗区、福田区、大鹏新区等，实现政务应用一体化升级 佛山市：完成DeepSeek本地化部署，接入“粤治慧·佛山城市大脑”，支撑智能问答、公文写作等政务功能 珠海市：政务服务和数据管理局，在市电子政务外网上线DeepSeek-R1671B大模型 江苏省 南京、苏州、无锡、常州、盐城、连云港等地：接入DeepSeek用于优化营商环境、政策解读及智能客服 江西省 赣州市：作为省内首个部署DeepSeek的城市，应用于政务服务与城市治理 河北省 秦皇岛市：交通运输局引入DeepSeek推动智慧交通建设，数据和政务服务局上线智能审批助手 DeepSeek核心价值赏析 DeepSeek简介 DeepSeek-R1能力 推理模型是什么？ 《Modelneedsmoretokenstothink》思维链（Chain-of-Thought，CoT） 案例： “计算Starwberry里有几个r” “计算Starwberry里有几个r？请一步步来，先拆解单词拼写，再计算每个字母是否是r，同时注意可能有连续出现的相同字母r” 思维链技术的局限性 对用户的专业技能要求高、使用门槛高 例如： 两个能量分别为E1和E2的量子态，其寿命分别为10^-9秒和10^-8秒。我们希望清晰区分这两个能级，以下哪个选项可能是它们的能量差值，使得二者能够被明确分辨？ 请拆解为思维链… 推理模型 自动生成链式思考的过程非推理模型 推理模型的适用场景 适用： 谜题、数学证明 复杂决策 开放式答案 需要显式的思考步骤 不适用： 简单问题 知识性问答 娱乐聊天 延迟要求高 长思维链的效果 2024年9月GPT-o1发布后，借助LongInternalCoT，在数学竞赛，编程竞赛，科学问答方面显著提升，甚至击败人类专家。 但是，OpenAI的闭源、甚至主动隐藏深度思考过程，有意地避免全球科研团队跟进技术 o1的逻辑能力提升显著向o1询问深度推理过程会收到警告 复现o1推理能力的探索过程 主流探索方向 PRM（过程监督奖励模型）主流的研发方向没有跳出PRM模式 复现o1推理能力的探索过程 Kimi团队，从蛛丝马迹中，找到关键破局点 TrainLLMsthroughRLtosolveproblemswithexactrewards Avoidstructuredapproachesastheyultimatelylimitmodelperformance;letthemodelexplorethinkingparadigmsonitsown Thinkingincludessearchprocessesandallowsformistakes DeepSeek模型的演化路径–阶段1 DeepSeek团队，提出DeepSeek-R1-Zero的纯强化学习方法（PureRL），以数学、物理、编程等有标准答案的题目进行训练 准确度激励： 问“1+1=？”答2，加一分；答1，零分 格式激励： 问“1+1=？” 答：用户问我1+1等于几，这应该是一道很简单的数学题，我们可以形象的思考，我有一个苹果，再给我个，就有两个。因此答案应该是2。2加一分 答：2零分参考：https://magazine.sebastianraschka.com/p/understanding-reasoning-llms DeepSeek模型的演化路径–阶段1 在训练过程中，模型自主学会了长思考：随着训练轮次增加，平均返回结果长度逐渐上升 DeepSeek模型的演化路径–阶段1 纯强化学习，无人工指引，模型效果赶超OpenAIo1 但存在回复文本可读性差、推理过程语言混乱问题 DeepSeek模型的演化路径–阶段2 训练流程（武当梯云纵，左脚踩右脚） DeepSeek模型的演化路径–阶段2 追赶上了o1系列模型的能力 但不是谁都可以左脚踩右脚，需要强大的基础模型 DeepSeek模型的演化路径–阶段3 用生成数据，蒸馏训练其他开源模型（将大模型的知识浓缩到一个小模型上，在降低计算量的同时尽可能使小模型接近大模型的性能） 效果大幅提升（证明超大模型的SFT数据，可以低成本地显著拔高现有模型） 模型尺寸变小（引发本地部署热潮、破圈） DeepSeek对应功能 DeepSeek V3(基础模型) DeepSeek R1(深度思考) 联网搜索 RAG 人工智能大模型发展现状 DeepSeek破圈后的大模型发展趋势 大模型重点应用场景 DeepSeek能力赋能个人发展 从摩尔定律到知识密度提升 摩尔定律趋缓 定律：每隔大约18个月，集成电路上可容纳的晶体管数量将翻倍，同时计算性能也会随之提升，而成本保持不变 近年来摩尔定律趋缓（芯片制程接近物理极限），单纯依赖芯片性能提升已无法满足大模型指数级增长的算力需求 大模型开始依赖更高效的架构优化 知识密度：每一次的计算所需要参与的参数以及对应能力所需要消耗的算力 一个知识密度越强的模型意味着能力越强，每一次计算所需要的参数规模越小 模型的知识密度增强将呈现出每8个月提升一倍的规律 大模型由数据飞轮向智慧飞轮升级演进 使用合成数据进行训练成为主流智慧飞轮 1.解锁更多技能 2.与人类对齐基模型智慧内容的生成智慧内容：生成式AI，AIGeneratedContent 强化学习新范式，带来AI模型的自我迭代循环数据数据飞轮算法模型互动级升 Test-timescalinglaw 模型能力提升维度：预训练计算量、模型尺寸、数据量、思考时间 Test-timescalinglaw 2025年国际消费电子展（CES2025）——全球最大的消费电子展上，Nvidia（

点击免费查看完整报告

从技术突破到场景落地：大模型发展图谱与DeepSeek创新应用-中山大学

人工智能大模型发展现状

大模型发展趋势

大模型重点应用场景

DeepSeek能力赋能个人发展

你可能感兴趣

2025从技术突破到场景落地大模型发展图谱与DeepSeek创新应用报告

2025大模型原理、技术与应用：从GPT到DeepSeek

议题一：视频生成从技术突破到视听场景规模化应用

从实验室到真实场景：以创新融资生态推动气候技术初创企业的“关键突破”阶段

从实验室到真实场景以创新融资生态推动气候技术初创企业的“关键突破”阶段

大模型Seedance 2.0 技术突破与核心应用场景

浙江大学DeepSeek系列专题线上公开课(第二季) 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

DeepSeek如何赋能职场应用——从提示语技巧到多场景应用（0212）

DeepSeek系列专题线上公开课（第二季）：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

人工智能行业：DeepSeek如何赋能职场应用？——从提示语技巧到多场景应用

从技术突破到场景落地：大模型发展图谱与DeepSeek创新应用-中山大学

你可能感兴趣

2025从技术突破到场景落地大模型发展图谱与DeepSeek创新应用报告

2025大模型原理、技术与应用：从GPT到DeepSeek

议题一：视频生成 从技术突破到视听场景规模化应用

从实验室到真实场景：以创新融资生态推动气候技术初创企业的“关键突破”阶段

从实验室到真实场景 以创新融资生态推动气候技术 初创企业的“关键突破”阶段

大模型Seedance 2.0 技术突破与核心应用场景

浙江大学DeepSeek系列专题线上公开课(第二季) 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

DeepSeek如何赋能职场应用——从提示语技巧到多场景应用（0212）

DeepSeek系列专题线上公开课（第二季）：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

人工智能行业：DeepSeek如何赋能职场应用？——从提示语技巧到多场景应用

议题一：视频生成从技术突破到视听场景规模化应用

从实验室到真实场景以创新融资生态推动气候技术初创企业的“关键突破”阶段