行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

DeepSeek：智能时代的全面到来和人机协作的新常态报告

信息技术2025-02-25孙凌云浙江大学F***

AI智能总结

DeepSeek智能时代的全面到来和人机协作的新常态

智能演变

大模型预训练数据规模显著增长：从2018年的GPT-1（4.6GB）到2020年的GPT-3（45TB），相当于三千万本《西游记》，主要数据集包括维基百科、书籍、杂志期刊、Github代码等。
大模型知识空间：从多媒体知识空间到人类知识空间，再到大模型知识空间，最终实现个体知识空间的全覆盖。
大模型训练过程：包括预训练、监督微调（SFT）和人类反馈强化学习（RLHF），DeepSeek-R1-Zero结合准确性奖励和格式奖励，通过GRPO算法优化模型。
思维链（CoT）技术：DeepSeekR1首个将思维链显式展示的开源模型，通过模拟人类逐步推理过程提升复杂任务处理能力。

人机协作

人机协作模式：从人类完成绝大部分工作，到人类设立任务目标AI提供信息或建议，再到人类AI协作工作，最终实现AI全权代理。
AI工具应用：生成式AI工具数量迅猛增长，2023年8813个，2024年13795个，覆盖233个分类，162万个AIAPI。
人机协作新常态：AI成为生产工具，提升效率，创造新工作机会，可能推动工作时长缩短至每周4天。

产业现状

AI大模型发布情况：2024年全球发布149个大模型（中国20个），2025年2月观测534个大模型（中国117个）。
DeepSeek应用案例：百度搜索、微信搜索、支付宝百宝箱、高德地图、南方电网、华为云、深圳福田政务、吉利汽车、中国移动等。
DeepSeek开源策略：加速AI技术普惠化，头部应用深度集成，企业级场景在垂直领域取得突破。
AI应用技术：提示词工程、检索增强生成（RAG）、微调（Fine-tuning）。

教育成长

AI对教育的影响：提升教和学效率，改变师生关系，从教师-学生二元结构转变为人工智能-教师-学生三元结构。
AI支持个性化学习：浙大大先生、智海MO平台等提供个性化学习、课程设计、教学管理。
教育变革方向：知识的生产、传播、传授方式急剧变迁，围绕知识的方法论、系统论愈发重要，高级能力和素养更加关键。
AI能力提升：树立基本AI意识，试用和使用前沿AI工具，和AI一起成长，关注AI能力的提升。
AI与学科融合：所有学科都在经历“图灵测试”，人类借由AI重新定义知识的疆域。

孙凌云教授计算机科学与技术学院2 0 2 5年2月一、智能演变二、人机协作三、产业现状四、教育成长 GPT训练数据规模史无前例从2018年的GPT-1到2020年的GPT-3，模型预训练数据量从4.6GB增加到了45TB45TB相当于三千万本《西游记》主要模型数据集包括： -维基百科数据集（庞大的客观知识）-书籍（故事讲述能力与反应）-杂志期刊（语言生成的严谨）-Github代码等其他数据（逻辑推理）表：主要数据集大小汇总，以GB为单位。公开的数据集以粗体表示，确定的数据以斜体表示。Common Crawl数据集过滤之前为45T 大模型带来大知识三体人如何学习地球知识？三体人如何学习地球知识？电磁波探测器拯救派三体人如何学习地球知识？电磁波探测器拯救派地球文明信息原始数据、无目标性人类反馈实现对齐动态反馈、价值博弈探测器搜集数据集精准观察、查漏补缺三体人如何学习地球知识？电磁波拯救派探测器地球文明信息原始数据、无目标性探测器搜集数据集精准观察、查漏补缺人类反馈实现对齐动态反馈、价值博弈价值观校准三体人如何学习地球知识？电磁波拯救派探测器监督微调S u p e r v i s e dF i n e-T u n i n g( S F T ) 人类反馈强化学习R e i n f o r c e m e n tl e a r n i n gh u m a nf e e d b a c k( R L H F ) 预训练P r e-t r a i n i n g 参考GPTAssistantTrainingPipelineAndrejKarpathy.How to trainyour(Chat)GPTAssistant-An emerging recipe, 2023年5月25日三体人如何学习地球知识？基础模型D e e p S e e k-V 3-B a s e 强化学习 DeepSeek-R1-Zero的训练过程结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日三体人如何学习地球知识？探测器+拯救派基础模型D e e p S e e k-V 3-B a s e 强化学习 R e i n f o r c e m e n t l e a r n i n g/G R P O数学题自动判分/编程题实战演练/阶梯进化 DeepSeek-R1-Zero的训练过程结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日 A conversation between User and Assistant.The user asks a question, and the Assistant solves it.The assistant first thinks about the reasoning process in themind and then provides the user with the answer.The reasoning process and answer are enclosed within<think> </think> and <answer> </answer> tags, respectively,i.e., <think> reasoning process here </think> <answer>answer here </answer>. 强制输出过程 <think> </think>标签内是推理过程<answer> </answer>是最终内容为强制思考，模型第一个输出单词必定为<think> 这是用户和助手之间的对话。用户提出一个问题，助手解决它。助手首先在脑海中思考推理过程，然后为用户提供答案。推理过程和答案分别包含在<思考></思考>和<回答></回答>标签中。即：<思考>推理过程在这里</思考><回答>在这里回答</回答> Ahamoment顿悟时刻人类长期思考后的灵感闪现强化学习中的奖励信号引导结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.129482025年1月22日 Ahamoment顿悟时刻人类长期思考后的灵感闪现强化学习中的奖励信号引导结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.129482025年1月22日求是小学组织去距离90公里的博物馆春游，全班同学8:00从学校坐大巴车出发。班主任老师因为有事情，8:10自己自驾小车以大巴车快1/3的速度追赶，结果比大巴车提前20分钟到。问：（1）大巴和小车的速度各是多少？（2）班主任老师追上大巴的地点距离博物馆还有多远？求是小学组织去距离90公里的博物馆春游，全班同学8:00从学校坐大巴车出发。班主任老师因为有事情，8:10自己自驾小车以大巴车快1/3的速度追赶，结果比大巴车提前20分钟到。问：（1）大巴和小车的速度各是多少？（2）班主任老师追上大巴的地点距离博物馆还有多远？求是小学组织去距离90公里的博物馆春游，全班同学8:00从学校坐大巴车出发。班主任老师因为有事情，8:10自己自驾小车以大巴车快1/3的速度追赶，结果比大巴车提前20分钟到。问：（1）大巴和小车的速度各是多少？（2）班主任老师追上大巴的地点距离博物馆还有多远？解题步骤更重要思维链（Chain of Thought，CoT） -通过模拟人类逐步推理过程来提升人工智能模型复杂任务处理能力的技术-核心是将问题拆解为多个中间步骤，引导模型生成逻辑链条，从而增强推理的准确性和可解释性基本原理 -分布推理：思维链通过将复杂问题分解为更小的子问题，逐步构建答案-显示中间过程：与传统直接输出答案的方式不同，CoT要求模型引入推导过程 DeepSeekR1首个将思维链显式展示的开源模型马斯克发布的大模型 2月18日正式发布 -通过X平台直播-展示火星轨道计算、游戏开发等实际应用场景-计算能力为Grok 2的10倍-展示深度搜索2月20日：开放免费试用（至服务器超负荷为止） xAI的定制超级计算机世界最大的AI训练集群之一第一阶段：仅122天内完成，部署了100,000个H100 GPU在第二阶段：在另外92天内将计算能力翻倍。允许持续训练，这意味着Grok3在更多用户与其互动时仍在实时改进视频案例网址：https://metaso.cn/s/TM0D0rP 政治局会议首提AGI 2023年4月28日，中共中央政治局召开会议分析研究当前经济形势和经济工作：要巩固和扩大新能源汽车发展优势，加快推进充电桩、储能等设施建设和配套电网改造。要重视通用人工智能发展，营造创新生态，重视防范风险。人类能力标尺 1.能力而非过程2.广度和深度3.认知和元认知任务4.潜力而非部署5.生态效度6.关注通向AGI的路径人类能力标尺 1.能力而非过程2.广度和深度3.认知和元认知任务4.潜力而非部署5.生态效度6.关注通向AGI的路径任务复杂度标尺 OpenAI2024年7月公布用于追踪人工智能向人工通用智能（AGI）发展的进程将AI能力分为从基础对话到全面组织管理的不同阶段没有纠结是否真正理解世界关注在场景中的能力能力涌现不可逆社会影响倒计时人机协作新常态一、智能演变二、人机协作三、产业现状四、教育成长新工作机会和体面工作诺贝尔经济学奖得主克里斯托弗·皮萨里德斯较长的转型过渡期 -AI融入生产过程不会那么迅速技能提升是关键 -大部分人要做的是技能提升，即学会使用AI 新工作机会出现 -工作毁灭（JobDestruction） -工作创造（JobCreation）体面工作的机会 -提升幸福感、有可能转向每周4天工作制日均工作时间下降从第二次工业革命到二战结束的80年间，全球每个工人的劳动时间每年减少0.5%生成式人工智能可以将每个工人的平均劳动时间降低1.3%从2022年每天5小时到2030年的4.5小时来源：Stella, F., Della Santina, C. & Hughes, J. How can LLMs transform the robotic designprocess. Nature Machine Intelligence. 5, 561–564 (2023). https://doi.org/10.1038/s42256-023-00669-7 2023年6月7日来源：Stella, F., Della Santina, C. & Hughes, J. How can LLMs transform the robotic designprocess. Nature Machine Intelligence. 5, 561–564 (2023). https://doi.org/10.1038/s42256-023-00669-7 2023年6月7日 LatentConsistencyModels潜在一致性模型来源：https://twitter.com/gong_cn/status/1726501516285264303https://huggingface.co/blog/lcm_lora2023年11月9日一、智能演变二、人机协作三、产业现状四、教育成长 AI大模型发布情况斯坦福大学2024 AI Index Report -数据截至2024年1月31日 -全球发布149个大模型（其中中国20个）根据LifeArchitect.ai（持续更新） -2025年2月20日 AI工具迅猛增长根据Toolify.ai统计（2025年2月20日访问）-23915个AI工具-233个分类-162万AIAPI其中：-2023年8813个-2024年13,795个（57%） https://a16z.com/100-gen-ai-apps-3/ AI工具迅猛增长 DeepSeek的开源策略正在加速AI技术普惠化 -头部应用正在/即将完成深度集成（社交/搜索/推荐），聚焦：交互体验-企业级场景在电力、政务、医疗等垂直领域取得突破，聚焦：系统级优化瓶颈：算力成本、数据合规性和人才储备支付宝-百宝箱（网页端）百度（网页端）微信（搜索-AI搜索）提示词工程 Prompt Engineering提示词工程-通过精心设计输入提示,引导LLM生成期望的高质量输出-无需重新训练模型,不需要标注数据-一些提示工程框架可以显著增强LLM的推理能力-灵活性、使用简单 Retrieval-AugmentedGeneration, RAG Fine-tuning 微调

点击免费查看完整报告