行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

DeepSeek智能时代的全面到来和人机协作的新常态

文化传媒2025-02-01浙江大学风***

AI智能总结

一、智能演变

大模型预训练数据规模持续增长：从2018年的GPT-1（4.6GB）到2020年的GPT-3（45TB，相当于三千万本《西游记》），主要模型数据集包括维基百科、书籍、杂志期刊、Github代码等，涵盖客观知识、故事讲述能力、语言生成严谨性、逻辑推理等。
大模型参数量和训练成本优化：DeepSeek-V3采用MoE架构，参数量671B，训练成本557.6万美元，仅为Llama3的7%。通过FP8混合精度训练、DualPipe双向流水线优化、跨节点MoE通信优化、自适应计算分配机制等提升算力利用率，并采用强化学习直接用于基础模型训练，知识蒸馏技术缩短后训练周期。
大模型知识空间拓展：大模型的知识空间从个体知识空间扩展到多媒体知识空间，最终汇聚到全体人类知识空间，带来大知识、通用人工智能的可能性。

二、人机协作

人机协作模式演进：从人类AI（Copilot模式）、人类和AI协作（Agents模式）到AI全权代理（代理人模式），AI在协作中的角色逐渐从辅助工具转变为合作伙伴，甚至替代部分人类工作。
人机协作新常态：AI大模型的出现，使得人机协作进入新常态，AI成为人类提升效率、拓展能力的工具，例如在机器人设计、智能家居、内容创作、教育等领域的应用。
人机协作伦理思考：AI大模型的发展也带来伦理挑战，例如过度透明可能导致模型被逆向工程、决策偏见难追溯等，需要关注AI能力的提升，树立基本AI意识，试用和使用前沿AI工具，和AI一起成长。

三、产业现状

AI大模型发布数量激增：根据LifeArchitect.ai统计，截至2025年2月20日，全球已发布534个大模型，其中中国117个。
AI工具迅猛增长：根据To o l i f y. a i统计，截至2025年2月20日，全球已有23915个AI工具，覆盖233个分类，162万AIAPI。
AI大模型应用场景丰富：AI大模型在消费级和企业级场景均有广泛应用，例如百度搜索、微信搜索、支付宝百宝箱、南方电网、华为云、深圳福田政务、吉利汽车、中国移动等。
AI大模型开源策略加速AI技术普惠化：DeepSeek的开源策略正在加速AI技术普惠化，头部应用正在/即将完成深度集成（社交/搜索/推荐），聚焦交互体验；企业级场景在电力、政务、医疗等垂直领域取得突破，聚焦系统级优化。

四、教育成长

AI大模型赋能教育：AI大模型可以用于生成教案、润色课件、出题组卷、自动阅卷、便捷搜索、快速答疑、创作辅助、实时评价等，全面提升教和学的效率。
AI大模型推动教育模式变革：AI大模型推动教育从教师-学生二元结构转变为人工智能-教师-学生三元结构，实现因材施教、查漏补缺，让学习回到了最本真的样子。
AI大模型促进教育范式重构：AI大模型的出现，所有学科都在经历“图灵测试”，人类借由AI重新定义知识的疆域，需要关注AI能力的提升，树立基本AI意识，试用和使用前沿AI工具，和AI一起成长。
AI大模型提升教育效率：浙大大先生（chat.zju.edu.cn）和智海MO平台（mo.zju.edu.cn）等平台AI大模型支持的个性化学习、课程设计、教学管理，推动教育向“以学生成长为中心”的“学生-人工智能-教师” 三元结构发展。

一、智能演变二、人机协作三、产业现状四、教育成长从2018年的GPT-1到2020年的GPT-3，模型预训练数据量从4.6GB增加到了45TB45TB相当于三千万本《西游记》主要模型数据集包括：-维基百科数据集（庞大的客观知识）-书籍（故事讲述能力与反应）-杂志期刊（语言生成的严谨）-Github代码等其他数据（逻辑推理）GPT训练数据规模史无前例来源：OpenAI团队，LanguageModels are Few-Shot Learners，https://arxiv.org/abs/2005.14165，2022年7月22日表：主要数据集大小汇总，以GB为单位。公开的数据集以粗体表示，确定的数据以斜体表示。Common Crawl数据集过滤之前为45T 由AI（DeepSeekR1）搜集并整理，经人工检查对比维度GPT-3DeepSeek-V3发布时间2020年6月2024年12月训练数据量3000亿token14.8万亿token参数量175B（密集架构）671B（MoE架构）训练成本$12M$5.57M激活参数量175B（全激活）37B（5.5%激活率）主要数据类型通用互联网文本（含代码/数学）强化代码/数学的高质量数据官方来源OpenAI技术论文HuggingFace模型卡观点来自：北京大学黄铁军教授. 2023年3月31日大模型带来大知识三体人如何学习地球知识？三体人如何学习地球知识？电磁波探测器拯救派三体人如何学习地球知识？电磁波探测器拯救派地球文明信息原始数据、无目标性探测器搜集数据集精准观察、查漏补缺人类反馈实现对齐动态反馈、价值博弈三体人如何学习地球知识？电磁波探测器拯救派地球文明信息原始数据、无目标性探测器搜集数据集精准观察、查漏补缺人类反馈实现对齐动态反馈、价值博弈原始数据基建定向能力强化价值观校准三体人如何学习地球知识？电磁波探测器拯救派预训练P r e-t r a i n i n g监督微调S u p e r v i s e dF i n e-T u n i n g( S F T )人类反馈强化学习R e i n f o r c e m e n tl e a r n i n gh u m a nf e e d b a c k( R L H F )AndrejKarpathy.How to trainyour(Chat)GPTAssistant-An emerging recipe, 2023年5月25日参考GPTAssistantTrainingPipeline 三体人如何学习地球知识？电磁波探测器+拯救派基础模型D e e p S e e k-V 3-B a s e强化学习R e i n f o r c e m e n t l e a r n i n g/G R P O结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日 DeepSeek-R1-Zero的训练过程三体人如何学习地球知识？电磁波探测器+拯救派基础模型D e e p S e e k-V 3-B a s e强化学习R e i n f o r c e m e n t l e a r n i n g/G R P O数学题自动判分/编程题实战演练/阶梯进化结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日 DeepSeek-R1-Zero的训练过程 <think> </think>标签内是推理过程<answer> </answer>是最终内容为强制思考，模型第一个输出单词必定为<think>强制输出过程https://huggingface.co/papers/2501.12948 2025年1月22日 A conversation between User and Assistant.The user asks a question, and the Assistant solves it.The assistant first thinks about the reasoning process in themind and then provides the user with the answer.The reasoning process and answer are enclosed within<think> </think> and <answer> </answer> tags, respectively,i.e., <think> reasoning process here </think> <answer>answer here </answer>.这是用户和助手之间的对话。用户提出一个问题，助手解决它。助手首先在脑海中思考推理过程，然后为用户提供答案。推理过程和答案分别包含在<思考></思考>和<回答></回答>标签中。即：<思考>推理过程在这里</思考><回答>在这里回答</回答> 结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO强化学习策略后训练V3模型Ahamoment顿悟时刻人类长期思考后的灵感闪现强化学习中的奖励信号引导 DeepSeek-R1-Zero的训练过程https://huggingface.co/papers/2501.129482025年1月22日结合准确性奖励（数学、编程等任务的可验证结果）和格式奖励（强制输出结构化标签），通过GRPO强化学习策略后训练V3模型Ahamoment顿悟时刻人类长期思考后的灵感闪现强化学习中的奖励信号引导 DeepSeek-R1-Zero的训练过程https://huggingface.co/papers/2501.129482025年1月22日求是小学组织去距离90公里的博物馆春游，全班同学8:00从学校坐大巴车出发。班主任老师因为有事情，8:10自己自驾小车以大巴车快1/3的速度追赶，结果比大巴车提前20分钟到。问：（1）大巴和小车的速度各是多少？（2）班主任老师追上大巴的地点距离博物馆还有多远？求是小学组织去距离90公里的博物馆春游，全班同学8:00从学校坐大巴车出发。班主任老师因为有事情，8:10自己自驾小车以大巴车快1/3的速度追赶，结果比大巴车提前20分钟到。问：（1）大巴和小车的速度各是多少？（2）班主任老师追上大巴的地点距离博物馆还有多远？求是小学组织去距离90公里的博物馆春游，全班同学8:00从学校坐大巴车出发。班主任老师因为有事情，8:10自己自驾小车以大巴车快1/3的速度追赶，结果比大巴车提前20分钟到。问：（1）大巴和小车的速度各是多少？（2）班主任老师追上大巴的地点距离博物馆还有多远？解题步骤更重要来源：https://www.ibm.com/think/topics/chain-of-thoughts思维链（Chain of Thought，CoT）-通过模拟人类逐步推理过程来提升人工智能模型复杂任务处理能力的技术-核心是将问题拆解为多个中间步骤，引导模型生成逻辑链条，从而增强推理的准确性和可解释性基本原理-分布推理：思维链通过将复杂问题分解为更小的子问题，逐步构建答案-显示中间过程：与传统直接输出答案的方式不同，CoT要求模型引入推导过程 DeepSeekR1首个将思维链显式展示的开源模型对比维度白盒派核心特征强制展示推理过程链支持步骤回溯典型代表DeepSeekV3IBM Explainable AI优势-错误可追溯-合规性强-调试效率高缺陷-推理延迟增加-部分复杂任务表现受限关键技术链式思维提示（Chain-of-Thought）动态置信度标注适用场景教育、医疗诊断、金融风控伦理风险过度透明可能导致模型被逆向工程表格内容由AI生成，使用DeepSeekR1自动整理 2月18日正式发布-通过X平台直播-展示火星轨道计算、游戏开发等实际应用场景-计算能力为Grok 2的10倍-展示深度搜索2月20日：开放免费试用（至服务器超负荷为止）马斯克发布的大模型https://x.ai/blog/grok-3 世界最大的AI训练集群之一第一阶段：仅122天内完成，部署了100,000个H100 GPU在第二阶段：在另外92天内将计算能力翻倍。允许持续训练，这意味着Grok3在更多用户与其互动时仍在实时改进xAI的定制超级计算机来源：https://x.com/xai/status/1891699715298730482 2025年2月18日对比维度算力路线20万H100 GPU集群训练成本估算2.1亿/5亿美元，含基础设施技术特性2.7万亿参数动态架构通过ThinkMode分解问题（如火星轨道计算调用9个子模型协同）数学推理AIME 52%代码生成LiveCodeBench 57%训练能耗相当于30万户家庭年用电推理成本$0.015/次生态策略封闭生态X平台，但提供实时数据接口使用DeepSeekR1自动整理，含第三方估计数据 28视频案例网址：https://metaso.cn/s/TM0D0rP 2023年4月28日，中共中央政治局召开会议分析研究当前经济形势和经济工作：要巩固和扩大新能源汽车发展优势，加快推进充电桩、储能等设施建设和配套电网改造。要重视通用人工智能发展，营造创新生态，重视防范风险。政治局会议首提AGI 1.能力而非过程2.广度和深度3.认知和元认知任务4.潜力而非部署5.生态效度6.关注通向AGI的路径人类能力标尺来源：GoogleDeepMind团队，Levelsof AGI:Operationalizing Progress on the Path to AGIhttps://arxiv.org/pdf/2311.02462.pdf2023年11月4日 1.能力而非过程2.广度和深度3.认知和元认知任务4.潜力而非部署5.生态效度6.关注通向AGI的路径人类能力标尺来源：GoogleDeepMind团队，Levelsof AGI:Operationalizing Progress on the Path to AGIhttps://arxiv.org/pdf/2311.02462.pdf2023年11月4日来源：OpenAI’s 5 Levels Of ‘Super AI’ (AGI To Outperform Human Capability)https://www.forbes.com/sites/jodiecook/2024/07/16/openais-5-levels-of-super-ai-agi-to-outperform-human-capability/2024年7月16日OpenAI2024年7月公布用于追踪人工智能向人工通用智能（AGI）发展的进程将AI能力分为从基础对话到全面组织管理的不同阶段没有纠结是否真正理解世界关注在场景中的能力任务复杂度标尺来源：ARKInvesthttps://www.ark-invest.com/big-ideas-20242024年1月31日能力涌现不可逆社会影响倒计时人机协作新常态一、智能演变二、人机协作三、产业现状四、教育成长

点击免费查看完整报告