AI智能总结
摘要一、本讲座为DeepSeek原理和应用系列研讨的讲座之一,面向教育工作者、学校管理人员、学术研究人员、教育技术专家、学生、及关注教育和学术创新的社会各界人士,系统阐述DeepSeek技术如何赋能教育和学术全流程。本讲座不仅提供理论指导,更注重提供实操模板与案例,强调无需依赖专门AI系统,普通教育和学术工作者也能便捷应用通用模型与开放工具实现专业功能,具有广泛实用性和迁移价值。二、教育和学术领域是一个知识密度极高的领域,也是受大语言模型技术影响较大的领域。本讲座共包括五个部分,逐层递进、环环相扣,从技术概述到教学应用、学习辅助、科研支持再到管理赋能,通过教-学-研-管四个教育环节构建了DeepSeek教育应用的立体图景。本讲座内容比较多,分为上中下三部分课件,学习和讨论三天时间:n第一天:DeepSeek技术重塑教育。n第二天:教-DeepSeek贯通教学流程。学-DeepSeek实现个性化学习。n第三天:研-DeepSeek赋能学术科研。管-DeepSeek提效学校管理。三、在技术学习的道路上,优质学习资源至关重要。推荐大家参考《人工智能通识教程(微课版)》这本系统全面的入门教材,结合B站“思睿观通”栏目的配套视频进行学习。此外,欢迎加入ai.kgc.cn社区,以及“AI肖睿团队”的视频号和微信号,与志同道合的AI爱好者交流经验、分享心得。 学习交流可加AI肖睿团队助理微信号(ABZ2829) 第2页 一、今天的讲座分两大部分,聚焦于Deepseek与AI认知和DeepSeek对教育行业的影响。第一部分通过深度解析DeepSeek的核心技术来追溯AI的整体演进,旨在为教育者构建一个适应未来的认知新框架与人才培养视角。第二部分在阐明AI如何引领教育范式革命的基础上,通过实践案例探索教育者利用新技术进行教学创新的具体路径与普适性方法。二、DeepSeek与AI认知此部分从DeepSeek的历史开始,逐步讲解AI的演进及认知:1.DeepSeek解密:详细介绍DeepSeek技术历程、核心优势及其算法在理解、推理、知识应用上的提升。解析V3、R1等模型特性,旨在为听众构建对这一前沿技术价值的坚实理解基础。2.AI技术演进与认知框架:梳理AI从规则系统到大模型的技术演进,探讨AI时代的认知升级与人才观变革。为教育者提供认知框架,指明人才培养方向,促进技术与教育融合。这部分内容旨在为教育工作者提供一个科学的认知框架,明确未来人才培养的方向,并搭建起先进技术与教育实践有效融合的桥梁三、DeepSeek对教育行业的影响此部分从教育变革的驱动力开始,进一步讲解AI对教育的影响:1、教育行业的AI范式革命:探讨AI如何引领教育及相关领域的范式革命。阐述AI教育范式革命五大核心环节(智慧备课、沉浸教学、自适应学习、智能考试、全维评测)及其对教育流程的重构。分析DeepSeek应用场景、优势、各教育阶段适配性及选择理由。2、DeepSeek在教育中的应用:展示K12与高校AI人才培养及教学实践的创新案例。对比专业AI平台与通用模型(如DeepSeek)的应用路径。强调利用通用大模型及开放工具赋能教育者,突出方法原理的通用性与可迁移性。第一天的摘要:DeepSeek技术重塑教育 学习交流可加AI肖睿团队助理微信号(ABZ2829) 目录1.DeepSeek解密2.AI技术演进与认知框架DeepSeek和AI认知 1.教育行业的AI范式革命2.DeepSeek的教育应用02DeepSeek对教育行业的影响 01 学习交流可加AI肖睿团队助理微信号(ABZ2829) 现象:DeepSeek快速出圈,全民硬控n2024年12月26日,DeepSeek推出对标OpenAIGPT-4o的语言模型DeepSeek V3,随后在美国AI行业内部引起轰动。n2025年1月20日,DeepSeek发布对标OpenAI o1的DeepSeek R1大语言模型,并于1月24日引起美国投资界KOL关注。n2025年1月26日,关于DeepSeek颠覆了大模型的商业模式(堆算力、拼资本),引发英伟达股价大跌,DeepSeek首先在美国出圈,引发国际社会讨论。n2025年1月底(春节前后),DeepSeek在中国出圈,并上升到中美竞争高度,同时纷纷接入DeepSeek,DeepSeek成为AI和大模型的代名词。nDeepSeek让AI跨越了鸿沟。 学习交流可加AI肖睿团队助理微信号(ABZ2829) 到底谁是DeepSeek?公司、产品、模型n于2023年5月成立北京公司,2023年7月成立杭州公司,是幻方量化孵化出的一家大模型研究机构(企业目标是实现AGI),200人的团队分布在杭州和北京,是中国AI2.0(大模型)时代的七小龙之一。•AI1.0(深度学习)时代的四小龙:商汤、旷世、云从、依图•除了DeepSeek公司之外,其它六家也被投资界称为中国大模型企业六小虎(智谱AI、百川智能、月之暗面、阶跃星辰、MiniMax、零一万物)。 学习交流可加AI肖睿团队助理微信号(ABZ2829) 到底谁是DeepSeek?公司、产品、模型IaaS硬件服务(设备/电脑/服务器/GPU、网络、操作系统)PaaS平台服务(存储、计算、数据、安全、中间件)MaaS模型服务(数据工程、推理加速、训练框架、API调用)SaaS应用服务(网页、APP、桌面软件、设备软件)Ø私有化部署•本地:个人设备或电脑、企业服务器•数据中心(IDC):企业服务器、服务器集群(私有云)Ø公有云服务:阿里云、火山云、腾讯云、金山云、华为云等;AWS、Azure等Ø开源模型:DeepSeek、Qwen、Llama、SD、微调模型等•向上提供:私有化部署,公有云服务(DeepSeek官网、硅基流动、火山引擎等)Ø闭源模型:OpenAI、Claude、Gemini、Kimi、百度等•向上提供:公有云服务(OpenAI官网)Ø生产办公系统:目前多数为定制开发(RAG、Agent等)Ø对话机器人:目前多数为标准产品,使用云服务•免费:DeepSeek、豆包、Kimi、元宝、Monica、秘塔搜索、问小白、Molly R1等•收费(月费;充值):文小言、通义、可灵、即梦、Vidu、Liblib、ChatGPT等系统组成 学习交流可加AI肖睿团队助理微信号(ABZ2829)部署方案 第7页 到底谁是DeepSeek?公司、产品、模型公司、模型、产品n引起中美AI行业内部关注的是:模型n引起美国关注的是:模型和公司n春节前后在中国出圈的是:产品n思考过程展示n中文好有情商n容易获得,使用简单n联网和来源引用n速度快n免费产品优势(用户可感受到) 学习交流可加AI肖睿团队助理微信号(ABZ2829) 到底谁是DeepSeek?公司、产品、模型 模型参数量1.模型能力:通常来说,参数量越大,模型就有更强的理解和生成能力,但是需要更多计算资源。2.硬件需求:参数越多,对内存(RAM)和显存(VRAM)的需求就越高。3.运行速度:参数量大的模型,推理速度更慢,尤其是资源不足的时候。4.知识密度百日定律:参数量每3.3个月降低一半。 学习交流可加AI肖睿团队助理微信号(ABZ2829)1.本地部署DeepSeek时,需根据硬件配置选择合适模型版本。如1.5B模型适合资源受限设备,671B模型需服务器集群支持。2.合理匹配参数量与硬件,可优化模型性能,提升运行效率,避免资源浪费或性能瓶颈。 蒸馏模型 模型蒸馏的定义通俗解释:模型蒸馏就像是让一个“老师”(大模型)把知识传授给一个“学生”(小模型),让“学生”变成“学霸”。正式定义:模型蒸馏是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。模型蒸馏的原理教师模型的训练:先训练一个性能强大但计算成本高的教师模型。生成软标签:教师模型对数据进行预测,得到每个样本的概率分布,这些就是软标签。训练学生模型:用软标签和硬标签共同训练学生模型。优化与调整:通过调整超参数,优化学生模型的性能。蒸馏技术的优势模型压缩:学生模型参数少,计算成本低,更适合在资源受限的环境中部署。性能提升:学生模型通过学习教师模型的输出概率分布,能够更好地理解数据的模式和特征。效率提高:学生模型训练所需的样本数量可能更少,训练成本降低。 学习交流可加AI肖睿团队助理微信号(ABZ2829) DeepSeekV3/R1模型的优势DeepSeek以“推理能力+第一梯队性能”为核心基础,叠加: 开源开放、超低成本、国产 自 主 研 发 三 大 优 势 ,不仅实现技术 代 际 跨 越 , 更 推 动AI技术 普 惠 化 与 国 产 化 生 态 繁 荣 ,成为全球大模型赛道的重要领跑者。多Token预测MTP混合精度训练FP8混合专家MOE多头潜注意力MLA通讯优化DualPipe并行训练框架HAI强化学习GRPO直接硬件编程PTX测试时计算TTC能力突破开源、低成本、国产自主n基础能力:进入推理模型阶段,并跻身全球第一梯队1.推理能力跃升:DeepSeek大模型核心技术突破,实现复杂推理任务的精准处理与高效执行,覆盖多模态场景应用。2.国际竞争力对标:模型综合性能跃居全球第一梯队,技术指标与国际顶尖水平(如GPT系列、Claude等)直接对标,奠定国产大模型的行业标杆地位。n核心加分项:开源、低成本、国产自主1.开源:技术共享,生态共建•全量开源训练代码、数据清洗工具及微调框架•开发者可快速构建教育、金融、医疗等垂直领域应用,推动协同创新。2.低成本:普惠企业级AI应用•针对H系列芯片做了大量的模型架构优化和系统工程优化。•最后一次训练成本仅$557w:显著低于行业同类模型,打破高价壁垒。•推理成本降低83%:千亿参数模型适配中小企业需求,加速商业化落地。3.国产自主:技术自主,缩短差距•将国产模型与美国的代际差距从1-2年缩短至3-5个月,突破“卡脖子”•构建多行业专属模型矩阵,全面支持国内产业智能化升级。 学习交流可加AI肖睿团队助理微信号(ABZ2829)技术瓶颈。 第13页 DeepSeek R1模型的能力突破 DeepSeek R1模型的能力突破 DeepSeek R1模型的能力突破 DeepSeekV3/R1模型的创新一、基础架构:1.混合专家模型(MoE):DeepSeek采用MoE架构,通过动态选择最适合输入数据的专家模块进行处理,提升推理能力和效率。2.无辅助损失的专家负载均衡策略(EP):该策略使DeepSeekMoE在不对优化目标产生干扰的前提下,实现各个专家的负载均衡,避免了某些专家可能会被过度使用,而其他专家则被闲置的现象。3.多头潜在注意力机制(MLA):MLA通过低秩压缩减少Key-Value缓存,显著提升推理效率。4.强化学习(RL): DeepSeek-R1在训练中大规模应用强化学习(让模型自我探索和训练),将传统的PPO替换为GRPO训练算法,显著提升推理能力。5.多Token预测(MTP):通过多Token预测,Deepseek不仅提高了推理速度,还降低了训练成本。 二、训练及框架:1.FP8混合精度训练(FP8):在关键计算步骤使用高精度,其他模型层使用FP8低精度进一步降低训练成本。这一点,是DeepSeek团队非常有价值的创新和突破。2.长链推理技术(TTC):模型支持数万字的长链推理,可逐步分解复杂问题并进行多步骤逻辑推理。3.并行训练系统(HAI): 16路流水线并行(PipelineParallelism,PP)、跨8个节点的64路专家并行(ExpertParallelism,EP),以及数据并行(DataParallelism,DP),大幅提升模型训练速度。4.通讯优化(DualPipe):高效的跨节点通信内核,充分利用IB和NVLink带宽特点,减少通信开销,提高模型推理性能。5.混合机器编程(PTX):部分代码直接使用PTX编程提高GPU运行效率。6.算子库优化(GEMM等Op




