AI智能总结
DeepSeek原理与教育场景应用 AI肖睿团队2025年4月18日成都 •北大青鸟人工智能研究院•北大计算机学院•北大教育学院学习科学实验室 目录 02 01 AI在教育场景的落地使用 DeepSeek和AI认知 1.AI赋能教育的全景图2.教学环节的应用场景与案例3.AI通识教育方案 1.DeepSeek现象和背后原因2.现代人工智能原理和发展3.DeepSeek的应用 现象:DeepSeek快速出圈 ◼2024年12月26日,DeepSeek推出对标OpenAI GPT-4o的语言模型DeepSeekV3,随后在美国AI行业内部引起轰动。 ◼2025年1月20日,DeepSeek发布对标OpenAI o1的语言模型DeepSeekR1,并于1月24日引起美国投资界KOL关注。 ◼2025年1月26日,关于DeepSeek颠覆了大模型的商业模式(堆算力、拼资本),引发英伟达股价大跌,DeepSeek首先在美国出圈,引发社会讨论。 ◼春节前后,DeepSeek在中国出圈,并上升到中美竞争高度,同时纷纷接入DeepSeek,DeepSeek成为AI和大模型的代名词。 ◼DeepSeek让AI跨越了鸿沟。 DeepSeek产品出圈?全民硬控DeepSeek ◆产品优势(用户可感受到) 1.思考过程展示2.中文好有情商3.容易获得,使用简单4.联网和来源引用5.速度快6.免费 到底谁是DeepSeek?公司、模型、产品 ◆DeepSeek公司于2023年5月成立北京公司,2023年7月成立杭州公司,是幻方量化孵化出的一家大模型研究机构,160人的团队分布在中国杭州和北京,是中国AI2.0(大模型)时代的七小龙之一。 •注:AI1.0(深度学习)时代的四小龙:商汤、旷世、云从、依图 ◆除了DeepSeek公司之外,其它六家也被投资界称为中国大模型企业六小虎(智谱AI、百川智能、月之暗面、阶跃星辰、MiniMax、零一万物)。 到底谁是DeepSeek?公司、模型、产品 AI系统的技术实现 AI系统的部署方案(公有云、私有云、本地化) ➢生产办公系统:目前多数为定制开发(RAG、LangChain、Agent等)➢对话机器人:目前多数为标准产品,使用云服务•免费:DeepSeek、豆包、Kimi、元宝、Monica、秘塔搜索、问小白、Molly R1等•收费(月费;充值):文心一言、通义千问、Liblib、ChatGPT等 SaaS应用服务(网页、APP、桌面软件、设备软件) ➢开源模型:DeepSeek、Qwen、Llama、SD、微调模型等•向上提供:私有化部署,公有云服务(DeepSeek官网、硅基流动、火山引擎等)➢闭源模型:OpenAI、Claude、百度等•向上提供:公有云服务 MaaS模型服务(数据工程、推理加速、训练框架、API调用) PaaS平台服务(存储、计算、数据、安全、中间件) ➢私有化部署 ✓本地:个人设备或电脑、企业服务器✓数据中心(IDC):企业服务器、服务器集群(私有云) IaaS硬件服务(设备/电脑/服务器/GPU、网络、操作系统) ➢公有云服务:阿里云、火山云、腾讯云、金山云、华为云等;AWS、Azure等 模型参数量意义 参数量影响模型能力 参数量与硬件配置匹配 1.模型能力:通常来说,参数量越大,模型就有更强的理解和生成能力,但是需要更多计算资源。2.硬件需求:参数越多,对内存(RAM)和显存(VRAM)的需求就越高。3.运行速度:参数量大的模型,推理速度更慢,尤其是资源不足的时候。 1.本地部署DeepSeek时,需根据硬件配置选择合适模型版本。如1.5B模型适合资源受限设备,671B模型需服务器集群支持。2.合理匹配参数量与硬件,可优化模型性能,提升运行效率,避免资源浪费或性能瓶颈。 蒸馏模型-概念 模型蒸馏的定义 ➢通俗解释:模型蒸馏就像是让一个“老师”(大模型)把知识传授给一个“学生”(小模型),让“学生”变成“学霸”。➢正式定义:模型蒸馏是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。 模型蒸馏的原理 ➢教师模型的训练:先训练一个性能强大但计算成本高的教师模型。➢生成软标签:教师模型对数据进行预测,得到每个样本的概率分布,这些就是软标签。➢训练学生模型:用软标签和硬标签共同训练学生模型。➢优化与调整:通过调整超参数,优化学生模型的性能。 蒸馏技术的优势 ➢模型压缩:学生模型参数少,计算成本低,更适合在资源受限的环境中部署。➢性能提升:学生模型通过学习教师模型的输出概率分布,能够更好地理解数据的模式和特征。➢效率提高:学生模型训练所需的样本数量可能更少,训练成本降低。 DeepSeek的模型优势 基础能力:进入推理模型阶段,并跻身全球第一梯队 能力突破 •推理能力跃升:DeepSeek大模型核心技术突破,实现复杂推理任务的精准处理与高效执行,覆盖多模态场景应用。•国际竞争力对标:模型综合性能跃居全球第一梯队,技术指标与国际顶尖水平(如GPT系列、Claude等)直接对标,奠定国产大模型的行业标杆地位。 开源、低成本、国产自主 DeepSeek以“推理能力+第一梯队性能”为核心基础,叠加:开源开放、超低成本、国产自主研发三大优势,不仅实现技术代际跨越,更推动AI技术普惠化与国产化生态繁荣,成为全球大模型赛道的重要领跑者。 核心加分项:开源、低成本、国产自主 1.开源:技术共享,生态共建•全量开源训练代码、数据清洗工具及微调框架•开发者可快速构建教育、金融、医疗等垂直领域应用,推动协同创新。 2.低成本:普惠企业级AI应用 •针对H系列芯片做了大量的模型架构优化和系统工程优化。•最后一次训练成本仅$557w:显著低于行业同类模型,打破高价壁垒。•推理成本降低83%:千亿参数模型适配中小企业需求,加速商业化落地。 3.国产自主:技术自主,缩短差距 •将国产模型与美国的代际差距从1-2年缩短至3-5个月,突破“卡脖子”技术瓶颈。•构建多行业专属模型矩阵,全面支持国内产业智能化升级。 DeepSeek模型特点总结 一、基础架构: 1.混合专家模型(MoE):DeepSeek采用MoE架构,通过动态选择最适合输入数据的专家模块进行处理,提升推理能力和效率。 2.无辅助损失的专家负载均衡策略(EP):该策略使DeepSeekMoE在不对优化目标产生干扰的前提下,实现各个专家的负载均衡,避免了某些专家可能会被过度使用,而其他专家则被闲置的现象。 3.多头潜在注意力机制(MLA):MLA通过低秩压缩减少Key-Value缓存,显著提升推理效率。 4.强化学习(RL):DeepSeek-R1在训练中大规模应用强化学习,将传统的PPO替换为GRPO训练算法,显著提升推理能力。 5.多Token预测(MTP):通过多Token预测,Deepseek不仅提高了推理速度,还降低了训 DeepSeek模型特点总结 二、训练及框架: 1.FP8混合精度训练(FP8):在关键计算步骤使用高精度,其他模型层使用FP8低精度进一步降低训练成本。这一点,是DeepSeek团队非常有价值的创新和突破。2.长链推理技术(TTC):模型支持数万字的长链推理,可逐步分解复杂问题并进行多步骤逻辑推理。3.并行训练系统(HAI):16路流水线并行(Pipeline Parallelism, PP)、跨8个节点的64路专家并行(Expert Parallelism, EP),以及数据并行(Data Parallelism, DP),大幅提升模型训练速度。4.通讯优化(DualPipe):高效的跨节点通信内核,充分利用IB和NVLink带宽特点,减少通信开销,提高模型推理性能。5.混合机器编程(PTX):部分代码直接使用PTX编程提高GPU运行效率。6.算子库优化(GEMM等):针对H800计算卡的特点,优化了一部分CUDA的算子库。 DeepSeek模型特点总结 三、社会价值: 1.开源生态:使用最为开放的MIT开源协议,吸引了大量研究人员,推动了AI技术的发展。 2.模型蒸馏支持:DeepSeek-R1同时发布了多个模型蒸馏。 •虽然这些蒸馏模型的生产初衷是为了验证蒸馏效果,但客观上帮助用户有机会使用移植了DeepSeek-R1满血版模型的能力的更小的模型,以满足不同应用场景需求。•副作用是:给市场和用户造成了很多困扰。 3.AI产品和技术的普及: •对于大模型研发企业,更加重视infra工程的价值了。•对于大模型应用企业,有了更多高效低成本解决方案。•对于社会大众,认识到AI是一个趋势,不是昙花一现。•对于市场,用户开始主动引入AI,不再怀疑了。•对于国家,大幅缩小了中美的核心技术差距。•对于全人类,技术平权,造福一方。 DeepSeekR1模型优势 DeepSeekR1模型优势 DeepSeekR1模型优势 DeepSeekR1对大模型行业的重大影响 01 03 打破垄断 推动创新 价格下调 DeepSeek-R1促使行业开始从“唯 规 模 论”转 向 更 加 注 重“性价比”和“高效能”方向 DeepSeek-R1以低成本和开源特性打破以往头部企业巨头割据局面 DeepSeek-R1的API定价仅为行业均价的1/10,推动了中小型企业低成本接入AI,对行业产生了积极影响 目录 02 01 AI在教育场景的落地使用 DeepSeek和AI认知 1.AI赋能教育的全景图2.教学环节的应用场景与案例3.AI通识教育方案 1.DeepSeek现象和背后原因2.现代人工智能原理和发展3.DeepSeek的应用 人工智能:古代(1956-2006) ◼人工智能:让机器具备人类智能,让机器具备非人类智能(超人类智能) ⚫传统(知识+规则):专家系统(知识库+推理机)⚫现代(数据+学习):机器学习(模型、目标、策略);数据模型(IID)•常规统计学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,……•人工神经网络:与人脑最大的共同点是名字(原理、机制和架构并不一样)•传统神经网络:霍普菲尔德网络,玻尔兹曼机,…..•深度神经网络:深度学习(Hinton,2006) 人工智能:近代(2006-2020,深度学习) ◼深度神经网络:深度学习 •2006:传统架构:DBN,CNN,RNN,ResNet,Inception,RWKV,…… 1.ImageNet:超过人眼2.AlphaGO:超过人类棋手3.AlphaFold:超过人类科学家 •2017:Transformer架构:注意力机制(Attention) •预训练模型:并行矩阵计算(GPU),堆叠架构 1.编码器(BERT):多数embedding模型,Ernie(早期),…….2.混合网络:T5、GLM(早期)3.解码器(GPT):生成式人工智能(AIGC) 人工智能:现代(2020-,大模型) ◼大模型(预训练大模型):数据多、参数多、算力多 •GPT架构:解码器(GPT),生成式人工智能(AIGC),生成-理解-决策(RL) 1.Transformer:大语言模型(LLM,大模型),多模态模型•ChatGPT(4.1、4o、o1、o3、o4)、Claude;Grok、Gemini;Llama、……•DeepSeek、Step、Qwen;Kimi、MiniMax;GLM、火山(豆包)、百度…… •通用模型vs垂直模型(行业模型)•传媒、编码•教育、医疗、金融等 大模型的工作原理: NTP(Next Token Prediction) •准确地讲,这里不是“字”,是“token”。用“字”,主要是便于理解。 概率预测+文字接龙 大模型的工作过程:预训练-后训练-推理 大语言模型的生成能力 生成 解决方案 1.语言能力:




