AI智能总结
人工智能2.0时代的人才培养和通识教育课程 肖睿2025年7月12日青岛 •北大青鸟人工智能研究院•北大计算机学院•北大教育学院学习科学实验室 人工智能2.0时代的人才培养和通识教育课程 02 01 人才需求和通识教育课 人工智能2.0时代 1.人才需求2.人工智能通识课 1.人工智能的前世今生2.大模型的特点和局限3.大模型的发展观察 人工智能0.0:古代(1956-2006,从规则到学习) 人工智能:让机器具备人类智能,让机器具备非人类智能(超人类智能) ➢传统(知识+规则):专家系统(知识库+推理机) ➢现代(数据+学习):机器学习(模型、目标、策略),数据模型(IID,用数学模型模拟世界) •常规统计学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,…… ✓小数据,人工特征,部分可解释,缺乏通用性和跨模态 •人工神经网络:与人脑最大的共同点是名字(原理、机制和架构并不一样),用神经网络表达数学模型 1、传统神经网络:霍普菲尔德网络,玻尔兹曼机,….. 2、深度神经网络:深度学习(Hinton,2006) 人工智能1.0:近代(2006-2020,深度学习) 深度学习:深度神经网络 ➢2006:传统架构:DBN,CNN,RNN,ResNet,Inception,RWKV,…… •ImageNet(超过人眼)•AlphaGO(超过人类棋手)•AlphaFold(超过人类科学家) ➢2017:Transformer架构:注意力机制(Attention) ◼预训练模型架构: •编码器(BERT) :embedding,Ernie1.0,……•混合网络:T5、GLM(早期)•解码器(GPT):生成式人工智能(AIGC) ◼预训练模型架构: •并行矩阵计算(GPU)•堆叠架构,容易扩展,大力出奇迹 人工智能2.0:现代(2020-,大模型) 大模型(预训练大模型):大(数据多、参数多、算力多),模型(语言、视觉、多模态) ➢GPT架构:解码器(GPT),生成式人工智能(AIGC),生成-理解-决策(RL) •Transformer:大语言模型(LLM,大模型),多模态模型ChatGPT(4.1、4o、o1、o3、o4)、Claude;Grok、Gemini;Llama、……DeepSeek、Step、Qwen;Kimi、MiniMax;GLM、 火 山(豆 包)、元 宝 、百 度…… ➢通用模型vs垂直模型(行业模型) •传媒、编码•教育、医疗、金融等 人工智能2.0时代的人才培养和通识教育课程 02 01 人才需求和通识教育课 人工智能2.0时代 1.人才需求2.人工智能通识课 1.人工智能的前世今生2.大模型的特点和局限3.大模型的发展观察 大模型的工作原理:NTP(Next TokenPrediction) 准确地讲,这里不是“字”,是“token”,可以进行语义计算。 概率预测+文字接龙 4.基于上下文预测下一个token•为可能的单词分配概率分数 大模型的工作过程:预训练-后训练-推理 大模型的最新发展(从原子弹到氢弹):推理 深化期 •OpenAI推出基于GPT-4o模型的图像生成功能,取代此前的DALL·E3成为ChatGPT和Sora平台的默认图像引擎•OpenAI发布o3-mini、GPT-4.5,前者推动成本效益推理,后者展现出较高的情感智能。•Gemini2.0FlashThinking、Claude-3.7-Sonnet、Grok3发布,海外推理模型引发热潮,推理性能大幅度提升。•国内推理模型持续跟进。DeepSeek-R1、QwQ-32B、Kimi1.5、GLM-Zero、Skywork o1、讯飞星火X1等推理模型陆续发布,继续突破推理能力的上限。•国内模型性能持续提升。DeepSeek-V3、Qwen2.5、豆包-Pro、混元-Turbo与GLM-4-Plus等系列模型综合能力上持续提升。•国内开源生态持续引领模型普惠化。DeepSeek-R1通过开源与性价比优势持续推动行业技术普惠化进程。 繁荣期 跃进期 •OpenAI发布Sora,极大拓展了AI在视频领域的想象力。•GPT-40、Claude3.5、Gemini1.5、Llama3发布,海外进入“一超多强”的竞争格局。•国内多模态领域进展迅速,在部分领域领先海外,视频生成模型可灵AI、海螺视频、Vidu、PixVerse等模型陆续发布,并在海外取得较大应用进展。•国内通用模型持续提升,Qwen2.5、文心4.0、GLM4、商汤5.5等通用模型陆续更新。 •Llama2开源,极大助力全球大模型开发者生态。•GPT-4 Turbo、Gemini等海外大模型发布,继续提升模型性能。•Midjourney发布5.2•Stable Diffusion XL发布•国内闭源大模型快速发展,豆包、混元、商汤3.0、盘古3.0、AndesGPT、BlueLM、星火3.0、KimiChat等陆续发布。•国内开源生态爆发,Baichuan、Qwen、InternLM、ChatGLM3、Yi-34B等系列模型引领开源热潮。 准备期 •ChatGPT发布,全球范围内迅速形成大模型共识。•GPT4发布,进一步掀起大模型研发热潮。•国内快速跟进大模型研发,文心一言1.0、通义千问、讯飞星火、360智脑、ChatGLM等首批模型相继发布。 生成模型 推理模型 大语言模型的能力边界 ◼生成 ◼解决方案 1.语言能力:理解和生成 1.严肃内容+垃圾信息的混合2.知识量大,但缺少内在关联能力◼幻觉1.来源:有损压缩,NTP的温度2.观点:创意和创新◼记忆1.多轮对话:产品设计,计算成本 1.提示词(Prompt)2.思维链(CoT)3.搜索增强(RAG)4.知识图谱(KGE)5.模型微调(FineTune) •幻觉(生成不符合事实的内容)•知识库限制(公开、私有、即时)•上下文窗口限制(记忆、成本) 3.推理能力 人工智能2.0时代的人才培养和通识教育课程 02 01 人才需求和通识教育课 人工智能2.0时代 1.人才需求2.人工智能通识课 1.人工智能的前世今生2.大模型的特点和局限3.大模型的发展观察 现象:DeepSeek快速出圈,全民硬控 ◼2024年12月26日,DeepSeek推出对标OpenAIGPT-4o的语言模型DeepSeek V3,随后在美国AI行业内部引起轰动。 ◼2025年1月20日,DeepSeek发布对标OpenAI o1的DeepSeekR1大语言模型,并于1月24日引起美国投资界KOL关注。 ◼2025年1月26日,关于DeepSeek颠覆了大模型的商业模式(堆算力、拼资本),引发英伟达股价大跌,DeepSeek首先在美国出圈,引发国际社会讨论。 ◼2025年1月底(春节前后),DeepSeek在中国出圈,并上升到中美竞争高度,同时纷纷接入DeepSeek,DeepSeek成为AI和大模型的代名词。 ◼DeepSeek让AI跨越了鸿沟。 到底谁是DeepSeek?公司、模型、产品 公司、模型、产品 •引起中美AI行业内部关注的是:模型•引起美国关注的是:模型和公司•春节前后在中国出圈的是:产品 产品优势(用户可感受到) •思考过程展示•中文好有情商•容易获得,使用简单•联网和来源引用•速度快•免费 DeepSeek模型优势 ◼基础能力:进入推理模型阶段,并跻身全球第一梯队 1.推理能力跃升:DeepSeek大模型核心技术突破,实现复杂推理任务的精准处理与高效执行,覆盖多模态场景应用。2.国际竞争力对标:模型综合性能跃居全球第一梯队,技术指标与国际顶尖水平(如GPT系列、Claude等)直接对标,奠定国产大模型的行业标杆地位。 能力突破 开源、低成本、国产自主 DeepSeek以“推理能力+第一梯队性能”为核心基础,叠加:开源开放、超低成本、国产自主研发三大优势,不仅实现技术代际跨越,更推动AI技术普惠化与国产化生态繁荣,成为全球大模型赛道的重要领跑者。 ◼核心加分项:开源、低成本、国产自主 1.开源:技术共享,生态共建 •全量开源训练代码、数据清洗工具及微调框架•开发者可快速构建教育、金融、医疗等垂直领域应用,推动协同创新。 2.低成本:普惠企业级AI应用 •针对H系列芯片做了大量的模型架构优化和系统工程优化。•最后一次训练成本仅$557w:显著低于行业同类模型,打破高价壁垒。•推理成本降低83%:千亿参数模型适配中小企业需求,加速商业化落地。 3.国产自主:技术自主,缩短差距 •将国产模型与美国的代际差距从1-2年缩短至3-5个月,突破“卡脖子”技术瓶颈。•构建多行业专属模型矩阵,全面支持国内产业智能化升级。 DeepSeekV3/R1模型的创新 二、训练及框架: 一、基础架构: 1.FP8混合精度训练(FP8):在关键计算步骤使用高精度,其他模型层使用FP8低精度进一步降低训练成本。这一点,是DeepSeek团队非常有价值的创新和突破。 1.混合专家模型(MoE):DeepSeek采用MoE架构,通过动态选择最适合输入数据的专家模块进行处理,提升推理能力和效率。 2.无辅助损失的专家负载均衡策略(EP):该策略使DeepSeekMoE在不对优化目标产生干扰的前提下,实现各个专家的负载均衡,避免了某些专家可能会被过度使用,而其他专家则被闲置的现象。 2.长链推理技术(TTC):模型支持数万字的长链推理,可逐步分解复杂问题并进行多步骤逻辑推理。 3.并行训练系统(HAI):16路流水线并行(PipelineParallelism,PP)、跨8个节点的64路专家并行(ExpertParallelism,EP),以及数据并行(DataParallelism,DP),大幅提升模型训练速度。 3.多头潜在注意力机制(MLA):MLA通过低秩压缩减少Key-Value缓存,显著提升推理效率。 4.通讯优化(DualPipe):高效的跨节点通信内核,充分利用IB和NVLink带宽特点,减少通信开销,提高模型推理性能。 4.强化学习(RL):DeepSeek-R1在训练中大规模应用强化学习(让模型自我探索和训练),将传统的PPO替换为GRPO训练算法,显著提升推理能力。 5.混合机器编程(PTX):部分代码直接使用PTX编程提高GPU运行效率。 5.多Token预测(MTP):通过多Token预测,Deepseek不仅提高了推理速度,还降低了训练成本。 6.算子库优化(GEMM等Op):针对H800计算卡的特点,优化了一部分CUDA的算子库。 DeepSeekV3/R1模型的创新 三、社会价值: 1.开源生态:使用最为开放的MIT开源协议,吸引了大量研究人员和应用厂商,推动了AI技术的发展。 2.模型蒸馏支持:DeepSeek-R1同时发布了多个模型蒸馏。 •虽然这些蒸馏模型的生产初衷是为了验证蒸馏效果,但客观上帮助用户有机会使用移植了DeepSeek-R1满血版模型的能力的更小的模型,以满足不同应用场景需求。•副作用是:给市场和用户造成了很多困扰。 3.AI产品和技术的普及: •对于大模型研发企业,更加重视infra工程的价值了。•对于大模型应用企业,有了更多高效低成本解决方案。•对于社会大众,认识到AI是一个趋势,不是昙花一现。•对于市场,用户开始主动引入AI,不再怀疑了。•对于国家,大幅缩小了中美的核心技术差距。•对于全人类,技术平权,造福一方。 DeepSeek R1模型的能力突破 DeepSeek R1模型的能力突破 DeepSeek R1模型的能力突破 DeepSeekR1对大模型行业的重大影响 01 03 02 价格下调 推动创新 打破垄断 DeepSeek-R1促使行业开始从“