肖睿2025年8月14日杭州 •北大青鸟人工智能研究院•北大计算机学院•北大教育学院学习科学实验室 走进人工智能2.0 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 人工智能的前世今生:1956-2025 n人工智能:ArtifacialIntelligence,AI Ø1956年:让机器具备人类智能,AGI,达特茅斯会议Ø2022年:让机器具备超人类智能(非人类智能),ASI,chatGPT发布 n人工智能发展的4个时代 1.古代(1956-1996):通过规则和知识让机器具备人类智能2.近代(1996-2006):通过数据和学习让机器具备人类智能3.现代(2006-2020):通过神经网络和深度学习让机器具备人类智能4.当代(2020-2025):通过大模型让机器具备人类智能和超人类智能(非人类智能) 人工智能0.0:古代(1956-1996),规则和知识时代 Ø第一次浪潮(1956-1968):规则推理 •思想准备:冯诺依曼计算机、机器思考、图灵测试•哲学基础:唯理论•主要原理:制定规则,进行数理推理(确定性,不确定性的概率)•主要成就:下棋程序,定理机器证明,MIT的搬箱机器人 Ø第二次浪潮(1986-1996-?):知识推理 •哲学基础:唯理论+经验论•主要原理:知识工程(知识抽取和知识表达),专家系统(知识库+推理机)•主要成就:石油勘探、气象预报、军事决策、经济预测等;包括1996年之后的深蓝国际象棋、Watson ØAI=IT:这个时代,人工智能基本等同于软件程序 人工智能0.1:近代(1996-2006),机器学习时代 Ø第三次浪潮(1996-?):机器学习(数据+学习),小数据集,特征工程 •使用统计学习方法建模,三个核心要素:模型、目标、策略 ü模型是核心:逻辑回归,决策森林,支持向量机,马尔科夫链,人工神经元……ü建模方法从规则到学习:从数学模型(分析数学),到数据模型(计算数学)ü数据模型的能力边界:可以用数据模型模拟世界(数字化、全景化),以史为鉴(IID) •主要成就:风险识别(金融、工业、经济)、学术研究 Ø连接主义(1946-2006):神经网络模型(黑盒) •属于机器学习的一种方法,模型采用的是人工神经网络 人工神经网络与人脑最大的共同点是名字(原理、机制和架构并不一样),用神经网络表达数学模型 üü传统神经网络:霍普菲尔德网络,玻尔兹曼机,…..ü深度神经网络:深度学习(Hinton,2006) Ø软件2.0:人工智能是数学、物理学、计算机科学的混合体 人工智能1.0:现代(2006-2020),深度学习时代 Ø传统深度学习(2006):深度神经网络模型,中数据集,端到端 •多种神经网络模型:DBN,CNN,RNN,ResNet,Inception,RWKV,…… üAlphaGO:2016年超过人类棋手üImageNet:2017年超过人眼üAlphaFold:2022年超过人类科学家,2024年获得诺贝尔奖 •主要成就:人脸识别、图像识别、语言翻译、语音识别、物理建模…… Ø现代深度学习(2017):Transformer模型,大数据集,注意力机制(大规模并行) ü编码器(BERT):embedding,Ernie1.0,……ü混合网络:T5、GLM(早期)ü解码器(GPT):生成式人工智能(AIGC),大力出奇迹(大模型,2020) 人工智能2.0:当代(2020-2025),大模型时代 Ø模型服务(2020):MaaS •全部是Transformer的GPT架构(解码器):生成式人工智能(AIGC)•大模型:预训练,生成-理解-决策(RL)ü大(数据多、参数多、算力多):B级(Billion,10亿)ü模型:语言、视觉、多模态pTransformer:大语言模型(LLM,大模型),多模态模型ChatGPT(5、4.1、4o、o1、o3、o4)、Claude;Grok、Gemini;Llama、……DeepSeek、Step、Qwen;Kimi、MiniMax;GLM、火山(豆包)、元宝、百度……pTransformer+Diffusion:视觉模型图像:Stable Diffusion、Mid-Journey、DALL.E等视频:Sora、可灵、即梦、Vidu、海螺、veo等ü模型:通用模型vs垂直模型(行业模型)p接近成熟:传媒、广告、编码、电商等p正在发展:教育、医疗、金融、工业、农业等 人工智能2.0:当代(2020-2025),大模型时代 ØAgent(2025):大模型是新手机,Agent就是app •大模型的应用已从简单的对话工具(chatGPT、豆包)进化为:任务导向、交付结果的Agent(Manus、Lovart、Lovable等)•Agent的核心架构是:感知(多模态)、决策(LLM;记忆、检索、上下文)、动作(具身驱动、工具调用)•Agent的核心特征是自主(请人类走开):从human in loop到human on loop 人工智能2.0:当代(2020-2025),大模型时代 Ø软件2.0时代 •AI0.1(机器学习):小数据,人工特征,部分可解释,不具备通用性和跨模态 •AI1.0(深度学习):大数据,特征表示,基本不可解释,不具备通用性和跨模态 •AI2.0(大模型):海量数据,自监督学习,完全不可解释,具备通用性和跨模态,最有可能通向AGI的路径 通用人工智能 AGI,ArtificialGeneralIntelligence 具备与人类同等智能水平或超越人类智能水平的人工智能系统。 üOpenAI:在大多数经济价值创造任务中表现优于人类的高度自主系统。üAI肖睿团队:90%的智力任务上超过90%的人类,很可能在2030年之前到来。 走进人工智能2.0 一、人工智能的前世今生 二、大模型的原理和能力边界 三、大模型的现状和发展:技术应用和人才要求 二、大模型的原理和能力边界 n1、大模型的工作原理 n2、大模型的工作过程 n3、大模型的能力边界 n4、大模型的应用场景 大模型的工作原理:NTP(Next TokenPrediction 1.收到提示词示例:“今天天气不错,我决定” 准确地讲,这里不是“字”,是“token”,可以进行语义计算。 概率预测+文字接龙 大模型的工作过程:预训练-后训练-推理 大模型的最新发展(从原子弹到氢弹):推理 深化期 •OpenAI推出基于GPT-4o模型的图像生成功能,取代此前的DALL·E3成为ChatGPT和Sora平台的默认图像引擎•OpenAI发布o3-mini、GPT-4.5,前者推动成本效益推理,后者展现出较高的情感智能。•Gemini2.0FlashThinking、Claude-3.7-Sonnet、Grok3发布,海外推理模型引发热潮,推理性能大幅度提升。•国内推理模型持续跟进。DeepSeek-R1、QwQ-32B、Kimi1.5、GLM-Zero、Skywork o1、讯飞星火X1等推理模型陆续发布,继续突破推理能力的上限。•国内模型性能持续提升。DeepSeek-V3、Qwen2.5、豆包-Pro、混元-Turbo与GLM-4-Plus等系列模型综合能力上持续提升。•国内开源生态持续引领模型普惠化。DeepSeek-R1通过开源与性价比优势持续推动行业技术普惠化进程。 繁荣期 跃进期 •OpenAI发布Sora,极大拓展了AI在视频领域的想象力。•GPT-40、Claude3.5、Gemini1.5、Llama3发布,海外进入“一超多强”的竞争格局。•国内多模态领域进展迅速,在部分领域领先海外,视频生成模型可灵AI、海螺视频、Vidu、PixVerse等模型陆续发布,并在海外取得较大应用进展。•国内通用模型持续提升,Qwen2.5、文心4.0、GLM4、商汤5.5等通用模型陆续更新。 •Llama2开源,极大助力全球大模型开发者生态。•GPT-4 Turbo、Gemini等海外大模型发布,继续提升模型性能。•Midjourney发布5.2•Stable Diffusion XL发布•国内闭源大模型快速发展,豆包、混元、商汤3.0、盘古3.0、AndesGPT、BlueLM、星火3.0、KimiChat等陆续发布。•国内开源生态爆发,Baichuan、Qwen、InternLM、ChatGLM3、Yi-34B等系列模型引领开源热潮。 准备期 •ChatGPT发布,全球范围内迅速形成大模型共识。•GPT4发布,进一步掀起大模型研发热潮。•国内快速跟进大模型研发,文心一言1.0、通义千问、讯飞星火、360智脑、ChatGLM等首批模型相继发布。 生成模型 大语言模型的能力边界 n解决方案 n生成 1.语言能力:理解和生成 1.严肃内容+垃圾信息的混合2.知识量大,但缺少内在关联能力n幻觉1.来源:有损压缩,NTP的温度2.观点:创意和创新n记忆1.多轮对话:产品设计,计算成本 1.提示词(Prompt)2.思维链(CoT)3.搜索增强(RAG)4.知识图谱(KGE)5.模型微调(FineTune) •幻觉(生成不符合事实的内容)•知识库限制(公开、私有、即时)•上下文窗口限制(记忆、成本) 3.推理能力 生成模型和推理模型适用场景 n生成模型是玩知识和文字的,推理大模型是玩逻辑和推理的,至于计算问题,还是找计算器吧n推理模型也不是万能的,其幻觉通常比生成模型大,很多不需要强推理的场合还是传统的生成模型比较适合 人工智能:快速冲击智力行业,逐渐侵蚀物理世界 人工智能:让机器具备人类智能,让机器具备非人类智能(超人类智能) 对现代人工智能的正确认知 Ø现代人工智能(大模型)的本质 Ø大模型技术的关键过程 1.预训练:中小学,打基础2.后训练:RL、SFT。大学,有专业3.微调、Prompt。入职实习,能干活 1.这一波人工智能本质上是数据智能,只要是有时间结构和空间结构的数据,都可以识别出数据分布模式,建立数据模型,从而产生智能。 Ø大模型技术的关键要素 2.这一波人工智能的核心是语言智能,通过分析和建模人类语言,获取人类的知识,并进一步获取人类的思维模式。 1.Token:万物皆token2.Attention:熵减即智能3.GPT:大力出奇迹4.Data:以古鉴今5.RL:自学成才(决策,探索未知,生成数据)6.优化:卷Infra和算法,实事求是,反抽象7.FT:后训练的艺术8.TTC:大力出奇迹AGAIN9.Prompt:有话好好说10.Agent:最后的筐 3.或许,AI只是一个我们和他人和祖先和整个人类的意义世界的交互的接口的翻译器。与我们对话的,不是AI,而是AI背后那个人类构造出的意义世界。因此,AI可以成为我们的伙伴和导师,例如:DeepSeek对贪嗔痴的解释。 对现代人工智能的正确认知:AI与IT的区别 nIT:确定性的任务(简单和繁杂),以代码逻辑为核心 •1.0:记忆+计算(冯诺依曼;软件时代)•2.0:记忆+计算+搜索(互联网时代) nAI:不确定的任务(复杂和混沌),以数据模型为核心 •0.0:专家系统:知识+规则•0.1:机器学习:数据+学习,白盒•0.1:传统机器学习:人类定义特征,人类估算模型参数•0.5:人工神经网络:人类定义特征,模型自己学习模型参数 •1.0:深度学习:数据+学习,灰盒(不可控,有错误概率,可解释)•1.0:判别模型:人类只提供数据,端到端学习(模型自己抽取特征,自己学习模型参数)•2.0:大模型:数据+学习,黑盒(不可控,有错误概率,不可解释)•2.0:生成模型:训练阶段+推理阶段;压缩+生成(幻觉)•2.1:推理模型:训练阶段强化学习;推理阶段慢思考•2.2::Agent:任务结果