您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[哈工大计算学部]:2025大模型原理、技术与应用:从GPT到DeepSeek - 发现报告

2025大模型原理、技术与应用:从GPT到DeepSeek

信息技术2025-02-28车万翔哈工大计算学部F***
AI智能总结
查看更多
2025大模型原理、技术与应用:从GPT到DeepSeek

从GPT到DeepSeek从GPT到DeepSeek 车万翔 哈工大计算学部人工智能学院社会计算与交互机器人研究中心(HIT-SCIR) 2025年2月28日 为什么是语言? 大模型又称大语言模型(LargeLanguageModels) 语言是人类交流思想、表达情感最自然、最深刻、最方便的工具 “语言是继真核细胞之后最伟大的进化成就”——社会生物学之父爱德华·威尔逊 人类历史上大部分知识是以语言文字形式记载和流传的 “语言本身就是人类有史以来最大的技术发明” ——詹姆斯·格雷克《信息简史》 什么是自然语言处理? 自然语言指的是人类语言,特指文本符号,而非语音信号 自然语言处理(NaturalLanguageProcessing,NLP)属于认知智能是人类和动物的主要区别之一用计算机来理解和生成自然语言的各种理论和方法需要更强的抽象和推理能力 运算智能 “自然语言处理是人工智能皇冠上的明珠” 自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈 “深度学习的下一个前沿课题是自然语言理解” “深度学习的下一个大的进展应该是 让神经网络真正理解文档的内容” ——图灵奖得主、MetaAI负责人Yann LeCun ——诺贝尔奖得主、图灵奖得主、 深度学习之父Geoffrey Hinton “如果给我10亿美金,我会建造一个NASA级别的自然语言处理研究项目”——美国双院院士、世界知名机器学习专家Michael I. Jordan “下一个十年,懂语言者得天下” ——美国工程院士、微软前全球执行副总裁沈向洋 自然语言处理的发展历史 GPT GenerativePre-trainedTransformer,OpenAI2018 采用语言模型预训练任务 计算一个句子在语言中出现的概率或给定上文,预测下一个词出现的概率 语言模型学到了什么? 哈工大位于____[知识]我在水果店看到了苹果、香蕉、____[语义]小明打了小红,然后她____[推理、指代]我一定推荐给朋友看,这部电影真是____[情感]…… 三大创新 使用建模能力更强的Transformer模型在目标任务上精调整个预训练模型接入的下游任务模型可以非常简单 GPT-3:大模型早已有之 Language Models are Few-Shot Learners,OpenAI&Microsoft2020 1750亿参数,模型太大无法精调 为不同的任务设计相应的“提示语” 下面文本的情感是:这本书写得很好的情感是????我喜欢这部电影的情感是褒义 无需训练,便可完成“文本”生成任务 如:问答、文章续写、网页生成、自动编曲等 GPT-3的不足 GPT-3测试样例 Question:Which is heavier, a toaster or pencil?(烤箱和铅笔哪个更重?)GPT-3 : A pencil isheavierthan a toaster.(铅笔比烤箱重。) 知识推理与可解释性 Question:Howmanyeye does my foot have?(我的脚有几只眼睛?)GPT-3 : Your foothas two eyes.(你的脚有两只眼睛。) GPT-3原文指出,在故事结尾选择任务上比哈工大丁效等所提出的具有知识推理能力的模型低4.1%! 预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失的瓶颈,故在深层次语义理解上与人类认知水平还相去较远! 解决方案:ChatGPT(OpenAI,2022.11) https://chat.openai.com/ ChatGPT的关键核心技术(1/3):无监督学习 大规模预训练语言模型,涌现出推理能力 模型规模足够大(>60B?)预训练数据足够多在代码数据上继续预训练 ChatGPT的关键核心技术(2/3):有监督学习 使大模型更好遵循人类指令:指令精调(InstructionTuning) 将各种任务形式进行统一(指令+输入输出)在众多(成千上万)任务的标注数据上精调语言模型模型能够处理未见任务(Zero-shot) ChatGPT的关键核心技术(3/3):强化学习 将大模型进一步向人类期望对齐:人类反馈强化学习(RLHF) DeepSeek-R1的横空出世 NatureNews报道:“中国的廉价且开源的大型语言模型震撼了科学界!” 由中国研发的DeepSeek-R1大模型是一种既具备高性价比又完全开源的“推理”模型,其性能可与OpenAI的o1模型媲美。通过模仿人类推理过程,这些模型能够逐步生成响应,在解决科学问题时表现得比早期大模型更为出色,可能对科研工作产生深远的影响… 从DeepSeek-V1到R1 发布时间:2025.1核心技术:SFT学习推理格式+RL学习推理能力训练稳定程度:很稳定最大参数量:671B(激活37B) R1-Zero 发布时间:2025.1核心技术:只使用RL学会推理能力+将RL引入基模型架构训练稳定程度:很稳定最大参数量:671B(激活37B) 发布时间:2024.12核心技术:基于bias负载均衡+MTP(多词元预测)训练数据量:14T训练稳定程度:稳定最大参数量:671B(激活37B)训练成本:2788KGPU小时/$5.58M V2 发布时间:2024.5核心技术:MoE(更多共享专家)+MLA(多头潜在注意力)训练数据量:8T训练稳定程度:较稳定最大参数量:236B(激活21B)训练成本:172.8K GPU小时 V1 发布时间:2024.1核心技术:类LLaMA架构+SFT+RLHF训练数据量:2T训练稳定程度:不稳定最大参数量:67B ★GRPO(DeepSeekMath,2024.2) -无须价值网络-提高学习稳定性-降低学习开销 DeepSeek的核心贡献 只使用强化学习(RL),模型自主学习到推理能力,性能接近o1模型 只用RL习得推理能力 训练、推理速度更快,远超o1类模型,极大节约硬件成本 DeepSeek坚持开源精神,开放了R1模型及其蒸馏出的子模型 自然语言处理的发展历史 推理(Reasoning)是指根据已知的信息、事实、规则或前提,通过一定的思维过程和方法,推导出新的结论、判断或知识的认知活动。它是人类思维和智能的核心组成部分,也是人工智能、科学研究和日常决策中的关键能力。 推理采用的核心技术 思维链(Chain-of-Thought, COT) 一系列中间推理步骤,相当于在求解问题过程中将解题步骤也写出来早期的思维链能力是模型自发“涌现”的 (b)少样例思维链推理(Wei et al., 2022) (a)少样例推理 问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少乒乓球?答:11个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少蓝色?答:(输出)8个。 问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少乒乓球?答:小明一开始有5个乒乓球,在买了2筒后增加了2乘3等于6个,加起来一共11个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少蓝色?答:(输出)16的一半是8个,8个的一半是4个。 (c)零样例推理 (d)零样例思维链推理(Kojima et al., 2022) 问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少是蓝色的?答:让我们一步一步地思考。(输出)16的一半是8个,8个的一半是4个。 问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少是蓝色的?答:(输出)8个。 只用RL习得推理能力DeepSeek-R1-Zero R1-Zero核心技术 全新的技术栈:基于结果的极简版全新的技术栈 强化学习(只将规则获得的准确率作为奖励) 强化学习框架:使用GRPO(GroupRelative Policy Optimization)作为强化学习框架奖励模型:结果/规则奖励,奖励分为准确率奖励(accuracy rewards)和格式奖励(format rewards),确保模型输出正确的答案格式和推理过程 https://www.mdpi.com/2079-9292/10/13/1533 R1-Zero核心技术 GRPO(Group Relative Policy Optimization) 利用当前策略模型进行多次采样,并使用平均奖励值近似价值函数,从而避免了对价值函数的显式训练,这样做既减少了计算开销,又避免了价值函数训练的 困 难,提 高 了 模 型 学 习 的 稳 定 性【DeepSeekMath,2024.2】 R1-Zero实验结果 性能提升:AIME 2024的pass@1分数:39.2%→71.0%,接近OpenAI-o1-preview性能提升 RL不需要复杂的算法,简单的GRPO就够用RL需要大量的数据:R1-Zero训了8000个步骤,如果每个步骤采样的数据量为1024,那也到了8M级别RL训练不需要过程奖励,结果奖励足够 https://arxiv.org/abs/2501.12948 R1-Zero实验结果 性能提升:AIME 2024的pass@1分数:39.2%→71.0%,接近OpenAI-o1-preview性能提升 强化学习的可扩展性:随着强化学习步骤数增加,模型的性能逐步增强 https://arxiv.org/abs/2501.12948 R1-Zero实验结果 性能提升:AIME 2024的pass@1分数:39.2%→71.0%,接近OpenAI-o1-preview性能提升 强化学习的可扩展性:随着强化学习步骤数增加,模型的性能逐步增强强化学习的Aha时刻:随着强化学习步骤数增加,会在某一步突然涌现出反思/自我评估机制 https://arxiv.org/abs/2501.12948 强化学习的长思维链自动拓展 随着强化学习的步骤数增加,可以实现思维链长度自然增长 https://arxiv.org/abs/2501.12948 DeepSeek-R1提升推理的规范性和泛化性 R1总路线 冷启动(Cold Start):为了解决DeepSeek-R1-Zero的可读性差(如推理格式性差、语言混杂等)冷启动(Cold Start) 和训练不稳定的问题,DeepSeek-R1引入了少量冷启动数据进行预训练,这些数据包含长CoT样本。 使用长CoT示例进行少样本提示直接提示DeepSeek-R1-Zero模型生成带反思和验证的详细答案收集DeepSeek-R1-Zero的可读格式输出并经人工标注者后处理 收集方法包括 多阶段训练 包括两个强化学习阶段和两个监督微调阶段。 第一阶段通过冷启动数据进行监督微调(SFT) 第二阶段进行推理导向的强化学习(RL) 第三阶段通过拒绝采样(rejection sampling)生成新的监督微调数据(SFT) 第四阶段再次进行强化学习以优化模型在所有场景下的表现(RL) R1总路线 性能提升 AIME 2024的pass@1分数:71.0→79.8%,接近OpenAI-o1LongCoTWarmup能带来更好的可读性。DeepSeek-R1-Zero的思考空间很混沌,通过SFT初始化,能够让思维空间更加像人类的思维增加稳定性 极致的模型架构优化 主要模型架构优化技术 算法优化 DeepSeekMoE(Mixture of Experts)多头隐含注意力(Multi-head Latent Atte