您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [哈尔滨工业大学]:2025年大语言模型进展报告 - 发现报告

2025年大语言模型进展报告

信息技术 2026-01-01 - 哈尔滨工业大学 CS杨林
报告封面

哈尔滨工业大学自然语言处理研究所(HIT-NLP)http://nlp.hit.edu.cn 序言 自2022年底ChatGPT发布以来,大语言模型(Large Language Models,LLMs)迅速成为人工智能领域最具影响力的技术方向之一,深刻推动了自然语言处理乃至整个人工智能范式的变革。作为自然语言处理技术发展的重要里程碑,大语言模型在多种下游任务中展现出显著的性能优势,催生了智能问答、内容生成、代码编写等一系列新型应用形态,并在教育、医疗、金融等多个行业引发了广泛关注与实践探索。 进入2025年,从年初DeepSeek-R1的发布引发广泛关注,到年末GoogleGemini 3 Pro在多项基准与应用场景中实现性能跃升并取得领先地位,本年度大语言模型相关技术与应用创新非但未显放缓,反而呈现出持续加速的发展趋势:模型体系结构与训练范式不断演进并趋于多样化,多模态理解与复杂推理能力显著增强,相关应用场景亦在科研、工业及社会治理等众多领域持续拓展与深化。 为系统梳理2025年大语言模型领域的发展现状、关键进展与未来趋势,哈尔滨工业大学自然语言处理研究所组织多位教师与研究生共同编写了本《2025年大语言模型(LLMs)进展报告》。本报告围绕模型架构设计、预训练与后训练方法、模型部署技术、典型应用场景以及安全与伦理等多个方面,对年度内的重要研究成果与实践进展进行了系统总结与分析,旨在为相关领域的研究人员、技术开发者及决策者提供有价值的参考。 与侧重技术演进脉络的传统综述不同,本报告更加关注2025年度内具有代表性的最新进展与趋势判断,力求呈现当前大语言模型研究与应用的前沿图景。未来,我们计划持续按年度发布大语言模型进展报告,逐步形成一部记录该领域技术演进与思想变迁的“编年体”参考文献。 2025年大语言模型(LLMs)进展报告 主要编撰人员 第一章由陆鑫、王一轩、王洋编写; 第二章由高翠芸、张伟男、丁效、刘元兴、蔡碧波、刘铭、朱庆福、孙承杰、刘铭、何涛、吉佳浩、王乾宇、王子翔、韩为、曾屹荣、韩喆、秦占悦、罗先镇、张致铭、周士祺、郭传哲、代居益、陈逸飞、杨双嘉编写; 第三章由刘铭、朱聪慧、王一轩、季世宇、王泽鑫、时景琦、黄毅彬编写;第四章由冯骁骋、朱庆福、徐永东、刘秉权、隋典伯、赵森栋、王昊淳、王镜博、曾钰倬、刘议骏、郑欢洋、黄伟韬编写; 第五章由冯骁骋、姜文浩、高翠芸、朱庆福、吴湘平、赵妍妍、赵森栋、王昊淳、刘铭、姜京池、范会明、刘翔宇、张文斌、孙怡馨、姜毅、李健博、吕欣达、袁嘉伟、关胜圆编写; 第六章由姜京池、吴湘平、杨沐昀、郭昱辉、韩运鹏、吕欣达、温天瑞、黄辉编写; 第七章由刘远超、赵妍妍、吴湘平、赵孟晨、徐永东、杨沐昀、卜坤、曾钰倬、吴迪编写; 第八章由陈清财、张伟男、刘元兴、蒋硕然、刘凯锋编写。 报告整体由车万翔统稿。 目录 第一章模型架构的演进10 1.1全注意力序列建模. . . . . . . . . . . . . . . . . . . . . . . .101.1.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .101.1.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .111.1.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .131.2稀疏序列建模模型. . . . . . . . . . . . . . . . . . . . . . . .131.2.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .131.2.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .141.2.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .151.3混合专家模型. . . . . . . . . . . . . . . . . . . . . . . . . . .151.3.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .151.3.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .161.3.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .181.4状态化序列建模模型. . . . . . . . . . . . . . . . . . . . . . .181.4.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .181.4.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .191.4.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .221.5多模态语言模型架构. . . . . . . . . . . . . . . . . . . . . . .221.5.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .221.5.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .231.5.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .241.6新兴方向. . . . . . . . . . . . . . . . . . . . . . . . . . . . .241.6.1主要背景. . . . . . . . . . . . . . . . . . . . . . . . .241.6.2扩散语言模型. . . . . . . . . . . . . . . . . . . . . . .251.6.3动态计算. . . . . . . . . . . . . . . . . . . . . . . . .25 1.6.4嵌套学习. . . . . . . . . . . . . . . . . . . . . . . . .261.6.5未来展望. . . . . . . . . . . . . . . . . . . . . . . . .26 1.7本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 第二章大语言模型训练28 2.1后训练技术更新. . . . . . . . . . . . . . . . . . . . . . . . . .28 2.1.1SFT最新进展. . . . . . . . . . . . . . . . . . . . . .292.1.2强化学习算法进展. . . . . . . . . . . . . . . . . . . .31 2.2数据获取与数据治理. . . . . . . . . . . . . . . . . . . . . . .39 2.2.1开源数据集构建. . . . . . . . . . . . . . . . . . . . . .392.2.2数据处理技术. . . . . . . . . . . . . . . . . . . . . . .432.2.3多模态数据集构建. . . . . . . . . . . . . . . . . . . .47 2.3模型能力提升. . . . . . . . . . . . . . . . . . . . . . . . . . .49 2.3.1长上下文. . . . . . . . . . . . . . . . . . . . . . . . .502.3.2推理. . . . . . . . . . . . . . . . . . . . . . . . . . . .542.3.3数学/代码. . . . . . . . . . . . . . . . . . . . . . . . .612.3.4工具调用. . . . . . . . . . . . . . . . . . . . . . . . .642.3.5Agentic RL. . . . . . . . . . . . . . . . . . . . . . . .68 2.4开源训练框架. . . . . . . . . . . . . . . . . . . . . . . . . . .71 2.4.1VeRL (Volcano Engine). . . . . . . . . . . . . . . . .732.4.2ROLL (Alibaba). . . . . . . . . . . . . . . . . . . . .742.4.3PRIME‑RL (Prime Intellect). . . . . . . . . . . . . .742.4.4Slime (Zhipu AI) . . . . . . . . . . . . . . . . . . . . .752.4.5RAGEN . . . . . . . . . . . . . . . . . . . . . . . . . .762.4.6OpenRLHF . . . . . . . . . . . . . . . . . . . . . . . .762.4.7未来展望. . . . . . . . . . . . . . . . . . . . . . . . .77 2.5本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . .78 第三章大语言模型部署79 3.1模型压缩. . . . . . . . . . . . . . . . . . . . . . . . . . . . .79 3.1.1量化. . . . . . . . . . . . . . . . . . . . . . . . . . . .803.1.2剪枝. . . . . . . . . . . . . . . . . . . . . . . . . . . .823.1.3蒸馏. . . . . . . . . . . . . . . . . . . . . . . . . . . .85 3.2模型加速. . . . . . . . . . . . . . . . . . . . . . . . . . . . .88 3.2.1投机解码. . . . . . . . . . . . . . . . . . . . . . . . .883.2.2KV Cache . . . . . . . . . . . . . . . . . . . . . . . . .91 3.3开源部署框架. . . . . . . . . . . . . . . . . . . . . . . . . . .94 3.3.1vLLM. . . . . . . . . . . . . . . . . . . . . . . . . . .953.3.2SGLang. . . . . . . . . . . . . . . . . . . . . . . . . .963.3.3TensorRT-LLM . . . . . . . . . . . . . . . . . . . . . .973.3.4LMDeploy . . . . . . . . . . . . . .