行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2025年大语言模型进展报告

信息技术 2026-01-01 - 哈尔滨工业大学 CS杨林

大语言模型评测基准体系发展及未来趋势

大语言模型评测基准体系正从早期以静态任务为主的评测方式，逐渐演化为覆盖推理能力、工具使用能力、复杂环境交互能力以及真实世界应用能力的多维度评测框架。这一趋势反映了模型能力的多元化发展，也体现了评测体系在可解释性、可靠性和实用性方面的不断深化。未来，评测体系将更加注重模型的长期学习、跨学科协作以及与真实世界的深度融合，以推动大模型在各个领域的应用落地。

哈尔滨工业大学自然语言处理研究所（HIT-NLP）http://nlp.hit.edu.cn 序言自2022年底ChatGPT发布以来，大语言模型（Large Language Models，LLMs）迅速成为人工智能领域最具影响力的技术方向之一，深刻推动了自然语言处理乃至整个人工智能范式的变革。作为自然语言处理技术发展的重要里程碑，大语言模型在多种下游任务中展现出显著的性能优势，催生了智能问答、内容生成、代码编写等一系列新型应用形态，并在教育、医疗、金融等多个行业引发了广泛关注与实践探索。进入2025年，从年初DeepSeek-R1的发布引发广泛关注，到年末GoogleGemini 3 Pro在多项基准与应用场景中实现性能跃升并取得领先地位，本年度大语言模型相关技术与应用创新非但未显放缓，反而呈现出持续加速的发展趋势：模型体系结构与训练范式不断演进并趋于多样化，多模态理解与复杂推理能力显著增强，相关应用场景亦在科研、工业及社会治理等众多领域持续拓展与深化。为系统梳理2025年大语言模型领域的发展现状、关键进展与未来趋势，哈尔滨工业大学自然语言处理研究所组织多位教师与研究生共同编写了本《2025年大语言模型（LLMs）进展报告》。本报告围绕模型架构设计、预训练与后训练方法、模型部署技术、典型应用场景以及安全与伦理等多个方面，对年度内的重要研究成果与实践进展进行了系统总结与分析，旨在为相关领域的研究人员、技术开发者及决策者提供有价值的参考。与侧重技术演进脉络的传统综述不同，本报告更加关注2025年度内具有代表性的最新进展与趋势判断，力求呈现当前大语言模型研究与应用的前沿图景。未来，我们计划持续按年度发布大语言模型进展报告，逐步形成一部记录该领域技术演进与思想变迁的“编年体”参考文献。 2025年大语言模型（LLMs）进展报告主要编撰人员第一章由陆鑫、王一轩、王洋编写；第二章由高翠芸、张伟男、丁效、刘元兴、蔡碧波、刘铭、朱庆福、孙承杰、刘铭、何涛、吉佳浩、王乾宇、王子翔、韩为、曾屹荣、韩喆、秦占悦、罗先镇、张致铭、周士祺、郭传哲、代居益、陈逸飞、杨双嘉编写；第三章由刘铭、朱聪慧、王一轩、季世宇、王泽鑫、时景琦、黄毅彬编写；第四章由冯骁骋、朱庆福、徐永东、刘秉权、隋典伯、赵森栋、王昊淳、王镜博、曾钰倬、刘议骏、郑欢洋、黄伟韬编写；第五章由冯骁骋、姜文浩、高翠芸、朱庆福、吴湘平、赵妍妍、赵森栋、王昊淳、刘铭、姜京池、范会明、刘翔宇、张文斌、孙怡馨、姜毅、李健博、吕欣达、袁嘉伟、关胜圆编写；第六章由姜京池、吴湘平、杨沐昀、郭昱辉、韩运鹏、吕欣达、温天瑞、黄辉编写；第七章由刘远超、赵妍妍、吴湘平、赵孟晨、徐永东、杨沐昀、卜坤、曾钰倬、吴迪编写；第八章由陈清财、张伟男、刘元兴、蒋硕然、刘凯锋编写。报告整体由车万翔统稿。目录第一章模型架构的演进10 1.1全注意力序列建模. . . . . . . . . . . . . . . . . . . . . . . .101.1.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .101.1.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .111.1.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .131.2稀疏序列建模模型. . . . . . . . . . . . . . . . . . . . . . . .131.2.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .131.2.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .141.2.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .151.3混合专家模型. . . . . . . . . . . . . . . . . . . . . . . . . . .151.3.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .151.3.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .161.3.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .181.4状态化序列建模模型. . . . . . . . . . . . . . . . . . . . . . .181.4.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .181.4.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .191.4.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .221.5多模态语言模型架构. . . . . . . . . . . . . . . . . . . . . . .221.5.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . .221.5.2研究进展. . . . . . . . . . . . . . . . . . . . . . . . .231.5.3未来展望. . . . . . . . . . . . . . . . . . . . . . . . .241.6新兴方向. . . . . . . . . . . . . . . . . . . . . . . . . . . . .241.6.1主要背景. . . . . . . . . . . . . . . . . . . . . . . . .241.6.2扩散语言模型. . . . . . . . . . . . . . . . . . . . . . .251.6.3动态计算. . . . . . . . . . . . . . . . . . . . . . . . .25 1.6.4嵌套学习. . . . . . . . . . . . . . . . . . . . . . . . .261.6.5未来展望. . . . . . . . . . . . . . . . . . . . . . . . .26 1.7本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 第二章大语言模型训练28 2.1后训练技术更新. . . . . . . . . . . . . . . . . . . . . . . . . .28 2.1.1SFT最新进展. . . . . . . . . . . . . . . . . . . . . .292.1.2强化学习算法进展. . . . . . . . . . . . . . . . . . . .31 2.2数据获取与数据治理. . . . . . . . . . . . . . . . . . . . . . .39 2.2.1开源数据集构建. . . . . . . . . . . . . . . . . . . . . .392.2.2数据处理技术. . . . . . . . . . . . . . . . . . . . . . .432.2.3多模态数据集构建. . . . . . . . . . . . . . . . . . . .47 2.3模型能力提升. . . . . . . . . . . . . . . . . . . . . . . . . . .49 2.3.1长上下文. . . . . . . . . . . . . . . . . . . . . . . . .502.3.2推理. . . . . . . . . . . . . . . . . . . . . . . . . . . .542.3.3数学/代码. . . . . . . . . . . . . . . . . . . . . . . . .612.3.4工具调用. . . . . . . . . . . . . . . . . . . . . . . . .642.3.5Agentic RL. . . . . . . . . . . . . . . . . . . . . . . .68 2.4开源训练框架. . . . . . . . . . . . . . . . . . . . . . . . . . .71 2.4.1VeRL (Volcano Engine). . . . . . . . . . . . . . . . .732.4.2ROLL (Alibaba). . . . . . . . . . . . . . . . . . . . .742.4.3PRIME‑RL (Prime Intellect). . . . . . . . . . . . . .742.4.4Slime (Zhipu AI) . . . . . . . . . . . . . . . . . . . . .752.4.5RAGEN . . . . . . . . . . . . . . . . . . . . . . . . . .762.4.6OpenRLHF . . . . . . . . . . . . . . . . . . . . . . . .762.4.7未来展望. . . . . . . . . . . . . . . . . . . . . . . . .77 2.5本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . .78 第三章大语言模型部署79 3.1模型压缩. . . . . . . . . . . . . . . . . . . . . . . . . . . . .79 3.1.1量化. . . . . . . . . . . . . . . . . . . . . . . . . . . .803.1.2剪枝. . . . . . . . . . . . . . . . . . . . . . . . . . . .823.1.3蒸馏. . . . . . . . . . . . . . . . . . . . . . . . . . . .85 3.2模型加速. . . . . . . . . . . . . . . . . . . . . . . . . . . . .88 3.2.1投机解码. . . . . . . . . . . . . . . . . . . . . . . . .883.2.2KV Cache . . . . . . . . . . . . . . . . . . . . . . . . .91 3.3开源部署框架. . . . . . . . . . . . . . . . . . . . . . . . . . .94 3.3.1vLLM. . . . . . . . . . . . . . . . . . . . . . . . . . .953.3.2SGLang. . . . . . . . . . . . . . . . . . . . . . . . . .963.3.3TensorRT-LLM . . . . . . . . . . . . . . . . . . . . . .973.3.4LMDeploy . . . . . . . . . . . . . .

点击免费查看完整报告

2025年大语言模型进展报告

大语言模型评测基准体系发展及未来趋势

你可能感兴趣

计算机行业：多模态大语言模型领域进展分享

面向交通与运输研究的大语言模型：方法论、前沿进展与未来机遇

2023年大语言模型评测报告

大语言模型综合评测报告2023

人工智能大语言模型技术影响下的劳动力市场求职错配情况报告

2024年大语言模型理论与实践报告

量化分析报告：大语言模型(LLM)在量化金融中的应用展望

警惕AI“信口开河”：大语言模型幻觉控制能力深度测评报告

大语言模型翻译质量评测报告（简版）

大语言模型综合性能评估报告（）