AI智能总结
【AI产业深度】扩散大语言模型(dLLM)开启并行新范式:大模型领域的重产业研究中心要技术路线试水摘要:扩散大语言模型(dLLM)采用并行生成新范式,其迭代求精与全局规划的独特机制,驱动下一阶段AI在代码生成、可控编辑等领域实现能力跃登记编号迁:面对日益增长的推理成本与速度要求,dLLM通过并行解码从根本上改变了当下流行的AR模型顺序解码token-by-token生成文本的模式,在同等生成质量的前提下,实现生成速度数倍提升。Q2025年以来,dLLM已从理论探索迅速走向产业实践:开源大模型领域,LLaDA率先在数十亿参数规模上验证了其与AR模型竞争的潜力,MMaDA则以统一架构展现了其在多模态领域的强大融合能力。商业化大登记编号模型领域,InceptionLabs的Mercury与Google的GeminiDiffusion,均以代码生成为切入点,在相近的生成质量前提下,实现数倍于AR模型的推理速度。苹果的DiffuCoder等最新研究,正通过深度解码分析和原生强化学习RL对齐,进一步探索dLLM在垂直领域的性能极限。QdLLM技术路线继承了早期非自回归(NAR)模型的并行解码技术,并通过引入更完备的扩散概率框架,从根本上解决了数据分布不匹配与生成质登记编号量不可控等缺陷。dLLM通过一个选代去噪过程,结合灵活的掩码与重掩码策略,在拥有并行生成速度优势的同时,也能进行全局建模,实现对高质量、高复杂度文本的高速生成,尽管dLLM展现出巨大潜力,但仍面临着长文本推理场景下难以兼容KV缓存、总计算量较高以及对齐生态尚不成熟等核心挑战。学术界与产业界正通过近似KV缓存、智能解码策略和coupled-GRPO等原生对齐算法积极攻克这些难题。展望未来,dLLM不会完全替代AR模型,而是与AR模型优势互补,共同构成一个更多元、更繁荣的AI技术生态。dLLM会凭借其在速度、可控性和全局规划上的独特优势,在代码生成、药物发现等垂直领域扮演不可或缺的角色。风险提示:1)大语言模型的技术进展不及预期。2)人工智能行业内外部竞争格局变化带来的不确定性。3)算法或功能优化不及预期等。请务必阅读正文之后的免责条款部分1of26 目录1.非自回归模型的探索,为dLLM的诞生奠定了理论与实践基础.1.1.突破序列化生成瓶颈,是驱动非自回归模型探索的核心动机.1.2.NAR模型的四大缺陷栓楷性能,未能撼动AR统治地位2.开源dLLM相继问世,标志着并行生成范式从理论探索走向大模型技术快2..LLaDA作为首个大规模开源实践,奠定了dLLM发展的里程碑..52.2.MMaDA以统一扩散架构探索多模态,展现“一统多能”的巨大潜力..83.技术路线尚处于争论之中,dLLM不只是继承掩码生成思想,以概率框架催3.1.观点一:dLLM是掩码生成模型的自然演进3.1.1.dLLM 的生成思想一脉相承,其根基是BERT的掩码预测与3.1.2.部分研究从理论、性能和实用性三大维度,对dLLM的创新性提3.2.观点二:dLLM是并行生成时代的新范式3.2.1.dLLM以完备的概率生成理论为基石,实现了从表示学习到可度量3.2.2.dLLM的出现激发了与AR生态的融合探索,为高效模型构建开辟4.1.Mercury以极致速度和出色代码生成能力,率先验证dLLM的商业化可4.2.GoogleGeminiDiffusion是以实践验证dLLM独特优势来解决AR模型延迟瓶颈而进行的一次重要技术试水..5.dLLM的技术演进正在训练策略、推理效率和对齐技术等多个层面协同推进,以实现性能、效率与可靠性的全面提升.5.1.训练策略优化通过精细化掩码策略提升训练质量5.2.推理效率优化通过近似KV缓存和智能解码策略,攻克并行生成的核5.3.生成效果与对齐优化采用先进对齐框架,引导dLLM从“说得快”走向6.dLLM正以其效率与功能优势,在代码生成等赛道率先开启商业化.…. 速实践生质变并与AR范式共存.....10MaskGIT的迭代求精出了三大质疑,生成的根本跨越,了混合范式新路径..4.Mercury与GeminiDiffusion率先验证dLLM应用价值行性13.16..17心瓶颈18“说得好、说得对......19 6.1.dLLM的并行范式,正推动评估标准从传统指标向任务导向与新能力衡量偏移196.2.dLLM的性能质量在中小规模下可与同等参数AR模型媲美,但绝对高度尚待验讯206.3.并行解码在颠覆推理延迟的同时,也带来了总计算量与长文本处理的新挑战.216.4.在功能和可用性层面,dLLM与AR模型各具特色,体现出互补关系6.5.dLLM正以其独特优势,在代码生成、生命科学等多个领域展现出巨大潜力247.风险提示25 1.非自回归模型的探索,为dLLM的诞生奠定了理论与实践基础在扩散大语言模型(dLLM,DiffusionLLM)快速发展之前,业界的主流技术路径由自回归(Autoregressive,AR)模型牢牢占据。这类模型以其逐字(token-by-token)生成的顺序解码机制,精准地模拟了人类的语言习惯,我们熟知的GPT系列等大语言模型便是这一路线的典范。然而,随着模型规模与应用需求的爆炸式增长,这种序列化生成方式固有的速度瓶颈与高昂成本问题日益凸显。在此背景下,学术界对非自回归(Non-Autoregressive,NAR)模型的探索应运而生,其核心动机正是为了打破AR模型的序列化栓楷,以期实现大幅的推理速度提升。1.1.突破序列化生成瓶颈,是驱动非自回归模型探索的核心动机早期的代表性工作为条件掩码语言模型(Conditional Masked Language Model,CMLM)及其解码算法Mask-Predict。Ghazvininejad等人于2019年提出了Mask-Predict算法,通过引入条件掩码语言模型实现并行译文生成。训练阶段,模型学习在源文本和部分掩码的目标文本条件下预测被掩盖的词语。在推理阶段,Mask-Predict首先一次性生成完整序列,实现所有词同时生成,然后反复掩盖低置信度的词并重新生成,迭代若干次直至输出稳定。这种迭代细化策略被称为“半自回归”(Semi-Autoregressive),因为它在有限轮次中完成了多步推理。实验证明,在常数轮次(如10次以内)迭代后,Mask-Predict能够接近AR模型的翻译质量,其BLEU值仅差约1分,而推理速度却快得多。图1直观地展示了这一“预测-掩码-再预测”的迭代过程。图1:基于置信度的选代式掩码与修正,实现非自回归模型的并行文本生成srcDer Abzug der franzsischen Kampftruppen wurde am 20. November abgeschlossen .t=0ThedepartureoftheFrenchcombatcompleted completed on20NovemberThedeparture ofFrench combattroopswas completed on2o Novembert=2Thewithdrawal of French combattroopswascompletedonNovember2othFigure 1: An examplefrom the WMT'14 DE-EN validation set that llustrates how mask-predict generates text. Atetal.,2019)论文1.2.NAR模型的四大缺陷栓楷性能,未能撼动AR统治地位尽管早期的NAR探索验证了并行解码的巨大潜力,但未能撼动AR模型的统治地位,其背后存在着几个难以克服的缺陷。首先,致命的理论缺陷在于推理阶段迭代过程中产生的显著错误会继续参与后续计算,进而会放大整个推理过程中信息损失偏差。以典型的条件掩码语言模型为例,其在训练阶段学习的是对真实参考文本进行随机掩码后的填补任务,输入分布源自一个完整、干净的目标序列。然而在推理阶段,模型必须依赖自身迭代生成的、可能包含有显著错误的中间结果作为后续输入,导致输入分布与训练阶段发生严重偏移。从理论上讲,模型训练时优化的只是一个代理分布Q(TIZ,X),而非真实的条件概率P(YIX),两者间存在无法避免的信息损失下界。这种固有的分布差异,从根本上削弱了模型建模token间复杂依赖的能力,并导致误差在推理过程中被放大,最终损害了生成质量。其次,并行解码天然缺乏对目标端上下文的依赖,引发了棘手的“多模态难题”(MultimodalityProblem)。模型在生成某个token时无法利用其左侧已生成的上下文作为条件,这被认为是早期NAR模型性能不足的根源。在翻译等任务中,一 个源输入往往对应多个合理的输出,例如,“谢谢”可对应“Thanks”或“Thankyou”,缺乏显式依赖的并行生成机制难以处理这种不确定性,模型往往会输出多个合理翻译的平均或混合结果,导致不连贯、重复甚至遗漏词等现象,从而难以预测正确的句子长度以及保持语法的一致性。第三,为弥补NAR建模能力的先天不足,早期方法普遍依赖知识蒸馏(KnowledgeDistillation),但这引入了新的成本与认知局限。研究者通常需要先训练一个性能型。这一策略虽能通过提供更平滑、规范的训练目标来规避多模态难题,并在翻译任务中显著提升BLEU等评测分数,但其负面影响同样深刻:一方面,额外引入教师模型和伪标签生成过程显著增加了训练的复杂度与成本;另一方面,蒸馏后的干净目标序列掩盖了原始数据中的多样性与复杂性,使得模型在评估中获得的性能提高。这种进步部分来自于教师模型的归一化处理,而非学生模型自身建模能力的根本提升。这种依赖性阻碍了对NAR结构优劣的客观评估,也激发了后续对“去蒸馏化”训练策略的探索。最后,多轮迭代精炼(Refine)的内在需求,在实践中严重抵消了并行解码带来的理论速度优势。以Mask-Predict为代表的模型,在生成初步输出后,仍需通过多次修正才能达到可接受的质量。尽管少量迭代能够兼顾速度与效果,但过多的迭代次数会急剧增加推理开销,使其“并行”的优势名存实亡。虽然已有研究(如SMART)试图通过更精巧的训练策略缓解这一问题,但即便如此,NAR路线在通用大模型时代到来之前,仍未能在开放领域大规模通用模型上取得显著突破。与此同时,尽管BERT等双向掩码模型在语言理解任务上表现卓越,但其“为理解而生”的掩码机制无法定义一个完备的序列生成过程,也无法进行从左到右式递归采样,因此始终不适用于直接进行开放式文本生成,这进一步凸显了业界对一种全新并行生成范式的渴求。早期探索的实践经验最终表明,并行解码是实现高速生成的必要条件,但远非充分条件。仅仅做到并行预测是远远不够的,其背后必须辅以一个强大且理论完备的框架来有效管理全局依赖关系。早期NAR模型(如CMLM)的迭代精炼过程,更像是一种缺乏顶层设计的“打补丁”式修正,它缺少一个从已知的、统一的噪声分布平滑过渡到目标数据分布的数学原理作为支撑,这恰恰为dLLM的登场埋下了伏笔。dLLM的诞生完成了一个深刻的挑战:如何在并行解码的框架下,构建一个能同时兼顾生成质量、灵活性与理论完备性的统一模型。2.开源dLLM相继问世,标志着并行生成范式从理论探索走向大模型技术快速实践2.1.LLaDA作为首个大规模开源实践,奠定了dLLM发展的里程碑LLaDA(Large LanguageDiffusion with mAsking)是由中国人民大学GSAI-ML其命名中的“mAsking”揭示了其核心机制:掩码扩散。LLaDA于2025年2月开源,是首个在数十亿参数规模上成功实现从头训练、且在关键NLP任务上展现出卓越性能的开源扩散语言模型。在8B参数规模上,LLaDA的预训练效果可媲美MetaLLaMA3-8B等AR模型。在零样本上下文学习(In-contextLearning)能力上,LLaDA-8B与同规模的LLaMA3-8B不相上下。经过有监督微