*1234nd 这项工作的主要贡献如下:2. 相关工作• 我们将此指标整合到一个新的正则化项中。大量实验验证了这种方法在提升长上下文建模性能方面的有效性。长短期错位•我们介绍了用度量衡来量化这种输出差异,并证明它与长度泛化能力之间的强相关性。基于这一见解,我们将我们的发现扩展到自然语言任务。尽管自然语言输出是向量值的,并且在合成任务中比标量输出更复杂,但仍然会出现类似的错位现象。例如,两个以相同结尾但长度略有不同的序列理想情况下应该产生相似的输出分布。然而,泛化能力差的模型通常会对这类输入产生差异较大的输出。为了量化这一点长短期记忆-现象,我们引入一个称为对齐,通过对称交叉熵测量输出分布的分散程度。无论是经验分析还是理论研究都表明,该指标与长上下文性能的相关性非常强——强于传统的训练损失——使其成为衡量泛化能力的可靠指标。基于这一点,我们在训练过程中将长短期错位指标作为正则化项。在合成语料和自然语言任务上的大量实验验证了该方法的有效性。在合成任务上的长度泛化我们的论文与旨在理解 Transformer 模型的能力和局限性的研究工作相关• 我们识别了输出行为在长上下文建模中的关键作用,重点关注长度泛化。经验和理论证据表明,在不同输入长度下输出分布的错位会导致泛化能力差。泛化:预测二进制序列的均值和长度。经验结果和理论结果均揭示了明显的差异——Transformer在均值预测任务上泛化良好,但在长度预测任务上表现不佳。关键差异在于输出分布的支持集:在均值预测任务中,它随输入长度保持稳定,而在长度预测任务中,它与序列长度相关。我们假设输出分布中的错位会导致那就是泛化能力差在后者任务中。为了验证这一点,我们提出了一种名为OutRep的重参数化技术,该技术明确地对不同长度的输出分布进行对齐。我们的分析证实,这种方法显著提高了泛化能力,支持了我们的假设。 ˇ ´说到算法推理(韦里克维奇 & 布兰德尔,2021)。具体来说,我们关注简单任务,并在具有因果结构的标准Transformer架构上研究长度泛化。与之相关的是,李等人(2023研究从头训练的transformers学习简单算术任务的效果,发现没有长度泛化现象。诺格瑞拉等人(2021)发现只有当模型达到3B参数且加法问题以逆序呈现时,才会观察到加法的部分长度泛化现象。周等人(2024) 提出了 RASP 泛化猜想,即如果存在一个适用于所有输入长度的短 RASP-L 程序,那么 Transformer 倾向于学习一个长度泛化的解决方案。刘等人(2023)发现Transformer会通过学习各种合成任务来寻找捷径。除了对这些特定任务的探索之外,一些研究还研究了不同的位置编码对数学推理任务长度泛化的影响(佩雷斯等人,2021;奥南顿等,2022;卡泽姆nejad等人,2023;鲁奥斯等人,2023). 更多关于这些作品的详细信息可以在附录中查看A.长上下文建模旨在将语言模型的推理和生成能力扩展到更长的输入序列(方等,2025a;吴等,2025;库拉托夫等,2024;张等人,2024b). 在此设置中的一个基本挑战是长度泛化——从较短的训练上下文泛化到较长的上下文的能力。先前的工作已经确定了几个影响长度泛化的因素,包括任务类型(周等,2024;杰拉西3. 关于合成任务的案例研究:长-短对齐如何影响长度泛化?自然语言任务上的长上下文建模一系列作品()孙等,2023;奇等,2022;2023;张等人,2024b;陈等人,2024;彭等人,2024;杨,2023;陈等人,2023a;方等,2025b)旨在在微调期间扩展基于 Transformer 的模型的上下文大小,主要通过修改位置编码。例如,张等人(2024b)介绍了一种对RoPE(苏等,2024) 该方法结合调整 RoPE 的基础频率和缩放注意力 logits,以帮助 LLM 高效适应更大的上下文窗口。陈等人(2024)将位置编码缩放方法推广到通过长度缩放因子上的常微分方程来模拟连续动力学。王等(2024a)提出了一种旨在缩小泛化差距并针对特征差距提供长度外推分析的新方法。相比之下,我们的方法侧重于模型输出空间,识别了长-短对齐在长度泛化中的关键作用。 均值长度(a) 长度泛化在预-(b)长度泛化在预-词嵌入任务,具有不同的位置编码ings图1:均值预测任务中长度泛化性能与长度预测的比较[1,10]任务。训练序列长度从均匀选择(指示由浅红色在区域)而测试序列长度(在x轴上)可以达到最大值50。在长度预测任务(b)中,模型在长度泛化方面存在困难。相反,在平均预测任务(a)中使用NoPE时,模型表现出明显更好的长度泛化能力(由橙色线). 图(c)显示了在长度预测中的长度泛化性能f(x)使用不同的重参数化函数的任务. 所有三种子参数化目标都比√ f(x) = 1/ x到原点(蓝色)目标。其中,(红) 表现出非常出色的性能。均值预测 对比 长度预测。我们从合成任务中的案例研究开始:在均值预测任务中,预测目标是序列的均值,而在长度预测任务中,目标是序列的长度。我们关注二进制输入序列,其中每个 0 1序列中的位置被以相同概率填充或以相同概率填充,并且是仅解码器 Transformer(瓦桑维等人,2017), 一种在合成任务(中广泛使用的模型周等,2024;Jelassi 等,2023)和LLMs(Touvron等人,2023;彭等人,2024),它在与自注意力模块中使用因果掩码以实现自回归生成。更多模型细节可以在附录中找到B. 我们在最大长度为序列上训练模型l= 10 of并与最大长度为序列进行测试trainl= 50长度 of. 图1a和图1b显示测试两个任务的结果测试。我们观察到,无论使用什么位置编码,当测试序列长度预测任务的测试损失都会急剧增加时10长度超过最大训练长度。此外,随着测试序列长度的增长,测试损失持续上升,表明模型表现非常在长度预测任务中,长度泛化能力低。强泛化相比之下,该模型表现出等,2023;诺格瑞拉等人,2021)和位置编码的设计(奥纳农等人,2022;卡泽姆nejad等人,2023;罗厄斯等,2023)。在这项工作中,我们提出了一种全新的模型一致性通过审视透视输出分布在长度不同的输入中,命名为长短对齐,将其识别为对有效长上下文建模至关重要的一个但尚未充分探索的因素。 (1)(2)3在均值预测任务中的能力,因为较长的序列上的测试损失仍然几乎与较短的序列上的损失保持一致。我们现在对这个观察结果进行理论分析。全文声明和证明在附录中显示C.1从实证和理论结果来看,很明显,虽然序列的均值和长度都传递了全局信息,但模型的长度泛化能力在不同任务间存在差异。一个关键的区别在于输出分布差异在于对于每个任务。在均值预测任务中,其中模型泛化良好,[0,1]输出保持在固定范围内, 无论E(gltrain;l)长度测试θ2=gltrain(x)-y(x)Ex∈{0,1}l测试测试测试θ测试2=O(l −l)2,测试 训练wheregltrain在具有最大-θ最大训练长度l ,x是测试输入训练测试长度l .测试E(gltrain;l) =O(1).均值测试θ定理3.1。在长度预测任务中,长度泛化损失 E(·;·)具有二次关系长度随着预测的长度l,即,测试然而,在均值预测任务中,长度泛化损失有一个固定的上限: 在上一节中,我们观察到在合成任务中,长度泛化能力和长-短对齐之间存在正相关关系。受这一发现的启发,在本节中,我们的目标是将这项研究扩展到自然语言任务。首先,我们引入一个指标来量化序列建模中的长-短对齐,并演示它与长上下文基准测试上的性能之间的强相关性。基于这一见解,我们提出在训练过程中将此指标作为正则化项来提高长-短对齐,这可以带来第几节中详细说明的性能提升。5.显式长-短对齐有助于长度泛化。我们提出输出重参数化(OutRep),一种通过显式改进合成任务中的长短对齐的重参数化技术,从而增强模型的长度泛化能力。在长度预测任务中,对于某些长度的序列的输出分布是已知的。利用这种先验知识,可f:在训练中,我们应用了一个可逆函数→到R R将不同长度序列的输出分布的支持集映射到更对齐的集合。而不是使用y(x)原始目标,我们在跨训练上训练模型f(y(x))形成目标在测试时,我们应用反向f函数−1到输出以恢复原始预测。这种方法对齐了不同长度的输出分布,预计将提高长度泛化。我们考虑以下重新参数化√√f(x) =x f(x) = log(x)f(x) = 1/ x函数:,和.我们在图中展示了实验结果1c. 可以观察到所有三种重参数化函数成功地缓解了长度预测任务中长度泛化能力差的问题。具体来说,重参数化√ f(x) = 1/ x函数具有近乎完美的泛化性 35当长度不超过时,能力仍然存在。当测试序列长度变长时,上升趋势仍然缓慢。这些结果验证了我们关于长-短对齐的猜想。更好的长短期对齐会带来改进无内容需要翻译长度泛化能力我们在附录中添加了更多的理论结果和讨论C和附录D在下一节中,我们将这些发现扩展到更实用的自然语言任务。对于序列长度而言。然而,在长度预测任务中,由于泛化能力差,输出支持集{l分布转移到单点集}作为序列l长度增加到 。这两种任务之间的区别促使我们考虑长-短对齐的重要性,以获得更好的长度泛化能力。4. 自然语言任务中的长短对齐 4.1.1. 公制4.1.2. 结果L(y,y′) =−(⟨y′,log(y)⟩+⟨y,log(y′)⟩),SCE4.1. 长短错位:量化输出分布的差异长短期错位我们称此指标为, 其中较低值表示输出分布在不同长度上的差异较小。这一点的说明l度量在图中显示2在实践中,我们采样和1l[l /2, l]l从区间,其中代表2train train train训练过程中使用的最大上下文长度。为了定量探索长-短对齐与长度泛化能力之间的关系,我们首先想要设计一个用于评估长-短对齐的指标。我们建议使用对称交叉熵(SCE)损失(王等,2019)用于衡量基于两个不同序列的条件输出分布之间的发散程度。x x考虑两个输入序列,和′带有相应的y=g(x)y′=g(x′)模型预测和. SCEθθ这些预测之间的损失定义为:在合成任务中,我们测量输出分布的支持集之间的差异以捕获不同序列长度下输出的差异。然而,在自然语言任务中,模型输出是一个向量g(x)∈|V|,其中维度是词汇表的大小θR词典|V|. 这使得直接将合成任务的分析方法应用于自然语言任务变得具有挑战性。尽管如此,在自然语言任务中仍然可以观察到类似的长期-短期错位问题。具体来说,对于一个xx x l序列及其后缀和, 其中和[-l:][−1 l:]12lx l x是两个长度和表示最后一个标记2−i[l:]ii= 1,2()), 该模型的输出预期应保持不变ll当且仅当时相似,因为这两个后缀12共享大量重叠的token,导致相似的上下文信息。然而,我们发现,在给定这些序列时,长度泛化能力较差的模型倾向于产生距离较远的输出分布。⟨·,哪里·⟩log表示内积,并且函数逐元素应用。两个预测之间的较低SCE损失表示更好的对齐。为了评估整体长-短对齐,我们计算ll x序列长度和对于给定的输入:12为了评估模型的长度泛化能力,我们使用长验证集(16k长度)上的困惑度以及LongBench-E分数(白等人,2023b).对于困惑度评估,我们从RedPajama-Book中选择一个子集L(g) =L(g(x), g(x)).错位θEx,,SCEθ −θ[l:][-l:] (3)(4)1 212 4 (l)具体地,每个C测试随着asl的增加而增加,以及测试iC(l)/C(l)比例测试测试随着 asl 的增加而增加。测试1 2表明随着测试长度的增加,对齐损失变得越来越显著。证明大纲。我们分解泛化误差E(g;l)的长序列对错位项genθ测试在这个序列和一组较短的序列之间,以及最短序列的预测误差。最短序列的预测误差与模型的训练损失有关L,而错位项train在长序列和短序列之间,随着测试长度的增加,显著增加。这