AI智能总结
朴智薰*李钟珉*, 吉永准民*, 许善秀, 梁敏锡, 崔元赫, 黄奎珉, 金宰允, 崔民宇, 崔珉宇† 韩国DGIST{pjh2857, kyoungmin, jongmin4422, gustj0510, harrymark0, smu06117, kyumin, jykim94, subminu,sunghoonim}@dgist.ac.kr arXiv:2511.13002v1 [cs.CV] 17 Nov 2025摘要 跨提示的 tity 属性;以及一个包含自适应样式注入和同步引导自适应,能协同强制执行全局样式和身份外观一致性,同时保持提示保真度。与需要微调或受推理速度慢影响的先前的基于扩散的方法不同,Infinite-Story完全在测试时间运行,在不同的提示中提供高身份和样式一致性。广泛的实验表明,我们的方法实现了最先进的生成性能,同时提供超过6×比现有的最快的一致性T2I模型具有更快的推理速度(每张图像1.72秒),突出了其在现实世界视觉故事叙述中的有效性和实用性。 我们提出无限故事, 一种无需训练的框架,用于针对多提示叙事场景设计的稳定文本到图像(T2I)生成。基于尺度自回归模型构建,我们的方法解决了稳定T2I生成中的两个关键挑战:身份不一致和风格不一致。为克服这些问题,我们引入了三种互补技术:身份提示替换,这有助于减轻文本编码器中的上下文偏差,以使 iden- 通讯作者 版权所有 © 2026, 人工智能促进协会 (www.aaai.org)。保留所有权利。 1 引言 大规模扩散式文本到图像(T2I)生成模型(Rombach等人2022年;Ramesh等人2021年;Saharia等人2022年;Podell等人2023年;Betker等人2023年;Labs 2024年)已展现出卓越的性能,确立了它们在广泛创意任务中的核心工具地位,包括设计原型设计、内容生成、视觉传达和广告。然而,生成图像之间的一致性不足已成为限制用户体验的因素,特别是在需要跨多图像保持连贯性的场景中,例如故事叙述、角色驱动型内容创作、漫画条带生成和序列式视觉叙事。 为了在生成的图像中保持一致性,人们提出了多种方法,包括个性化图像生成(Ruiz等人2023;Li、Li和Hoi2023;Wei等人2023;Ye等人2023)、风格对齐图像生成(Park等人2025;Hertz等人2024;Sohn等人2023)以及一致性文本到图像生成(Avrahami等人2024;Liu等人2025;Tewel等人2024;Wang等人2024;Zhou等人2024b)。虽然一致性文本到图像生成对于视觉叙事任务特别基础,但以往的工作主要集中于维持场景间的身份一致性。然而,它们通常忽略了生成图像集之间的风格一致性,这对于生成跨越多个场景的视觉连贯叙事至关重要,如图2-(上)所示。此外,大多数一致性文本到图像生成方法基于扩散模型,即使未经微调,在推理过程中每张图像通常也需要超过10秒。根据Nielsen的可用性指南(Nielsen 1994),这超出了用户在交互会话中开始失去注意力的阈值。 在保持竞争力图像质量的同时,与传统自回归模型(Van Den Oord, Vinyals 等人 2017 年;Esser, Rombach 和 Ommer 2021 年;Chang 等人 2022 年、2023 年)和基于扩散的模型(Podell 等人 2023 年;Labs 2024 年)相比,显著提高了推理速度。虽然它们有效地缓解了扩散方法固有的延迟问题,但在规模上,模型在确保生成图像的一致性方面仍面临挑战,例如身份不一致、风格不一致以及两者的组合。 为解决这些挑战,我们引入无限故事, 一种无需训练的框架,用于在尺度自回归模型(Han 等人,2024)基础上实现一致的文本到图像生成,无需修改架构或需要额外训练。我们的方法通过为每个批次指定一张图像作为参考,并传播其身份和风格来指导剩余样本,从而设计生成一组在身份和风格上保持一致的图像,跨越不同的提示。 最近,规模自回归模型(Tian等人,2024;Voronov等人,2024;Han等人,2024)已成为一种有前景的替代方案,通过采用下一尺度预测范式提供更快的推理。这些模型实现了 为此,我们提出了三种轻量级且有效的技术:身份提示替换,这减轻了 2.2 个性化图像生成 文本编码器对齐跨提示的身份相关属性的上下文偏差。此外,我们提出了一种统一的注意力引导,它由自适应样式注入和同步引导自适应通过在早期自注意力层注入参考特征,增 个性化图像生成能够使用用户特定特征进行场景探索。现有方法大致分为主题驱动和风格驱动方法。主题驱动方法(Li, Li和Hoi 2023;Gal等2022;Wei等2023;Ye等2023;Ruiz等2023)通常微调或适配预训练编码器,以将来自参考图像的概念嵌入注入其中,但通常需要外部数据集,限制了通用性。近期研究通过更新注意力层等有限的模型组件进行参数高效的微调来解决此问题(Nam等2024;Kumari等2023)。风格驱动方法则通过基于LoRA的调优(Frenkel等2024;Shah等2024;Sohn等2023;Hu等2022;Ryu 2022)或通过适配注意力以实现风格一致性来优化风格特征(Hertz等2024;Park等2025)。尽管这些方法有优势,但大多数方法依赖于扩散模型,这些模型速度慢且不适合交互使用。 强身份外观和全局视觉风格一致性,同时通过条件分支和无条件分支的同步适应确保提示保真度。这些技术无缝集成到推理管道中,无需额外的微调或训练。通过结合这些组件,Infinite-Story实现了最先进的生成质量,如图1和图2-(Bottom)所示。它在定量和定性评估中都优于现有方法,同时提供高达6×比最快的基于扩散的 T2I 一致模型更快的推理时间(每张图像 1.72 秒),如图 3 所示。 总而言之,我们的主要贡献包括: • 我们提出无限故事,首个无需训练、逐尺度自回归框架,用于一致文本到图像生成。• 我们介绍了身份提示替换一种通过统一身份提示嵌入来对齐跨提示的身份属性的技巧。•我们提出了一种统一的注意力引导方法,该方法结合自适应样式注入和同步引导适应在保持提示忠实度的同时,实现整体风格和身份外观的一致性。 2.3 一致的文本到图像生成 一致性的文本到图像生成,其目的是在多张图像中保持身份,已成为个性化图像生成中的关键焦点。近期研究(Ku-mari等人2023;Li等人2024;Zhou等人2024b;Tewel等人2024)表明调整注意力层权重能有效调节身份。其他方法(Mou等人2023;Zhang、Rao和Agrawala 2023)结合结构化控制以帮助身份保持。基础性工作(Radford等人2021;Vaswani等人2017;Devlin等人2019;Chen等人2025;Raffel等人2023)突出了基于transformer的文本编码器的语言优势,而增强文本条件(Hertz等人2022;Gal等人2022)进一步提高了身份一致性。在此基础上,(Liu等人2025)利用提示嵌入变化来在图像间保持连贯的身份。受这些见解的启发,我们通过操作提示嵌入和注意力机制引入了一种无需训练的一致性文本到图像生成方法。 2 相关工作 2.1 文本到图像生成 大规模图文数据集(Changpinyo等人2021;Lin等人2014;Schuhmann等人2022;Byeon等人2022)通过连接语言和视觉实现了条件图像合成。这推动了强大文本到图像(T2I)模型的发展——基于扩散(Ramesh等人2021;Rombach等人2022;Saharia等人2022;Podell等人2023;Labs2024)、基于GAN(Kang等人2023)和基于自回归(AR)(Chang等人2023;Han等人2024;Tang等人2024)的模型,能够从文本提示生成高质量图像。扩散模型凭借强大的合成质量占据主导地位,支持图像编辑(Brooks、Holynski和Efros 2023;Hertz、Aberman和Cohen-Or 2023;Wang等人2023)和翻译(Tumanyan等人2023;Parmar等人2023)等任务,但推理速度慢。自回归模型从下一词预测(Van Den Oord、Vinyals等人2017;Esser、Rombach和Ommer 2021)发展到更快的掩码词生成(Chang等人2022,2023;Kondratyuk等人2023),通过下一尺度预测(Tian等人2024)进一步提升效率(Han等人2024;Tang等人2024;Voronov等人2024)。然而,T2I模型在跨图像保持主体身份一致性方面仍存在困难,限制了它们在故事讲述、内容创作和品牌推广等领域的应用。 3 方法 3.1 总体流程 我们的方法基于无限架构(Han等人,2024年),该架构采用下一尺度预测方案(Tian等人,2024年)。该模型由一个预训练文本E采用 Flan-T5(Chung 等人 2024 年)的编码器TG先前自回归预测量化残差sR s={1,2, ..., S-th 特征图跨步},和sD从最终特征重建图像的解码器N在这个论文中,我们旨在生成多张图像{n}Nt=我=我从相应的文本提示中n=1{tn}N,每个都由相同的身份提示组成n=1t}{Nnt==t和不同的表达式提示expiden n=1 iden{tn}N,以保持一致的标识n=1 exp形态和整体风格。所有提示都被连接起来并作为一批并行处理。 T身份提示替换T对 transformer 起作用的上下文嵌入。应用于生成之前以确保跨提示一致的身份表示。在生成期间,统一注意力引导(UAG),它由自适应样式注入和同步引导适应,应用于早期自注意力层,以在保持提示保真度的同时实现一致的标识外观和整体风格对齐。转换器自回归我生成残差特征图,这些特征图通过图像解码器解码成最终图像。 (2)为了解决文本编码器中固有的上下文偏差,我们提出了一种身份提示替换(IPR)策略,通过跨提示对与身份相关的属性的统一,来减少这种偏差。具体地,我们通过替换所有身份emT=床品{Tn}N从...中提取的idenn=1 iden参考实例(默认情况下为批次中的第一个样本)。为了保持身份特征与表达特征之间的比例关系,我们进一步归一化幅度T={T表达式嵌入的n}N如下:expn=1 exp!)(N1Tˆ ˆˆT,T1·T,T==Tidenniden expiden∥T ∥ˆˆT T哪里和表示身份和表达提示idenexp通过IPR处理的嵌入。 地图: (1)(·)如图4所示,身份提示替换首先应用于确保一致的标识属性。在生成过程中,两者自适应样式注入和同步引导适应应用于自注意力层s早期版本步骤, 促进一致身份早期所有生成图像的呈现和全局风格。sX我=D(F),F=(R),R∈N×h ×wRss,upss i s H×W i=1NR=G(F,),T=E(t) =T Tn,Tn,ss−1 T iden exp n=1h ws在 ,∈s在步骤 t 上的空间尺寸,向上ssH×WH表示一个双线性上采样函数,用于上采样到× W T大小,表示编码的身份和表达FT特性。初始特征图从初始化。0 3.3 统一注意力引导expn idenn=1自适应样式注入尽管身份提示替换(IPR)技术通过在提示之间对齐与身份相关的属性来缓解上下文级别的差异,但在保留外观级别的身份和全局视觉风格一致性方面仍然不足。为此,我们提出了一种自适应样式注入(ASI) 机制,该机制对身份外观和整体场景风格进行对齐。ASI 在早期生成步骤中在自注意力层内运行,其动机是先前发现的分析生成阶段对风格对齐的功能作用 (Park 等人, 2025)。 3.2 身份提示替换 众所周知,生成模型反映了其训练数据分布中的偏差(Zhou 等人 2024a;Wei、Kumar