唐农海张浩∗
Abstract—当人类阅读特定的文字时,往往会想象相应的图像,我们希望计算机也能做到这一点。文本到图像合成(Text-to-Image Synthesis, T2I),专注于从文本描述生成高质量的图像,已成为人工智能生成内容(AIGC)的重要组成部分,并且是人工智能研究的一个变革性方向。基础模型在T2I中扮演着关键角色。在本综述中,我们回顾了超过440篇近期关于T2I的研究工作。我们首先简要介绍了如何使用生成对抗网络(GANs)、自回归模型和扩散模型进行图像生成。在此基础上,我们讨论了这些模型在T2I中的发展,重点在于它们在条件下的生成能力和多样性。我们还探讨了T2I各个方面的前沿研究,包括性能、可控性、个性化生成、安全问题以及内容和空间关系的一致性。此外,我们总结了常用于T2I研究的数据集和评估指标。最后,我们讨论了T2I在AIGC中的潜在应用,以及该领域面临的挑战和未来的研究机会。
索引术语- 文本到图像合成(T2I),人工智能生成内容(AIGC),基础模型,生成对抗网络(GAN),自回归模型(AR),扩散模型(DM),调查
1 介绍
在某些情况下 , 生成的图像仍然需要改进。
文本和图像是记录客观世界的基本手段。正如谚语所说,“一幅图胜过千言万语”。当我们阅读纯文本时,我们的大脑往往会创建相应的图像来帮助我们更好地理解内容。在计算领域,文本到图像生成(T2I)[1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15] 结合了自然语言处理 (NLP) 的领域 [16], [17], [18] 和计算机视觉 (CV) [19], [20], [21], 指的是使用特定模型从文本描述中生成现实图像的过程。由于其在各个领域革命性内容创作方面的潜力,T2I(Text-to-Image)已受到广泛关注。通过将文本描述转换为视觉内容,这项技术在语言与图像之间架起了桥梁,为艺术、设计和多媒体应用开启了新的可能性。此外,T2I 在AI生成内容(AIGC)中扮演着关键角色[22] 代表了迈向通用人工智能道路上的重要里程碑 [23], [24], [25]. 图1展示了一系列 T2I 领域的代表性作品。
生成对抗网络 (GAN) 的引入 [50] 为 T2I 带来了重大进展。受条件 GAN(cGAN) 的启发 [51] , Reed 等人设计了GAN - CLS 和 GNA - INT 模型 [2],which were首先应用生成对抗网络(GAN)于文本到图像(T2I)任务,展示了GAN在生成高质量、细节丰富图像方面的优势。这一阶段标志着GAN在T2I领域应用的重要里程碑[3], [4], [34].
使用 Transformer 体系结构 [17] 从 NLP , Ope - nAI 引入了 DALL - E 模型 [7] 这一模型是首个采用自回归(AR)方法进行图像生成的模型,利用大规模数据集生成多样化的图像。尽管自回归方法展示了高质量的生成能力 [9],[35], [45] , 其可观的计算成本限制了其在某些应用场景中的实用性。
arXiv: 2411.16164 v1 [cs. CV] 2024 年 11 月 25 日近年来 , 扩散模型 (DM) [52], [53] , 受非平衡热力学的启发 , 已逐渐成为 T2I 领域最先进的方法。 GLIDE [8是首次将扩散模型应用于T2I任务,通过在像素空间中操作展示了出色的生成能力。引入了潜扩散模型(LDM)[33]强调了潜在空间在扩散模型中的重要性,显著提高了生成图像的质量。随着研究的进展,扩散模型展现了无与伦比的有效性。[12], [13], [15] , 使其成为 T2I 中最受欢迎的研究方向之一。
随着深度学习的发展 [48], T2I模型现已能够生成更加精细的图像,这些图像与文本描述高度匹配。回顾T2I模型的发展历程,AlignDRAW [1由Elman Mansimov团队提出的这项工作被视作该领域的开创性研究。该模型通过引入注意力机制,有效地展示了生成图像与文本描述之间的关系[49] , 虽然质量
T2I 技术的不断进步引发了社区内的热烈讨论 [54]. 各研究团队持续发布新论文,技术更新的快速步伐给新进入者带来了巨大的挑战,使其难以入门并保持最新。当前的研究已经探讨了从T2I视角下生成对抗网络(GANs)的发展情况[55], [56] , DM 的进展
模型 [57] , 以及可控发电模块的相关工作 [58然而,关于T2I最新发展方向的全面回顾仍然有限。为了帮助研究人员了解T2I的最新进展,本文将介绍GAN、AR和DM模型的基本原理,并详细回顾其进展情况。此外,本文还将对T2I领域的前沿研究方向进行全面调研,旨在为研究人员提供一个清晰的研究路线图和有价值的参考资料,以供进一步探索。
生成器负责创建样本,而判别器的作用是区分真实样本和生成器生成的样本。具体而言,生成器从噪声(即随机值)中创建样本,而GAN的优化问题被形式化为一个极小极大问题,其目标函数如下所示:G
在 T2I 任务中 , GAN 工作机制更加复杂和精密 [2], [3公式 (1) 。给定生成器 , 最优解DV(D)因为鉴别器是最大化.minmaxV(D, G) =[logD(x)]Ex∼p(x)G Ddata+[log(1−D(G(z)))].E
本文的结构如下。节2介绍 GAN 、 AR 模型和扩散模型的数学原理和模型结构。部分3讨论了这三种模型的发展历史,突出不同时期的代表性作品,并提供解释以阐明其技术演变。章节4探索T2I领域的最新研究方向,包括详细的控制、可控的T2I生成、个性化图像生成、一致性问题以及与安全和版权保护相关的问题。章节
8], [62], [63] 。如图2, 生成器通过将文本描述转换为潜在向量来生成相应的图像 [64] 。此过程通常涉及条件 GAN(cGAN) 技术 [51 where the Discriminator 不仅评估生成图像的质量,还考虑相关的文本信息。Discriminator 提供的反馈帮助Generator不断优化其生成策略,从而使生成的图像越来越真实且一致。z∼p(z)z
5描述了当前在T2I研究中使用的数据集和评估指标,并比较了这些指标下各种模型的有效性。章节6介绍了 T2I 的最新应用 , 强调了其对 AIGC 的意义和潜在影响。最后 ,第7总结了T2I的研究成果,回顾了以往的挑战,并讨论了未来的发展方向及进一步研究的建议。
2.2 自回归模型 (AR)
自回归模型最初用于 NLP 任务 [65] , 并且随着 Transformer 架构的引入 , 它们的功能得到了进一步扩展 [17]。图像生成预训练转换器 (iGPT) [66] 是一项重要的工作,将Transformer引入了图像生成领域,展示了其在该领域的潜在能力。方程(Equation ()2) 显示了模型在生成每个像素或特征时如何依赖先前生成的部分以及输入的文字提示。
2 个基本模型的 T2I
当前认可的主要基础模型包括生成对抗网络(GANs)、自回归模型和扩散模型。在本节中,我们将探讨这些模型的数学原理和工作机制,以了解它们为何有效,并理解它们作为T2I研究基础的原因。
灵感来自 iGPT , DALL - E [7] 和 CogView [9这些模型是首批将Transformer应用于Text-to-Image(T2I)任务的模型之一。通过逐步生成序列,这些模型能够有效地捕捉文本和图像之间的复杂语义关系,实现了与最先进的GAN模型相当的结果。[4], [5], [34] of their time. As illustratedP(X|T) =|t