AI智能总结
唐农海张浩∗ Abstract—当人类阅读特定的文字时,往往会想象相应的图像,我们希望计算机也能做到这一点。文本到图像合成(Text-to-Image Synthesis, T2I),专注于从文本描述生成高质量的图像,已成为人工智能生成内容(AIGC)的重要组成部分,并且是人工智能研究的一个变革性方向。基础模型在T2I中扮演着关键角色。在本综述中,我们回顾了超过440篇近期关于T2I的研究工作。我们首先简要介绍了如何使用生成对抗网络(GANs)、自回归模型和扩散模型进行图像生成。在此基础上,我们讨论了这些模型在T2I中的发展,重点在于它们在条件下的生成能力和多样性。我们还探讨了T2I各个方面的前沿研究,包括性能、可控性、个性化生成、安全问题以及内容和空间关系的一致性。此外,我们总结了常用于T2I研究的数据集和评估指标。最后,我们讨论了T2I在AIGC中的潜在应用,以及该领域面临的挑战和未来的研究机会。 索引术语- 文本到图像合成(T2I),人工智能生成内容(AIGC),基础模型,生成对抗网络(GAN),自回归模型(AR),扩散模型(DM),调查 1 介绍 在某些情况下 , 生成的图像仍然需要改进。 文本和图像是记录客观世界的基本手段。正如谚语所说,“一幅图胜过千言万语”。当我们阅读纯文本时,我们的大脑往往会创建相应的图像来帮助我们更好地理解内容。在计算领域,文本到图像生成(T2I)[1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15] 结合了自然语言处理 (NLP) 的领域 [16], [17], [18] 和计算机视觉 (CV) [19], [20], [21], 指的是使用特定模型从文本描述中生成现实图像的过程。由于其在各个领域革命性内容创作方面的潜力,T2I(Text-to-Image)已受到广泛关注。通过将文本描述转换为视觉内容,这项技术在语言与图像之间架起了桥梁,为艺术、设计和多媒体应用开启了新的可能性。此外,T2I 在AI生成内容(AIGC)中扮演着关键角色[22] 代表了迈向通用人工智能道路上的重要里程碑 [23], [24], [25]. 图1展示了一系列 T2I 领域的代表性作品。 生成对抗网络 (GAN) 的引入 [50] 为 T2I 带来了重大进展。受条件 GAN(cGAN) 的启发 [51] , Reed 等人设计了GAN - CLS 和 GNA - INT 模型 [2],which were首先应用生成对抗网络(GAN)于文本到图像(T2I)任务,展示了GAN在生成高质量、细节丰富图像方面的优势。这一阶段标志着GAN在T2I领域应用的重要里程碑[3], [4], [34]. 使用 Transformer 体系结构 [17] 从 NLP , Ope - nAI 引入了 DALL - E 模型 [7] 这一模型是首个采用自回归(AR)方法进行图像生成的模型,利用大规模数据集生成多样化的图像。尽管自回归方法展示了高质量的生成能力 [9],[35], [45] , 其可观的计算成本限制了其在某些应用场景中的实用性。 arXiv: 2411.16164 v1 [cs. CV] 2024 年 11 月 25 日近年来 , 扩散模型 (DM) [52], [53] , 受非平衡热力学的启发 , 已逐渐成为 T2I 领域最先进的方法。 GLIDE [8是首次将扩散模型应用于T2I任务,通过在像素空间中操作展示了出色的生成能力。引入了潜扩散模型(LDM)[33]强调了潜在空间在扩散模型中的重要性,显著提高了生成图像的质量。随着研究的进展,扩散模型展现了无与伦比的有效性。[12], [13], [15] , 使其成为 T2I 中最受欢迎的研究方向之一。 随着深度学习的发展 [48], T2I模型现已能够生成更加精细的图像,这些图像与文本描述高度匹配。回顾T2I模型的发展历程,AlignDRAW [1由Elman Mansimov团队提出的这项工作被视作该领域的开创性研究。该模型通过引入注意力机制,有效地展示了生成图像与文本描述之间的关系[49] , 虽然质量 T2I 技术的不断进步引发了社区内的热烈讨论 [54]. 各研究团队持续发布新论文,技术更新的快速步伐给新进入者带来了巨大的挑战,使其难以入门并保持最新。当前的研究已经探讨了从T2I视角下生成对抗网络(GANs)的发展情况[55], [56] , DM 的进展 模型 [57] , 以及可控发电模块的相关工作 [58然而,关于T2I最新发展方向的全面回顾仍然有限。为了帮助研究人员了解T2I的最新进展,本文将介绍GAN、AR和DM模型的基本原理,并详细回顾其进展情况。此外,本文还将对T2I领域的前沿研究方向进行全面调研,旨在为研究人员提供一个清晰的研究路线图和有价值的参考资料,以供进一步探索。 生成器负责创建样本,而判别器的作用是区分真实样本和生成器生成的样本。具体而言,生成器从噪声(即随机值)中创建样本,而GAN的优化问题被形式化为一个极小极大问题,其目标函数如下所示:G 在 T2I 任务中 , GAN 工作机制更加复杂和精密 [2], [3公式 (1) 。给定生成器 , 最优解DV(D)因为鉴别器是最大化.minmaxV(D, G) =[logD(x)]Ex∼p(x)G Ddata+[log(1−D(G(z)))].E 本文的结构如下。节2介绍 GAN 、 AR 模型和扩散模型的数学原理和模型结构。部分3讨论了这三种模型的发展历史,突出不同时期的代表性作品,并提供解释以阐明其技术演变。章节4探索T2I领域的最新研究方向,包括详细的控制、可控的T2I生成、个性化图像生成、一致性问题以及与安全和版权保护相关的问题。章节 8], [62], [63] 。如图2, 生成器通过将文本描述转换为潜在向量来生成相应的图像 [64] 。此过程通常涉及条件 GAN(cGAN) 技术 [51 where the Discriminator 不仅评估生成图像的质量,还考虑相关的文本信息。Discriminator 提供的反馈帮助Generator不断优化其生成策略,从而使生成的图像越来越真实且一致。z∼p(z)z 5描述了当前在T2I研究中使用的数据集和评估指标,并比较了这些指标下各种模型的有效性。章节6介绍了 T2I 的最新应用 , 强调了其对 AIGC 的意义和潜在影响。最后 ,第7总结了T2I的研究成果,回顾了以往的挑战,并讨论了未来的发展方向及进一步研究的建议。 2.2 自回归模型 (AR) 自回归模型最初用于 NLP 任务 [65] , 并且随着 Transformer 架构的引入 , 它们的功能得到了进一步扩展 [17]。图像生成预训练转换器 (iGPT) [66] 是一项重要的工作,将Transformer引入了图像生成领域,展示了其在该领域的潜在能力。方程(Equation ()2) 显示了模型在生成每个像素或特征时如何依赖先前生成的部分以及输入的文字提示。 2 个基本模型的 T2I 当前认可的主要基础模型包括生成对抗网络(GANs)、自回归模型和扩散模型。在本节中,我们将探讨这些模型的数学原理和工作机制,以了解它们为何有效,并理解它们作为T2I研究基础的原因。 灵感来自 iGPT , DALL - E [7] 和 CogView [9这些模型是首批将Transformer应用于Text-to-Image(T2I)任务的模型之一。通过逐步生成序列,这些模型能够有效地捕捉文本和图像之间的复杂语义关系,实现了与最先进的GAN模型相当的结果。[4], [5], [34] of their time. As illustratedP(X|T) =|t <t t=1 2.1 生成对抗网络 (GAN) GAN 于 2014 年推出 [50] 并已广泛应用于 CV 的各个领域 [59], [60] 和 NLP [61] 领域 , 取得了显着的成果。 GAN 由两个主要组件组成 : 生成器和鉴别器。 图 2 : 文本条件卷积 GAN 架构 [2]. 文本编码它既用于生成器也用于判别器。它将被降低到较低维度,并与图像特征图进行深度连接,以供后续卷积处理阶段使用。 图 3: DALL - E 的培训 [7它被划分为两个阶段。第一个阶段训练VQ-VAE的码本,而第二个阶段训练Transformer,对应于图中所示的阶段一和阶段二。 2.3 扩散模型 (DM) 在图中3,DALL-E 使用两阶段变换器架构,将文本和图像特征映射到共享的潜在空间,并逐步生成图像的每个像素。在第一阶段,DALL-E 使用离散变分自编码器(dVAE)[67] 来压缩图像。在第二阶段 , 它连接按字节对编码的 256 个文本令牌× 基于扩散模型的基本概念 [52] , 去噪扩散概率模型 (DDPM) [53] 在2020年引入,标志着该领域的一项重大里程碑。在前向扩散过程中,DDPM逐步向数据中添加噪声,最终导致高斯分布。xx 噪声分布。数据的转换0 into t att每个时间步长可以用方程 (3).√√ x=αx+ 1−αϵ .t0 t t 使用基于1024个图像令牌(32x32)的子词编码(BPE)来训练一个自回归Transformer,该Transformer模型文本和图像令牌的联合分布。对于生成的一系列图像,DALL-E 利用一个预训练的CLIP模型 [68以评估生成的图像与文本描述的一致性,并据此对它们进行评分和排序。 在去噪扩散过程中,模型学会从噪声中恢复原始数据。生成过程由方程式(描述。4):t 如图所示4 CogView 结合文本描述与图像生成,采用自回归的方法逐步生成图像。首先,文本和图像通过 SentencePiece 转换为tokens [69] 用于文本和离散自动编码器 ,类似于 VQ - VAE 的阶段 1 [70] , 用于图像。然后将文本和图像令牌连接并输入到单向 GPT [65用于学习图像生成的模型。在从文本到图像(T2I)生成过程中,训练好的模型使用CLIP对生成的图像进行排名,通过计算CaptionScore完成这一过程。71] , 最终选择与输入文本最匹配的图像。 μΣwhereθandθ是模型学习的均值和方差参数。 在 T2I 中 , 生成过程也以文本提示为条件 , 可以用方程 (5):T 其中是输入文本提示 , 模型通过条件扩散生成与文本相关的图像。Z 如图所示5,扩散过程逐渐在固定马尔可夫链中向原始图像添加高斯噪声,最终将图像转化为高斯噪声。然后,反向过程通过去噪逐步恢复原始图像,实现图像生成。这种方法以其出色的生成性能而闻名 [72], 该过程通过逐步将文本描述转换为高质量图像来实现T2I任务的新见解,提供了新的视角。 3.1 T2I 中 GAN 模型的发展 如表所示1, GAN 在 T2I 领域的应用取得了重大进展。Reed 等人的工作 [。2] 在 2016 年标志着 GAN 在 T2I 中的首次应用 , 利用条件 GAN(cGAN) 结构 [51] , 为后续研究奠定了基础。 GLIDE [8]: 被认为是首次探索从T2I使用DDPM的方法。本研究比较了两种不同的指导策略:CLIP指导[68] 和无分类器指导 [73]. 后者通过用文本替换原始类别标签,实现了更加真实和详细的图像效果。GLIDE 的结果如图所示。7. 第二年 , StackGAN [3引入了一个两阶段生成图像的方法。在第一阶段,基于给定的文字描述绘制基本形状和颜色,生成低分辨率的图像。在第二阶段,通过结合第一阶段的输出和文字描述来进一步细化图像,从而生成高分辨率的图像,显著提高了生成图像的质量。在此基础上,提出了StackGAN++ [26] 采用了一种带有多个生成器和判别器的树结构以提高图像生成质量。