您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Stability AI]:【中文译版】StableDiffusion3技术报告 - 发现报告
当前位置:首页/行业研究/报告详情/

【中文译版】StableDiffusion3技术报告

信息技术2024-03-13-Stability AI坚***
【中文译版】StableDiffusion3技术报告

和空间推理、对细节的关注以及各种风格的高图像质量。图 1.来自我们的 8B 整流流模型的高分辨率样本,展示了其排版、精确提示跟随方面的功能*平等贡献。 <first.last>@stability.ai。高维感知数据技术阐述该方法的优越性能两种模式的权重分开,并实现信息之间的双向流动图像和文本标记,提高文本理解、排版和人类偏好评级。用于高分辨率文本到图像的合成。此外,我们提出了一种新颖的基于变压器的与已建立的扩散配方相比秤。通过大规模研究,我们证明通过各种指标和人类评估来衡量。我们最大的模型优于最先进的模型,我们将进行实验扩散模型通过将数据的前向路径反转为噪声来创建数据。**抽象的凯尔·莱西 亚历克斯·古德温 扬尼克·马雷克 罗宾·隆巴赫尚未被明确确立为标准实践。在这项工作中,我们改进了现有的噪声采样技术,通过将修正流模型偏向于感知相关的模型来训练它们稳定性人工智能1苏米斯·库拉尔 安德烈亚斯·布拉特曼 拉希姆·恩特扎里 乔纳斯·穆勒 哈里·赛尼 亚姆·莱维多米尼克·洛伦茨 阿克塞尔·绍尔 弗雷德里克·博塞尔 达斯汀·波德尔 蒂姆·多克霍恩 锡安 英语¡帕特里克·埃塞尔缩放整流流量变压器以实现高分辨率图像合成数据、代码和模型权重公开。例如图像和视频。整流流是一种最新的生成模型公式,它将已经成为一种强大的生成模型数据和噪声成一条直线。尽管它更好理论特性和概念简单性,它用于文本到图像生成的架构,使用我们证明该架构遵循可预测的缩放趋势,并将较低的验证损失与改进的文本到图像合成相关联,如下所示Machine Translated by Google 我们工作的核心贡献是:(i)我们对不同的扩散模型和整流流公式进行了大规模、系统的研究,以确定最佳设置。虽然指定从数据到噪声的前向路径可以实现高效的训练,但它也提出了选择哪条路径的问题。这种选择可能对采样产生重要影响。例如,无法消除数据中所有噪声的前向过程可能会导致训练和测试分布的差异,并导致诸如灰度图像样本之类的伪影(Lin 等人, 2024)。重要的是,前向过程的选择也会影响学习到的后向过程,从而影响采样效率。虽然弯曲路径需要许多积分步骤来模拟该过程,但直线路径可以用单个步骤进行模拟,并且不易出现误差累积。由于每个步骤都对应于神经网络的评估,因此这对采样速度有直接影响。我们最大的模型优于最先进的开放模型,例如 SDXL (Podell 等人, 2023)、 SDXL‑Turbo (Sauer等人, 2023)、 Pixart‑α (Chen 等人, 2023)和封闭模型‑源模型,例如 DALL‑E 3 (Betker et al., 2023) ,均用于即时理解和人类偏好评级的定量评估(Ghosh et al., 2023) 。其中速度v由神经网络的权重θ参数化。 Chen 等人之前的工作。 (2018)建议通过可微 ODE求解器直接求解方程(1) 。然而,这个过程的计算成本很高,特别是对于参数化vθ(yt, t)的大型网络架构。更有效的替代方法是直接回归向量场ut ,生成p0和p1之间的概率路径。为了构建这样的ut,我们定义一个前向过程,对应于p0和p1 = N (0, 1)之间的概率路径pt ,如下这种生成建模技术已被证明对于对图像等高维感知数据进行建模非常有效(Ho et al., 2020)。近年来,扩散模型已成为从自然语言输入生成高分辨率图像和视频的事实上的方法,具有令人印象深刻的泛化能力(Saharia等人, 2022b; Ramesh 等人, 2022; Rombach 等人, 2022 ) ; Podell 等人, 2023; Dai 等人, 2023; Esser等人, 2023; Blattmann 等人, 2023b; Betker 等人, 2023; Blattmann 等人, 2023a; Singer 等人, 2022) 。由于其迭代性质和相关的计算成本,以及推理过程中的较长采样时间,对这些模型进行更有效训练和/或更快速采样的公式的研究有所增加(Karras 等人, 2023 年; Liu 等人,2023 年)。 , 2022)。前向路径的一个特殊选择是所谓的整流流(Liu et al., 2022; Albergo & Vanden‑Eijnden, 2022; Lipman et al., 2023),它将数据和噪声连接在一条直线上。尽管该模型类具有更好的理论特性,但尚未在实践中得到决定性的确立。到目前为止,一些优势已经在中小型实验中得到了实证证明( Ma et al., 2024),但这些大多局限于类条件模型。在这项工作中,我们通过在修正流模型中引入噪声尺度的重新加权来改变这一点,类似于噪声预测扩散模型(Ho et al., 2020)。通过大规模研究,我们将新配方与现有扩散配方进行比较并证明其优点。它们被训练将数据的前向路径反转为随机噪声,因此,结合神经网络的近似和泛化特性,可以用来生成训练数据中不存在但遵循训练分布的新数据点数据(Sohl‑Dickstein 等人, 2015 年; Song 和 Ermon, 2020 年)。到模型中(例如,通过交叉注意力(Vaswani 等人, 2017; Rombach 等人, 2022))并不理想,并且提出了一种新的架构,该架构结合了图像和文本标记的可学习流,这使得它们之间的双向信息流。我们将其与我们的我们展示了广泛使用的文本到图像合成方法,其中直接输入固定的文本表示为此,我们为整流流模型引入了新的噪声采样器,与之前已知的采样器相比,其性能得到了提高。 (ii) 我们设计了一种新颖的、可扩展的文本到图像合成架构,允许网络内文本和图像令牌流之间的双向混合。我们展示了它与 UViT (Hoogeboom et al., 2023)和 DiT (Peebles & Xie, 2023)等已建立的骨干网相比的优势。最后,我们 (iii) 对我们的模型进行缩放研究,并证明它遵循可预测的缩放趋势。我们表明,较低的验证损失与通过 T2I‑CompBench (Huang 等人, 2023)、 GenEval (Ghosh 等人, 2023)和人类评分等指标评估的文本到图像性能的提高密切相关。我们公开结果、代码和模型权重。改进了整流流公式并研究了其可扩展性。我们展示了验证损失的可预测缩放趋势,并表明较低的验证损失与改进的自动和人工评估密切相关。2. 流程的无模拟训练一、简介缩放整流流量变压器以实现高分辨率图像合成我们考虑使用常微分方程(ODE)定义噪声分布p1的样本x1到数据分布p0的样本x0之间的映射的生成模型,,(2)(1)dyt = vθ(yt, t) dtzt = atx0 + bt其中 N (0, I) 。2扩散模型从噪声中创建数据(Song 等人, 2020)。Machine Translated by Google EDM EDM (Karras et al., 2022)使用以下形式的前向过程化与均值Pm和方差P 结果3. 流动轨迹在BT在BTtttt2在-1在t-2λt22 a t 2 b2tN (t|Pm, P2其中(Kingma & Gau, 2023) bt = exp F ) -1其中F N是正态分布的分位数函数。注意这个选择BT2t 1-t 。tsttzt - bt(在射频s2乙在tt-1t将zt、 x0与duce ψt和ut之间的关系表示为bt a t λ z + 2 at2-122并使用LCFM ,然后对应于w 网络输出直接参数化速度vθ。LCFM = Et,pt(z|),p() ||vθ(z, t) -ta t zt -在tzt = x0 + bttt电火花加工重量整流流整流流(RFs) (Liu et al., 2022; Albergo & Vanden‑Eijnden, 2022; Lipman et al., 2023)将前向过程定义为数据分布和标准正态分布之间的直线路径,即为了将损失转换为显式形式,我们将z-bt ψ和ψ插入到(5)中,我们介绍‑网络通过F 预测进行参数化(Kingma&Gao, 2023; Karras 等人, 2022) ,并且损失可以写为LwEDM :Cosine (Nichol & Dhariwal, 2021)提出了以下形式的前向过程(7)与数据和噪声分布一致。tEtU(t),N(0,I) wtλ tθ(zt, t) -= N (λt| - 2Pm,(2Ps)pt(z|) ut(z) = EN(0,I)ut(z|) pt(z)(z|) =由于方程 6 中的边缘化,条件流匹配(参见 B.1),直接处理是很棘手的,乙1zt = cosπ t x0 + sinπ。在LCFM = Et,pt(z|),p() ||vθ(z, t) - ut(z|)||2 2 ,,‑2λt N (-2Pm,(2Ps)ψt(·|) : x0 → atx0 + btzt),我们可以将方程(9)重写为(6)(ψpt(zt) = EN(0,I)pt(zt|) ,||2 2||θ(z, t) - ||2 2 (12)3在(8)在这项工作中,我们考虑了上述形式主义的不同变体,我们将在下面简要描述。2)(9)zt = (1 - t)x0 + t。= ut(zt|),由于zt可以写为初始值z0 = x0的 ODE z的解,因此 ut(·|)生成pt(·|)。值得注意的是,我们可以使用条件向量场ut(·|)构造一个边缘向量场ut ,它生成边缘概率路径pt ( Lipman et al., 2023) (参见B.1) :(4)-λt + 0.5λ(14)(z|)|)(3)使用流量匹配目标回归ut时(11)bt λ 2现在,考虑信噪比λt := log( vθ‑对应于LCFM。= 2(= ut(zt|) =利用条件向量场ut(z|)提供了一个等效但易于处理的目标。(16)‑(13)ut(zt|) =) 对于 t U(0, 1)乙t)(e)。 BT2LFM = Et,pt(z) ||vθ(z, t) - ut(z)||2 2 。1 λ人们可以推导出各种加权损失函数,这些函数为所需的解决方案提供信号,但可能会影响优化轨迹。为了对不同方法(包括经典的扩散公式)进行统一分析,我们可以将目标写成以下形式(遵循Kingma&Gao (2023)):z)。。和Lw(x0) = -(17)对于a0 = 1、 b0 = 0、 a1 = 0 和b1 = 1,边际,ut(z|) := ψ我们定义θ :=(x0|) = a tx0 + b其中wt = ‑,(10)(15)== Et,pt(z|),p() - λ 2(5)缩放整流流量变压器以实现高分辨率图像合成接下来,我们使用方程(10)重新参数化方程(8)作为噪声预测目标:与参数化和损失相结合,这对应于权重wt = sech(λt/2)。当与v 预测损失相结合时(Kingma&Gao, 2023), - λt/2权重由下式给出: wt = e请注意,当引入时间相关加权时,上述目标的最优值不会改变。因此,Machine Translated by Google 因此,

你可能感兴趣

hot

【英文原版】StableDiffusion3技术报告

信息技术
Stability AI2024-03-13
hot

软件定义战争中文初译

信息技术
CSIS2022-09-15
hot

Big Ideas 2024(中文编译版)

文化传媒
ARK Invest2024-02-20