您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[字节跳动]:Seedream 3.0 技术报告 - 发现报告

Seedream 3.0 技术报告

2025-04-16字节跳动故***
AI智能总结
查看更多
Seedream 3.0 技术报告

字节跳动种子轮 摘要 我们提出了Seedream 3.0,一个高性能的中英双语图像生成基础模型。我们针对Seedream 2.0中存在的挑战,包括与复杂提示的匹配、细粒度排版生成、视觉美学和保真度不理想以及图像分辨率有限等问题,开发了几项技术改进。具体而言,Seedream 3.0的进步源于整个流程的改进,从数据构建到模型部署。在数据层,我们通过缺陷感知训练范式和双轴协同数据采样框架将数据集规模扩大一倍。此外,在预训练阶段,我们采用了混合分辨率训练、跨模态RoPE、表征对齐损失和分辨率感知时间步长采样等有效技术。在训练后阶段,我们利用SFT中的多样化美学文本描述,以及基于VLM的带缩放奖励模型,从而实现与人类偏好高度一致的输出。此外,Seedream 3.0开创了一种新型加速范式。通过采用一致的噪声期望和重要性感知时间步长采样,我们在保持图像质量的同时实现了4到8倍的加速。Seedream 3.0相比Seedream 2.0展现出显著提升:它增强了整体能力,特别是在复杂汉字的文本渲染方面,这对专业排版生成至关重要。此外,它提供了原生高分辨率输出(最高2K),使其能够生成高质量图像。 :官方页面:https://team.doubao.com/tech/seedream3_0 目录 1 简介 ................................................ 4 2.1 数据.................................................. 52.2 模型预训练.......................................... 52.2.1 模型架构..................................... 52.2.2 模型训练细节................................... 62.3 模型后训练......................................... 72.3.1 美学标题...................................... 72.3.2 模型训练详情................................... 72.3.3 奖励模型扩展.................................... 72.4 模型加速.......................................... 7 3 模型性能 3.1 人工分析领域....................................... 83.2 综合评价...................................... 93.2.1 人工评估...................................... 93.2.2 自动评估.................................... 103.3 文本渲染............................................ 123.4 照片级真实肖像........................................ 143.5 与 GPT-4o 的比较...................................... 163.5.1 密集文本渲染.................................... 163.5.2 图像编辑......................................... 163.5.3 生成质量...................................... 18 A.1 核心贡献者.......................................... 22A.2 贡献者............................................. 22 1 简介 近期扩散模型的发展[3,8,10,18,21]已经重塑了图像生成的格局,将生成能力推至前所未有的高度。最近,Seedream 2.0的推出标志着双语文本到图像生成的重要里程碑,其在捕捉中文语言细微差别和文化语义方面表现出卓越的性能。然而,我们的综合评估确定了若干可能阻碍其广泛商业应用的关键挑战。 •与复杂提示的协调: 以下提示可以进一步增强,特别是在数值精度和多对象空间关系方面。 •细粒度排版生成: Seedream 2.0在生成高保真度小尺寸文字字符、多行上下文组合以及复杂的排版细节方面仍然有限。 •不理想的视觉美感和保真度: 捕捉微妙的美学特质,例如电影场景的美和肖像的质感,仍然具有挑战性。 •有限的图像分辨率: 基础模型将原生输出限制为小分辨率(例如,512)×512像素),需要依赖后处理超分辨率流程。 我们的方法引入了四个关键技术改进。首先,在数据层,我们通过使用一种基于两个正交轴的新动态采样机制,将数据集大小和质量近似翻倍:图像簇分布和文本语义连贯性。其次,我们在预训练阶段结合了多种高效训练方法,包括 i) 混合分辨率训练、ii) 跨模态RoPE、iii) 表示对齐损失、iv) 分辨率感知时间步长采样。这提高了模型的可扩展性和泛化能力,从而实现了更好的视觉-语言对齐。第三,在后训练阶段,我们采用多样化美学描述的SFT,以及基于VLM的奖励模型来进一步提升模型整体性能。最后,在模型加速方面,我们通过保持稳定的噪声期望来鼓励稳定采样,有效减少了推理过程中的函数评估次数(NFE)。 与Seedream 2.0相比,Seedream 3.0在多个维度上显示出显著进步: •全面能力提升。展示了强烈的用户偏好和关键能力的显著进步,包括文本-图像对齐、构图结构、美学质量和文本渲染。 •增强文本渲染性能:显著提升了文本渲染性能,尤其在生成中文和英文的小尺寸文字字符以及具有高美学长文本布局方面表现出色。Seedream 3.0 代表了一种开创性的解决方案,针对小文本生成和美观长文本编排的挑战,在图形设计输出方面超越了Canva等平台的人工设计模板。 •美学改进在图像美学质量上取得重大改进,在电影场景中展现出色性能,并在肖像生成方面增强了真实感。 •原生高分辨率输出:支持原生2K分辨率输出,无需后期处理。此外,兼容更高分辨率,并能适应多种长宽比。 •高效推理成本:通过多种模型加速技术,Seedream 3.0能够显著降低其推理成本,并仅用3.0秒(不进行PE操作)即可生成1K分辨率的图像,其速度远快于其他商业模型。 Seedream 3.0于2025年4月初整合到多个平台,包括抖音1和 Jimeng 2我们热切希望Seedream 3.0能够成为提高工作和日常生活各方面生产力的实用工具。 2 技术细节 2.1 数据 在Seedream 2.0中,我们采用严格的数据过滤策略,系统性地排除了存在细微瑕疵的图像数据,包括水印、覆盖文字、字幕和马赛克图案。这一严格的过滤协议显著限制了用于训练的数据量,特别是考虑到受影响样本占原始数据集相当大的比例(约占总集的35%)。为解决这一局限性,Seedream 3.0引入了一种创新的缺陷感知训练范式。该范式包含一个在主动学习引擎选择的人工标注样本(15,000个)上训练的专用缺陷检测器。该检测器通过边界框预测精确定位缺陷区域。当检测到的缺陷总面积小于图像空间的20%(一个可配置的阈值)时,我们保留这些先前被排除的样本,同时实施掩码潜在空间优化。具体而言,在潜在表示空间的扩散损失计算中,我们采用空间注意力掩码机制,以排除从识别出的缺陷区域提取的特征梯度。这一创新方法将有效训练数据集扩展了21.7%,同时保持了模型稳定性。 为优化数据分布,我们提出了一种双轴协同数据采样框架,从视觉形态和语义分布维度进行联合优化。在视觉模态中,我们继续采用层次聚类方法以确保不同视觉模式的均衡表示。在文本语义层面,我们通过词频-逆文档频率(TF-IDF [19]),有效解决了描述性文本的长期分布问题。为进一步增强数据生态系统的协同性,我们开发了一套跨模态检索系统,为图像-文本对建立了联合嵌入空间。该系统在所有基准测试中均达到当前最佳性能。检索增强框架通过以下方法动态优化数据集:(1)通过目标概念检索注入专家知识;(2)通过相似度加权采样进行分布校准;(3)利用检索到的邻近对进行跨模态增强。 2.2 模型预训练 2.2.1 模型架构 我们的核心架构设计继承自 Seedream 2.0 [4], which adopts an MMDiT [3] 用于处理图像和文本标记并捕捉两种模态之间的关系。我们在基础模型中增加了总参数数量,并在 Seedream 3.0 中引入了多项改进,从而提升了可扩展性、泛化能力以及视觉-语言对齐能力。 混合分辨率训练。Transformers [23] 本地支持以变长的标记作为输入,这也在基于 ViT 的视觉识别任务中证明是有效的 [2]. 在Seedream 3.0中,我们采用混合分辨率训练,在每一阶段的训练中将不同长宽比和分辨率的图像打包在一起。具体来说,我们首先以256的平均分辨率对模型进行预训练2:(with various aspect ratios) and then finetune it on higher resolution images (from 5122到2048 2). 我们还采用尺寸嵌入作为附加条件,使模型意识到目标分辨率。混合分辨率训练显著增加数据多样性,并提高了我们模型在未见过分辨率上的泛化能力。 跨模态RoPE在Seedream 2.0中,我们引入了Scaling RoPE以使我们的模型能够更好地泛化到未训练的宽高比和分辨率。在Seedream 3.0中,我们将这一技术扩展为跨模态的RoPE,进一步增强了视觉-文本标记符的对齐。我们将文本标记符视为形状为[1,L] 和应用二维RoPE [22] 到文本标记。文本标记的列式位置ID在相应的图像标记之后连续分配。跨模 态RoPE有效地建模了模态内和跨模态关系,这对于提高视觉-文本对齐和文本渲染精度至关重要。 2.2.2 模型训练细节 培训目标。在Seedream 3.0中,我们采用流匹配[12,13]训练目标,以及一个表征对齐损失(REPA[25]): 在我们使用线性插值器的地方x= (1−t)x+tϵ,ϵ∼ N(0,I)遵循惯例[3,13]. 对齐损失是通过计算我们的MMDiT的中间特征与预训练的视觉编码器DINOv2-L的E(x,C)∼D,t∼p(t;D),x∼ |REPAθ tp(x x) t0特征之间的余弦距离来计算的 [16], with the loss weightλ= 0.我们发现在大规模文本到图像生成中引入表示对齐目标可以加速收敛。0t t t 0dt2 分辨率感知时间步长采样。As shown in Equation (1), 时间步长从分布中采样p(t;D) 对数据集具有适应性的D. 类似于 [3], 我们首先从对数正态分布中进行采样,然后根据训 练分辨率进行时间步长偏移。一般来说,在较高分辨率上训练时,我们将分布偏移以增加在较低信噪比(SNR)下的采样概率。在训练过程中,我们计算数据集的平均分辨率D以确定偏移的时间步长分布。在推理过程中,我们根据期望的分辨率和宽高比计算偏移因子。 卡通风格的营销海报,标题为“夏日欢乐季”。画面展示了一对卡通人物坐在湖边椅子上,背景是蓝天白云和湖面,右侧有一个装饰有灯串的帐篷,旁边摆放着饮料、零食和购物袋等物品,营造出轻松愉快的夏日氛围。配色以蓝色、绿色为主,搭配黄色点缀,整体色调明亮清新,氛围轻松愉悦。标题位于画面上方中央,使用白色手写体,搭配黄色线条装饰。标题上方是黄色手写体书写的英文标题,下方白底黄字写着宣传语