行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Seedream 2.0：一个原生中文-英文双语图像生成基础模型

2025-03-10 字节跳动肖峰

Seedream2.0：一个原生中文-英文双语图像生成基础模型

简介

随着扩散模型的快速发展，图像生成领域取得了显著进展，但现有模型仍面临模型偏差、文本渲染能力有限和对中文文化细微差别理解不足等问题。为解决这些局限性，Seedream团队提出了Seedream2.0，一个原生中文-英文双语图像生成基础模型，在多个维度上表现出色，能够巧妙地处理中英文的文本提示，支持双语图像生成和文本渲染。

主要贡献

强大的模型能力：通过数据构建、模型预训练和后期训练的多层次优化，模型在提示跟随、美学、文本呈现和结构正确性等方面处于前沿。
出色的文本呈现能力：使用针对文本呈现任务定制的字符级文本编码器，模型展现了优秀的文本生成能力，特别是在生成包含复杂汉字的长文本内容方面表现突出。
对中文特征的深刻理解：通过与自开发的多语言LLM文本编码器的整合，模型可以直接从大量高质量的中文数据中学习，生成具有准确文化细微差别和美学表达的图像。
高度符合人类偏好：经过多个迭代的RLHF优化，模型在各个后期训练模块中始终与人类偏好对齐，ELO评分显著优于其他模型。

数据预处理

数据组合

预训练数据精心策划，包括四个主要组成部分：

知识丰富的配对：高质量的配对，包括图像质量极高和知识内容丰富的数据。
一般数据：分布维护数据，通过按数据源下采样和基于聚类的采样保持原始数据的有用分布。
知识注入数据：使用分类法和多模态检索引擎注入知识，包括具有独特中国语境的数据。
针对性补充数据：用在文本到图像任务中表现不佳的数据补充数据集，例如以动作为导向的数据和反事实数据。

数据清理过程

通过逐步细化的数据过滤方法确保数据集的质量和相关性，包括：

第一阶段：一般质量评估，评估图像清晰度、运动模糊和无意义内容。
第二阶段：详细质量评估，涉及专业的美学评分、特征嵌入提取、去重和聚类。
第三阶段：标注和重新标注，对剩余数据进行分层，并注释标注或重新标注。

主动学习引擎

开发了一个主动学习系统来改善图像分类器，通过迭代过程逐步改进分类器，确保为训练提供高质量的数据集。

图像字幕生成

为每张图片提供有意义且在上下文中准确的描述，包括：

通用描述：中英文简短和长篇描述，确保准确而详细的描述。
专业描述：针对不同场景设计的专业标题，如艺术标题、文本标题和超现实标题。

文本渲染数据

通过过滤内部数据和使用OCR工具选择具有丰富视觉文本内容的图像，构建了一个大规模视觉文本呈现数据集。

模型预训练

扩散变换器

使用自行开发的变分自编码器（VAE）对输入图片进行编码，得到潜在空间表示，然后将潜在向量分割成多个部分，最终将输入图片转换为图像标记，这些标记与由文本编码器编码的文本标记连接，然后馈入变换器块。

文本编码器

整合自开发的双语大语言模型（LLM）作为文本编码器，通过微调LLM增强双语对齐能力，使其能够原生支持从中文和英文的原始数据中学习。

字符级文本编码器

应用ByT5字形对齐模型来编码渲染文本的字形内容，确保渲染文本的字形特征与文本提示的一致性。

模型后训练

持续训练（CT）

通过转向一个更小但质量更好的数据集进行训练，显著提高生成图像的美学质量，并保持对提示跟踪和结构准确性的基本性能。

监督微调（SFT）

进一步微调模型，以生成具有优秀艺术美感的高保真图像，使用少量精心收集的图像，并通过数据重采样算法增强美学，同时保持图像与文本对齐的能力。

人类反馈对齐（RLHF）

引入了一种针对扩散模型的开创性RLHF优化程序，结合偏好数据、奖励模型（RMs）和反馈学习算法，增强模型在各个方面的整体性能。

提示工程（PE）

利用内部微调的LLM来促进扩散模型生成更高质量的图像，通过监督微调LLM和RLHF进一步提升PE模型的表现。

精炼器

开发了一个精炼模型以扩展具有更高分辨率的图像，同时修正一些小的结构错误。

对齐到基于指令的图像编辑

SeedEditV1.0

提出了一个新的数据生成过程、一个新颖的因果扩散框架以及具有迭代优化的训练策略，保持与原始输入的高审美和构图保真度的编辑图像。

增强人脸识别

引入了多专家数据融合和面部感知损失，进一步增强模型保留面部特征的能力。

模型加速

CFG和步骤蒸馏

提出了一种新颖的引导比例嵌入策略和步骤蒸馏框架，提高扩散模型的效率。

量化

通过操作融合和对密集运算的微调显著提高了计算密度，并减少了内核内存访问。

模型性能

人类评估

通过Bench-240基准，计算整体ELO分数，对文本-图像对齐、结构修正和美学质量进行专业评估，结果显示Seedream2.0在所有评估标准上表现更加全面，获得最高总分。

自动评估

采用EvalMuse和VQAScore方法评估文本-图像对齐能力，结果显示Seedream2.0在大多数关键指标上获得了最高的综合分数。

图像质量

通过HPSv2和MPS模型评估图像质量，结果显示Seedream2.0在HPSv2上获得了最高分，在MPS分数方面紧随Midjourneyv6.1，但大幅超越其他竞争模型。

文本渲染

制定了一个专门针对文本渲染的基准，包含180个中文提示和相等数量的英文提示，结果显示Seedream2.0在中英文文本渲染方面实现了最佳的可用性，文本准确性和命中率在测试模型中排名最高或接近最高。

中文特征

构建了一个涵盖传统服饰、食物、艺术技巧、建筑和其他习俗的提示基准，结果显示Seedream2.0在响应速度和中国美学方面表现优异，尤其在食物、节日、工艺和建筑等方面。

可视化

通过多个视觉比较结果，结果显示Seedream2.0在图像文本对齐，结构连贯性，美学吸引力和文本呈现准确性等方面表现出优势。

结论

Seedream2.0在提示跟随、美学、文本呈现和结构正确性等方面表现出色，其卓越的ELO评分证明了模型与人类偏好高度契合。特别是在中文文本渲染和文化特定场景生成方面，模型表现出显著的有效性，在豆包和即梦等应用上赢得了广泛赞誉。

arXiv:2503.07703v1[cs.CV]10Mar2025 Seedream2.0：一个原生中文-英文双语图像生成基础模型 SeedVision团队，字节跳动摘要扩散模型的快速发展催⽣了图像⽣成领域的显著进展。然⽽，像Flux、SD3.5和Midjourney等主流模型仍然⾯临模型偏差、⽂本渲染能⼒有限和对中⽂⽂化细微差别理解不⾜等问题。为了解决这些局限性，我们提出了Seedrea2.0，⼀个原⽣中⽂-英⽂双语图像⽣成基础模型，在多个维度上表现出⾊，能够巧妙地处理中⽂和英⽂的⽂本提⽰，⽀持双语图像⽣成和⽂本渲染。我们开发了⼀个强⼤的数据系统，便于知识整合，并且开发了⼀个平衡图像描述准确性与丰富性的字幕系统。特别地，Seedrea与⾃研的双语⼤语⾔模型（LLM）集成作为⽂本编码器，使其能够直接从⼤量数据中学习本地知识。这使得它能够⽣成具有准确⽂化细微差别和美学表现的⾼保真图像，⽆论是⽤中⽂还是英⽂描述。此外，Glyph-AlignedByT5⽤于灵活的字符级⽂本渲染，⽽ScaledROPE则很好地推⼴到未训练的分辨率。多阶段的后训练优化，包括SFT和RLHF迭代，进⼀步提升了整体能⼒。通过⼴泛的实验，我们展⽰了Seedrea2.0在多个⽅⾯达到了⾏业领先的表现，包括遵循提⽰、审美、⽂本渲染和结构准确性。此外，Seedrea2.0经过多次RLHF迭代优化，使其输出与⼈类偏好⾼度契合，正如其卓越的ELO得分所展⽰的那样。此外，它可以轻松地适应基于指令的图像编辑模型，如SeedEdit[28]，具有强⼤的编辑能⼒，能够平衡指令跟随与图像⼀致性。通信：作者名单见附录A 官方网站：https://team.doubao.com/tech/seedream 图1Seedream2.0在英文和中文的所有评估方面表现出色图2Seedream2.0可视化内容 1介绍4 2数据预处理5 2.1数据组成5 2.2数据清洗过程6 2.3主动学习引擎6 2.4图像字幕⽣成7 2.4.1通⽤字幕7 2.4.2专业字幕7 2.5⽂本渲染数据8 3模型预训练8 3.1扩散变换器9 3.2⽂本编码器9 3.3字符级⽂本编码器10 4模型后训练10 4.1持续训练(CT)10 4.1.1数据12 4.1.2训练策略12 4.2监督微调(SFT)12 4.2.1数据12 4.2.2训练策略12 4.3⼈类反馈对⻬（RLHF） 4.3.1偏好数据13 4.3.2奖励模型 4.3.3反馈学习......................................14 4.4提⽰⼯程(PE)14 4.4.1微调LLM14 4.4.2PERLHF...........................................15 4.5精炼器.................................................15 5对齐到基于指令的图像编辑 5.1准备⼯作 5.2增强型⼈员⾝份保护 6模型加速17 6.1控制流图和步骤蒸馏17 6.2量化18 7模型性能 7.1⼈类评估19 7.1.1基准19 7.1.2⼈类评估结果19 7.2⾃动评估20 7.2.1⽂本-图像对⻬20 7.2.2图像质量2121 7.3⽂本渲染21 7.4中国特点22 7.5视觉化24 8结论24 A贡献与致谢 1简介随着扩散模型的显著进展，图像⽣成领域经历了快速扩展。最近的⼀些强⼤模型，如Fiux[13]，SD3.5[7]，Ideogra2.0和Midjourney6.1，已经引发了⼀波⼴泛的商业应⽤。然⽽，尽管现有基础模型取得了显著进展，但仍⾯临若⼲挑战。 •模型偏⻅：⽬前的模型表现出对特定⽅⾯的偏好，例如Midjourney的美学，同时牺牲了在其他⽅⾯的性能，如遵循提⽰或结构正确性。 •⽂本渲染能⼒不⾜：在⻓内容或多语⾔（特别是中⽂）中的⽂本渲染能⼒相当有限，⽽⽂本渲染是某些重要场景中的关键能⼒，例如包括平⾯设计和海报设计的设计场景。 •对中国特征理解不足：缺乏对地方文化特征的深刻理解，例如中国文化，这对当地设计师至关重要。地⽅⽂化的独特特征，如中国⽂化，对当地设计师具有重要意义为了解决这些重要问题，我们推出了Seedrea2.0，这是⼀个最先进的⽂本到图像模型。它可以熟练处理中英⽂提⽰，⽀持双语图像⽣成和⽂本呈现任务，在多个⽅⾯表现出⾊。具体⽽⾔，我们设计了⼀种数据架构，具备持续整合新知识的能⼒，并开发了⼀个强⼤的标题系统，考虑到准确性和丰富性。重要的是，我们整合了⾃开发的⼤型语⾔模型（LLM）作为⽂本编码器，其结构仅包含解码器。通过多轮校准，⽂本编码器能够获得增强的双语对⻬能⼒，使其能够原⽣⽀持从中⽂和英⽂的原始数据中学习。我们还应⽤了⼀种Giyph对⻬的ByT5模型，使我们的模型能够灵活地进⾏字符级⽂本呈现。此外，提出了ScaiedROPE，以将我们的⽣成过程推⼴到未训练的图像分辨率。在后期训练阶段，我们通过多阶段的SFT训练和RLHF迭代进⼀步增强了模型的能⼒。我们的主要贡献有四个： •强⼤的模型能⼒：通过数据构建、模型预训练和后期训练的多层次优化，我们的模型在多个⽅⾯处于前沿，包括提⽰跟随、美学、⽂本呈现和结构正确性。 •出⾊的⽂本呈现能⼒：使⽤针对⽂本呈现任务定制的字符级⽂本编码器，我们的模型展现了优秀的⽂本⽣成能⼒，特别是在⽣成包含复杂汉字的⻓⽂本内容⽅⾯表现突出。 •对中⽂特征的深刻理解：通过与⾃开发的多语⾔LLM⽂本编码器的整合，我们的模型可以直接从⼤量⾼质量的中⽂数据中学习。这使其能够强有⼒地处理融⼊中⽂⻛格细微差别和专业术语的复杂提⽰。此外，我们的模型在中⽂⽂本呈现⽅⾯表现出⾊，⽽这⼀领域在社区中尚未得到充分发展。 •⾼度符合⼈类偏好：经过多个迭代的RLHF优化，我们的模型在各个后期训练模块中始终与⼈类偏好对⻬，这在ELO评分中体现出显著的优势。截⾄2024年12⽉初，Seedrea2.0已被整合到多个平台，例如Doubao（⾖包）1和Dreaina（即梦）2。我们热切⿎励更⼴泛的受众深⼊探索这些内容。我们模型的能⼒和潜⼒，希望它能成为改善⼯作和⽇常⽣活多个⽅⾯⽣产⼒的有效⼯具。 1https://www.doubao.co/chat/create-iage2https://jieng.jianying.co/ai-tooi/iage/generate 2数据预处理本节详细介绍了我们⽤于预训练的数据处理流程，包括数据组合、数据清洗和过滤、主动学习、加注释和⽂本渲染数据等各种预处理步骤。这些流程确保了最终的预训练数据集具有⾼质量、⼤规模和多样性。 2.1数据组合我们的预训练数据精⼼策划，包括四个主要组成部分，确保了⼀个平衡和全⾯的数据集，如图3所⽰。⾼质量数据分布维护数据⾼质量的配对质量清晰美学下采样⼀般数据低质量数据知识丰富的配对数据源数据聚类聚类基于图像基于⽂本知识注⼊数据分类学名词动词引擎多模态检索引擎主动学习引擎针对性补充数据检索/分类⼤规模运动不存在的实体 Embedding 图3预训练数据系统⾼质量数据。该组件包括图像质量极⾼和知识内容丰富的数据，评估标准包括清晰度、美学吸引⼒和来源分布来⾃分类法的数据嵌⼊去重检索。未经整理的数据增强的整理数据图4我们的知识注入过程概述。分布维护数据。该组件在减少低质量数据的同时保持原始数据的有⽤分布，通过以下⽅式： •按数据源下采样：减少过度代表的来源的⽐例，同时保持它们之间的相对⼤⼩关系。 •基于聚类的采样：基于多个层级的聚类对数据进⾏采样，从表⽰⼴义语义的聚类（例如视觉设计）到表⽰更精细语义的聚类，例如CD/书籍封⾯和海报。知识注⼊数据。本部分涉及使⽤已开发的分类法和多模态检索引擎进⾏知识的注⼊，如图4所⽰。它包括具有独特中国语境的数据，以提⾼模型在特定于中⽂场景中的表现此外，我们⼿动收集了⼀⼩批具有独特中国语境的数据。该数据集包括与特定于中⽂的字符、植物和动物、美⻝、场景、建筑和⺠俗⽂化相关的图⽂配对。我们的多模态检索引擎被⽤于增强并将这⼀中国知识融⼊我们的⽣成模型针对性补充数据。我们⽤在⽂本到图像任务中表现不佳的数据补充数据集，例如以动作为导向的数据和反事实数据（例如，“⼀个脖⼦上有⽓球的男⼈”）。我们的主动学习引擎将这些具有挑战性的数据点分类并整合到最终训练集中 2.2数据清理过程数据清理程序通过逐步细化的数据过滤⽅法确保数据集的质量和相关性，如图5所⽰⼀般质量评分⼀般结构评分OCR检测去重聚类标注阶段III 第⼆阶段第⼀阶段图5我们的数据清理过程概述第一阶段：一般质量评估。我们使用以下标准对整个数据库进行标记: •一般质量评分：评估图像清晰度、运动模糊和无意义内容 •一般结构评分：评估水印、文本叠加、贴纸和徽标等元素 •OCR检测：识别和分类图像中的文本不符合质量标准的样本将被淘汰第⼆阶段：详细质量评估。本阶段涉及专业的美学评分、特征嵌⼊提取、去重和聚类。聚类在多个层次结构中组织，代表不同的语义类别。每个数据点被分配⼀个语义类别标签，以便后续调整分布第三阶段：标注和重新标注。我们对剩余数据进⾏分层，并注释标注或重新标注。⾼级别数据通常会获得更丰富的新标注，从不同的⻆度进⾏描述标注过程的详细信息⻅第2.4节 2.3活跃学习引擎我们开发了⼀个活跃学习系统来改善我们的图像分类器，如图6所⽰。这是⼀个迭代过程，逐步改进我们的分类器，确保为训练提供⾼质量的数据集当前已标记的数据集分类器从为数据的⼀个⼩⼦集打上标签开始主动学习未标记图像已标记图像⼈类标注待标记图像图6主动学习生命周期流程图 2.4图像描述生成描述过程为每张图⽚提供有意义且在上下⽂中准确的描述，⽣成通⽤和专业化的描述。 2.4.1通用描述我们为中英⽂制定简短和⻓篇描述，确保准确⽽详细的描述： •简短描述：准确描述图像的主要内容，捕捉核⼼知识和内容。 •⻓篇描述：更具描述性，详细呈现图像的尽可能多的⽅⾯，包括适当的推断和想象。专业化描述艺术标题城市夜景摄影，俯视构图，⼴⻆构图，暗调，冷⾊调，蓝橙配⾊，⼀座⾼耸的现代建筑为主体，其外观独特，顶部呈尖塔状，周围环绕着许多其他建筑物。建筑的窗⼾透出明亮的灯光，形成了⼀个璀璨的光点⽹络。背景中可以看到更多的建筑物和街道，错综复杂的道路和建筑群，建筑摄影，深景深，远景。居中式构图，散点式构图，插画⻛格，海报设计。画⾯以⼀块蜂蜜蛋糕为中⼼，蛋糕被切开后展⽰了不同的层次，颜⾊从红⾊、⽩⾊到棕⾊渐变，象征不同的⼝感和感受。蛋糕上分布着多个⽩⾊⽆衬线⼩字标签，标注了“饮⻝失调”、“头痛”、“腹痛”、“胃⻝管反流”、“脾⽓暴躁”、“肌⾁流失”、“睡眠质量差”等与健康问题相关的关键词，字体较⼩且分散排列，暗⽰蜂蜜蛋糕可能带来的不适感。背景为浅灰⾊，四周散布着“当你品尝蜂蜜时，记得胆”的⿊⾊⽆衬线体⽂字，字体较⼩，形成包围效果。整体⾊调柔和，⽂字与图像结合⾃然，传达出⼀种幽默且略带讽刺的氛围，暗⽰蜂蜜蛋糕可能带来的副作⽤。⽂本标题⼀块⽊质的⻓⽅形牌⼦，牌⼦上有⿊⾊的书法⽂字，写着竖版的“学海⽆涯”。牌⼦的下⽅有⼀幅⿊⾊的⼭⽔画，画中有树⽊。牌⼦的顶部有⼀个棕⾊的流苏装饰，流苏通过⼀根绳⼦系在牌⼦上。牌⼦被倚靠在⼀本打开的书上，书⻚上有密密⿇⿇的中⽂⽂字。牌⼦在图⽚的前景位置，书在背景位置。牌⼦相对于书来说较⼩，书的尺⼨明显⼤于牌⼦。⼀瓶CAOLILA品牌的苏格兰威⼠忌，瓶⾝呈棕⾊，瓶盖为⿊⾊。酒瓶的标签上写有“CAOLILA”“AGED18YEARS”和“UNPEATEDMALT”等字样，标签底部还标明了酒精度为59.8%，容量为700i，以及“BOTTLEDI

点击免费查看完整报告

Seedream 2.0：一个原生中文-英文双语图像生成基础模型

你可能感兴趣

全球科技行业周报：OpenAI发布视频与音频生成模型Sora2，腾讯混元图像3.0开源并登顶

AI系列专题跟踪：视频及图像生成模型

【财联社早知道】颠覆文生图模型!Stability AI推新一代产品，这家公司的AI灵感绘图功能可以根据文字生成不同风格的图片;这家公司在文生图像、视频等跨模态领域积极布局，包括生成AI视频-20240220

百度文心大模型4.5系列开源，字节发布图像生成新模型Xverse

传媒行业跟踪报告：谷歌发布Nano Banana2图像生成模型，完美世界《异环》定档

传媒行业跟踪报告：字节、阿里、谷歌升级发布AI视频及图像生成模型，广电总局整治不良动画微短剧

传媒互联网周报：AIGC图像、视频、3D对象生成模型密集发布，各地积极探索数据资产通证化

人工智能第一团队民生计算机火线速递OpenAI发布全新模型sCM图像生成

字节图像生成模型Seedream50在视频编辑应用剪映剪映海外版Capcu

传媒行业周报：阿里开源全能视频模型 腾讯发布混元图像2.0模型

传媒行业周报：阿里开源全能视频模型腾讯发布混元图像2.0模型