您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [字节跳动]:Seedream 2.0:一个原生中文-英文双语图像生成基础模型 - 发现报告

Seedream 2.0:一个原生中文-英文双语图像生成基础模型

2025-03-10 字节跳动 肖峰
报告封面

arXiv:2503.07703v1[cs.CV]10Mar2025 Seedream2.0:一个原生中文-英文双语图像生成基础模型 SeedVision团队,字节跳动 摘要 扩散模型的快速发展催⽣了图像⽣成领域的显著进展。然⽽,像Flux、SD3.5和Midjourney等主流模型仍然⾯临模型偏差、⽂本渲染能⼒有限和对中⽂⽂化细微差别理解不⾜等问题。为了解决这些局限性,我们提出了Seedrea2.0,⼀个原⽣中⽂-英⽂双语图像⽣成基础模型,在多个维度上表现出⾊,能够巧妙地处理中⽂和英⽂的⽂本提⽰,⽀持双语图像⽣成和⽂本渲染。我们开发了⼀个强⼤的数据系统,便于知识整合,并且开发了⼀个平衡图像描述准确性与丰富性的字幕系统。特别地,Seedrea与⾃研的双语⼤语⾔模型(LLM)集成作为⽂本编码器,使其能够直接从⼤量数据中学习本地知识。这使得它能够⽣成具有准确⽂化细微差别和美学表现的⾼保真图像,⽆论是⽤中⽂还是英⽂描述。此外,Glyph-AlignedByT5⽤于灵活的字符级⽂本渲染, ⽽ScaledROPE则很好地推⼴到未训练的分辨率。多阶段的后训练优化,包括SFT和RLHF迭代 ,进⼀步提升了整体能⼒。通过⼴泛的实验,我们展⽰了Seedrea2.0在多个⽅⾯达到了⾏业领先的表现,包括遵循提⽰、审美、⽂本渲染和结构准确性。 此外,Seedrea2.0经过多次RLHF迭代优化,使其输出与⼈类偏好⾼度契合,正如其卓越的ELO得分所展⽰的那样。此外,它可以轻松地适应基于指令的图像编辑模型,如SeedEdit[28],具有强⼤的编辑能⼒,能够平衡指令跟随与图像⼀致性。 通信:作者名单见附录A 官方网站:https://team.doubao.com/tech/seedream 图1Seedream2.0在英文和中文的所有评估方面表现出色 图2Seedream2.0可视化 内容 1介绍4 2数据预处理5 2.1数据组成5 2.2数据清洗过程6 2.3主动学习引擎6 2.4图像字幕⽣成7 2.4.1通⽤字幕7 2.4.2专业字幕7 2.5⽂本渲染数据8 3模型预训练8 3.1扩散变换器9 3.2⽂本编码器9 3.3字符级⽂本编码器10 4模型后训练10 4.1持续训练(CT)10 4.1.1数据12 4.1.2训练策略12 4.2监督微调(SFT)12 4.2.1数据12 4.2.2训练策略12 4.3⼈类反馈对⻬(RLHF) 4.3.1偏好数据13 4.3.2奖励模型 4.3.3反馈学习......................................14 4.4提⽰⼯程(PE)14 4.4.1微调LLM14 4.4.2PERLHF...........................................15 4.5精炼器.................................................15 5对齐到基于指令的图像编辑 5.1准备⼯作 5.2增强型⼈员⾝份保护 6模型加速17 6.1控制流图和步骤蒸馏17 6.2量化18 7模型性能 7.1⼈类评估19 7.1.1基准19 7.1.2⼈类评估结果19 7.2⾃动评估20 7.2.1⽂本-图像对⻬20 7.2.2图像质量2121 7.3⽂本渲染21 7.4中国特点22 7.5视觉化24 8结论24 A贡献与致谢 1简介 随着扩散模型的显著进展,图像⽣成领域经历了快速扩展。最近的⼀些强⼤模型,如Fiux[13],SD3.5[7],Ideogra2.0和Midjourney6.1,已经引发了⼀波⼴泛的商业应⽤。然⽽,尽管现有基础模型取得了显著进展,但仍⾯临若⼲挑战。 •模型偏⻅:⽬前的模型表现出对特定⽅⾯的偏好,例如Midjourney的美学,同时牺牲了在其他⽅⾯的性能,如遵循提⽰或结构正确性。 •⽂本渲染能⼒不⾜:在⻓内容或多语⾔(特别是中⽂)中的⽂本渲染能⼒相当有限,⽽⽂本渲染是某些重要场景中的关键能⼒,例如包括平⾯设计和海报设计的设计场景。 •对中国特征理解不足:缺乏对地方文化特征的深刻理解,例如中国文化,这对当地设计师至关重要。 地⽅⽂化的独特特征,如中国⽂化,对当地设计师具有重要意义 为了解决这些重要问题,我们推出了Seedrea2.0,这是⼀个最先进的⽂本到图像模型。它可以熟练处理中英⽂提⽰,⽀持双语图像⽣成和⽂本呈现任务,在多个⽅⾯表现出⾊。具体⽽⾔,我们设计了⼀种数据架构,具备持续整合新知识的能⼒,并开发了⼀个强⼤的标题系统,考虑到准确性和丰富性。重要的是,我们整合了⾃开发的⼤型语⾔模型(LLM)作为⽂本编码器,其结构仅包含解码器。通过多轮校准,⽂本编码器能够获得增强的双语对⻬能⼒,使其能够原⽣⽀持从中⽂和英⽂的原始数据中学习。我们还应⽤了⼀种Giyph对⻬的ByT5模型,使我们的模型能够灵活地进⾏字符级⽂本呈现。此外,提出了ScaiedROPE,以将我们的⽣成过程推⼴到未训练的图像分辨率。在后期训练阶段,我们通过多阶段的SFT训练和RLHF迭代进⼀步增强了模型的能⼒。我们的主要贡献有四个: •强⼤的模型能⼒:通过数据构建、模型预训练和后期训练的多层次优化,我们的模型在多个⽅⾯处于前沿 ,包括提⽰跟随、美学、⽂本呈现和结构正确性。 •出⾊的⽂本呈现能⼒:使⽤针对⽂本呈现任务定制的字符级⽂本编码器,我们的模型展现了优秀的⽂本⽣成能⼒,特别是在⽣成包含复杂汉字的⻓⽂本内容⽅⾯表现突出。 •对中⽂特征的深刻理解:通过与⾃开发的多语⾔LLM⽂本编码器的整合,我们的模型可以直接从⼤量⾼质量的中⽂数据中学习。这使其能够强有⼒地处理融⼊中⽂⻛格细微差别和专业术语的复杂提⽰。此外,我们的模型在中⽂⽂本呈现⽅⾯表现出⾊,⽽这⼀领域在社区中尚未得到充分发展。 •⾼度符合⼈类偏好:经过多个迭代的RLHF优化,我们的模型在各个后期训练模块中始终与⼈类偏好对⻬ ,这在ELO评分中体现出显著的优势。 截⾄2024年12⽉初,Seedrea2.0已被整合到多个平台,例如Doubao(⾖包)1和Dreaina(即梦)2。我们热切⿎励更⼴泛的受 众深⼊探索这些内容。 我们模型的能⼒和潜⼒,希望它能成为改善⼯作和⽇常⽣活多个⽅⾯⽣产⼒的有效⼯具。 1https://www.doubao.co/chat/create-iage2https://jieng.jianying.co/ai-tooi/iage/generate 2数据预处理 本节详细介绍了我们⽤于预训练的数据处理流程,包括数据组合、数据清洗和过滤、主动学习、加注释和⽂本渲染数据等各种预处理步骤。这些流程确保了最终的预训练数据集具有⾼质量、⼤规模和多样性。 2.1数据组合 我们的预训练数据精⼼策划,包括四个主要组成部分,确保了⼀个平衡和全⾯的数据集,如图3所⽰。 ⾼质量数据 分布维护数据 ⾼质量的配对质量 清晰 美学 下采样 ⼀般数据低质量数据 知识丰富的配对 数据源数据聚类 聚类 基于图像基于⽂本 知识注⼊数据 分类学名词 动词 引擎 多模态检索引擎 主动学习引擎 针对性补充数据 检索/分类 ⼤规模运动不存在的实体 Embedding 图3预训练数据系统 ⾼质量数据。该组件包括图像质量极⾼和知识内容丰富的数据,评估标准包括清晰度、美学吸引⼒和来源分布 来⾃分类法的数据 嵌⼊ 去重 检索。 未经整理的数据 增强的整理数据 图4我们的知识注入过程概述。 分布维护数据。该组件在减少低质量数据的同时保持原始数据的有⽤分布,通过以下⽅式: •按数据源下采样:减少过度代表的来源的⽐例,同时保持它们之间的相对⼤⼩关系。 •基于聚类的采样:基于多个层级的聚类对数据进⾏采样,从表⽰⼴义语义的聚类(例如视觉设计)到表⽰更精细语义的聚类,例如CD/书籍封⾯和海报。 知识注⼊数据。本部分涉及使⽤已开发的分类法和多模态检索引擎进⾏知识的注⼊,如图4所⽰。它包括具有独特中国语境的数据,以提⾼模型在特定于中⽂场景中的表现 此外,我们⼿动收集了⼀⼩批具有独特中国语境的数据。该数据集包括与特定于中⽂的字符、植物和动物、美⻝、场景、建筑和⺠俗⽂化相关的图⽂配对。我们的多模态检索引擎被⽤于增强并将这⼀中国知识融⼊我们的⽣成模型 针对性补充数据。我们⽤在⽂本到图像任务中表现不佳的数据补充数据集,例如以动作为导向的数据和反事实数据(例如,“⼀个脖⼦上有⽓球的男⼈”)。我们的主动学习引擎将这些具有挑战性的数据点分类并整合到最终训练集中 2.2数据清理过程 数据清理程序通过逐步细化的数据过滤⽅法确保数据集的质量和相关性,如图5所⽰ ⼀般质量评分⼀般结构评分OCR检测 去重 聚类 标注 阶段III 第⼆阶段 第⼀阶段 图5我们的数据清理过程概述 第一阶段:一般质量评估。我们使用以下标准对整个数据库进行标记: •一般质量评分:评估图像清晰度、运动模糊和无意义内容 •一般结构评分:评估水印、文本叠加、贴纸和徽标等元素 •OCR检测:识别和分类图像中的文本不符合质量标准的样本将被淘汰 第⼆阶段:详细质量评估。本阶段涉及专业的美学评分、特征嵌⼊提取、去重和聚类。聚类在多个层次结构中组织,代表不同的语义类别。每个数据点被分配⼀个语义类别标签,以便后续调整分布 第三阶段:标注和重新标注。我们对剩余数据进⾏分层,并注释标注或重新标注。⾼级别数据通常会获得更丰富的新标注,从不同的 ⻆度进⾏描述 标注过程的详细信息⻅第2.4节 2.3活跃学习引擎 我们开发了⼀个活跃学习系统来改善我们的图像分类器,如图6所⽰。这是⼀个迭代过程,逐步改进我们的分类器,确保为训练提供 ⾼质量的数据集 当前已标记的数据集 分类器 从为数据的⼀个⼩⼦集打上标签开始 主动学习 未标记图像 已标记图像 ⼈类标注 待标记图像 图6主动学习生命周期流程图 2.4图像描述生成 描述过程为每张图⽚提供有意义且在上下⽂中准确的描述,⽣成通⽤和专业化的描述。 2.4.1通用描述 我们为中英⽂制定简短和⻓篇描述,确保准确⽽详细的描述: •简短描述:准确描述图像的主要内容,捕捉核⼼知识和内容。 •⻓篇描述:更具描述性,详细呈现图像的尽可能多的⽅⾯,包括适当的推断和想象。 专业化描述 艺术标题 城市夜景摄影,俯视构图,⼴⻆构图,暗调,冷 ⾊调,蓝橙配⾊,⼀座⾼耸的现代建筑为主体,其外观独特,顶部呈尖塔状,周围环绕着许多其他建筑物。建筑的窗⼾透出明亮的灯光,形成了 ⼀个璀璨的光点⽹络。背景中可以看到更多的建筑物和街道,错综复杂的道路和建筑群,建筑摄影,深景深,远景。 居中式构图,散点式构图,插画⻛格,海报设计。画⾯以⼀块蜂蜜蛋糕为中⼼,蛋糕被切开后展⽰了不同的层次,颜⾊从红⾊、⽩⾊到棕⾊渐变,象征不同的⼝感和感受。蛋糕上分布着多个⽩⾊⽆衬线⼩字标签,标注了“饮⻝失调”、“头痛”、“腹痛”、“胃⻝管反流”、“脾⽓暴躁”、“肌⾁流失”、“睡眠质量差”等与健康问题相关的关键词,字体较⼩且分散排列,暗⽰蜂蜜蛋糕可能带来的不适感。 背景为浅灰⾊,四周散布着“当你品尝蜂蜜时,记得胆”的⿊⾊⽆衬线体⽂字,字体较⼩,形成包围效果。整体⾊调柔和,⽂字与图像结合⾃然,传达出⼀种幽默且略带讽刺的氛围,暗⽰蜂蜜蛋糕可能带来的副作⽤。 ⽂本标题 ⼀块⽊质的⻓⽅形牌⼦,牌⼦上有⿊⾊的书法⽂字 ,写着竖版的“学海⽆涯”。牌⼦的下⽅有⼀幅⿊ ⾊的⼭⽔画,画中有树⽊。牌⼦的顶部有⼀个棕⾊的流苏装饰,流苏通过⼀根绳⼦系在牌⼦上。牌⼦被倚靠在⼀本打开的书上,书⻚上有密密⿇⿇的中 ⽂⽂字。牌⼦在图⽚的前景位置,书在背景位置。牌⼦相对于书来说较⼩,书的尺⼨明显⼤于牌⼦。 ⼀瓶CAOLILA品牌的苏格兰威⼠忌,瓶⾝呈棕⾊,瓶盖为⿊⾊。酒瓶的标签上写有“CAOLILA”“AGED18YEARS”和“UNPEATEDMALT”等字样,标签底部还标明了酒精度为59.8%,容量为700i,以及“BOTTLEDI