行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

基于语境学习的图像扩散模型 In-context Diffusion Model

文化传媒 2023-08-08 DataFunSummit2023：大模型与AIGC峰会张东旭

文本图像生成模型SuTI研究总结

背景知识

现有文本图像生成模型（如Imagen, Dalle2）已取得显著成果，生成的图像符合文本描述，具有想象力和高清晰度，但可控性较差，难以通过文字描述实现视觉信息的精确控制（如位置、角度、姿势）。
现有个性化生成方法包括DreamBooth（微调整个模型）和Textual Inversion（微调embedding），但均存在模型微调耗时、内存占用大、扩展性弱等问题。

动机

语境学习在自然语言处理中通过预训练实现，而图像生成模型缺乏类似能力，预训练仅基于单个（文本，图像）pair，无法连续适应新环境。
设计目标：通过适配网络架构和训练数据，使图像生成模型具备语境学习能力。

设计

网络架构：复用UNet的Encoder，通过额外的Attention Layer高效输入demonstration信息，将示例文本图像信息编码到同一空间。
训练数据：构建连续的（text, image）pair数据集，通过聚类和重新标注优化数据质量，形成图文ICL数据集v2，确保exemplar和target差异显著。

结果和展望

实验参数：使用500K训练数据，约1天训练时间，SuTI模型具备五种技能：风格化、重情境化、多视角合成、属性修改、配件添加。
输出样例：展示了模型在不同技能下的生成效果。
人类评估：通过详尽评估验证模型对Subject和Text的Alignment，以及生成图像的完整性。
局限性与展望：当前模型输出存在artifacts，尤其是人脸和文字细节；未来计划通过扩大模型规模和增加技能种类（如SuTI2）提升效果，并将所有技能打包为instruction-tuning格式，计划在Google Cloud上线。

陈⽂⻁滑铁卢⼤学-助理教授Google Deepmind DataFunSummit#2023 ⽬录CONTENT 01背景知识⽂本图像⽣成模型(Imagen, Dalle2, …) •现有的⽂本图像⽣成模型已经取得令⼈骄傲的成绩 •⽣成的图⽚很符合⽂本•极具想象能⼒•图⽚⾼清晰度 •然⽽，⽬前的图像⽣成模型的可控性较差 •通过⽂字⽆法描述视觉的信息•位置/⻆度/姿势•如何让⽣成模型个性化•⽣成指定的物品•⽣成指定的场景⽣成模型的个性化 •如何让⽣成模型能够⽣成更加个性化的内容 •基于主体的图像⽣成模型•DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation DreamBooth •如何让⽣成模型能够⽣成更加个性化的内容 •先微调整个模型在3-5张关于制定物品的图⽚1000步，然后把模型存下来。•⽤微调过的模型进⾏新的图⽚⽣成。 Textual Inversion •如何让⽣成模型能够⽣成更加个性化的内容 •先微调某个embedding在3-5张关于制定物品的图⽚1000步，把embedding存下来。•⽤微调过的模型加上新的embedding进⾏新的图⽚⽣成。•memory的要求降低很多，但是效果明显差于DreamBooth。当前模型的问题 •需要微调整个模型才可以得到⽐较满意的效果 •1000 step的微调⾮常耗费时间和GPU内存•存储额外的checkpoint需要⼤量CPU内存•⽬前的⽅法扩展性⽐较弱论⽂ Subject-driven Text-to-Image Generation via Apprenticeship LearningWenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William W. Cohen Manuscript Website: https://open-vision-language.github.io/suti/ Re-Imagen: Retrieval-Augmented Text-to-Image GeneratorWenhu Chen,Hexiang Hu, Chitwan Saharia, William W. CohenProceedings of ICLR 2023, Kigali, Rwanda 02动机语境学习 •当前的个性化图像⽣成通过传统的微调学习•微调学习仍然需要做梯度下降 •⾃然语⾔处理的语境学习 •语境学习仅仅需要⼀些示例样本•⽆需梯度下降，单个模型可以不断⾃适应到新的环境语境学习 •⾃然语⾔⼤模型的语境学习来源于预训练 •通过⼤量⽂本的next work prediction•语⾔⼤模型可以⾃动获取语境学习的能⼒ •图像⽣成模型⽬前的预训练是仅仅基于单个(⽂本，图像)的pair •图像⽣成模型并不是连续多个图像⽂本⼀起训练•预训练的图像⽣成模型并不具有任何语境学习的能⼒ •因此，我们需要专⻔适配图像⽣成模型来获取这种能⼒ •⽹络架构需要获取示例⽂本图像信息•训练数据也需要通过多个相似图像⽂本⼀起放置设计-⽹络架构 DataFunSummit#2023 模型架构UNet •UNet的图像⽣成架构复⽤模型架构UNet的Encoder •如何最⾼效的把demonstration的信息输⼊？ •复⽤UNet的Downstack Encoder•demonstration的信息被编码到同⼀个空间 Exemplar: (image, text) pairs 额外的Attention Layer 设计-训练数据 DataFunSummit#2023 语境学习的图⽂数据 •⽐较理想的图⽂ICL数据应该⻓的⽐较像 •(text_1, Image_1), (text_2, image_2), … (text_t, image_t)•这些图⽂数据相互⽐较类似•模型能够通过In-Context的exemplar理解如何⽣成text_t的图⽚ •然⽽，⽬前public和internal都不存在这样的数据 •现有的图⽂数据都是从⽹上爬下来的•都是独⽴的(text, image) pair 语境学习的图⽂数据 •聚类 •我们将这些(image, text)按照URL进⾏聚类•来⾃于同⼀个URL的图⽚相关性很⼤•我们通过inter-cluster similarity来过滤⽐较差的group •重新标注text •我们发现这些cluster⾥⾯的text噪声⽐较⼤，没有反应这个cluster不同image的共性•我们利⽤Google PaLI模型重新标注caption•然后使⽤PaLM来找到不同caption直接的相关性进⾏整合图⽂ICL数据集图⽂ICL数据集 •⽬前我们已经拥有了连续的(image, text) pair的数据 •我们可以⽤其中的k-1作为exemplar，然后⽤第k个作为target训练模型•然⽽效果却很差，最终模型变成了直接copy-paste，不管输⼊的text•原因主要是group起来的cluster的⽆论是⽂本还是图像都过于相似，以⾄于模型陷⼊了⼀个local optimal •我们需要target和exemplar⾮常不⼀样 •我们可以⽤LLM产⽣很不⼀样的text•通过DreamBooth作为target图像⽣成器图⽂ICL数据集v2 A person holding a teapot SuTI训练(图⽂ICL数据集v2) 04结果和展望实验参数 •我们⽤ICL-v2的数据集训了我们的模型SuTI •500K的训练数据，⼤约训练1天•我们把三个exemplar的图⽂pair⽤encoder feed给Imagen•然后Imagen通过attend到这三个exemplar就可以理解subject的appearance •SuTI模型拥有五个技能 •Stylization:给物体增加艺术⻛格•Recontextualization:把物体放在不同的环境下•Multi-View Synthesis:从不同视⻆看物体•Attribute Modification:改变物体的属性•Accessorization:给物体增加不同的配件输出的样例[1] 输出的样例[2] 输出的样例[3] Human Evaluation •我们做了⾮常详尽的Human Evaluation来评测模型对Subject, Text的Alignment，还有⽣成的图⽚是否包含Artifacts 局限性和展望 •⽬前的SuTI模型的输出还是存在不少artifacts •尤其是⼈脸和⽂字之类的细节表达•我们在尝试scale up模型到更⼤的size来解决这些问题 •⽬前SuTI的技能还⽐较少，没办法像ControlNet⼀样给不同的signal •我们⽬前在训练SuTI2可以把各种signal都feed给模型去⽣成output•我们把所有技能都准备打包为⼀种instruction-tuning的format•在未来的⼏个⽉即将launch进Google Cloud⾯世感谢观看

点击免费查看完整报告

基于语境学习的图像扩散模型 In-context Diffusion Model

文本图像生成模型SuTI研究总结

背景知识

动机

设计

结果和展望

你可能感兴趣

【风口研报·公司】获四机构席位买入超2亿元，分析师看好这家视频显控龙头基于深度学习训练模型、已实现了AI图像色彩重建技术，有望受益于技术变革带来的行业集中度进一步提升

【电报解读】Meta发布首个“类人”AI图像创建模型，可像人类一样学习更多内容，这家企业与META有业务往来(2)

“学海拾珠”系列之一百八十五：DiffsFormer：基于扩散模型的因子增强框架

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

金工专题：基于相对强弱视角下的扩散指数择时模型

宏观固收量化研究系列之（五）：基于机器学习模型的债券流动性预测

金工机器学习专题之五：基于模型池的机器学习选股

量化策略年报：基于风险预算与机器学习模型的资产配置策略

机器学习择时系列之四：基于卷积神经网络模型的市场择时策略

人工智能用于社会风险预测和解释：基于机器学习的社会风险模型的力量（英）2026