您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [DataFunSummit2023:大模型与AIGC峰会]:基于语境学习的图像扩散模型 In-context Diffusion Model - 发现报告

基于语境学习的图像扩散模型 In-context Diffusion Model

报告封面

陈⽂⻁滑铁卢⼤学-助理教授Google Deepmind DataFunSummit#2023 ⽬录CONTENT 01背景知识 ⽂本图像⽣成模型(Imagen, Dalle2, …) •现有的⽂本图像⽣成模型已经取得令⼈骄傲的成绩 •⽣成的图⽚很符合⽂本•极具想象能⼒•图⽚⾼清晰度 •然⽽,⽬前的图像⽣成模型的可控性较差 •通过⽂字⽆法描述视觉的信息•位置/⻆度/姿势•如何让⽣成模型个性化•⽣成指定的物品•⽣成指定的场景 ⽣成模型的个性化 •如何让⽣成模型能够⽣成更加个性化的内容 •基于主体的图像⽣成模型•DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation DreamBooth •如何让⽣成模型能够⽣成更加个性化的内容 •先微调整个模型在3-5张关于制定物品的图⽚1000步,然后把模型存下来。•⽤微调过的模型进⾏新的图⽚⽣成。 Textual Inversion •如何让⽣成模型能够⽣成更加个性化的内容 •先微调某个embedding在3-5张关于制定物品的图⽚1000步,把embedding存下来。•⽤微调过的模型加上新的embedding进⾏新的图⽚⽣成。•memory的要求降低很多,但是效果明显差于DreamBooth。 当前模型的问题 •需要微调整个模型才可以得到⽐较满意的效果 •1000 step的微调⾮常耗费时间和GPU内存•存储额外的checkpoint需要⼤量CPU内存•⽬前的⽅法扩展性⽐较弱 论⽂ Subject-driven Text-to-Image Generation via Apprenticeship LearningWenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William W. Cohen Manuscript Website: https://open-vision-language.github.io/suti/ Re-Imagen: Retrieval-Augmented Text-to-Image GeneratorWenhu Chen,Hexiang Hu, Chitwan Saharia, William W. CohenProceedings of ICLR 2023, Kigali, Rwanda 02动机 语境学习 •当前的个性化图像⽣成通过传统的微调学习•微调学习仍然需要做梯度下降 •⾃然语⾔处理的语境学习 •语境学习仅仅需要⼀些示例样本•⽆需梯度下降,单个模型可以不断⾃适应到新的环境 语境学习 •⾃然语⾔⼤模型的语境学习来源于预训练 •通过⼤量⽂本的next work prediction•语⾔⼤模型可以⾃动获取语境学习的能⼒ •图像⽣成模型⽬前的预训练是仅仅基于单个(⽂本,图像)的pair •图像⽣成模型并不是连续多个图像⽂本⼀起训练•预训练的图像⽣成模型并不具有任何语境学习的能⼒ •因此,我们需要专⻔适配图像⽣成模型来获取这种能⼒ •⽹络架构需要获取示例⽂本图像信息•训练数据也需要通过多个相似图像⽂本⼀起放置 设计-⽹络架构 DataFunSummit#2023 模型架构UNet •UNet的图像⽣成架构 复⽤模型架构UNet的Encoder •如何最⾼效的把demonstration的信息输⼊? •复⽤UNet的Downstack Encoder•demonstration的信息被编码到同⼀个空间 Exemplar: (image, text) pairs 额外的Attention Layer 设计-训练数据 DataFunSummit#2023 语境学习的图⽂数据 •⽐较理想的图⽂ICL数据应该⻓的⽐较像 •(text_1, Image_1), (text_2, image_2), … (text_t, image_t)•这些图⽂数据相互⽐较类似•模型能够通过In-Context的exemplar理解如何⽣成text_t的图⽚ •然⽽,⽬前public和internal都不存在这样的数据 •现有的图⽂数据都是从⽹上爬下来的•都是独⽴的(text, image) pair 语境学习的图⽂数据 •聚类 •我们将这些(image, text)按照URL进⾏聚类•来⾃于同⼀个URL的图⽚相关性很⼤•我们通过inter-cluster similarity来过滤⽐较差的group •重新标注text •我们发现这些cluster⾥⾯的text噪声⽐较⼤,没有反应这个cluster不同image的共性•我们利⽤Google PaLI模型重新标注caption•然后使⽤PaLM来找到不同caption直接的相关性进⾏整合 图⽂ICL数据集 图⽂ICL数据集 •⽬前我们已经拥有了连续的(image, text) pair的数据 •我们可以⽤其中的k-1作为exemplar,然后⽤第k个作为target训练模型•然⽽效果却很差,最终模型变成了直接copy-paste,不管输⼊的text•原因主要是group起来的cluster的⽆论是⽂本还是图像都过于相似,以⾄于模型陷⼊了⼀个local optimal •我们需要target和exemplar⾮常不⼀样 •我们可以⽤LLM产⽣很不⼀样的text•通过DreamBooth作为target图像⽣成器 图⽂ICL数据集v2 A person holding a teapot SuTI训练(图⽂ICL数据集v2) 04结果和展望 实验参数 •我们⽤ICL-v2的数据集训了我们的模型SuTI •500K的训练数据,⼤约训练1天•我们把三个exemplar的图⽂pair⽤encoder feed给Imagen•然后Imagen通过attend到这三个exemplar就可以理解subject的appearance •SuTI模型拥有五个技能 •Stylization:给物体增加艺术⻛格•Recontextualization:把物体放在不同的环境下•Multi-View Synthesis:从不同视⻆看物体•Attribute Modification:改变物体的属性•Accessorization:给物体增加不同的配件 输出的样例[1] 输出的样例[2] 输出的样例[3] Human Evaluation •我们做了⾮常详尽的Human Evaluation来评测模型对Subject, Text的Alignment,还有⽣成的图⽚是否包含Artifacts 局限性和展望 •⽬前的SuTI模型的输出还是存在不少artifacts •尤其是⼈脸和⽂字之类的细节表达•我们在尝试scale up模型到更⼤的size来解决这些问题 •⽬前SuTI的技能还⽐较少,没办法像ControlNet⼀样给不同的signal •我们⽬前在训练SuTI2可以把各种signal都feed给模型去⽣成output•我们把所有技能都准备打包为⼀种instruction-tuning的format•在未来的⼏个⽉即将launch进Google Cloud⾯世 感谢观看