AI智能总结
专题:多模态大语言模型的前沿应用与创新 2024.08.18中国上海 主讲人:快手可图大模型负责人李岩 主要内容 ⚫可图大模型介绍⚫可图大模型技术讨论一:怎样选择合适的文本表征⚫可图大模型技术讨论二:什么是RLHF的关键因素⚫可图大模型技术讨论三:怎样让大模型写好中国字⚫可图大模型技术讨论四:怎样做好虚拟试穿⚫视觉生成方向的未来展望 主要内容 ⚫可图大模型介绍⚫可图大模型技术讨论一:怎样选择合适的文本表征⚫可图大模型技术讨论二:什么是RLHF的关键因素⚫可图大模型技术讨论三:怎样让大模型写好中国字⚫可图大模型技术讨论四:怎样做好虚拟试穿⚫视觉生成方向的未来展望 可图大模型介绍(1/11)–快手自研大模型体系全景图 可图大模型介绍(2/11)–可图可灵傻傻分不清楚 可图大模型介绍(3/11)–最懂中文的文生图大模型 可图大模型介绍(4/11)–内外部人工评测结果 ◼内部评测结果:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf◼外部评测结果:https://flageval.baai.ac.cn/#/leaderboard/multimodal?kind=t2i 可图大模型介绍(5/11)–可图大模型正式开源 ⚫官网地址:https://kwai-kolors.github.io/⚫Github项目地址:https://github.com/Kwai-Kolors/Kolors⚫HuggingFace模型地址:https://huggingface.co/Kwai-Kolors/Kolors⚫技术报告地址:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf 7月6日,快手高级副总裁、主站业务与社区科学负责人盖坤(于越)在世界人工智能大会(WAIC)上宣布,快手旗下的文生图大模型可图(Kolors)将全面开源。可图(Kolors)支持中英文双语,生成效果比肩Midjourney-v6水平,支持长达256字符的文本输入,具备英文和中文写字能力。目前,可图(Kolors)已在HuggingFace平台和GitHub上线,包括模型权重和完整代码,供个人开发者免费使用。WAIC2024官网 可图大模型介绍(6/11)–国内外开源社区反响 可图大模型介绍(7/11)–国内外开源社区反响 Bilibili平台有关可图Kolors的教程 可图大模型介绍(8/11)–国内外开源社区反响 可图大模型介绍(9/11)–可图插件生态逐步完善 可图Kolors大模型插件生态逐步完善,目前IP-Adapter-Plus,IP-Adapter-FaceID-Plus,ControlNet-Canny,ControlNet-Depth,ControlNet-Pose,Inpainting模型,Dreambooth-LoRA训推代码均已发布 可图大模型介绍(10/11)–可图开源背后的思考逻辑 李彦宏:开源模型是智商税 stability.ai 扎克伯格:Open Source AI Isthe Path Forward “有些个外行甚至混淆了模型开源和代码开源这两个概念。模型开源你拿到的是一大堆的参数,你还是要去做SFT,还是要去做安全对齐,你不知道这些参数是怎么来的,你是无法做到“众人拾柴火焰高”的,即使你拿到对应的源代码,你也不知道他用了多少数据,用了什么比例的数据去训练这些个参数,所以拿到这些东西并不能够让你站在巨人的肩膀上去迭代和开发。” ⚫一季度收入不足500万美元⚫亏损超过3,000万美元⚫欠云计算提供商和其他公司近1亿美元⚫全球知名图片提供商Getty Images起诉stability.ai⚫创始人兼CEO EmadMostaque宣布离职⚫RobinRombach、AndreasBlattmann、DominikLorenz等主要技术核心离职 ⚫如果Meta是唯一一家使用Llama的公司,那么这个生态系统就不会发展;⚫开源任何给定模型并不会失去当时相对于下一个最佳模型的巨大优势;⚫Meta与封闭模型供应商之间的一个关键区别是,出售AI模型访问权限不是我们的商业模式;⚫Meta拥有悠久的开源项目和成功历史。让供应链在我们的设计上实现标准化,节省了数十亿美元。 可图大模型介绍(11/11)–可图开源背后的思考逻辑 视频生成大模型 图像生成大模型 ⚫2023.07stability.ai开源SDXL⚫2024.04北大&字节开源VAR⚫2024.05腾讯开源混元DiT⚫2024.07快手开源可图Kolors⚫2024.08 Black Forest Labs开源FLUX ⚫2023.07 CUHK等开源AnimatedDiff⚫2023.11stability.ai开源SVD⚫2024.03 Colossal-AI开源Open-Sora⚫2024.08智谱开源CogVideoX 多模态大模型 大语言模型 ⚫2023.02 Meta开源Llama 1⚫2023.06智谱开源ChatGLM2-6B⚫2023.07 Meta开源Llama 2⚫2023.08阿里开源Qwen⚫2024.04 Meta开源Llama 3⚫2024.06智谱开源GLM-4-9B ⚫2023.04微软开源LLaVA⚫2023.08阿里开源Qwen-VL⚫2023.10智谱开源CogVLM⚫2024.01上海AILab开源InternVL⚫2024.03面壁智能&清华开源MiniCPM 大模型开源不是“一锤子买卖”,可图会持续开源,和创作者一起共同繁荣社区生态。 主要内容 ⚫可图大模型介绍⚫可图大模型技术讨论一:怎样选择合适的文本表征⚫可图大模型技术讨论二:什么是RLHF的关键因素⚫可图大模型技术讨论三:怎样让大模型写好中国字⚫可图大模型技术讨论四:怎样做好虚拟试穿⚫视觉生成方向的未来展望 可图大模型技术讨论一:怎样选择合适的文本表征(1/2) ④General Language Model:自回归完形填空,同时适用于文本理解+文本生成 ①CLIP文本表征 ⚫优势:图文对比学习,预先进行图文空间的表征对齐,降低扩散模型的训练难度,能够加快扩散模型收敛⚫劣势:图文全局特征对齐,细粒度语义理解能力较弱,存在概念压缩、属性混淆、多主体空间关系理解不足等问题,复杂文本结构或语义关系处理能力有限 ⚫模型架构:模型架构类似Encoder-Decoder,但与T5不同的是,GLM的Encoder和Decoder共享一个Transformer结构,在Transformer内部通过Attention Mask机制来隐式区分编解码器 ⚫模型训练:双向注意力Encoder,提取PartA的全局文本表征;单向注意力Decoder,对Masked字段进行自回归预测 ②Encoder-Decoder文本表征 ⚫优势:面向理解问题训练,英文场景T5是非常好的选择⚫劣势:T5模型于2019年发布,后来又发布了多语言版本的mT5和uMT5,其训练数据集C4里中文语料占比少于2%,且数据实效性较差,中文语义理解能力不足 ③Decoder-onlyLLM文本表征 ⚫优势:百亿千亿参数规模,TB级Token语料训练,模型Capacity更大,在文本理解和生成任务上表现出色,擅长处理长文本、复杂文本结构或语义关系⚫劣势:主流的Decoder-onlyLLM主要面向文本生成任务,模型训练时采用CausalAttention优化NextTokenPrediction能力,复杂文本理解任务上不够高效和精准,尤其是在需要对整个输入序列进行深度双向理解的情况下 ◼Du, Zhengxiao, et al.,Glm: General language modelpretraining with autoregressive blank infilling, inarXiv:2103.10360 可图大模型技术讨论一:怎样选择合适的文本表征(2/2) 怎样选择合适的文本表征 ⚫原则一:英文场景无脑选T5⚫原则二:多文本表征不差于单文本表征,且大小搭配,生态可玩⚫原则三:LLM可以作为文本表征,但需要PromptEngineering与Connector/TokenRefiner⚫原则四:端到端训练效果好于FrozenTextEncoder⚫原则五:大模型时代多考虑MultilingualTextEncoder “Although LLaMA3-8B exhibits much stronger languageunderstanding ability, it still fails to catch up to theperformance of the smaller model T5-XL on the image-to-text alignment benchmark. Meanwhile, the larger variant T5-XXL achieves a significant advantage over T5-XL. Thepowerful capabilities of LLMs in text comprehension andlogical reasoning have not been demonstrated in such ascenario.” 主要内容 ⚫可图大模型介绍⚫可图大模型技术讨论一:怎样选择合适的文本表征⚫可图大模型技术讨论二:什么是RLHF的关键因素⚫可图大模型技术讨论三:怎样让大模型写好中国字⚫可图大模型技术讨论四:怎样做好虚拟试穿⚫视觉生成方向的未来展望 可图大模型技术讨论二:什么是RLHF的关键因素(1/3) QualityTuning (QT)vs. Reinforcement Learning from Human Feedback (RLHF) ⚫QT:通过构建高质量、高美感的人工标注数据精调模型,从而提升图像生成效果,具备数据收集成本低、训练效率高等优点,但缺点是只能看到正例数据的模式,模型无法发现和改进自己的缺点。通过近似Log-Likelihood目标进行训练,仅能建模匹配训练数据集的原始分布,并不能完全对齐人类感知中生成图像质量的提升。 ⚫RLHF:通过模型产生不同的结果,用基于人类反馈的Reward Model来打分,能同时提供正负反馈,帮助模型发现自身缺陷,不断提升模型效果。利用强化学习算法来优化扩散模型的训练,让模型不仅能够建模匹配训练集的数据分布,也能够最大化奖励模型的输出,从而使得图像生成效果与人类审美偏好更加有效的对齐。 ⚫总结:相比QT,RLHF的效果天花板更高,泛化能力也更强,但也存在反馈质量敏感、数据收集成本高、训练难度大等问题。我们认为RLHF的关键在于一个可以精确模拟人类偏好的奖励模型。 ◼Wallace, Bram, et al.Diffusion model alignment using direct preference optimization, in CVPR 2024◼Liang, Youwei, et al.Rich human feedback for text-to-image generation, in CVPR 2024◼Xu, Jiazheng, et al.Imagereward: Learning and evaluating human preferences for text-to-image generation, in NIPS 2023◼Fan, Ying, et al.Reinforcement learning for fine-tuning text-to-image dif