AI智能总结
朱德尧阿卜杜拉国王科技大学博士生 DataFunSummit # 2023 动机 •GPT - 4 实现了更高级别的视觉语言能力 , 如• 解释模因的有趣部分 动机 •GPT - 4 实现了更高级别的视觉语言能力 , 如• 从草稿创建网站 动机 •这种能力从未在以前的 SOTA 方法中表现出来 , 比如 DeepMind的火烈鸟[1]或 Saleforce 的 Blip - 2[2] •没人知道他们是怎么做到的 ! [1] Alayrac J B, Donahue J, Luc P, et al. Flamingo: 一种用于少拍学习的视觉语言模型 [J]. NeurIPS 2022[2] Li J , Li D , Savarese S , 等。 Blip - 2 : 使用冻结的图像编码器和大型图像进行引导语言 - 图像预训练语言模型。 arXiv 预印本 2023 动机 GPT - 4 的视觉语言的秘密是什么能力? • 花式大型数据集与数据 , 如草稿到网站的图像对 ? • 秘密模型架构 ? • 或者只是一个先进的大型语言模型 ? 在 MiniGPT - 4 之前 : ChatCapper •面向丰富图像描述的对话系统 ••••Blip - 2 无法描述图像有很好的细节但它可以提供图像给出适当问题的细节提示 ChatGPT 保持询问有关图像的问题详细信息使用 ChatGPT 总结谈话进入决赛描述 杜耀卓, 陈jun, 哈伊达尔夫·基利切贝克, 等. ChatGPT 提问,BLIP-2 回答:面向丰富视觉描述的自动提问. arXiv 预印本 2023 我们从 ChatCaptioner 中学到了什么 GitHub 300 + CLK •Blip - 2 的视觉部分可以提供丰富的信息•但是语言部分不够强大 , 无法遵循用户的指示 •它可能通过仅使Blip-2的视觉组件与一个更好的语言模型对齐来显著提高视觉-语言指令-following能力。 • 这是 GPT - 4 视觉语言能力的秘密吗 ? MiniGPT - 4 • 使用 Blip - 2 的可视编码器。冻结它。 标志设计是简单and简约, with a粉线画of a火烈鸟站在水中的一条腿。设计是cleanand容易识别,使其适合在各种情况下使用 , 如海滩度假村的标志or a火烈鸟主题事件。使用火烈鸟作为符号增加了异想天开和乐趣的设计 , 使它令人难忘and引人注目。总的来说 , 这是一个精心设计徽标有效地传达品牌的信息. • 采取强大的 LLM Vicuna[3]。冻结它。 • 添加线性图层以连接模块。 ••还输入上下文文本。生成响应。 •如何训练它 ? 9[3] Vicuna : 具有 90 % ChatGPT 质量的给 GPT - 4 留下深刻印象的开源聊天机器人。 https: / / github. com / lm - sys / FastChat 第一阶段预培训 •传统对齐方法 • 图像标题数据集 : Laion + CC + SBU • 输入: 图像输出: 标题• 使用 4 个 A100 GPU 进行 10 小时培训 第一阶段问题 •MiniGPT - 4 现在可以看到图像了。 但它忘记了如何以自然的方式说话 ! 为这个形象给我写一首诗 一个男人坐在他的狗在 •需要一种方法来解决 第一阶段问题 •训练数据和测试使用之间的拥抱差距 •标题训练数据 : 仅输入图像with短 穿越森林的年轻女子 说话logo设计简单 minimalist且极简主义,采用一条粉色的站立单测试用法 : A多模态 ChatBot熟练 腿粉红鹭水中的线绘制图案。设计简洁易辨识,适用于多种场合,如海滩度假村Logo或粉红鹭主题活动。将粉红鹭作为象征增添了一丝趣味性。 这个标志的设计?和乐趣的设计 , 使其令人难忘和引人注目...... 第二阶段数据集准备 •创建一个小型视觉语言数据集 , 其中包含详细的、人类偏好的描述。 阶段 2 使用模板进行微调 阶段 1 Y oung 女人徒步穿越森林 阶段 2 这是一张老年男子留着胡子、戴着帽子的照片,他站在山景背景前,远处有一座村庄。该男子正直视镜头,面带严肃的表情。14 第二阶段改进 为这个形象给我写一首诗 一个男人坐在他的狗在 阶段 2, 7 分钟 1 A100 80G 为这个形象给我写一首诗 一个人坐在山上 , 俯瞰下面的城市 太阳在橙金色的光辉中落下 天空被染上了轻柔的色彩 男子紧抱着他的狗,脸上带着微笑 他们坐在那里沉默不语,静静地观察着世间的变迁 演示 : 详细描述图像 演示 : 解释为什么模因很有趣 演示 : 从草稿创建网站 演示 : 从草稿创建网站 演示 : 写广告 演示 : 解释不合理 演示 : 事实报答 演示 : 解决问题 23 局限性 与 LLM 类似 , MiniGPT - 4 也面临着幻觉问题。 详细描述此图像 图片显示的是一家餐厅 , 里面有几张桌子和椅子 , 呈 U 形排列 , 桌子由木头和上面有白色的桌布墙壁涂成白色,有多扇窗户让自然光线进入。地面铺设了木板。房间的一角放着一台冰箱和一台咖啡机。整个房间光线充足,看起来干净整洁且维护良好。 局限性 MiniGPT - 4 不擅长空间信息 局限性 • MiniGPT - 4 看不到小文本 这里写的是什么 ? 文中引用了保罗 · 科埃略的《炼金术士》一书。一点点的爱 , 一点点的运气和一点点的废话 , 你会有一个伟大的生活。” 这句话强调了在生活中保持积极态度并勇于冒险以实现成功和幸福的重要性。它建议爱、运气以及尝试新事物的意愿相结合可以导致充实的生活。 谢谢 ! MiniGPT - 4 : 使用高级大型语言模型增强视觉语言理解 Authors 小倩沈 李翔