您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFun]:开放世界理解 - 发现报告

开放世界理解

2024-12-23谢春宇DataFun何***
AI智能总结
查看更多
开放世界理解

谢春宇/360多模态团队负责人 DataFunSummit#2024 什么是大模型 什么是大模型 背景 q人工智能AGI,我们需要什么? ChatGPT的发布标志着自然语言处理技术迈入了一个全新的阶段。自2022年底亮相以来,它凭借其惊人的语言生成能力,迅速成为AI领域的焦点。ChatGPT能够进行连贯、深度的对话,甚至创作诗歌、撰写文章,展现出了前所未有的创造力和理解力。这一突破不仅激发了公众对于AI技术的兴趣,还加速了科技界对通用人工智能(AGI)的研究步伐。在教育、写作、娱乐等多个领域,ChatGPT的应用潜力 正在被不断挖掘。教育工作者利用它辅助教学,作家借助它激发灵感,企业则将其融入客户服务,提高了效率与体验。同时,ChatGPT也引发了关于AI伦理、隐私保护及就业市场变革的广泛讨论,促使社会各界思考如何在享受AI红利的同时,建立相应的监管框架,确保技术的健康发展。总之,ChatGPT的出现不仅是技术上的革新,更是对人类社会未来发展路径的一次深刻启示。 q人工智能AGI,我们需要什么? •GPT4做为新一代的GPT模型•增加了对视觉模态输入的支持,这意味着它能够理解图像并 进行相应的自然语言生成•增加了多模态能力的GPT4也带来了应用层面的更多可能•GPT-4V •增强的视觉能力 •分析和理解图像内容,提供描述、识别对象,甚至解释场景•根据图像生成创意文本格式•翻译图像中的文本,强大的OCR能力•GPT-4O •具备原生多模态能力 •支持文本、音频、图像任意组合•性能提升,更快的响应速度 背景 q视觉能力是通用人工智能AGI需必备的基础能力 ——人类智能本身高度依赖于视觉感知 视觉-语言跨模态学习 •Vision-language cross modal learning,亦称为VLP(Vision-LanguagePretrain)、VLM(Vision-LanguageModel),代表性的工作是20年OpenAI的CLIP,开启和引领了CV多模态研究的大模型时代 Li,Yingming, Ming Yang, andZhongfeiZhang. "Multi-view representation learning: A survey from shallow methods to deep methods."arXivpreprintarXiv:1610.01206 1 (2016). 视觉-语言跨模态学习 视觉-语言跨模态学习 中文图文跨模态模型R2D2 图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值,来自于360搜索的实际业务需求非常强烈。 视觉-语言跨模态学习 •2300万训练数据,在中文图文检索任务上达到SOTA •双塔base +单塔head的混合模式•专门针对数据噪声设计的momentum-updated encoder和masked input + soft label双蒸馏 视觉-语言跨模态学习 中文图文跨模态模型R2D2 •伴随着算法和模型,我们一同开源了对应的图文跨模态数据集Zero,包含2.5亿中文图文对数据 •基于用户点击CTR筛选,数据质量更高 https://zero.so.com 图文多模态大模型 LMM的研发回顾 •LMM = Large Multimodal Model,之前亦称为MLLM(Multimodal Large Language Model),目前也有小部分工作为了强调视觉能力将其称为LVM (Large Vision Model)。LMM是在单文本模态的语言模型LLM基础上发展起来的研究方向,旨在解决纯文本语言模型LLM只能理解文本输入的先天缺陷,赋予大模型对多模态信息混合输入的理解和处理能力,在此基础上可以再进一步实现多模态信息的混合输出能力 •相关的研究路线主要分为两条:一条是原生多模态路线,模型设计从一开始就专门针对多模态数据进行适配设计,代表性的工作有MSRA的KOSMOS、Google的Gemeni、OpenAI的GPT-4O;另一条是单模态专家模型缝合路线,通过桥接层将预训练的视觉专家模型与预训练的语言模型链接起来,代表性的工作有23年1月Saleforce的BLIP-2,以及近期的Idefics2和InternVL2等工作 图文多模态大模型 路线选择 •原生多模态路线的理论上限更高,但对应的是训练成本远高于缝合路线; •缝合路线因为可以复用各个单模态领域的已有成果,因此具有很经济的训练成本优势。 •少数的巨头机构采用的是原生多模态路线,其它绝大多数企业和学界研究机构采用的是缝合路线 图文多模态大模型 第一代LMM •多模态LMM的研发从22年底到现在,从整个业界的角度来观察,有着非常明显的代际更替 •第一代LMM(22年11~23年6月)的 代 表 性 工 作 主 要 包 括B L I P - 2 ,LLaVA,miniGPT4以及国内智谱的VisualGLM、阿里的mPLUG-owl、自动化所的X-LLM、IDEA的Ziya-Visual等。360人工智能研究院在23年5月开源的SEEChat(360VL的前身)也属于第一代LMM。 •这一代LMM的能力主要为针对图像内容的对话和问答,支持的图像分辨率非常低(224×224),研发的重心主要聚焦在模态对齐的原型验证上 图文多模态大模型 第二代LMM •第二代LMM的研发,时间上大致为23年6~11月。 •从第二代LMM的研发开始,整个业界开始呈现出研发投入逐渐增强,研发竞争急剧扩大的情况。 •第二代LMM从研发的角度主要是要为LMM增加目标定位的能力,相比粗粒度的图像内容问答,增加目标定 位 能 力 是 多 模 态L M M能 够 在Agent、机器人、自动驾驶、安防巡检等场景中落地实用的必要前提 图文多模态大模型 第三代LMM •从23年11月~至今,业界已经转入第三代LMM的研发。 •第二代LMM的研发中暴露出以下几个关键问题,需要在第三代LMM的研发中进一步解决 •2代LMM的分辨率基本都处在336~448之间 •几乎所有的工作都回避了语言模型能力下降的问题 III.多模态的Scaling Law•缝合路线的天花板是否已经出现 图文多模态大模型 高分辨率输入的支持 •第一代LMM所能处理的图像分辨率固定为224(对应图像token数32~256),第二代LMM的典型分辨率是336~448。 •主要制约因素是训练的成本和语言模型的窗口大小:一方面图像分辨率越高,图像编码后的image token数越多,对应的训练成本越高;另一方面23年语言模型的输入窗口大小普遍在1K左右,过长的图像编码token长度会压缩文本输入的空间,导致问答能力的下降。 •图像分辨率支持不够高带来的问题,一方面是LMM在图像对话/问答中对细节的理解能力受限,另一方面更为重要的是作为通用模型的LMM很难在下游任务上实现对传统专业模型的超越,这也是目前LMM在实际落地应用中的最显著障碍 •目前第三代LMM模型通过将输入图像切块的方式已基本解决了高分辨率图像支持的技术障碍,同期语言模型的输入窗口也普遍从1K提升到4K、8K甚至几十万字,24年2月后开始陆续有第三代LMM的工作实现了高分辨率以及混合分辨率的支持,代表性的工作有LLaVA1.6,阿里的QwenVL-plus/max,金山的Monkey,旷视的Vary等工作。 图文多模态大模型 图文模态间的竞争 •多任务训练一直以来存在任务间竞争的问题 •在多模态LMM的研发上,多任务的竞争问题更为显著,特别是视觉模态vs文本模态的竞争 Option I:保持LLM原有能力,模型融合设计和训练的难度更高。代表性的工作是做为LMM先驱的Flamingo。模型结构上专门设计了多模态融合的缝合层,内嵌的LLM训练时固定不受影响。360SEEChat和智谱的CogVLM采取了类似方案。优点是严格能力超集,缺点是训练难度更高。 Option II:当前大多数工作的选择则是在LMM上放弃文本模态的能力,只强调视觉模态的能力。为了尽可能提升LMM在视觉任务上的表现,将LLM打开参与视觉任务训练。这么做的优点是可以降低LMM在模型设计和训练上的难度,容易刷高LMM在视觉任务上的指标,但LLM会发生显著的遗忘效应。 图文多模态大模型 多模态Scaling Law •缝合路线目前最大的障碍:不具有很好的data-performance scaling up能力 •当前缝合路线的模型结构基本已经收敛为image encoder + projector + LLM的结构,其中image encoder负责图像编码,LLM负责对话逻辑,projector作为缝合层将视觉编码器和语言模型进行桥接缝合 •但是当前以LLAVA为代表的浅层缝合模型,通常在百万训练量级后就已经饱和,将训练量提高到千万甚至几亿的量级并不能带来LMM模型能力的明显提升 •背后的根本原因,要追溯到缝合路线下LMM中内嵌的语言模型能力是否需要保持上 •两种解决方案: •方案一:在image encoder + projector上做文章,将海量数据的信息在预训练阶段训练到视觉编码器和缝合层中,语言模型参数仅在最后的指令微调阶段参与训练。代表性的工作包括国内零一万物的Yi-VL,书生浦语InternLM-XComposer-VL,韩国KaKaoBrain的Honeybee等 •方案二:在多模态训练过程中也同步加入相当比例的纯文本训练数据同时进行训练,代表性的工作包括Apple的MM1和国内幻方的Deepseek-VL等工作 图文多模态大模型 图文多模态大模型 MiniGPT4 •模型结构:采用BLIP2的ViT和Q-Former作为视觉编码器,采用Vicuna作为文本解码器,通过一个线性映射层将视觉特征映射到文本表示空间 •模型训练:冻结视觉编码器和文本解码器,只训练线性映射层•Pre-traing:5M图文数据对齐•SFT:3.5K人工矫正数据 图文多模态大模型 LLaVA •模型结构:采用CLIP VIT-L/14作为视觉编码器,采用Vicuna作为文本解码器,通过一层MLP做线性映射 •模型训练:•Pre-traing:从CC3M中通过限 制caption中名词词组的最小频率过滤出595k图文数据,冻住视觉编码器和文本解码器,只训练线性映射层•SFT:映射矩阵与语言模型均更新 图文多模态大模型 LLaVA-1.5 •数据•增加更多微调数据 •VQA•Region-level VQA•中英双语ShareGPT•对特定问题设计prompt •模型•增加VL connector容量 •提升模型分辨率•更大杯LLM 图文多模态大模型 LLaVA-Next •混合分辨率支持•自适应选择最佳缩放尺寸 •数据•高质量GPT-4V数据(LAION-GPT-V和 •1x1, 1x2, 1x3, 1x4, 1x5, 1x6,2x2,2x3等 ShareGPT-4V)•用户反馈真实数据•增强OCR能力(DocVQA、SynDog-EN等)•加强图表理解能力(ChartQA, DVQA,和AI2D) •模型•性能更好的LLM(Mistral-7B、 Nous-Hermes-2-Yi-34B 图文多模态大模型 DeekSeek-VL •语言能力退化?•联合视觉语言预训练中加入大量纯文本数据 •视觉编码器•384分辨率SigLIP与1024分辨率SAM的结合,全局+细节 Idefics2 •数据•interleaved数据 •模型•SigLIP+PerceiverResampler+Mistral-7B •图文对(高质量的人工标注PMD+高噪声的laion)•PDF文件(OCR-IDL,PDF