您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[全球人工智能开发与应用大会]:书生万象大模型的技术演进与应用探索 - 发现报告

书生万象大模型的技术演进与应用探索

AI智能总结
查看更多
书生万象大模型的技术演进与应用探索

演讲人:王文海 目录 多模态大模型研究背景1大规模视觉语言模型对齐2强多模态模型构建3不止于语言输出:通专融合4 研究背景:大语言模型&多模态大模型 以视觉为核心的多模态大模型有望在众多领域带来AI生产力革命 https://github.com/OpenGVLab/InternVL 1.QFormer[1] 2.MLP[2] https://github.com/OpenGVLab/InternVL[1]Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozenimage encoders and large language models[C]//International conference on machine learning.PMLR, 2023: 19730-19742.[2]Liu H, Li C, Wu Q, et al. Visual instruction tuning[J]. Advances in neural information processingsystems, 2024, 36.[3]Wang W,LvQ, Yu W, et al.Cogvlm: Visual expert for pretrained language models[J].arXivpreprint arXiv:2311.03079, 2023. 目录 多模态大模型研究背景1大规模视觉语言模型对齐2强多模态模型构建3不止于语言输出:通专融合4 InternVL:大规模视觉语言模型对齐 传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展,亟需新的范式来推动其发展 •与LLM参数量差距过大•与LLM表征不一致•训练数据单一、数据量小 InternVL:大规模视觉语言模型对齐 •60亿参数视觉模型+1000亿参数语言模型•渐进式对齐视觉基础模型和语言模型表征•大规模、多来源图文多模态训练数据 •与LLM参数量差距过大 •与LLM表征不一致 •训练数据单一、数据量小 InternVL:大规模视觉语言模型对齐 核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐 设计1:扩大视觉模型至6B参数 步骤1:固定60亿参数,网格搜索模型宽度、深度、MLPRatio和AttentionHead维度 InternVL:大规模视觉语言模型对齐 设计1:扩大视觉模型至6B参数 基于原始ViT结构,通过搜索模型深度{32, 48, 64, 80},注意力头维度{64, 128},以及MLP比率{4, 8},将视觉模型扩大至6B参数,找到速度、精度、稳定性平衡的模型 InternVL:大规模视觉语言模型对齐 核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐 设计2:渐进式的图像-文本对齐策略 阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像) InternVL:大规模视觉语言模型对齐 核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐 设计2:渐进式的图像-文本对齐策略 阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像)阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像) InternVL:大规模视觉语言模型对齐 设计2:渐进式的图像-文本对齐策略 阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像) 阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像) 筛选指标:CLIP相似度,水印概率, unsafe概率,美学指标,图片分辨率, caption长度等 https://github.com/OpenGVLab/InternVL InternVL:大规模视觉语言模型对齐 核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐 设计2:渐进式的图像-文本对齐策略 阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像)阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像)阶段3:利用高质量Caption/VQA/多轮对话数据进行SFT训练(~4M图像)https://github.com/OpenGVLab/InternVL InternVL:大规模视觉语言模型对齐 多模态对话数据收集 包含图像描述、物体检测、OCR、科学、图表、数学、常识、文档、多轮对话、文本对话... InternVL:大规模视觉语言模型对齐 从适配视觉感知任务,到适配通用视觉语言任务,极大地扩宽了模型的适用范围 InternVL:大规模视觉语言模型对齐 在多种通用视觉语言任务上的取得了最好的性能,包括:1)视觉任务:图像/视频分类,语义分割; 2)视觉-语言任务:图像/视频-文本检索,零样本图像分类;3)通用视觉问答:图像描述,视觉问答,多轮对话 InternVL:大规模视觉语言模型对齐 对于视觉任务,InternVL的视觉编码器,即InternViT-6B,可以直接用作视觉主干网络 Pixel-Level Tasks Image-Level Tasks 仅用不到不到三分之一参数量,实现了与ViT-22B相当的性能 https://github.com/OpenGVLab/InternVL InternVL:大规模视觉语言模型对齐 对于视觉语言任务,有两种变体:InternVL-C andInternVL-G https://github.com/OpenGVLab/InternVLhttps://github.com/OpenGVLab/InternVL检索性能优于CLIP、OpenCLIP、CoCa等模型 InternVL:大规模视觉语言模型对齐 零样本图像分类能力评测 零样本视频分类能力评测 强零样本图像、视频分类能力 https://github.com/OpenGVLab/InternVLhttps://github.com/OpenGVLab/InternVL InternVL + Language Adapter-> Zeroshot多语言内容生成 •即插即用的为现有扩散模型增加多语言能力•只需要英文数据训练,即可泛化到其他语言•支持多种语言的混合输入,甚至是emoji•无需额外训练,即可兼容社区模型,如ControlNet,LCM,LoRA等 (1) Overall Architecture https://github.com/mulanai/MuLan https://github.com/OpenGVLab/InternVL InternVL + Language Adapter-> Zeroshot多语言内容生成 只需要英文数据,即可支持超多语言 https://github.com/mulanai/MuLan InternVL + Language Adapter-> Zeroshot多语言内容生成 即插即用,无需对DiffusionModel做额外训练 https://github.com/mulanai/MuLan 目录 多模态大模型研究背景1大规模视觉语言模型对齐2强多模态模型构建3不止于语言输出:通专融合4 InternVL1.5:接近商用性能的开源多模态大模型 增强图文多模态对话能力 3个关键点 主体(强基础模型):更大的视觉模型可以包含更广的视觉domain,抽取更强的视觉表征,更强的语言模型有更强的语言能力、世界知识和推理能力 动态分辨率(火箭头):模型需要根据任务调整不同的分辨率。对于一些图像细节的理解任务,如:文档理解,高分辨率非常重要。但是对于一些常见的问答任务又不需要大分辨率。 燃料(高质量数据集):多语言、多来源、精细标注 https://github.com/OpenGVLab/InternVL InternVL1.5:接近GPT-4V的开源多模态对话模型 和头部商用模型对比 书生·万象InternVL2.0:全方面提升 渐进式对齐训练,通过模型"从小到大"、数据"从粗到精"的渐进式的训练策略,以较低的成本完 成了大模型的训练,在有限资源下展现出卓越的性能表现 在MMMU,MMBench等评测上比肩GPT-4o和Gemini Pro1.5 加速ScalingLaw曲线,仅需原有的1/5的算力即可取得同等的效果 更强的OCR能力:毛笔字+竖排+繁体 更强的图表理解能力 细节文字理解+文字深层含义 https://github.com/OpenGVLab/InternVL 细节文字理解+文字深层含义 https://github.com/OpenGVLab/InternVL 结合专业知识问答 https://github.com/OpenGVLab/InternVL 理解人工布置的巧妙之处 图-文-动作结合回答 https://github.com/OpenGVLab/InternVL 图像细节理解+精确定位 https://github.com/OpenGVLab/InternVL 开源模型权重 InternVL2-Pro APIWe welcome everyone to use our API for research. For better management, please submit (application form) / (申请表) to obtain free API access. https://github.com/OpenGVLab/InternVL 更多详情看blog 目录 多模态大模型研究背景1大规模视觉语言模型对齐2强多模态模型构建3不止于语言输出:通专融合4 不止于语言输出:通专融合 不止于语言输出:通专融合 不止于语言输出:通专融合 不止于语言输出:通专融合 1)query不同任务不能共享;2)感知任务8个query就够了;3)图像生成要64个query https://github.com/OpenGVLab/InternVL 不止于语言输出:通专融合 开放检测&分割 https://github.com/OpenGVLab/InternVL 不止于语言输出:通专融合 不同domain的开放检测&分割 https://github.com/OpenGVLab/InternVL 不止于语言输出:通专融合 不同domain的开放姿态估计 不止于语言输出:通专融合 不止于语言输出:通专融合 感谢观看 InternVL2.0在线试玩 通用视觉组交流群小助手 https://github.com/OpenGVLab/InternVL