您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国盛证券]:GPT-4V:多模态最新里程碑 - 发现报告

GPT-4V:多模态最新里程碑

信息技术 2023-10-15 刘高畅 国盛证券 Elaine
报告封面

多模态能力跃迁,GPT-4V开启视觉交互时代。1)9月25日,OpenAI官方宣布,其开始在ChatGPT中推出新的语音和图像功能;同日,OpenAI发布《GPT-4V(ision) systemcard》,探索并展示此次大模型在视觉上的能力及其边界,GPT-4V的训练在2022年完成,OpenAI从2023年3月开始提供早期访问;9月29日微软发布《大型多模态模型的曙光:GPT-4V的初步探索》,详细测评GPT-4V在多类任务上的表现。2)支持图像输入为GPT-4V的主要革新。在输入方式上,GPT-4V支持图像、子图像、文本、场景文本、视觉指针及其混合集;在能力上,GPT-4V在视觉理解和解释、视觉参考提示、时间序列与视频理解、抽象视觉推理与智力测试、情商测试等实验中均表现优秀。 微软深度测评,LMM应用场景广阔。微软基于对GPT-4V的测评,探讨了大型多模态模型有哪些有前景的应用场景,设计了GPT-4V在各场景的新兴应用测试用例。1)工业领域,可用于缺陷检测、安全检查、杂货结账。2)医疗领域可用于放射学报告生成。3)汽车保险领域可生成损伤评估和保险报告。4)图像标题生成功能可用于图像整理以及带分割密集标题生成。5)图像生成领域可用于生成图像评估以及图像编辑提示词生成。6)具身智能领域可用于操作机器和导航。7)GUI导航领域,可用于网络浏览、在线购物、通知理解和观看视频。 插件、自我反思等工具加持,LMM潜力无限。微软探讨了GPT-4V未来可能的研究方向,这些方向可能进一步增强GPT-4V的能力。包括多模态插件(例如使用Bing图像搜索插件)、多模态链(例如将图像裁剪插件用于计数任务)、自我反思(例如通过自我反思改进图表绘制结果)、自一致性(聚合多个输出以产生最后答案)和检索增强(通过检索相关信息并将其集成到提示中来增强LMM)。 建议关注: 1)多模态应用:大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等。 2)办公应用:金山办公、科大讯飞、万兴科技、福昕软件等。 3)落地快&估值性价比:大华股份、漫步者、传音控股、海康威视、新国都、赛意信息、紫天科技等。 4)算力侧:英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、创业黑马、万马科技、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、汇纳科技等。 5)机器人:硬件供应商:三花智控、拓普集团、鸣志电器、斯菱股份、绿的谐波等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 一、多模态能力跃迁,GPT-4V开启图像时代 9月25日起,ChatGPT正式具备图像与语音能力。1)9月25日,OpenAI官方宣布,其开始在ChatGPT中推出新的语音和图像功能。它们提供了一种新的、更直观的界面,允许用户进行语音对话或向ChatGPT显示正在谈论的内容。2)简单的使用例子包括,在旅行时拍摄地标的照片,并实时讨论其中的有趣之处;当回到家时,拍下冰箱和食品储藏室的照片,以了解晚餐吃什么(并询问后续问题以获取逐步食谱);晚餐后,通过拍照、圈出问题集,并让它与用户分享提示来帮助孩子解决数学问题。3)9月25日起接下来两周内向Plus和Enterprise用户推出ChatGPT中的语音和图像。其中,语音将在iOS和Android上提供(在设置中选择加入),并且图像将在所有平台上提供。 图表1:与ChatGPT语音交谈 图表2:与ChatGPT谈论图像 核心视觉模型GPT-4V细节一并放出,其已于2022年3月训练完成、2023年3月开始早期访问。1)9月25日晚,OpenAI发布《GPT-4V(ision) system card》,探索并展示此次大模型在视觉上的能力及边界。2)类似于GPT-4,GPT-4V的训练在2022年完成,OpenAI从2023年3月开始提供早期访问。由于GPT-4是GPT-4V视觉能力的技术基础,其训练过程基本相同:首先,预训练模型使用来自互联网和许可数据源的大量文本和图像数据来预测文档中的下一个单词;然后,使用RLHF算法对额外数据进行微调,以产生人类训练者更喜欢的输出。 支持图像输入并分析为GPT-4V的主要革新,其在视觉理解、描述、推理等诸多方面表现出了类似人类水平的能力,前景广阔。9月29日,微软发布《大型多模态模型(LMMs)的曙光:GPT-4V的初步探索》(原标题The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)),详细测评GPT-4V在多类任务上的表现,并传授整套多模态大模型提示词使用技巧。 1、输入方式:图像、子图像、文本、场景文本、视觉指针等。 仅文本输入:GPT-4V强大的语言能力使其能够作为有效的单模式语言模型使用,在输入和输出中仅使用文本,GPT-4V能够执行各种语言和编码任务。 图像-文本对:1)单个图像-文本对:接受图像和文本作为输入以生成文本输出,其中图像-文本对中的文本可以用作类似于“描述图像”的指令,或者用作视觉问题回答中问题的查询输入。2)交错图像-文本对:交错的图像-文本输入可以是视觉为中心的,例如带有简短问题或指令的多个图像;或者是文本为中心的,例如带有两个插入图像的长网页;或者是图像和文本的平衡混合。 图表3:图像-文本对输入 视觉指向与视觉参考提示:“指向”可以表示为数值空间坐标,如框坐标和图像裁剪、或者覆盖在图像像素上的视觉标记,如箭头、框、圆和手绘图;视觉参考提示编辑图像像素,而不是常规的文本提示,以执行感兴趣的任务。 图表4:GPT-4V支持的的不同输入形式的视觉指针 以上图像、子图像、文本、场景文本和视觉指针等输入方式可任意混合,GPT-4V均表现出来较好的通用性。 2、能力:视觉语言能力、视觉参考提示、时间序列和视频理解等。 视觉语言能力:理解和解释视觉世界,即阐释图片信息。1)名人识别、地标识别、食物识别、医学图像理解、图标识别、场景理解等;2)对象定位、计数和密集标注;3)多模态知识和常识推理:笑话和梗图、科学与知识、多模态常识;4)场景文本识别、视觉数学推理、图表理解与推理、表格理解与推理、文档理解;5)多种语言理解与推理;6)视觉编码能力,如根据手写数学方程生成LaTeX代码的能力。 图表5:地标识别 图表6:表格理解与推理 视觉参考提示:指向特定的空间位置是与多模态系统进行人机交互的基本能力,核心思想是直接编辑图像像素空间以绘制视觉指针或场景文本作为人类的指示指令,包括理解指向输入、视觉指示提示、生成指向输出等。GPT-4V能够解构问题,生成不同的视觉标记以在每个子步骤中迭代地聚焦于不同的图像区域,最终整合信息以制定最终答案。 图表7:GPT-4V可理解并分析视觉指向提示 时间序列和视频理解:尽管GPT-4V主要关注图像,但它能够以类似于人类的方式理解视频和时间序列,输入方式可以为多个选定的视频帧。1)多图像序列:GPT-4V理解了各种姿势的序列和上下文,并且聪明地将它们与正在进行的活动关联起来; 2)视频理解:时间排序、后续动作预测、时间定位和推理;3)用于基于时间理解的视觉引用提示。 图表8:GPT-4V可理解并排序一系列视频帧 另外,GPT-4V在抽象视觉推理与智力测试、情商测试等实验中均展现了良好的表现。 二、微软深度测评,LMM应用场景广阔 微软在《The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)》中,基于对GPT-4V的测评,探讨了LMM有哪些有前景的应用场景,设计了GPT-4V在各场景的新兴应用测试用例。 2.1工业应用 缺陷检测。在制造业中计算机视觉技术发挥着至关重要的作用,缺陷检测是保证产品质量的一个重要步骤。微软通过给GPT展示有缺陷的产品图像,测试了GPT-4V的缺陷检测能力。对于在现实生活中常遇到的产品(例如示例中的榛子、面料、螺钉和汽车保险杠),GPT-4V自信地识别出了例如榛子/面料上的小洞、螺钉的剥蚀头和汽车保险杠上的凹痕等缺陷。当涉及到不常见的产品图像或外观有变化的产品(如示例中的药片)时,GPT-4V可能会犹豫,甚至拒绝做出预测。 图表9:GPT-4V缺陷检测示例 图表10:GPT-4V缺陷检测失败示例 安全检查。检测在建筑工地等工作环境中不充分使用或未穿戴个人防护设备(例如头盔、安全带和手套)的问题。微软在测试中首先通过直接指示它计算戴头盔的个体来评估GPT-4V的性能。GPT-4V给出的回应是“8个人戴着头盔”,未能检测到3个没有戴头盔的个体。之后微软再次尝试没有向GPT-4V提供包含所有8个人的原始图像,而是提供了用外部人员检测器检测到的人员的裁剪区域,再让GPT-4V计算没有戴头盔的人数,得到了正确结果。 图表11:GPT-4V安全检查示例 杂货结账。自助结账机器能加快客户的结账过程并减轻商店员工的工作量,然而实际体验还有待提高,用户仍然需要寻找产品条形码或为部分物品手动输入代码。微软提供了一个简化的原型,展示GPT-4V在无需用户干预的情况下识别并记录物品的自动自助结账系统方面的潜力。当向GPT-4V展示一个包含多个杂货项目的购物篮的照片时,GPT-4V未能准确识别篮子中的产品。但是先输入从零售网站检索到的杂货产品的目录图像后,GPT-4V能成功识别购物篮中的所有五项。对这个示例进一步的研究和开发有望探索更复杂、更现实的场景,实现完全自动化的自助结账流程。 图表12:GPT-4V杂货结账示例 2.2医疗应用 微软对GPT-4V在放射学报告生成中的应用进行了详细的研究,展示了两个结果准确的例子:一个涉及腹部X光图像,另一个涉及右膝的MRI(核磁共振成像),GPT-4V都正确地识别了研究并提供了准确的诊断。 图表13:GPT-4V放射报告生成应用 处理交错的图像-文本对的能力允许GPT-4V引用之前的医学扫描和诊断历史,微软展示了从多个胸部X光扫描中理解症状进展的例子。这些示例彰显了GPT-4V作为放射学报告AI助手的潜力。 图表14:GPT-4V依据诊断历史生成放射报告 2.3汽车保险应用 损伤评估。GPT-4V在准确识别和精确定位图像中汽车损伤方面表现出了非常高的水平,它还能提供每个特定损伤实例的详细描述。在某些情况下,GPT-4V甚至努力估计修理的潜在成本。 图表15:GPT-4V评估车辆损伤 保险报告。基于损伤评估的成功,微软要求GPT-4V识别图像中描绘的车辆的品牌、型号和车牌,并以JSON格式返回获得的信息,说明了GPT-4V在自动化汽车事故保险报告过程中的潜力。图80中的例子展示了这一能力。 图表16:GPT-4V保险报告json格式输出 2.4图像标题生成应用 照片整理。在这个场景中,微软展示了GPT-4V如何通过为照片生成明确提及每位家庭成员名字的标题来组织整理家庭相册。通过为GPT-4V提供每位家庭成员的视觉提示和他们各自的名字,GPT-4V可以精确地识别家庭成员(包括人、猫、狗)来生成详细和定制化的标题。为家庭相册中的所有图片存储这样的标题有可能实现高度个性化的图片搜索。 图表17:GPT-4V为照片生成标题 带分割的密集标题。微软通过将SAM生成的对象剪切图纳入提示,让GPT-4V为图中每个感兴趣的对象提取详细的密集标题。 图表18:GPT-4V生成带分割的密集标题 2.5图像生成应用 微软探讨了GPT-4V如何通过多种途径为图像生成领域做出贡献,包括评估和提示生成。 生成图像的评估。利用GPT-4V可以输出文生图给定提示词和输出图像的对齐程度(1-10),来评估生成的图像。 图表19:GPT-4V评估生成图像 图像编辑的提示生成。通过生成或重写用于图像编辑的文本提示词,GPT-4V可以细化编辑后的图像,从而获得更具视觉吸引力的结