您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[西南证券]:GPT-4-Turbo专题:多模态能力提升,应用生态加速 - 发现报告

GPT-4-Turbo专题:多模态能力提升,应用生态加速

2023-11-21西南证券严***
AI智能总结
查看更多
GPT-4-Turbo专题:多模态能力提升,应用生态加速

GPT-4-Turbo专题 多模态能力提升,应用生态加速 西南证券研究发展中心海外研究团队王湘杰2023年11月 核心观点 当前变化:GPT4-Turbo模型优化,GPTs生态加速繁荣。2023年11月7日,OpenAI通过开发者大会推出新产品:1)GPT4-Turbo:该模型通过增加上下文窗口以支持更长的工作流,同时具备视觉和语音等多模态能力,输入和输出的tokens价格大幅下降,从而帮助开发者以更低的价格获取更高的模型性能。2)GPTs:用户只需输入指令并提供外设的知识库即可创建专属GPT,应用开发门槛大幅降低 ,未来在收益计划的助力下,AI应用有望迎来大爆发,形成全新的AIAgent生态。3)AssistantAPI :开发者可以通过函数调用、知识检索、代码解释器简化应用开发流程、实现效率提升。 未来影响:算力&存力亟需扩容,AI应用潜力无限,垂类数据或成关键。1)算力端:OpenAI一系列新产品的推出成功打开新流量入口,更多的用户和开发者希望参与其中,巨大的流量对算力底座提出更高的要求;叠加图片等多模态生成所要求的tokens计算量远高于文本模态(根据OpenAI官网信息推算,在GPT-4-Turbo的Visionpricingcalculator高保真度模式下,1张图片所产生的tokens数大约是1个单词的570或830倍),算力供给亟需扩容。2)存力端:在算力提效到达一定瓶颈的情况下,AI芯片未来将逐步通过堆叠HBM的方式来提升性能,扩大单位算力的存储能力,HBM等存力需求将迎来暴增。3)应用端:类比移动互联网时代,AI时代的应用市场有望如同移动互联网时代具备无限潜力,GPTs数量将呈现非线性高速增长;此外,OpenAI的GPTs通过提供API,使得开发者只需喂给大模型更多的垂类数据即可打造垂类AI应用,同时使满足更多长尾需求成为可能。4)数据端:从OpenAIGPTs的Knowledge功能来看,专业知识与大模型通用能力的结合将成为未来的重中之重,私域数据库和专业数据库方向将会不断产生新热点、新需求,因此,如何在合规前提下留存垂类数据并构建体系化数据库、以及保证知识产权的确权或成为未来的重要议题。 投资建议:1)算力:把握云侧芯片龙头、端侧格局变化和大厂自研趋势;2)存力:建议关注高性能存储器芯片制造商;3)应用:建议关注以OpenAI和微软为代表的应用领军企业;4)数据:建议关注具备垂类优势和优质产权的数据提供商。相关标的:英伟达(NVDA.O)、超威半导体(AMD.O)、英特尔(INTC.O)、高通(QCOM.O)、微软(MSFT.O)等。 风险提示:相关理论和技术发展不及预期风险;行业竞争加剧风险;应用生态发展不及预期风险等。 1 目录 1技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 1.1图像理解能力提升:三大视觉学习方法 1.2视觉生成:多模态内容理解和生成的闭环 2当前变化:GPT4-Turbo模型优化,GPTs生态加速繁荣 2.1GPT-4Turbo:多模态能力增强,使用成本降低 2.2GPTs:加入Agents战场,与开发者共享收益 2.3AssistantAPI:解决API开发者痛点,拓展OpenAI收入来源 3未来影响:算力&存力亟需扩容,AI应用潜力无限,垂类数据或成关键 3.1算力&存力端:流量激增+多模态生成拉大算力缺口,同时带动存力需求 3.2应用端:强化垂类属性&满足长尾需求,数量有望实现快速增长 3.3数据端:专业数据或成关键,重视垂类数据留存及知识产权价值 2 1技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 章节小结 图像理解 视频Q&A应用 ImageBind STAIR HiCLIP CLIP 标签监督 语言-图像编辑 技术原理 仅图像自监督 对比学习 非对比学习 遮盖图像建模 视觉生成 文本到图像(T2I) 基于文本的图像编辑 资料来源:西南证券 3 1.1图像理解能力提升:三大视觉学习方法 为打造视觉大模型,建立高效视觉预训练体系以提升图像理解能力至关重要,这影响到从图像整体 (如分类、图文检索、标注)到部分区域(如物体识别、短语定位)及到像素细节(如语义、实例 、全景分割)的各项任务。 通用视觉预训练方法主要可归纳为三大类。1)标签监督:此方法在每张图片都配有对应标签的数据集上进行训练,如图像分类中,一张狗的照片会对应“狗”的标签,模型的核心任务是准确预测此标签。2)语言-图像监督:利用完整的文本描述来引导模型学习,使模型能够深入挖掘图像内容与文本语义间的关联。3)仅图像自监督:利用图像本身固有的结构和信息来学习有意义的表示,而不依赖于显式的人工注释标签。 三大视觉学习方法 模型的目标是在给出图片时正确预测标签标签 图像 图像编码器ImageEncoder 语言监督利用图像&完整的文本描 述之间关联来训练模型 图像既作为输入又作为监督信号 图像编码器 Image Encoder 文字编码器 Text Encoder 图像编码器 Image Encoder 图像编码器 Image Encoder 图像 文字 图像 (1)监督学习(2)语言-图像监督 (CLIP) (3)仅图像自监督学习 资料来源:《EfficientSelf-supervisedVisionPretrainingwithLocalMaskedReconstruction》,西南证券整理4 ImageNet数据集 1.1.1图像理解能力提升:标签监督 监督式预训练已成为机器学习和计算机视觉领域的核心技术。在这种策略中,模型首先在大规模标注数据集上进行预训练,随后针对特定任务进行精细调整。这种方法充分利用了如ImageNet这样的大型人工标注数据集,为模型赋予了高度可迁移的视觉特征。 其核心原理是将图像与预设的标签相对应 ,这些标签往往代表某一视觉物体。多年来,这种策略在各类视觉基础架构,如AlexNet、ResNet以及ViT的发展中都发挥了不可或缺的作用。监督式预训练为计算机视觉领域带来了革命性的进步,从基础的图像分类和物体检测,到更为高级的视觉问答和图像标注任务。受限于人工标注的高成本,这些模型所学习到的特征会受到预训练数据集的规模和多样性的制约。 超过1,000万个手工标注的高分辨率图像,涵盖2万多个类别 AlexNet深度神经网络 每个图像都被详细地标注为某一特定的类别,如“狗”、“猫”或“汽车” 资料来源:《TheHistoryBeganfromAlexNet:AComprehensiveSurveyonDeepLearningApproaches》,西南证券整理5 1.1.1图像理解能力提升:语言-图像监督预训练——CLIP CLIP(对比性语言-图像预训练)利用图像的“alt-text”(一种为图像提供文字描述的方法,常用于网页以增强无障碍访问)来进行训练。此阶段的训练涵盖了大量图像与其相关文本描述的匹配对,确保模型精确捕捉到文本与图像间的关联性。如果图片和文字有对应关系,那么在高维特征空间中代表两者的点就会非常接近。经过无数图像-文本配对训练的文本编码器可以接受任何给定的文本标签并产生一个独特的向量表示。当提供一个图像时,其对应的向量表示将与这些文本向量进行比较,以分配最合适的类别。 CLIP(对比性语言-图像预训练) CLIP在零样任务中展现出卓越的泛化性能和对于领域偏移的高度鲁棒性。CLIP不仅能够应对视觉识别和图像-文本的联合检索任务,更在接受适当的提示后表现出强大的视觉-语言推断能力。由于CLIP基于简单的跨模态交互,它在推理效率上超越了基于交叉注意力的视觉-语言模型。 文本 编码器 优化编码器,使相关的图像-文本对在嵌入空间中的表示比不相关的对更为接近 假设有三个文本注释:"狗"、"猫"和"鸟"。你的模型中的文本编码器可以接受这些标签并将它们转换为独特的向量表示。可以将这些向量视为每个单词的独特签名或指纹。 (1)对比预训练 (2)从标签文本创建数据集分类器 文本 编码器 处理相应的文本描述 (3)零样本推理 图像 编码器 图像 编码器 生成图像的特征表示 给定一个新的动物图像,图像编码器为这个图像产生一个向量表示。为了对这个图像进行分类,模型将比 较图像的向量与文本注释的向量。假设图像的向量最接近"狗"的向量。那么,模型将把图像分类为"狗"。 资料来源:《LearningTransferableVisualModelsFromNaturalLanguageSupervision》,6 《Zero-ShotText-to-ImageGeneration》,西南证券整理 1.1.1图像理解能力提升:图像自监督预训练——对比/非对比学习 在没有标签的无监督学习场景中,对比学习通过将正例(相似的样本)和负例(不相似的样本)对比,强化模型对于相似性和差异性的判别能力。通过这种方法,即便在没有明确的类别标签的情况下,模型也能够被训练成可识别出哪些特征更有可能来自同一分布或类别。对比学习的成功归功于其能够捕捉到数据的内部结构和模式。在图像处理中,对比学习可以用来学习视觉表征,这些表征能够区分不同的物体和场景。一旦模型学习有区分性的特征,它将可以被用于多种下游任务,如分类、检索和聚类,并展现出强大的泛化能力。 近年来,非对比学习逐渐崭露头角,不再重视明确的样本对比,而是致力于挖掘数据的内在结构和不变特性。例如基于Siamese架构的模型,可以有效处理多个数据视图,而不必过多地依赖样本之间的对比性质,这为模型训练带来效率与扩展性的双重优势。 视觉表征对比学习框架 最大化一致性(Maximizeagreement):确保两个相似或增强版本的输入(例如图像)的表示在嵌入空间中接近。相反,不相似输入的表示应该相距较远。通过最大化一致性,模型旨在将相似输入的表示拉近,同时将不相似输入的表示推开。 g(.):代表一个投影头。在获得表示(h_i或h_j)之后,这个函数进一步将表示转化或投影到另一个空间,实际的对比比较就发生在这里。 从同一数据增强族中分别采样两 种不同的数据增强操作 (t~T和t'~T) 资料来源:《EfficientSelf-supervisedVisionPretrainingwithLocalMaskedReconstruction》,西南证券整理7 1.1视觉生成:多模态内容理解和生成的闭环 在多模态大型模型的发展过程中,视觉生成技术是整合视觉内容与文本信息的关键手段。拥有理解和生成视觉内容的能力使模型能够参与到更深层次和细致的任务中 ,如图像标注、视觉叙事以及复杂的设计任务。由于人类的理解和沟通本质上是多模态的,通过整合视觉生成功能,模型能够以更接近人类认知的方式处理和生成信息。此外,多模态融合也为虚拟现实、增强现实以及交互式数字平台等领域奠定基础,未来将实现更为自然、无缝且高效的用户界面。 “人类行为对齐”旨在融合人类的认知过程和AI驱动的视觉内容生成。传统视觉生成模型仅依赖数据,导致输出内容往往缺乏人类的逻辑思维和行动模式。例如,在生成‘繁忙的街道’图像时,传统模型只机械地排列车辆、行人和商店,无法捕捉人类对‘繁忙’的深刻理解,例如行人的匆忙步伐、车辆的密集流动和商店的热闹场景。而通过引入人类行为对齐,模型可确保生成的视觉内容不仅准确,更与人类的感知和期望相符合,推动模型向更以用户为中心的方向转变,使系统在‘思考’和‘感知’方面更符合人类需求。在遵循人类意图合成所需视觉内容的图像生成模型方面,主要涉及四个方向:1)空间可控的T2I生成;2)基于文本的图像编辑;3)更好地遵循文本提示;4)在T2I生成中实现物体定制化。 (1)空间可控的T2I生成 (2)基于文本的图像编辑 (3)更好地遵循文本提示 (4)在T2I生成中实现物体定制化 资料来源:《MultimodalFoundationMo