您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [华西证券]:计算机行业:SAM,机器视觉领域的ChatGPT - 发现报告

计算机行业:SAM,机器视觉领域的ChatGPT

信息技术 2023-04-10 刘泽晶 华西证券 天然呆໊
报告封面

SAM,机器视觉领域的ChatGPT MetaAI发布通用大模型SAM,SAM功能强大,SAM是一种可提示的分割系统,可对不熟悉的对象和图像进行零样本泛化,无需额外训练。SAM优势众多,可与其他系统灵活集成、可进行可拓展式输出等。我们认为零样本泛化能力是SAM的最强大之 处,原因是SAM已经了解了物体是什么的一般概念,这种理解可以在不需要额外训练的情况下对不熟悉的物体和图像进行零样本泛化。 SAM训练模型实为CV领域的数据引擎,参数方面的高级功能是其对通过使用模型在环“数据引擎”收集的数百万张图像和掩码进行训练的结果,此外,SAM已经实现开源,算力部分尤为重要,根据Meta官网数据,该模型已经实现在GitHub上开源,算力模型训练部分,该模型在256个A100 GPU上训练了3-5天,推理部分,可在NVIDIA A100 GPU上,图像编码器大约需要0.15秒。此外,SAM的模型设计极其灵活。 SAM实为解放生产力的双手 我们认为SAM对机器视觉会产生革命性的影响,原因是从机器视觉的角度来说,感知永远是处于智能模块的流程前期 ,且我们认为感知在AI机器视觉领域占据绝大部分的功耗,原因是感知需要将数据转换成特征向量。就智能驾驶而言,图像分割是深度神经网络架构,在智能驾驶极为重要,SAM出世后,我们认为此神经网络有望直接被SAM大模型代替,效率大幅提升,模型预训练所需的时间、人力成本有望大幅降低,同理,其他领域机器视觉同样受益,例如智慧安防领域、家用摄像头领域、 工业智检领域、地理信息化领域、3D建模领域等。 投资建议: 下应用领域有望受益: 1)智能驾驶,受益标的为中科创达、虹软科技、光庭信息、四维图新、东软集团等; 2)安防领域,受益标的为海康威视、当虹科技、大华股份等; 3)家用摄像头与机器人领域,受益标的为科沃斯、石头科技等; 4)工业质检领域,受益标的为凌云光、用友网络、奥比中光等; 5) MR、XR领域,受益标的为歌尔股份、立讯精密、微导纳米、长盈精密等; 6)地理信息化领域,受益标的为航天宏图、中科星图、超图软件等; 7)3D建模仿真领域,受益标的为华如科技、霍莱沃等; 风险提示 核心技术水平升级不及预期的风险;AI伦理风险;政策推进不及预期的风险;中美贸易摩擦升级的风险。 1.ChatGPT: SAM,机器视觉领域的ChatGPT 近日MetaAI发布通用大模型SAM:Segment Anything Model (SAM)一种来自Meta AI的新AI模型,只需单击一下即可“切出”任何图像中的任何对象。客户可以在官网直接体验SAM带来的视觉体验。 SAM功能强大:SAM是一种可提示的分割系统,可对不熟悉的对象和图像进行零样本泛化,无需额外训练。 SAM优势众多,第一,SAM的提示设计可实现与其他系统的灵活集成。例如SAM可以从其他系统获取输入提示,例如在未来从AR/VR耳机获取用户的注视以选择对象。同时SAM也可以来自对象检测器的边界框提示可以启用文本到对象的分割。 第二,SAM可进行可拓展的输出,输出掩码可用作其他AI系统的输入。例如,可以在视频中跟踪对象遮罩、启用图像编辑应用程序、提升为3D或用于拼贴等创意任务。 第三,SAM最强大之处即实现零样本泛化:SAM已经了解了物体是什么的一般概念,这种理解可以在不需要额外训练的情况下对不熟悉的物体和图像进行零样本泛化。我们认为这是SAM在CV(机器视觉)领域中具备跨时代的意义的根本原因之一,因为语义图像分割是所有CV的初始步骤,即模型的预训练,需要花费极高的人力、时间成本,SAM出世后,此步骤有望明显改变,因此具备跨时代的意义。 SAM训练模型实为CV领域的数据引擎,参数方面SAM的高级功能是其对通过使用模型在环“数据引擎”收集的数百万张图像和掩码进行训练的结果 。研究人员使用SAM及其数据以交互方式注释图像并更新模型。这个循环重复多次以改进模型和数据集。 同时,SAM能够实现复杂的歧义感知设计来完全自动地注释新图像:同样我们认为此举具备跨时代的意义,原因是我们认为其精度已经具备多领域所必须的图像语义分割的精度,根据Meta官网数据,公司的最终数据集包括在约1100万个许可和隐私保护图像上收集的超过11亿个分割掩码。 此外,SAM已经实现开源,算力部分尤为重要:根据Meta官网数据,改模型已经实现在GitHub上开源,算力模型训练部分,该模型在256个A100 GPU上训练了3-5天,推理部分,可在NVIDIA A100 GPU上,图像编码器大约需要0.15秒。 SAM的模型设计极其灵活:SAM旨在高效地为其数据引擎提供动力。可将模型拆解成两步骤,第一,一次性图像编码器;第二,将编码信息通过轻量级掩码解码器用于预测分割,此过程只需几毫秒内在网络浏览器中运行即可。 虽然SAM总体上表现突出,然而依旧存在一定限制:例如可能错过精细结构。 此外,SAM并不完全可靠,依旧处于探索期间。未来我们认为随着AI机器学习代码逐渐迭代,SAM势必对机器视觉领域产生革命性的影响。 2.SAM实为解放生产力的双手 我们反复强调SAM对计算机视觉领域会产生革命性的影响:原因是从机器视觉的角度来说,感知永远是处于智能模块的流程前期,且我们认为感知在AI机器视觉领域占据绝大部分的功耗,原因是感知需要将数据转换成特征向量。因此SAM领域势必会对整个机器视觉领域带来革命性的影响。 就机器视觉领域来说,SAM有望成为解放生产力的双手:我们在《智能驾驶大报告》中已经论证了,感知处于整个智能驾驶模块化智能系统中深度学习的第一层,示意图如下。 传统的图像(语义)分割需要深度的神经网络学习:语义分割是将标签类别与图片的每个像素关联的一种深度学习算法,智能驾驶里至关重要,因为边界目标对象很难通过边界框来定义。语义分割用来识别可区分类别的像素集合 ,比如智能驾驶汽车需要识别的车辆、行人、交通信号等。如左图所示,图A、B、C是前置摄像头语义分割的视图,算法分别是YOLOv3、MaskRCNN、DeepLabv3,图D为激光雷达语义分割场景试图。 图像分割一个常用的方法是一个基于卷积神经网络的架构,如右图所示。由于特征识别是在像素级别上分类,而不是对整个图像分类,所以在原有神经网络的架构上,追加一个神经网络的逆向实现,向上采样的过程的执行次数与向下采集的过程相同,以确保最终图像的大小与输入图像相同。最后使用像素分类输出层,将每个像素映射到一个特定类,从而实现语义分割。 SAM实为解放生产力的双手:我们认为SAM大模型的出世有望直接影响智能驾驶的图像分割领域,SAM大模型出世后,感知领域有望带来革命性的变革,图像分割有望从复杂的神经网络、深度学习直接被SAM大模型替代,效率大幅提升,模型预训练所需的时间、人力成本有望大幅降低,成为真正意义上的解放生产力的双手。对智能驾驶领域,CV的泛化能力明显提升,加快算法的迭代,更快拥抱L5智能驾驶时代的到来。 同理,SAM的横空出世对其他机器视觉的应用场景同样带来革命性的影响,例如智慧安防领域、家用摄像头领域、工业智检领域、地理信息化领域、3D建模领域等。 3.投资建议:梳理AIGC相关受益厂商 SAM的横空出世有望对机器视觉产生革命性的影响,我们认为以下应用领域有望受益: 1)智能驾驶,受益标的为中科创达、虹软科技、光庭信息、四维图新、东软集团等; 2)安防领域,受益标的为海康威视、当虹科技、大华股份等; 3)家用摄像头与机器人领域,受益标的为科沃斯、石头科技等; 4)工业质检领域,受益标的为凌云光、用友网络、奥比中光等; 5) MR、XR领域,受益标的为歌尔股份、立讯精密、微导纳米、长盈精密等; 6)地理信息化领域,受益标的为航天宏图、中科星图、超图软件等; 7)3D建模仿真领域,受益标的为华如科技、霍莱沃等; 4.风险提示 1、核心技术水平升级不及预期的风险; 2、AI伦理风险; 3、政策推进不及预期的风险; 4、中美贸易摩擦升级的风险。