Meta发布SAM,零样本分割图像中一切对象。2023年4月6日,Meta正式发布Segment Anything Model(SAM)AI模型,其本质上是一种图像分割模型,但最大的升级在于可以根据任何提示prompt(点击、框、文本等)从照片或视频中对任意对象实现一键分割,这意味着SAM模型学会了“什么是物体”这一在计算机视觉领域(Computer vision,CV)的核心能力,并将自然语言处理领域(Natural Language Processing,NLP)的prompt范式延展到CV领域,属于革命性的技术突破。比如AR/VR头戴设备可通过用户实现焦点作为对象选择,同时也可以将分割输出用作其他AI系统的输入,适用于较多3D建模任务。 SAM模型初步验证多模态技术,机器视觉领域的“GPT-3”时刻。SAM模型是通用的分割方法,其已经学会了物体是什么的一般概念,可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练。Meta开源了SAM模型和1100万张图像和11亿个掩码的训练数据集,其模型设计灵活高效,即开源同时可以在网页中运行。我们认为,基于SAM的图像识别模型,或将快速应用于如安防、工业机器视觉、视频会议、AR/VR等行业。 SAM及其衍生模型,有望快速提高下游各行业渗透。我们认为,SAM模型在视觉识别领域具有重要意义。消费电子领域,进一步优化人脸解锁,3D空间扫描,视频动态捕捉等基础拍摄功能,在后处理端可以对拍摄文字进行提取编辑;捕捉拍摄图片中特定对象进行提取编辑等功能,以及未来有望快速降低图像视频类创作领域门槛。AR/VR领域,真正实现设备端的虚拟现实结合应用。结合模型将有效的视野图像中识别及分割关注对象,进行后续的提取处理等交互操作,让设备更具备智能交互性。安防领域,在特定场景会有难以覆盖及训练成本较高等情况,通过SAM及其衍生模型,可以快速进行技术迭代及应用通用化,结合制造业及下游领域专用图像类数据训练,有望带动安防领域公司精准快速的服务下游客户及特定行业。汽车智能化领域,现有场景下有利于帮助车辆更好的理解人,道路,车内外环境等因素,进一步提升智能驾驶,智能交互等一些车载应用体验。 建议关注: 视觉芯片端:韦尔股份,龙迅股份,晶方科技,富瀚微,思特威,格科微; 光学/镜头模组:高伟电子,舜宇光学,宇瞳光学,永新光学; 视觉方案:虹软科技; 安防模型及应用:海康威视,大华股份; 工业机器视觉:奥比中光,凌云光; AR/VR:立讯精密,歌尔股份,水晶光电,创维数字,兆威机电,长盈精密。 风险提示:AI技术迭代不及预期;经济下行超预期;行业竞争加剧。 一、MetaSAM登上舞台,CV领域浪潮已至 1.1Meta发布图像分割AI模型SAM,掀起CV新革命 SAM正式亮相,计算机视觉领域迎来革命性突破。2023年4月6日,Meta正式发布SegmentAnythingModel(SAM)AI模型,其本质上是一种图像分割模型,但最大的升级在于可以根据任何提示prompt(点击、框、文本等)从照片或视频中对任意对象实现一键分割,这意味着SAM模型学会了“什么是物体”这一在计算机视觉领域(Computer vision,CV)的核心能力,并将自然语言处理领域(Natural Language Processing,NLP)的prompt范式延展到CV领域,属于革命性的技术突破,英伟达AI科学家Jim Fan认为这是CV领域的“GPT-3时刻”。我们可以从MetaAI研究部门最新发布的论文中对SAM模型做一个初步了解,该模型主要由三部分组成: 1)任务(Task):定义为“可提示的分割任务”,目的是在任何给定的分割提示下得到一个有效的分割掩膜,此处的掩膜是指使用特定的图形对需要处理的图像中的某个区域进行遮挡,而分割提示可以是背景点、粗框、自由格式文本,或者是能代表用户想要在图像中分割出的任何信息。 2)模型(Model):由“提示编码器”+“图像编码器”+“掩膜解码器”组成,其中“提示编码器”将用户输入的提示实时转换为嵌入向量,“图像编码器”为图像生成一次性嵌入,然后在“掩膜解码器”的结合下输出有效的分割掩膜,输出速度达到近乎实时的50ms。 3)数据(Data):包含顶层的数据引擎(data engine)和底层的数据集(dataset),其中数据引擎从辅助手动到半自动,再到全自动阶段,不断使用新标注的数据对模型进行训练以完成迭代,从而生成了最终数据集Segment Anything1B(SA-1B),其包含了超过10亿个掩膜和1100万张经过许可且受到隐私保护的图像。 图表1:SAM模型的三大构成 图表2:SA-1B拥有的图像数量比任何现有数据集多6倍以上 图表3:SA-1B拥有的掩膜数量比任何现有数据集多400倍以上 1.2SAM融合交互式分割和自动分割,“零样本迁移”实现万物可分割 SAM融合两种分割方法实现分割一切,充分赋能下游视觉识别领域。我们看到,分割作为CV领域的核心任务的最后一环,一般需要技术专家在大量不同领域的标注数据的基础上,通过高度专业化的工作为特定任务创建准确的分割模型,由此可见图像分割工作的难度之高,其发展也一直处处受限。在SAM出现之前,CV领域针对图像分割一般有两种方法:1)交互式分割:允许分割任何类别的对象,但需要通过人工来迭代细化掩膜; 2)自动分割:允许分割提前定义的特定对象类别,但需要借助大量的手动注释对象来进行训练。可以看到,以上两种方法都没有提供一种通用且全自动的分割方法。但是,SAM很好地融合了这两种分割方法,可以轻松地执行交互式分割和自动分割。最为重要的是,该模型已经学会了关于物体的一般概念,即使遇到没有训练过的图像类型,也可以在新的图像领域实现分割效果,而无需再进行额外的训练。我们认为,SAM模型这种“零样本迁移”能力将为机器视觉、自动驾驶、VR/AR等视觉识别领域带来黄金发展机遇。 图表4:计算机视觉四大核心任务——分类、定位、检测、分割 图表5:SAM模型融合交互式分割和自动分割 二、计算机视觉领域的“GPT-3时刻”之一 算法为机器视觉的“大脑”。机器视觉具有识别、定位、测量、检测四大功能,相比人类视觉优势显著。算法能实现图像分割、特征提取、图像增强等功能,是工业机器视觉的大脑。 图表6:机器视觉产业图谱 随着人们工作、生活智能化的不断推进,作为智能化承载者摄像头,充当起了非常重要的“眼”的作用。在完成图像和视频拍摄后,通过数据学习,通过对大量不同类型、尺寸、大小的样本进行深度学习,能够在各种环境下智能识别出物体,即使图像中的物体可能千变万化(大小、尺寸不同,位置、空间不同,整体、局部不同等)。希望随识别技术能全面、自动地检测出当前环境并分析出是何物、何时、何地。比如图片拍摄的对象是人物、宠物还是其他事物;拍摄的场景是海滩、雪景还是乡村环境;拍摄时间是白天还是夜晚这样的具体时间等等。当识别足够精准且快速后,用户可以在它被拍摄的环境下更容易地查找和索引具体内容。 图表7:图像中对象识别 图表8:图像中环境识别 SAM赋能,机器视觉加速渗透率。国内厂商多基于OpenCV等开发工具包进行二次开发,而SAM的出现减少了针对图像分割所需要的专业建模技能、训练计算和定制数据标注,同时大幅缩短分割和标注的时间,将大幅推动机器视觉在表面缺陷检测、标签检查、检测分选等领域的发展。同时传统计算机视觉系统一般是通过二维的图像来认识世界,但实际上三维视觉才是人类感知、理解世界的正确方式。最近几年,随着双摄头技术、消费级深度相机在手机、平板电脑等移动设备的快速普及,以三维视觉为基础技术越来越成为视觉领域的核心竞争力,而通过SAM及其衍生模型,有望快速丰富下游行业覆盖场景。 图表9:机器视觉算法概览 三、SAM及其衍生模型,有望快速深度赋能行业应用 1)传统消费电子领域 苹果设备通过硬件上长焦相机、广角相机、3D结构光及DTOF Sensor等技术已快速布局图像识别及图像处理领域,现今可以完成如人脸解锁,3D空间扫描,视频动态捕捉等基础拍摄功能,在后处理端可以对拍摄文字进行提取编辑,捕捉拍摄图片中特定对象进行提取编辑等功能。 图表10:IPADPro搭配长焦、广角、激光雷达扫描镜头 图表11:IPADPro现实增强功能 AIoT设备同样具备基于图像及空间识别检测来提供库存支付管理,环境检测、避障等功能,如智慧零售支付设备、家居AIoT设备、无人机设备等。从简单的算法代码驱动逐渐成为视觉自适应驱动,检测处理更多应用场景。 图表12:智慧零售支付应用 图表13:服务机器人识别环境物体 2)AR/VR领域 降本增效,SAM赋能AR/VR产业与AI技术有机结合。AR/VR是用微型显示器把虚拟场景呈现出来,在增强现实中,将虚拟信息和真实世界叠加在在一起,VR技术给予用户一种在虚拟世界中完全沉浸的效果,是另外创造一个世界,AR技术则把计算机带入到用户的真实世界中,通过听、看、摸、闻虚拟信息,来增强对现实世界的感知,AR体验开发的一个关键要素是实体识别,识别用户周围世界中的不同物体,以提供叠加在屏幕上的额外功能洞察力。二者都需利用外设实现,且涉及图像处理与生成。 图表14:VR/AR成像原理示意图 AR/VR领域通过头戴设备硬件集成摄像头及ToFSensor等,来实现定位追踪,全彩透视等功能,未来可以根据算法模型不断学习迭代,真正实现设备端的虚拟现实结合应用。 SAM可根据用户的目光选择对象,将其提升到3D中,根据AR/VR设备传来的用户视觉焦点信息,可以从视野图像中切割出物体锁定对象,进行后续交互操作,使人机交互过程更加智能化,在SAM赋能下,XR(拓展现实,包括AR、VR、MR多种形式)具备通过图像理解现实的能力,内容制作成本大幅降低,使用场景增加,有望助力XR产业和AI技术有机结合,行业发展迎来新动力。 图表15:PICO全彩透视功能 图表16:AR移动办公虚拟现实结合 3)安防领域 安防领域的智能算法均需要大量数据集进行标注和训练,在SAM的帮助下,标注和训练成本将大大降低,搭配高算力能最快速度地对某个应用场景进行学习,助力应用新市场不断打开,从传统领域延伸至人们生产生活的方方面面,覆盖范围更广泛,安防也走向更多行业,应用更加普遍,如金融、教育、交通、园区、社区、企业管理等。 图表17:大华股份安防业务布局 在安防领域特定场景下会有难以覆盖及训练成本较高等情况,通过开源模型,可以快速进行技术迭代及应用通用化,结合制造业及下游领域专用图像类数据训练,有望带动安防领域公司精准快速的服务下游客户及特定行业。 图表18:煤矿行业场景下成品运输段视觉识别 图表19:钢铁冶炼AI视觉识别 4)汽车智能化领域 图像分割精度是决定自动驾驶效果的重要因素,SAM助力实现高精度处理。汽车自动驾驶技术通过摄像头、毫米波雷达、超声波雷达和激光雷达等多种传感器来感知车辆外部信息,并通过高精度地图对前方道路进行导航,通过域控制器处理汽车收集的数据并输出执行命令,因此采集的图片、视频等信息的精确度显得尤为重要。 图表20:自动驾驶汽车所需传感器 在汽车智能化领域,现有场景下有利于帮助车辆更好的理解人,道路,车内外环境等因素。未来随视觉模型的进一步训练或衍生模型的催生基础上,通过专用数据的定制化升级,预计可以大幅改善现有图像分割技术在自动驾驶领域的缺陷,通过摄像头等视角更高效地完成路面情况的图像分割,提升路面情况判断精确度,为智能驾驶中图像分割问题的解决提供新思路。 在智能座舱方面,通过对驾驶人、乘车人状态,位置,环境等识别将有效的进行驾驶体验及交互干预等功能的升级。我们认为,以SAM模型为组成部分的AI系统可有效的提升智能驾驶及智能交互等一些车载应用体验。 图表21:智能驾驶识别 图表22:智能交互 四、投资建议 建议关注: 芯片端:韦尔股份,龙迅股份,晶方科技,富瀚微,思特威,格科微;