事项: 4 月 5 日,Meta 发布机器视觉领域首个用于图像分割的通用大模型 Segment Anything Model(SAM)及其训练数据集 Segment Anything 1-Billion(SA-1B),并将该模型及数据集在 GitHub 上开源,以促进机器视觉通用基础大模型的进一步研究。 国信传媒观点:1)SAM 是计算机视觉领域发布第一个用于图像分割的、可通过提示(prompt)方式应用的通用大模型,类似自然语言领域(NLP)中的大模型 ChatGPT;2)从模型框架上看,该模型和 NLP 领域大模型一样采用 Transformer 架构,该模型及其数据集开源发布将会大幅促进机器视觉通用基础大模型的进一步研究。SAM 可以与 NLP 方向的大模型一同成为更大 AI 系统的组成部分,理解网页的视觉和文本内容,并对世界进行多模态的理解与生成;3)从应用场景上来看,SAM 可用于帮助需要在任何图像中查找和分割对象的众多领域中的应用程序;对于内容创作者,SAM 可以改进创意应用,例如提取图像区域以进行拼贴或视频编辑;在 AR/VR 领域,SAM 可以根据用户的视线选择对象,然后将其“提升”为 3D 等等; 我们认为,从 ChatGPT 到 SAM、从文本到视觉,大模型技术有望实现从单一模态到多模态的加速推进。从文本生成到图像、视频、游戏、VR/AR 内容及平台有望迎来基于新科技“降本增效”所带来的奇点时刻,IP、内容(影视、游戏、文学等)、数据资源价值有望持续重估放大:1)持续推荐 AIGC 时代具备稀缺性或者价值放大可能的关键产业链环节,推荐大模型、IP、数据要素及稀缺场景,大模型推荐昆仑万维,IP推荐中文在线、视觉中国、上海电影、汤姆猫、奥飞娱乐、华策影视、光线传媒等标的,数据要素推荐浙数文化、中国科传、新华网、人民网以及出版板块,场景落地关注 AI+文学、音乐、数字人、营销服务、电商、视频、游戏等领域;2)持续看好估值处于合理区间的游戏板块(推荐恺英网络、姚记科技、三七互娱、吉比特、世纪华通等标的)以及广告/影视产业链个股(芒果超媒、光线传媒、哔哩哔哩等标的)。 风险提示:监管政策风险;业绩风险;商誉及资产减值风险等。 评论: Meta 发布并开源图像分割基础大模型 SAM 4 月 5 日,Meta 发布机器视觉领域首个用于图像分割的通用大模型 Segment Anything Model(SAM)及其训练数据集 Segment Anything 1-Billion(SA-1B),并将该模型及数据集在 GitHub 上开源,以促进机器视觉通用基础大模型的进一步研究。 图1:Meta AI 发布 SAM 是机器视觉领域第一个基础大模型,泛化通用能力大幅增强。识别图片中哪些像素属于同一个物体是计算机视觉(CV)的一个核心问题,相关技术被广泛应用在从科学研究、自动驾驶和图片编辑等各种领域。 从机器视觉领域模型来看,过往机器视觉领域模型大部分为特定任务构建,需要技术专家进行高度专业化工作,和大量特定任务领域内的标注数据。SAM 是计算机视觉领域发布第一个用于图像分割的、可通过提示(prompt)方式应用的通用大模型,与自然语言领域(NLP)中的大模型 ChatGPT 类似。 从图形分割方式来看,过往解决图像中物体分割主要有两类方法:1)交互式分割,可分割任何类别的对象,但需要人不断迭代细化掩码来引导分割;2)自动分割,可分割图像中提前定义、训练好的特定对象类别,譬如可分割图片中的猫这一物体类别,但在实现这种自动分割前需要先通过监督式机器学习的方法训练出一个能够识别猫的模型,而一个仅能识别猫的模型仍需要数千甚至数万手动标注好分割猫的训练集作为数据来训练该模型。这两种方法都没有提供通用的全自动的分割方法。SAM 将以上两种方式相结合,可以通过单一模型和可提示的(Promptable)界面以灵活的方式完成广泛的分割任务。同时 SAM 在包含 10亿个掩码的多样化、高质量数据集上训练,使其能够泛化到新类型的类型和图像,从业者将不再需要收集他们自己的细分数据并为他们的用例微调模型。 从 SAM 目前所具备的能力来看,根据 Meta 披露的信息,SAM 已经学会了关于物体的一般概念,可以为任何图像或者视频中的对象生成掩码(mask),甚至包括它在训练期间没有遇到的对象和图像类型,SAM 的通用性可以涵盖广泛的用例,即使应用在新的图像领域,譬如水下照片和细胞显微镜,也不需额外训练,实现了零样本迁移能力,泛化通用能力大幅增强。 图2:SAM 分割图像前的厨房照片 图3:SAM 能够准确分割厨房图片中的每样物体 图4:SAM 分割图像前的水下照片 图5:SAM 能够准确分割水下图像的每个生物 Prompt 范式延展到机器视觉领域,图像分割交互应用方式灵活。受自然语言处理中 prompt 方式启发,SAM也采用 prompt 的交互方式。当前 SAM 的 prompt 交互方式主要有 4 种:1)用户通过单击或交互式单击点来选定需要分割的物体;2)SAM 可自动分割图像中所有物体;3)SAM 可通过用户输入提示词分割图像中物体;4)SAM 可通过用户随意画框分割框内包含的物体。同时 SAM 在面对可分割对象歧义时能够输出多个有效掩码,这项能力能够灵活助力解决现实世界中可能面临的问题。 图6:用户通过单击或单击点选定分割物体 图7:SAM 自动分割图像中所有物体 图8:SAM 通过用户输入提示词分割图像中物体 图9:SAM 通过用户随意画框分割框内出现物体 图10:SAM 在面对可分割对象歧义时能够输出多个有效掩码 机器视觉基础大模型及其训练数据集开源发布,多模态 AI 发展或更进一步。Meta AI 发布机器视觉领域首个用于图像分割的通用大模型 Segment Anything Model(SAM)及其训练数据集 Segment Anything 1-Billion(SA-1B),并将该模型及数据集在 GitHub 上开源。从模型框架上看,该模型和 NLP 领域大模型一样采用Transformer 架构。SAM 采用 256 块英伟达 A100 GPU 训练 3-5 天完成。对于 AI 研究社区来说,该模型及其数据集开源发布将会大幅促进机器视觉通用基础大模型的进一步研究。SAM 可以与 NLP 方向的大模型一同成为更大 AI 系统的组成部分,理解网页的视觉和文本内容,并对世界进行多模态的理解。 图11:SAM 模型架构 SAM 模型未来应用前景广泛。SAM 可能的应用场景包括:1)SAM 可用于帮助需要在任何图像中查找和分割对象的众多领域中的应用程序;2)对于内容创作者,SAM 可以改进创意应用,例如提取图像区域以进行拼贴或视频编辑;3)在科学领域,SAM 可用于对自燃事件进行科学研究;4)在 AR/VR 领域,SAM 可以根据用户的视线选择对象,然后将其“提升”为 3D;等等。 图12:在 AR/VR 中 SAM 可以根据用户视线选择对象 图13:SAM 可将图像中物体提升为“3D”用于创意任务 投资建议:从生产力到商业化应用,基于科技及产业视角聚焦传媒互联网关键环节核心标的 从 ChatGPT 到 SAM、从文本到视觉,大模型技术有望实现从单一模态到多模态的加速推进。从文本生成到图像、视频、游戏、VR/AR 内容及平台有望迎来基于新科技“降本增效”所带来的奇点时刻,IP、内容(影视、游戏、文学等)、数据资源价值有望持续重估放大:1)持续推荐 AIGC 时代具备稀缺性或者价值放大可能的关键产业链环节,推荐大模型、IP、数据要素及稀缺场景,大模型推荐昆仑万维,IP 推荐中文在线、视觉中国、上海电影、汤姆猫、奥飞娱乐、华策影视、光线传媒等标的,数据要素推荐浙数文化、中国科传、新华网、人民网以及出版板块,场景落地关注 AI+文学、音乐、数字人、营销服务、电商、视频、游戏等领域;2)持续看好估值处于合理区间的游戏板块(推荐恺英网络、姚记科技、三七互娱、吉比特、世纪华通等标的)以及广告/影视产业链个股(芒果超媒、光线传媒、哔哩哔哩等标的)。 表1:重点公司盈余预测与评级