行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AIGC行业快评：Meta发布视觉大模型SAM，持续看好内容与应用产业机遇

信息技术 2023-04-12 张衡国信证券后知后觉

发现报告（www.fxbaogao.com）是金融圈都在用的专业研报平台，用户量特别大。我们致力于提供最全的研报数据，不管是宏观经济还是具体公司的财报，这里应有尽有，报告多到您看不完。凭借先进的技术和简洁的页面，我们帮您省去了大量筛选的时间，让获取关键信息变得轻而易举，绝对是您投资路上的好帮手。

Meta于4月5日发布了机器视觉领域首个用于图像分割的通用大模型——Segment Anything Model (SAM)及其训练数据集Segment Anything 1-Billion (SA-1B)，并将之开源，以促进机器视觉领域的研究。SAM是首个通过提示(prompt)方式应用的通用图像分割大模型，与自然语言处理领域的ChatGPT相似，其架构基于Transformer，已在包含10亿个掩码的多样化、高质量数据集上训练，展现出强大的泛化能力。

关键点总结：

模型创新：SAM是机器视觉领域的首个通用大模型，通过提示方式应用于图像分割，具备与自然语言处理领域大模型类似的灵活性和泛用性。
模型架构与训练：采用Transformer架构，经过256块英伟达A100 GPU的训练，耗时3-5天完成，展示了高效的学习能力和适应性。
应用场景广泛：适用于多种领域，如辅助图像中对象的查找和分割、改善内容创作（如拼贴或视频编辑）、科学研究、AR/VR领域的人工智能交互等。
多模态AI发展：SAM及其数据集的开源发布，促进了机器视觉领域通用基础大模型的研究，与自然语言处理的大模型一起构成更大规模的AI系统，实现对世界多模态的理解。
投资建议：从ChatGPT到SAM的转变，预示着从单一模态到多模态的加速发展，推动IP、内容、数据资源的价值重估。建议关注大模型、IP、数据要素及特定场景的公司，如昆仑万维、中文在线、视觉中国、上海电影等，并看好游戏、广告/影视板块的估值合理区间内的投资机会。

风险提示：

监管政策风险：政策变动可能影响技术应用和市场预期。
业绩风险：公司的实际表现可能与预期有差距。
商誉及资产减值风险：资产评估和商誉管理存在不确定性。

事项： 4 月 5 日，Meta 发布机器视觉领域首个用于图像分割的通用大模型 Segment Anything Model（SAM）及其训练数据集 Segment Anything 1-Billion（SA-1B），并将该模型及数据集在 GitHub 上开源，以促进机器视觉通用基础大模型的进一步研究。国信传媒观点：1）SAM 是计算机视觉领域发布第一个用于图像分割的、可通过提示（prompt）方式应用的通用大模型，类似自然语言领域（NLP）中的大模型 ChatGPT；2）从模型框架上看，该模型和 NLP 领域大模型一样采用 Transformer 架构，该模型及其数据集开源发布将会大幅促进机器视觉通用基础大模型的进一步研究。SAM 可以与 NLP 方向的大模型一同成为更大 AI 系统的组成部分，理解网页的视觉和文本内容，并对世界进行多模态的理解与生成；3）从应用场景上来看，SAM 可用于帮助需要在任何图像中查找和分割对象的众多领域中的应用程序；对于内容创作者，SAM 可以改进创意应用，例如提取图像区域以进行拼贴或视频编辑；在 AR/VR 领域，SAM 可以根据用户的视线选择对象，然后将其“提升”为 3D 等等；我们认为，从 ChatGPT 到 SAM、从文本到视觉，大模型技术有望实现从单一模态到多模态的加速推进。从文本生成到图像、视频、游戏、VR/AR 内容及平台有望迎来基于新科技“降本增效”所带来的奇点时刻，IP、内容（影视、游戏、文学等）、数据资源价值有望持续重估放大：1）持续推荐 AIGC 时代具备稀缺性或者价值放大可能的关键产业链环节，推荐大模型、IP、数据要素及稀缺场景，大模型推荐昆仑万维，IP推荐中文在线、视觉中国、上海电影、汤姆猫、奥飞娱乐、华策影视、光线传媒等标的，数据要素推荐浙数文化、中国科传、新华网、人民网以及出版板块，场景落地关注 AI+文学、音乐、数字人、营销服务、电商、视频、游戏等领域；2）持续看好估值处于合理区间的游戏板块（推荐恺英网络、姚记科技、三七互娱、吉比特、世纪华通等标的）以及广告/影视产业链个股（芒果超媒、光线传媒、哔哩哔哩等标的）。风险提示：监管政策风险；业绩风险；商誉及资产减值风险等。评论： Meta 发布并开源图像分割基础大模型 SAM 4 月 5 日，Meta 发布机器视觉领域首个用于图像分割的通用大模型 Segment Anything Model（SAM）及其训练数据集 Segment Anything 1-Billion（SA-1B），并将该模型及数据集在 GitHub 上开源，以促进机器视觉通用基础大模型的进一步研究。图1：Meta AI 发布 SAM 是机器视觉领域第一个基础大模型，泛化通用能力大幅增强。识别图片中哪些像素属于同一个物体是计算机视觉（CV）的一个核心问题，相关技术被广泛应用在从科学研究、自动驾驶和图片编辑等各种领域。从机器视觉领域模型来看，过往机器视觉领域模型大部分为特定任务构建，需要技术专家进行高度专业化工作，和大量特定任务领域内的标注数据。SAM 是计算机视觉领域发布第一个用于图像分割的、可通过提示（prompt）方式应用的通用大模型，与自然语言领域（NLP）中的大模型 ChatGPT 类似。从图形分割方式来看，过往解决图像中物体分割主要有两类方法：1）交互式分割，可分割任何类别的对象，但需要人不断迭代细化掩码来引导分割；2）自动分割，可分割图像中提前定义、训练好的特定对象类别，譬如可分割图片中的猫这一物体类别，但在实现这种自动分割前需要先通过监督式机器学习的方法训练出一个能够识别猫的模型，而一个仅能识别猫的模型仍需要数千甚至数万手动标注好分割猫的训练集作为数据来训练该模型。这两种方法都没有提供通用的全自动的分割方法。SAM 将以上两种方式相结合，可以通过单一模型和可提示的（Promptable）界面以灵活的方式完成广泛的分割任务。同时 SAM 在包含 10亿个掩码的多样化、高质量数据集上训练，使其能够泛化到新类型的类型和图像，从业者将不再需要收集他们自己的细分数据并为他们的用例微调模型。从 SAM 目前所具备的能力来看，根据 Meta 披露的信息，SAM 已经学会了关于物体的一般概念，可以为任何图像或者视频中的对象生成掩码（mask），甚至包括它在训练期间没有遇到的对象和图像类型，SAM 的通用性可以涵盖广泛的用例，即使应用在新的图像领域，譬如水下照片和细胞显微镜，也不需额外训练，实现了零样本迁移能力，泛化通用能力大幅增强。图2：SAM 分割图像前的厨房照片图3：SAM 能够准确分割厨房图片中的每样物体图4：SAM 分割图像前的水下照片图5：SAM 能够准确分割水下图像的每个生物 Prompt 范式延展到机器视觉领域，图像分割交互应用方式灵活。受自然语言处理中 prompt 方式启发，SAM也采用 prompt 的交互方式。当前 SAM 的 prompt 交互方式主要有 4 种：1）用户通过单击或交互式单击点来选定需要分割的物体；2）SAM 可自动分割图像中所有物体；3）SAM 可通过用户输入提示词分割图像中物体；4）SAM 可通过用户随意画框分割框内包含的物体。同时 SAM 在面对可分割对象歧义时能够输出多个有效掩码，这项能力能够灵活助力解决现实世界中可能面临的问题。图6：用户通过单击或单击点选定分割物体图7：SAM 自动分割图像中所有物体图8：SAM 通过用户输入提示词分割图像中物体图9：SAM 通过用户随意画框分割框内出现物体图10：SAM 在面对可分割对象歧义时能够输出多个有效掩码机器视觉基础大模型及其训练数据集开源发布，多模态 AI 发展或更进一步。Meta AI 发布机器视觉领域首个用于图像分割的通用大模型 Segment Anything Model（SAM）及其训练数据集 Segment Anything 1-Billion（SA-1B），并将该模型及数据集在 GitHub 上开源。从模型框架上看，该模型和 NLP 领域大模型一样采用Transformer 架构。SAM 采用 256 块英伟达 A100 GPU 训练 3-5 天完成。对于 AI 研究社区来说，该模型及其数据集开源发布将会大幅促进机器视觉通用基础大模型的进一步研究。SAM 可以与 NLP 方向的大模型一同成为更大 AI 系统的组成部分，理解网页的视觉和文本内容，并对世界进行多模态的理解。图11：SAM 模型架构 SAM 模型未来应用前景广泛。SAM 可能的应用场景包括：1）SAM 可用于帮助需要在任何图像中查找和分割对象的众多领域中的应用程序；2）对于内容创作者，SAM 可以改进创意应用，例如提取图像区域以进行拼贴或视频编辑；3）在科学领域，SAM 可用于对自燃事件进行科学研究；4）在 AR/VR 领域，SAM 可以根据用户的视线选择对象，然后将其“提升”为 3D；等等。图12：在 AR/VR 中 SAM 可以根据用户视线选择对象图13：SAM 可将图像中物体提升为“3D”用于创意任务投资建议：从生产力到商业化应用，基于科技及产业视角聚焦传媒互联网关键环节核心标的从 ChatGPT 到 SAM、从文本到视觉，大模型技术有望实现从单一模态到多模态的加速推进。从文本生成到图像、视频、游戏、VR/AR 内容及平台有望迎来基于新科技“降本增效”所带来的奇点时刻，IP、内容（影视、游戏、文学等）、数据资源价值有望持续重估放大：1）持续推荐 AIGC 时代具备稀缺性或者价值放大可能的关键产业链环节，推荐大模型、IP、数据要素及稀缺场景，大模型推荐昆仑万维，IP 推荐中文在线、视觉中国、上海电影、汤姆猫、奥飞娱乐、华策影视、光线传媒等标的，数据要素推荐浙数文化、中国科传、新华网、人民网以及出版板块，场景落地关注 AI+文学、音乐、数字人、营销服务、电商、视频、游戏等领域；2）持续看好估值处于合理区间的游戏板块（推荐恺英网络、姚记科技、三七互娱、吉比特、世纪华通等标的）以及广告/影视产业链个股（芒果超媒、光线传媒、哔哩哔哩等标的）。表1：重点公司盈余预测与评级

点击免费查看完整报告

AIGC行业快评：Meta发布视觉大模型SAM，持续看好内容与应用产业机遇

你可能感兴趣

传媒互联网周报：国内外大模型持续发布，持续看好AIGC产业机遇

与苹果、Meta MR竞争，又一新款AR产品发布，机构称AR MR并进有望开启3D空间生态新纪元，这家企业积极探索AIGC在3D数字内容生成领域应用

传媒互联网周报：苹果或将于6月推出AI应用商店、Jamba大模型发布，持续看好AIGC产业机会

AIGC行业快评：《生成式人工智能服务管理办法（征求意见稿）》发布，IP内容价值有望持续放大

计算机行业点评报告：Meta发布SAM模型，视觉CV迎来重大变化

传媒行业业绩回顾暨6月投资策略：应用有望加速落地，持续看好AIGC产业机遇

传媒互联网周报：持续看好AIGC产业浪潮，关注国内大模型及应用端落地进度

传媒互联网产业行业研究：NVIDIA展示AIGC领域创新成果，看好AI应用/内容涌现

AIGC行业快评：GPT-4、文心一言陆续发布，场景落地逐步成为AIGC产业核心

Meta发布SAM点评：Meta发布SAM，看好多模态解决方案产业链