AI智能总结
遥感大模型:综述与未来设想 张帅豪1,2,潘志刚1(1.中国科学院空天信息创新研究院,北京100190;2.中国科学院大学,北京100049) 摘 要:深 度 学 习 极 大 地 推 动 了 遥 感 图 像 处 理 技 术 的 发 展,在 精 度 和 速 度 方 面 展 现 了 显 著 优 势。然而,深 度 学 习 模 型 在 实 际 应 用 中 通 常 需 要 大 量 人 工 标 注 的 训 练 样 本,且 其 泛 化 性 能 相 对 较 弱。近年来,视觉基础模型和大语言模型的发展为遥感图像处理的大模型研究引入了新的范式。遥感大模 型 也 称 为 遥 感 基 础 模 型,基 础 模 型 因 其 在 下 游 任 务 中 的 卓 越 迁 移 性 能 而 备 受 瞩 目,这 些 模 型 首先在大型数据集上进行与具体任务无关的预训练,然后通过微调适应各种下游应用。基础模型在语 言 和 视 觉 及 其 他 领 域 已 经 得 到 了 广 泛 应 用,其 在 遥 感 领 域 的 潜 力 也 正 逐 渐 引 起 学 术 界 的 重 视。然而,目前针对这些模型在遥感任务中的全面调查和性能比较仍然缺乏。由于自然图像与遥感图像 之 间 存 在 固 有 差 异,这 些 差 异 限 制 了 基 础 模 型 的 直 接 应 用。在 此 背 景 下,本 文 从 多 个 角 度 对 常见 的 基 础 模 型 以 及 专 门 针 对 遥 感 领 域 的 大 模 型 进 行 了 全 面 回 顾,概 述 了 最 新 进 展,突 出 了 面 临 的挑战,并探讨了未来发展的潜在方向。 关键词:遥感基础模型;微调;下游任务;预训练 中图分类号:TP75文献标志码:A文章编号:1004⁃0323(2025)01-0001-13 感 器 影 像 的 标 注 数 据 非 常 稀 缺。近 年 来,基 础 模 型(Foundation Models,FMs)在 视 觉 和 语 言 理 解 任 务中 展 现 出 卓 越 的 通 用 性,代 表 性 实 例 包 括ChatG⁃PT[3]、Gemini[4]和CLIP[5]。FMs在 视 觉 任 务 中 展 现出 巨 大 潜 力 的 原 因 主 要 包 括 以 下3个 方 面:数 据 和模 型 规 模、学 习 策 略 和 适 应 性。具 体 而 言,大 规 模数据和模型使FMs能够捕捉数据中的复杂信息,从而 生 成 更 具 代 表 性 的 特 征。在 学 习 策 略 方 面,FMs通 过 自 监 督 或 半 监 督 学 习,利 用 多 模 态 数 据(包 括文 本、图 像、音 频 和 视 频)进 行 训 练,减 少 了 对 人 工标注的依赖,显著减轻了标注工作的负担。FMs通常 可 以 通 过 增 加 少 量 与 任 务 相 关 的 特 定 数 据 或 参数,适 应 或 微 调 以 满 足 各 种 下 游 任 务 或 领 域 的需求[6]。 1引言 随 着 遥 感 对 地 观 测 和 人 工 智 能 技 术 的 迅 猛 发展,我 们 正 进 入 一 个 遥 感 大 数 据 与 人 工 智 能 相 互 融合 的 时 代。高 分 辨 率 遥 感 图 像 在 资 源 勘 探、环 境 监测、精 准 农 业 和 军 事 侦 察 等 领 域 的 应 用 已 变 得 越 来越广泛[1,2]。在这些应用中,目标检测、语义分割、场景 分 类 和 变 化 检 测 等 遥 感 视 觉 任 务 构 成 了 这 些 研究 任 务 的 基 本 前 提 和 核 心 支 撑。深 度 神 经 网 络(DNNs)凭 借 丰 富 的 标 注 数 据 和 强 大 的GPU计 算能 力,显 著 提 升 了 遥 感 视 觉 任 务 的 准 确 性。然 而,DNNs在 满 足 遥 感 应 用 需 求 方 面 仍 存 在 诸 多 不 足。一 方 面,DNNs的 性 能 通 常 受 到 耗 时 费 力 的 标 注 过程 和 单 一 任 务 限 制 的 影 响(例 如,每 个 视 觉 识 别 任务通常需要单独训练一个DNN);另一方面,特定传 基 础 模 型 已 成 为 遥 感 领 域 的 研 究 热 点,并 在 遥感 视 觉 任 务 中 展 现 了 巨 大 的 应 用 潜 力。然 而,遥 感图 像 与 自 然 图 像 在 本 质 上 存 在 显 著 差 异,这 限 制 了FMs在 遥 感 图 像 中 的 直 接 应 用[7]。因 此,亟 需 开 发专 门 针 对 遥 感 领 域 的 基 础 模 型,并 需 充 分 考 虑 跨 领域 的 通 用 技 术 以 及 遥 感 图 像 的 固 有 特 征。在 此 背景 下,本 文 旨 在 对 常 见 的 基 础 模 型 和 领 域 特 定 的 遥感 基 础 模 型 进 行 全 面 综 述。首 先,回 顾 基 础 模 型 的基 本 原 理 和 常 用 技 术,接 着 探 讨 基 础 模 型 在 遥 感 领域 的 特 定 技 术,最 后 总 结 这 些 模 型 的 局 限 性,并 展望未来的研究方向。 各 种 下 游 任 务 的 骨 干 网 络,通 常 在 庞 大 且 多 样 化 的数 据 集 上 进 行 训 练,以 捕 捉 通 用 的 视 觉 特 征。基 础模 型 的 一 个 显 著 优 势 在 于 其 强 大 的 表 示 学 习 能 力,能够在不同任务之间很好地泛化。 基 础 模 型 的 关 键 技 术 包 括 模 型 结 构、学 习 算 法和 微 调。图1展 示 了FMs在 通 用 视 觉 任 务 和 遥 感图 像 应 用 中 的 流 程 图,描 述 了 其 实 际 的 应 用 过 程。作 为 特 征 学 习 的 核 心 骨 干 网 络,基 础 模 型 通 常 可 通过 微 调 或 使 用 适 配 器 技 术 来 适 应 不 同 的 领 域 或 下游 任 务。除 了 传 统 的 视 觉 基 础 模 型 和 视 觉-语 言 基础 模 型 之 外,近 年 来 一 些 研 究 还 专 注 于 开 发 基 于 视觉 提 示 的 大 规 模 基 础 模 型,例 如Segment AnythingModel(SAM)[8]。为了全面介绍遥感图像应用在视觉 基 础 模 型 方 面 的 最 新 进 展,本 文 重 点 探 讨 了 视 觉基础模型、视觉—语言基础模型。 2基础模型介绍 2.1基础模型原理与关键技术 基 础 模 型 是 一 种 预 训 练 的 深 度 神 经 网 络,作 为 进 行 应 用 层 归 一 化,在 每 个 区 块 之 后 应 用 残 差 连接。同时在序列中添加额外的可学习的嵌入向量。 2.2视觉基础模型 视 觉 模 型 的 数 据 难 以 获 取,不 同 的 数 据 源 有 不同 的 结 构,拥 有 同 样 规 模 和 多 样 性 的 数 据 源 非 常 困难。常 见 的 视 觉 大 模 型 包 括 将 标 准 的Transformer结构直接应用于图像的基础视觉大模型,如ViT[9]、Swin-T[10]、CoAtNet[11]等,典型的视觉大模型如表2所示。 Swin-T[10]针对Transformer在计算机视觉领域应 用 存 在 视 觉 实 体 的 方 差 较 大,图 片 分 辨 率 高 的 两个 问 题,提 出 了 一 种 基 于 滑 动 窗 口 机 制、具 有 层 级设 计 即 下 采 样 层 的 网 络 结 构。通 过 结 构 的 改 进,Swin-T在 视 觉 任 务 上 取 得 了 更 优 的 性 能,并 成 为了计算机视觉领域通用的骨干结构。 ViT结 构 如 图2所 示;对 于ViT模 型[9],首 先 将图 像 分 割 成 固 定 大 小 的patch,对 每 个patch进 行 线性 嵌 入,同 时 添 加 位 置 编 码,然 后 将 得 到 的 向 量 序列 送 入Transformer Encoder,Transformer Encoder由多头自注意和MLP交替组成。在每个block之前 CoAtNet[11]针 对Transformer具 有 更 强 的 模 型能 力,但 缺 乏 归 纳 偏 置 特 性 的 现 状,试 图 结 合 二 者的 长 处。通 过 简 单 的 相 对 注 意 力 将 深 度 卷 积 和 自注 意 力 自 然 统 一,通 过 垂 直 摆 放 卷 积 层 和 注 意 力 层 视 觉 — 文 本 对 齐 步 骤,ALBEF适 应 于 目 标 识 别、图像 描 述 等 多 种 视 觉 — 语 言 任 务。BLIP[14]增 加 了 文本 编 码 器,实 现 了 图 像 理 解、多 模 态 融 合 和 语 言 生成,这使得BLIP特别适合执行图像描述任务。Fla⁃mingo[15]使 用NormalizerFree ResNet学 习 视 觉 特征、Transformer解 码 器 生 成 文 本,通 过 交 叉 注 意 力机 制 实 现 深 入 的 图 文 融 合。Flamingo增 加 了 感 知器 重 采 样 模 块,可 以 接 受 任 意 交 错 的 图 文 数 据 作 为输 入,具 有 快 速 适 应 视 觉 问 答 等 开 放 式 任 务 的 能力。LLaVA[16]利 用CLIP视 觉 编 码 器 和Vicuna大型 语 言 模 型,通 过 增 强 的 多 模 态 交 叉 注 意 力 层,使模 型 能 够 在 视 觉 和 语 言 间 进 行 深 度 信 息 交 换,这 种方 式 使 其 能 够 执 行 高 级 图 像 理 解 和 语 言 生 成 任 务,如 图 像 描 述、多 模 态 问 答 和 目 标 识 别。Kosmos1[17]基 于MAGNETO对 齐 感 知 和 语 言 模 型,融 合 多 模态数据特征,利用xPos相对位置编码更好地进行长上 下 文 建 模,主 要 针 对 语 言 处 理 任 务。表3总 结 了一些具有代表性的视觉—语言基础模型。 提升泛化性能和效率。CoAtNet解决了如何将卷积和 自 注 意 力 结 合 在 一 个 计 算 模 块 内,并 将 不 同 类 别的 计 算 模 型 垂 直 堆 叠 在 一 起,形 成 一 个 完 整 的 网 络的问题,模型在多个数据集上有最佳的表现。 2.3视觉—语言基础模型 视 觉 — 语 言 基 础 模 型 是 视 觉 模 型 和 自 然 语 言模 型 的 结 合。视 觉 模 型 从 图 像 中 捕 捉 视 觉 特 征,而语 言 模 型 从 文 本 中 获 取 编 码 信 息。CLIP[5]模 型 被广 泛 应 用 视 觉 — 语 言 基 础 模 型 当 中,CLIP模 型 如图3所示。给定N个图片—文件对,图片输入给Im⁃age Encoder得 到 特 征I1、I2、I3...IN,文 本 输 入 给TextEncoder得 到 特 征T1、T2、T3...TN。定 义(Ij,Tj)为 正样 本,其 它 属 于 副 样 本,通 过 训 练 使 得 最 大 化N个正 样 本 的 余 弦 相 似 度,最 小 化N个 负 样 本 的 余 弦 相似 度 来 做 零 样 本 迁 移。通 过 充 分 学 习 多 模 态 信 息,视 觉 — 语 言 大 模 型 能 够 以“Zero-Shot”或“FewS⁃hot”的方式直接应用于图像—语言任务。常见的视觉 — 语 言 基 础 模 型 包 括 以 下 几 种:CLIP[5]、mPLUG-owl[12]、ALBEF[13]、BLIP[14]、Flamingo[15]、LLaVA[16]、Kosmos1[17]等。其 中,CLIP[5]通 过Transformer表 示 文 本 特 征,通 过ResNets和ViT表示 图 片 特 征 并 在 图 片 — 文 本 对 上 训 练,学 习 得 到 一个 从 视