收藏
加入书签

添加成功

收藏成功

RSMT-GNN 框架的城市少样本语义变化检测研究

徐璐张宇杰顾心怡张尧史新宇

南京科技职业学院江苏南京 210044

摘要：随着国产高分卫星星座、无人机测绘和空- 天地一体化观测体系的不断完善，高分辨率遥感影像呈指数级增长，为城市精细化管理和生态环境监测提供了前所未有的数据条件。然而，面对“语义层面需更精细区分、标注样本数量有限、场景尺度多变、涉及多主体关系”等难题，现有的变化检测方法还无法充分满足复杂城市环境中对实时性、精准度和可解释性的要求。本文提出一种“遥感大模型 + 图神经网络 + 多任务协同”的语义变化检测框架（RSMT-GNN）。

关键词：遥感大模型图神经网络多任务协同少样本

1. 研究背景及意义

过去十年，我国遥感卫星和无人机数量快速增长，每天都能获取大量高分辨率影像。这些影像记录下了城市扩张、道路新建、绿地减少等变化，是政府部门掌握国土空间动态的重要信息源。然而，目前常用的变化检测方法大多只能判断“是否发生了变化”，却无法说明“具体变成了什么”，也难以适应不同季节、不同传感器带来的差异。此外，高分辨率影像的标注成本极高，样本不足时，现有模型的准确性会明显下降。因此，迫切需要一种既能输出清晰语义，又能在少量样本条件下保持稳定表现的新技术。

本研究提出的 RSMT-GNN 框架，将遥感大模型、图神经网络与多任务学习相结合，力求在“识别变化”的同时给出“变化类别”，从而帮助规划、自然资源、生态环境等部门快速、准确地掌握城市动态。与传统方法相比，该框架在样本需求量、结果可读性和适用范围等方面都有显著改进。实际应用时，它不仅能减少人工巡查和标注成本，还能为城市体检、违法建设监测、生态修复评估等提供及时、可靠的数据支撑，对推动智慧城市建设和国土空间治理现代化具有积极意义。

2. 研究方法

2.1 总体框架

RSMT-GNN（可重构空间分子 Transformer 图神经网络）是基于复杂空间关系设计的框架，它主要用于处理像解释遥感图像，分子性质预测，社交网络分析等。它的核心是基于对图的深度学习以及多目标协同学习的结合。它主要有以下四个模块：

（1）遥感大模型迁移模块（RS-Adapter）：是 RSMT-GNN 和强大基础模型连接的纽带，主要迁移大规模训练模型在遥感图像或其他模型上学到的知识和经验。处理原始高分辨率遥感影像，将预训练大模型的一些特征转换为适合后续图神经网络处理的节点等初始特征表示。

（2）多主体空间关系图构建模块（MSR-Builder）：是将输入的数据结构化为一个图，它的核心任务是处理各个图之间复杂的地理空间关系。

（3）图神经网络推理模块（GNN-Reasoner）；此模块主要是用来进行计算的，负责在 MSR-Builder 构建的属性图上进行信息传播、聚合与推理。

（4）多任务协同优化模块（MT-Loss）：此模块是用来定义和联合优化多个相关任务，用于将一些有关联的任务整合在一起，提升模型的整体性，提升处理的效率使得整个模型更加优化。

2.2 遥感大模型迁移

2.2.1 预训练策略

（1）利用海量无标遥感数据，通过掩码自监督学习（MAE）预训练一个强大的 ViT 骨干网络（RS-MAE-base），赋予其强大的通用遥感特征提取能力。

（2）针对变化检测任务特性，采用双输入流处理双时相影像，并强制共享特征提取器权重，确保不同时间影像中相同地理位置的局部特征在相同的特征空间内计算，使得特征差异能更可靠地反映真实的地表变化。

（3）输出位置对齐的、网格化的深度特征序列（F1， F2），作为构建空间关系图并进行后续图推理的高质量、信息丰富的输入节点特征。这一步是整个RSMT-GNN 框架能够有效工作的基石之一。

2.2.2 少样本适配：

高效地利用极其有限的标注数据（少样本）进行下游任务微调，通过冻结庞大的预训练主干网络（RS-MAE-base），并仅在网络中插入轻量级的瓶颈结构 Adapter 模块（维度 r=64）以及更新任务头来实现微调。这一策略是 RSMT-GNN 框架能够在实际遥感应用（标注成本高、数据获取难）中高效部署和取得优异性能的关键技术保障之一。

2.3 多主体空间关系图

2.3.1 节点定义

在 RSMT-GNN 框架中，构建空间关系图（由 MSR-Builder 模块完成）的第一步是明确图中的基本构成单元——节点（Node）。节点代表了遥感影像中具有语义意义和空间独立性的地理实体或区域。此项目采用 Mask2Former[16] 对单时相影像进行实例分割，得到建筑物、道路、水体、植被、裸地五类地物实例。每个实例抽象为图节点 v_i，

属性包括：

（1）视觉特征：ROI-Align 提取的 512 维向量；

（2）语义标签：独热编码；

（3）几何特征：中心坐标、面积、长宽比、方位角。

2.3.2 边定义

在 RSMT-GNN 框架中，基于 MSR-Builder 模块构建空间关系图的核心不仅在于定义节点（代表地理实体），更在于精确定义这些节点（实体）之间复杂多样的空间相互作用关系。这些关系被表示为图中的边（Edge）。本小节详细描述了如何构造三类具有不同语义内涵的空间关系边，并通过边权重量化关系强度，最终构建出用于变化推理的跨时相图结构。

构造三类边：

（1）空间邻接边：捕捉实体之间直接的物理空间接触或非常接近的关系。这是最基础的空间关系。

（2）功能耦合边：捕捉实体之间基于人类活动、地理功能或先验知识而产生的逻辑关联，即使它们在物理空间上可能并不直接相邻。

判断方法（示例）：建筑物与道路：对于一个建筑物节点 v_i （类别 = 建筑），计算其几何中心到所有道路实例节点的欧氏距离（基于影像坐标，需考虑地理配准）。如果存在一条道路节点 v_j，使得距离（center_i， road_j） < 50 米或其他预设值，则在 v_i 和 v_j 之间建立一条功能耦合边。这模拟了“建筑物需要道路接入”的功能依赖。

（3）形态相似边：捕捉空间形态（轮廓、形状）高度相似的实体之间的关系，即使它们可能相隔较远或类别不同。这有助于识别具有相似模式或结构的区域。

判断方法：Hausdorff 距离 < 阈值 d₂ 。 Hausdorff 是衡量两个点集，类似与两个实体之间相似度的一种度量。

2.4 图神经网络推理：利用图神经网络（GNN），特别是处理异构关系图的模型（RGCN），来学习节点的表示，并最终预测每个节点是否发生了变化，从而生成一个整体的变化掩码图。

2.5 多任务协同优化：在变化检测任务中，模型需要同时学习多个相关但不同的子任务，例如语义分割、变化检测和图边预测。多任务协同优化的目标是让模型在训练过程中，有效地平衡这些任务的学习，使得每个任务都能得到良好的优化，最终提升整体的性能。避免某个任务“主导”训练，导致其他任务学习不足。

3 实验与结果

3.1 数据集

（1）LEVIR-CD：

核心特点：高分辨率、建筑为主、规模适中。

数据描述：包含 637 对高分辨率（0.5 米）的遥感图像。每张图像的尺寸都是 1024x1024 像素，提供了较大且清晰的场景。

变化类型：该数据集主要聚焦于建筑物相关的变化，如新建建筑物、建筑物扩建、建筑物拆除等。

（2）SECOND：

核心特点：大规模、多类变化、中分辨率。

数据描述：包含 4662 对中等分辨率（2 米）的遥感图像。其规模显著大于 LEVIR-CD。变化类型：覆盖了更多样化的地表变化，主要包括建筑物、道路和水体的变化。

（3）S2Looking：

核心特点：全球覆盖、中低分辨率、大规模、城市视角。

数据描述：包含 11200 对来自 Sentinel-2 卫星的图像，分辨率为 10 米。数据覆盖了全球范围内的城市区域。

变化类型：涵盖城市环境中的各种变化，可包含建筑、道路、绿地、裸地等多种类型的变化。

3.2 实现细节：本部主要讲实验运行的硬件平台、软件环境以及关键的训练配置和策略。

（1）硬件：使用了 4 块 NVIDIA GeForce RTX 4090 显卡。每块显卡配备了 24 GB 的 GDDR6X 高速显存。

（2）软件：

深度学习框架：采用 PyTorch 2.1。

GPU 计算平台：使用 CUDA 12.2。

（3）训练配置与策略：

优化器（Optimizer）：采用 AdamW。AdamW，

初始学习率（Initial Learning Rate）：设置为 2e-4 （即 0.0002）。批次大小（Batch Size）：设置为 8。

训练轮数（Epochs）：设置为 100 。

3.3 定量结果

本部分通过关键的性能指标和可视化分析，展示了所提出的RSMT-GNN 方法在变化检测任务上的优越性，并验证了其在数据受限场景下的鲁棒性。

（1）核心性能指标在 LEVIR-CD 上的卓越表现：

1）mIoU （Mean Intersection over Union）：计算变化区域预测结果与真实标注之间在所有测试图像上的平均交并比。

2）F1 Score：精确率（Precision）和召回率（Recall）的调和平均数。3）OA （Overall Accuracy）：所有像素（包括变化和未变化）中被正确分类的比例。

（2）少样本学习鲁棒性的有力验证：仅需 10% 的标注数据，模型就能学习到非常有效的特征表示，性能下降幅度很小。这表明RSMT-GNN 模型能够从有限样本中高效地提取关键信息。

（3）PR 曲线揭示的高精度 - 高召回优势：PR 曲线是一种评估二分类器（此处是变化/ 未变化）性能的重要可视化工具。它描绘了在不同分类阈值下，模型的精确率（Precision）和召回率（Recall）之间的关系。

3.4 案例研究

江北新区案例：图3 可视化2021-2022 年建筑变化，红色为新增，蓝色为拆除。与城管部门人工核查对比，召回率 94.2% ，误报率 6.8% ，单幅影像处理时间 <8 s（RTX 4090）。

4. 未来工作：

围绕“更轻、更广、更深、更贴”四条主线，计划在 18 个月内完成以下迭代：

1）轻量化

引入 LoRA +8⋅ -bit 量化，目标在 2 GB 显存设备上推理速度提升3× ，精度下降 <1% 。

完成昇腾 310 与寒武纪 MLU 适配，确保国产化平台无损运行。

2）关系升级

融合 POI、OSM 等开放数据，构建“地物- 功能- 权属”三层超图，实现原因级解释。

开发增量构图算法，道路通车 15 分钟内自动更新图结构，无需

人工重跑。

3）时序深化

扩展 4D 时空 Transformer，支持 N 期影像 + 夜间灯光 + 气象多模态输入，输出“检测→预测→预警”完整链条。

引入 Temporal Consistency Loss，消除年度统计中的抖动误差。

4）业务闭环

与省级卫星中心共建在线沙箱，用户上传本地数据即可微调，云端参数自动回传，形成持续学习闭环。

发布“RSMT-Change”七类场景基准数据集和线上排行榜，推动社区联合攻关小样本、跨模态难题。

5. 结论

本文创新性地提出了 RSMT-GNN 框架，通过深度融合遥感大模型、图神经网络与多任务学习三大技术优势，构建了一套全新的城市遥感变化检测解决方案。该框架首次实现了遥感大模型的特征迁移能力、图神经网络的关系建模能力与多任务学习的知识共享机制的有机结合，有效突破了传统方法在少样本场景下的性能瓶颈。在技术实现上，RSMT-GNN 框架依托遥感大模型的预训练特征作为基础，通过精心设计的迁移学习策略，将百万级无标注影像中学习到的通用特征适配到变化检测任务中，显著提升了小样本条件下的特征表征能力；借助图神经网络动态构建跨时相的空间关系图结构，精准捕捉建筑物、道路、绿地等多主体间的拓扑关联变化，弥补了传统像素级检测缺乏语义关联分析的缺陷；同时通过多任务学习机制联合优化变化区域识别、变化类型分类与变化程度评估等子任务，实现了从 " 哪里变 " 到" 怎么变 " 的全维度语义解析，使检测结果既具备高精度又富含语义信息。实验结果表明，在少样本条件下，RSMT-GNN 框架的像素级检测精度、语义分类准确率均显著优于现有主流方法，尤其在复杂城市建成区的边缘变化、细微变化检测中表现突出；真实案例应用中，该框架成功识别了城市更新中的建筑物增删、道路扩展、绿地变化等关键信息，检测结果与实地调研数据高度吻合。该研究成果不仅在技术上推动了遥感变化检测向 " 少样本、高精度、强语义 " 方向发展，更具有重要的实用价值。其形成的技术方案可为我国新型城市基础设施建设中的工程监测、质量评估提供精准数据支持，为国土空间规划实施监测、生态保护红线监管等工作提供高效的技术手段，同时在城市应急响应、智慧城市运维等领域也具有广阔的应用前景，将为我国城市精细化治理与可持续发展提供关键的技术支撑。

*本文暂不支持打印功能