基于Road-U-Former网络的道路网提取研究

徐国斌叶鹏

1.湖北省空间规划研究院武汉 430077 2.湖北大学资源环境学院武汉 430062

打开文本图片集

摘要：针对当时社会道路错综复杂导致难以进行有效提取的问题，本文提出了一种基于Road-U-Former网络的道路网提取模型。该模型耦合传统的Transformer和Unet两种网络，构建全新的Road-U-Former网络，新网络利用高解析度的CNN特征和Transformer编码的自注意力机制，以及受U-Net特征联合设计的启发，将输入图像的道路特征与不同高分辨率的CNN特征结合起来，通过全局上下文注意力机制，实现对道路所在区域的精确定位及提取。本文提出的基于Road-U-Former网络的道路提取方法能够有效在少量标注的前提下快速到达对目标区域的遥感影像道路提取。

关键词：道路提取；Road-U-Former网络；遥感影像；迁移学习

0 引言

目前社会道路错综复杂，不断有新的道路铺设完成也有老旧化的道路损毁待修甚至被废弃，而道路信息作为信息化数据化时代大背景下最重要的公路基础设施建设信息之一，高精度地进行道路网信息提取对城市发展建设起到重要作用[1-4]。谷歌地球（GoogleEarth）图像整合了卫星图像和航空摄影资料，能够在同一个坐标体系下提供高分辨率的光学遥感图像，该高分辨率影像提供大量的道路信息，已经成为进行道路网提取的有效数据源[5-6]。

国内外学者在基于高分辨率影像道路提取方面已经做了大量研究，如Valero[7]等人提出了先进的定向形态算子，以防止引入形状偏差并成功反演道路形状特征。Bae[8]等人提出了用于道路提取的低级特征和高级特征处理，该处理使用宽度，对比度属性，方向，长度的图像切割分类器。Grinias[9]等人提出了一种无监督方法，该方法利用道路的形状特征与马尔可夫随机场模型[10]和随机森林方法[11]相结合。此外，还有提取类似于带状或脊的道路中心线以对道路区域进行分类，这些特征比其他的方法表现得更稳定。Shao[12]等人提取了脊状或带状线性特征，然后根据其灰度值以及与线性特征的位置关系将其它像素分类为道路与非道路。Zhang[13]等人通过结合形态学运算、手动边缘特征提取、几何特征提取和张量投票提出的道路提取框架。随着机器学习理论的成熟，Wegner[14]等人利用道路的网状结构特征和条件随机场进行道路提取。Bakhtiari[15]等人基于边缘特征和SVM分类器半自动从高分辨率遥感影像中提取不同道路类型的方法。虽然这些方法在一定程度上解决了道路提取的问题，但是都过度依赖先验样本和专家经验，且模型需要大量的参数调试，存在较大的偶然性和不确定性。针对这一问题，本文提出了利用Road-U-Former网络的道路网提取方法。

本文以（GoogleEarth）高分辨图像为数据源，构建耦合Transformer模型和Unet模型的新型道路提取网络Road-U-Former。该网络模型将底层细节、Transformer高级全局特征和全局上下文信息有机地结合在一起，形成了一个复杂而又有效的道路提取深度学习架构。

1研究数据

本文选取两个道路数据集以及自制数据集评估网络的性，分别包括开源的Massachusetts道路数据集和CHN6-CUG道路数据集。Massachusetts道路数据集是一个由Mnih提供的公有道路数据集，它采用美国马萨诸塞州的航空航天影像，旨在提取当今热门的影像道路信息。该数据集包含了精确的标注图片，可以帮助用户更好地理解道路状况，并为其提供更加准确的参考信息。Massachusetts道路数据集由来自马萨诸塞州的航空图片组成，每张图片的像素尺寸为1500*1500，总共一千一百七十一张，其中每张图片的地面解析度达到一米。这个数据集由1108张训练图像、49张测试图像和十四张验证图像组成，它们都是二值化图像，道路被标记为前景，其他地物被标记为背景。这些图像涵盖了马萨诸塞州的城市、乡村和郊区等多个地区，覆盖面积超过二千六百平方千米。在这个数据集的影像中，道路部分稀疏，部分密集，对于道路的分辩具有相当大的挑战性。

CHN6-CUG道路数据集是一个手动标注的VHR卫星图像，具有极高的图像级精度。该数据集是我国代表性城市新的大规模卫星图像数据集。图像选自北京朝阳区、上海市杨浦区、武汉市中心、深圳南山区、香港沙田地区、澳门等6个城市化水平各不相同城市。CHN6-CUG数据集是从谷歌地球（谷歌公司）获取的。所有图像均由图像解释专家标记。根据表面覆盖，标记的道路部分是有轨道的，也有部分是没有轨道的。此外，从地理因素的角度来看，标注的道路还可以是铁路、公路、城市道路和农村道路。每张图片的尺寸为1024*1024像素，分辨率为五十厘米/像素。

2 方法原理

2.1 Road-U-Former网络

本文以编码器-解码器结构为基础，发现U形架构（U-Net）已经成为道路图像分割任务的标准，并获得了巨大的成功。然而，由于卷积运算的局部性，U-Net在显式建模长程依赖性领域仍存在一定的缺陷，需要进一步改进和完善。Transformer被设计用来预测序列间的关系，它可以作为卷积神经网络的替代架构，具有全局自我关注机制，但由于缺乏低级的细节特征，其定位能力受到了一定的限制。在本文中，我们提出Road-U-Former作为道路图像分割的有力替代方案，它既有Transformers的优点，也有U-Net的优点。Transformer通过标记化的图块补丁来提取全局上下文的输入序列，这些图块是来自卷积神经网络（Resnet50）的特征，而解码器则利用这些特征，结合带有全局上下文注意力模块的高解析度的卷积神经网络，实现了高效率的分割任务。Road-U-Former架构利用了高解析度的CNN特征和Transformer编码的自注意力机制，以及受U-Net特征联合设计的启发，将这些特征与不同高分辨率的CNN特征结合起来，通过全局上下文注意力机制，实现对道路所在区域的精确定位。

给定一个图像x∈RH×W×C，空间分辨率为H×W和C通道数。本文的目标是提取大小为H×W的相应像素级道路标注图。最常见的方法是直接训练CNN（例如UNet），首先将道路图像编码为高级特征表示，然后将其解码回完整的空间分辨率。与现有方法不同，本文的方法通过使用Transformer将多头注意机制引入编码器设计中。本文将在首先介绍如何使用ResNet50模块进行特征信息提取、使用Transformer对分解图像补丁中的特征表示进行编码以及如何使用耦合全局上下文注意力机制的解码器进行解码。本文认为Transformers可以作为道路图像分割任务的强大编码器，与U-Net相结合，通过恢复局部空间信息来增强更精细的细节。

2.2 基于Road-U-Former网络的道路提取方法

Road-U-Former的网络形式仿照Unet，由encoder和decoder组成U型结构。Encoder部分加入了Transformer机制，最终得到了一个一维向量。Decoder部分做了三次上采样，最终将此一维向量恢复成了原来的图像。Encoder和Decoder部分还做了三次跳跃连接。

首先在Encoder部分本文采用ResNet-50模块进行CNN特征提取，ResNet-50模块（分为3个大的Resblock，每个大的Resblockk的Resblock个数分别为3，4，6）在每个大的Resblock输出提取特征，作为Encoder和Decoder跳跃链接使用，共提取3次CNN特征。

因为transformer的输入是序列，所以会有图像转化为序列的步骤。本文将从ResNet-50模块输出得到的图像分为个大小为P×P像素的小块，考虑到影像的通道数得到的序列就是N个P×P×C的序列。本文首先通过将输入x重塑为一系列扁平的小块，其中每个小块的大小为P×P×C，并且是图像补丁的数量（即输入序列长度）。加入位置信息后，进行Transformerlayer进行信息的提取，得到输出序列再整合为三维图像特征，同时降维度降到512×H/16×W/16，然后上采样为原来图像大小的2倍。

接着进入Encoder部分，将上采样的特征与之前相对应的ResNet-50 block提取的特征进行拼接。然后重复全局上下文注意力模块、上采样以及拼接对应ResNet-50 block提取的特征的操作，得到16×H×W的特征图像。通过Segmentation Head模块得到最终的道路提取图像。

3 实验结果与分析

本实验采用windows下的Pytorch深度学习框架，编译器为pycharm。所有的模型都是在一台电脑上训练的，该服务器搭载有一张NVIDIA Ge Force RTX 2060 显卡，内存为16GB。

为验证本文网络的有效性，本文选取了其他五种先进网络进行了定性和定量的比较，包括U-Net、Link Net和可变形U-Net（DUNet）和D-Link Net，具体如下：

为了定量评估道路提取方法的性能，使用了三个标准评估指标：召回率（Recall）、F1-score 和Io U。Recall代表正确分类的道路像素与所有实际道路像素的比值；F1-score是Precision和Recall的调和平均值；Io U是真实标签图与预测图的交集与并集之间的比率。

由图3可知本文所提方法的提取结果更加完整准确，在特征明显的长条状道路上各个方法结果相似，在建筑物间，本文所提出的方法具备更好的完整度并且错分更少。由表1，2可知在不同的数据集上本文算法各指标分别提高了0.20、0.016、0.07与0.07、0.03、0.02，，证明在相同训练条件下综合性能略优于这些经典模型。这表现出本文所提出的网络，从复杂背景中提取出的道路具有较低的错误检测率，表现出了本文所提网络模型在各方面的巨大优势，相较对比方法，能够保持道路提取的准确性、完整性和连通性。

4 结束语

本研究提出了一种基于Road-U-Former网络的道路网提取方法，该模型耦合传统的Transformer和Unet两种网络，利用高解析度的CNN特征和Transformer编码的自注意力机制，以及受U-Net特征联合设计的启发，将输入图像的道路特征与不同高分辨率的CNN特征结合起来，通过全局上下文注意力机制，实现对道路所在区域的精确定位及提取，实验证明本文提出的Road-U-Former道路提取网络能实现高精度的道路提取，尤其是图像分辨率提升时，本文提出的网络相较于其他基础网络表现更好。

参考文献：

[1]戴激光，王杨，杜阳等.光学遥感影像道路提取的方法综述[J].遥感学报，2020，24（7）：804-823.

[2]高嘉南，侯凌燕，杨大利，等. 基于轻量级网络和数据扩增的作物与杂草识别[J]. 北京信息科技大学学报：自然科学版， 2022， 37（1）：82-89.

[3]Zhang Y ， Xiong Z ， Zang Y ， et al. Yang Zhang et al. Topology-Aware Road Network Extraction via Multi-Supervised Generative Adversarial Networks[J]. Remote Sensing，2019， 11（9）：1017.

[4]Zhou Hailing，Kong Hui，Wei Lei，et al. On Detecting Road Regions in a Single UAV Image[J]. IEEE Transactions on Intelligent Transportation Systems， 2017， 18（7）： 1713-1722.

[5]张战. 基于语义分割的高分辨率遥感图像道路目标提取[D].杭州电子科技大学

[6]Liu Y ， Yao J ， Lu X ， et al. RoadNet： Learning to Comprehensively Analyze Road Networks in Complex Urban Scenes From High-Resolution Remotely Sensed Images[J]. IEEE Transactions on Geoscience and Remote Sensing， 2019， 57（4）：2043-2056

[7]Valero S ， Chanussot J ， Benediktsson J A ， et al. Advanced directional mathematical morphology for the detection of the road network in very high resolution remote sensing images[J]. Pattern Recognition Letters， 2010， 31（10）：1120-1127.

[8]Bae， Yoonsung， Lee，， et al. Automatic Road Extraction From Remote Sensing Images Based on a Normalized Second Derivative Map[J]. IEEE geoscience and remote sensing letters，2015，12（9）：1858-1862.

[9]Ilias Grinias，Costas Panagiotakis，Georgios Tziritas. MRF-based segmentation and unsupervised classification for building and road detection in peri-urban areas of high-resolution satellite images[J]. ISPRS Journal of Photogrammetry and Remote Sensing，2016，122：145-166.

[10]孟月波，刘光辉，徐胜军，等.一种具有边缘保持的多尺度马尔可夫随机场模型图像分割方法[J].西安交通大学学报，2019，53（03）：56-65.

[11]史忠奎，李培军，罗伦，等.基于形态学属性剖面和单类随机森林分类的道路路域新增建筑物提取方法[J].北京大学学报（自然科学版），2018，54（01）：105-114.

[12]Shao Y ， Guo B ， Hu X ， et al. Application of a Fast Linear Feature Detector to Road Extraction From Remotely Sensed Imagery[J]. IEEE journal of selected topics in applied earth observations and remote sensing，2011，4（3）：626-631

[13]Zhang J， Li T. Road extraction and intersection detection based on tensor voting[J]. IEEE， International Geoscience and Remote Sensing Symposium （IGARSS）， 2016： 1587-1590.

[14]Jan Dirk Wegner and Javier Alexander Montoya-Zegarra and Konrad Schindler. Road networks as collections of minimum cost paths[J]. ISPRS Journal of Photogrammetry and Remote Sensing， 2015， 108 ： 128-137.

[15]Jan Dirk Wegner and Javier Alexander Montoya-Zegarra and Konrad Schindler. Road networks as collections of minimum cost paths[J]. ISPRS Journal of Photogrammetry and Remote Sensing， 2015， 108 ： 128-137.

作者简介：

徐国斌，男，汉族，湖北武汉人，工程师，硕士研究生，研究方向：遥感图像处理，乡村规划

*本文暂不支持打印功能