收藏
加入书签

添加成功

收藏成功

基于改进 CycleGAN 的地图图像翻译

宋佳李牧之郭伟

身份证 220681199310052344 身份证 321023198910242823 身份证 321011198112250954

摘要：卫星影像生成地图是图像翻译的一项典型应用。通过域映射技术，卫星影像能够迅速转化为常规地图底图，从而显著缩短地图制作周期，具有广泛的应用前景。本文研究了基于CycleGAN 的无监督地图图像翻译模型。CycleGAN（Cycle-Consistent Generative Adversarial Network）作为一种无监督图像到图像的转换架构，能够在没有配对数据的情况下，通过两个生成器和两个判别器实现跨域图像转换。与pix2pix 不同，CycleGAN 不依赖于成对数据，这使其在处理复杂图像转换任务中展现了更强的灵活性。然而，由于地图图像本身具有信息丰富且结构复杂的特性，CycleGAN 在生成图像时可能会出现质量不高的情况。针对这一问题，本文在CycleGAN 的基础上引入了ResNet 和GRL（Global, Regional, and Local）模块，采用了多尺度鉴别器替代原始鉴别器，并增加了感知损失函数，以提高生成图像的质量，从而使得该模型在卫星影像转化为地图的任务中具有更好的表现。关键词：生成对抗网络; cycleGAN; 图像翻译; 地图制图

1 引言

随着地图在城市规划、自动驾驶、应急响应等领域的广泛应用，底图风格切换成为地图应用中的关键功能。卫星影像与街道地图是常见的两种底图，其中卫星影像获取相对便捷，而街道地图制作则流程复杂、更新滞后。基于深度学习的图像翻译技术，特别是生成对抗网络（GAN），为卫星图像自动生成街道地图提供有效途径，大幅提升地图更新效率。

其中 Pix2Pix 适用于有监督任务，CycleGAN 因无需成对样本更具实用性。基于 Pix2Pix 和 CycleGAN 的衍生模型，如 GeoGAN 等，虽在图像还原和信息融合上有进展，但存在训练不稳定、模式崩溃等问题，高分辨率图像处理表现欠佳。为此，本文提出基于 CycleGAN 的改进无监督图像翻译模型，引入 VGG19 感知损失提升图像感知质量，集成 ResNet 与 GRL 结构增强特征提取，采用多尺度判别器优化图像细节。实验表明，该模型在卫星影像生成地图任务中优势明显，具备实用与推广价值。

2 生成对抗网络

生成对抗网络（GAN）由 Ian Goodfellow 等人在 2014 年提出，是目前图像生成领域最具影响力的模型之一。GAN 的基本结构由两个网络组成：生成器（Generator）和判别器（Discriminator），两者通过对抗博弈共同提升性能。

生成器学习数据的潜在分布，通过输入随机向量生成逼真的图像；判别器则判断输入图像是真实样本还是生成图像。训练过程为极小极大的博弈，目标是使判别器无法区分真实与生成图像，从而实现生成样本与真实数据分布高度接近。训练过程包括两个阶段：固定判别器训练生成器，使其生成更逼真图像；再固定生成器优化判别器，使其提升识别能力。两者交替训练，直至达到纳什均衡。其损失函数如式（2-1）所示：

minmax_Cv（D，G）=E_{x～pdata（x）}[logD（x）]+E_{z～pz（z）}[log（1-D（G（z）））]

其中：为真实数据， z 为生成器输入的随机向量，G 为生成器，D 为判别器，D（x）表示输入为真实数据时判别器的输出，D（G（z））表示输入为生成器生成的数据时判别器的输出。

3 CycleGAN

循环生成对抗网络（CycleGAN）与 Pix2Pix 均适用于图像翻译任务。CycleGAN 通过双向循环生成结构突破 Pix2Pix 对 “成对样本” 的依赖，其核心架构包含两对生成器与判别器：生成器 G 用来基于X 域的图像生成Y 域的图像，即 G（x） =Y'， x∈X；生成器 F 用来基于Y 域的图像生成 X 域的图像，即 F（y） = X'， y∈Y。两个判别器 DX，DY 分别判断两个生成器生成图片的好坏，其中 DX 永远给真实图片 X 高分，DY 永远给真实图片 Y 高分。因此 CycleGAN 可以看做是 2 个 GAN（即两个 Generator 与两个 Discriminator）的融合。

CycleGAN 提出循环一致性损失，即将图片 Y'再放入生成器 F 中，产生的新图片 X'，和最开始输入的图片 X 尽可能相似。即有 F（G（X）） = X。CycleGAN 的目标函数主要由对抗性损失（Adversarial loss），循环一致性损失（cycle consistency loss）组成：

4 改进的 cycleGAN 模型

4.1 生成器中引入 ResNet 网络

在 ResNet 提出前，传统卷积神经网络通过堆叠卷积层与下采样层构建深层网络，但面临两大难题：梯度消失或爆炸导致收敛困难，以及网络越深精度反而下降的性能退化问题。2015 年，残差网络被提出，通过残差学习机制引入跳跃连接，使部分输入直接跨越中间层与输出相加，缓解深层网络的信息衰减，解决了退化问题，实现数百层网络的训练。

ResNet 结合 BN 与 ReLU 激活函数，进一步提升训练稳定性与速度。其核心单元残差块由卷积层与跨层连接构成，强化特征流通与复用。目前，ResNet 已广泛应用于图像分类、目标检测等计算机视觉任务，成为深度学习架构的基石。本文采用的 ResNet-34，即由一系列残差块堆叠而成，通过快捷连接绕过一个或多个卷积层，优化深层网络性能。

4.2 增加感知损失 vgg19

传统图像生成与风格迁移常用像素级 L2 损失（MSE），但其难以捕捉图像结构和语义信息，导致生成效果不足。为此，感知损失被提出，通过预训练网络（如 VGG）提取图像中高层语义特征，衡量输入与目标图像在特征空间的差异。相比像素级损失，感知损失更关注图像结构、纹理和风格的一致性，通常通过计算特征间欧氏或曼哈顿距离最小化差异，提升生成图像的视觉质量。其计算公式为：

其中，是输入图像，y 是目标图像，Fi（x）和 Fi（y）分别表示它们在预训练的神经网络中的第 i 层的特征表示，N 是特征层数。感知损失可以用于各种图像处理任务中，如图像超分辨率、图像去噪、图像修复、图像风格迁移等。

本章采用 VGG19 作为特征提取网络， 16 个卷积层与 3 个全连接层，能捕捉图像从低层到高层的多级特征。通过对输入与目标图像进行特征编码，VGG19 相比像素级对比更贴近人眼对图像质量的感知，可提升生成图像的整体质量与一致性。

5 网络结构介绍

5.1 生成器网络结构

改进网络的生成器采用了基于编码器-特征学习模块-解码器的结构，如图 5-1 所示。

首先，输入 256×256 大小的图像，编码器通过“convolution-BatchNorm -LeakyReLU”对其进行下采样。经过每个程序块处理后，特征图的尺寸会逐渐减小，然后投入特征学习模块。特征学习模块由 resnet block 和 grl block 组成，两个分支特征提取完成后进行特征融合，以增强重要特征并减弱噪音，同时提高网络的稳定性和泛化能力。并将融合后的特征图到解码器中。同时还利用跳跃连接将编码器和解码器连接起来，实现编码器每次卷积后得到的低级特征与解码器在相同分辨率下反卷积产生的高级特征的融合，以提高模型各层特征信息的利用率。

5.2 判别器网络结构

本文采用了多尺度判别器，即通过多个判别器在不同尺寸的输入图像下进行判别。如图5-2 所示，判别器网络由两个感受野不同的子网络组成，这两个子网络在不同的尺度范围内独立评估图像对判别结果的影响。这两种尺度的检测结果相互补充，从而有助于提升判别器的整体性能。

在具体实现中，两个子网络分别使用 3×3 和 5×5 的卷积核，以不同的感受野对输入图像进行评分。最终输出为两者评分的平均值。除了卷积核的尺寸不同外，这两个子网络均由五个卷积层构成，其中前四层采用 LeakyReLU 激活函数，而最后一层使用 Sigmoid 函数。此外，除了第一层和最后一层卷积外，其余卷积层在卷积操作与激活函数之间都采用批标准化进行数据处理。

5.3 损失函数

改进的CycleGAN 网络的除了原有的对抗损失和循环一致性损失外，还增加了感知损失 vgg19，加入感知损失能够有效提高生成图像的细节保留、色彩一致性和结构准确性。具体实现步骤如下：

1. 使用预训练的 VGG 网络提取真实图像和生成图像的特征图。

2. 计算生成图像和真实图像特征图之间的 L1 距离，作为感知损失。3. 将感知损失加入到 CycleGAN 的总损失函数中，进行联合优化。最终改进后的CycleGAN 损失函数如下：

式中 X，Y 分别代表两个数据域，x，y 为两数据域中的样本数据，G 为从 X 到 Y 的映射函数，F 为从 Y 到X 的映射函数，DX， DY 为判别器，λ用于控制循环一致损失函数的权重。Fi为第 i 个卷积层的激活值；N 为图像经过 VGG19 后得到的特征图数量。

6 实验结果及分析

6.1 数据集

选择 CycleGAN 原论文中的 maps 做为实验数据集，模型训练时将图片分辨率定义为 256*256 大小。6.2 实验评估标准

本章采用计算峰值信噪比（PANR）、FID 指标和结构相似性（SSIM）对模型表现进行评估

6.3 实验环境

本文搭配的 python 版本为 Python 3.8（ubuntu20.04），Cuda 版本为 11.8 以及 torch2.0.0。6.4 实验过程

使用处理好的数据集在本章提出的模型上进行微调训练，整体训练 epoch 设置为 200，优化器采用 Adam 优化器， β1=0.5 ， β2=0.999 ，学习率 lr=0.002 。训练过程中损失可视化如图 6-1。训练环节共耗时二十二个小时。

6.5 对比实验

（1）量化对比实验结果

在本章节，本文将在量化指标和定性的可视化效果等多个角度展示本文方法的有效性。在量化指标方面，本文选择了 CycleGAN 、SMAPGAN、CycleGAN-turbo 等三种图像生成方法，用随机取出测试集的十张图片进行量化评分，评分结果见表 6-2。可以看出，本文提出改进模型的 FID 指标结果为 109.85，SSIM 结果为 28.324，PSNR 结果为 0.725。提出方法的结果在这些 GAN 评价指标上远超其他方法，这足以证明提出方法的有效性。

（2）视觉对比实验结果

图 6-2 展示了对比方法与本文方法在不同遥感图像上的可视化结果（均调整为 256×256 分辨率以消除视觉差异）。实验显示：CycleGAN-turbo 因引入扩散模训练时间大幅增加，且生成细节过度复杂，不适用于实际场景；SMAPGAN 作为半监督模型，部分效果仍不及本文方法。综合来看，本文方法生成的地图更贴合实际地理情况，在卫星影像生成地图任务中表现更优，具备更高的实际应用价值。

7 结论

本文针对卫星地图到普通街道地图的图像翻译任务，构建基于 CycleGAN 改进的监督图像翻译模型，通过在生成器中引入 ResNet 和 GRL 组成特征学习模块、采用多尺度鉴别器及引入 VGG19 损失函数优化网络结构与损失函数，并在 CycleGAN 公开数据集 maps 上与 CycleGAN、SMAPGAN、CycleGAN-turbo 等模型实验对比，结果显示改进模型提升了 PSNR 和 SSIM 值、降低了 FID 值，翻译细节更优，证明了其优越性，为生成对抗网络在地图制图领域应用提供了解决方案。

参考文献：

[1] 艾廷华. 深度学习赋能地图制图的若干思考[J]. 测绘学报， 2021， 50（9）： 1170-1182.

[2] 高松. 地理空间人工智能的近期研究总结与思考[J]. 武汉大学学报（信息科学版）， 2020， 45（12）：1865-1874.

[3] GANGULI S， GARZON P， GLASER N. Geogan： A Conditional GAN with Reconstruction and Style Loss to Generate Standard Layer of Maps from Satellite Images[OL]. 2019. https：//arxiv.org/pdf/1902.05611.pdf.

[4] 杨锐波. 电子地图数据制作流程与发布研究[J]. 科技资讯， 2019， 29： 29-31.

[5] 金笑天，张振川. 人工智能赋能遥感应用[J]. 科技创新与应用， 2022， 12（07）： 191-193.

[6] 汪美琴，袁伟伟，张继业. 生成对抗网络 GAN 的研究综述[J]. 计算机工程与设计， 2021， 42（12）：3389-3395.

[7] 胡振彪，赵军，韩磊，等. 矢量电子地图瓦片制作性能评估与应用[J]. 测绘科学， 2020， 45（02）： 138-144.

[8] CHRISTOPHE S， MERMET S， LAURENT M， et al. Neural map style transfer exploration with GANs[J].International Journal of Cartography， 2022， 8（1）： 18-36.

[9] 魏远超. 基于深度学习的多角度卫星影像语义分割研究与实现[D]. 中国石油大学（北京）， 2020.

[10] 李强. 基于生成对抗网络的遥感图像道路提取研究[D]. 中国地质大学（北京）， 2020.

[11] 马远远. 图像解译算法在特定领域的研究及应用[D]. 电子科技大学， 2021.

*本文暂不支持打印功能