基于生成对抗网络的遥感光学影像舰船样本仿真

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 5 (Sept. 2024)

1.北京大学地球与空间科学学院, 北京 100871; 2.中国电子科技集团公司电子科学研究院, 北京 100041; 3.大连理工大学城市学院, 大连 116630; †通信作者, E-mail: w.wan@pku.edu.cn

摘要基于遥感数据获取的真实舰船数据集数量非常有限, 难以满足深度学习算法训练对样本数量的需求。针对此问题, 利用三维模型和能够进行风格迁移的生成对抗网络, 提出一种高质量的包含舰船目标的三波段光学高分辨率遥感图像仿真方法。基于构建的数据集, 进行仿真样本的生成及评估。研究结果表明, 该方法能够合成在视觉上接近真实影像的图像, 通过加入合成样本对目标检测模型进行训练, 可以使 Faster-RCNN和 YOLOv5 的全类平均正确率 mAP 分别提升 2.6%和 2.3%。

关键词 舰船目标检测; 高分辨率光学影像; 仿真样本; 深度学习; 生成对抗网络

舰船是人类重要的运输工具之一, 也是通过海洋进行大规模运输的唯一选择。随着科技的进步, 人类对海洋探索、开发和管理的深度与广度迅速扩大, 海洋对人类社会的价值和作用变得更加突出。在军事和民用方面, 对监测舰船活动的需求变得愈发迫切[1]。

遥感数据用于舰船目标检测和分类, 在成本和效率方面具有无可替代的优势。基于合成孔径雷达(synthetic aperture radar, SAR)数据进行海面舰船监测的研究已经相当成熟[2]。与 SAR 数据相比, 光学图像包含纹理和色彩信息, 图像内容丰富, 目标结构特征明显, 使得舰船型号甚至船体编号的识别成为可能[3]。因此, 利用遥感光学影像进行舰船检测和分类具有重要意义。

在过去的几十年里, 机器学习算法, 特别是近年来的深度学习算法, 在众多领域取得显著的成功, 在遥感影像处理领域亦如此。随着深度学习算法的发展, 训练参数规模越来越大的模型需要更多的计算资源和样本数据。空中客车公司的舰船检测挑战赛数据集[4]包含超过 80000 个舰船实例, 细粒度的舰船检测光学数据集(如 FGSD[5])有超过 5000 个舰船实例, ShipRSImageNet[6]包含 17573 个舰船实例, UOW-Vessel[7]拥有 35598 个舰船实例。与计算机视觉领域流行的拥有 14197122 张图像的物体检测数据集 ImageNet[8]相比, 数据量成为限制光学舰船目标检测领域发展的主要因素之一[9]。

最新的研究表明, 合成图像已经被用来补充真实图像, 用于舰船检测模型的训练和测试。Ward 等[10]使用侧视合成图像检测附近舰船, 并且使用直方图匹配在三维模型渲染图像与遥感影像之间进行风格迁移, 用于生成合成影像[11]。Mediavilla 等[12]基于生成对抗网络(generative adversarial network, GAN)合成舰船影像。上述研究均基于 BCCT200[13]数据集, 该数据集仅有全色光谱波段, 且空间分辨率较低。肖奇[14]使用仿真图像和风格迁移网络来生成仿真舰船样本, 在 FGSCR-42[15]数据集上使图像分类模型的精度提高 2%～3%。Dong[16]等提出基于 CycleGAN 的 ShipGAN 来进行无人机视角昼夜海上舰船场景生成。

2015 年, Gatys 等[17]首次提出神经风格迁移, 使用卷积神经网络(convolutional neural networks, CNN)分离和重组图片的内容与风格。Johnson 等[18]2016年提出风格迁移, 使用预测神经网络技术训练一个网络, 直接将给定的风格应用于内容图, 具有更高的计算效率。Zhu 等[19]2017 年提出 CycleGAN, 这是一种无监督的生成对抗网络, 解决了非配对图像集之间的风格迁移问题。

在真实的遥感影像舰船样本缺乏的情况下, 仿真样本能够为机器学习模型提供更多的特征信息, 是改善算法之外的又一解决思路, 并且两者可以相互结合, 更好地解决舰船检测问题。相关研究集中在较低分辨率影像方面[10–12]。

本研究提出一种针对舰船样本的高分辨率光学遥感图像合成方法。从谷歌地球(Google Earth)数据中收集 16 类真实遥感舰船样本, 并通过三维模型以及能够进行风格迁移的生成对抗网络, 生成合成的舰船样本数据。利用真实样本和合成样本, 训练目标检测模型 YOLOv5[20]和 FasterRCNN[21], 用来验证合成数据对检测性能的改善。

1 研究数据及预处理

1.1 谷歌地球舰船样本数据

本研究从谷歌地球提供的遥感数据中收集 3788张图像, 包含来自多个国家的 16 个类别的共 5999个舰船目标, 涵盖多种用途和尺寸。对这些舰船影像进行标注, 作为真实样本数据, 用于进行仿真舰船样本的合成和目标检测模型的训练。舰船影像的类别、标注名称和数目如表 1 所示。军舰包含航空母舰、两栖指挥舰、两栖攻击舰、驱逐舰、巡洋舰、战列舰、濒海战斗舰、辅助舰、护卫舰和潜艇10 个类别, 民用船只包含集装箱船、液货船、散货船和滚装船 4 个类别, 此外还有海警船只, 无法确定型号的船只标注为其他类别。

1.2 纯净背景舰船样本数据

首先对真实遥感影像中部分舰船样本进行多边形标注, 对舰船轮廓和背景进行精准的区分和定位, 以确保后续处理能够准确地进行。同时, 对于海水背景中纹理均一性好的部分也进行标注。

在标注过程中, 重点关注原始影像中靠岸停泊的舰船样本。这些影像中包含陆地和其他目标, 会对后续使用 GAN 提取舰船目标特征造成干扰。为了消除这种干扰, 确保 GAN 能够准确地提取舰船特征, 我们通过纹理生成算法对标注的海水背景进行扩充, 并与多边形标注框内的舰船样本进行融合, 从而将陆地等其他目标从样本中去除。

1.3 三维建模渲染数据

本研究结合公开的各种角度的舰船图像及相关数据, 使用 Blender 建模软件, 对 5 类舰船进行三维建模仿真, 重建三维舰船表面模型, 并模拟海洋环境, 构建卫星相关参数约束下的仿真数据, 确保仿真数据的准确性和可靠性。建模后进行渲染, 得到三维模型的 RGB 渲染图以及舰船目标的二值掩膜图。尽管进行三维建模及渲染时对模型材质、海面环境、大气环境都做了考量, 但由于相关信息的缺乏, 得到的三维建模渲染图与真实的卫星遥感影像在色彩和纹理方面仍然有明显的差距, 不能直接作为计算机视觉模型的训练输入来帮助检测真实的卫星影像。表 2 为本研究完成的三维建模的舰船型号及输出的渲染图数目, 建模的 5 类舰船类型包括航空母舰、两栖指挥舰、两栖攻击舰、巡洋舰和驱逐舰。

2 研究方法

2.1 总体框架

本研究提出一种基于三维建模和风格迁移的方法, 进行高分辨率可见光波段遥感舰船数据合成。本文方法充分考虑高分辨率遥感影像及舰船目标特征, 依托所研究数据集, 构建高质量的仿真数据, 并对合成数据进行指标性及应用性评估, 总体思路如图 1 所示。首先, 通过数据预处理, 得到背景均一的融合遥感影像, 与三维模型渲染图作为 GAN的训练输入。通过使用训练完成的 GAN, 将真实舰船影像的风格迁移到三维模型渲染图上, 得到更接近真实情况的舰船目标影像。之后, 将该影像的舰船目标分离出来, 与真实的海水背景进行融合, 得到最终的结果。为了评估生成的舰船影像的质量, 我们使用 Brisque[22]和 FID[23]两种指标进行图像质量的评价。同时, 通过在目标检测模型中的应用, 评估合成舰船影像的实际应用效果。

2.2 风格迁移模型

我们采用 GAN 模型进行仿真样本的生成。该模型拥有一个生成器 G和检测器DY, 用来进行输入域 X到目标域Y的图像转换。

对于生成器 G:X→Y及其判别器 DY, 通过对抗损失进行约束:

其中, x∈X, y∈Y, y～pdata(y)表示真实数据分布中的样本 y, G 通过学习 X→Y 的映射来生成图片 G(x), DY 则通过学习 Y 和 G(x)的特征来辨别图片是真实的还是由 G 生成的。G 的目标是使该损失最小, DY 的目标则相反。

此外, 引入空间相关损失[24], 首先利用一个预训练的 VGG16 网络, 对 x 和 G(x)提取特征 fx 和 fG(x), 并计算其自相似性:

式中,

∈ℝ1×C 表示通道数目为 C 的查询点 xi 的特征, width=14.9,height=16.65

∈ℝC×Np 包含 Np 个点的图像块对应的特征, width=14.9,height=16.65

∈ℝ1×Np 为查询点与图像块中其他点的特征空间相关性。

将图像表示为多个空间相关映射的集合:Sx= [Sx1; Sx2; …; SXs]∈RNS×Np,NS为图像块的数量。输入图像 x 和生成图像 G(x)的空间相关损失定义为

因此, 训练网络的目标为最小化以下损失:

本研究使用的 GAN 的网络结构如图 2 所示。在网络结构上, 采用 U-net[25]结构的网络作为生成器, 由一个编码器(下采样过程)和一个解码器(上采样过程)组成。编码器包含多个卷积层, 用于提取图像的特征。解码器包含多个反卷积层, 用于恢复图像的分辨率。U-net 可以有效地捕捉图像的细节和结构, 所以在图像生成任务中表现良好。在原始的 U-net 中, 解码器使用反卷积层来恢复图像的分辨率。然而, 反卷积的卷积核移动时的不均匀重叠在输出图片上会产生棋盘效应[26]。为了解决这个问题, 我们使用上采样替代原 U-net 中的反卷积操作。判别器采用一个简单的 CNN, 网络输出对每个像素取一个判断值, 在高分辨率图像上具有较好的性能。

3 实验结果与分析

3.1 实验结果

根据本研究提出的方法, 基于实验数据, 生成5 类舰船的影像。图 3 展示通过每个步骤得到的每类舰船的影像样例, 分别是真实的舰船遥感影像、从真实影像中分离的舰船目标与真实的海水背景进行融合后的纯净背景影像、三维模型渲染得到的图像、通过 GAN 对三维建模渲染图进行风格迁移得到的图像以及 GAN 的输出中舰船目标与真实背景融合的图像。

从图 3 可以看出, 三维建模渲染图与真实影像的色彩有较大的差异。经过 GAN 进行风格迁移后, 舰船目标的色彩更接近真实的遥感影像, 但是背景与真实的海水背景有明显的区别, 表现为缺乏纹理特征和色彩的偏差。将 GAN 风格迁移得到的图像中的舰船目标与真实海水背景融合之后, 相比三维建模渲染图, 得到的图像中的舰船目标和海水背景都更接近真实遥感影像的视觉特征。

3.2 图像质量评估

本文采用 Brisque 评分进行生成图像质量的评估。该评分基于提取自然场景的统计和计算特征向量进行。使用在 LIVE-R2[27]数据集上预训练的模型来评价待测图像, 得分越小表示图像质量越高。由于基于自然场景统计而非舰船遥感影像, 因此评分超出[0, 100]区间。图 4 展示 5种类型舰船Brisque 评分的概率密度分布, 每种类型分别对真实影像、三维渲染图、GAN 输出图像、GAN 输出与真实背景融合的影像进行评估。由于纯净背景影像中不包含两栖指挥舰类型, 所以该子图中无此曲线。

图 4 中原始的真实影像概率密度分布峰值出现在偏左的位置, 表明整体图像质量较高。三维建模渲染图像呈现明显的双峰分布, 表示部分图像质量较高, 部分质量较低。经过 GAN 处理后, 曲线峰呈现集中和左移的趋势, 说明图像质量得到提高。最终融合了真实的海面背景之后, 分布在左侧的峰值有所下降, 表明此步骤在 Brisque 评分的角度下对图像质量有负面影响。

我们采用相同的数据训练 CycleGAN, 并与本研究使用的模型进行对比。CycleGAN 生成的图像与本研究生成的图像和真实影像的细节对比如图 5所示。可以看出, 与 CycleGAN 生成的图像相比, 本研究生成的图像没有出现规律噪点, 同时具有更接近真实影像的模糊效果。通过计算, 本文模型与CycleGAN 生成图像集的平均 Inception 评分[28]分别为 1.723 和 1.709, 表明本文模型生成的图像在质量和多样性方面优于 CycleGAN。

FID 是用于评估两个图像集合之间差异的指标, 基于图像在特征空间中的分布距离来计算, FID 值越低, 表示生成图像与真实图像之间的差异越小。4 个图像集之间的 FID 如表 3 所示。可以看出, GAN生成的舰船目标与真实背景融合后的影像最接近真实影像, FID 为 176.853; GAN 生成的图像次之, FID为 191.153; 三维建模的渲染图与真实影像差异最大, FID 为 205.67。所以, 经过本研究提出的两个处理步骤之后, 可以使三维建模渲染图更接近真实影像。

3.3 目标检测实验

对于生成影像的实际应用价值, 通过训练目标检测模型来评估。评估时, 将真实样本划分为 5 个部分, 将每个部分分别作为测试集, 进行 5 次实验。由于真实样本数量有限, 这种交叉验证方法可以更充分地利用样本资源, 提高评估结果的代表性。综合 5 次实验的检测精度, 得到最终结果。通过这种方法, 可以评估仿真样本对目标检测模型性能的影响, 如果生成的仿真样本能够提高目标检测模型的性能, 说明这种方法在实际应用中具有一定的价值。按照真实样本中各类型舰船的数目比例, 选取用于实验的仿真样本, 共选取 190 个样本。

首先对利用仿真样本的方式进行实验, 使用YOLOv5网络进行训练, 分别测试不同训练策略的效果。采取的策略分别为只使用真实样本训练、真实样本混合仿真样本进行训练、使用真实样本训练后同样使用真实样本进行微调以及使用真实样本训练后利用仿真样本进行微调。使用真实样本训练和微调时利用相同的全部由真实样本组成的训练集, 微调时冻结网络部分参数, 在模型已经具有良好基础的情况下小范围调整, 以更好地适应数据。精度评估时使用由真实样本组成的测试集。这 4 种策略下评估得到的 mAP@0.5 分别为 0.689, 0.695, 0.651 和0.654。由此我们认为, 真实样本混合仿真样本具有较好的结果, 因而之后的实验通过这种方式进行。

使用 YOLOv5 和 FasterRCNN 在 COCO[29]数据集上预训练过的模型, 在本研究使用的舰船数据集上进行训练后, 进行精度评估, 结果如表 4 所示。其中, 真实样本为只使用该部分的真实样本进行训练, 且利用其余的真实样本进行精度评估, 如真实0 的测试集为真实 1, 2, 3, 4 的合集; 混合样本使用该部分真实样本与仿真样本进行训练, 且同样使用其余的真实样本进行评估。

将仿真样本加入真实样本, 输入训练模型后, FasterRCNN 模型的平均 mAP 提高 2.6%, 意味着仿真数据为模型提供了更多的信息, 有助于提高模型在目标检测任务中的性能。YOLOv5 模型平均mAP提高 2.3%, 尽管提高幅度略小于 FasterRCNN, 但仍然说明仿真数据对 YOLOv5 模型的训练具有一定的积极作用。仿真样本提供了真实样本中所不包含的信息, 能够在一定程度上提高模型的泛化能力。

4 结论

针对遥感光学影像舰船目标检测中样本数量不足的问题, 本文基于三维仿真建模和对抗生成网络, 提出一种生成仿真舰船样本的方法, 基于构建的数据集, 进行仿真样本的生成及评估, 得到包含舰船目标的高分辨率仿真光学遥感影像, 并通过实验验证图像质量以及实际应用价值。结果表明, 该方法在三维建模渲染图像的基础上可以生成更接近真实遥感影像的仿真图像, 通过加入合成样本对目标检测模型进行训练, 分别使 FasterRCNN 和 YOLOv5的 mAP 提升 2.6%和 2.3%。

在 Brisque 的评估中, 融合真实背景后, 虽然带来更接近真实影像的视觉表现, 但图像质量下降, 可能是由于融合算法对目标和背景的交界处理不够完善, 同时未考虑目标与背景之间的色调和对比度的统一, 因此有待提升。此外, 目前的方法只能生成卫星平台所拍摄的俯视影像。然而, 目前在光学高分辨率遥感影像方面, 无人机平台拥有更灵活且可以规避云层干扰的优势, 因此后续研究中将考虑实现多角度的仿真样本生成, 来扩展应用潜力。

[1] 刘忻伟, 朴永杰, 郑亮亮, 等. 面向航天光学遥感复杂场景图像的舰船检测. 光学精密工程, 2023, 31(6): 892–904

[2] Yasir M, Jianhua W, Mingming X, et al. Ship detection based on deep learning using SAR imagery: a sys-tematic literature review. Soft Computing, 2023, 27(1): 63–84

[3] 王彦情, 马雷, 田原. 光学遥感图像舰船目标检测与识别综述. 自动化学报, 2011, 37(9): 1029–1039

[4] Kaggle. Airbus ship detection challenge [EB/OL]. (2018–07–31)[2023–11–08]. https://kaggle.com/competi tions/airbus-ship-detection

[5] Chen K, Wu M, Liu J, et al. FGSD: a dataset for fine-grained ship detection in high resolution satellite images [EB/OL]. (2022–05–15)[2023–11–08]. https:// arxiv.org/abs/2003.06832

[6] Zhang Z N, Zhang L, Wang Y, et al. ShipRSImageNet: a large-scale fine-grained dataset for ship detection in high-resolution optical remote sensing images. IEEE Journal of Selected Topics in Applied Earth Obser-vations and Remote Sensing, 2021, 14: 8458–8472

[7] Bui L, Phung S L, Di Y, et al. UOW-Vessel: a bench-mark dataset of high-resolution optical satellite images for vessel detection and segmentation // Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa, 2024: 4428–4436

[8] Deng J, Dong W, Socher R, et al. ImageNet: a large-scale hierarchical image database // 2009 IEEE Confe-rence on Computer Vision and Pattern Recognition. Miami, 2009: 248–255

[9] 黄泽贤, 吴凡路, 傅瑶, 等. 基于深度学习的遥感图像舰船目标检测算法综述. 光学精密工程, 2023, 31(15): 2295–2318

[10] Ward C M, Harguess J, Corelli A G. Leveraging syn-thetic imagery for collision-at-sea avoidance // Geo-spatial Informatics, Motion Imagery, and Network Analytics VIII. Orlando, 2018: 1064507

[11] Ward C M, Harguess J, Hilton C. Ship classification from overhead imagery using synthetic data and do-main adaptation // Oceans 2018 MTS/IEEE Charle-ston. Charleston, 2018: 1–5

[12] Mediavilla C, Sato J, Manzanares M, et al. GAN-based unpaired image-to-image translation for maritime ima-gery // Geospatial Informatics X. San Francisco, 2020, 11398: 170–181

[13] Rainey K, Stastny J. Object recognition in ocean ima-gery using feature selection and compressive sensing // 2011 IEEE Applied Imagery Pattern Recognition Workshop (AIPR). Washington, 2011: 1–6

[14] 肖奇. 基于深度学习和仿真图像的遥感舰船数据扩增方法研究与应用[D]. 北京: 中国科学院大学(中国科学院国家空间科学中心), 2023

[15] Di Y, Jiang Z, Zhang H. A public dataset for fine-grained ship classification in optical remote sensing images. Remote Sensing, 2021, 13(4): 747

[16] Dong Y, Wu P, Wang S, et al. ShipGAN: generative adversarial network based simulation-to-real image translation for ships. Applied Ocean Research, 2023, 131: 103456

[17] Gatys L A, Ecker A S, Bethge M. A neural algorithm of artistic style [EB/OL]. (2015–09–02)[2023–11–08]. https://arxiv.org/abs/1508.06576

[18] Johnson J, Alahi A, Li F F. Perceptual losses for real-time style transfer and super-resolution // Computer Vision–ECCV 2016: 14th European Conference. Am-sterdam, 2016: 694–711

[19] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks // Proceedings of the IEEE International Conference on Computer Vision. Venice, 2017: 2223–2232

[20] Jocher G. YOLOv5 by ultralytics [EB/OL]. (2020–05–29)[2023–11–08]. https://github.com/ultralytics/yolov5

[21] Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal net-works // Advances in neural information processing systems. Montreal, 2015: 28

[22] Mittal A, Moorthy A K, Bovik A C. No-reference image quality assessment in the spatial domain. IEEE Transactions on Image Processing, 2012, 21(12): 4695–4708

[23] Heusel M, Ramsauer H, Unterthiner T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium // Advances in Neural Infor-mation Processing Systems. Long Beach, 2017: 30

[24] Zheng C, Cham T J, Cai J. The spatially-correlative loss for various image translation tasks // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, 2021: 16407–16417

[25] Ronneberger O, Fischer P, Brox T. U-Net: convolu-tional networks for biomedical image segmentation // Nassir N J H, Wells W M, Frangi A F. Medical Image Computing and Computer-Assisted Intervention —MICCAI 2015: 18th International Conference. Mu-nich, 2015: 234–241

[26] Odena A A D, Dumoulin V, Olah C. Deconvolution and checkerboard artifacts [EB/OL]. (2016)[2023–11–08]. http://doi.org/10.23915/distill.00003

[27] Sheikh H R, Zhang Z, Cormack L, A, et al. LIVE ima-ge quality assessment database release 2 [EB/OL] (2005)[2023–11–08]. https://live.ece.utexas.edu/resea rch/quality/subjective.htm

[28] Salimans T, Goodfellow I, Zaremba W, et al. Improved techniques for training gans // Advances in Neural Information Processing Systems. Barcelona, 2016: 29

[29] Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context // Computer Vision–ECCV 2014: 13th European Conference. Zurich, 2014: 740–755

Synthesis of Remote Sensing Optical Images with Ship Targets Based on Generative Adversarial Networks

JI Rui1, MA Lei2, ZHANG Jing2, WANG Weihong2, GUO Zhizhou1, WAN Xianci1, XIAO Lei1,3, WAN Wei1,†

1. School of Earth and Space Sciences, Peking University, Beijing 100871; 2. China Academic of Electronics and Information Technology, Beijing 100041; 3. City Institute, Dalian University of Technology, Dalian 116630; † Corresponding author, E-mail: w.wan@pku.edu.cn

Abstract Due to real-world constraints, the quantity of ship datasets derived from remote sensing data is sub-stantially limited and can’t fulfill the extensive sample demands required for training deep learning algorithms. According to this problem, a high-quality synthesizing method for three-band optical high-resolution remote sensing images containing ship targets is introduced, which utilizes 3D models and generative adversarial networks with style transfer capabilities. Based on the constructed dataset, synthetic samples are generated and evaluated. The expe-riments indicate that the approach can synthesize images visually close to real images. Incorporating these syn- thetic samples into the training process of detection models results in an increase of 2.6% in mAP for Faster R-CNN and 2.3% for YOLOv5.

Key words ship detection; high-resolution optical image; synthetic samples; deep learning; generative adversarial networks