doi: 10.13209/j.0479-8023.2022.116

收稿日期: 2022–08–09;

修回日期: 2022–10–12

北京大学学报(自然科学版) 第59卷 第4期 2023年7月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 4 (July 2023)

基于深度学习的遥感样本库一致性评估

姚照原1 马磊2 万玮1 宋本钦2 王卫红2 邓继伟3 肖蕾1 冀锐1 魏之皓1 崔要奎1,†

1.北京大学地球与空间科学学院, 北京 100871; 2.中国电子科技集团公司电子科学研究院, 北京 100041; 3.中国铁路设计集团有限公司, 天津 300251;†通信作者, E-mail: yaokuicui@pku.edu.cn

摘要 现有基于深度学习的遥感研究集中在算法开发方面, 缺乏对遥感样本库的研究。针对此问题,提出一种基于深度学习的样本库一致性评估方法, 对卫星遥感、三维建模和网络爬虫等不同来源的舰船样本库中各类样本之间的相似性进行评估。结果表明: 1)在样本库一致性最高时, 该方法得到的一致性为1; 2)当样本库一致性呈梯度变化时, 一致性评价结果随样本库一致性的变化而变化; 3)数据来源相似的样本库能够进行合并, 制作方式差异较大的样本库不能合并。因此, 所提方法能够准确地评估样本库的一致性, 可为深度学习训练时样本库的选择提供参考。

关键词 深度学习; 遥感影像; 样本库; 一致性评价

卫星遥感技术能够对地球表面进行大范围的连续观测,在科研和工程领域得到广泛应用[1]。遥感数据的常见形式是多通道图像, 可为土地利用分类[2]、目标检测[3]、语义分割[4]和变化检测[5]等研究领域提供丰富的数据[6]。遥感影像分类是卫星遥感数据的主要用途之一[7]。深度学习算法能够以较高的精度对遥感影像进行分类, 因此广泛应用于国土资源、农业林业和水文气象等领域。

近年来, 作为深度学习的基础, 各类遥感影像样本库的共享范围不断增加, 包括多种传感器和时空分辨率。同时, 三维仿真[8]和网络爬虫[9]等方式已成为制作样本库的主要手段。目前, 遥感影像样本库的质量控制主要有以下两种方式。

1)以 Pascal VOC[10]为代表的、完全由数据生产者控制的质量控制方式。Pascal VOC 是世界知名的计算机视觉样本库, 包括 11540 张图片、20 个类别以及 27450 个被标注的对象, 主要由数据提供者组织专业人员制定统一的完善的标注指南, 并严格遵照指南来标注、检查和发布数据。在社区使用VOC2007 样本库的过程中, 数据提供者只收到过一个错误报告, 由此可以证明 Pascal VOC 样本库质量的可靠性。

2)以 ImageNet[9]为代表的、采用少数服从多数投票机制的质量控制方式。ImageNet是计算机视觉领域的知名样本库, 包括 14197122 张图片以及21841 种类别。ImageNet 通过多人对同一张图片进行标注的方式进行质量控制, 从搜索引擎自动收集的某个类别的每张图片都通过 Amazon Mechanical Turk 在线分发到多个标注者, 如果有足够比例的标注者认为图像包含标签, 则这张图片通过质量控制, 并作为该类别的样本进入准备发布的样本库; 如果没有足够的标注者在这张图片上达成一致, 则需要更多的标注者来决定是否采用。

样本库的一致性是衡量样本库中相同标签样本相似性的指标, 由样本库中每类样本的一致性组成的向量表示。如果某类样本的一致性为 1, 则表示此类样本完全一致。目前, 对样本库一致性的描述主要有 3 种形式: 1)对样本库属性的刻画, 主要采用的指标包括类别数目、每个类别样本的平均个数、每个类别样本数的分布以及标注框在图像中位置的分布等[11]; 2)使用多种流行的深度学习算法, 在提供的样本库上进行训练和测试, 对不同算法的效果进行比较[12]; 3)与其他已知样本库比较, 用其中一种样本库训练神经网络, 用另一种样本库作为验证数据进行精度评价, 通过交叉验证的方式得到对发布样本库质量的评价[13]。第 2 种和第 3 种样本库评价方式都采用深度学习算法得到样本库的基准, 为开发新的深度学习算法提供可供对比的结果, 被越来越多的数据发布者采用。

遥感能对地表进行多种尺度的多次覆盖成像, 地表遥感影像的复杂性随着分辨率的提高而不断提高。对于深入的遥感研究, 评价遥感影像的一致性必不可少。但是, 目前缺少专门探讨遥感影像样本库一致性的研究。本研究提出一种基于深度学习的样本库一致性评价方法, 并通过在来自遥感、三维仿真和网络爬虫等方式构建的船舰样本库上的应用, 对算法的可靠性进行评估。

1 材料与方法

1.1 数据

本研究选择舰船为研究对象, 收集 3 种来源的航空母舰(carrier vessel nuclear, CVN)和两栖驱逐舰(destroyer designed to launch guided-missiles, DDG)的图片数据, 并进行人工标注。具体步骤如下: 1)下载包含舰船目标的高分二号卫星遥感影像和 Goo-gle 地图等卫星遥感影像, 裁剪后保留可见光的 3 个通道, 人工解译舰船类别并进行标注; 2)对不同视角和天气条件下的舰船目标进行三维仿真建模, 得到大小固定的三维仿真图片, 根据建模使用的舰船类型进行标注; 3)对两类舰船进行关键词检索和搜索引擎爬虫, 得到网络爬虫图片, 并人工筛选质量较高的图片, 根据检索关键词进行标注(图 1)。将 3种来源的数据裁剪为 256 像素×256 像素的大小, 每个类别的数据量如表 1 所示。

1.2 样本库一致性评价方法

本文提出的基于深度学习的样本库一致性评价方法的框架如图 2 所示。

算法流程描述如下。

1)输入需要评价的深度学习分类样本库, 包含M类照片和标注。

2)选择其中第 i 类和第 j 类, 将照片按照一定的比例随机划分 N 次, 得到 N 组训练集和测试集。

3)在第 k 个训练集上获得网络权重, 在第 k 个测试集上进行图片分类。

4)通过深度学习算法, 得到在第 k 个测试集上第 i 类样本的占比width=15.45,height=14.15, 第 k 个测试集中实际标注的第 i 类样本的占比width=18.55,height=14.15width=82.65,height=29.15记为此样本库在第 k 次划分中第 i 类样本的相似性, width=19.9,height=14.15width=65.8,height=29.15记为此样本库在第 k 次划分中第 j 类样本的相似性。

5)重复步骤 3~4, 得到类别 i 稳定的一致性width=14.15,height=14.15width=50.8,height=29.15和类别 j 稳定的一致性width=65.4,height=29.15

6)重复步骤 2~5, 每次输入不同类别的样本, 做二分类判别, 得到第 i 类样本的一致性为width=18.55,height=14.15width=38.85,height=31.35

width=450.35,height=223.8

图1 不同来源的舰船种类

Fig. 1 Ships from different sources

表1 不同来源的两类舰船数量

Table 1 Number of ships from different sources

舰船对象高分二号卫星遥感影像谷歌遥感影像三维仿真图片网络爬虫图片 CVN59921930242 DDG5579035774213

7)输出多类样本库的各类样本的一致性 Ci

本研究选择深度学习算法 YOLOv3[14]来训练分类模型。

1.3 验证策略设计

为了验证样本库一致性检验方法的可靠性, 我们用 3 种方式构造具有多种一致性水平的样本库, 用来检验不同样本库之间的一致性差异。

1)高一致性样本库。当一个样本库达到理论上的最高一致性时, 该样本库内任何一类样本的内部没有任何区别。为了构造这样的样本库, 将两张船舶影像分别复制一定的数量, 构成包含两类样本的样本库。根据随机生成的比例, 将数据集划分为训练集和测试集, 得到一组一致性最高的样本库。

2)梯度一致性样本库。通过交换数据标签的方式构造一系列具有不同一致性的样本库。①经过人工标注和质量控制, 得到保证精度的样本库A0, 由来自高分二号卫星遥感影像的 CVN 和 DDG两类舰船目标组成。②对于 A0 中的两类样本,按照 0, 10%, 20%和 50%的比例随机改变样本的标签,得到 4 个样本库。

width=223.9,height=291.8

图2 基于深度学习的样本库一致性评价方法

Fig. 2 Method to assess consistency for image dataset based on deep learning

3)混合样本库。通过合并不同来源样本库的方式, 构造两个测试样本库: ①不同来源的舰船遥感样本(包括高分二号卫星遥感影像和谷歌遥感影像); ②不同制作方式的舰船样本(包括网络爬虫图片和三维仿真图片)。

2 结果

2.1 高一致性样本库的一致性评价

对于一致性最高的情况, 选取两张图片 P1 和 P2, 通过复制的方式构造样本库。将 P1 和 P2 各复制 200 份, 构成一个大小为 400 张、有两个类别的高一致性样本库。在这个样本库中, 已知 P1 和 P2 的标注占比均为 50%, 使用本文提出的方法和上述实施步骤, 评估样本库的一致性。每次划分训练集和测试集的比例服从正态分布; 对于每一次划分训练集和测试集的情况, 分别检测测试集中 P1 和 P2 的占比, 得到 P1 的平均占比是 50.04%, P2 的平均占比是 49.96%。在多次随机划分中, 此样本库中 P1 和P2 样本的一致性均为 1。因此, 当分类网络能够准确地识别样本类别时, 样本库的一致性达到最高。

2.2 梯度一致性样本库的一致性评价

为了验证一致性评价算法对样本错标比例的响应, 对来自高分二号卫星的 DDG 和 CVN 样本的标签进行不同程度的随机交换, 交换比例分别为 0, 10%, 20%和 50%, 得到一组具有不同一致性的样本库。每种交换比例的样本库构造分别随机进行3 次, 对每个随机交换标签构造的样本库按照 7:3 的比例划分训练集和测试集。一致性评价结果如表 2所示。可以看出, 错标会导致样本库一致性降低(交换比例为 10%); 对于充分混合均匀后的两类数据, 其一致性是接近的(交换比例为 50%)。

在不同交换比例下, 样本库的一致性有不同程度的改变。0%的交换比例下, DDG 和 CVN 都有较高的一致性; 在交换比例较小时, 随着交换比例的增加, 两类样本的一致性不断下降, 并且 DDG 的一致性缓慢下降, CVN 的一致性急剧下降。在等比例交换的前提下, 因为 CVN 类别样本数量较少, 所以其一致性比 DDG 类型的样本下降更快, 这个推论也被一致性评价结果证实。在交换比例为 20%时, CVN 的一致性接近 0, 而 DDG 的一致性下降幅度较小。在 50%的交换比例下, 两类样本充分混合, 区别降到最小, 因此两类样本的一致性评价结果在数值上比较接近。综上所述, 在本研究设计的梯度一致性样本库中, DDG 样本的一致性随着交换比例的增加而缓慢减小, CVN 样本的一致性则随着交换比例的增加而表现出先快速减小、后快速增加的趋势。因此, 本研究提出的样本库一致性检验方法能够有效地反映样本库一致性的变化。

2.3 合并样本库的一致性评价

在深度学习应用中, 合并样本库是增加样本数量以及充分训练网络的主要方式。对于人工标注的CVN 类别和 DDG 类别舰船, 本研究采用两种方式进行一致性的评价: 1)合并相似来源的样本; 2)合并具有明显差异的样本。

对于相似来源样本的合并, 采用高分二号卫星样本和谷歌遥感影像样本, 构成 3 个样本库: 来自高分二号卫星的样本集合、来自谷歌遥感影像的样本集合以及来自高分二号卫星或谷歌遥感影像的样本集合。3 个样本库的一致性评价结果如表 3 所示。可以看出, 高分二号卫星来源和 Google 来源的DDG 与 CVN 都具有较高的一致性, 说明 4 类数据对象(高分二号卫星来源 DDG 样本、Google 来源DDG 样本、高分二号卫星来源 CVN 样本和 Goo-gle 来源 CVN 样本)都具有较高的内部一致性, 可以用深度神经网络进行识别。将两种来源的样本集合并后, DDG 样本的一致性提高, CVN 样本的一致性略有下降, 说明两种来源的样本具有较高的相似性,合并后不会明显降低样本库的一致性。考虑到在此样本库基础上进行神经网络训练需要较多的数据, 我们认为将同样来源于卫星影像的样本库合并的操作是可以尝试的, 能够改善单个来源的舰船样本库不足的问题。因此, 来自高分二号卫星和谷歌的样本可以合并在一起训练神经网络, 从而达到扩大样本库规模的目的。

表2 梯度一致性样本库评价结果

Table 2 Assessment of datasets with gradient consistency

交换比例/%数量一致性(第1次)一致性(第2次)一致性(第3次)DDGCVNDDGCVNDDGCVNDDGCVN 0582 590.9920.9160.9860.8820.9890.862 105301110.8980.4150.8880.3770.8850.357 204801610.7590.0610.7530.0150.7550.024 503223190.6620.7130.7240.7600.6880.694

说明: 粗体数字表示同等交换比例条件下最高的一致性评估结果。

表3 高分二号卫星和谷歌遥感影像样本库评价结果

Table 3 Assessment of datasets from GF-2 and Google

来源规模测试占比%标注占比%一致性 训练测试DDGCVNDDGCVNDDGCVN 高分二号卫星44819287.69.590.89.20.9650.967 谷歌30813183.415.783.716.30.9960.962 全部75632388.611.288.311.70.9970.957

对于来源具有明显差异的样本的合并, 采用三维仿真图片和网络爬虫图片, 构成 3 个样本库: 三维仿真技术制作的样本集合、来自网络爬虫的样本集合以及三维仿真制作或网络爬虫获得的样本集合。3 个样本库的一致性评价结果如表 4 所示, 可以看出, 三维仿真图片的一致性较高, 为 98.9%, 由于同时具有多种拍摄角度和大小, 因此网络爬虫图片的一致性较低。合并两种来源的数据后, DDG 和CVN 两类目标的一致性都有所降低, 说明合并后两种舰船目标之间更加难以区分, 样本来源的差异干扰了深度神经网络对样本类别差异的识别, 不利于神经网络分类。一般情况下, 三维仿真图片和网络爬虫图片不适合放在一起训练舰船并识别神经网络。同理, 具有明显风格差异的数据无法直接合并使用。当样本库之间差异显著时, 以合并样本库的方式来扩大样本库规模的尝试并不总是有利的。

3 讨论

目前评价样本库质量的常用方法主要是通过描述性统计来刻画样本库的一致性, 例如统计标注框的分布和数量等方式。这些样本库的质量在很大程度上依赖于数据生产方对数据质量的控制和刻画, 需要多名专业人员对数据进行仔细的划分, 才能保证样本的准确分类。这些方法缺乏定量化的指标, 即缺少通用的指标来对样本库的一致性进行评价。本研究提出的样本库一致性评估方法从特征维度出发, 对样本库内各个类别样本的一致性进行评估, 提供了更多关于数据集的信息。

表4 三维仿真和网络爬虫样本库评价结果

Table 4 Assessment of datasets from 3D-Modeling and web crawler

来源规模一致性训练测试DDGCVN 三维仿真图片3571530.9950.989 网络爬虫图片3171360.9670.880 以上两种来源6742890.9240.851

与人工检查的方式相比, 本文提出的方法是一种全自动的样本库一致性检验方法, 适合对规模较大的样本库进行质量评估。与 True/False 的二值方法相比, 本文方法能解决复杂对象样本库的一致性检验问题。当样本库的一致性最高时, 本文方法得到的一致性为 1; 当样本库一致性呈梯度变化时, 本文得到的一致性结果能够随着样本库一致性的变化而变化; 数据来源相似的样本库能够进行合并, 制作方式差异较大的样本库不能合并。上述结果均表明, 本研究提出的样本库一致性评价方法能够真实地刻画样本库的一致性水平。

本研究只使用一种较为常见的神经网络, 没有探讨不同神经网络是否都能在同一个样本库上保持相似的一致性评价结果, 也没有使用其他神经网络的精度评价指标, 而是采用相似性的度量标准。神经网络对样本的识别能力取决于样本的特性和网络的结构, 如果采用准确度和召回率等其他指标, 神经网络的识别能力会对样本库质量评价产生影响。在未来的研究中, 我们会进一步探究不同神经网络在同一个样本库上的评价结果是否一致。

4 结论

本文提出一种基于深度学习的遥感影像样本库一致性评价方法, 并通过在遥感、三维仿真和网络爬虫等方式构建的船舰样本库上的应用, 对算法的可靠性进行评估, 结果表明此方法可以反映样本库的一致性水平。一致性高的样本库对分类算法的复杂程度要求更低, 但是无法用于充分训练复杂神经网络, 会造成资源的浪费; 一致性低的样本库包含更多的信息, 需要用更大的网络来训练。准确地选择合适的样本库进行训练, 对深度学习的应用十分必要, 特别是在遥感图像分类领域, 数据呈现多种来源、多种波段和多种分辨率的特点, 需要对用于训练神经网络的数据进行一致性评价。基于对多种来源的样本库和不同一致性水平样本库的评价结果, 本文认为, 恰当地选择样本库对于深度学习的应用至关重要, 一味地增加样本库的规模并不总能带来算法稳定性的提升。本文提出的样本库一致性评价方法能够反映不同样本库的一致性变化,可为提高分类模型的识别精度提供样本库选择参考。

致谢 北京未名福科技有限公司李滨博士和易丹阳工程师提供舰船目标的三维仿真图片, 在此表示感谢。

参考文献

[1] 舒弥, 杜世宏. 国土调查遥感 40 年进展与挑战. 地球信息科学学报, 2022, 24(4): 597–616

[2] Talukdar S, Singha P, Mahato S, et al. Land-use land-cover classification by machine learning classifiers for satellite observations — a review. Remote Sen-sing, 2020, 12(7): 1135–1159

[3] Li K, Wan G, Cheng G, et al. Object detection in optical remote sensing images: a survey and a new benchmark. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159(1): 296–307

[4] Hossain M, Chen D. Segmentation for object-based image analysis (OBIA): a review of algorithms and challenges from remote sensing perspective. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 150(1): 115–134

[5] 眭海刚, 冯文卿, 李文卓, 等. 多时相遥感影像 变化检测方法综述. 武汉大学学报(信息科学版), 2018, 43(12): 1885–1898

[6] 冯权泷, 陈泊安, 李国庆, 等. 遥感影像样本数据集研究综述. 遥感学报, 2022, 26(4): 589–605

[7] Lu D, Weng Q. A survey of image classification me-thods and techniques for improving classification per-formance. International Journal of Remote Sensing, 2007, 28(5): 823–870

[8] 卢昱杰, 刘博, 刘金杉, 等. 面向施工机械的深度学习图像数据集合成方法. 建筑科学与工程学报, 2022, 39(4): 100–107

[9] Deng J, Dong W, Socher R, et al. ImageNet: a large-scale hierarchical image database // 2009 IEEE Con-ference on Computer Vision and Pattern Recognition. Miami, 2009: 248–255

[10] Everingham M, Van Gool L, Williams C, et al. The pascal visual object classes (VOC) challenge. Interna-tional Journal of Computer Vision, 2010, 88(2): 303–338

[11] Lin T, Maire M, Belongie S, et al. Microsoft COCO: common objects in context // European Conference on Computer Vision. Cham, 2014: 740–755

[12] Sun X, Wang P, Yan Z, et al. FAIR1M: a benchmark dataset for fine-grained object recognition in high-resolution remote sensing imagery. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 184(1): 116–130

[13] Xia G, Bai X, Ding J, et al. DOTA: a large-scale dataset for object detection in aerial images // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 3974–3983

[14] Redmon J, Farhadi A. Yolov3: an incremental impro-vement [EB/OL]. (2018–04–08)[2022–01–01]. https:// doi.org/10.48550/arXiv.1804.02767

Consistency Assessment of Remote Sensing Dataset Based on Deep Learning

YAO Zhaoyuan1, MA Lei2, WAN Wei1, SONG Benqin2, WANG Weihong2, DENG Jiwei3, XIAO Lei1, JI Rui1, WEI Zhihao1, CUI Yaokui1,†

1. School of Earth and Space Sciences, Peking University, Beijing 100871; 2. China Academic of Electronics and Information Technology, Beijing 100041; 3. China Railway Design Corporation, Tianjin 300251; † Corresponding author, E-mail: yaokuicui@pku.edu.cn

Abstract The current deep learning studies on remote sensing mainly focused on deep learning algorithms rather than deep learning datasets. This study proposes a method of dataset consistency assessment based on deep learning, in which the similarity among various types of ships from different sources (such as satellite remote sensing, 3D modeling, and web crawler) is evaluated and then used to characterize the consistency of the ship dataset. The results show that when the consistency of the dataset is the highest, the consistency by the proposed method is 1. When the consistency of the datasets is gradient, the consistency also changes. Images with similar data sources can be considered as same class, and images with greatly differences cannot be merged. Thus, the proposed method can assess the dataset consistency properly, and provide a suggestion to build an image dataset for deep learning training.

Key words deep learning; remote sensing; dataset; consistency