矿产是我国的重要资源之一,长期以来在国家经济建设中发挥了重要作用[1]。但是由于开发方式比较粗放和矿区生态环境脆弱容易遭到破坏的特点,造成的矿区生态环境问题日益突出[2]。随着遥感技术的快速发展,利用遥感手段对矿区植被覆盖、生态环境进行变化信息的检测,是目前遥感研究的热点之一[3-6]。遥感变化检测是通过对同一区域不同时间获取的遥感影像进行数据处理和影像对比分析,以获取地表类型变化信息的过程。及时获取地表覆盖和土地利用变化信息在土地规划管理、生态保护等实际应用中具有重要作用[7-8]。
近些年来,国内外学者针对矿区土地利用和生态环境变化方法提出了很多方法[9-11]。这些方法主要是通过对提取的纹理、形状、颜色等人工设计的图像特征进行研究分析,进而得到变化信息。利用人工设计图像特征进行变化检测虽然取得了一定的成果,但是存在一定的局限性。需要对人工设计图像特征深入地进行信息挖掘,多特征融合等处理,增加了变化检测模型的复杂性。
随着深度学习在目标检测和分类等视觉任务中的成功应用[12-14],展示出了神经网络强大的特征提取能力。2014年,LONG等[15]提出全卷积网络(Fully Convolutional Networks,FCN)利用卷积层代替全连接层,可以接受任意尺寸的输入图像,解决了语义级别的图像分割问题,实现了对图像进行端到端的像素分类。由于FCN没有考虑像素与像素之间的关系,得到的结果不够精细,BADRINARAYANAN等[16]对编码端和解码端进行逐层跳跃连接,并利用编码过程中的池化位置索引信息,对图像进行上池化(Unpooling),恢复图像大小,提高了分割精度。OKTAY等[17]将注意力机制引入到UNet网络结构中,在对编码端与解码端特征进行跳跃连接前,应用注意力机制,生成一个门控制信号,用来控制不同空间位置特征的重要性。随着空间池化金字塔模块(Atrous Spatial Pyramid Pooling,ASPP)[18],特征金字塔[14],空洞卷积[19]等方法的提出并在网络模型中的使用,通过增加多尺度信息和上下文语义信息,在图像分割中取得了不错的效果。语义分割网络模型的发展,也促进了深度学习方法在遥感影像变化检测方向的应用。一些学者将前后两时期遥感影像地物变化问题转化为影像二值分割问题,利用端到端的神经网络提取影像的变化信息,并取得了成果[20-22]。
矿区土地利用类型变化信息,可以指导矿区生态保护和土地规划管理。通过研究矿区土地利用类型变化信息,掌握矿区土地利用变化规律是矿山可持续发展的重要基础。笔者基于改进UNet孪生网络结构,通过加入影像的多分辨率信息和增大特征提取时的感受野(Reception Field,RF),将端到端的深度学习方法应用到矿区土地利用类型的变化检测中,在避免提取人工设计图像特征繁琐的同时,提高遥感影像矿区变化检测的精度。
本节对提出的变化检测网络结构进行详细介绍,变化检测网络结构如图1所示,其中,m为特征影像在维度方向的融合;Skip Connetion为在对应编码层和解码层中进行特征连接。网络结构主要包括:改进的UNet孪生网络结构,影像中心环绕和特征金字塔模块。
UNet网络[23]作为比较早的全卷积网络之一,最初用于医学图像分割。UNet网络结构由3部分组成,分别是:用于捕捉语义特征的编码端,精准定位的解码端以及结合底层信息和高层信息的跳跃连接。图像经过编码端4次池化下采样后,大小变为原图像大小的1/16。为了使输出结果和输入图像大小一致,解码端过程中逐层对图像进行上采样并通过跳跃连接融合对应层的编码端图像特征,最后对图像进行逐像元预测,得到预测结果图像。该网络可以用少量数据,训练得到好的模型,在遥感影像解译中广泛应用[24-26]。本文以UNet网络作为基本的网络结构。原UNet结构编码端利用池化层进行下采样。池化层虽然增大了感受野,让卷积接收到更多的图像信息,去除了图像中的冗余信息,但是增大感受野的前提是丢失了一些信息,这对基于像元任务的结果预测有一定的影响。因此本文用步长为2的卷积层来替换池化层。
图1 网络结构
Fig.1 Network structure diagram
对于大小为224×224的影像,经过编码端特征提取后影像大小变为14×14。此外,将原UNet网络编码端的单通道输入结构变为权值共享的双通道孪生网络结构[27],以便接收前后两时期的影像,从影像中提取差异信息,进而得到变化区域。
影像中心环绕[28]由两部分组成即中心区域(Central)和环绕区域(Surround)。假设原始输入影像大小为224×224,中心区域接收的是从原始影像中心裁剪的112×112的高分辨率影像块,环绕区域接收的是将原始影像下采样为原来1/2大小的低分辨率影像块。影像中心环绕产生了高分辨率和低分辨率影像块,这种多分辨影像信息可以突出影像的差异性。如图2所示黑色框中为对输入的前后两时期影像进行中心环绕的示意,Conv为卷积操作,sub为差值影像。
图2 影像中心环绕和改进UNet孪生网络编码端 中心环绕结构
Fig.2 Image central-surround and improved encoder part of the central surround based on the UNet siamese network
将得到的中心区域和环绕区域影像输入到改进UNet孪生网络结构编码端。如图2红色框所示,影像差值可使变化信息从背景影像中显现出来,因此分别提取中心区域和环绕区域前后两时相影像的特征,并计算同一卷积层的差值影像:
Ssubi,Csubi=|f1,i-f2,i|,i=1,2,3,4,5
其中,Ssubi,Csubi分别为第i卷积层环绕区域中心区域的差值影像;f1,i,f2,i分别为前后两时期影像在第i卷积层得到的特征影像。然后,对同一卷积层的中心区域和环绕区域差值影像进行在波段维度的特征融合,将融合后的影像作为编码端提取的特征影像。
Fi=meger(Ssubi,Csubi),i=1,2,3,4,5
其中,Fi为融合后的特征影像;meger为对 Ssubi 和Csubi 图像进行融合操作。融合后的特征影像通过跳跃连接输入到对应层的解码端,利用Softmax分类器进行端到端的预测,得到变化二值图像。
空洞卷积池化金字塔首次提出并使用在Deeplab v2[29]网络结构中,该结构受到空间金字塔[30]的启发,通过在给定输入图像上以不同采样率的空洞卷积并行采样,以增大卷积层在图像中的感受野,进而捕捉更多图像的上下文信息。
空洞卷积可以在不增加计算量的同时,增加感受野的大小,将更大的上下文结合起来。膨胀率为r的空洞卷积通过在卷积核中间填充0的方式,把K×K的卷积核扩大为NK×NK,感受野变为RF,而不增加参数数量或计算量。NK,RF计算公式为
NK=K+(K-1)(r-1)
RFm=RFm-1+[(Km-1)Sm]
其中,NK为膨胀后新的卷积核大小;RFm为第m层感受野大小;Km为第m层卷积核大小;Sm为第m层卷积步长。空洞卷积提供了一种有效的控制视野的机制,并在利用小视野准确定位和大视野中上下文空间信息之间找到最佳权衡。
本文的特征金字塔结构,除了加入前文所述的不同膨胀率的空洞卷积获取多尺度语义信息外,还利用全局平均池化模块(Global Average Pooling,GAP)[31]获取图像的全局信息。如图3所示,特征金字塔结构由3个膨胀系数dilat分别为1,2,4的空洞卷积和一个带有上采样的全局平均池化组成。经过特征金字塔生成的多尺度特征张量直接输入到网络的解码端,进行特征跳跃连接和图像大小恢复,最后预测得到变化二值图像。
图3 特征金字塔
Fig.3 Feature pyramid
为了验证提出方法的有效性,本文获取了内蒙古自治区呼伦贝尔市宝日希勒露天矿于2012年4月资源三号(ZY3)和2016-07高分一号(GF1)的两幅影像,两幅影像均包括蓝,绿,红和近红外4个波段,对两幅影像裁剪后的宝日希勒矿区影像区域大小为4 000×4 000。宝日希勒矿于2001年开始投入生产,截止到2016年,矿区内排土场基本完成复垦,地表覆盖类型较复垦前具有显著变化。两幅影像的预处理过程包括:几何校正、正射校正和辐射校正。通过对两幅影像进行目视解译,得到了两时期影像的变化参考图像,白色表示变化区域,黑色表示未变化区域,如图4所示。
图4 实验数据
Fig.4 Experimental data
由于获取的ZY3和GF1多光谱遥感影像包含4个波段,分别是:红(Red),绿(Green),蓝(Blue)和近红外(Near infrared)。任意3个波段相互组合都可以到得不同的彩色影像。其中真彩色影像上地物色彩与实际地物颜色接近或者一致,可以反映地物的实际状况,便于直接通过影像观察矿区地物类型的变化情况。因此本文将红(Red),绿(Green),蓝(Blue)3个波段的灰度影像分别加载到红、绿、蓝三通道进行波段组合得到的真彩色影像进行试验 。如图4所示,每个影像块大小均为1 000×1 000。选取编号为2,3,9,12,15,16的前后两时期影像块以及对应的变化参考影像块作为训练集,其余影像块为测试集。对训练集影像对和参考影像按照100个像素的重叠度裁剪成像素大小为200×200的影像,共得到726幅影像。将裁剪得到的影像按照8∶2的比例随机进行划分训练集和验证集,得到训练集影像数量为581幅,验证集影像数量为145幅。为了增加训练样本的数量、提高数据特征多样性、增强模型的鲁棒性和泛化能力。本文对训练集数据对和标签一起进行随机数据增强,主要包括:数据旋转90°,180°,270°,水平和垂直翻转。
本文实验环境为i5-8400处理器、16 G内存,NVIDIA GTX1060 5 G显卡,GPU加速库采用CUDA8.0。深度学习框架以Keras作为前端,TensorFlow为后端。
模型训练过程中采用多类别交叉熵(Categorical Crossentropy)作为损失函数,采用多类别平均准确率(Categorical Accuracy)作为训练过程中的精度评价指标。选择Adam函数作为参数优化器,设定初始学习率lr=0.001,训练迭代的最大次数epoch=100。当验证集损失不再继续降低时,对学习率进行衰减,衰减因子factor=0.1,衰减后的学习率为初始学习率与衰减因子的乘积。设置验证集损失不继续降低的容忍度为15个epoch,达到15个epoch后采用提前终止模型训练的策略(Early Stopping)结束模型训练。
模型训练好后,对测试集矿区影像经过数据处理,输入到模型中,检测矿区的变化。具体流程为:对待检测的前后两时期遥感影像利用像素大小为200×200的滑动窗口进行裁剪,相邻两个滑动窗口之间的重叠度为0,即滑动窗口的步长为200。分别获取前后两时期影像的裁剪块,将其输入到训练好的模型中,模型自动对影像提取特征,并对每个像素进行预测,判断是否发生变化,进而得到测试影像的变化二值图像。
为了验证本文方法的有效性,本文设计了4种对比实验,方法1为考虑光谱特征和纹理特征的像元级SVM变化检测方法;方法2为考虑光谱特征和纹理特征的面向对象SVM 变化检测方法;方法3为未加特征金字塔模块的变化检测方法;方法4 为未加中心环绕和特征金字塔模块的改进UNet 变化检测方法。由于本文方法选取了部分影像块作为模型训练集,因此在进行精度分析时,本文方法和对比方法结果中训练集所在位置的影像块不参与精度评定分析。将本文方法以及对比方法得到的变化检测结果分别与变化参考影像(图4)进行统计,得到变化与未变化像元的混淆矩阵。本文利用混淆矩阵,选取变化检测中常用的精度评价指标:总体精度(Overall Accuracy,OA),Kappa系数(Kappa Coefficient)、漏检率(Omission)、误检率(Commission)等对得到的变化检测结果进行评价分析。评价指标中总体精度和Kappa系数值越大,说明检测的效果越好;漏检率和误检率值越大,说明检测效果越差;反之亦然。
本文选取图4中编号为5和6的影像块检测结果进行可视化,变化检测结果如图5所示。与对比方法1和方法2得到的变化检测结果相对比,可以看出基于深度学习变化检测方法相较于传统变化检测方法得到的检测结果整体效果更好,由于网络通过卷积方式不仅提取了图像的低层特征,还提取了图像的高层语义特征。中心环绕和特征金字塔模块则增加了模型的多尺度信息和感受野,提高了模型边缘检测精度,地物完整性较好。测试集影像变化检测精度指标计算对比结果见表1。
表1 变化检测结果精度对比
Table 1 Accuracy comparison of change detection results
评价指标Kappa系数总体精度(OA)误检率(Commission)漏检率(Omission)本文方法0.812 90.957 20.008 80.226 1对比方法10.690 10.932 70.163 30.355 9对比方法20.736 60.941 10.150 10.296 0对比方法30.797 30.954 30.083 00.253 3对比方法40.804 60.951 20.170 10.204 9
本文方法与对比方法3相比,虽然Kappa系数和总体精度提升不明显,而且误检率和漏检率也相差不大。但是由图5结果可以看出,对比方法3得到的变化检测结果影像块边缘结果粗糙,造成拼接后的影像有明显的黑边。而本文方法则没有出现这样的问题。与对比方法4相比,本文方法和对比方法3这3种方法在Kappa系数和总体精度上几乎没有明显差距,但是对比误检率可以发现,本文方法和方法3的误检率明显低于方法4,这是因为本文方法和对比方法3中加入了中心环绕模块,图像多分辨率信息降低了误检率。此外,对比方法4中,影像块5结果中也有明显的拼接现象。相较于比较方法1和比较方法2两种传统的变化检测方法,本文方法总体精度提高1.6%~2.5%,并且误检率和错检率也有明显降低。
图5 变化检测结果
Fig.5 Change detection results
(1)为提高矿区遥感图像变化检测结果,通过改进的Unet孪生网络结构对矿区遥感图像进行变化检测,在提取特征时利用权值共享的方式获得前后两时期图像的特征, 进一步突出前后两时期图像的差异信息。
(2)实验结果表明,本文方法得到的矿区变化检测结果在总体精度(OA),Kappa系数等评价指标上优于对比方法的结果,并且本文方法得到的矿区变化检测结果由于图像拼接而产生的黑边现象不明显,检测结果的完整性较好。
(3)本文方法适用于露天矿区遥感图像变化检测,利用遥感影像的时序性,动态的获取矿区土地利用变化信息,辅助于矿区的生态保护和恢复。且与传统特征提取方法相比,卷积神经网络可以有效的提取遥感图像特征,作为遥感图像解译的技术支撑,应用到遥感图像信息提取中,提高遥感图像解译效率。
[1] 薛庆,吴蔚,李名松,等.遥感技术在辽宁省矿山环境监测中的应用[J].中国地质调查,2016,3(5):54-59.
XUE Qing,WU Wei,LI Mingsong,et al.Application of remote sensing technology in mine environment monitoring in Liaoning Province[J].Geological Survey of China,2016,3(5):54-59.
[2] 高永志,初禹,梁伟.黑龙江省矿集区尾矿库遥感监测与分析[J].国土资源遥感,2015,27(1):160-163.
GAO Yongzhi,CHU Yu,LIANG Wei.Remote sensing monitoring and analysis of tailings ponds in the ore concentration area of Heilongjiang Province[J].Remote Sensing for Land & Resource,2015,27(1):160-163.
[3] 佟国峰,李勇,丁伟利,等.遥感影像变化检测算法综述[J].中国图象图形学报,2015,20(12):1561-1571.
TONG Guofeng,LI Yong,DING Weili,et al.Review of remote sensing image change detection[J].Journal of Image and Graphics,2015,20(12):1561-1571.
[4] 蒋卫国,武建军,顾磊,等.基于遥感技术的乌达煤田火区变化监测[J].煤炭学报,2010,25(6):964-968.
JIANG Weiguo,WU Jianjun,GU Lei,et al.Change monitoring in Wuda coalfield fire area based on remote sensing[J].Journal of China Coal Society,2010,25(6):964-968.
[5] 吴立新,马保东,刘善军.基于SPOT卫星NDVI数据的神东矿区植被覆盖动态变化分析[J].煤炭学报,2009,34(9):1217-1222.
WU Lixin,MA Baodong,LIU ShanJun.Analysis to vegetation coverage change in Shendong mining area with SPOT NDVI data[J].Journal of China Coal Society,2009,34(9):1217-1222.
[6] REN He,ZHAO Yanling,XIAO Wu,et al.A review of UAV monitoring in mining areas:Current status and future perspectives[J].International Journal of Coal Science & Technology,2019,6(3):320-333.
[7] 张良培,武辰.多时相遥感影像变化检测的现状与展望[J].测绘学报,2017,46(10):1447-1459.
ZHANG Liangpei,WU Chen.Advance and future development of change detection for multi-temporal remote sensing imagery[J].Acta Geodaetica et Cartographica Sinica,2017,46(10):1447-1459.
[8] CHANG Jiang,HU Tinghao,LIU Xiangxu,et al.Construction of green infrastructure in coal-resource based city:A case study in Xuzhou urban area[J].International Journal of Coal Science & Technology,2018,5(1):92-104.
[9] 吴倩雯.东江源稀土矿区土地利用变化遥感监测研究[J].测绘科学,2019,44(3):51-56.
WU Qianwen,Remote sensing monitoring of land-use change in rare earth mining area in the source region of Dongjiang River[J].Science of Surveying and Mapping,2019,44(3):51-56.
[10] 赵敏,赵银娣.面向对象的多特征分级CVA遥感影像变化检测[J].遥感学报,2018,22(1):119-131.
ZHAO Min,ZHAO Yindi.Object-oriented and multi-feature hierarchical change detection based on CVA for high-resolution remote sensing imagery[J].Journal of Remote Sensing,2018,22(1):119-131.
[11] 刘沂轩,刘誉,杜珍应,等.基于多时相遥感数据的矿区地表植被与土壤变化监测[J].地矿测绘,2016,32(4):26-29.
LIU Yixuan,LIU Yu,DU Zhenying,et al.Change monitoring of vegetation and soil based on multi-temporal remote sensing data in mining area[J].Surveying and Mapping of Geology and Mineral Resources,2016,32(4):26-29.
[12] LIN T Y,DOLLR P,GIRSHICK R,et al.Feature pyramid networks for object detection[A].2017 Ieee Conference on Computer Vision And Pattern Recognition (CVPR)[C].New York:IEEE,2017:2117-2125.
[13] HE K,ZHANG X,REN S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Trans Pattern Anal Mach Intell,2015,37(9):1904-1916.
[14] KRIZHEVSKY A S I,HINTON G E.Imagenet classification with deep convolutional neural networks[A].Advances in Neural Information Processing Systems 25(NIPS 2012)[C].New York:Curran Associates,2012:1097-1105.
[15] LONG J S E,DARRELL T.Fully convolutional networks for semantic segmentation[A].The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C].New York:IEEE,2015:3431-3440.
[16] BADRINARAYANAN V K A,CIPOLLA R.Segnet:A deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.
[17] OKTAY O,SCHLEMPER J,LE FOLGOC L,et al.Attention u-net:Learning where to look for the pancreas[J/OL].Https://arxiv.org/abs/1804.03999,2019-07-25.
[18] ZHAO H,SHI J,QI X,et al.Pyramid scene parsing network[A].Proceedings of the IEEE conference on computer vision and pattern Recognition 2017[C].New York:IEEE,2017:2881-2890.
[19] YU F,KOLTUN V.Multi-scale context aggregation by dilated convolutions[J/OL].Https://arxiv.org/abs/1511.07122,2019-07-25.
[20] LIM K J D,KIM C S.Change detection in high resolution satellite images using an ensemble of convolutional neural networks[A].2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)[C].New York:IEEE,2018:509-515.
[21] CAYE DAUDT R,LE SAUX B,BOULCH A,et al.Urban change detection for multispectral earth observation using convolutional neural networks[A].IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium[C].New York:IEEE,2018:2115-2118.
[22] AMIN L Q,WANG Y.Convolutional neural network features based change detection in satellite images[A].The First International Workshop on Pattern Recognition[C].Washington:SPIE,2016:181-186.
[23] RONNEBERGER O,FISCHER P,BROX T.U-net:Convolutional networks for biomedical image segmentation[A].Medical Image Computing and Computer-assisted Intervention(MICCAI 2015)[C].Cham:Springer,2015:234-241.
[24] XIA W,ZHANG Y Z,DARRELL T,et al.Road extraction from high resolution image with deep convolutional network-a case study of gf-2 image[A].The Proceedings of International Electronic Conference on Remote Sensing[D].Basel:MDPI,2018.
[25] IGLOVIKOV V,SHVETS A.Ternausnet:U-Net with vgg11 encoder pre-trained on imagenet for image segmentation[J/OL].Https://arxiv.org/abs/1801.05746,2019-07-25.
[26] GHOSH A,EHRLICH M,SHAH S,et al.Stacked U-Nets for ground material segmentation in remote sensing imagery[A].2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops[C].New York:IEEE ,2018:257-261.
[27] MELEKHOV I K J,RAHTU E.Siamese network features for image matching[A].2016 23rd International Conference on Pattern Recognition (ICPR)[C].New York:IEEE,2016:378-383.
[28] ZAGORUYKO S,NIKOS KOMODAKIS.Learning to compare image patches via convolutional neural networks[A].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].New York:IEEE,2015:4353-4361.
[29] CHEN L C P G,KOKKINOS I,et al.Deeplab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected crfs[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,40(4):834-848.
[30] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[A].The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C].New York:IEEE,2016:770-778.
[31] YANG J,GUO J,YUE H,et al.CDnet:CNN-Based cloud detection for remote sensing imagery[J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(8):6195-6211.