基于深度学习的遥感图像水体提取综述:传统方法与新技术的比较
基于深度学习的遥感图像水体提取综述
温泉1, 李璐2, 熊立3, 杜磊4, 刘庆杰5, 温奇6
1.腾讯科技(北京)有限公司,北京
2.之江实验室,杭州
3.江西省减灾备灾中心,南昌
4.自然资源部国土卫星遥感应用中心,北京
5.北京航空航天大学杭州创新研究院,杭州
6.中国科学院空间应用工程与技术中心,北京
摘要:
对江河湖泊等水体目标的空间分布、时序变化进行及时、准确的检测和统计具有十分重要的意义和应用价值,已成为当前遥感地表观测研究的重要热点。传统水体提取方法依靠经验设计的指数模型进行水体阈值分割或分类,易受到植被、建筑物等地物的阴影以及水体自身泥沙含量、盐碱浓度等理化特性变化的影响,难以在不同时空尺度环境下保持鲁棒性。随着海量多源、多分辨率的遥感图像的快速获取,深度学习算法在水体提取方面的优势逐渐凸显并被国内外学者广泛关注。得益于深度神经网络模型强大的学习能力和灵活的卷积结构设计方案,研究人员陆续提出了各种模型和学习策略用以提高水体提取的鲁棒性和精度,但目前缺少对该类研究进展的全面综述和问题剖析。因此,文章对近年来国内外发表的相关研究成果进行总结,重点归纳不同算法在遥感图像水体提取方面的优缺点及存在的问题,并对基于深度学习的遥感图像水体提取方法研究的发展提出了建议和展望。
0 引言
陆地水体是重要的地物覆盖类型和自然要素之一,利用遥感图像对水体空间分布及变化信息进行快速、有效提取已连续多年成为研究的热点。水体提取对湿地生态系统保护与恢复、河流水域监管与污染治理、自然灾害评估等领域的研究具有重要意义。因此,研究如何高效准确地从遥感图像中提取水体区域受到国内外学者的广泛关注,并涌现出一系列方法。
水域信息在不同的地形环境下表现为湖泊、河流和湿地等类型,受地形地貌影响,各种水体类型的规模、分布状态不一致。同时,受人类生产、生活等活动影响,城市区域的河流水质变化导致其在遥感图像中的光谱、纹理表征也存在差异。一般来说,水体的光谱表征主要与其表面反射的波段、泥沙浓度、透射深度等因素相互作用有关,天然纯净水体对0.4~2.5 μm波段的电磁能量吸收较高,并随着波长的增大逐渐降低,在近红外和中红外波段内反射的能量极少。与之相反,植被和土壤在这个范围具有较高的反射率,这使得这2类地物与水体的光谱图像表征产生明显区别。因此,挖掘遥感图像中各谱段特征是水体提取研究的重点。然而综合考虑目前的技术趋势与需求,传统遥感水体提取方法存在人为确定阈值使得自动化程度低、同谱异物导致提取效果差等问题,难以快速准确地获取研究区水体范围。而在实际应用中,对大区域范围内快速、智能地进行水体提取与产品制作的要求不断提高,传统遥感水体提取方法明显无法满足上述需求,亟需发展新的技术为水体提取提供新的解决方案。
随着近年深度学习、人工智能技术的不断发展和提升,传统遥感图像解译模型判别特征提取难、依赖经验参数等问题正在被缓解,部分模型和算法在遥感图像融合、地物目标检测、地表变化检测、高光谱图像分类等研究领域取得了优于传统方法的结果。然而,多数研究是针对具体数据和对象提出解决方法,依靠研究人员的经验和技巧进行深度学习算法设计,未能针对不同水体提取算法和数据做整体的总结和分析。鉴于此,本文将较全面地概述遥感图像水体提取方法的研究现状,重点总结近年来深度学习算法在遥感水体提取领域的国内外研究成果,分析当前存在的问题并对未来的研究提出建议和展望。
1 传统遥感图像水体提取方法
遥感图像水体信息提取的数据源主要包含合成孔径雷达( Radar,SAR)遥感数据、光学/多光谱遥感数据以及两者融合后的数据。图1分别展示了高分三号、-2和获取的SAR和光学遥感图像,前2种图像的空间分辨率为10 m,为30 m。对比4个场景中水体区域可以看出,水体在不同传感器成像情况下具有较大的颜色、纹理、几何等表征差异。受水体区域雷达波的平面散射影响,阈值法能够快速地从SAR图像中提取水体区域。对于光学/多光谱遥感图像,水体提取则较多使用阈值和光谱指数法、面向对象法和机器学习分类法等。
1)阈值和光谱指数法。该类方法具有计算简单、快速的优点,是中低空间分辨率遥感图像水体提取的常用方法,曾玲方等和Cao等利用SAR图像强度图的局部直方图单、双峰值分布进行水体分割阈值确定,实验证明双峰法能够抑制SAR图像相干斑噪声对阈值估计及水体提取结果的影响。此外,阈值法多在后处理阶段使用形态学处理、分割等方法对初步提取结果进行优化。在多光谱遥感图像水体提取研究中,研究人员通过分析水体与其他各类地物的光谱曲线特征规律,建立归一化水体指数( water index,NDWI)模型,采用阈值分割的方法从水体指数产品中提取地表水体。为解决NDWI易受云层、山体和建筑物阴影影响的问题,往往还需要结合专家经验来选择合适的波段以及后处理手段对分割结果进行优化。由此可见,分割阈值的估计易受地理环境、季节以及水体自身特性等因素变化影响,难以稳定地在不同区域实现自动、有效地水体信息提取。
2)面向对象法。通常水体在光谱图像局部区域具有相似的纹理和光谱特征,以水体对象内部的同质性为量化标准,结合多尺度分割方法使同质像元组成大小不同的对象,进而实现更高层次的水体区域提取。但受风浪影响水体表面的体反射能量也出现差异,导致同质区域内出现差异较大的变化。因此,研究人员也将SAR图像的极化分解特征、多源图像的融合特征等进行组合并利用阈值函数或分类器进行分类。虽然面向对象方法能够取得比阈值法更加准确的提取结果,但分割尺度会显著影响提取的性能,因此如何自动、准确地选择最优分割尺度仍是该类方法研究的关键。
3)机器学习分类法。随着机器学习分类算法在图像分类、分割任务中的成熟应用,基于非监督的模糊C均值聚类(fuzzy C means,FCM)和监督学习的支持向量机( ,SVM)、分类器方法逐渐成为大区域水体提取的首选方案之一。林顺海和洪亮等结合水体指数NDWI和改进的FCM聚类算法实现了城市地表水、河流的自动提取,不仅较好地保持了水体区域完整性,对复杂背景也具有更好的抑制作用。为克服SAR图像强度图中建筑物、山体阴影导致水体误分的问题,胡德勇等利用单极化SAR图像的纹理特征,通过SVM分类器实现了水体和建筑用地信息的提取; 等借助软件获取-X图像中灰度共生矩阵(gray-level co- ,GLCM)纹理信息提取洪水区域,总体提取精度最高达到了83.63%。这些将SAR结合水体的纹理特征与极化特征的模式分类方法逐渐引起了关注。然而,机器学习方法提取水体需要复杂的光谱分析和特征选择,需要依赖于丰富的先验知识,不仅耗时且难以满足对精度、自动化水平和应用范围的要求。
2 基于深度学习的水体提取方法2.1 深度学习算法简介
目前,遥感图像解译中常用的深度学习网络包括卷积神经网络( , CNN)、循环神经网络( , RNN)、长短期记忆网络(long short-term , LSTM)、自编码器(, AE)和生成对抗网络( , GAN)等。其中,19层、50层和101层的VGG模型、和已作为主干网络广泛应用于各种特性学习任务中。
在与遥感图像水体提取紧密相关的图像语义分割领域,由Long等提出的全卷积神经网络(fully ,FCN)和在此基础上提出的“编码-解码”结构的U-Net网络模型成为端到端图像语义分割的主流方法。FCN和U-Net的结构如图2所示,其中FCN将传统CNN的全连接层替换为上采样的卷积层,U-Net将下采样获取纹理、边缘等图像细节和语义信息通过跳跃连接的方式传入到解码结构,实现了对任意尺寸的输入图像进行端到端的像素级分类。为弥补下采样过程引起的特征图分辨率和细节信息丢失问题,Chen等提出膨胀卷积结构,在空间分辨率保持不变的情况下增大模型的感受野,而且利用该结构提出了 V3并在视觉场景分割任务中取得了较好的分割性能。
2.2 基于深度学习的水体提取流程
随着深度学习神经网络模型在目标检测、分类与分割等计算机视觉领域不断取得突破性进展,研究人员开始关注如何设计合适的神经网络模型来解决传统方法在遥感图像空谱特征选择、水体分割方面存在的问题。
基于深度学习算法的遥感图像水体提取流程如图3所示,其整体大致可划分为图像(与标签)输入、特征提取、语义分割和后处理4个阶段。由于CNN可灵活地设计卷积层结构,深度学习算法可以使用不同类型和通道数的遥感图像作为输入,但通常需要在训练前对图像进行归一化操作。标记样本的制作通常来源于人工目视解译后对图像像素逐一标记,但人工和时间成本较高。Gong等提出利用FCM对AE学习到的图像特征进行聚类,将得到的分类结果作为伪标签输入到网络模型进行监督训练; 李鑫伟等提出将多个互不重叠的原始样本数据子集分别训练神经网络并协同更新标签,通过弱监督多次迭代重复训练语义分割网络,多个网络分别预测并通过投票产生最终的水体提取结果。这些方式降低了人工标记的时间和成本,但模型的分类精度易受伪标签质量的影响。使用样本数据对网络模型进行训练后,神经网络可根据学习到的水体特征进行像素级分割,得到初步分割结果。为进一步解决高分辨率图像中其他地物导致的分割空洞、碎块等问题,通常需结合图像处理、数字高程模型( model,DEM)辅助信息等手段对提取结果进行后处理,提高水体提取的完整性和精度。
2.3 基于深度学习的水体特征提取与分割 2.3.1 光学图像水体提取 2.3.1.1 光学图像水体特征提取
不同于传统基于单一或固定尺寸邻域像素的采样模型,基于深度学习方法的遥感图像地物识别、提取多利用AE 、深度置信网络[55-56]、深度卷积神经网络(deep ,DCNN)和GAN等模型实现在不同空间尺度下图像低阶纹理、几何特征和高阶语义特征的提取。
在水体特征提取研究中使用的4种不同深度学习模型结构如图4所示,其中图4(a)展示的是在遥感图像分类、目标检测等领域使用最多的CNN模型,其结构通常是以VGG16(或VGG19)为代表的CNN。通过使用堆叠的多层卷积、池化结构获取原始图像的纹理、语义特征,每层特征图的个数由卷积核的个数决定,每张特征图能够对不同的地物类型产生差异的响应。图4(b)展示的是多个残差卷积块堆叠而成的深层残差卷积网络,常作为“U”型神经网络的特征编码结构,在遥感图像地物分割研究中经常使用。图4(c)和(d)展示的是2种不同的多尺度特征提取模型结构,图4(c)利用降采样的方式在输入层对原始图像进行多尺度处理,图4(d)在中间卷积层利用不同池化率或膨胀率的池化/卷积操作对特征图进行多尺度处理,获取水体局部、全局的纹理和语义特征。
王惠英等[63]利用原始的CNN模型进行河道区域提取,该方法在高分一号2 m空间分辨率图像中准确地提取了永定河的河道范围; 吕亚龙等[60]构建DCNN并使用标记样本进行监督训练,在多个卷积层内获取水体的光谱与空间特征,实现对光学遥感图像水体的准确识别。为降低DCNN模型存在的退化问题,Weng等[64]结合残差卷积结构提出了可分离的残差分割网络( ,SR-),在提取深层水体特征的同时确保了网络模型训练时不会产生梯度消失的问题。目前,随着网络模型趋于深层化、复杂化,这种残差卷积结构在很多深度学习遥感研究方法都有体现。
Yu等[69]首次结合CNN和逻辑回归分类器提出一种深度学习水体空谱特征学习方法,从原始图像中分层次提取深层特征,学习不同层水体特征的空间频谱规律; 何海清等构建NDWI指数与CNN水体识别概率的联合估计模型,并以迭代运算实现优化的遥感水体提取,显著地提高了基于指数法的水体提取精度; 赵海萍提出基于空谱特征融合的水体提取方法,通过构建深度SVM网络模型对获取的多种水体指数特征与局部二值模式(local , LBP)纹理特征进行融合,使得水体特征同时包含了光谱特性与纹理信息。为增强融合特征对高分辨率图像中水体细节的表达,Chen等提出了一种基于光谱和多尺度空间特征3-D卷积的精细水体提取网络模型,利用所提的全局空谱卷积模块、多尺度卷积模块和边界细化模块分别对水体的空谱特征进行多级融合。通过对资源三号和高分一号、二号光谱图像中水体提取精度进行验证,证实了该方法对细长河流的准确提取能力。
2.3.1.2 光学图像水体区域分割
自FCN和U-Net等语义分割网络被用于端到端的形式生成像素级的分割结果,以该模型为基础的水体提取算法逐渐得到关注[72⇓⇓⇓-76]。相比于传统阈值法、逐像素滑窗分类法,FCN能够接收多张光谱图像作为输入数据,在网络模型的编码器部分学习丰富的空间和光谱特征,并在上采样或反卷积组成的解码器部分逐像素对整张图像进行处理。王雪等[77]利用VGG16作为基础网络构建了3种不同上采样结构的FCN模型,证实了FCN-8s更能准确地提取水体信息。为提高对城市河流等水体的快速提取,Wang等[61]提出了结合FCN与GEE( Earth )平台的离线学习在线预测的水体提取方法,在全国36个城市区域进行验证,其中大部分城市提取结果的F1分数和Kappa系数均达到0.9。为增强水体细节的提取,梁泽毓在编码-解码结构的FCN基础上,引入模型的密集连接,有效地提升了网络模型在水体细节部位的敏感度,并使用图像实现对长江部分流域的水体面积提取精度提升到了98.5%; Kim等利用U-Net网络模型从GOCI图像中提取朝鲜半岛水域与赤潮相关的光谱特征,并证明4个波段的训练数据集的学习效果在平均目标精度方面比6个波段数据集低13%; 王宁等利用U-Net网络从高分一号卫星图像中提取巢湖流域的水体范围,证明该模型的总体精度可以达到98.69%,并且在阴影去除方面有较大的优势; Ge等对U-Net的每一层编码器和解码器都做了局部跳接,最大化地使用了特征信息并增强了模型的泛化能力,从高分一号可见光图像中提取水体较其他方法有更高的精度。
高分辨率光学遥感图像中包含数十个像素的小规模水域提取,多尺度图像输入和多尺度特征学习已成为影响水体及其边界提取准确性的关键因素。为此,Li等结合当前流行的 V3+模型和条件随机场构建多尺度联合预测的水体精细提取方法。通过将遥感图像进行分层的多尺度分割处理后输入到模型,将模型的特征输出调整为加权融合后的多尺度特征,在模型的后端利用全连通条件随机场( field, CRF)优化水体边界细节。目前,这种集成多个分割结果的语义分割框架已在很多领域和竞赛中证实了其有效性。除了在网络模型不同位置增添多尺度卷积或金字塔结构外,Duan等[82] 在Li的研究基础上引入了卷积注意力结构,提出具有抑制背景特征的擦除注意力模块( ,EA),实验结果证明,该模型能够进一步消除高分辨率图像中山体、建筑物的阴影影响,降低水体提取的虚警; Feng等提出了一种增强的深度卷积编码器解码器(deep , DCED)网络deep U-Net,该网络应用超像素分割和条件随机域增强水体、非水体区域的连通一致性; Chen等[84]提出基于自适应池化的水体提取模型(self- , SAP-CNN),在图像超像素分割基础上提取地表水体,提高了城市区域水体细节的提取能力,但由于超像素分割需要依赖人工经验阈值的设定,因此该方法未能实现完全自动的水体提取流程; 沈骏翱等在常用特征提取骨干网络的基础上引入了通道注意力和空间注意力混合模块,对长江三角洲部分地区的高分六号卫星多光谱影像提取水体范围,对不同空域大小的水体细节有较好的提取效果; 等[86]在U-Net和 V3+模型架构中分别使用了 V3,-50和-B4编码骨干网络,对全球不同区域、不同卫星和航空遥感数据进行常规水体分割和洪涝水体分割,对比了3种精度指标来判别最好的模型架构; 等[87]构建了由残差注意力模块( , RAM)、密集卷积模块(dense , DM)、头部模块(head block, HB)、尾部模块(end block, EB)和转移模块( block, TB)交叉组成的注意力密集CNN,针对尼泊尔部分地区的-2数据进行水体提取,总体精度最高可达87.83%,高于其他经典网络模型; Lu等[88]提出了基于临近像素图采样的弱监督水体提取网络,采用临近像素图组和点标注作为伪标签,通过“U”型编解码网络、特征聚合模块、点标注约束后处理以及循环训练过程,在0.5 m空间分辨率可见光影像数据集中该方法较现有的监督分类和弱监督分类方法精度都有一定的提升; Xiang等[89]在经典的编解码结构基础上,增加了密集金字塔池化模块(dense , )用来获取更多的全局上下文信息,残差路径模块来填补分割缺口,空间和通道注意力压缩激励模块来捕捉像素级的水体空间信息,在0.5 m无人机可见光影像和GID ( image )数据集上取得了超越其他现有方法精度的水体分割结果。
2.3.2 SAR图像水体提取 2.3.2.1 SAR强度图像水体分割
随着SAR图像空间分辨率的提高,强度图像中相干斑噪声、水面的波动、建筑物和船舶等目标的旁瓣效应均严重增加了水体提取的难度。同时,斑噪的影响使得SAR强度图无法像光学图像一样具有较为平滑、连续的灰度变化,CNN中大跨度卷积、池化造成的分辨率损失难以在上采样过程被很好地恢复,因此,仅针对网络模型进行卷积层堆叠无法得到较好的提取结果。针对这一问题,Zhang等利用空洞卷积结构提出一种反卷积金字塔模块( ,UPN),利用不同膨胀率的卷积核代替池化操作进行多尺度特征提取,减少了编码阶段的细节信息损失; Zhang等[91]在此基础上加入了改进的CRF进行后处理,针对全连接CRF计算复杂的问题,提出全卷积条件随机场(fully- , FC-CRF),利用邻域像素的类别概率对UPN模型输出的水体概率映射图进行二值分类,得到边界完整的水体提取结果; Zhang等[92]提出了一种融合CNN,,,全局卷积网络( , GCN)和卷积长短期记忆(long short-term ,LSTM)的多分辨率稠密编解码器网络,对水体及阴影区域的GLCM、卷积特征进行多尺度提取和加权融合,得到水体和阴影区域的分类,其水体、阴影区域的像素级分类精度分别达到了95.16%和88%。
2.3.2.2 图像水体提取
极化SAR特征分解方法能够从更多角度揭示不同地物的散射差别,因此常被作为特征输入与学习算法相结合进行土地覆盖分类。其中,最直接的方式就是将多个极化分解特征进行堆叠,然后输入到神经网络的输入层。等利用CNN和循环神经网络( ,RNN)代替传统的归一化植被指数( index,NDVI)和NDWI优化方案; Ni等利用LSTM网络结构从多种指数模型、SAR极化数据中获取不同极化和光谱组合后的时空特性,改善了地物特征学习阶段对先验知识的依赖。为降低输入特征的维度及不同极化特征间的冗余,Wang等引入基于稀疏-低秩表征的图嵌入策略,在特征子空间获取低维极化特征,并与FCN获取的多尺度空间特征融合进行水体、建筑物等地物的分割; Xue等用改进的Dense Block模块来提取和融合双极化SAR影像中水体的特征,用坐标注意力模块( , CAM)来减少水体边界的损失,用特征连接模块来避免信息冗余,在高分三号和-1卫星双极化影像水体提取中较其他网络取得的更高的精度,证明了双极化SAR影像对水体提取的有效性; 等采用自适应贝叶斯卷积神经网络( , BCNNs)对双极化模式的-1卫星SAR遥感数据进行水体提取,以-2可见光遥感数据提取的水体作为验证,较普通U-Net构型的CNN和蒙特卡洛丢弃网络(Monte Carlo , MCDN)有更高的精度。除了上述基于极化分解特征学习的方法外,一些研究人员提出基于复数值域学习的卷积神经网络算法,直接输入SAR后向散射数据及相位信息进行水体、裸地等地表覆被分类、运动目标识别。这种复数神经网络在输入层支持SAR后向散射分贝值的直接输入,并在前馈传播与梯度更新运算时加入了复数计算,避免了因复数转实数域时数值压缩导致的信息损失,因此能够更加准确地揭示地物与散射强度、相位/相干信息之间的表征关系,提高SAR图像地物类型的分类精度。
2.3.3 其他水体提取方法
作为遥感图像地表覆盖/土地利用分类研究中重要的研究对象,水体常与植被、建筑物等地物类型结合在一起进行分类研究。李胜和张书瑜提出将多地物各自的领域知识与特征学习方法联系在一起,结合人工设计方法与深度学习算法提取多类型描述特征,提升包含水体在内的多地物分类能力。然而,不同地区(或时间)的遥感图像地表覆盖特征随图像类型、空间分辨率、空间尺度等变化存在差异,采集分类样本和模型重新训练均会耗费大量时间。因此,选择来自相近分布的样本数据集进行迁移学习可快速满足在不同遥感图像上得到准确分类结果。现常用特征空间对齐和样本微调训练等方法来实现特征提取和地物分类的知识重用。此外,为提高迁移学习过程中的多类特征表达能力,学者们研究了在迁移学习中融合多种特征进行分类识别的方法,以提高迁移的适用性和准确性 。
2.4 基于深度学习的水体变化检测
目前,可用于水体变化检测的深度学习研究主要可分为2类: 差分图检测法和时序特征分析法。Song等提出将多时间图像分别通过预先训练好的FCN进行特征学习,并根据网络模型最后预测层的得分图来生成差分图像。由于得分图已将大部分非水体区域的像素进行合并,因此特征差分能够更显著地突出水体的变化区域。但是差分图生成过程难免造成图像信息损失,产生伪变化和具体变化类型难以确定等问题。为克服差分图变化检测的上述缺陷,Gong等结合超像素分割和堆栈自编码器提出了基于层次差分表示学习的光谱图像变化检测算法,在双时序高分辨率光谱图像中提取水体区域及边界的变化信息。由于编码器自学习的方式无需进行差分图生成和标记样本,因此该方法能够对大区域范围的水体时序变化进行快速、自动提取。
然而,SAR图像固有的相干斑噪声受成像时间、传感器状态等变化而具有一定的随机性,使得自编码特征学习方式易受SAR图像强度图中斑噪影响,无法有效地学习时序变化特征。为此,Su等进一步引入模糊数的概念将输入图像及其邻域特征转换到模糊域,保留了更多近似变化的图像信息,随后利用变化向量分析法实现SAR图像水体及其他多种类型地物的变化检测; Gao等将DT-CWT小波变换引入到CNN模型中代替最大池化操作,通过丢失高频子带的方式抑制部分散斑噪声,实现SAR图像海冰变化检测。
除了上述的空间CNN模型外,RNN[117]和LSTM[118]等时序深度神经网络也已被应用到遥感图像地物覆盖变化检测研究。由于部分地物类型在不同季节时序的遥感图像中具有明显的、规律的变化,这种基于目标时序特征的方法往往能够取得丰富的空间卷积特征和内在变化特征,进而获得更高的检测精度。
3 水体提取数据集与评估方法3.1 水体提取数据集
训练样本数据的数量和质量是影响深度学习算法性能的重要因素。目前,用于遥感影像水体提取的数据集主要以RGB可见光和近红外波段的遥感图像为主,且样本切片中常包含除水体之外的其他地物类型。本节将重点介绍5个像素级标记的样本数据集。
1)GID数据集。该数据集主要用于土地利用和土地覆盖类型提取,包括我国范围内近60多个不同城市的150幅高分二号遥感图像,总体覆盖区域超过5万km2。该数据集包含了由高分二号卫星生成的1 m空间分辨率全色图像和4 m空间分辨率的多光谱图像,图像及标签的平均大小为6 908像素×7 300像素。数据集下载地址: http: ///GID/。
2)EvLab-SS数据集[120]。该数据集有35幅卫星图像,平均大小约为4 500像素×4 500像素。其中有19幅-2卫星图像、5幅卫星图像、5幅卫星图像和6幅高分二号卫星图像,空间分辨率在0.25 m~0.1 m之间。该数据集包含了农田、花园、林地、草地、建筑、水域等11个类别,每个类别的标记主要来源于实际的地理条件调查,每幅图像都有地理条件调查的完整注释。因此,该数据集旨在用于评估真实工程场景上的语义分割算法,为高分辨率像素级分类任务寻找一种良好的深度学习架构。数据集下载地址: 。
3)数据集[121]。该数据集提供了高分辨率亚米级卫星图像,共包含1 146幅卫星图像,图像平均大小为2 448像素×2 448像素,空间分辨率为0.5 m。该数据集包含了建筑、农田、牧场、湖泊、森林等7个地表覆盖类型,根据训练、验证和测试集划分3个子集,每组分别包含803,171和172幅图像,即对应70%,15%和15%的总体数据占比。数据集下载地址: 。
4)数据集。该数据集为城市区域的遥感影像语义分割数据集,数据来源为-1和-2,图像空间分辨率分别为20 m和10 m。地面真实数据采用MODIS地表覆盖数据集,土地覆盖精度为74%,土地使用精度为81%,表面水文学精度为87%。整个数据集采用256像素×256像素切片大小,共生成180 748套切片。数据集下载地址: 。
5)海南岛陆域水体遥感提取数据集。该数据集包含了2013—2017年间覆盖整个海南范围的高分一号和 OLI多光谱、全色图像数据,空间分辨率分别为16 m和15 m,云量均低于9%。数据集采用面向对象知识规则集自动提取连续5 a的水体分布信息,制作出海南全省水体分布矢量图,并最终生成5张水体分布图像和1个验证样本数据。数据集下载地址: 。
3.2 水体提取评估方法
水体提取精度通常可以使用像素级分类精度和遥感图像制图精度进行评价,其中像素精度(pixel ,PA)、平均像素精度(mean pixel ,MPA)、平均交并比(mean over union,mIoU)和F1分数来源于语义分割算法精度评价方法。
1)语义分割精度指标。PA为预测正确的像素数量占总像素数的比例,值越大表示预测结果越接近真实的地表分布。
2)遥感图像制图精度指标。制图精度由混淆矩阵表示,该矩阵通过对比、统计每个图像位置中地表真实像素与相应位置的预测类别得到,矩阵的每一列代表了一个地表真实分类,每一列中的数值等于地表真实像素在分类图像中对应于相应类别的数量,有像素数和百分比表示2种。
3)其他水体提取信息量化评价指标。为了能够更加直观地从量化指标中反映水体的边界、轮廓提取精度信息,梁泽毓[59]定义了水体岸线长度精度( ,LA)和水体面积精度(area ,AA),值越高则表示算法的提取结果与真实标记越接近。
4 基于深度学习水体提取的遥感应用
由于深度学习技术有效地提高了水体提取算法的时空泛化能力,使得所训练的网络模型能够对大空间区域内的河流、湖泊信息及变化进行准确提取,为河床变化、洪水监测、水环境保护等任务提供可靠的技术支持。梁泽毓将所提的深度学习水体提取算法应用到长江(安徽段)流域变化监测任务中。通过对2013—2018年间的 OLI和-2影像进行水体提取,并在时序提取结果中得出水位变化致使滩涂堆积、长江支流阻塞和长江干流变化的原因; 蒋广鑫利用 V3+对4景30 m空间分辨率的遥感图像进行水体提取,实现了青藏高原湖泊面积及湖泊变化信息获取; Fang等提出基于-50迁移学习的水库识别算法,结合GEE平台实现在全球范围制作3 800张图像级水库、湖泊样本切片。随后,预训练的-50对全球人工水库分布信息准确地进行识别。为了提升深度学习算法在全球尺度上进行洪水精确制图的水平,等基于公开的-1数据制作了像素级标注的地表水数据集。该数据集覆盖12万km2,跨越11次洪水事件、357个生态区域和世界6大洲,制作了4 831张尺寸为512像素×512像素的样本切片,包括永久水域和不同地区、时节的洪水区域。纵观上述深度学习水体提取应用研究发现,搜集包含各个地区、不同水域的大量标记样本数据,能够提高神经网络模型对不同类型、不同状态水体的识别能力。同时,在神经网络模型的输入端使用多源遥感图像能够进一步增强区分大区域范围内水体与其他地表覆被的判别力。
5 存在的问题与讨论5.1 遥感图像水体提取存在的关键问题
目前,基于深度学习算法的水体提取研究已取得了很多成果,在提取精度和算法泛化能力上有了明显的改进。但在复杂地理环境、多样化水体类别条件下仍难以满足实际需求,其主要原因可大致归为如下3点:
1)图像源自身存在表征信息不足的缺陷。目前大多数方法仍基于单一图像源信息,导致深度学习算法未能同时学习水体光谱、散射等多个物理特性。虽然神经网络的卷积层特征能够帮助算法剔除建筑物阴影对水体提取精度的影响,但光学图像学习难以有效地解决沥青道路、焚烧耕地等区域的检测虚警,同时,SAR图像的散射强度特征仍无法有效地解决建筑物、山体等阴影区域的影响。
2)基于少量样本学习的水体提取方法有待进一步研究。目前,深度学习水体提取算法大多基于像素级标注样本,且数据多来自研究区内获取的多景遥感图像,这导致神经网络模型的学习能力严重受限于样本数据的多样性,无法对大范围内多种类型的湖泊、河流等水体进行准确识别和提取。
3)高空间分辨率图像水体细节提取完整性不足。目前多数神经网络的多次池化操作会不可避免地导致水体空间特征的损失、边界模糊等问题,然而这种信息损失在网络模型的解码阶段是难以被完全补回的。因此,多数深度学习算法在提取中、低空间分辨率遥感图像水体时,会导致部分河流的主体区域存在不完整的分割结果,而在高空间分辨率图像中也会造成水体细长的部分分割,出现断裂、漏检等情况[59,84]。虽然一些算法通过在模型加入多尺度卷积、空洞卷积或金字塔结构来缓解这种缺陷,但复杂的模型结构和大量的参数需要更多的标记样本数据去训练,这种方法不仅造成人力成本的增加,而且难以将模型方法推广到大区域乃至全球范围的水体提取应用中。
5.2 深度学习遥感水体提取方法的优势及展望
当前,从大空间范围、高空间分辨率的遥感图像中进行河流、湖泊信息提取及变化动态监测是多个领域的应用热点,在大区域空间实现快速、普适的水体信息智能提取仍是当前遥感图像解译的重要内容。然而,现有的深度学习水体提取方法大多基于一个结构固定、参数经验设置的神经网络模型,在大量人工精细标注的样本集下进行训练。这些方法的提取结果往往容易受样本分布的影响,导致在小范围内具有过拟合的水体分割精度,但算法的泛化能力仍然无法适应大范围的水体提取应用需求。因此,基于深度学习的水体提取技术还需要进一步加强如下几个方面的研究:
1)研究基于数据驱动的智能水体提取方法。对已获取的特定类型的遥感数据及其水体表征进行分析,依据分析结果组合各种多尺度卷积、注意力和特征融合等网络模块,构建适合研究区域的最佳水体提取模型,提高算法对数据的智能适配能力,进而提高高空间分辨率图像中水体主体和细节的提取精度。
2)进一步研究将迁移学习、小样本学习理论引入到遥感图像水体提取研究中,设计适合在少量标记样本或低级标记样本下的神经网络模型和训练方案,快速地学习水体及其他地物目标间的判别表征,提高模型对水体区域的识别、理解能力。此外,还可以利用生成对抗学习的思想,挖掘与水体具有近似表征的地物(如天空、焚烧后的田地、沥青道路、雪地等)间的深层判别特征,降低算法在复杂环境下的检测虚警。同时,利用生成器模型特有的标记图像生成能力,在网络模型得到充分学习后,自动生成带标签的生成图像作为监督学习的训练样本,降低人工标记图像成本的同时,为神经网络模型提供更多的带标签样本数据,提高网络模型对水体和其他地物的知识学习能力,获取更加鲁棒、准确的水体提取结果。
3)利用RNN和LSTM等时序深度学习算法和网络模型,对覆盖不同时节的时序多光谱图像进行分析,挖掘水体、植被和建筑物等地物在时序上的光谱曲线变化规律和空间分布信息,学习相应的判别特征及时序变化趋势信息,实现水体的时空变化检测,为水资源保护、生态防治、洪涝监测等领域提供可靠的技术方案。
4),ViT和Swin 等新的计算机视觉自注意力机制模块可以高效地捕捉全局上下文信息,在分割、分类、目标检测等视觉任务领域取得了一定的突破。这些模块可以用于改造已有的水体提取网络模型,提高区分判别水体与其他地类边界的能力,提高遥感影像水体信息提取的精度。
6 结论
随着高空间分辨率遥感技术与深度学习算法的快速发展,基于海量数据样本训练的深度神经网络模型能够克服复杂地理环境、水体表征变化等因素,准确、快速地提取大范围的湖泊、河流等地表要素,服务于水资源监测、生态保护、洪涝防灾减灾等领域。通过总结可知,在多光谱及雷达图像中提取判别特征仍是水体精确提取的关键,虽然深度神经网络算法能够学习到丰富的水体形态和语义特征,但大多数算法的性能严重依赖于大量强标记的水体样本,在大范围检测应用中仍存在自身的局限性。因此,研究如何在少量样本训练情况下进行迁移学习,是增强深度学习水体提取方法泛化能力的有效手段和关键。此外,水体、植被等地物易受季节气候影响产生时序的光谱变化,利用时序深度学习算法提取地物间显著的光谱时空特征,同时结合多源数据的同化研究和多尺度信息集成研究,是形成更具泛化能力的水体提取系统的可行方案,更能满足区域甚至全球化的水体智能监测任务。
(原文有删减)
【作者简介】温 泉(1985-),男,硕士,工程师,主要从事计算机视觉、自然语言处理领域的研究。
Email: 。
【基金资助】国家自然科学基金项目“基于深度学习的高分辨率遥感影像建筑物检测与实例分割研究”()
【引用格式】温泉, 李璐, 熊立, 杜磊, 刘庆杰, 温奇. 基于深度学习的遥感图像水体提取综述[J]. 自然资源遥感, 2024, 36(3): 57-71.
社群交流/原创投稿/ 商务合作