遥感影像多尺度目标语义分割方法及可解释性研究
编号:766
访问权限:私有
更新:2023-04-11 08:47:13
浏览:399次
快闪报告
摘要
遥感影像土地覆盖分类是遥感大数据处理的一项基本且重要的任务,它能够为森林管理、城市规划、荒漠化控制和自然灾害预警等提供基础信息,已经成为遥感图像处理中最热门和最具有挑战性的任务之一。自动、准确的实现土地覆盖分类具有重要的理论意义和实际应用价值。
基于深度学习的语义分割方法是实现端到端的自动化土地覆盖分类的一种有效途径。然而,面对遥感图像处理任务,语义分割方法仍然面临着诸多挑战,例如:高分辨率遥感影像普遍存在的同类地物之间尺寸差异较大、不同方向尺度不一致现象(如房屋、道路),容易导致多尺度目标识别困难;由于缺乏可解释性,对于背景差异较大的跨区域目标分割,基于深度学习的遥感影像语义分割方法不易泛化。
针对上述问题,本文围绕遥感影像语义分割中多尺度目标识别和泛化能力提升两个方面开展研究,主要工作和贡献如下:
(1)针对CNN下采样易损失细节信息导致遥感影像中小尺度目标难识别的问题,在UperNet的基础上,提出一种挖掘多层次语义信息的分割网络-HFENet。HFENet包括分层式特征提取(HFE)和多层次特征融合(MFF)两个改进模块。基于MZData、landcover.ai和WHDLD Building,HFENet相比其它先进模型,mIoU提升了2~9个百分点,且在精细化遥感图像语义分割任务中表现更好。
(2)针对Transformer中上下文信息获取不足导致多尺度目标分割不完整的问题,在Swin的基础上,提出了一种并行窗口式的分割网络-P-Swin。P-Swin通过一个由窗口多头注意力机制(W-MSA)、移动窗口多头注意力机制(SW-MSA)和特征交互模块(FIM)组成的层级式关系建模模块-WSAI,加强网络对特征上下文信息的提取。基于ISPRS Potsdam、GID和WHDLD,P-Swin相比其它先进模型,mIoU提升了1~3个百分点,且在尺度差异大、复杂的语义分割任务中表现更好。
(3)针对遥感影像跨区域识别模型泛化能力弱的问题,提出了一个特征分离模块-FSM,并应用于HFENet和P-Swin网络中,使得网络具有可解释性,达到提升模型泛化能力的目的。FSM通过先分割后识别的方式,加强对目标特征的学习,减少背景与类别标签的虚假相关性,提高网络的泛化能力。基于混淆背景后的WHU_Building和Aerial Image Labeling,结果表明,加入FSM以后,网络在跨区域识别中建筑类IoU提升了2~4个百分点。通过可视化热力图对比证明,FSM使网络具有可解释性,减弱背景对建筑识别的影响。
通过本文研究,我们不仅推动了深度学习技术在遥感影像多尺度目标语义分割方法的完善和性能的提升,同时也提高了深度学习技术在遥感影像语义分割工作中的可解释性。
关键词
卷积神经网络,Transformer神经网络,地表覆盖分类,多尺度目标语义分割,可解释性
发表评论