基于Transformer的遥感图像目标检测研究.pdf
基于Transformer的遥感图像目标检测研究
摘要
目标检测的应用如智能手机的人脸识别、快递身份码的自动扫描等已经融入到我们
的生活中,相反遥感图像目标检测往往在我们不了解的地方发挥着重要作用,例如野生
动物保护、灾情救援、国防安全监控等。这些应用与我们的生命安全息息相关,因此要
求更高的准确度和效率。本文在研究了主流的检测模型之后,选择了基于Transformer
改进的SwinTransformer为主要结构,加上特征融合编码器、任务对齐编码器构建检测
网络。并针对骨干网络、旋转框的表示法、损失函数进行改进,实现了检测效果和精度
的提升,本文的主要工作如下:
1
()遥感图像小目标众多检测困难,针对小目标的检测需要更强大的特征提取能
力,SwinTransformer用基于窗口的注意力机制取代了全局注意力机制,降低了计算量
也损失了数据的上下文信息,虽然增加了基于移动窗口注意力机制,但是提升有限。针
对该问题本文设计了特征增强模块帮助选取各个窗口之间的代表数据,计算全局注意力
和通道注意力增加特征中的上下文信息,将特征增强模块增加到SwinTransformer中提
高特征中的全局信息。
2
()遥感图像目标检测的目标如飞机、轮船、汽车等,目标往往伴随各种角度且
多聚集出现,为了减少重叠标记导致的误删除情况,需要使用旋转框代替水平框,但是
直角坐标系的旋转框表示法过于复杂不利于模型的训练。本文采用极坐标表示法简化旋
转框的表示,并结合极环面积损失函数设计了本文的极坐标损失函数,解决损失函数中
角度、极半径之间的单独计算缺少联系的问题。
(3)采用DOTA数据集进行了实验验证,mAP达到了74.21%,与目前主流的模
型进行了对比,完成了消融实验,本文方法在遥感图像小目标方面有很好的检测效果,
面对场景复杂多目标聚集分布场景也有更高的检测精度,证明了本文方法更适用于遥感
图像目标检测任务。
关键词:目标检测;SwinTransformer;损失函数;全局注意力机制
基于Transformer的遥感图像目标检测研究
Abstract
Theapplicationsofobjectdetection,suchasfacerecognitiononsmartphonesand
automaticscanningofcouriercodes,havealreadybecomeintegratedintoourdailylives.In
contrast,objectdetectioninremotesensingimagesoftentakesplaceinplaceswearenot
familiarwith,suchaswildlifeconservation,disasterrelief,andnationalsecuritymonitoring.
Theseapplicationsarecloselyrelatedtooursafety,andthereforerequirehigheraccuracyand
efficiency.Inthisstudy,afterresearchingmainstreamdetectionmodels,wechosetheSwin
TransformerbasedontheTransformerasthemainstructure,combinedwithafeaturefusion
encoderandtaskalignmentencodertoconstructadetectionnetwork.Wealsomade
improvementstothebackbonenetwork,therepresentationofrotatedboxes,andtheloss
function,achievinganimprovementindetectioneffectandaccuracy.Themaincontributions
ofthiss