基于深度神经网络的图像语义分割技术研究.pdf
摘要
基于深度学习的图像语义分割作为计算机视觉领域的一个重要分支近年来发
展迅速,在汽车自动驾驶、医疗图像处理、卫星遥感图像处理等领域发挥着巨大的
作用。语义分割属于密集分类任务,对输入特征图的每一个像素都分配一个标签,
所以长距离上下文依赖信息在语义分割中非常重要。要获得长距离依赖的方式有
两种,一种是在网络中应用自注意力机制来为像素两两之间建立依赖关系,一种是
对像素查询无关的全局上下文信息进行建模。目前,自注意力机制被成功应用在各
种语义分割网络上,并且发挥了不错的作用,但是自注意力机制本身非常消耗GPU
内存,且语义分割作为密集分类任务,要求输入图像的精度较高,使得语义分割网
络的训练需要消耗大量GPU内存。同时,实际应用中被分割物体往往大小不一、
轮廓复杂、相互遮挡,增大了语义分割网络的训练难度,训练精度难以进一步提升。
基于以上问题,本文从优化语义分割网络GPU内存占用以及增大语义分割网
络训练精度出发,主要的研究工作如下:
(1)提出融合了条状注意力机制的双注意力网络S-DANet,S-DANet旨在降
低自注意力机制的GPU内存占用。对于每个像素,SAM会先收集其所在列的所有
像素的上下文信息,接着收集其所在行的所有像素的上下文信息,最终每个像素都
可以捕获全局依赖关系。
(2)提出融合全局注意力机制的双注意力网络G-DANet,G-DANet在损失部
分精度的情况下,进一步减少了GPU内存占用以及单张图像预测时间。G-DANet
不再建立像素两两之间的依赖关系,而是对像素查询无关的全局上下文信息进行
建模。
(3)提出了基于像素特征与类别特征相似度的语义分割后处理算法PCS。PCS
以提升语义分割精度为目的,核心思想是像素点的标签取决于和它最相似的类别。
PCS通过计算像素点特征与类别特征之间的相似度,得到像素点属于各类别的概
率,辅助网络达到优秀的分割效果。
本文在公开数据集Cityscapes上对上述模型进行了大量的实验,基于客观评价
指标值以及网络预测结果进行分析,验证了本文提出的模型的有效性。
关键词:深度学习,计算机视觉,图像语义分割,注意力机制
ABSTRACT
Asanimportantbranchofcomputervision,imagesemanticsegmentationbasedon
deeplearninghasdevelopedrapidlyinrecentyears,andhasplayedahugerolein
automaticdriving,medicalimageprocessing,satelliteimageprocessingandotherfields.
Semanticsegmentationisadenseclassificationtaskthatassignsalabeltoeachpixelof
theinputfeaturemap,solong-rangecontextdependentinformationisveryimportantin
semanticsegmentation.Therearetwowaystoobtainlong-distancedependencies,oneis
toapplyaself-attentionmechanisminthenetworktoestablishdependenciesbetween
pixels,andtheotheristomodelthepixelquery-independentglobalcontextual
information.Atpresent,theself-attentionmechanismhasbeensuccessfullyappliedto
varioussemanticsegmentationnetworksandachievedgoodresults,butthesel