基于数据增强和注意力擦除的细粒度图像识别方法.pdf
摘要
细粒度图像识别任务是在属于相同类别的不同子类中进行识别分类,例如区
分萨摩耶、阿拉斯加、哈士奇等不同品种的狗。与传统图像识别任务相比,细粒
度图像识别任务主要存在两大挑战。(1)类内差距大、类间差距小。由于姿势、
角度、光线等不同,同一子类的视觉差异很大,而属于同一父类下不同子类的视
觉差异往往很小,因此对于细粒度图像识别任务而言,定位对象具有判别性的部
件发挥着重要作用。(2)数据标注困难。由于细粒度图像数据的标注需要领域内
专家知识,这使得细粒度图像数据集通常规模不大,因此在模型训练时容易导致
模型过拟合。当下的一些前沿方法主要通过注意力机制定位对象具有判别性的部
件,但是基于交叉熵损失函数的方法使得网络通常只能发现对象最具有判别性的
部件,而容易忽略对象的其他部件。
AEDA
为解决此问题,本文提出基于对抗擦除的数据增强方法()。该方法
在训练阶段通过特征图定位对象最具有判别性的部件作为增强的部件图像,然后
擦除对象最具有判别性的部件作为增强的互补图像。通过对部件图像的学习,可
以使网络学习对象最具有判别性的部件,通过对互补图像的学习,可以迫使网络
发现对象更多具有判别性的部件。实验表明,AEDA在细粒度图像识别任务的三
个经典数据集上均展现出了较为先进的性能。
虽然AEDA展现了较为先进的性能,但是其在图像上直接擦除的方式会引
入不少噪声,使模型性能很难达到最优。因此,本文提出基于混合的数据增强方
SpaMix
法——语义块混合()。该方法在训练阶段随机构造图像对,通过特征图
定位对象最具有判别性的部件进行裁剪交换,并采取等权重的方式融合标签。除
了在图像上通过混合的方式迫使网络发现对象的更多部件,本文还提出无参的注
意力擦除模块(AE)在特征图上进行擦除迫使网络发现特征图上的更多区域。
本文将所提出的网络架构称之为多部件学习网络(MPL-Net)。实验表明,SpaMix
相比计算机视觉中前沿数据增强方法CutOut、MixUp、CutMix以及AEDA均性
能更佳,鲁棒性更好。同时,AE也展现出了较为先进的性能。此外,通过融合
中层特征,MPL-Net性能进一步提升,在细粒度图像识别任务的三个经典数据集
上均达到了SOTA或接近SOTA的水准。
关键词:细粒度图像识别;目标定位;数据增强;对抗擦除
I
目录
摘要I
AbstractII
目录IV
1绪论1
1.1国内外研究背景及意义································································1
1.2国内外研究现状·········································································2
1.2.1基于定位分类子网的识别方法2
1.2.2基于端到端的特征学习识别方法4
1.3本文的研究内容及贡献································································5
1.4本文的组织结构·········································································6
2相关工作介绍7
2.1细粒度图像识别相关方法·····························································7
2.1.1基于定位分类子网的识别方法7
2.1.2基于端到端的特征学习识别方法9
2.2弱监督目标定位····························································