基于深度学习的细粒度图像分类研究.pdf
摘要
细粒度图像分类旨在对同一类别的不同子类进行识别。但相对于普通的图像分
类,细粒度图像分类具有类间差异小和类内差异大的特点,类间差异小表现为不同类
别的对象仅有细微的差异,类内差异大表现为同一类别对象呈现的姿势与角度不同。
这些原因使得细粒度分类的难度更大,如捕捉判别性区域不足,提取特征信息单一,
背景噪声冗余等问题。为了解决这些问题,本文设计了两个基于深度学习的细粒度图
像分类模型,优化网络特征提取和建模等能力,进而提高分类识别的准确率。本文完
成的工作内容如下:
1.基于Res2Net和递归门控卷积的细粒度图像分类。由于现有的细粒度图像分类
方法忽视了图像多尺度信息以及相邻空间位置信息交互作用,难以准确提取细微特
征,并且传统的CNN方法捕捉长距离语义信息不足,提取图像全局信息能力欠缺。
针对这些问题提出了一种基于Res2Net和递归门控卷积的细粒度图像分类模型,该
模型使用弱监督数据增强网络(WS-DAN)进行数据扩展防止过拟合,将Res2Net作
为特征提取网络,用以提取不同级别的尺度信息,增加网络层的感受野,同时在该网
络中引入了递归门控卷积模块,用来进一步融合信息并且实现高阶特征交互,提高网
络建模能力。该网络在多个公共数据集得到的结果表明,本方法能够有效的提取图像
细微特征,提升分类精度。
2.基于CNN-Transformer混合架构的细粒度图像分类研究。针对现有的分类算法
存在全局特征提取不足和捕获关键信息能力不足等问题,提出一种基于CNN-
Transformer混合架构的细粒度图像分类模型,该方法采用CNN和Transformer串联
结构,首先使用金字塔残差网络提取图像中不同级别的特征,随后引入反事实注意力
学习机制学习更具判别性特征,最后将特征图输入到一种改进的ViT结构以补充图
像全局特征信息,该结构融入了特征聚集和区域选择两个模块以提升ViT模型融合
层级信息和捕获关键特征的能力。设计的网络在多个公共数据集中效果较好,优于当
前许多主流模型。
关键词:深度学习;细粒度图像分类;数据增强;多尺度特征;反事实注意学习
I
Abstract
Fine-grainedimageclassificationaimsatidentifyingdifferentsubcategoriesofthe
samecategory.However,comparedwithordinaryimageclassification,fine-grainedimage
classificationhasthecharacteristicsofsmallinter-classdifferencesandlargeintra-class
differences.Smallinter-classdifferencesaremanifestedinobjectsofdifferentcategories
withonlyslightdifferences,thelargeintra-classdifferenceismainlymanifestedinthe
differentpostureandAngleofthesameclassobject.Thesereasonsmakefine-grained
classificationmoredifficult,suchasinsufficientcaptureofdiscriminativeareas,single
featureinformationextracted,andredundantbackgroundnoise.Inordertosolvethese
problems,thisarticledesignedtwofine-grainedimageclassificationmodelsbasedondeep
learningtooptimi