基于弱监督学习的细粒度图像分类方法研究.pdf
摘要
细粒度图像分类问题就是对大类下的子类进行识别分类。普通的图像分类也就
是粗粒度图像分类是将袋鼠和狗分开,而细粒度图像分类就是将狗类下的哈士奇和
爱斯基摩犬分开。细粒度图像分类涉及更细微的类别区分,通常需要依赖于微小的局
部特征来区分不同类别。相比之下,与人脸识别等对象级分类任务相比,细粒度图像
分类面临更大的挑战,因为类内差异更为显著,涉及光照、遮掩、噪声干扰等多种不
可预见的原因。因此,细粒度图像分类是一项极具挑战性的研究任务。在实际应用中,
识别不同的子类别具有重要的应用场景。例如,在生态保护领域,准确识别不同种类
的生物是进行生态研究的关键。若能够利用计算机视觉技术实现低成本的细粒度图
像识别,对于任何领域都具有重要的影响。
过去,细粒度图像分类的研究主要依靠于人工标注的区别区域注释数据,并且采
用监督学习的方法进行分类。虽然这种方法在一些研究中取得了不错的结果,但是很
快就发现,这种有监督的方法在应用中存在一些扩展性的问题,这是因为人工标注数
据需要专家进行注释,既费时费力,又容易出现错误。而现在的研究主要以弱监督学
习方法进行分类,即仅有类别标签即可完成训练。相较于人工标注的监督学习方法,
弱监督学习具有更好的性能和效果,这是因为弱监督学习能够挖掘出在人工标记数
据中缺失或不准确的关键特征信息。因此,本文通过弱监督学习就生成多尺度区别区
域特征以及探索区别区域之间的空间关系进行了研究,相关工作如下:
(1)大多数细粒度图像分类方法侧重于利用图像序列化的输入来关注区分区域,
但是,如果图像的分辨率不高,那么图像序列化的输入就会使模型产生信息丢失和提
取特征不清晰的问题。此外,许多细粒度特征提取的方法可能会导致所有的特征通道
都只关注最具区别性的区域,从而使提取的区分区域特征不够多样性。因此,本文设
计了一种双分支并行多尺度模型(DBPM),该模型并行结合了全局上下文关系和局
部关系,充分利用了二者的互补性,改善了由低图像分辨率引起的信息丢失和特征提
取不清晰等问题,同时使得特征通道类间和类内的特征都不相同,保证了鉴别特征更
具多样性。
(2)细粒度图像中某些区别性区域可能在不同类别之间具有相似的特征,如果
忽视它们之间的联系可能会导致将相似的区域误认为属于相同的类别,从而产生错
误的分类结果。并且区别性区域可能存在一定的噪声和不确定性,如果仅关注这些区
域,可能会受到噪声的影响。因此,本文引入图结构并设计了一种鉴别区域互联模型
I
(DRIM),该模型利用了每个注意力头部对鉴别区域的表达程度不同来提高分类算
法对于细微差异的感知能力,区别性区域之间的空间结构还可以提供更多的约束信
息,来减少模型对单一区域的依赖,最后,综合不同区域的信息,更全面地理解图像
的整体特征,从而提高分类准确性。
(3)完成了鸟类细粒度图像分类系统的开发,系统结合了本文提出的两种分类
网络,选择分类网络后可以识别各种鸟类图片的细粒度类别并且给出相应的介绍,该
系统使用了直观的可视化界面,流程简单易于理解和操作。
通过在CUB-200-2011数据集、StanfordCars数据集和StanfordDogs数据集上细
粒度图像分类任务的实验中证明了本文提出模型的有效性和鲁棒性。
关键词:细粒度图像分类;弱监督学习;区别区域;多尺度;空间结构
II
ABSTRACT
Fine-grainedvisualcategorizationentailstheidentificationandcategorizationof
subclasseswithinbroadercategories.Incontrasttoconventionalimageclassification,also
knownascoarse-grainedvisualcategorization,whichfocuseson