基于弱监督学习的细粒度图像识别算法研究与应用.pdf
哈尔滨理工大学电子信息硕士学位论文
基于弱监督学习的细粒度图像识别算法研究与应用
摘要
作为视觉领域中的一项重要研究任务,细粒度图像识别近年来备受关注。细
粒度图像识别致力于通过学习分析细粒度图像中的微小判别特征,实现相似外观
下不同子类别物体间的精确分类。基于弱监督学习的细粒度图像识别,就是指仅
使用标签信息完成细粒度图像识别任务。该任务在日常生活中具有广泛的应用场
景,例如生态环境保护、无人超市商品结算等。然而,细粒度图像中的物体存在
着类间差异小,类内差异大的情况,而且面临着数据集规模较小,细粒度图像的
判别性特征难以准确提取的问题,因此研究如何有效提高该类任务的识别准确率
是十分有价值的。综上,本文针对细粒度识别任务中存在的识别准确率低,判别
性区域定位困难等问题进行研究。本文主要研究内容如下:
(1)针对细粒度图像识别目标判别性区域定位困难的情况,以及仅依赖单
一判别区域进行特征提取,忽略其他判别性区域的局限性。本文首先提出了上下
文坐标注意力模块,通过将图像特征的位置信息嵌入通道注意力中,建立长程依
赖,并结合上下文信息,来提高模型对判别性特征的识别提取能力。然后提出基
于注意力的遮掩和放大策略,建立分支网络让模型基于遮掩后的图像来学习其他
重要判别区域。同时让模型基于放大后的特征区域学习,以降低无关背景噪声的
影响,强化判别性特征的学习。最后通过设计联合损失函数来约束各分支网络的
学习,使模型能够正确学习到有效特征。
(2)针对现有部分研究中只重视增强网络模型深层语义特征的学习能力,
忽视浅层细节信息对提高网络识别能力的问题。本文设计提出了一种多尺度特征
融合网络结构。首先通过特征金字塔结构来将特征图像的深层语义信息嵌入浅层
信息中,然后再通过自下向上的特征传播路径,将图像中的浅层细节信息融入深
层特征中,丰富特征的表达能力。最后通过双线性池化来融合不同层级的特征,
使模型学习不同特征间的关联,最终得到具有更强表征能力的高阶特征向量。
本文方法在公开数据集CUB-200-2011、StandFordCars和FGVC-Aircraft上进
行消融和对比实验,均取得了良好的识别准确率,证明本文方法在仅使用图像类
别标签作为监督信息的前提下,能够取得较好的识别表现。同时,本文设计并实
现了一种细粒度鸟类图像识别系统,有助于进行濒危鸟类的保护和生态环境保护
工作,充分证明了本文方法的实用性以及工程应用价值。
关键词深度学习;细粒度图像识别;卷积神经网络;注意力机制;多尺度特征融
合
-I-
哈尔滨理工大学电子信息硕士学位论文
ResearchandApplicationofFine-GrainedImage
RecognitionAlgorithmsBasedonWeaklySupervised
Learning
Abstract
Recently,Fine-grainedimagerecognitionhasattractedconsiderableattentionas
crucialresearchtaskinthefieldofComputerVision.Thisstudyaimstoaccurately
classifyobjectswithsimilarappearancesbutbelongingtodifferentsubcategoriesby
analyzingminutediscriminativefeaturesinFine-grainedimages.Weaklysupervised
learninginFine-grainedimagerecognitionreferstothetask