文档详情

基于深度学习的细粒度图像分类研究.pdf

发布:2025-03-11约9.75万字共69页下载文档
文本预览下载声明

摘要

细粒度图像分类旨在对同一类别的不同子类进行识别。但相对于普通的图像分

类,细粒度图像分类具有类间差异小和类内差异大的特点,类间差异小表现为不同类

别的对象仅有细微的差异,类内差异大表现为同一类别对象呈现的姿势与角度不同。

这些原因使得细粒度分类的难度更大,如捕捉判别性区域不足,提取特征信息单一,

背景噪声冗余等问题。为了解决这些问题,本文设计了两个基于深度学习的细粒度图

像分类模型,优化网络特征提取和建模等能力,进而提高分类识别的准确率。本文完

成的工作内容如下:

1.基于Res2Net和递归门控卷积的细粒度图像分类。由于现有的细粒度图像分类

方法忽视了图像多尺度信息以及相邻空间位置信息交互作用,难以准确提取细微特

征,并且传统的CNN方法捕捉长距离语义信息不足,提取图像全局信息能力欠缺。

针对这些问题提出了一种基于Res2Net和递归门控卷积的细粒度图像分类模型,该

模型使用弱监督数据增强网络(WS-DAN)进行数据扩展防止过拟合,将Res2Net作

为特征提取网络,用以提取不同级别的尺度信息,增加网络层的感受野,同时在该网

络中引入了递归门控卷积模块,用来进一步融合信息并且实现高阶特征交互,提高网

络建模能力。该网络在多个公共数据集得到的结果表明,本方法能够有效的提取图像

细微特征,提升分类精度。

2.基于CNN-Transformer混合架构的细粒度图像分类研究。针对现有的分类算法

存在全局特征提取不足和捕获关键信息能力不足等问题,提出一种基于CNN-

Transformer混合架构的细粒度图像分类模型,该方法采用CNN和Transformer串联

结构,首先使用金字塔残差网络提取图像中不同级别的特征,随后引入反事实注意力

学习机制学习更具判别性特征,最后将特征图输入到一种改进的ViT结构以补充图

像全局特征信息,该结构融入了特征聚集和区域选择两个模块以提升ViT模型融合

层级信息和捕获关键特征的能力。设计的网络在多个公共数据集中效果较好,优于当

前许多主流模型。

关键词:深度学习;细粒度图像分类;数据增强;多尺度特征;反事实注意学习

I

Abstract

Fine-grainedimageclassificationaimsatidentifyingdifferentsubcategoriesofthe

samecategory.However,comparedwithordinaryimageclassification,fine-grainedimage

classificationhasthecharacteristicsofsmallinter-classdifferencesandlargeintra-class

differences.Smallinter-classdifferencesaremanifestedinobjectsofdifferentcategories

withonlyslightdifferences,thelargeintra-classdifferenceismainlymanifestedinthe

differentpostureandAngleofthesameclassobject.Thesereasonsmakefine-grained

classificationmoredifficult,suchasinsufficientcaptureofdiscriminativeareas,single

featureinformationextracted,andredundantbackgroundnoise.Inordertosolvethese

problems,thisarticledesignedtwofine-grainedimageclassificationmodelsbasedondeep

learningtooptimi

显示全部
相似文档