文档详情

基于深度学习的细粒度图像分类研究.pdf

发布：2025-03-11约9.75万字共69页下载文档

文本预览下载声明

摘要

细粒度图像分类旨在对同一类别的不同子类进行识别。但相对于普通的图像分

类，细粒度图像分类具有类间差异小和类内差异大的特点，类间差异小表现为不同类

别的对象仅有细微的差异，类内差异大表现为同一类别对象呈现的姿势与角度不同。

这些原因使得细粒度分类的难度更大，如捕捉判别性区域不足，提取特征信息单一，

背景噪声冗余等问题。为了解决这些问题，本文设计了两个基于深度学习的细粒度图

像分类模型，优化网络特征提取和建模等能力，进而提高分类识别的准确率。本文完

成的工作内容如下：

1.基于Res2Net和递归门控卷积的细粒度图像分类。由于现有的细粒度图像分类

方法忽视了图像多尺度信息以及相邻空间位置信息交互作用，难以准确提取细微特

征，并且传统的CNN方法捕捉长距离语义信息不足，提取图像全局信息能力欠缺。

针对这些问题提出了一种基于Res2Net和递归门控卷积的细粒度图像分类模型，该

模型使用弱监督数据增强网络（WS-DAN）进行数据扩展防止过拟合，将Res2Net作

为特征提取网络，用以提取不同级别的尺度信息，增加网络层的感受野，同时在该网

络中引入了递归门控卷积模块，用来进一步融合信息并且实现高阶特征交互，提高网

络建模能力。该网络在多个公共数据集得到的结果表明，本方法能够有效的提取图像

细微特征，提升分类精度。

2.基于CNN-Transformer混合架构的细粒度图像分类研究。针对现有的分类算法

存在全局特征提取不足和捕获关键信息能力不足等问题，提出一种基于CNN-

Transformer混合架构的细粒度图像分类模型，该方法采用CNN和Transformer串联

结构，首先使用金字塔残差网络提取图像中不同级别的特征，随后引入反事实注意力

学习机制学习更具判别性特征，最后将特征图输入到一种改进的ViT结构以补充图

像全局特征信息，该结构融入了特征聚集和区域选择两个模块以提升ViT模型融合

层级信息和捕获关键特征的能力。设计的网络在多个公共数据集中效果较好，优于当

前许多主流模型。

关键词：深度学习；细粒度图像分类；数据增强；多尺度特征；反事实注意学习

Abstract

Fine-grainedimageclassificationaimsatidentifyingdifferentsubcategoriesofthe

samecategory.However,comparedwithordinaryimageclassification,fine-grainedimage

classificationhasthecharacteristicsofsmallinter-classdifferencesandlargeintra-class

differences.Smallinter-classdifferencesaremanifestedinobjectsofdifferentcategories

withonlyslightdifferences,thelargeintra-classdifferenceismainlymanifestedinthe

differentpostureandAngleofthesameclassobject.Thesereasonsmakefine-grained

classificationmoredifficult,suchasinsufficientcaptureofdiscriminativeareas,single

featureinformationextracted,andredundantbackgroundnoise.Inordertosolvethese

problems,thisarticledesignedtwofine-grainedimageclassificationmodelsbasedondeep

learningtooptimi

显示全部

相似文档