文档详情

基于深度神经网络的图像描述研究.pdf

发布：2025-06-11约15.05万字共95页下载文档

文本预览下载声明

摘要

图像描述是自动生成自然语言语句描述图像视觉内容的任务，包括医学图像

报告生成。目前，主流的图像描述模型聚焦于深度神经网络。基于深度神经网络的

图像描述模型仍存在生成语句泛化、粒度性差的问题。特别地，基于深度神经网络

的医学报告生成模型还缺乏足够的视觉特征与语义特征。

据此，本文研究基于深度神经网络的图像描述模型，设计实现图像描述生成系

统。其主要工作与贡献概括如下：

(1)提出基于多级注意力机制的图像描述生成模型

为了解决生成语句泛化、粒度性差等问题，提出双线性注意力机制以提升模型

在编码与解码时关注图像通道与空间注意力的能力，改进基于注意力机制的注意

力机制来判断提取到的注意特征的相关性，构建基于上述两个机制的多级注意力

机制以获取更细粒度的特征，建立多级注意力机制嵌入的编码器与解码器的图像

描述生成改进模型。实验结果显示，与主流模型的最高评分相比，改进模型在MS

COCO数据集上的BLEU-2、BLUE-3、ROUGE-L和CIDEr分别提高了1.0、0.4、

0.2与0.3。

(2)提出语义与视觉特征增强的医学报告生成模型

为了解决医学报告生成模型的视觉与语义特征不充足问题，引入图像特征编

码器提取图像的全局特征，提出解码时提供更多语义特征的多层解码器

（HierarchicalDecoder，H-Decoder），融合图像特征编码器与H-Decoder提出基于编

码器-解码器结构的语义与视觉特征增强的医学报告生成模型。实验结果显示，与

主流模型的最高评分相比，改进模型在IUX-ray数据集上的BLEU-1、BLUE-2、

BLUE-3、BLEU-4和ROUGE-L分别提高了3.0、1.1、1.1、1.1和1.0。

(3)设计实现图像描述生成系统

基于上述模型，应用软件工程理论设计实现图像描述生成系统。该系统主要包

括注册、登录、用户信息管理、图像描述生成、图像描述管理等子系统，使得用户

输入图像即可生成细粒度描述。

关键词：图像描述，医学报告生成，注意力机制，编码器-解码器，深度神经网络

ABSTRACT

Imagecaption/descriptionisthetaskofautomaticallygeneratingnatural-language

sentencestodescribethevisualcontentofimages,includingthegenerationofmedical

imagereports.Atpresent,themainstreamimagecaptionmodelfocusesondeepneural

network.Thesentencesgeneratedbytheimagecaptionmodelshavegeneralizationand

poorgranularity.Inparticular,themedicalreportgenerationmodelbasedondeepneural

networkstilllackssufficientvisualandsemanticfeatures.

Therefore,thisthesisstudiestheimagecaptionanddescriptionmodelsbasedon

deepneuralnetwork,anddesignstoimplementtheimagedescriptiongenerationsystem.

Itsmainworkandcontributionaresummarizedasfollows.

(1)Multi-LevelAttentionforimagecaptionisproposed

Inordertoreducegeneralizationandrefinegranularityforgeneratedsentences,a

bilinearattentionmechanismisproposedtopay

显示全部

相似文档