文档详情

基于深度神经网络的图像描述研究.pdf

发布:2025-06-11约15.05万字共95页下载文档
文本预览下载声明

摘要

图像描述是自动生成自然语言语句描述图像视觉内容的任务,包括医学图像

报告生成。目前,主流的图像描述模型聚焦于深度神经网络。基于深度神经网络的

图像描述模型仍存在生成语句泛化、粒度性差的问题。特别地,基于深度神经网络

的医学报告生成模型还缺乏足够的视觉特征与语义特征。

据此,本文研究基于深度神经网络的图像描述模型,设计实现图像描述生成系

统。其主要工作与贡献概括如下:

(1)提出基于多级注意力机制的图像描述生成模型

为了解决生成语句泛化、粒度性差等问题,提出双线性注意力机制以提升模型

在编码与解码时关注图像通道与空间注意力的能力,改进基于注意力机制的注意

力机制来判断提取到的注意特征的相关性,构建基于上述两个机制的多级注意力

机制以获取更细粒度的特征,建立多级注意力机制嵌入的编码器与解码器的图像

描述生成改进模型。实验结果显示,与主流模型的最高评分相比,改进模型在MS

COCO数据集上的BLEU-2、BLUE-3、ROUGE-L和CIDEr分别提高了1.0、0.4、

0.2与0.3。

(2)提出语义与视觉特征增强的医学报告生成模型

为了解决医学报告生成模型的视觉与语义特征不充足问题,引入图像特征编

码器提取图像的全局特征,提出解码时提供更多语义特征的多层解码器

(HierarchicalDecoder,H-Decoder),融合图像特征编码器与H-Decoder提出基于编

码器-解码器结构的语义与视觉特征增强的医学报告生成模型。实验结果显示,与

主流模型的最高评分相比,改进模型在IUX-ray数据集上的BLEU-1、BLUE-2、

BLUE-3、BLEU-4和ROUGE-L分别提高了3.0、1.1、1.1、1.1和1.0。

(3)设计实现图像描述生成系统

基于上述模型,应用软件工程理论设计实现图像描述生成系统。该系统主要包

括注册、登录、用户信息管理、图像描述生成、图像描述管理等子系统,使得用户

输入图像即可生成细粒度描述。

关键词:图像描述,医学报告生成,注意力机制,编码器-解码器,深度神经网络

ABSTRACT

Imagecaption/descriptionisthetaskofautomaticallygeneratingnatural-language

sentencestodescribethevisualcontentofimages,includingthegenerationofmedical

imagereports.Atpresent,themainstreamimagecaptionmodelfocusesondeepneural

network.Thesentencesgeneratedbytheimagecaptionmodelshavegeneralizationand

poorgranularity.Inparticular,themedicalreportgenerationmodelbasedondeepneural

networkstilllackssufficientvisualandsemanticfeatures.

Therefore,thisthesisstudiestheimagecaptionanddescriptionmodelsbasedon

deepneuralnetwork,anddesignstoimplementtheimagedescriptiongenerationsystem.

Itsmainworkandcontributionaresummarizedasfollows.

(1)Multi-LevelAttentionforimagecaptionisproposed

Inordertoreducegeneralizationandrefinegranularityforgeneratedsentences,a

bilinearattentionmechanismisproposedtopay

显示全部
相似文档