基于深度神经网络的图像描述研究.pdf
摘要
图像描述是自动生成自然语言语句描述图像视觉内容的任务,包括医学图像
报告生成。目前,主流的图像描述模型聚焦于深度神经网络。基于深度神经网络的
图像描述模型仍存在生成语句泛化、粒度性差的问题。特别地,基于深度神经网络
的医学报告生成模型还缺乏足够的视觉特征与语义特征。
据此,本文研究基于深度神经网络的图像描述模型,设计实现图像描述生成系
统。其主要工作与贡献概括如下:
(1)提出基于多级注意力机制的图像描述生成模型
为了解决生成语句泛化、粒度性差等问题,提出双线性注意力机制以提升模型
在编码与解码时关注图像通道与空间注意力的能力,改进基于注意力机制的注意
力机制来判断提取到的注意特征的相关性,构建基于上述两个机制的多级注意力
机制以获取更细粒度的特征,建立多级注意力机制嵌入的编码器与解码器的图像
描述生成改进模型。实验结果显示,与主流模型的最高评分相比,改进模型在MS
COCO数据集上的BLEU-2、BLUE-3、ROUGE-L和CIDEr分别提高了1.0、0.4、
0.2与0.3。
(2)提出语义与视觉特征增强的医学报告生成模型
为了解决医学报告生成模型的视觉与语义特征不充足问题,引入图像特征编
码器提取图像的全局特征,提出解码时提供更多语义特征的多层解码器
(HierarchicalDecoder,H-Decoder),融合图像特征编码器与H-Decoder提出基于编
码器-解码器结构的语义与视觉特征增强的医学报告生成模型。实验结果显示,与
主流模型的最高评分相比,改进模型在IUX-ray数据集上的BLEU-1、BLUE-2、
BLUE-3、BLEU-4和ROUGE-L分别提高了3.0、1.1、1.1、1.1和1.0。
(3)设计实现图像描述生成系统
基于上述模型,应用软件工程理论设计实现图像描述生成系统。该系统主要包
括注册、登录、用户信息管理、图像描述生成、图像描述管理等子系统,使得用户
输入图像即可生成细粒度描述。
关键词:图像描述,医学报告生成,注意力机制,编码器-解码器,深度神经网络
ABSTRACT
Imagecaption/descriptionisthetaskofautomaticallygeneratingnatural-language
sentencestodescribethevisualcontentofimages,includingthegenerationofmedical
imagereports.Atpresent,themainstreamimagecaptionmodelfocusesondeepneural
network.Thesentencesgeneratedbytheimagecaptionmodelshavegeneralizationand
poorgranularity.Inparticular,themedicalreportgenerationmodelbasedondeepneural
networkstilllackssufficientvisualandsemanticfeatures.
Therefore,thisthesisstudiestheimagecaptionanddescriptionmodelsbasedon
deepneuralnetwork,anddesignstoimplementtheimagedescriptiongenerationsystem.
Itsmainworkandcontributionaresummarizedasfollows.
(1)Multi-LevelAttentionforimagecaptionisproposed
Inordertoreducegeneralizationandrefinegranularityforgeneratedsentences,a
bilinearattentionmechanismisproposedtopay