基于上下文特征的医学视觉问答方法研究.pdf
基于上下文特征的医学视觉问答方法研究
摘要
医学视觉问答任务是一种结合了医学影像和自然语言处理技术的应用,旨在回答与
医学影像相关的问题。随着计算机视觉和自然语言处理相关技术的迅速发展,许多视觉
问答方法在基准的视觉问答数据集上取得了显著的进步。自然语言视觉问答领域的研究
成果对于医学视觉问答的发展有着重要的启示作用,促进了该领域的研究进步。虽然医
学视觉问答取得了一些进展,但仍然存在两点问题:(1)考虑到目前大多数医学视觉问
答特征提取器采用Transformer结构,通常将Transformer模型的最终层级输出作为后续
计算模块的输入,这种做法忽视了图像和文本在Transformer模型中潜层级输出之间的
彼此交互,没有充分考虑图像和文本之间复杂的上下文关系。(2)在医学视觉问答任务
中,针对专业医学问题的精确回答往往依赖于丰富的医学先验知识。然而,在现有研究
中,有效融入医学先验知识十分复杂。为解决以上问题,本文的主要研究内容如下:
(1)针对当前模型在采用Transformer结构时往往采用模型最终层级作为输出,没
有充分考虑图像与文本间复杂的上下文关系这一问题,本文提出了一种全新的上下文交
互注意力连接模块。该模块的策略是,先通过PCA(Principalcomponentsanalysis)方法对
多个浅层级的特征进行降维处理,以获取更为精炼的浅层特征表示。随后,再利用本文
在其中设计的线性交互引导注意力机制,将图像和文本的浅层特征与图像的深层特征或
者文本的深层特征进行三元组形式的综合交互与融合。整个过程涉及两个模态的浅层特
征间的集成,并且融合后的特征将进一步引导各自模态内深层特征的优化过程。这一过
程旨在深度激活图像和文本之间的特征交互,显著提升了医学视觉问答任务中的语义对
齐效果并优化了整体模型性能。
(2)针对现有方法中,先验知识的引入往往会增加医学视觉问答任务的复杂性的
问题,本文采用学习矩阵,即在模型训练中可学习的参数矩阵来代替先验知识,在模型
的训练过程中不断更新学习矩阵,并且为该学习矩阵设计了一个辅助模块,该模块促进
矩阵与特征之间的相互作用与学习。该模块整合了自注意力机制在全局特征捕捉上的精
确性与卷积操作在局部特征感知上的高效性,实现了学习矩阵与特征之间的深层次交互
和融合,以此增强模型在医学视觉问答任务中的准确性和鲁棒性。此外,通过采用
SAM(Sharpness-AwareMinimization)算法对模型训练进行优化,进一步提升了整体模型
的性能表现。
关键词:视觉问答,医学视觉问答,上下文特征,学习矩阵
基于上下文特征的医学视觉问答方法研究
ABSTRACT
Themedicalvisualquestionansweringtaskisanapplicationthatintegratesmedical
imagingandnaturallanguageprocessingtechnologiestoanswerquestionsrelatedtomedical
images.Withtherapiddevelopmentofcomputervisionandnaturallanguageprocessing
technologies,manyvisualquestionansweringmethodshavemadesignificantprogresson
benchmarkvisualquestionansweringdatasets.Researchachievementsinthefieldofnatural
languagevisualquestionansweringhaveprovidedimportantinsightsforthedevelopmentof
medicalvisualquestionanswering,propellingprogressinthisarea.Althoughtherehavebeen
so