基于图像域的视觉显著性检测研究.pdf
摘要
视觉显著性目标检测作为计算机视觉任务的基础,旨在模拟人类视觉系统,
识别图像或视频中最重要的目标或区域,相关研究在视觉理解、智能感知和自动
驾驶等任务具有重要意义。然而,现有基于RGB图像的视觉显著性目标检测算
法大多单独关注局部细节信息或整体结构信息的挖掘,缺乏对局部细节与整体结
构间信息的交互性与互补性研究。此外,现有基于多模态图像的视觉显著性目标
检测算法在解决跨模态差异性问题时,通常依赖辅助模态信息来引导模型优化,
但这也造成了模型面临模态域差异问题时,其泛化能力会严重受限。
针对上述挑战,本文开展了基于图像域的视觉显著性目标检测研究,提出了
一种基于RGB图像的全局交叉感知网络和一种基于RGB-D、RGB-T和Light
Field图像的多模态显著性检测框架。对于全局交叉感知网络,首先设计了全新
的多尺度金字塔骨干网络,可更好的聚焦显著目标区域,同时抑制背景噪声。进
一步地,网络中提出了一种全局交叉运算注意力感知单元,用于指导模型建立全
局上下文关联,增强了模型对特征的全局理解能力。对于多模态显著性检测框架,
首先设计了基于提示学习引导的视觉特征编解码器,实现了层次渐进式的特征聚
合,提高了模型的跨场景能力。得益于提示学习的加入,模型的整体训练参数量
仅为4.4M。同时,模型中提出了仅涉及图像编码器微调的视觉提示器,最大限
度挖掘了基础Transformer预训练模型的知识潜力,并引导其适应多样的下游任
务。此外,模型中还引入了可学习的加权参数λ,用于协调域间信息差异,以实
现对抗平衡。
基于11个显著性检测基准数据集,本文将所提出的方法与35种最先进的算
法进行了定性和定量实验研究分析。实验结果证明,本文提出的方法更好地实现
了全局感知与局部聚焦的有效交互,同时在保持显著目标完整性的同时实现了对
显著目标的精准分割。同时,也证明了即使在存在域差异的情况下,视觉驱动的
提示微调也能够有效的将预训练的视觉模型从自然场景转移到各种下游任务中。
关键词:显著性检测,视觉理解,多模态,提示学习,注意力感知
Abstract
Visualsalientobjectdetectionisafundamentaltaskincomputervision,aiming
toreplicatethehumanvisualsystemtoidentifythemostsignificantobjectsorregions
inimagesorvideos.Relevantresearchinvisualunderstanding,intelligentperception,
andautonomousdrivingholdsconsiderableimportance.However,existingvisual
salientobjectdetectionalgorithmsbasedonRGBimagesoftenemphasizemining
localdetailedinformationoroverallstructuralinformation,lackinginteractiveand
complementaryresearchontheinformationinterplaybetweenlocaldetailsandthe
overallstructure.Additionally,existingmulti-modalimage-basedvisualsalientobject
detectionalgorithmstypicallyrelyonauxiliarymodalinformationtoguidemodel
optimizationwhenaddressingcross-modaldifferences.However,thisalsoseverely
restrictsthemodelsgeneralizationabilitywhenfacingdiffe