基于深度学习的单目深度估计方法研究.pdf
摘要
单目深度估计是计算机视觉领域中的一项重要研究任务,在自动驾驶、机器
人、三维重建等领域有着广泛的应用。随着深度学习的发展,使用卷积神经网络
进行单目深度估计受到了广泛关注。基于深度学习的研究通常将单目深度估计建
模为回归模型或分类模型,而相较于回归模型,分类模型具有更显著的优势。
近年来,基于深度学习的单目深度估计研究取得了显著进展,然而,仍然面
临以下几个挑战:1)由于卷积核权重分布的模糊性,使得网络在特征融合阶段
无法有效融合物体的边缘特征,进而导致了预测深度图中物体边界扭曲或缺失。
2)先前基于分类模型的研究通常使用VisionTransformer预测自适应Bins,这会
引入较大的计算开销。3)当前的单目深度估计网络庞大且复杂,无法部署在硬
件资源有限的边缘设备。针对上述挑战,本文开展了如下工作:
(1)基于边界注意力和自适应Bins的单目深度估计网络:针对网络无法有
效融合边缘特征的问题,本文提出了一个边界注意力模块,该模块部署在特征融
合阶段,以赋予物体边界更高的权重,进而提高网络对物体边界特征的识别能力。
为了降低预测自适应Bins的计算开销,本文提出了一个滑动窗口自适应Bins模
块,该模块将自注意力机制的计算限制在了窗口中,有效降低了计算复杂度并提
升了模型性能。该网络在NYUDepthV2和KITTI两个数据集中进行了实验,相
较于最先进的方法,绝对相对误差分别改进了1.1%和3.9%。
(2)应用于低资源设备的轻量化单目深度估计网络:为了将单目深度估计
网络部署在硬件资源有限的边缘设备中,本文对其进行了轻量化设计。本文基于
深度可分离卷积设计了三个核心轻量级模块,分别应用于捕获全局感受野阶段、
特征融合阶段以及预测自适应Bins阶段。该网络在NYUDepthV2和KITTI两
个数据集中进行了实验,相较于第三章提出的网络,该网络参数量降低了98.6%,
而绝对相对误差仅升高了33.1%和37.5%。
关键词:单目深度估计,深度学习,注意力机制,自适应Bins,轻量化
Abstract
Monoculardepthestimationisanimportantresearchinthefieldofcomputer
visionandhasbeenwidelyusedinfieldssuchasautonomousdriving,robotics,and
three-dimensionalreconstruction.Withthedevelopmentofdeeplearning,monocular
depthestimationusingconvolutionalneuralnetworkshasreceivedwidespread
attention.Researchbasedondeeplearningusuallymodelsmonoculardepth
estimationasaregressionmodeloraclassificationmodel.Comparedwithregression
models,classificationmodelshavemoresignificantadvantages.
Inrecentyears,researchonmonoculardepthestimationbasedondeeplearning
havemadesignificantprogress.However,itstillfacesthefollowingchallenges:1)
Duetothefuzzinessoftheconvolutionkernelweightdistribution,thenetworkcannot
effectivelyfusetheedgefeaturesoftheobjectinthefeaturefusionstage,