文档详情

基于深度学习的单目深度估计方法研究.pdf

发布:2025-05-02约9.66万字共65页下载文档
文本预览下载声明

摘要

单目深度估计是计算机视觉领域中的一项重要研究任务,在自动驾驶、机器

人、三维重建等领域有着广泛的应用。随着深度学习的发展,使用卷积神经网络

进行单目深度估计受到了广泛关注。基于深度学习的研究通常将单目深度估计建

模为回归模型或分类模型,而相较于回归模型,分类模型具有更显著的优势。

近年来,基于深度学习的单目深度估计研究取得了显著进展,然而,仍然面

临以下几个挑战:1)由于卷积核权重分布的模糊性,使得网络在特征融合阶段

无法有效融合物体的边缘特征,进而导致了预测深度图中物体边界扭曲或缺失。

2)先前基于分类模型的研究通常使用VisionTransformer预测自适应Bins,这会

引入较大的计算开销。3)当前的单目深度估计网络庞大且复杂,无法部署在硬

件资源有限的边缘设备。针对上述挑战,本文开展了如下工作:

(1)基于边界注意力和自适应Bins的单目深度估计网络:针对网络无法有

效融合边缘特征的问题,本文提出了一个边界注意力模块,该模块部署在特征融

合阶段,以赋予物体边界更高的权重,进而提高网络对物体边界特征的识别能力。

为了降低预测自适应Bins的计算开销,本文提出了一个滑动窗口自适应Bins模

块,该模块将自注意力机制的计算限制在了窗口中,有效降低了计算复杂度并提

升了模型性能。该网络在NYUDepthV2和KITTI两个数据集中进行了实验,相

较于最先进的方法,绝对相对误差分别改进了1.1%和3.9%。

(2)应用于低资源设备的轻量化单目深度估计网络:为了将单目深度估计

网络部署在硬件资源有限的边缘设备中,本文对其进行了轻量化设计。本文基于

深度可分离卷积设计了三个核心轻量级模块,分别应用于捕获全局感受野阶段、

特征融合阶段以及预测自适应Bins阶段。该网络在NYUDepthV2和KITTI两

个数据集中进行了实验,相较于第三章提出的网络,该网络参数量降低了98.6%,

而绝对相对误差仅升高了33.1%和37.5%。

关键词:单目深度估计,深度学习,注意力机制,自适应Bins,轻量化

Abstract

Monoculardepthestimationisanimportantresearchinthefieldofcomputer

visionandhasbeenwidelyusedinfieldssuchasautonomousdriving,robotics,and

three-dimensionalreconstruction.Withthedevelopmentofdeeplearning,monocular

depthestimationusingconvolutionalneuralnetworkshasreceivedwidespread

attention.Researchbasedondeeplearningusuallymodelsmonoculardepth

estimationasaregressionmodeloraclassificationmodel.Comparedwithregression

models,classificationmodelshavemoresignificantadvantages.

Inrecentyears,researchonmonoculardepthestimationbasedondeeplearning

havemadesignificantprogress.However,itstillfacesthefollowingchallenges:1)

Duetothefuzzinessoftheconvolutionkernelweightdistribution,thenetworkcannot

effectivelyfusetheedgefeaturesoftheobjectinthefeaturefusionstage,

显示全部
相似文档