基于端到端卷积神经网络的双目立体匹配算法研究.pdf
摘要
摘要
双目立体视觉是计算机视觉领域中的核心成分,在获取深度信息方面具有成
本低、灵活性高和实现方便的优点,因此被广泛的应用在三维重建、虚拟现实、
机器人视觉以及无人驾驶等领域。立体匹配在双目立体视觉中起着决定性的作用,
立体匹配算法的目的是找到立体图像之间每个像素的对应关系来估计视差。目前,
端到端卷积神经网络在立体匹配任务上取得了令人印象深刻的性能,但是仍然存
在一些问题:在遮挡和无纹理区域匹配精度低以及匹配的效率低。因此本文对基
于端到端卷积神经网络的立体匹配算法进行了进一步的研究,主要工作如下:
(1)基于深度学习的端到端立体匹配网络往往在遮挡、弱纹理区域容易发生错误
匹配的情况,不能够有效的利用上下文信息来推导线索。针对这一问题本文提出
了一种基于全局上下文信息的双目立体匹配算法,在特征提取阶段利用空间金字
塔模块融合不同感受野的特征信息,增强复杂区域的特征提取能力。采用基于级
联和基于不同视差下内积混合构成匹配代价来描述特征间的相似度。在匹配代价
优化阶段,设计了全局上下文模块和三维编解码网络相结合的模型,通过编解码
网络连接多个尺度的局部上下文信息,采用全局上下文模块来获得取全局上下文
信息。
2
()双目立体匹配网络存在不能兼顾效率和精度的问题,基于三维卷积的立体匹
配网络效率低而预测精度高,占用大量GPU内存计算时间长。针对这一问题本文
提出了一种快速准确的双目立体匹配算法,该网络的立体匹配依据由粗到细的准
则,仅仅在最小的分辨率生成完整视差图,然后在较大的分辨率进一步调整。该
网络为了提高准确度使用边缘检测和语义分割任务来辅助监督,为了更好地将语
义信息融合到立体匹配任务,设计了一个混合的匹配代价模型,该匹配代价由空
间特征匹配代价、语义特征匹配代价以及边缘特征匹配代价采用注意力机制生成。
为了验证提出的两个双目立体匹配算法的有效性,在Cityscapes、Secenflow
和KITTI数据集上进行了实验,得到的实验结果说明基于全局上下文信息的双目
立体匹配算法能改善视差图的精度,在KITTI2015测试集上得到的三像素误差为
2.14%,基于语义和边缘信息监督的快速双目立体匹配算法在KITTI2015测试集
上能在0.046s的时间内三像素误差值为2.80%。
关键词:双目视觉,立体匹配,卷积神经网络
I
ABSTRACT
ABSTRACT
Stereovision,asthecoreofcomputervision,hasthesuperioritiesoflowcost,
adaptabilityandconvenientrealizationinobtainingdepthinformation.Therefore,itis
widelyusedinthefieldsof3Dreconstruction,robotnavigation,automaticdrivingand
soon.Stereomatchingplaysadecisiveroleinstereovision.Thegoalofstereo
matchingalgorithmistofindthecorrespondingpixelsinleftandrightimagesto
estimatedisparitymap.Atpresent,end-to-endconvolutionalneuralnetworkhas
achievedimpressiveperformanceinstereomatchingtask,buttherearestillsome
problems:lowmatchingpr