文档详情

基于深度学习的图像三维重建算法研究.pdf

发布:2025-06-09约9.05万字共86页下载文档
文本预览下载声明

摘要

图像三维重建技术是计算机视觉中一个不可或缺的分支,传统算法虽然经过

长期发展已经有很好的表现,但其要求也相对严苛,例如需要大量不同角度的视图、

已知的相机参数和充足的计算资源等,且成本相对较高。从随手采集到的单张图片

中便捷、迅速地重建三维模型仍然是困难的。得益于深度学习技术的迅猛进展和大

型3D数据集的开源,基于深度学习的单视图三维重建相关研究越来越多,但是目

前大多数此类重建方法只针对无背景的渲染合成图片,而非真实世界中采集的图

片。为此,本文受启发于深度学习领域的先进成果,提出了基于实例分割的网格重

建算法和基于Transformer的体素重建算法两种兼顾合成图像和真实图像的端到端

三维重建算法,并以充分的实验证实了所提出算法的有效性。最后,基于本文所提

出的深度学习算法设计并实现了一个适用于单幅图像的三维重建系统。

本文的主要工作如下:

1.基于实例分割的网格重建算法研究。该研究在实例分割网络的基础上有机

地融合了一个额外的3D重建分支,将处理后的感兴趣区域特征作为重建分支的输

入,避免图片背景信息的干扰;同时,为该端到端的网络设计了恰当的整体损失函

数和权重;此外还通过有监督的训练实现了生成模型与原图的姿态对齐。该算法在

真实图像数据集3D-FUTURE和Pix3D上的实验结果,以及在IJCAI-PRICAI2020

3DAIChallenge的单视图三维重建赛道中取得第三名的成绩均验证了其有效性。

2.基于Transformer的体素重建算法研究。该研究基于自然语言处理领域的

Transformer算法设计了纯卷积神经网络、纯Transformer以及混合网络三种不同架

构作为单视图三维重建网络的编码器,并设计了轻量级的解码器,实现了端到端的

体素重建网络。受益于Transformer中的自注意力机制,该网络更关注于对图像分

类结果做出突出贡献的区域特征,从而改善重建质量。该算法在公开的合成图像数

据集ShapeNet上与现有方法相媲美,且在真实图像数据集Pix3D上取得比现有方

法更佳的实验结果。

3.基于深度学习的图像三维重建系统设计与实现。基于本文提出的算法,设计

并实现了一个基于深度学习的图像三维重建系统,并做了充分的展示与测试。通过

前后端的搭建和算法的部署,该系统可以简便、迅速的将采集到的单张图像中的物

体转化为易用的三维模型。

关键词:三维重建,深度学习,实例分割,自注意力机制

ABSTRACT

Image3Dreconstructiontechnologyisanindispensablebranchofcomputervision.

Althoughtraditionalalgorithmshaveperformedwellafterlong-termdevelopment,their

requirementsarerelativelystringent,suchasalargenumberofviewsfromdifferent

angles,knowncameraparametersandsufficientcomputingresourcesarerequired,and

thecostsarerelativelyhigh.Itisstilldifficulttoreconstructthethree-dimensionalmodel

convenientlyandquicklyfromthesinglepicturecollectedathand.Benefitingfromthe

rapiddevelopmentofdeeplearningtechnologyandtheopensourceoflarge-scale3D

datasets,therearemoreandmoreresearchonsingleview3Dreconstructionbasedon

deeplearning.However,atpresent,mostofthesereconstructionmethodsonlyaimat

r

显示全部
相似文档