文档详情

多模态下的3D目标检测算法研究.pdf

发布:2025-03-25约10.99万字共76页下载文档
文本预览下载声明

摘要

3D目标检测在自动驾驶环境感知、机器人场景理解和虚拟现实等方面发挥着越来越重要

的作用。摄像头、激光雷达(LiDAR)是当前3D目标感知技术中最常应用的两种传感器。相机

图像具有丰富的颜色、纹理、边缘等外观特征,但对光线敏感,缺乏深度信息。激光雷达点

云包含精确的深度信息和几何特征,但缺少语义信息。对于需要预测物体位置和类别的检测

任务,它们各有优劣,因此关于图像、点云及其融合的多模态检测算法层出不穷。然而自动

驾驶环境对精度要求极高,根据多模态数据的特点进一步提高该场景下的检测准确性仍是需

要研究的技术难题。本文为准确可靠的自动驾驶感知系统的发展,提出了三种模态下的高精

度3D目标检测算法,主要工作如下:

(1)针对多摄像头图像转换至鸟瞰图(BirdsEyeView,BEV)表示时信息丢失以及转换过

程消耗过大的问题,本文构建了一个多视图双BEV融合3D检测框架。它使用深度图监督生

成伪点云,并将其体素化,再沿高度维度采样,挖掘不同高度的伪点云BEV内在特征。同时

与多视图直接经过视角变换而来的BEV特征进行融合。融合特征由特定的视角变换卷积进行

编码,获取多方向统一的鲁棒表示。最终被送入检测头的融合BEV特征具有更加完整的空间

及语义信息。此外,多视图视角变换模块采用快速BEV池化,以减少该过程的巨大计算消耗。

(2)针对激光雷达点云不同表示联合利用效率较低的问题,本文设计了一个点体素层次

级联网络。它首先利用具有线性复杂度的BEV注意力捕获长距离相关性以减少稀疏BEV特

征的不均匀采样,从而提高BEV主干的性能。然后提出的层次级联检测头,使用体素感兴趣

区域(RegionofInterest,RoI)池化和关键点Transformer从低级体素特征表示到后续高级原始

点表示逐步提高采样质量,从而获得更准确的定位与分类结果。

(3)针对多模态数据在融合时无法发挥各自优势的问题,本文提出在统一鸟瞰图表示下

的图像点云自适应融合目标检测方法。其中设计的自适应融合编码器利用简单的全局池化来

增强激光雷达BEV特征通道中的空间几何信息,同时通过挖掘以组形式分布在特征向量中的

语义实体来丰富相机BEV特征的语义信息。然后将两种模态的BEV特征在通道维度连接,

并送入卷积流分支和自注意力流分支,以融合局部全局信息。最后,提出的动态解码器利用

两个线性投影来交互标准多头注意力中多个头所表示子空间的信息,以增强融合BEV特征的

表示能力从而提高下游任务的性能。

关键词:3D目标检测,多传感器,点云,体素,鸟瞰图

Abstract

3Dobjectdetectionplaysanincreasinglyimportantroleinautomaticdrivingenvironment

perception,robotsceneunderstandingandvirtualreality.CameraandLiDARarethetwomost

commonlyusedsensorsincurrent3Dperceptiontechnology.Cameraimageshaverichappearance

featuressuchascolors,textures,andedges,butaresensitivetolightandlackdepthinformation.

LiDARpointcloudcontainsaccuratedepthinformationandgeometricfeatures,butlacksSemantic

information.Fordetectiontasksthatrequirepredictingthepositionandcategoryofobjects,each

hasitsownadvantagesanddisadvantages.Therefore,multimodaldetectionalgorithmsforimages,

pointclouds,an

显示全部
相似文档