文档详情

多模态下的3D目标检测算法研究.pdf

发布：2025-03-25约10.99万字共76页下载文档

文本预览下载声明

摘要

3D目标检测在自动驾驶环境感知、机器人场景理解和虚拟现实等方面发挥着越来越重要

的作用。摄像头、激光雷达(LiDAR)是当前3D目标感知技术中最常应用的两种传感器。相机

图像具有丰富的颜色、纹理、边缘等外观特征，但对光线敏感，缺乏深度信息。激光雷达点

云包含精确的深度信息和几何特征，但缺少语义信息。对于需要预测物体位置和类别的检测

任务，它们各有优劣，因此关于图像、点云及其融合的多模态检测算法层出不穷。然而自动

驾驶环境对精度要求极高，根据多模态数据的特点进一步提高该场景下的检测准确性仍是需

要研究的技术难题。本文为准确可靠的自动驾驶感知系统的发展，提出了三种模态下的高精

度3D目标检测算法，主要工作如下：

（1）针对多摄像头图像转换至鸟瞰图(BirdsEyeView，BEV)表示时信息丢失以及转换过

程消耗过大的问题，本文构建了一个多视图双BEV融合3D检测框架。它使用深度图监督生

成伪点云，并将其体素化，再沿高度维度采样，挖掘不同高度的伪点云BEV内在特征。同时

与多视图直接经过视角变换而来的BEV特征进行融合。融合特征由特定的视角变换卷积进行

编码，获取多方向统一的鲁棒表示。最终被送入检测头的融合BEV特征具有更加完整的空间

及语义信息。此外，多视图视角变换模块采用快速BEV池化，以减少该过程的巨大计算消耗。

（2）针对激光雷达点云不同表示联合利用效率较低的问题，本文设计了一个点体素层次

级联网络。它首先利用具有线性复杂度的BEV注意力捕获长距离相关性以减少稀疏BEV特

征的不均匀采样，从而提高BEV主干的性能。然后提出的层次级联检测头，使用体素感兴趣

区域(RegionofInterest，RoI)池化和关键点Transformer从低级体素特征表示到后续高级原始

点表示逐步提高采样质量，从而获得更准确的定位与分类结果。

（3）针对多模态数据在融合时无法发挥各自优势的问题，本文提出在统一鸟瞰图表示下

的图像点云自适应融合目标检测方法。其中设计的自适应融合编码器利用简单的全局池化来

增强激光雷达BEV特征通道中的空间几何信息，同时通过挖掘以组形式分布在特征向量中的

语义实体来丰富相机BEV特征的语义信息。然后将两种模态的BEV特征在通道维度连接，

并送入卷积流分支和自注意力流分支，以融合局部全局信息。最后，提出的动态解码器利用

两个线性投影来交互标准多头注意力中多个头所表示子空间的信息，以增强融合BEV特征的

表示能力从而提高下游任务的性能。

关键词:3D目标检测，多传感器，点云，体素，鸟瞰图

Abstract

3Dobjectdetectionplaysanincreasinglyimportantroleinautomaticdrivingenvironment

perception,robotsceneunderstandingandvirtualreality.CameraandLiDARarethetwomost

commonlyusedsensorsincurrent3Dperceptiontechnology.Cameraimageshaverichappearance

featuressuchascolors,textures,andedges,butaresensitivetolightandlackdepthinformation.

LiDARpointcloudcontainsaccuratedepthinformationandgeometricfeatures,butlacksSemantic

information.Fordetectiontasksthatrequirepredictingthepositionandcategoryofobjects,each

hasitsownadvantagesanddisadvantages.Therefore,multimodaldetectionalgorithmsforimages,

pointclouds,an

显示全部

相似文档