多模态下的3D目标检测算法研究.pdf
摘要
3D目标检测在自动驾驶环境感知、机器人场景理解和虚拟现实等方面发挥着越来越重要
的作用。摄像头、激光雷达(LiDAR)是当前3D目标感知技术中最常应用的两种传感器。相机
图像具有丰富的颜色、纹理、边缘等外观特征,但对光线敏感,缺乏深度信息。激光雷达点
云包含精确的深度信息和几何特征,但缺少语义信息。对于需要预测物体位置和类别的检测
任务,它们各有优劣,因此关于图像、点云及其融合的多模态检测算法层出不穷。然而自动
驾驶环境对精度要求极高,根据多模态数据的特点进一步提高该场景下的检测准确性仍是需
要研究的技术难题。本文为准确可靠的自动驾驶感知系统的发展,提出了三种模态下的高精
度3D目标检测算法,主要工作如下:
(1)针对多摄像头图像转换至鸟瞰图(BirdsEyeView,BEV)表示时信息丢失以及转换过
程消耗过大的问题,本文构建了一个多视图双BEV融合3D检测框架。它使用深度图监督生
成伪点云,并将其体素化,再沿高度维度采样,挖掘不同高度的伪点云BEV内在特征。同时
与多视图直接经过视角变换而来的BEV特征进行融合。融合特征由特定的视角变换卷积进行
编码,获取多方向统一的鲁棒表示。最终被送入检测头的融合BEV特征具有更加完整的空间
及语义信息。此外,多视图视角变换模块采用快速BEV池化,以减少该过程的巨大计算消耗。
(2)针对激光雷达点云不同表示联合利用效率较低的问题,本文设计了一个点体素层次
级联网络。它首先利用具有线性复杂度的BEV注意力捕获长距离相关性以减少稀疏BEV特
征的不均匀采样,从而提高BEV主干的性能。然后提出的层次级联检测头,使用体素感兴趣
区域(RegionofInterest,RoI)池化和关键点Transformer从低级体素特征表示到后续高级原始
点表示逐步提高采样质量,从而获得更准确的定位与分类结果。
(3)针对多模态数据在融合时无法发挥各自优势的问题,本文提出在统一鸟瞰图表示下
的图像点云自适应融合目标检测方法。其中设计的自适应融合编码器利用简单的全局池化来
增强激光雷达BEV特征通道中的空间几何信息,同时通过挖掘以组形式分布在特征向量中的
语义实体来丰富相机BEV特征的语义信息。然后将两种模态的BEV特征在通道维度连接,
并送入卷积流分支和自注意力流分支,以融合局部全局信息。最后,提出的动态解码器利用
两个线性投影来交互标准多头注意力中多个头所表示子空间的信息,以增强融合BEV特征的
表示能力从而提高下游任务的性能。
关键词:3D目标检测,多传感器,点云,体素,鸟瞰图
Abstract
3Dobjectdetectionplaysanincreasinglyimportantroleinautomaticdrivingenvironment
perception,robotsceneunderstandingandvirtualreality.CameraandLiDARarethetwomost
commonlyusedsensorsincurrent3Dperceptiontechnology.Cameraimageshaverichappearance
featuressuchascolors,textures,andedges,butaresensitivetolightandlackdepthinformation.
LiDARpointcloudcontainsaccuratedepthinformationandgeometricfeatures,butlacksSemantic
information.Fordetectiontasksthatrequirepredictingthepositionandcategoryofobjects,each
hasitsownadvantagesanddisadvantages.Therefore,multimodaldetectionalgorithmsforimages,
pointclouds,an