安防监控系统中视频目标检测算法研究.pdf
摘要
目标检测技术在当今科技生活中应用十分广泛,尤其是在智能安防领域发挥
着至关重要的作用。目前,在深度学习模型的加持下,基于静态图片的目标检测技
术发展趋于成熟。但是,受制于视频质量、环境影响、目标尺寸、形变和遮挡等因
素,视频目标检测在实景应用中难易获得理想效果,如何在视频中快速准确地定位
目标成为安防监控系统不可忽视的任务。本文为了有效应对上述问题,采用了递进
优化的方法,首先研究静态图像目标检测算法,然后将改进算法扩展到视频目标检
测算法上,最终将其用于实际监控系统。
目前的目标检测模型普遍使用高深度的卷积神经网络获取目标图像特征,深
度网络提供的特性中蕴含了多样的信息,高效利用这些信息可以提高模型对于目
标尺度的敏感性。本文在FasterRCNN模型的基础上,结合ResNet主干输出特性,
设计了一种多层特征级联聚合的金字塔结构Imp-FPN,该结构充分结合深、浅层特
征语义信息优化特征图,提高各尺寸特征表征能力。同时,针对目标检测算法普遍
存在的样本不均匀问题,结合FasterRCNN对于样本的划分策略,笔者提出了一种
样本不平衡加权损失函数,提升模型的收敛速度,使得网络训练更加有侧重性。本
论文提出的静态图像检测算法在PascalVOC数据集上精确度达到86.0%,同时提
出的模块还可以实现跨模型优化,相对于原始FasterRCNN算法,提升了模型应对
尺度和多样本问题的效果。
连续视频流相比静态图像在时间轴上包含更多的可利用信息,如何有效利用
视频中的其他帧加强当前检测帧是视频目标检测技术研究的重点。本论文基于上
述工作做出如下改进:通过提取邻近帧的特征和全部帧的特征聚合到当前检测帧,
以丰富当前检测帧的特征信息,有效降低因单帧图片效果差引起的检测失效问题。
然后,基于注意力机制,结合FasterRCNN对于感兴趣目标区域的提取,分别针对
临近帧和全部帧设计了一种基于相似关系的特征聚合方法,有针对性地聚合特征
以此来保证多帧特征利用的效率。本论文提出的视频目标检测算法在ImageNet
VID数据集上精确度可以达到84.6%,在相似算法中具有很强的竞争力。
最后,本文将提出的算法模型在实际的监控系统中进行测试,提出的模型也可
以有效应对图像质量和遮挡问题,行人检测的效果准确,在安防监控系统中应用效
果较好。
关键词:目标检测,安防监控,卷积神经网络,注意力机制,特征聚合
ABSTRACT
Atpresent,objectdetectiontechnologyiswidelyusedintodayslife,especiallyin
thefieldofintelligentsecurity.withthesupportofdeeplearningmodels,thedevelopment
ofobjectdetectionbasedonsingleimageshasbecomemature.However,duetovideo
quality,environmentalimpact,targetsize,deformationandocclusion,videoobject
detectionisdifficulttoobtainidealresultsinreal-worldapplications,andhowtoquickly
andaccuratelylocatethetargetinthevideobecomesataskinsecuritysurveillance
systems.Inordertoeffectivelydealwiththeaboveproblems,thisthesisadoptsan
incrementaloptimizationapproachtofirststudythesingleimageobjectdetection,and
thenextendtheimprovedalgorithmtothevideoobjectdetectionalgorithm,andf