基于深度学习的遮挡人体姿态估计方法研究.pdf
基于深度学习的遮挡人体姿态估计方法研究
摘要
随着大模型和智能驾驶技术的持续发展,人体姿态估计作为人机交互和行为分析的
前端任务,吸引了全球学者的广泛关注,其旨在从输入的图片或视频中预测出人体骨骼
关键点或关节的空间位置,进而估计人体姿态。然而,在现实应用场景中,遮挡问题经
常出现,不仅会降低被遮挡关键点的预测精度,还会影响到其他相关关键点的预测结果。
因此,提高人体姿态估计方法在面对遮挡时的鲁棒性,是一个充满挑战的研究课题。现
有的人体姿态估计方法在面临遮挡问题时,往往存在关键点细节语义信息提取不充分和
先验知识难以约束人体姿态的问题,而细节语义信息与人体约束信息恰恰是解决人体姿
态估计中遮挡问题的关键依据。针对上述问题,本文利用深度学习技术,研究如何提高
模型提取细节语义特征的能力,并将这些特征转化为含有人体约束信息的先验知识,以
优化人体姿态估计模型对遮挡情况的适应能力,主要研究工作如下:
针对特征提取过程中细节语义信息提取不充分问题,本文提出了一种融合注意力的
多尺度特征提取方法。该方法通过采用不同扩展率的空洞卷积,在捕获人体关键点的多
尺度特征的同时,有效保持了空间信息,解决了下采样操作造成的空间信息丢失。此外,
本文引入一种基于多头注意力的全局与局部特征融合策略,来捕捉图像的全局依赖性和
人体关键点之间的语义关系。为进一步增强特征表达,本文结合通道注意力和空间注意
力进行全局和局部特征增强,旨在提升特征的细节感知与语义丰富度。实验结果表明,
融合注意力的多尺度特征提取方法能够有效补充关键点空间信息,丰富多尺度语义信息,
在提高关键点预测精度的同时,为进一步优化遮挡问题提供了先验知识建模的特征基础。
当前主流的人体姿态估计方法将关键点热力图作为输出,然而,热力图中关键点之
间的关系信息没有被充分挖掘,导致重要的空间关系语义信息不能有效转化为含有人体
约束信息的先验知识。本文首先采用了一个能够捕获丰富细节语义信息的特征提取策略
实现特征提取。基于这些特征,提出了一种增强热力图分辨率的方法,以便更好地保留
语义信息。此外,本文提出了一种专注于对热力图中关键点的相互依赖性进行建模的先
验知识提取方法,并生成先验知识以指导和约束在遮挡条件下的人体姿态估计。实验结
果表明,基于先验知识约束的遮挡人体姿态估计方法可以显著提高遮挡场景下估计的准
确率,验证了本文方法的有效性和实用性。
关键词:深度学习;人体姿态估计;遮挡问题;特征增强;先验知识
基于深度学习的遮挡人体姿态估计方法研究
Abstract
WiththecontinuousdevelopmentofLargeModelandintelligentdrivingtechnology,
humanposeestimation,asafront-endtaskforhuman-computerinteractionandbehavior
analysis,hasattractedwidespreadattentionfromscholarsworldwide.,whichaimstopredict
thespatialpositionsofskeletalkeypointsorjointsfrominputimagesorvideos,andthus
estimatehumanposes.However,occlusionchallengesoftenoccurinreal-worldapplication
scenarios,whichnotonlydecreasethepredictionaccuracyofoccludedkeypointsbutalsoaffect
thepredictionresultsofotherrelatedkeypoints.Therefore,improvingtherobustnessofhuman
poseestimationmethodsinthepresenceofocclusionis