基于深度学习的视频连续手语识别方法研究.pdf
基于深度学习的视频连续手语识别方法研究
摘要
手语是聋哑人与人沟通的主要方式,为了实现聋哑人与人之间的无障碍沟通,手
语识别技术应运而生。基于视频的连续手语识别旨在将输入的手语视频转换成与之对
应的文本序列,从而弥合聋哑人士与听力正常人士之间的沟通鸿沟。除此之外,连续
手语识别在人机交互、实时手势控制、智能手语教学等领域都具有很重要的现实意义,
因此近几年有越来越多的研究者对连续手语识别进行研究。连续手语识别是一个典型
的弱监督型任务,因为手语视频的帧数远大于与之对应的标签中的注释个数。这种情
况增加了输入视频序列与输出标签序列之间的对齐难度,因此很难做到端到端的识别。
同时由于在训练过程中存在过拟合会导致手部动作的特征提取不充分,还会影响连续
手语识别的效果。针对连续手语识别中存在的问题,本文进行了如下研究:
为了实现端到端的连续手语识别,解决训练过程中的过拟合问题,提出了基于辅
助对齐的连续手语识别方法。首先构建了基于通道-空间注意力机制的(2+1)D-CNN
特征提取网络提取手语特征,为了解决过拟合带来的特征提取不充分的问题,在特征
提取网络后增添辅助对齐模块,该模块利用聚合交叉熵损失函数(AggregationCross
Entropy,ACE)强制特征提取器基于提取到的视觉特征直接进行预测,并在训练过程
中提出使用随机掉帧机制,避免网络对某些图像帧过度学习。其次选用在语音识别领
域取得了巨大成功的连接时态分类算法(ConnectionistTemporalClassification,
CTC)作为全局损失函数,解决输入输出之间无先验对齐的问题,上述方法使连续手
语识别网络端到端可训练,真正实现了端到端的识别。
为了更好地学习序列内部上下文之间的联系,在辅助对齐模型的基础上提出了使
用Transformer模型进行序列学习,Transformer模型完全依赖于注意力机制对序列进行
建模,解决了循环神经网络长距离依赖的问题,同时,为了增强特征提取阶段不同维
度信息之间的融合,对通道-空间注意力机制进行了改进。
本文在德国手语数据集和中文手语数据集两个大型手语数据集上进行了实验,分
别取得了21.6%的词错率和2.2%的词错率,证明了本文方法的有效性。
关键词:连续手语识别;CTC;聚合交叉熵损失;深度学习;端到端训练
基于深度学习的视频连续手语识别方法研究
ABSTRACT
Signlanguageisthemainwayfordeafandmutepeopletocommunicatewitheachother.
Inordertoachievebarrierfreecommunicationbetweendeafandmutepeople,signlanguage
recognitiontechnologyhasemerged.Continuoussignlanguagerecognitionaimstobridgethe
communicationgapbetweendeafpeopleandhearingpeoplebyconvertingtheinputvideointo
acorrespondingtextsequence.Inaddition,continuoussignlanguagerecognitionisofgreat
relevanceinthefieldsofhuman-computerinteraction,real-timegesturecontrolandintelligent
signlanguageteaching,whichiswhymoreandmoreresearchershavebeeninvestigating
continuoussignlanguagerecognitioninrecentyears.Continuoussignlanguagerecognitionis
atypicalweaklysupervisedtask,a