连续手语词特征提取器、提取方法、识别模型及方法与流程

2022-03-05 10:28:39 来源：中国专利 TAG：

1.本发明属于手语词识别领域，特别涉及一种连续手语词特征提取器、提取方法、识别模型及方法。

背景技术：

2.手语是聋哑人的主要表达方式，它作为一种语言，已逐渐为人们所接受。然而大多数健听人并不懂手语，造成了聋哑人与健听人之间的沟通困难，以至于聋哑人融入正常社会生活存在着诸多不便。
3.鉴于经济社会为了对聋哑群体更加悉心关照而产生了对实用化手语识别系统的迫切需求，若能充分利用现有的先进技术，结合手语识别最新研究成果，设计一款手语识别系统，将一定程度上促进手语识别技术的发展，加快手语识别从实验室研究走向实地应用的进程，进而促进聋哑公益事业的发展。
4.孤立手语词识别是连续手语词识别的基础，良好的孤立手语词识别算法能够提高连续手语词识别的精度与鲁棒性，因此孤立手语词识别成为手语识别领域的一个重点。孤立词识别的输入数据是一段视频，根据手语者速度的不同通常包含若干帧，但关键帧通常不超过6帧。
5.连续手语词通常也是一段视频，但动作连续，词汇间的界限不明显，因此成为连续手语词识别的核心痛点。
6.目前孤立词手语识别常用的技术方案包括使用3dcnn作为特征提取器，将输入的图像序列转化成特征向量形式，这种特征提取器能够捕捉帧间的快速移动尤其是手部运动，但参数量巨大，计算耗时，对硬件平台要求较高。而对于特征向量如何转化成词汇的问题，有研究者将特征向量序列输入hmm或rnn，最终生成词汇，这种方式能够进一步提取图像序列特征，但缺点是模型复杂且计算耗时。
7.也有研究者直接使用2dcnn作为特征提取器，生成特征向量，接着输入rnn进而生成词汇。这种方法虽然模型简单计算速度极快，但忽略了浅层特征的时序性，只在最后提取序列特征，造成鲁棒性差、识别精度低。
8.而连续手语词识别常用sequence-to-sequence的技术方案，采用了文本翻译领域里的思想，利用一个rnn作为编码器，将特征向量进行编码，接着使用另一个rnn作为解码器，生成对应的手语句子，这种方式能够达到一定的识别效果。由于sequence-to-sequence的技术方案分别将每一张图像顺序输入编解码器中生成句子，受限于rnn的链式求导法则，这种模型无法有效进行端到端训练，其性能取决于cnn提取的特征向量的质量，然而这些特征向量却很难聚焦于手部特征。
9.综上，对于cnn提取特征向量部分，采用3dcnn的手语识别模型参数量大、计算耗时，而采用2dcnn的手语识别模型无法有效提取手部运动特征导致识别效果差。

技术实现要素：

10.本发明的目的在于，针对上述现有技术的不足，提供一种连续手语词特征提取器、提取方法、识别模型及方法，融合了2dcnn和3dcnn二者的优点，既不会导致计算量过于庞大，又可以有效提取手部运动特征，大大提高运算速度；同时，摒弃了rnn这种计算较耗时的结构，直接全局平均池化生成特征向量。
11.为解决上述技术问题，本发明所采用的技术方案是：
12.一种连续手语词特征提取器，其特点是包括：
13.输入层，用于获取待识别的连续手语视频中的多帧图像；
14.n个依次堆叠的融合块，其中，各融合块包括一第一2dcnn、一第一3dcnn、一融合层、一第二2dcnn；第一2dcnn用于通过输入层接收连续3帧图像中的首帧图像并对其进行2d卷积处理，第一3dcnn用于通过输入层接收连续3帧图像并对其进行3d卷积处理；融合层用于对第一2dcnn和第一3dcnn输出的图像帧相加处理；第二2dcnn用于对相加处理后的图像做2d卷积处理；
15.全局平均池化层，用于对第二2dcnn输出的图像进行全局平均池化处理，并输出特征向量。
16.进一步地，还包括预处理模块，用于从原始待识别的连续手语视频中获取图像帧并预处理后再送至输入层。
17.进一步地，所述预处理模块包括关键点识别模块和截取模块；
18.关键点识别模块：用于识别原始获取的第一帧图像中人体上半身关键点并获得人体中心；
19.截取模块：用于以人体中心为中心向外周截取设定大小的图像并作为最终输入送至输入层。
20.进一步地，所述输入层和首个融合块之间还设有第二3dcnn，用于对输入层送至融合块的多帧图像进行3d卷积处理以减少计算量。
21.优选地，融合块的数量为4。
22.优选地，所述截取模块用于以人体中心为中心向外周截取224x224大小的图像并作为最终输入送至输入层。
23.基于同一个发明构思，本发明还提供了一种连续手语词特征提取方法，其特点是包括：
24.将待识别的连续手语词视频输入如上述任一项所述的连续手语词特征提取器，获得连续手语词特征向量。
25.基于同一个发明构思，本发明还提供了一种连续手语词识别模型，其特点是包括所述的连续手语词特征提取器。
26.进一步地，还包括：
27.识别层，用于识别连续手语视频中的人体并裁剪对应的图像；
28.滑动窗口，用于利用滑动窗口将识别层输出的图像划分为多个视频片段，并将视频片段输至连续手语词特征提取器；
29.bilstm层，用于提取连续手语词特征提取器输出的特征向量中的序列特征信息；
30.ctc解码器，用于基于所述序列特征信息输出连续手语词和手语句子。
31.基于同一个发明构思，本发明还提供了一种连续手语词识别方法，其特点是将待识别的连续手语词视频输入所述的连续手语词识别模型，获得连续手语词和手语句子。
32.与现有技术相比，本发明通过2dcnn-3dcnn融合的网络模型，能够从手语视频中识别出所对应的连续手语词；模型既强化了平面特征的提取，又可一定程度上避免3dcnn参数量过大的问题；采用bilstm层学习了句子的序列特征，有助于提高句子识别的准确率；本发明结合了2dcnn和3dcnn优点，网络结构层次分明，结构简单，不仅运算速度快，模型参数量少，而且能够捕捉手部运动特征，非常适合于手语识别这种整体运动量不大，但局部运动量相对较大的场合；本发明从视频中提取词汇，再将词汇正确组合，能够有效提取手部特征，进而提高词汇识别和整个句子识别的准确率。
附图说明
33.图1为人体上半身关键点定义图。
34.图2为连续手语词特征提取器一实施例的结构示意图。
35.图3为融合块一实施例的结构示意图。
36.图4为连续手语词识别模型一实施例的总体结构图。
37.图5为利用本发明获得的可视化中间特征图。
38.图6为本发明的整个系统程序流程图。
39.其中，1为输入层，2、2'、2”、2”'为融合块，201为第一2dcnn，202为第一3dcnn，203为融合层，204为第二2dcnn，3为第二3dcnn，4为全局平均池化层，5为bilstm层，6为ctc解码器。
具体实施方式
40.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
41.一种连续手语词特征提取器，包括：
42.输入层1，用于获取待识别的连续手语视频中的多帧图像。
43.4个依次堆叠的融合块mergeblock2、2'、2”、2”'，其中，各融合块2、2'、2”、2”'包括一第一2dcnn201、一第一3dcnn202、一融合层203、一第二2dcnn204；第一2dcnn201用于通过输入层1接收连续3帧图像中的首帧图像并对其进行2d卷积处理，第一3dcnn202用于通过输入层1接收连续3帧图像并对其进行3d卷积处理；融合层203用于对第一2dcnn201和第一3dcnn202输出的图像帧相加处理；第二2dcnn204用于对相加处理后的图像做2d卷积处理。
44.全局平均池化层4，用于对第二2dcnn204输出的图像进行全局平均池化处理，并输出特征向量。
45.预处理模块，用于从原始待识别的连续手语视频中获取图像帧并预处理后再送至输入层1。
46.优选地，所述预处理模块包括关键点识别模块和截取模块；
47.关键点识别模块：用于识别原始获取的第一帧图像中人体上半身关键点并获得人体中心；
48.截取模块：用于以人体中心为中心向外周截取设定大小224x224的图像并作为最终输入送至输入层1。
49.每个人打手语的速度都互不相同，同一个人每次打手语的速度也大不相同，因此正常情况下一个手语词对应的手语视频通常在30到200帧之间，而有效关键动作通常却不超过6帧，大多数帧都是过渡帧，因此在本实施例中，是从视频中以一定间隔取出8帧，作为网络的输入。这8帧原始图像可能分辨率过高，也可能背景面积过大，直接输入网络会造成识别困难，因此使用人体关键点识别工具识别出第一帧的人体上半身关键点，进而得到人体中心(见图1，其中，上半身指24以下的关键点，本发明所述的“人体中心”指的是左肩11、右肩12、左髋23和右髋24的中心点)，再以人体中心向外截取224x224大小的图像，作为最终输入。
50.为了能够高效识别出每个片段代表的词汇，本发明设计了一种基于混合2d-3d卷积的连续手语词特征提取器，其结构如图2所示。输入层1和首个融合块2之间设有第二3dcnn3(核大小为3x7x7)，用于对输入层1送至融合块2、2'、2”、2”'的多帧图像进行3d卷积处理以减少计算量。接着再输入四层融合块mergeblock2、2'、2”、2”'，由于最后一层融合块2”'的通道数是512，因此经过一层全局平均池化层avgpool3d4后将生成一个512长度的特征向量，该特征向量即表征了输入片段的所有特征。
51.融合块mergeblock2、2'、2”、2”'一实施例的结构如图3所示，其中，第一3dcnn202的卷积核大小为3x3x3，因此输入3张图像会得到1张输出图像。而第一2dcnn201输入3张图像会得到3张输出图像，因此，只需要通过下采样取3张图像的第一张作为第一2dcnn201的输入，从而得到的输出图像维度就与，第一3dcnn202的输出图像维度一致，才能通过融合层203进一步相加。接着，将相加后的图像再做一次2d卷积，进一步提取特征。其中，k指kernel核大小，s指stride步长，c指channel输出通道。
52.本发明还提供了一种连续手语词特征提取方法，包括：
53.将待识别的连续手语词视频输入所述的连续手语词特征提取器，获得连续手语词特征向量。
54.本发明还提供了一种连续手语词识别模型，包括所述的连续手语词特征提取器，还包括：
55.识别层，用于识别连续手语视频中的人体并裁剪对应的图像。
56.滑动窗口，用于利用滑动窗口将识别层输出的图像划分为多个视频片段，并将视频片段输至连续手语词特征提取器；由于一段视频中包含多个词汇，且词汇间没有明显界限，因此采用滑动窗口每次从视频中取出连续8帧，这8帧连续图像构成一个片段，分别识别出每个片段所表示的词汇，窗口步长设置为4。
57.bilstm层5，用于提取连续手语词特征提取器输出的特征向量中的序列特征信息。
58.ctc解码器6，用于基于所述序列特征信息输出连续手语词和手语句子。
59.如图4所示，滑动窗口截取多个视频片段后，分别将其输入连续手语词特征提取器，得到一个特征向量的序列，将该特征向量序列依次输入bilstm层5中，得到词汇的概率分布，使用ctc解码器6进行训练，直到收敛。bilstm层5能够学习句子的正向特征和反向特征，因此只要特征提取器能够正确识别出部分词汇对应的特征，就能够将完整的句子识别出来。在测试阶段，只需要将得到的词汇概率分布按照最大概率路径搜索，取出该路径上每
个节点所代表的的词汇，通过删除重复词汇及空词汇，得到最终手语句子。
60.本发明还提供了一种连续手语词识别方法，将待识别的连续手语词视频输入所述的连续手语词识别模型，获得连续手语词和手语句子。
61.本发明在手语数据集上进行训练，训练结果表明模型可以收敛，且在验证上取得较高的精度。通过可视化中间特征图(见图5)，可以看到模型主要聚焦于手部特征，实现了预期效果。
62.本发明设计了一种2dcnn-3dcnn融合的混合卷积网络连续手语词识别模型，能够从手语视频中识别出所对应的连续手语词。混合卷积模型由多层2d卷积和3d卷积堆叠而成，2d卷积在平面上提取特征的能力要强于3d卷积，因此2d卷积可以更好地提取平面特征，而3d卷积能够保证手部运动被充分捕获。通过特殊的融合机制将两部分特征融合到一起构成融合块mergeblock，堆叠四层融合块便搭建出了cnn特征提取器。利用滑动窗口从一段连续视频中提取出多个词汇之后，将这些词汇输入到bilstm中进行序列建模，最后输出正确的句子。本发明的整个系统程序流程图见图6。
63.上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是局限性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

连续手语词特征提取器、提取方法、识别模型及方法与流程

相关文献

最热文献