孤立手语词特征提取器、提取方法、识别模型及方法与流程

2022-03-05 10:28:27 来源：中国专利 TAG：

1.本发明属于手语词识别领域，特别涉及一种孤立手语词特征提取器、提取方法、识别模型及方法。

背景技术：

2.手语是聋哑人的主要表达方式，它作为一种语言，已逐渐为人们所接受。然而大多数健听人并不懂手语，造成了聋哑人与健听人之间的沟通困难，以至于聋哑人融入正常社会生活存在着诸多不便。
3.鉴于经济社会为了对聋哑群体更加悉心关照而产生了对实用化手语识别系统的迫切需求，若能充分利用现有的先进技术，结合手语识别最新研究成果，设计一款手语识别系统，将一定程度上促进手语识别技术的发展，加快手语识别从实验室研究走向实地应用的进程，进而促进聋哑公益事业的发展。
4.孤立手语词识别是连续手语词识别的基础，良好的孤立手语词识别算法能够提高连续手语词识别的精度与鲁棒性，因此孤立手语词识别成为手语识别领域的一个重点。孤立词识别的输入数据是一段视频，根据手语者速度的不同通常包含若干帧，但关键帧通常不超过6帧。
5.目前孤立词手语识别常用的技术方案包括使用3dcnn作为特征提取器，将输入的图像序列转化成特征向量形式，这种特征提取器能够捕捉帧间的快速移动尤其是手部运动，但参数量巨大，计算耗时，对硬件平台要求较高。而对于特征向量如何转化成词汇的问题，有研究者将特征向量序列输入hmm或rnn，最终生成词汇，这种方式能够进一步提取图像序列特征，但缺点是模型复杂且计算耗时。
6.也有研究者直接使用2dcnn作为特征提取器，生成特征向量，接着输入rnn进而生成词汇。这种方法虽然模型简单计算速度极快，但忽略了浅层特征的时序性，只在最后提取序列特征，造成鲁棒性差、识别精度低。
7.综上，采用3dcnn的手语识别模型参数量大、计算耗时，而采用2dcnn的手语识别模型无法有效提取手部运动特征导致识别效果差。

技术实现要素：

8.本发明的目的在于，针对上述现有技术的不足，提供一种孤立手语词特征提取器、提取方法、识别模型及方法，融合了2dcnn和3dcnn二者的优点，既不会导致计算量过于庞大，又可以有效提取手部运动特征，大大提高运算速度；同时，摒弃了rnn这种计算较耗时的结构，直接全局平均池化生成特征向量。
9.为解决上述技术问题，本发明所采用的技术方案是：
10.一种孤立手语词特征提取器，其特点是包括：
11.输入层，用于获取待识别的孤立手语视频中的多帧图像；
12.n个依次堆叠的融合块，其中，各融合块包括一第一2dcnn、一第一3dcnn、一融合
层、一第二2dcnn；第一2dcnn用于通过输入层接收连续3帧图像中的首帧图像并对其进行2d卷积处理，第一3dcnn用于通过输入层接收连续3帧图像并对其进行3d卷积处理；融合层用于对第一2dcnn和第一3dcnn输出的图像帧相加处理；第二2dcnn用于对相加处理后的图像做2d卷积处理；
13.全局平均池化层，用于对第二2dcnn输出的图像进行全局平均池化处理，并输出特征向量。
14.进一步地，还包括预处理模块，用于从原始待识别的孤立手语视频中获取图像帧并预处理后再送至输入层。
15.进一步地，所述预处理模块包括关键点识别模块和截取模块；
16.关键点识别模块：用于识别原始获取的第一帧图像中人体上半身关键点并获得人体中心；
17.截取模块：用于以人体中心为中心向外周截取设定大小的图像并作为最终输入送至输入层。
18.进一步地，所述输入层和首个融合块之间还设有第二3dcnn，用于对输入层送至融合块的多帧图像进行3d卷积处理以减少计算量。
19.优选地，融合块的数量为4。
20.优选地，所述截取模块用于以人体中心为中心向外周截取224x224大小的图像并作为最终输入送至输入层。
21.基于同一个发明构思，本发明还提供了一种孤立手语词特征提取方法，其特点是包括：
22.将待识别的孤立手语词视频输入所述的孤立手语词特征提取器，获得孤立手语词特征向量。
23.基于同一个发明构思，本发明还提供了一种孤立手语词识别模型，其特点是包括所述的孤立手语词特征提取器。
24.进一步地，还包括全连接层，全局平均池化层的输出端与全连接层的输入端相连，且全连接层用于对全局平均池化层输出的特征向量进行分类并输出识别获得的孤立手语词。
25.基于同一个发明构思，本发明还提供了一种孤立手语词识别方法，其特点是将待识别的孤立手语词视频输入所述的孤立手语词识别模型，获得孤立手语词。
26.与现有技术相比，本发明通过2dcnn-3dcnn融合的网络模型，能够从手语视频中识别出所对应的孤立手语词；模型既强化了平面特征的提取，又可一定程度上避免3dcnn参数量过大的问题。本发明结合了2dcnn和3dcnn优点，总体网络结构层次分明，结构简单，不仅运算速度快，模型参数量少，而且能够捕捉手部运动特征，非常适合于手语识别这种整体运动量不大，但局部运动量相对较大的场合。
附图说明
27.图1为人体上半身关键点定义图。
28.图2为融合块一实施例的结构示意图。
29.图3为融合块一实施例的参数设置图。
30.图4为孤立手语词识别模型一实施例的结构图。
31.图5为利用本发明获得的可视化中间特征图。
32.图6为本发明的整个系统程序流程图。
33.其中，1为输入层，2、2'、2”、2”'为融合块，201为第一2dcnn，202为第一3dcnn，203为融合层，204为第二2dcnn，3为第二3dcnn，4为全局平均池化层，5为全连接层。
具体实施方式
34.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
35.一种孤立手语词特征提取器，包括：
36.输入层1，用于获取待识别的孤立手语视频中的多帧图像。
37.4个依次堆叠的融合块mergeblock2、2'、2”、2”'，其中，各融合块2、2'、2”、2”'包括一第一2dcnn201、一第一3dcnn202、一融合层203、一第二2dcnn204；第一2dcnn201用于通过输入层1接收连续3帧图像中的首帧图像并对其进行2d卷积处理，第一3dcnn202用于通过输入层1接收连续3帧图像并对其进行3d卷积处理；融合层203用于对第一2dcnn201和第一3dcnn202输出的图像帧相加处理；第二2dcnn204用于对相加处理后的图像做2d卷积处理。
38.全局平均池化层4，用于对第二2dcnn204输出的图像进行全局平均池化处理，并输出特征向量。
39.预处理模块，用于从原始待识别的孤立手语视频中获取图像帧并预处理后再送至输入层1。
40.优选地，所述预处理模块包括关键点识别模块和截取模块；其中：
41.关键点识别模块：用于识别原始获取的第一帧图像中人体上半身关键点并获得人体中心；
42.截取模块：用于以人体中心为中心向外周截取设定大小224x224的图像并作为最终输入送至输入层1。
43.每个人打手语的速度都互不相同，同一个人每次打手语的速度也大不相同，因此正常情况下一个手语词对应的手语视频通常在30到200帧之间，而有效关键动作通常却不超过6帧，大多数帧都是过渡帧，因此在本实施例中，是从视频中以一定间隔取出8帧，作为网络的输入。这8帧原始图像可能分辨率过高，也可能背景面积过大，直接输入网络会造成识别困难，因此使用人体关键点识别工具识别出第一帧的人体上半身关键点，进而得到人体中心(见图1，其中，上半身指24以下的关键点，本发明所述的“人体中心”指的是左肩11、右肩12、左髋23和右髋24的中心点)，再以人体中心向外截取224x224大小的图像，作为最终输入。
44.所述输入层1和首个融合块2之间还设有第二3dcnn3(核大小为3x7x7)，用于对输入层1送至融合块2、2'、2”、2”'的多帧图像进行3d卷积处理以减少计算量。
45.融合块mergeblock2、2'、2”、2”'一实施例的结构如图2所示，其中，第一3dcnn202的卷积核大小为3x3x3，因此输入3张图像会得到1张输出图像。而第一2dcnn201输入3张图像会得到3张输出图像，因此，只需要通过下采样取3张图像的第一张作为第一2dcnn201的
输入，从而得到的输出图像维度就与，第一3dcnn202的输出图像维度一致，才能通过融合层203进一步相加。接着，将相加后的图像再做一次2d卷积，进一步提取特征。融合块mergeblock2、2'、2”、2”'的具体参数如附图3所示，其中，参数格式分别为卷积类型，kernel核大小，stride步长和channel输出通道。
46.本发明还提供了一种孤立手语词特征提取方法，包括：
47.将待识别的孤立手语词视频输入所述的孤立手语词特征提取器，获得孤立手语词特征向量。
48.如图4所示，本发明还提供了一种孤立手语词识别模型，包括所述的孤立手语词特征提取器和全连接层5，全局平均池化层4的输出端与全连接层5的输入端相连，且全连接层5用于对全局平均池化层4输出的特征向量进行分类并输出识别获得的孤立手语词。
49.图4中，k指kernel核大小，s指stride步长及c指channel输出通道。
50.输入的数据首先经过核大小为3x7x7的第二3dcnn3，该层的主要作用是为了降低计算量。接着再输入四层依次堆叠的融合块mergeblock2、2'、2”、2”'，由于最后一层融合块2”'的通道数是512，因此经过一层全局平均池化层4avgpool3d后将生成一个512长度的特征向量，将该特征向量输入全连接层5fc进行分类即可得到最终结果。
51.本发明还提供了一种孤立手语词识别方法，将待识别的孤立手语词视频输入所述的孤立手语词识别模型，获得孤立手语词。
52.本发明在手语数据集上进行训练，训练结果表明模型可以收敛，且在验证上取得较高的精度。通过可视化中间特征图(见图5)，可以看到模型主要聚焦于手部特征，实现了预期效果。
53.本发明设计了一种2dcnn-3dcnn融合的混合卷积网络孤立手语词识别模型，能够从手语视频中识别出所对应的孤立手语词。混合卷积模型由多层2d卷积和3d卷积堆叠而成，2d卷积在平面上提取特征的能力要强于3d卷积，因此2d卷积可以更好地提取平面特征，而3d卷积能够保证手部运动被充分捕获。本发明的整个系统程序流程图见图6。
54.上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是局限性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种高炉炉料轨迹模型构建方法与流程

孤立手语词特征提取器、提取方法、识别模型及方法与流程

相关文献

最热文献