手语识别方法、装置、电子设备及存储介质与流程

2022-12-31 15:54:54 来源：中国专利 TAG：

1.本发明实施例涉及人工智能领域，尤其涉及一种手语识别方法、装置、电子设备及存储介质。

背景技术：

2.目前，使用手语识别模型进行手语识别时，会采用人体姿态估计模型或者单阶段目标检测模型(yolov5)获取手语视频中每帧图像的特征图，基于每帧图像的特征图确定每帧图像的手部关键点坐标，然后从词库中搜索与手部关键点坐标最匹配的手语单词，将手语单词进行内容融合并输出，得到识别后的文本输出。
3.但从手语词库中搜索与手部关键点坐标最匹配的手语单词，对手语词库依赖较大，导致了手语识别模型的灵活性较差和准确率较低的问题。

技术实现要素：

4.本发明实施例提供一种手语识别方法、装置、电子设备及存储介质，可以提高手语识别方法的灵活性和准确率，解决现有手语识别模型由于对手语词库依赖较大导致的手语识别模型的灵活性较差和准确率较低的问题。
5.第一方面，本发明实施例提供一种手语识别方法，所述方法包括：
6.获取手语视频，并从所述手语视频中提取多帧视频图像；
7.对所述多帧视频图像进行图像特征提取得到每帧视频图像的特征图，并基于所述每帧视频图像的特征图确定所述每帧视频图像的动作单元特征向量；
8.将所述动作单元特征向量进行语义转换得到所述每帧视频图像的语义文本；
9.根据所述多帧视频图像的语义文本确定所述手语视频的手语识别文本。
10.第二方面，本发明实施例提供了一种手语识别装置，所述装置包括：
11.图像提取模块，用于获取手语视频，并从所述手语视频中提取多帧视频图像；
12.特征向量确定模块，用于对所述多帧视频图像进行图像特征提取得到每帧视频图像的特征图，并基于所述每帧视频图像的特征图确定所述每帧视频图像的动作单元特征向量；
13.语义转换模块，用于将所述动作单元特征向量进行语义转换得到所述每帧视频图像的语义文本；
14.文本确定模块，用于根据所述多帧视频图像的语义文本确定所述手语视频的手语识别文本。
15.第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一所述的手语识别方法。
16.第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的手语识别方法。
17.本发明实施例中，可以获取手语视频，并从手语视频中提取多帧视频图像；对多帧视频图像进行图像特征提取得到每帧视频图像的特征图，并基于每帧视频图像的特征图确定每帧视频图像的动作单元特征向量；将动作单元特征向量进行语义转换得到每帧视频图像的语义文本；根据多帧视频图像的语义文本确定手语视频的手语识别文本。即本发明的技术方案，可以提取手语视频中的多帧视频图像，从多帧视频图像中获取每帧视频图像的特征图，根据每帧视频图像的动作单元特征向量进行语义转换得到每帧视频图像的语义文本，进而根据多帧视频图像的语义文本确定手语视频的手语识别文本，相当于不依赖于人工维护的手语词库，根据手语视频的每帧视频图像的特征图对应的动作单元特征向量与语义文本之间的联系，将每帧视频图像的动作单元特征向量进行语义转换得到每帧视频图像的语义文本，进而根据多帧视频图像的语义文本确定手语视频的手语识别文本，无需从词库中搜索与手部关键点坐标最匹配的手语单词，从而提高手语识别方法的灵活性和准确率，解决现有手语识别模型由于对手语词库依赖较大导致的手语识别模型的灵活性较差和准确率较低的问题，更加快速地识别手语视频中的手语文本。
附图说明
18.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
19.图1为本发明实施例提供的手语识别方法的一个流程示意图；
20.图2为本发明实施例提供的手语识别方法的一个示意图；
21.图3为本发明实施例提供的手语识别方法的另一个示意图；
22.图4为本发明实施例提供的语义转换器的一个示意图；
23.图5为本发明实施例提供的手语识别方法中将动作单元特征向量进行语义转换的一个示意图；
24.图6为本发明实施例提供的生成手语识别模型的一个示意图；
25.图7为本发明实施例提供的手语识别方法的另一个流程示意图；
26.图8为本发明实施例提供的手语识别装置的一个结构示意图；
27.图9为本发明实施例提供的电子设备的一个结构示意图。
具体实施方式
28.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
29.图1为本发明实施例提供的手语识别方法的一个流程示意图，该方法可以由本发明实施例提供的手语识别装置来执行，该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中，该装置可以集成在电子设备中，电子设备比如可以是计算机或服务器。以下实施例将以该装置集成在电子设备中为例进行说明，参考图1，该方法具体可以包括如下步骤：
30.步骤101，获取手语视频，并从手语视频中提取多帧视频图像。
31.在一种可选的实施方式中，可以对获取的手语视频进行分帧处理，得到手语视频的多帧视频图像。
32.示例地，图2为本发明实施例提供的手语识别方法的一个示意图，如图2所示，在获取手语视频后，将输入的手语视频进行分帧处理得到多帧视频图像。
33.可选地，在从手语视频中提取多帧视频图像之后，可以对多帧视频图像进行降噪和归一化处理，便于之后对多帧视频图像进行图像特征的提取，也可以保证后续手别识别过程中输入数据的可用性。其中，输入数据可以包括每帧视频图像的特征图。
34.示例地，可以如图2所示，对多帧视频图像进行降噪和归一化处理。
35.步骤102，对多帧视频图像进行图像特征提取得到每帧视频图像的特征图，并基于每帧视频图像的特征图确定每帧视频图像的动作单元特征向量。
36.其中，特征图可以理解为包括颜色特征、纹理特征、形状特征和空间关系特征的图像。动作单元是将人体参与生产活动的部分分成的一些基本单位，主要有劳动者的手、手指、前臂(或手臂)、身躯、腿、脚、头部等部位，在本实施例中，动作单元可以是手语视频中的手。动作单元特征可以理解为将人体参与生产活动的部分分成的一些基本单位的特征，例如，手部特征。动作单元特征向量可以理解为将人体参与生产活动的部分分成的一些基本单位的特征图像的特征向量，例如，手部的关键点位置图像的特征向量。
37.在一种可选的实施方式中，可以使用卷积神经网络提取每帧视频图像的图像特征，得到每帧视频图像的特征图。然后可以基于每帧视频图像的二维坐标特征向量、三维坐标特征向量和三维重建特征向量，确定每帧视频图像的动作单元特征向量。
38.其中，二维坐标特征向量可以理解为每帧视频图像中手部关键点位置的特征图的坐标特征向量。三维坐标特征向量可以理解为每帧视频图像中手部关键点位置的特征图在三维空间的坐标特征向量；三维重建特征向量可以理解为每帧视频图像中手部重建得到的手部三维重建模型表面关键点位置的坐标特征向量。
39.在一种可选的实施方式中，可以从每帧视频图像的特征图中获取与每帧视频图像的手部关键点位置对应的二维坐标特征向量。将每帧视频图像的特征图进行特征向量映射，得到每帧视频图像的特征向量；基于每帧视频图像的特征向量和每帧视频图像的二维坐标特征向量，确定与每帧视频图像的手部关键点位置对应的三维坐标特征向量。基于每帧视频图像的特征向量和每帧视频图像的三维坐标特征向量，重建与每帧视频图像的手部关键点位置对应的三维手部重建模型，并从三维手部重建模型中获取每帧视频图像的三维重建特征向量。最后基于每帧视频图像的二维坐标特征向量、三维坐标特征向量和三维重建特征向量，确定每帧视频图像的动作单元特征向量。
40.示例地，如图2所示，可以利用卷积神经网络提取每帧视频图像的图像特征，得到每帧视频图像的特征图；基于每帧视频图像的特征图进行二维坐标特征向量估计，得到每帧视频图像的二维坐标特征向量。更具体地，可以如图3所示，将每帧视频图像的特征图输入二维坐标特征向量估计网络进行二维坐标特征向量估计，得到与每帧视频图像的手部关键点位置对应的二维坐标特征向量。
41.在经过如图2所示的对每帧视频图像进行降噪和归一化处理后，可以对每帧视频图像的特征图进行特征向量映射，得到每帧视频图像的特征向量，基于每帧视频图像的特
征向量和二维坐标特征向量，确定与每帧视频图像的手部关键点位置对应的三维坐标特征向量。如图3所示，可以将每帧视频图像的特征向量和每帧视频图像的二维坐标特征向量输入三维坐标特征向量估计网络进行三维坐标特征向量估计，得到与每帧视频图像的手部关键点位置对应的三维坐标特征向量。
42.在得到每帧视频图像的三维坐标特征向量后，如图2所示，可以基于每帧视频图像的特征向量和每帧视频图像的三维坐标特征向量，进行三维重建特征向量估计。更具体地，可以基于每帧视频图像的三维坐标特征向量和特征向量进行三维手部重建模型重建，得到三维手部重建模型，从三维手部重建模型中获取每帧视频图像的三维重建特征向量。示例地，如图3所示，利用一个参数化的手部3d重建模型(例如，参数化手部模型，mano)，将每帧视频图像的三维坐标特征向量和特征向量输入参数化的手部3d重建模型，进行三维手部重建模型重建，得到三维手部重建模型。该三维手部重建模型可以由778个顶点构成的三维网格组成，可以获取三维手部重建模型中778个顶点的778*3维的三维重建特征向量，该三维重建特征向量可以理解为三维手部重建模型的手部关键点位置的坐标特征向量。
43.最后，如图3所示，可以将每帧视频图像的二维坐标特征向量、三维坐标特征向量和三维重建特征向量，进行特征向量融合，得到每帧视频图像的动作单元特征向量。
44.步骤103，将动作单元特征向量进行语义转换得到每帧视频图像的语义文本。
45.在一种可选的实施方式中，可以将动作单元特征向量编码映射至隐层空间，得到动作单元特征向量的隐层空间编码信息，解码隐层空间编码信息至语义文本向量空间，得到隐层空间编码信息的语义文本向量；根据语义文本向量确定动作单元特征向量对应的目标文本，将动作单元特征向量对应的目标文本确定为每帧视频图像的语义文本。
46.其中，隐层空间可以理解为经过编码后的动作单元特征向量所在的空间；隐层空间编码信息可以理解为在隐层空间的动作单元特征向量的编码信息；语义文本向量可以理解为表达文本语义的向量。
47.在语义文本向量空间中，每个语义文本向量可以有对应的语义文本，因此，可以根据动作单元特征向量的隐层空间编码信息对应的语义文本向量，确定动作单元特征向量对应的目标文本。
48.示例地，图4为本发明实施例提供的语义转换器的一个示意图，如图4所示，语义转换器包括编码器、解码器和ctc算子。编码器可以将动作单元特征向量编码映射至隐层空间；解码器可以将隐层空间编码信息解码至语义文本向量空间；ctc(connectionist temporal classification)算子可以去除冗余文本。
49.图5为本发明实施例提供的手语识别方法中将动作单元特征向量进行语义转换的一个示意图，如图5所示，可以将动作单元特征向量输入图4所示的语义转换器中，语义转换器中的编码器将动作单元特征向量编码映射至隐层空间，得到动作单元特征向量的隐层空间编码信息；解码器将隐层空间编码信息解码至语义文本向量空间，得到隐层空间编码信息的语义文本向量；根据语义文本向量确定动作单元特征向量对应的目标文本，将动作单元特征向量对应的目标文本确定为每帧视频图像的语义文本。
50.步骤104，根据多帧视频图像的语义文本确定手语视频的手语识别文本。
51.其中，手语识别文本可以包括手语视频中的多帧视频图像的语义文本组成的文本。
52.在一种可选的实施方式中，可以将多帧视频图像的语义文本按照每帧视频图像的获取顺序依次存储于预设文档中，将预设文档中存储的多帧视频图像的语义文本确定为手语视频的手语识别文本，最后通过图4中的语义转换器输出手语视频的手语识别文本。
53.本实施例中，不依赖于人工维护的手语词库，根据手语视频的每帧视频图像的特征图对应的动作单元特征向量与语义文本之间的联系，将每帧视频图像的动作单元特征向量进行语义转换得到每帧视频图像的语义文本，进而根据多帧视频图像的语义文本确定手语视频的手语识别文本，无需从词库中搜索与手部关键点坐标最匹配的手语单词，从而提高手语识别方法的灵活性和准确率，解决现有手语识别模型由于对手语词库依赖较大导致的手语识别模型的灵活性较差和准确率较低的问题，更加快速地识别手语视频中的手语文本。
54.本实施例中，可以采用本实施例的手语识别方法生成手语识别模型，具体地，可以参考图6，将原始手语视频输入视频预处理单元，进行手语视频预处理得到多帧视频图像；再将多帧视频图像输入动作单元特征向量确定单元，确定每帧图像的动作单元特征向量；得到每帧图像的动作单元特征向量后，将每帧图像的动作单元特征向量输入语义转换器进行语义转换，得到原始手语视频的手语文本。最后将原始手语视频的手语文本输入深度学习训练器进行学习和训练，最终得到手语识别模型。通过本实施例提供的手语识别方法生成手语识别模型，可以简化手语识别模型的模型结构，提高手语识别模型的准确率和效率，解决现有手语识别模型的模型结构复杂导致手语识别模型的识别效率较低的问题。
55.下面进一步说明本发明实施例提供的手语识别方法，如图7所示，图7为本发明实施例提供的手语识别方法的另一个流程示意图，具体可以包括如下步骤：
56.步骤201，获取手语视频，并从手语视频中提取多帧视频图像。
57.步骤202，对多帧视频图像进行图像特征提取得到每帧视频图像的特征图。
58.步骤203，从每帧视频图像的特征图中获取与每帧视频图像的手部关键点位置对应的二维坐标特征向量。
59.示例地，可以采用一个基于残差网络模块的二维坐标特征向量估计网络(例如，2d姿态估计网络)，将每帧视频图像的二维坐标特征向量输入二维坐标特征向量估计网络，进行每帧视频图像的二维坐标特征向量估计，得到每帧视频图像的二维坐标特征向量。
60.步骤204，将每帧视频图像的特征图进行特征向量映射，得到每帧视频图像的特征向量。
61.示例地，可以采用基于残差网络模块的卷积网络对每帧视频图像的特征图进行特征向量映射，得到每帧视频图像的特征向量，由于残差网络模块的卷积网络深度较大，而卷积网络深度越大准确率越高，因此采用基于残差网络模块的卷积网络对每帧视频图像的特征图进行特征向量映射，可以更准确率地得到每帧视频图像的特征向量。
62.步骤205，基于每帧视频图像的特征向量和每帧视频图像的二维坐标特征向量，确定与每帧视频图像的手部关键点位置对应的三维坐标特征向量。
63.在一种可选的实施方式中，可以将每帧视频图像的特征向量和每帧视频图像的二维坐标特征向量输入三维坐标特征向量估计网络进行三维坐标特征向量估计，得到与每帧视频图像的手部关键点位置对应的三维坐标特征向量。
64.示例地，可以采用一个三维坐标特征向量估计网络(例如，基于图卷积、图池化、逆
图池化操作的手势图卷积神经网络)，将每帧视频图像的二维坐标特征向量和每帧视频图像的特征向量输入三维坐标特征向量估计网络，进行每帧视频图像的三维坐标特征向量估计，得到每帧视频图像的三维坐标特征向量。
65.其中，本实施例中的图卷积操作的公式如下所示：
[0066][0067]
其中，h
l 1
可以表示当前图卷积层的输出，h
l
可以表示当前图卷积层的输入，可以表示图的邻接矩阵，d可以表示图的度矩阵，w可以表示图卷积层的参数矩阵。
[0068]
本实施例中，利用图卷积网络估计每帧视频图像中手部关键点位置对应的三维坐标特征向量，相比于采用卷积神经网络估计每帧视频图像中手部关键点位置对应的三维坐标特征向量，可以更高效、准确地估计三维坐标特征向量，缩短三维坐标特征向量的时间。
[0069]
步骤206，基于每帧视频图像的特征向量和每帧视频图像的三维坐标特征向量，重建与每帧视频图像的手部关键点位置对应的三维手部重建模型，并从三维手部重建模型中获取每帧视频图像的三维重建特征向量。
[0070]
步骤207，基于每帧视频图像的二维坐标特征向量、三维坐标特征向量和三维重建特征向量，确定每帧视频图像的动作单元特征向量。
[0071]
在一种可选的实施方式中，可以将每帧视频图像的二维坐标特征向量、三维坐标特征向量和三维重建特征向量进行降维处理，得到每帧视频图像的第一坐标特征向量、第二坐标特征向量和第三坐标特征向量。然后连接每帧视频图像的第一坐标特征向量、第二坐标特征向量和第三坐标特征向量，得到每帧视频图像的动作单元特征向量，这样可以将不同维度的每帧视频图像中手部关键点位置的特征向量进行特征向量融合，得到更丰富的不同维度的坐标特征向量融合后的每帧视频图像中手部关键点位置的动作单元特征向量。
[0072]
步骤208，将动作单元特征向量编码映射至隐层空间，得到动作单元特征向量的隐层空间编码信息。
[0073]
步骤209，解码隐层空间编码信息至语义文本向量空间，得到隐层空间编码信息的语义文本向量。
[0074]
步骤210，根据语义文本向量确定动作单元特征向量对应的目标文本。
[0075]
在一种可选的实施方式中，根据语义文本向量确定动作单元特征向量对应的初始文本；确定动作单元特征向量对应的初始文本中是否有冗余文本；在动作单元特征向量对应的初始文本中有冗余文本时，从动作单元特征向量对应的初始文本中删除冗余文本，得到动作单元特征向量对应的目标文本，这样可以避免出现重复的目标文本，降低目标文本的重复率。
[0076]
示例地，可以如图5所示，根据语义文本向量确定动作单元特征向量对应的初始文本，利用图4中语义转换器的ctc算子确定动作单元特征向量对应的初始文本中是否有冗余文本；在动作单元特征向量对应的初始文本中有冗余文本时，利用图4中的ctc算子从动作单元特征向量对应的初始文本中删除冗余文本，得到动作单元特征向量对应的目标文本。
[0077]
本实施例中，将动作单元特征向量编码映射至隐层空间，得到动作单元特征向量的隐层空间编码信息，解码隐层空间编码信息至语义文本向量空间，得到隐层空间编码信息的语义文本向量，可以更加准确地确定动作单元特征向量的隐层空间编码信息对应的语
义文本向量，进而根据语义文本向量准确地确定动作单元特征向量对应的目标文本，无需从词库中搜索与手部关键点坐标最匹配的手语单词，从而提高手语识别方法的灵活性和准确率。
[0078]
步骤211，将动作单元特征向量对应的目标文本确定为每帧视频图像的语义文本。
[0079]
本实施例中，不依赖于人工维护的手语词库，根据手语视频的每帧视频图像的特征图对应的动作单元特征向量与语义文本之间的联系，将每帧视频图像的动作单元特征向量进行语义转换得到每帧视频图像的语义文本，进而根据多帧视频图像的语义文本确定手语视频的手语识别文本，无需从词库中搜索与手部关键点坐标最匹配的手语单词，从而提高手语识别方法的灵活性和准确率，解决现有手语识别模型由于对手语词库依赖较大导致的手语识别模型的灵活性较差和准确率较低的问题，更加快速地识别手语视频中的手语文本。
[0080]
图8为本发明实施例提供的手语识别装置的一个结构示意图，该装置适用于执行本发明实施例提供的手语识别方法。如图8所示，该装置具体可以包括：
[0081]
图像提取模块401，用于获取手语视频，并从所述手语视频中提取多帧视频图像；
[0082]
特征向量确定模块402，用于对所述多帧视频图像进行图像特征提取得到每帧视频图像的特征图，并基于所述每帧视频图像的特征图确定所述每帧视频图像的动作单元特征向量；
[0083]
语义转换模块403，用于将所述动作单元特征向量进行语义转换得到所述每帧视频图像的语义文本；
[0084]
文本确定模块404，用于根据所述多帧视频图像的语义文本确定所述手语视频的手语识别文本。
[0085]
可选地，特征向量确定模块402基于所述每帧视频图像的特征图确定所述每帧视频图像的动作单元特征向量，包括：
[0086]
从所述每帧视频图像的特征图中获取与所述每帧视频图像的手部关键点位置对应的二维坐标特征向量；
[0087]
将所述每帧视频图像的特征图进行特征向量映射，得到所述每帧视频图像的特征向量；
[0088]
基于所述每帧视频图像的特征向量和所述每帧视频图像的二维坐标特征向量，确定与所述每帧视频图像的手部关键点位置对应的三维坐标特征向量；
[0089]
基于所述每帧视频图像的特征向量和所述每帧视频图像的三维坐标特征向量，重建与所述每帧视频图像的所述手部关键点位置对应的三维手部重建模型，并从所述三维手部重建模型中获取所述每帧视频图像的三维重建特征向量；
[0090]
基于所述每帧视频图像的二维坐标特征向量、所述三维坐标特征向量和所述三维重建特征向量，确定所述每帧视频图像的动作单元特征向量。
[0091]
可选地，特征向量确定模块402从所述每帧视频图像的特征图中获取与所述每帧视频图像的手部关键点位置对应的二维坐标特征向量，包括：
[0092]
将所述每帧视频图像的特征图输入二维坐标特征向量估计网络进行二维坐标特征向量估计，得到与所述每帧视频图像的手部关键点位置对应的二维坐标特征向量。
[0093]
可选地，特征向量确定模块402基于所述每帧视频图像的特征向量和所述每帧视
频图像的二维坐标特征向量，确定与所述每帧视频图像的手部关键点位置对应的三维坐标特征向量，包括：
[0094]
将所述每帧视频图像的特征向量和所述每帧视频图像的二维坐标特征向量输入三维坐标特征向量估计网络进行三维坐标特征向量估计，得到与所述每帧视频图像的手部关键点位置对应的三维坐标特征向量。
[0095]
可选地，特征向量确定模块402基于所述每帧视频图像的二维坐标特征向量、所述三维坐标特征向量和所述三维重建特征向量，确定所述每帧视频图像的动作单元特征向量，包括：
[0096]
将所述每帧视频图像的二维坐标特征向量、所述三维坐标特征向量和所述三维重建特征向量进行降维处理，得到所述每帧视频图像的第一坐标特征向量、第二坐标特征向量和第三坐标特征向量；
[0097]
连接所述每帧视频图像的第一坐标特征向量、第二坐标特征向量和第三坐标特征向量，得到所述每帧视频图像的动作单元特征向量。
[0098]
可选地，语义转换模块403，具体用于：
[0099]
将所述动作单元特征向量编码映射至隐层空间，得到所述动作单元特征向量的隐层空间编码信息；
[0100]
解码所述隐层空间编码信息至语义文本向量空间，得到所述隐层空间编码信息的语义文本向量；
[0101]
根据所述语义文本向量确定所述动作单元特征向量对应的目标文本；
[0102]
将所述动作单元特征向量对应的目标文本确定为所述每帧视频图像的语义文本。
[0103]
可选地，语义转换模块403根据所述语义文本向量确定所述动作单元特征向量对应的目标文本，包括：
[0104]
根据所述语义文本向量确定所述动作单元特征向量对应的初始文本；
[0105]
确定所述动作单元特征向量对应的初始文本中是否有冗余文本；
[0106]
在所述动作单元特征向量对应的初始文本中有冗余文本时，从所述动作单元特征向量对应的初始文本中删除所述冗余文本，得到所述动作单元特征向量对应的目标文本。
[0107]
本领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0108]
本实施例的装置，不依赖于人工维护的手语词库，根据手语视频的每帧视频图像的特征图对应的动作单元特征向量与语义文本之间的联系，将每帧视频图像的动作单元特征向量进行语义转换得到每帧视频图像的语义文本，进而根据多帧视频图像的语义文本确定手语视频的手语识别文本，无需从词库中搜索与手部关键点坐标最匹配的手语单词，从而提高手语识别方法的灵活性和准确率，解决现有手语识别模型由于对手语词库依赖较大导致的手语识别模型的灵活性较差和准确率较低的问题，更加快速地识别手语视频中的手语文本。
[0109]
本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器
上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例提供的手语识别方法。
[0110]
本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例提供的手语识别方法。
[0111]
下面参考图9，其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图9示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0112]
如图9所示，计算机系统500包括中央处理单元(cpu)501，其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中，还存储有计算机系统500操作所需的各种程序和数据。cpu 501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
[0113]
以下部件连接至i/o接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。计算机系统500还包括图形处理单元(gpu)，图9中未示出，图形处理单元(gpu)可以用于进行图像处理的并行运算、加速处理等。
[0114]
特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(cpu)501执行时，执行本发明的系统中限定的上述功能。
[0115]
需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述
的任意合适的组合。
[0116]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0117]
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中，例如，可以描述为：一种处理器包括图像提取模块、特征向量确定模块、语义转换模块和文本确定模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。
[0118]
作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：
[0119]
获取手语视频，并从手语视频中提取多帧视频图像；对多帧视频图像进行图像特征提取得到每帧视频图像的特征图，并基于每帧视频图像的特征图确定每帧视频图像的动作单元特征向量；将动作单元特征向量进行语义转换得到每帧视频图像的语义文本；根据多帧视频图像的语义文本确定手语视频的手语识别文本。
[0120]
根据本实施例的技术方案，不依赖于人工维护的手语词库，根据手语视频的每帧视频图像的特征图对应的动作单元特征向量与语义文本之间的联系，将每帧视频图像的动作单元特征向量进行语义转换得到每帧视频图像的语义文本，进而根据多帧视频图像的语义文本确定手语视频的手语识别文本，无需从词库中搜索与手部关键点坐标最匹配的手语单词，从而提高手语识别方法的灵活性和准确率，解决现有手语识别模型由于对手语词库依赖较大导致的手语识别模型的灵活性较差和准确率较低的问题，更加快速地识别手语视频中的手语文本。
[0121]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于CUDA的大规模点云三维重建方法

手语识别方法、装置、电子设备及存储介质与流程

相关文献

最热文献