手语识别方法、装置、电子设备及存储介质与流程

2022-12-31 15:54:54 来源：中国专利 TAG：

技术特征：
1.一种手语识别方法，其特征在于，所述方法包括：获取手语视频，并从所述手语视频中提取多帧视频图像；对所述多帧视频图像进行图像特征提取得到每帧视频图像的特征图，并基于所述每帧视频图像的特征图确定所述每帧视频图像的动作单元特征向量；将所述动作单元特征向量进行语义转换得到所述每帧视频图像的语义文本；根据所述多帧视频图像的语义文本确定所述手语视频的手语识别文本。2.根据权利要求1所述的方法，其特征在于，所述基于所述每帧视频图像的特征图确定所述每帧视频图像的动作单元特征向量，包括：从所述每帧视频图像的特征图中获取与所述每帧视频图像的手部关键点位置对应的二维坐标特征向量；将所述每帧视频图像的特征图进行特征向量映射，得到所述每帧视频图像的特征向量；基于所述每帧视频图像的特征向量和所述每帧视频图像的二维坐标特征向量，确定与所述每帧视频图像的手部关键点位置对应的三维坐标特征向量；基于所述每帧视频图像的特征向量和所述每帧视频图像的三维坐标特征向量，重建与所述每帧视频图像的所述手部关键点位置对应的三维手部重建模型，并从所述三维手部重建模型中获取所述每帧视频图像的三维重建特征向量；基于所述每帧视频图像的二维坐标特征向量、所述三维坐标特征向量和所述三维重建特征向量，确定所述每帧视频图像的动作单元特征向量。3.根据权利要求2所述的方法，其特征在于，所述从所述每帧视频图像的特征图中获取与所述每帧视频图像的手部关键点位置对应的二维坐标特征向量，包括：将所述每帧视频图像的特征图输入二维坐标特征向量估计网络进行二维坐标特征向量估计，得到与所述每帧视频图像的手部关键点位置对应的二维坐标特征向量。4.根据权利要求2所述的方法，其特征在于，所述基于所述每帧视频图像的特征向量和所述每帧视频图像的二维坐标特征向量，确定与所述每帧视频图像的手部关键点位置对应的三维坐标特征向量，包括：将所述每帧视频图像的特征向量和所述每帧视频图像的二维坐标特征向量输入三维坐标特征向量估计网络进行三维坐标特征向量估计，得到与所述每帧视频图像的手部关键点位置对应的三维坐标特征向量。5.根据权利要求2所述的方法，其特征在于，所述基于所述每帧视频图像的二维坐标特征向量、所述三维坐标特征向量和所述三维重建特征向量，确定所述每帧视频图像的动作单元特征向量，包括：将所述每帧视频图像的二维坐标特征向量、所述三维坐标特征向量和所述三维重建特征向量进行降维处理，得到所述每帧视频图像的第一坐标特征向量、第二坐标特征向量和第三坐标特征向量；连接所述每帧视频图像的第一坐标特征向量、第二坐标特征向量和第三坐标特征向量，得到所述每帧视频图像的动作单元特征向量。6.根据权利要求1所述的方法，其特征在于，所述将所述动作单元特征向量进行语义转换得到所述每帧视频图像的语义文本，包括：
将所述动作单元特征向量编码映射至隐层空间，得到所述动作单元特征向量的隐层空间编码信息；解码所述隐层空间编码信息至语义文本向量空间，得到所述隐层空间编码信息的语义文本向量；根据所述语义文本向量确定所述动作单元特征向量对应的目标文本；将所述动作单元特征向量对应的目标文本确定为所述每帧视频图像的语义文本。7.根据权利要求6所述的方法，其特征在于，所述根据所述语义文本向量确定所述动作单元特征向量对应的目标文本，包括：根据所述语义文本向量确定所述动作单元特征向量对应的初始文本；确定所述动作单元特征向量对应的初始文本中是否有冗余文本；在所述动作单元特征向量对应的初始文本中有冗余文本时，从所述动作单元特征向量对应的初始文本中删除所述冗余文本，得到所述动作单元特征向量对应的目标文本。8.一种手语识别装置，其特征在于，所述装置包括：图像提取模块，用于获取手语视频，并从所述手语视频中提取多帧视频图像；特征向量确定模块，用于对所述多帧视频图像进行图像特征提取得到每帧视频图像的特征图，并基于所述每帧视频图像的特征图确定所述每帧视频图像的动作单元特征向量；语义转换模块，用于将所述动作单元特征向量进行语义转换得到所述每帧视频图像的语义文本；文本确定模块，用于根据所述多帧视频图像的语义文本确定所述手语视频的手语识别文本。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的手语识别方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的手语识别方法。

技术总结
本发明公开了一种手语识别方法、装置、电子设备及存储介质，该方法包括：获取手语视频，对从手语视频中提取的多帧视频图像进行图像特征提取得到每帧视频图像的特征图，并基于每帧视频图像的特征图确定每帧视频图像的动作单元特征向量；将动作单元特征向量进行语义转换得到每帧视频图像的语义文本；根据多帧视频图像的语义文本确定手语视频的手语识别文本。本发明的技术方案，不依赖于人工维护的手语词库，将每帧视频图像的动作单元特征向量进行语义转换得到每帧视频图像的语义文本，根据多帧视频图像的语义文本确定手语视频的手语识别文本，无需从词库中搜索与手部关键点坐标最匹配的手语单词，提高手语识别方法的灵活性和准确率。确率。确率。

技术研发人员：张蒙豪陈鹏耿标
受保护的技术使用者：中国农业银行股份有限公司
技术研发日：2022.10.13
技术公布日：2022/12/30

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于CUDA的大规模点云三维重建方法

手语识别方法、装置、电子设备及存储介质与流程

相关文献

最热文献