一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于计算机视觉的手语翻译方法及系统与流程

2022-06-11 15:59:59 来源:中国专利 TAG:


1.本发明涉及手语处理技术领域,具体涉及基于计算机视觉的手语翻译方法及系统。


背景技术:

2.手语是用手势比量动作,根据手势的变化模拟形象或者音节以构成的一定意思或词语,它是听力障碍还有无法言语的人,即聋哑人互相交际和交流思想的一种“语言”。在国家通用手语常用词表中,收录了5668个手语。
3.对于正常人而言,很难通过手语与聋哑人进行交流,所以手语翻译的需求应运而生,但是目前应用于手语的翻译技术非常少,较为智能的一种技术是通过数据手套进行手语翻译,该技术的原理是通过布置于手套上的贴片获取弯曲曲度、角度等数据来判断手指的动作,例如弯曲、伸展,将手指和左右手的状态组合形成手势,进一步通过和标准手语对照,形成手语,并将文本化的手语通过语音合成播放出来。
4.还有一些技术,如通过专用的手环,在手环上部署感知肌肉活动的传感器,将手环佩戴到手臂,通过传感器获取肌肉运动的数据,通过深度学习来对手势进行识别,这种技术在手语覆盖度、识别准确率方面更差,还达不到数据手套的水平。
5.手语并不单单是一种手指符号,还包括头、躯干、四肢以及整体所构成的形态。以手语中的“你”“我”“他”“我们”为例,其手指形态是一样的,区别在于和躯干形成的方位差异,以及连贯的动态动作。手环和数据手套无法对类似情况进行翻译,而且,更糟糕的是,这种情况在手语中非常普遍。
6.数据手套是以曲度、角度等数据作为判断手语的标准,由于手的个体性差异比较大,同样一个动作,大手小手,产生的曲度、角度等数据是不一致的,这样翻译出来的结果区别非常大。导致在某一特定的使用者或者产品演示人员身上,该技术翻译效果很好,但是在其他大部分人身上,该技术效果很差,甚至无法使用。而手环是肌肉传感,这种技术的误差太大,个体差异也相当大。并且数据手套和手环设备成本、维护费用高,整体设备比较复杂,携带、使用极不方便。
7.综上所述,亟需一种新的手语翻译技术方案。


技术实现要素:

8.为此,本发明提供一种基于计算机视觉的手语翻译方法及系统,解决使用数据手套、手环传感器等方式进行手语翻译,识别范围覆盖度低,识别准确率差、用户个体使用体验差异大等问题。
9.为了实现上述目的,本发明提供如下技术方案:基于计算机视觉的手语翻译方法,包括以下步骤:
10.获取聋哑人员的肢体动作,将所述肢体动作形成预设帧率的待翻译视频;
11.对所述待翻译视频进行每帧图像的动作抽象,形成动作二进制数据矩阵;
12.对相似性在第一预设阈值范围内,且时间维度在第二预设阈值范围内的帧判定为同一动作,将不同动作之间的帧判定为连接动作;
13.将所述同一动作和所述连接动作进行手语翻译获得对应的文本内容。
14.作为基于计算机视觉的手语翻译方法优选方案,还包括,对所述待翻译视频进行降采样,将预设帧率的所述待翻译视频由第一帧率降采样为第二帧率。
15.作为基于计算机视觉的手语翻译方法优选方案,对所述待翻译视频进行每帧图像的动作抽象包括眼、耳、鼻、口、肩颈、肘、腕和手指关节,动作二进制数据矩阵中包括眼、耳、鼻、口、肩颈、肘、腕和手指关节信息。
16.作为基于计算机视觉的手语翻译方法优选方案,采用深度学习算法进行手语模型训练,将所述同一动作和所述连接动作输送至训练完毕的手语模型进行手语翻译获得对应的文本内容。
17.作为基于计算机视觉的手语翻译方法优选方案,还包括,将手语翻译获得的文本内容进行语音合成;将对文本内容合成的语音向倾听对象进行播放。
18.本发明还提供一种基于计算机视觉的手语翻译系统,包括:
19.图像采集模块,用于获取聋哑人员的肢体动作,将所述肢体动作形成预设帧率的待翻译视频;
20.动作抽象模块,用于对所述待翻译视频进行每帧图像的动作抽象,形成动作二进制数据矩阵;
21.动作相似性判定模块,用于对相似性在第一预设阈值范围内,且时间维度在第二预设阈值范围内的帧判定为同一动作,将不同动作之间的帧判定为连接动作;
22.手语翻译模块,用于将所述同一动作和所述连接动作进行手语翻译获得对应的文本内容。
23.作为基于计算机视觉的手语翻译系统的优选方案,还包括降采样模块,用于对所述待翻译视频进行降采样,将预设帧率的所述待翻译视频由第一帧率降采样为第二帧率。
24.作为基于计算机视觉的手语翻译系统的优选方案,所述动作抽象模块中,对所述待翻译视频进行每帧图像的动作抽象包括眼、耳、鼻、口、肩颈、肘、腕和手指关节,动作二进制数据矩阵中包括眼、耳、鼻、口、肩颈、肘、腕和手指关节信息。
25.作为基于计算机视觉的手语翻译系统的优选方案,所述手语翻译模块中,采用深度学习算法进行手语模型训练,将所述同一动作和所述连接动作输送至训练完毕的手语模型进行手语翻译获得对应的文本内容。
26.作为基于计算机视觉的手语翻译系统的优选方案,还包括语音合成模块,用于将手语翻译获得的文本内容进行语音合成;
27.语音播报模块,用于将对文本内容合成的语音向倾听对象进行播放。
28.本发明具有如下优点:获取聋哑人员的肢体动作,将肢体动作形成预设帧率的待翻译视频;对待翻译视频进行每帧图像的动作抽象,形成动作二进制数据矩阵;对相似性在第一预设阈值范围内,且时间维度在第二预设阈值范围内的帧判定为同一动作,将不同动作之间的帧判定为连接动作;将同一动作和连接动作进行手语翻译获得对应的文本内容。同时还可以将手语翻译获得的文本内容进行语音合成;将对文本内容合成的语音向倾听对象进行播放。本发明解决了手套手环等原有技术在获取手势数据时的局限性,解决这类技
术的先天不足,能够识别更多的手势,同时个体差异性小,准确率高;本发明不需要使用额外的设备,增加了使用场景,降低了成本和费用。
附图说明
29.为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
30.本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
31.图1为本发明实施例中提供的基于计算机视觉的手语翻译方法流程示意图;
32.图2为本发明实施例中提供的基于计算机视觉的手语翻译方法实施示意图;
33.图3为本发明实施例中提供的基于计算机视觉的手语翻译方法中动作抽象示意图;
34.图4为本发明实施例中提供的基于计算机视觉的手语翻译系统示意图。
具体实施方式
35.以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
36.实施例1
37.参见图1和图2,本发明实施例1提供基于计算机视觉的手语翻译方法,包括以下步骤:
38.s1、获取聋哑人员的肢体动作,将所述肢体动作形成预设帧率的待翻译视频;
39.s2、对所述待翻译视频进行每帧图像的动作抽象,形成动作二进制数据矩阵;
40.s3、对相似性在第一预设阈值范围内,且时间维度在第二预设阈值范围内的帧判定为同一动作,将不同动作之间的帧判定为连接动作;
41.s4、将所述同一动作和所述连接动作进行手语翻译获得对应的文本内容。
42.本实施例中,还包括,对所述待翻译视频进行降采样,将预设帧率的所述待翻译视频由第一帧率降采样为第二帧率。
43.具体的,步骤s1中,可以控制设备摄像头拍摄聋哑人的动作,进而获取聋哑人员的肢体动作,以预设帧率为30帧为例,拍摄聋哑人的动作形成30帧的待翻译视频,再对30帧的待翻译视频进行降采样,例如将30帧的待翻译视频,降采样为5帧,因为手语的频率是有上限的,通常为一秒1到2个手势,降采样可以完整保留有效信息,同时较大降低数据量。
44.具体的,降采样本身属于现有技术,又作减采集,是多速率数字信号处理的技术或是降低信号采样率的过程,通常用于降低数据传输速率或者数据大小。
45.本实施例中,对所述待翻译视频进行每帧图像的动作抽象包括眼、耳、鼻、口、肩颈、肘、腕和手指关节,动作二进制数据矩阵中包括眼、耳、鼻、口、肩颈、肘、腕和手指关节信息。
46.参见图3,具体的,将待翻译视频的每帧图像抽象成由头部(眼耳鼻口)、躯干(肩颈)、四肢(肘、腕)、手(手指关节)等形成的二进制数据矩阵,在保留数据有效信息的同时,进一步降低了数据的数量,降低动作相似性判定和手势翻译等深度学习的成本,提高判定和翻译的准确率,节约网络流量。
47.形成的二进制数据矩阵举例如下,其中0表示空白,1表示抽象出来的点的位置:
48.[
[0049]
[0000000000000000000000000000000000000000],
[0050]
[0000000000000000000000000000000000000000],
[0051]
[0000000000000000000000000000000011000000],
[0052]
[0000000000000000000000000000000111010000],
[0053]
……
[0054]
]
[0055]
再次参见图2,步骤s3中,将满足相似性数值在一定阈值范围内的,同时在时间维度上也在一定阈值范围的帧判定为同一动作,将不同动作之间的帧判定为连接动作。
[0056]
在手势翻译的时候,重点是通过图像识别来识别同一动作,图2展示了小熊猫的四个动作,四个动作形成小熊猫一个词。连接动作是作为辅助,例如两个手语,都是由两个一样的动作组成,第一个动作手指向上,第二个动作手指向下,这样在识别的时候会产生两个结果,区别在于手指由上到下的过程中,一个是从左边划一个是从右边划,这时候连接动作作为判断标准,给出正确的结果。
[0057]
本实施例中,采用深度学习算法进行手语模型训练,将所述同一动作和所述连接动作输送至训练完毕的手语模型进行手语翻译获得对应的文本内容。
[0058]
具体的,深度学习算法本身是现有的,通过深度学习算法进行手语模型训练包括构建数据集、数据收集预处理、数据增强、顶视图和底视图数据集。如北京邮电大学胡鹏程发表的《基于深度学习的手势识别系统研究与实现》详细公开了手语训练模型的过程。
[0059]
本实施例中,还包括,步骤s5,将手语翻译获得的文本内容进行语音合成;步骤s6,将对文本内容合成的语音向倾听对象进行播放。
[0060]
具体的,文本内容进行语音合成可以采用tts技术,主要包括文本分析,对输入文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等;语音合成,把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形;韵律生成,语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率;自然度用来评价合成语音音质是否接近人说话的声音,合成词语的语调是否自然;连贯性用来评价合成语句是否流畅。
[0061]
综上所述,本发明通过获取聋哑人员的肢体动作,将肢体动作形成预设帧率的待翻译视频;对待翻译视频进行每帧图像的动作抽象,形成动作二进制数据矩阵;对相似性在
第一预设阈值范围内,且时间维度在第二预设阈值范围内的帧判定为同一动作,将不同动作之间的帧判定为连接动作;将同一动作和连接动作进行手语翻译获得对应的文本内容。同时还可以将手语翻译获得的文本内容进行语音合成;将对文本内容合成的语音向倾听对象进行播放。本发明解决了手套手环等原有技术在获取手势数据时的局限性,解决这类技术的先天不足,能够识别更多的手势,同时个体差异性小,准确率高;本发明不需要使用额外的设备,增加了使用场景,降低了成本和费用。
[0062]
实施例2
[0063]
参见图4,本发明实施例2还提供一种基于计算机视觉的手语翻译系统,包括:
[0064]
图像采集模块1,用于获取聋哑人员的肢体动作,将所述肢体动作形成预设帧率的待翻译视频;
[0065]
动作抽象模块2,用于对所述待翻译视频进行每帧图像的动作抽象,形成动作二进制数据矩阵;
[0066]
动作相似性判定模块3,用于对相似性在第一预设阈值范围内,且时间维度在第二预设阈值范围内的帧判定为同一动作,将不同动作之间的帧判定为连接动作;
[0067]
手语翻译模块4,用于将所述同一动作和所述连接动作进行手语翻译获得对应的文本内容。
[0068]
本实施例中,还包括降采样模块5,用于对所述待翻译视频进行降采样,将预设帧率的所述待翻译视频由第一帧率降采样为第二帧率。
[0069]
降采样模块5中,可以控制设备摄像头拍摄聋哑人的动作,进而获取聋哑人员的肢体动作,以预设帧率为30帧为例,拍摄聋哑人的动作形成30帧的待翻译视频,再对30帧的待翻译视频进行降采样,例如将30帧的待翻译视频,降采样为5帧,因为手语的频率是有上限的,通常为一秒1到2个手势,降采样可以完整保留有效信息,同时较大降低数据量。
[0070]
具体的,降采样本身属于现有技术,又作减采集,是多速率数字信号处理的技术或是降低信号采样率的过程,通常用于降低数据传输速率或者数据大小。
[0071]
本实施例中,所述动作抽象模块2中,对所述待翻译视频进行每帧图像的动作抽象包括眼、耳、鼻、口、肩颈、肘、腕和手指关节,动作二进制数据矩阵中包括眼、耳、鼻、口、肩颈、肘、腕和手指关节信息。
[0072]
参见图3,动作抽象模块2中,将待翻译视频的每帧图像抽象成由头部(眼耳鼻口)、躯干(肩颈)、四肢(肘、腕)、手(手指关节)等形成的二进制数据矩阵,在保留数据有效信息的同时,进一步降低了数据的数量,降低动作相似性判定和手势翻译等深度学习的成本,提高判定和翻译的准确率,节约网络流量。
[0073]
形成的二进制数据矩阵举例如下,其中0表示空白,1表示抽象出来的点的位置:
[0074]
[
[0075]
[0000000000000000000000000000000000000000],
[0076]
[0000000000000000000000000000000000000000],
[0077]
[0000000000000000000000000000000011000000],
[0078]
[0000000000000000000000000000000111010000],
[0079]
……
[0080]
]
[0081]
再次参见图2,动作相似性判定模块3中,将满足相似性数值在一定阈值范围内的,同时在时间维度上也在一定阈值范围的帧判定为同一动作,将不同动作之间的帧判定为连接动作。
[0082]
在手势翻译的时候,重点是通过图像识别来识别同一动作,图2展示了小熊猫的四个动作,四个动作形成小熊猫一个词。连接动作是作为辅助,例如两个手语,都是由两个一样的动作组成,第一个动作手指向上,第二个动作手指向下,这样在识别的时候会产生两个结果,区别在于手指由上到下的过程中,一个是从左边划一个是从右边划,这时候连接动作作为判断标准,给出正确的结果。
[0083]
本实施例中,所述手语翻译模块4中,采用深度学习算法进行手语模型训练,将所述同一动作和所述连接动作输送至训练完毕的手语模型进行手语翻译获得对应的文本内容。
[0084]
手语翻译模块4中深度学习算法本身是现有的,通过深度学习算法进行手语模型训练包括构建数据集、数据收集预处理、数据增强、顶视图和底视图数据集。如北京邮电大学胡鹏程发表的《基于深度学习的手势识别系统研究与实现》详细公开了手语训练模型的过程。
[0085]
本实施例中,还包括语音合成模块6,用于将手语翻译获得的文本内容进行语音合成;
[0086]
语音播报模块7,用于将对文本内容合成的语音向倾听对象进行播放。
[0087]
具体的,语音合成模块6和语音播报模块7中,文本内容进行语音合成可以采用tts技术,主要包括文本分析,对输入文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等;语音合成,把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形;韵律生成,语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率;自然度用来评价合成语音音质是否接近人说话的声音,合成词语的语调是否自然;连贯性用来评价合成语句是否流畅。
[0088]
通过本发明的基于计算机视觉的手语翻译系统,可以将动作相似性判定模块、手语翻译模块、语音合成模块部署在云端,图像采集模块、动作抽象模块、语音播报模块部署在设备端。在与聋哑人交流时,使用者在平板、手机等智能设备上启动手语翻译系统,拍摄聋哑人的动作,形成频率为30帧的视频,图像采集模块根据设置对视频帧进行降采样,例如降采样为5帧,同时为每一帧打上时间戳。动作抽象模块将每帧图像抽象为二进制数据矩阵。系统将数据流实时发送到云端的服务器。通过动作相似性判定模块,逐帧将数据进行判定,将相似的动作数据归类为同一动作,其他帧判定为连接动作。将同一动作和连接动作送入到手语势翻译模块,形成具有完整意义的文本内容。语音合成模块将文本内容合成相应的语音。将文本内容和语音实时发回给到设备端,由设备端进行文本呈现和语音播报,用户可以选择语音播报还是文本呈现,异或同时展示。本发明解决了手套手环等原有技术在获取手势数据时的局限性,解决这类技术的先天不足,能够识别更多的手势,同时个体差异性小,准确率高;本发明不需要使用额外的设备,增加了使用场景,降低了成本和费用。
[0089]
实施例3
[0090]
本发明实施例3提供一种非暂态计算机可读存储介质,所述计算机可读存储介质中存储有基于计算机视觉的手语翻译方法的程序代码,所述程序代码包括用于执行实施例1或其任意可能实现方式的基于计算机视觉的手语翻译方法的指令。
[0091]
计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk、ssd))等。
[0092]
实施例4
[0093]
本发明实施例4提供一种电子设备,包括:存储器和处理器;
[0094]
所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的基于计算机视觉的手语翻译方法。
[0095]
具体的,处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于所述处理器之外,独立存在。
[0096]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
[0097]
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0098]
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献