一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种实时智能手语识别方法及系统

2022-04-13 19:57:21 来源:中国专利 TAG:


1.本发明涉及一种实时智能手语识别方法及系统,属于手语识别技术领域。


背景技术:

2.在全球范围内,大约有4.66亿听力受损的人,而且据估计,到2050年该数字高达9亿;随着新时代的快速发展,让新时代发展的成果更多,更公平地惠及聋哑人是构建开放融合式新时代的必然趋势;手语是一种视觉语言,包含信息量多,同时也是聋哑人士交流的主要工具;但是,对于大多数没有系统学习这门视觉语言的人来说,掌握这门语言并用于交流是十分困难的,因此,为了有助于聋哑人与键听人进行实时的交流和沟通,利用新兴信息技术对手语进行识别时必要的也是刻不容缓的。
3.目前,已经有很多工作者致力于研究手语识别,并出现了很多成熟的方法,但是对于较长手语识别效果不佳,在复杂实际背景中不具备鲁棒性。


技术实现要素:

4.本发明的目的在于克服现有技术中的不足,提供实时智能手语识别方法及系统。
5.第一方面,本发明提供了一种实时智能手语识别方法,包括:
6.根据手语视频数据,获得人体手语骨架特征;
7.将所述人体手语骨架特征输入多流自适应层级网络,获得动作片段特征;
8.基于神经网络模型,转换词汇序列,获得文本语义特征;
9.将所述动作片段特征和所述文本语义特征进行特征序列对齐,输出自然语句。
10.进一步的,所述人体手语骨架特征包括骨架的关节点和关节点运动信息、骨骼和骨骼运动信息。
11.进一步的,所述人体手语骨架特征经动态编码后,输入多流自适应层级网络。
12.进一步的,所述动作片段特征的获得包括:
13.基于所述人体手语骨架特征,通过卷积神经网络,获得骨架节点特征;
14.基于所述骨架节点特征,通过卷积神经网络和双向长短期记忆网络,获得骨架帧特征;
15.基于所述骨架帧特征,通过双向长短期记忆网络,获得词素特征;
16.基于所述词素特征,通过双向长短期记忆网络,获得动作片段特征。
17.进一步的,所述文本语义特征通过单向长短时记忆神经网络获得。
18.进一步的,所述动作片段特征和所述文本语义特征通过rnn-transducer的联合网络实现特征序列对齐。
19.第二方面,本发明提供了一种实时智能手语识别系统,包括:
20.姿势评估模块,用于获得人体手语骨架特征,并将所述人体手语骨架特征传输至特征提取模块;
21.特征提取模块,用于根据姿势评估模块传输的人体手语骨架特征,通过多流自适
应层级网络,获得动作片段特征,同时,基于神经网络模型,转换词汇序列,获得文本语义特征,并将动作片段特征和文本语义特征传输至序列对齐模块;
22.序列对齐模块,用于将特征提取模块传输的所述动作片段特征和所述文本语义特征进行特征序列对齐,输出自然语句。
23.进一步的,还包括动态编码表征模块,用于融合编码所述人体手语骨架特征,所述人体手语骨架特征经动态编码后,输入特征提取模块。
24.进一步的,所述特征提取模块包括:
25.节点层级,用于基于所述人体手语骨架特征,通过卷积神经网络,获得骨架节点特征;
26.帧层级,用于基于所述骨架节点特征,通过卷积神经网络和双向长短期记忆网络,获得骨架帧特征;
27.词素层级,用于基于所述骨架帧特征,通过双向长短期记忆网络,获得词素特征;
28.片段层级,用于基于所述词素特征,通过双向长短期记忆网络,获得动作片段特征;
29.映射层,用于基于单向长短时记忆神经网络,获得文本语义特征。
30.进一步的,所述序列对齐模块,通过rnn-transducer的联合网络实现所述动作片段特征和所述文本语义特征的特征序列对齐。
31.与现有技术相比,本发明的有益效果为:本发明采用多流自适应层级网络对人体手语骨架特征进行处理,从节点层、帧层、词素层、片段层对人体手语骨架特征进行逐步解析,提高了手语识别的准确性;同时,对人体手语骨架特征进行动态编码,融合处理,提高了手语识别的识别效率;同时,采用rnn-transducer的联合网络实现动作片段特征和文本语义特征的特征序列对齐,本发明具有鲁棒性。
附图说明
32.图1是本发明实施例提供的实时智能手语识别方法流程图;
33.图2是本发明实施例提供的实时智能手语识别方法中人体手语骨架获取流程图;
34.图3是本发明实施例提供的实时智能手语识别方法中rnn-transducer模型示意图;
35.图4是本发明实施例提供的实时智能手语识别方法示意图;
36.图5是本发明实施例提供的实时智能手语识别方法所用的路径对齐方式示意图。
具体实施方式
37.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件,下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
38.在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数,如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
39.本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
40.本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中,在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例,而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
41.本发明提供了实时智能手语识别方法及系统,下面结合附图和实施例对本发明做进一步的说明,其中:
42.实施例1:
43.如图1所示,本发明提供了一种实时智能手语识别方法,包括:
44.利用姿势检测器提取手语视频中人体手语骨架特征,人体手语骨架特征包括骨架的关节点和骨架关节点运动信息、骨骼和骨骼运动信息,如图2所示,首先,利用openpose姿势检测器从原始视频数据中提取人体关节点2d/3d坐标估计,得到130个关节点坐标数据,这里的130个关节点坐标数据包括70个面部关节点,42个手部关节点(左手和右手分别为21个)和18个身体关节点;然后,利用评估的130个关节点坐标数据,筛选与手语本身的特征直接相关的关节点坐标数据,作为手语关节数据,对手语本身来说,最直接相关的关节点坐标数据包括身体的上半部分以及手部(左手和右手各21个节点数据),共计52个关节点坐标数据,形成手语关节点数据。
45.对骨架的关节点和骨架关节点运动信息、骨骼和骨骼运动信息融合编码,具体的动态编码表征的方法为:
46.本实施例引用骨架数据的2d/3d坐标作为一阶节点数据,并且提取了同一帧内两个节点(目标节点和源节点)之差作为包含人体骨骼的长度和角度变化的二阶骨骼数据,例如,设在t帧时,源节点和目标节点分别为v
i,t
=(x
i,t
,y
i,t
,z
i,t
)和v
j,t
=(x
j,t
,y
j,t
,z
j,t
),二阶骨架数据为b
i,j,t
=v
j,t-v
i,t
,然后,受光流场的启发,我们还提取了两个连续帧之间关节点(或骨骼点)的坐标差作为关节点数据(或骨骼数据)的运动信息,以帮助建模手语的时间变化,例如,以关节点数据为例,给定帧t和t 1中的同一个关节点分别为v
i,t
=(x
i,t
,y
i,t
,z
i,t
)和v
i,t 1
=(x
i,t 1
,y
i,t 1
,z
i,t 1
),它的运动信息为m
i,t,t 1
=v
i,t 1-v
i,t
,其次,利用两个全连接层将关节点和它的运动信息编码到同一个高维c
in
空间中,得到和
[0047][0048][0049]
在这里是全连接层的权重参数,c是全连接层的输出通道数,b1和b2是全连接层的偏差,σ指的是relu激活函数,最后,将关节点信息和它的运动信息进行了加权融合,得到j
i,t

[0050][0051]
以同样的编码方式,我们得到编码后的骨骼信息和它的运动信息以及加权
融合后的编码信息b
i,t
,然后,将关节点编码信息j
i,t
和骨骼编码信息b
i,t
进行联合,得到包含关节点和骨骼以及它们的运动信息的数据x
j-b-m

[0052][0053]
其中,代表将两个特征向量在它们的第一维度上连接在一起, 代表两个特征向量相加。
[0054]
利用多流自适应层级网络,对经动态编码表征的人体手语骨架特征进行处理,具体包括使用自适应图卷积网络提取手语骨架数据的关节点动态特征,构建卷积神经网络和双向长短期记忆网络提取视频的帧特征,以及构建双向长短期记忆网络分别提取词素特征和动作片段特征,具体步骤如下:
[0055]
(1)提取骨架数据的节点特征,本发明提出了一种节点层来研究同一帧内的关节点的相关性,利用图卷积网络来提取骨架数据的这种空间相关性,不同于其他的图卷层,本发明将关节点和骨骼以及它们的运动信息均都融合到了图卷积层,学习一个内容信息自适应的独立图,本发明从两个方面充分利用关节和骨骼信息来加强图卷积的学习能力,首先,将关节和骨骼,以及它们的运动信息进行前期融合来学习同一帧内节点(不同关节/骨骼)之间的图连接,融合信息有助于学习合适的相邻矩阵(即融合信息之间的关系连接权重),其次,作为关节点和骨骼信息的一部分,运动信息参与gcn层中的消息传递过程,给定骨架框架的n个关节点,则在t时刻融合的骨架数据可表示为框架的n个关节点,则在t时刻融合的骨架数据可表示为利用高斯嵌入函数生成一个自适应相似矩阵,实现对每个样本学习一个独有的图,在同一帧t中从i节点到j节的边缘权重s
t
(i,j)可由它们在编码空间中的相似性/亲和力计算:
[0056][0057]
在这里,m
θ
和是两个转换函数,均是通过一个全连接层实现,即,m
θ
(x)=w
θ
x和
[0058]
根据等式(5)计算同一帧中所有节点对的亲和力,我们得到相似矩阵s
t
∈n
×
n,用于捕捉关节点之间的相似性,然后该矩阵元素的值再通过softmax层处理,归一化为0-1的概率,令生成的自适应相似矩阵为g
t
,另外,一个残差的图卷积层被用于实现同一帧内的节点之间的消息传递:
[0059]yt
=g
t
x
t
wy#(6)
[0060]
x

t
=y
t
x
twx
#(7)
[0061]
在这里,wy和w
x
是两个权重矩阵,并且不同帧共享权重矩阵,α初始化为0,用于调整对于不同的卷积层邻阶矩阵sk的重要性,x

t
是输出,注意,这里可以堆叠多个残差图卷积层以实现进一步的信息传递并且共享自适应矩阵g
t

[0062]
此外,为了突出信息量最大的骨架,我们提出了一种时间注意力机制tam用在空间图卷积层之后,如图4所示,具体实现方式为:
[0063]
m=σ(g
t
(avgpools(x)))#(8)
[0064]
在这里是特征向量,是注意力向量,表示沿着空间维度进行平均池化,g
t
代表着时间维度的一维卷积,σ代表着sigmoid激活函数,然后,注意力特征m以下列方式编码到输入骨架序列x:
[0065][0066]
在这里,代表着矩阵元素相乘。
[0067]
(2)提取骨架数据的时间特征,在实际生活中,一个手语骨架序列通常包含帧的数量比相应的标签句子要长很多,并且序列中的每一个单词没有具体的时间边界,因此,很难从手语骨架数据中捕获整个语义信息,受语言句子翻译的启发,通过将符号集成为单词,然后将单词集成为句子,本发明设计了一个多级分层网络来建立帧之间的关系,如图所示4,它包括帧级(flm)、词素级(glm)和动作片段级(plm),并且假设帧层级别的信息可以整合到词素级,词素级别的信息可以整合到动作片段级别,通过这个过程,本发明可以在多尺度上提取骨架数据的时间上下文特征,为了增强网络学习特征的表示能力,首先利用2层的cnn将骨架序列映射到高维空间,并用3层的bigru提取帧级的上下文信息,然后再利用3层的bigru提取词素级和动作片段级的关系特征。
[0068]
本发明首先用自适应的图卷积提取骨架数据的空间特征,并用tam模块突出了信息量最大的骨架,骨架序列的特征维数为t
×n×
c。为了建立帧之间的关系,本发明使用了一个空间maxpooling层(smp)来融合一帧中所有关节的信息,生成的特征维数为t
×1×
c,为了提升网络学习时间特征的能力,应用了两个cnn层,第一个cnn层是一个时间卷积层,用于对帧的依赖性进行建模。第二层cnn将其映射到高维空间来增强学习特征的表示能力,在两个cnn层之后,又利用bigru来捕获输入序列中每个时间步的过去和未来上下文信息,在每个bigru之后,使用一个线性层来降低维度以避免高计算成本,值得注意的是,在词素层和动作片段层我们分别还使用了时间avgpooling层tap,它不仅可以通过考虑词汇和短语的相关性来提取符号信息,还有助于减少基元的数量,其被定义为:
[0069][0070][0071]
在这里,根据实验结果表明,词素层中tap的s=8,动作片段层中tap的s=4为最优,显然,tap操作(等式(10))充当桥梁跨越三个层次:帧层,词素层和动作片段层,因此,可以聚合一系列帧产生一个词素组,而一系列词素组可产生一个动作片段组,这些分层级联可以从三个不同级别显着捕获关键标志信息,而无需具体的手语动作分割。
[0072]
采用单向长短时记忆神经网络来提取文本的上下文特征,考虑到基于ctc的手语识别方法的独立假设的局限性和编码在句子标签中的上下文信息,本实施例引入了词汇预测网络,它被训练为在给定上下文表示和之前生成的所有单词的情况下顺序预测下一个单词,如图4所示,给定目标句子词汇序列y={y0,y1,...,yu},y的每个元素都被编码为一个one-hot向量y
′u,在这里空白符号是在每个句子开始之前填充的,然后它们通过lstm来捕获顺序文本信息,学习标签之间的相关性,并从全局的角度理解上下文语义,之后,线性层用于将每个隐藏状态转换为固定维向量νu,词法预测网络在已知的单词y0,y1,...,yu中,尝试对词yu建模,因此,它类似于标准的下一步预测rnn,区别在于它可以产生空白预测,通过这种方式,我们可以学习每次预测之间的相互依赖关系。
[0073]
将所述动作片段特征和所述文本语义特征通过rnn-transducer的联合网络进行
特征序列对齐,输出自然语句,具体包括以下步骤:
[0074]
(1)在前面的步骤中已经得到了骨架的特征表示x=(x1,x2,...,x
t
)和文本特征表示y=(y1,y2,...,yu),两个序列的映射在基于rnn-transducer网络模型中进行,rnnt-transducer结构定义如下:
[0075]ht
=skeletonnet(x),(0≤t≤t)#(12)
[0076]
su=predictionnet(y),(0≤u≤u)#(13)
[0077][0078]
p(β∈y
*
|t,u)=softmax(linear(tanh(joint)))#(15)
[0079]
其中,skeletonnet,predictionnet分别为骨架提取多流自适应层级网络和词汇预测网络,p(β∈y
*
|t,u)联合网络输出的后验概率,代表着特征向量的拼接操作,代表着空白标志,y
*
代表词典集。
[0080]
(2)根据概率分布,可以找到很多搜索两个序列的路径,对于同一个位置的概率,同时由骨架特征和文本特征决定,因此建立骨架序列和文本之间的对应关系,具体拟合路径,如图5所示,在(t,u)处的节点代表着h
t
元素预测的是vu元素,h
t
和vu之间所有可能的对齐方式都可以从左下角到右上角表示,部分的对齐方式已在图5中以加租黑色显示,rnn-transducer可以在每个时间步t预测出多个输出状态,这是因为当前时间(t,u)输出由上次t-1和上次预测标签u-1决定,例如,在图5中,在t=1时,可以得到2个不同的u值。
[0081]
(3)将每个位置的概率相乘得到一条路径的对齐概率为p(z|x),可以定义为:
[0082]
p(z|x)=∏p(β|t,u)#(16)
[0083]
其中,输入的序列是x,令z代表输入序列和输出序列y之间的对齐路径。
[0084]
(4)在给定的两个序列中,会得到很多拟合路径,将所有路径的概率相加会得到总概率p(y|x),即在当前的两个序列中,所有对齐路径的集合,可定义为:
[0085][0086]
其中,z(y,t)是标签长度为t的有效对齐序列,即不包含字符的序列。
[0087]
(5)考虑到利用对于上面等式(17)去计算所有样本的标签序列对应的所有可能对齐的概率和p(y|x),在实际计算中非常难操作,因此,本实施例用前向变量α(t,u)作为在时间t,经过状态u的所有路径的概率之和,然后,使用前向算法来计算最后一个前向变量α(t,u),用于对应于等式(17)中的p(y|x),最终,rnn-t损失函数定义如下,其中α代表前向算法:
[0088]
loss=-∑logp(y|x)=-∑α(t|u)#(18)
[0089]
其中,p(y|x)代表所有样本的标签序列对应的所有可能对齐的概率和,α(t|u)表示采用前向算法计算得到的对齐路径的概率和,前向算法在每个时间步上对路径进行合并更新累计概率变量α(t,u),实现高效的概率计算过程,α(t,u)表示为在时间t,经过状态u的所有路径的概率和.loss网络的目标是最大化标签序列对应的所有对齐的概率和,取负号是可转化成最小化。
[0090]
(6)利用上述得到的损失函数,通过梯度下降法更新网络的参数,当损失函数趋于稳定时手语识别的网络性能最佳。
[0091]
实验使用中国连续手语数据集进行手语识别的验证,该数据集包含100句日常用
语,由50位聋哑人录制,每人录制5遍,整个数据集包含25000个视频,每个视频对应一句翻译,由于不同手语存在较大差异,不同录制者之间也含有较大区别,将数据集以三种方式划分:(1)按不同的人划分,40个人作为训练集,10个人作为测试集;(2)按句子进行划分,94句话作为训练集,6句话作为测试集。(3)34个人作为训练集,12个人作为测试集,4个人作为验证集;这样的划分方式可以增强手语识别的鲁棒性。
[0092]
针对同一数据集,对比本发明方法和已有手语识别方法的性能,对于不同的数据集划分方式,有不同的对比方法和评价指标,本发明主要采用三种评价指标,分别为错误率(word error rate,wer),正确率(word correct,acc-w)和准确率(word accuracy,accuracy)定义如下:
[0093]
wer是由levenshtein距离导出的某种性能度量,代表将一个单词转换为另一个单词所需要的单字符编辑(插入,删除或替换)的最小数量,如式(19)所示。通常来说,wer越小,识别性能越优:
[0094][0095]
其种l为标准序列单词的总个数,即(替换 删除 正确),c,i,d和s分别代表正确,插入,删除和替换的词的总个数。
[0096]
acc-w是只计算了识别正确的字,没有管多出来的字(插入),如式(20)所示,
[0097][0098]
accuracy是更具有代表手语识别系统的性能评测标准,计算公式如下:
[0099][0100]
当i(插入)=0时,accuracy=acc-w。
[0101]
根据图4所展示的本方法和已有方法在三种数据划分的结果对比,表明:在第一种和第三种划分下,本方法在各项评价指标都达到了最高值;在第二种划分下,词正确率低于其中某些方法,但是其他指标均高于现有方法,这充分体现了本方法在手语识别中的优越性和适应性。本方法取得了较高的准确率,进一步说明本发明方法的可行性、先进性和优越性。
[0102]
实施例2:
[0103]
本发明提供了一种实施智能手语识别系统,包括:
[0104]
姿势评估模块,用于获得人体手语骨架特征,并将所述人体手语骨架特征传输至动态编码表征模块。
[0105]
动态编码表征模块,用于融合编码所述人体手语骨架特征,所述人体手语骨架特征经动态编码后,输入特征提取模块。
[0106]
特征提取模块,用于根据动态编码表征模块传输的人体手语骨架特征,通过多流自适应层级网络,获得动作片段特征,同时,基于神经网络模型,转换词汇序列,获得文本语义特征,并将动作片段特征和文本语义特征传输至序列对齐模块。
[0107]
特征提取模块包括:节点层级,用于基于所述人体手语骨架特征,通过卷积神经网络,获得骨架节点特征;帧层级,用于基于所述骨架节点特征,通过卷积神经网络和双向长
短期记忆网络,获得骨架帧特征;词素层级,用于基于所述骨架帧特征,通过双向长短期记忆网络,获得词素特征;片段层级,用于基于所述词素特征,通过双向长短期记忆网络,获得动作片段特征;映射层,用于基于单向长短时记忆神经网络,获得文本语义特征。
[0108]
序列对齐模块,用于将特征提取模块传输的所述动作片段特征和所述文本语义特征通过rnn-transducer的联合网络进行特征序列对齐,输出自然语句。
[0109]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品,因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式,而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0110]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的,应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合,可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0111]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0112]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0113]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献