基于模态匹配的连续手语语句识别方法与流程

2021-11-05 20:46:00 来源：中国专利 TAG：

1.本发明属于手语识别技术，尤其涉及一种基于模态匹配的连续手语语句识别方法。

背景技术：

2.手语识别使用计算机技术对人类所使用的手语进行语义分析，使计算机可以理解手语，将手语这一肢体语言转换为易于理解的文本、语音等表现形式。
3.随着人工智能的快速普及，人机交互技术让人类感受到了前所未有的便捷，在促进人类社会和谐发展方面有着重要的意义。首次提出基于模态匹配的连续手语语句识别方法将视频和语义的对齐，使用了彩色视频和其对应的光流视频关键帧序列作为输入，增强数据表征能力，采用更加轻量的特征提取网络，减少其参数量，针对手语数据集进行任务特定性训练，便于部署连续手语语句识别模型。
4.基于可穿戴设备的手语识别一般使用数据手套、传感器或一些运动捕捉设备收集手部运动的数据，将这些数据中的有效信息提取出来后，对手部姿态进行建模分类，基于可穿戴设备的手语识别方法确实可以精确定位手部，准确度都较高，然而数据手套造价昂贵，手语者在演示时必须佩戴笨重的手套，常常让手语演示者感到束缚；基于传统机器学习的手语识别通常分为三个步骤，数据预处理、特征提取和建模识别，通常采用尺度不变特征变换和梯度方向直方图等算法人工设计特征，然后使用传统机器学习分类器进行建模与识别，例如svm、hmm等传统分类器，基于传统机器学习的手语识别需要人工设计特征提取方法，无法自动获取图像特征，依赖于人工经验，耗时耗力。
5.特征提取网络结构较为复杂，在大规模手语数据集上训练会有较大的参数量并且非常耗时，这样无法针对性的完成连续手语语句识别的任务。除此之外，手语语句识别的输出语句在句式结构较为复杂的情况下，存在无法符合日常语法关系的问题，并难以在缺乏标注的数据集上训练编解码网络，实用性不甚理想。

技术实现要素：

6.本发明的目的在于提供一种基于模态匹配的连续手语语句识别方法，解决了视频序列与词语序列的对齐问题，将手语关键帧片段与语义对齐，生成口语语句。
7.实现本发明目的的技术解决方案为：一种基于模态匹配的连续手语语句识别方法，步骤如下：
8.步骤s1、采集m个彩色视频模态的手语视频，100＜m＜10000，使用tv
‑
l1算法对彩色视频模态的手语视频的光流信息进行提取，并形成帧数相同的光流图像序列，提供光流视频模态的手语视频；采用cnn对上述两种模态的每个手语视频的关键帧分别进行提取，对应得到像素大小为h
×
b、关键帧均匀采样至n帧的两种模态的关键帧手语视频，10＜n＜100，在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集，100＜m＜m，两种模态的关键帧手语视频中剩余的视频构成测试集。
9.步骤s2、构建基于模态匹配的连续手语语句识别模型：
10.所述基于模态匹配的连续手语语句识别模型包括手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络：
11.采用基于时间自适应的cnn，即tanet，作为手语关键帧片段时空特征提取网络：首先经过一个标准卷积操作，再通过13个tam
‑
dw conv卷积模块，最后输入到全连接层之后进行平均池化汇总。
12.多模态潜在语义空间映射网络使用了one
‑
hot编码并利用了线性投影函数构成潜在语义空间。
13.编解码网络包括双层lstm和注意力网络。
14.步骤s3、在训练集中抽取v组两种模态的关键帧手语视频分别对手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络训练得到初始权重，再输入全部训练集对基于模态匹配的连续手语语句识别模型进行训练；其中，手语关键帧片段时空特征提取网络将用于有效提取彩色视频和光流视频模态的关键帧手语视频片段的时空特征；多模态潜在语义空间映射网络将提取到的两种模态的关键帧手语视频片段的时空特征和利用one
‑
hot编码得到的词语序列向量映射到相同的潜在语义空间中；编码网络用于学习两种模态的关键帧手语视频片段的长期时空特征并输入解码网络，解码网络将潜在语义空间中的时空特征与词语序列向量匹配对齐；即获得训练好的连续手语语句识别模型。
15.步骤s4、利用测试集对训练好的基于模态匹配的连续手语语句识别模型进行测试，得到连续手语语句识别准确性。
16.本发明与现有技术相比，其显著优点在于：
17.(1)采用更加轻量的特征提取网络对视频的空间特征进行提取，解决cnn的计算效率与参数量过多等问题，便于部署连续手语语句识别模型，提高基于模态匹配的连续手语语句识别方法的实际应用能力。
18.(2)引入词嵌入的思想，在数据集中样本的标注较少的情况下对连续手语语句进行识别，降低对数据标注的严格要求，减少了在传统手语识别方法中对人体姿势信息高度依赖的问题。
19.(3)在手语关键帧片段时空特征提取模块中加入时间自适应模块，不仅解决了参数量过多难以训练的问题，还能自适应的聚合时间信息，有效提取彩色和光流手语关键帧片段序列的时空特征。
20.(4)在编解码网络中加入了注意力机制，使其在解码时可以有重点的学习，在将手语视频与词语向量匹配对齐时，有效减少了数据冗余信息对模型的影响和训练模型的参数量。
附图说明
21.图1为基于模态匹配的连续手语语句识别模型图。
22.图2为深度可分离卷积模块图。
具体实施方式
23.下面结合附图对本发明作进一步详细描述。
24.结合图1和图2，本发明所述的一种基于模态匹配的连续手语语句识别方法，步骤如下：
25.步骤s1、采集m个彩色视频模态的手语视频，100＜m＜10000，使用tv
‑
l1算法对彩色视频模态的手语视频的光流信息进行提取，并形成帧数相同的光流图像序列，提供光流视频模态的手语视频。采用cnn对上述两种模态的每个手语视频的关键帧分别进行提取，对应得到像素大小为h
×
b、关键帧均匀采样至n帧的两种模态的关键帧手语视频，10＜n＜100，在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集，100＜m＜m，两种模态的关键帧手语视频中剩余的视频构成测试集。
26.步骤s2、构建基于模态匹配的连续手语语句识别模型：
27.所述基于模态匹配的连续手语语句识别模型包括手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络：
28.在构建手语关键帧片段时空特征提取网络时，将手语视频的关键帧序列划分为若干个片段作为输入，采用基于时间自适应的cnn作为手语关键帧片段时空特征提取网络。
29.采用轻量化的cnn模型mobilenet作为基础网络，并以时间自适应模块tam为研究基础，手语关键帧片段时空特征提取网络，即tanet包含了嵌入mobilenet的时间特征提取模块tam。mobilenet的基本单元为深度可分离卷积，分解为深度级卷积和点级卷积。tam包括局部和全局两个分支，局部分支使用时间卷积操作捕获输入特征的短期时间信息，全局分支结合长期时间关系，利用局部分支的短期时间信息和全连接层自适应地聚合时间信息。将mobilenet基本单元中大小为3x3的深度级卷积层的输出作为tam的输入特征，采用全局平均池化操作压缩输入特征图x
c,t
的空间信息，计算方式如下式所示：
[0030][0031]
其中，c，t，j，i分别是通道、时间、高度、宽度维度的索引，表示输入特征的空间聚合信息，c、t、h、w分别为输入特征图的通道数、时间、高度和宽度。tam使用时间卷积层和relu非线性函数构建局部分支，如下式所示：
[0032][0033]
其中，a是学习到的位置敏感的重要度图，c为输入特征的通道数，δ为relu激活函数，conv1d为时间卷积操作，包含的参数为输入特征卷积核大小b、输入特征的通道数c。其中首个conv1d后紧跟一个bn层，将通道数量降低为c/β，β表示通道的缩放倍数，第二个conv1d后面跟着一个sigmoid函数，其输出为位置重要度权重，将重要度图和空间聚合特征在时域上逐元素相乘，得到激活后的特征图z：
[0034][0035]
通过复制空间维度，将z的大小缩放为所得到的即短期时间特征图。
[0036]
全局分支中则结合长期时间信息，为每个视频片段产生一个动态卷积核，并通过卷积操作聚合时间信息，逐通道学习自适应卷积核与输入特征图进行卷积。在第c个通道，所学习自适应卷积核表示为：
[0037][0038]
其中，θ
c
∈r
k
是学习到的第c个通道的自适应卷积核，k为自适应卷积核大小，w1、w2为权重，σ表示tanh函数，自适应卷积核根据压缩特征图学习而来，通过全连接层对长期时间关系进行学习。全局分支堆叠两个全连接层，增强对长期时间关系的建模能力，最后使用softmax函数对自适应卷积核进行归一化操作，生成聚合权重θ＝(θ1，θ2，...，θ
c
，)。将产生的聚合权重以卷积的形式对时间信息进行卷积操作，得到特征在时域上的关系，具体过程如下式所示：
[0039][0040]
则y∈r
c
×
t
×
h
×
w
则为时间卷积后的特征图，即短期时间特征图，将y作为tam模块输出特征，通过bn层和relu层之后，输入到1x1卷积层中。
[0041]
对关键帧片段提取时空特征时，使用的网络结构与mobilenet一样，首先使用一个标准卷积，然后嵌入tam后形成深度可分离卷积模块。在使用tam时，根据手语视频的特点将关键帧平均划分为d个片段作为输入，每个片段输入到tanet中，首先经过一个标准卷积操作，再通过tam
‑
dw conv卷积模块得到时空特征图，输入到全连接层之后对n帧的分数进行平均池化汇总，得到片段级别的分数。
[0042]
假设视频输入的彩色视频模态的手语视频关键帧片段表示为与光流视频模态的手语视频关键帧片段构建两路结构相同的手语关键帧片段时空特征提取网络，学习输入关键帧片段中的非线性片段时空特征：
[0043]
f
d
＝tanet(k
d
)
[0044]
其中，k
d
表示第d个手语视频关键帧片段，f
d
为第d个手语视频关键帧片段的时空特征。每个片段输入到tanet中，首先经过一个标准卷积操作，再通过13个tam
‑
dw conv卷积模块得到同一维度大小的时空特征图，输入到全连接层之后对n帧的分数进行平均池化汇总，得到片段级别的分数，最终提取到的彩色视频和光流视频模态的手语视频关键帧片段特征序列分别表示为利用特征融合的方式将两种模态的手语视频关键帧片段特征序列按照时间顺序进行融合，得到融合特征f＝(f1，f2，...，f
d
)。
[0045]
在基于模态匹配的连续手语语句识别模型中，采用基于多模态潜在语义空间的映射网络，引入词嵌入的思想到时空特征表示中，将每个词语之间等距的稀疏one
‑
hot向量表征转换成为更密集的表征。
[0046]
在语义级别的线性表示中，先使用one
‑
hot编码，将与视频序列对应的词语进行编码，则用w＝(w1，w2，...，w
u
)表示，采用一个全连接层从词语的one
‑
hot向量w
u
学习一个线性投影函数，将其投影到与时空特征相同的密集空间，称其为潜在语义空间：
[0047]
w
′
u
＝wordembedding(w
u
)
[0048]
两种模态的手语视频关键帧片段特征序列的融合特征在潜在语义空间中的特征用s＝(s1，s2，
…
，s
d
)表示，词语在潜在语义空间中的特征则用w
′
＝(w
′1，w
′2，...，w
′
u
)表示，
u为与视频序列对应的语句中所含词语数量。
[0049]
在基于模态匹配的连续手语语句识别模型中，使用编解码网络将手语关键帧片段与语义对齐，生成口语语句。
[0050]
在编码阶段采用一个具有相同方向的双层lstm作为时序建模网络，给定彩色视频和光流视频模态的手语视频关键帧片段融合特征的潜在空间语义表示s＝(s1，s2，...，s
d
)，将其时间顺序反转后以s＝(s
d
，s
d
‑1，...，s1)输入到编码器中，使用双向lstm对关键帧序列中的时间关系进行建模，第一层lstm得到其第d个隐藏状态hd为：
[0051]
h
d
＝lstm(s
d
,h
d 1
)
[0052]
其中，s
d
表示第d个彩色视频和光流视频模态的手语视频关键帧片段融合特征的潜在空间语义，h
d 1
表示第d 1个隐藏状态。
[0053]
第二层lstm每个时刻的隐藏状态则由最终的输出与上一层的隐藏状态计算而来，也就是解码网络的输出o
d
如下：
[0054]
o
d
＝lstm(h
d
,o
d 1
)
[0055]
由于融合特征序列s在编码网络中为倒序输入，h
d 1
则为上一片段的输出状态，设h
d 1
为零向量，双层lstm在第一个片段的输出作为最终的lstm单元隐藏状态，将其输入到解码器中的lstm单元，作为最终的潜在语义片段时空特征向量，记为h
s
。
[0056]
在解码阶段，仍然构建一个双层lstm作为将片段时空特征向量与词语特征向量匹配的对齐网络模型，将编码器中输出的特征向量作为输入，对解码器网络的lstm的最终隐藏单元状态h
s
进行初始化作为h
′0。通过将第u
‑
1个潜在语义特征的隐藏层状态h
′
u
‑1以及与先前预测的单词y
u
‑1对应的潜在语义特征向量w
′
u
‑1作为输入，解码生成预测单词序列y
u
，并更新每个lstm单元的隐藏状态h
′
u
，表示为：
[0057]
y
u
,h
′
u
＝decoder(w
′
u
‑1,h
′
u
‑1)
[0058]
通过双层lstm输出隐藏状态向量h
′
＝(h
′1，h
′2，...，h
′
u
)，在解码器中y
u
为句子开头的标记用sos表示，解码器根据特征序列不断进行预测，直到预测到句子的另一个结束标记，用eos表示，逐词生成句子，解码器将条件概率分解为有序的条件概率p(y|k)：
[0059][0060]
由于编码与解码网络之间的信息是互通的，则对每个单词都应用交叉熵损失函数计算误差，传播误差到编码网络中，从而更新编码网络中的网络参数。
[0061]
在解码网络中加入注意力网络，使解码网络在对时空特征向量与词语序列向量进行解码时有重点的学习。
[0062]
对于解码器中的每个时刻，将加权求和操作应用于编码器中的输出o＝(o1，o2，...，o
d
)，从而计算出新的上下文向量g
u
：
[0063][0064]
为第d个片段的时空特征相对于解码网络中第u个词语的注意力权重，是根据编码器的每个单元的输出状态o
d
和解码器的隐藏状态h
′
u
的相似度得出的，计算方式如下：
[0065][0066]
其中，score为评分函数，d
′
表示第d
′
个片段的时空特征，a
u
代表第u个词语的注意
力向量，通过将上下文向量g
u
和隐藏状态h
′
u
结合求出：
[0067][0068]
其中，w
sc
为已学习到的权重，然后将注意力特征向量att＝(a1，a2，...，a
u
)输入到全连接层中，对有序条件概率进行建模，再将其a
u
输入到解码步中，得到最终的输出序列：
[0069]
y
u
，h
′
u
＝decoder(w
′
u
‑1,h
′
u
‑1,a
u
‑1)
[0070]
为避免参数量过多，采用dropout和l2正则化联合对注意力模型进行训练，则注意力模型需要训练的损失函数j(θ)即如下式所示：
[0071][0072]
其中，λ是l2正则化的超参数，θ是注意力模型中的偏置向量；解码器最终根据注意力层的输出概率，使用beamsearch对其解码，选取概率值最高的语句序列作为最终语义，用l＝(l1，l2，...，l
u
)表示。
[0073]
步骤s3、在训练集中抽取v组两种模态的关键帧手语视频分别对手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络训练得到初始权重，再输入全部训练集对基于模态匹配的连续手语语句识别模型进行训练。其中，手语关键帧片段时空特征提取网络将用于有效提取彩色视频和光流视频模态的关键帧手语视频片段的时空特征，多模态潜在语义空间映射网络将提取到的两种模态的关键帧手语视频片段的时空特征和利用one
‑
hot编码得到的词语序列向量映射到相同的潜在语义空间中，编码网络用于学习两种模态的关键帧手语视频片段的长期时空特征并输入解码网络，解码网络将潜在语义空间中的时空特征与词语序列向量匹配对齐；即获得训练好的连续手语语句识别模型。
[0074]
步骤s4、利用测试集对训练好的基于模态匹配的连续手语语句识别模型进行测试，得到连续手语语句识别准确性。
[0075]
实施例1
[0076]
本发明所述的基于模态匹配的连续手语语句识别方法，步骤如下：
[0077]
步骤s1、采集1000个彩色视频模态的手语视频，使用tv
‑
l1算法对彩色视频模态的手语视频的光流信息进行提取，并形成帧数相同的光流图像序列，提供光流视频模态的手语视频；采用cnn对上述两种模态的每个手语视频的关键帧分别进行提取，对应得到像素大小为224
×
224、关键帧均匀采样至8帧的两种模态的关键帧手语视频，在得到的两种模态的关键帧手语视频中各选取800个相对应的视频构成训练集，两种模态的关键帧手语视频中剩余的视频构成测试集。手语语句关键帧片段个数d设为10。
[0078]
步骤s2、构建基于模态匹配的连续手语语句识别模型：
[0079]
所述基于模态匹配的连续手语语句识别模型包括手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络：
[0080]
采用基于时间自适应的cnn，即tanet，作为手语关键帧片段时空特征提取网络：首先经过一个标准卷积操作，再通过13个tam
‑
dw conv卷积模块，最后输入到全连接层之后进行平均池化汇总。
[0081]
多模态潜在语义空间映射网络使用了one
‑
hot编码并利用了线性投影函数构成潜在语义空间。
[0082]
编解码网络包括双层lstm和注意力网络。
[0083]
步骤s3、在训练集中抽取8组两种模态的关键帧手语视频分别对手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络训练得到初始权重，再输入全部训练集对基于模态匹配的连续手语语句识别模型进行训练。
[0084]
首先采用sgd对训练手语关键帧片段时空特征提取网络进行预训练，预训练参数如表1所示。在训练集上对网络微调时，采用预训练的参数对网络进行初始化，将学习率设置为0.01，epoch调整为20。
[0085]
表1预训练参数
[0086][0087]
在对编解码网络的训练过程中，采用dropout和l2正则化联合对注意力模型进行训练。训练过程分为两个阶段，第一阶段将batch_size设为8，第二阶段将batch_size设为1，并将学习率降低至0.0001。
[0088]
在基于编解码器的seq2seq模型中，使用含有序列终止符的beamsearch算法对其解码，从候选结果中选出最好的beamwidth个序列保留在集合中，按照此规则循环查找。分别训练好整体连续手语语句识别模型的各个模块后，再整体对其训练。
[0089]
步骤s4、利用测试集对训练好的基于模态匹配的连续手语语句识别模型进行测试，得到连续手语语句识别准确性为0.8256，证明了所提算法在对于连续手语语句的识别效果有一定的提升，不仅解决了语义对齐的问题，也更加符合口语习惯，减少了插入、删除等错误的出现。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于模态匹配的连续手语语句识别方法与流程

相关文献

最热文献