一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的连续手语识别方法、电子设备和存储介质

2022-06-05 06:21:37 来源:中国专利 TAG:


1.本发明属于数据处理技术领域,特别是涉及一种基于强化学习的连续手语识别方法、电子设备和存储介质。


背景技术:

2.近年来,随着深度相机等的广泛应用以及人道主义关爱的推广,聋哑人的生活备受大家关心,聋哑人与正常人的交流逐渐成为人们关注的焦点,基于机器学习的连续手语识别问题引起了很多关注;聋哑人通过手语进行交流,听懂或说明白手语会帮助正常人更好地理解聋哑人需要,更好地给予聋哑人必要的帮助;连续快速的手语识别存在如何抽象出手语视频中的特征、如何跨膜态地对手语视频特征进行融合处理、如何提高手语识别的准确度及如何提高识别速度、网络效率等问题。
3.目前基于深度学习的连续手语识别方法只提取手语演示人的全局特征,忽略了手语视频中人的表情及双手之间的动作联系,即使考虑了聋哑人的面部表情,也会忽略手语视频中双手之间的姿态对识别结果的影响,且没有在时间维度上进行核心帧的挑选,不能标明哪些帧对识别结果起重要作用,哪些帧对识别来说可有可无,导致手语识别的准确性较差,识别效率较低,限制了连续手语识别精度的进一步提升。


技术实现要素:

4.本发明实施例的目的在于提供一种基于强化学习的连续手语识别方法,通过提取多模态特征获取手语视频中的大部分信息,使手语识别的准确性得到大幅度提升,同时将帧数范围作为强化学习网络损失函数的一部分,对核心视频帧数量进行限制,降低了视频帧的处理量,提升了手语识别的效率。
5.本发明实施例的目的还在于提供一种电子设备和存储介质。
6.为解决上述技术问题,本发明所采用的技术方案是,基于强化学习的连续手语识别方法,具体包括以下步骤:
7.步骤1,构建强化学习网络模块;
8.步骤2,对连续视频帧进行裁剪处理,获得全身视频帧、手部视频帧和脸部视频帧,分别使用强化学习网络模块选取全身视频帧、手部视频帧、脸部视频帧中的核心视频帧;
9.步骤3,使用二维卷积神经网络分别提取全身核心视频帧、手部核心视频帧、脸部核心视频帧中的特征,并将脸部特征、手部特征和全身特征拼接后输入一维卷积神经网络,提取时间维度上的视频片段;
10.步骤4,使用联结主义时间分类器处理视频片段得到连续手语识别句子。
11.进一步的,所述强化学习网络模块包括三维卷积神经网络模块、双向循环神经网络模块和损失函数计算模块;
12.所述三维卷积神经网络模块,用于提取连续手语视频中的视觉特征,并将其转换为为一维特征;
13.所述双向循环神经网络模块,用于获取一维特征的隐藏状态,并基于隐藏状态获得每个视频帧的概率分布;
14.所述损失函数计算模块,用于计算强化学习网络的损失函数,并将计算结果反馈至三维卷积神经网络模块和双向训练神经网络模块,对其参数进行优化更新。
15.进一步的,所述强化学习网络模块的损失函数loss如下:
16.loss=-j(θ) β1loss
percentage
β2loss
weight
17.其中j(θ)表示目标函数,j(θ)=e
pθ(at,t)
[r(s)],t表示连续手语视频的长度,a
t
表示视频帧挑选动作,p
θ
(a
t
,t)表示在网络参数θ下每一个视频帧被选择的概率分布,e
pθ(at,t)
表示期望,r(s)表示奖励函数,loss
percentage
表示挑选的帧数范围,β1表示loss
percentage
的正则化加权系数,loss
weight
表示网络参数θ的正则,β2表示loss
weight
的正则化加权系数。
[0018]
进一步的,所述奖励函数r(s)=r
div
r
rep
,r
div
、r
rep
的计算如下:
[0019][0020][0021]
其中r
div
表示挑选的所有核心视频帧之间的差异性,r
rep
表示挑选的所有核心视频帧的代表性,y、y

均表示核心视频帧的数目变量,y表示挑选的核心视频帧的总张数,y≠y

,y={y|ay=1,y=1,

,y},ay表示第y张核心视频帧的挑选动作,xy表示第y张核心视频帧中的视觉特征,xy′
表示第y

张核心视频帧中的视觉特征,d(xy,xy′
)表示xy与xy′
之间的差异性,t表示视频帧的数目变量,t=1,2,

,t,x
t
表示第t帧视频帧中的视觉特征;
[0022]
所述所述表示xy的转置,当|y-y

|>λ时,d(xy,xy′
)=1。
[0023]
进一步的,所述步骤4中连续手语识别过程如下:
[0024]
步骤41,在单词表g中加入空标签blank形成新单词表g

=g∪{blank},使用空标签表示动作端点或非手势段;
[0025]
步骤42,使用双向长短期记忆网络融合手语视频中动作的长期联系,提取视频片段在新单词表g

上的概率分布,根据概率分布将每个视频片段对应于新单词表上的单词,组成手语视频的初始识别句子π;
[0026]
步骤43,构建多对一函数,去除识别句子中的重复单词和空标签,得到新的手语识别句子l,将处理后相同的句子归为一类,计算每个手语识别句子l的概率,将概率最大的手语识别句子l输出。
[0027]
进一步的,所述手语识别句子l的概率其中b-1
表示多对一函数b的反函数,π∈b-1
(l)表示经过多对一函数b变换后得到手语识别句子l的所有初始识别句子π,p(π|v;θ

)表示在网络参数θ

下对视频片段v进行识别得到初始识别句子π的概率。
[0028]
一种电子设备,包括处理器、存储器和通信总线,其中,处理器、存储器通过通信总线完成相互间的通信;
[0029]
存储器,用于存放计算机程序;
[0030]
处理器,用于执行存储器上所存放的程序时,实现上述的方法步骤。
[0031]
一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法步骤。
[0032]
本发明的有益效果是:1、本发明实施例将帧数范围和帧的多样性、代表性均作为强化学习网络损失函数的一部分对其进行训练,得到的强化学习网络能够筛选出高质量的核心视频帧,能够代表手语视频的整体,还能在一定程度上减少视频帧的处理量,提高手语视频识别的效率;2、本发明实施例将手语视频裁剪为三部分—手部视频、脸部视频和全身视频,通过强化学习网络获取多模态特征,其中包含了全面的视频信息,基于此进行手语识别,识别结果更加准确;3、本发明实施例为手语单词表添加空标签,使手语视频片段与单词能够对齐,避免了强行解释无意义帧所带来的问题,使用多对一函数对手语识别结果进行浓缩,使多个手语标签能够对应一个手语识别结果。
附图说明
[0033]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]
图1是基于强化学习的连续手语识别网络图。
[0035]
图2是强化学习网络提取核心视频帧的示意图。
[0036]
图3是不同部位的核心视频帧示意图。
具体实施方式
[0037]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038]
如图1所示,基于强化学习的连续手语识别方法,包括以下步骤:
[0039]
步骤s1,构建强化学习网络模块,如图2所示,强化学习网络模块包括三维卷积神经网络模块、双向循环神经网络模块和损失函数计算模块;
[0040]
所述三维卷积神经网络模块用于提取输入的连续手语视频中各视频帧的视觉特征并使用全连接层(fc)将视觉特征拉平;其中t表示视频帧的数目变量,t表示连续手语视频的长度,t=1,2,

,t,v
t
表示第t张视频帧,x
t
表示第t张视频帧v
t
中的视觉特征;
[0041]
所述双向循环神经网络模块(birnn)用于根据拉平的视觉特征产生对应的隐藏状态集合进而通过全连接层得到每一个视频帧的概率分布p
t
=σ(wh
t
),全连接层的激活函数为sigmoid函数;其中h
t
表示视觉特征x
t
的隐藏状态,每一个隐藏状态h
t
级联了
前向的隐藏状态和后向的隐藏状态封装了未来的信息和过去的信息,σ表示sigmoid函数,w表示birnn的网络参数,概率分布标示了该视频帧为核心视频帧的概率,视频帧的选取动作a
t
服从伯努利分布,即a
t
~bernoulli(p
t
),a
t
∈{0,1},a
t
=1表示第t帧是核心视频帧,a
t
=0表示第t帧是非核心视频帧;
[0042]
损失函数计算模块用于计算强化学习网络的损失函数,并将计算结果反馈至三维卷积神经网络和双向训练神经网络,对其参数进行优化更新;
[0043]
建立强化学习网络模块的损失函数;
[0044]
强化学习网络模块的目的是产生高质量的核心视频帧,即所选取的帧数量要尽可能少,还要尽可能代表整个手语视频,这样在降低手语识别过程中的资源消耗的同时,能提升手语识别的准确性;因此强化学习网络在训练过程中会产生一个损失函数,该函数由三部分组成,第一部分为强化学习的目标函数,用于评估所选取核心视频帧的多样性和代表性,这部分在损失函数中最为重要,第二部分用于控制所选取核心视频帧的帧数范围,第三部分为双向循环神经网络的网络参数正则化,用于防止强化学习网络过拟合的问题;损失函数各部分的确定过程如下:
[0045]
(1)为了保证选取的核心视频帧的质量,本实施例设置奖励函数,以多样性和代表性为策略挑选核心视频帧,选择的核心视频帧尽可能覆盖所有出现过的手部姿态,尽可能地代表整个连续手语视频,所述奖励函数r(s)=r
div
r
rep

[0046]rdiv
表示所有核心视频帧之间的差异性,用于评估强化学习网络提取的核心视频帧的多样性,y、y

均表示核心视频帧的数目变量,y表示挑选的核心视频帧的总张数,y≠y

,y={y|ay=1,y=1,

,y},ay表示第y张核心视频帧的挑选动作,xy表示第y张核心视频帧中的视觉特征,xy′
表示第y

张核心视频帧中的视觉特征,d(xy,xy′
)表示xy与xy′
之间的差异性,之间的差异性,表示xy的转置;
[0047]
尽管选取的核心视频帧之间差异性越大,得到的多样性奖励r
div
越多,但由于r
div
的计算中,xy、xy′
为核心视频帧中任意两帧的视觉特征,因此忽略了序列数据固有的时间结构,而事实上,如果两帧在时间维度上相距较远,两者之间的差异性应该被忽略,因此本实施例设置了参数λ∈[4,8],当|y-y

|>λ,即两个核心视频帧在时间维度上相距较远时,两核心视频帧之间的差异性d(xy,xy′
)=1;
[0048]rrep
表示所有核心视频帧的代表性,用于评估选取的核心视频帧能否代表整个连续手语视频,本实施例将挑选具有代表性的核心视频帧问题建模为k-中心点问题,利用强化学习网络模块挑选出一系列核心视频帧,这些核心视频帧到其他视频帧及离它最近核心视频帧的距离均方和最小,
[0049]
差异性奖励和代表性奖励相互互补,以指导强化学习网络模块进行训练,使强化学习网络模块趋向于挑选能代表整个连续手语视频,且与其他视频帧差异较大的核心视频帧;
[0050]
(2)尽管挑选尽可能多的核心视频帧会使奖励函数得到提升,但这会增加数据处理量,导致手语识别效率降低,不符合我们的预期,为了在提高准确度的同时提高后续识别网络的效率,本实施例为强化学习网络模块产生的概率分布增加正则化来控制挑选的帧数范围其中p
t
表示第t张视频帧被选作核心视频帧的概率,ε表示用作控制核心视频帧数量的超参数,ε越大则选取的核心视频帧数量越多;
[0051]
(3)为了防止强化学习网络过拟合,并使其计算效率提高,给强化学习网络参数θ提供了一个正则loss
weight
=∑θ2,使强化学习网络参数θ尽可能小,致使数据偏移对强化学习网络核心视频帧挑选结果的影响较小,强化学习网络更容易收敛;
[0052]
综上,强化学习网络模块的损失函数loss=-j(θ) β1loss
percentage
β2loss
weight
,其中j(θ)表示强化学习的目标函数,其目的是使奖励函数r(s)的期望最大化,p
θ
(a
t
,t)表示在网络参数θ下每一个视频帧被选择的概率分布,β1表示loss
percentage
的正则化加权系数,β2表示loss
weight
的正则化加权系数,α表示学习率;
[0053]
训练强化学习网络模块时,使用随机梯度下降对网络参数θ进行更新,由强化学习算法可得目标函数j(θ)在参数θ的梯度为由于梯度中带有期望值,难以直接求得,因此根据大数定理在n轮挑选中求得平均值,即其中rn是在第n轮模拟中求得的奖励,表示对网络参数θ求梯度,π
θ
(a
t
|h
t
)表示在隐藏状态h
t
下策略网络π
θ
做出核心视频帧选取动作a
t
的概率;
[0054]
为了使强化学习网络模块更容易收敛,减小结果的方差,本实施例给目标函数添加了基准b,即基准b通过计算迄今为止所有奖励的平均数获得;
[0055]
重复核心视频帧挑选过程,对网络参数θ进行更新,计算每次迭代中的损失函数,当两次迭代的损失函数之间的差距小于0.0001时,强化学习网络训练完成;
[0056]
步骤s2,手语视频预处理和特征提取;
[0057]
当将目光聚集于人体的不同区域时,对于核心视频帧的选取结果必然会产生一定差异,这样选取的核心视频帧才能真正代表人体某一部分,对手语视频识别结果的准确性产生重要影响;如图3所示,本实施例首先对手语视频进行裁剪处理,将其分为脸部视频、手部视频和全身视频,然后分别使用强化学习网络模块在三个视频中选取核心视频帧,获得脸部核心视频帧v
face
、手部核心视频帧v
hands
、全身核心视频帧v
body

[0058]
分别将v
face
、v
hands
、v
body
输入二维卷积神经网络(2d-cnn)中提取脸部特征x
face
、手部特征x
hands
和全身特征x
body
,将脸部特征x
face
、手部特征x
hands
和全身特征x
body
拼接形成融合特征x=[x
face
,x
hands
,x
body
];
[0059]
将融合特征x=[x
face
,x
hands
,x
body
]输入一维卷积神经网络(1d-cnn),提取时间维度的视频片段v=(v1,v2,

,v
t

),v1、v2、v
t

分别表示第1个、第2个、第t

个视频片段,t

表示视频片段的长度;
[0060]
步骤s3,使用联结主义时间分类器(ctc)对时间维度的视频片段进行连续手语识别;
[0061]
s3a,为了更好地进行监督,本实施例提供一个空标签表示未标记的数据,如运动端点或非手势段,并以动态规划的方式解决对齐问题,此时手语单词表g更新为g'=g∪{blank};
[0062]
s3b,将时间维度上的视频片段输入双向长短期记忆网络(bilstm),融合手语视频中动作的长期联系,产生概率分布z=(z1,z2,

,z
t

),z1、z2、z
t

分别表示视频片段v1、v2、v
t

在新手语单词表g

上的概率分布,根据概率分布将每个视频片段v=(v1,v2,

,v
t

)分别对应于单词表中g

的单词,获得手语视频的初始识别句子π;
[0063]
s3c,定义一个多对一函数b,用于去除每个初始识别句子π中的重复单词及空标签,得到新的手语识别句子l,将处理后的句子相同则被归为一类,计算各手语识别句子的概率,输出概率值最大的手语识别句子。
[0064]
ctc通过对所有可行句子的概率进行求和,对bilstm模型的参数θ

进行监督,通过反向传播算法更新网络参数θ

,在更新的网络参数θ

下对视频片段v进行识别得到句子l的概率l
ctc
=-logp(l|v;θ

);
[0065]
由多对一函数b可以获得l与π之间的联系,因此利用反函数b-1
即可根据l获得π,对l
ctc
进行改写得到所有能归为同一类的手语识别句子出现的概率和,也就是连续手语识别的损失函数:
[0066][0067]
其中π∈b-1
(l)表示经过多对一函数b变换后得到手语识别句子l的所有初始识别句子π,p(π|v;θ

)表示在网络参数θ

对视频片段v进行识别得到句子π的概率,p(π|v;θ

)可以通过假定事件之间相互独立来计算,π=(π1,π2,


t

)表示句子π中经过的各个手语单词,p(π
t

|v;θ

)表示在网络参数θ

下对视频片段v进行识别得到单词π
t

的概率。
[0068]
本发明查阅了大量连续手语视频及聋哑人视频,分析得出在连续手语视频中,人的微表情至关重要,然而传统的连续手语识别方法仅关注全局特征,全局特征下人的表情会被手部的大幅度动作遮盖而不会被注意,致使基于此进行手语识别,提取的特征信息不全面,手语识别结果不够准确,不能帮助人们很好地理解聋哑人的需求,因此本发明提出了多模态特征,不仅关注手部特征,还关注脸部及两手之间的姿态位置,通过将多模态特征进行融合,获得更具有代表性的特征,为准确进行手语识别打下基础;同时由于人在打手势时,动作因人而异,有些动作会随环境改变而发生改变,将手语视频的全部帧均输入手语识别网络,会引入部分噪声干扰,在一定程度上降低手语识别的准确性,还会增大视频帧的处理量,降低手语识别的效率,本发明通过强化学习网络提取对手语识别起关键作用的核心视频帧,减少了视频帧的处理量,提高了手语识别的效率。
[0069]
本发明通过强化学习网络从连续手语视频中提取对手语识别至关重要的核心视
频帧,这些核心视频帧以脸部、手部或全身为核心,通过局部关注挑选的核心视频帧,包含全面的视频信息,提供更为准确的手语识别;为了挑选核心视频帧,本发明使用奖励函数(多样性奖励及代表性奖励)对挑选的视频帧进行评估,以保证挑选出的核心视频帧是多样的,能覆盖整个手语视频,没有遗漏,同时挑选的视频帧有代表性,能够表征手语视频中的全部手语特征,通过强化学习网络进行核心视频帧筛选,使本发明具有提取与手语识别相关的全部特征,为进一步进行手语识别提供保障。
[0070]
本发明基于强化学习的奖励函数,提出了两个正则化函数,有效突破了强化学习在奖励都为正的情况下容易做出错误判断的瓶颈,克服了无法确切挑选核心视频帧的困难,使本发明能够正确提取对手语识别至关重要的核心视频帧。
[0071]
本发明基于ctc损失函数,为手语单词添加了空标签,并设置多对一的函数,对结果集进行浓缩,克服了现有技术中结果过大,概率分布过于密集的问题,通过多对一函数,使多个手语标签能够对应于一个手语识别结果,同时空标签的引入弥补了强行解释无意义帧带来的问题。
[0072]
本发明还包含一种电子设备,包括存储器和处理器,所述存储器用于存储各种计算机程序指令,所述处理器用于执行所述计算机程序指令完成上述全部或部分步骤;电子设备可以与一个或多个外部设备通信,还可与一个或多个使用户与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信,电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信。
[0073]
本发明还包括一种存储有计算机程序的计算机可读存储介质,该计算机程序可以被处理器执行,所述计算机可读存储介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备,此外本发明所述的可读存储介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质,术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质(和/或存储介质)。
[0074]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0075]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献