基于ResNet34网络-注意力机制的连续手语识别方法及装置

2022-08-28 09:36:09 来源：中国专利 TAG：

技术特征：
1.一种基于resnet34网络-注意力机制的连续手语识别方法，其特征在于，包括：s1：获取第一视频数据训练集，所述第一视频数据集包括rgb视频以及深度视频，并采用kfe聚类算法提取所述第一视频数据训练集的关键帧以获取第二视频数据训练集，所述第二视频数据训练集具有标签；s2：构建resnet34网络拓扑，将psa通道注意力机制和rcc空间注意力机制融合成pr注意力机制，并将pr注意力机制与所述resnet34网络拓扑进行集成以提取所述第二视频数据集的特征信息；s3：构建bilstm网络拓扑以对所述第二视频数据集的特征信息进行编码，采用lstm-ctc端对端网络结构拓扑以及所述第二视频数据训练集的标签对编码后所述第二视频数据集进行解码；s4：构建目标函数，以对所述resnet34网络拓扑与所述pr注意力机制集成后的网络拓扑参数、所述bilstm网络拓扑参数以及所述lstm-ctc端对端网络结构拓扑参数进行调整。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取第一视频数据测试集，对构建完成的所述resnet34网络拓扑与所述pr注意力机制集成后的网络拓扑、所述bilstm网络拓扑以及所述lstm-ctc端对端网络结构拓扑进行测试。3.根据权利要求1所述的方法，其特征在于，所述采用kfe聚类算法提取所述第一视频数据训练集的关键帧以获取第二视频数据训练集的步骤包括：获取初始阈值、所述第一视频数据训练集的帧集合、所有簇的簇质心；基于所述第一视频数据训练集的帧集合获取所述第一视频数据训练集的帧，并基于所述所有簇的簇质心以获取所述第一视频数据训练集的帧到簇质心的最近距离；判定所述第一视频数据训练集的帧到簇质心的最近距离是否小于初始阈值；若是，则将所述第一视频数据训练集的帧归至最近距离的簇质心的类中，将所述第一视频数据训练集的帧从所述第一视频数据训练集的帧集合剔除，并执行所述获取初始阈值、所述第一视频数据训练集的帧集合、所有簇的簇质心的步骤；若否，则将所述第一视频数据训练集的帧定义归至新的类别，将所述第一视频数据训练集的帧从所述第一视频数据训练集的帧集合剔除，并执行所述获取初始阈值、所述第一视频数据训练集的帧集合、所有簇的簇质心的步骤。4.根据权利要求1所述的方法，其特征在于，所述resnet34网络拓扑包括初始层、第一残差层、第二残差层、第三残差层、第四残差层以及全局平均池化层；所述第一残差层的卷积核数为64，所述第一残差层的数量为3；所述第二残差层的卷积核数为128，所述第二残差层的数量为4；所述第三残差层的卷积核数为256，所述第三残差层的数量为6；所述第四残差层的卷积核数为512，所述第四残差层的数量为3；将pr注意力机制与所述resnet34网络拓扑进行集成的步骤包括：将所述第四残差层与全局平均池化层间引入所述pr注意力机制。5.根据权利要求4所述的方法，其特征在于，所述将psa通道注意力机制和rcc空间注意力机制融合成pr注意力机制的步骤中，其中所述psa通道注意力机制为：[x0，x1，
…
，x
s-1
]＝split(x)；
f
i
＝conv(k
i
×
k
i
，g
i
)(x
i
)；f＝cat([f0，f1，
…
，f
s-1
])；x∈r
c
×
w
×
h-所述第二视频训练集经过resnet34网络前四个残差层计算后得到的第一特征图；c，w和h-第一特征图的通道、宽度和高度；split-在通道维度上对第一特征图x∈r
c
×
w
×
h
进行平等划分成s份的操作；x
i
∈r
c/s
×
w
×
h-所述第一特征图经过平等划分后的特征图，其通道为c/s；k
i-不同卷积核参数；g
i-分组卷积的参数；f
i
∈r
c/s
×
w
×
h-经过多尺度特征提取后的多尺度特征；cat-在通道维度上拼接不同感受野下的多尺度特征；f∈r
c
×
w
×
h-多尺度特征拼接后的特征向量；采用如下公式对所述多尺度特征拼接后的特征向量进行权值提取：g
i
＝avgpool(f
i
)；z
i
＝σ(w1δ(w0(g
i
)))；z＝cat([z0，z1，
…
，z
s-1
])；avgpool(
·
)-代表了全局平均池化；σ(
·
)是sigmoid激活函数；δ(
·
)是relu激活函数；g
i
∈r
c/s
×1×
1-对多尺度特征进行全局平均池化的特征向量；w0和w1分别是维度为[c/s/r，c/s]，[c/s，c/s/r]的权重矩阵，其中r代表为减小率；z
i-维度为[c/s，1，1]的不同部分注意力权值；z-维度为[c，1，1]的跨维度的通道注意力特征权重图；采用如下公式对所得注意力权值进行归一化，并将权值与经过多尺度特征提取的特征向量做张量积的操作：att＝softmax(z)；y＝att
⊙
f；att-归一化后的通道注意力权值。所述rcc注意力机制是将criss-cross模块串联两次从而获得丰富的上下文信息，其中criss-cross通道注意力机制为：q＝w
q
y；k＝w
k
y；v＝wvy；w
q
和w
k
均是维度为[c
′
，c]的权重矩阵；wv是维度为[c，c]的权重矩阵；并采用如下公式将pr注意力机制与所述resnet34网络拓扑进行集成以提取所述第二视频数据集的特征信息：进行affinity操作以获取大小为[w，h]的特征图中每一个像素点与其同行同列像素点的关系：
d＝affinity(q，k)；affinity-q，k都是维度为[c
′
，w，h]的特征图；ω
u-在q的空间维度中针对每一个位置u都存在特征向量q
u
∈r
c
′
；其中ω
i，u
∈r
c
′
是ω
u
的第i个元素，d
i，u
∈d-特征q
u
和ω
i，u
，i＝[1，
…
，h w-1]的相关度。基于大小为[w，h]的特征图中每一个像素点与其同行同列像素点的关系d在通道维度上应用softmax层从而计算特征图a：a＝softmax(d)；对特征图a进行aggregation操作从而收集上下文信息y
′
：aggregation-在v的空间维度中针对每一个位置u都存在特征向量v
u
∈r
c
，集合φ
u
∈r
(h w-1)
×
c
是从v矩阵中提取与位置u处于同一行与同一列的特征向量集合；y
′‑
所述为已捕捉到垂直方向和水平方向长连接的上下文信息；对已捕捉到垂直方向和水平方向长连接的上下文信息重复串联，如下列公式所示：y
″
＝crisscross(y
′
)；y
′
＝crisscross(y)；y
″‑
所述为已获取到全局像素信息的特征向量。6.根据权利要求1所述的方法，其特征在于，所述采用lstm-ctc端对端网络结构拓扑以及所述第二视频数据训练集的标签对编码后所述第二视频数据集进行解码的步骤包括：计算lstm-ctc端对端网络的ctc损失函数，具体包括：定义一种多对一的映射函数β(
·
)来对应其目标序列y：其中式中，π
n-n时刻的π标签；-n时刻发生的概率；ctc损失函数为：7.根据权利要求6所述的方法，其特征在于，采用如下公式构建目标函数：l-所构建的目标函数，以对所述resnet34网络拓扑与所述pr注意力机制集成后的网络拓扑参数、所述bilstm编码器网络拓扑参数以及所述lstm-ctc解码器网络结构拓扑进行调整；s-给定第二视频数据集的维度；||ω||
2-避免过拟合的正则化项；λ-正则项的超参数。8.根据权利要求2所述的方法，其特征在于，所述获取第一视频数据测试集，对构建完
成的所述resnet34网络拓扑与所述pr注意力机制集成后的网络拓扑、所述bilstm网络拓扑以及所述lstm-ctc端对端网络结构拓扑进行测试的步骤包括：获取wer值表示识别的精度：s、i(ins)和d(del)分别为最小替换、插入、删除操作；n表示标签的单词总数。9.根据权利要求2所述的方法，其特征在于，所述获取第一视频数据测试集，对构建完成的所述resnet34网络拓扑与所述pr注意力机制集成后的网络拓扑、所述bilstm网络拓扑以及所述lstm-ctc端对端网络结构拓扑进行测试的步骤包括：获取准确率accuracy表示识别的精度：s、i(ins)和d(del)分别为最小替换、插入、删除操作；n表示标签的单词总数。10.一种基于resnet34网络-注意力机制的连续手语识别装置，其特征在于，包括：视频获取模块：用于获取第一视频数据训练集，所述第一视频数据集包括rgb视频以及深度视频并采用kfe聚类算法提取所述第一视频数据训练集的关键帧以获取第二视频数训练集，所述第二视频训练集具有标签；特征提取模块：用于构建resnet34网络拓扑，并将pr注意力机制与所述resnet34网络拓扑进行集成以提取所述第二视频数据集的特征信息；解码模块：用于构建bilstm网络拓扑以对所述第二视频数据集的特征信息进行编码，采用lstm-ctc端对端网络结构拓扑以对编码后所述第二视频数据集进行解码；参数调整模块：用于构建目标函数，以对所述resnet34网络拓扑与所述pr注意力机制集成后的网络拓扑参数、所述bilstm网络拓扑参数以及所述lstm-ctc端对端网络结构拓扑参数进行调整。

技术总结
本发明提供了一种基于ResNet34网络-注意力机制的连续手语识别方法及装置，涉及人工智能识别技术领域，包括：S1：获取第一视频数据训练集，并采用KFE聚类算法获取第二视频数据训练集，S2：构建ResNet34网络拓扑，将PSA通道注意力机制和RCC空间注意力机制融合成PR注意力机制，并与ResNet34网络拓扑进行集成以提取第二视频数据集的特征信息；S3：构建BiLSTM网络拓扑以对第二视频数据集的特征信息进行编码，采用LSTM-CTC端对端网络结构拓扑以对编码后第二视频数据集进行解码；S4：构建目标函数，以对ResNet34网络拓扑与PR注意力机制集成后的网络拓扑参数、BiLSTM网络拓扑参数以及LSTM-CTC端对端网络结构拓扑参数进行调整。本发明可以缓解现有技术中视频冗余造成的神经网络结构过度拟合的技术问题。结构过度拟合的技术问题。结构过度拟合的技术问题。

技术研发人员：沈丛杨甜东天宇幸高松陆星元袁甜甜陈胜勇
受保护的技术使用者：天津理工大学
技术研发日：2022.06.23
技术公布日：2022/8/26

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种针对医学影像的滤波系统及方法与流程

基于ResNet34网络-注意力机制的连续手语识别方法及装置

相关文献

最热文献