一种基于多尺度视频特征融合的语音唇读方法及系统与流程

2021-09-29 01:17:00 来源：中国专利 TAG：人工智能尺度融合语音特征

技术特征：
1.一种基于多尺度视频特征融合的语音唇读方法，其特征在于，包括：s1：获取大量的说话人说话视频数据集；s2：从获取的视频数据集中提取出视频帧和语音数据；s3：从语音数据中提取出mel谱；s4：构建基于多尺度视频特征融合的语音唇读模型，其中，语音唇读模型包括编码器、解码器以及声码器，编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块，多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征，得到不同尺度的特征向量，位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中，多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合，得到融合后的时空向量；解码器用于根据融合后的时空向量重建出语音mel谱，声码器用于将得到的代表语音的mel谱转化为语音；s5：将步骤s2中提取出的视频帧作为训练数据，对语音唇读模型进行训练，将解码器重建出的语音mel谱和步骤s3中提取出的mel谱之间的mse损失最小化为目标，得到训练好的语音唇读模型；s6：利用训练好的语音唇读模型对输入的视频进行语音识别。2.如权利要求1所述的语音唇读方法，其特征在于，在将步骤s2中提取出的视频帧作为训练数据，对语音唇读模型进行训练之前，所述方法还包括：采用人脸对齐工具，检测视频帧中的人脸特征点，并剪裁成预设大小。3.如权利要求1所述的语音唇读方法，其特征在于，步骤s2中位置编码模块的处理过程包括：学习一个函数g
spe
(
·
)，将每一个位置索引映射到具有相同长度的片段特征向量中，带有位置信息的特征向量表示为其中，g
spe
(
·
)为一个正余弦函数，两个位置之间的关系可以通过他们位置编码间的仿射变换来建模获得，表示不带位置信息的特征向量，k表示每一帧在序列中的位置。4.如权利要求1所述的语音唇读方法，其特征在于，步骤s2中多尺度特征融合模块采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合，包括：首先利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合，再利用自注意力将各时间金字塔的特征进行融合；其中，点乘注意力使中间隐向量考虑到局部信息，自注意力使得中间隐向量考虑非局部的上下文信息的影响，点乘注意力公式如公式(1)～(4)所示、自注意力公式如下(5)～(6)所示：(6)所示：(6)所示：
h＝[h0,h1,...,h
l
‑1],h
k
∈r
d
......(6)公式(1)为一个时间金字塔在共享特征空间中的向量表示，w
g
为线性映射函数，z0...z
p
‑1表示构成时间金字塔的各视频片段；公式(2)为一个时间金字塔的构造，其中，和分别表示带有各自位置编码的片段和ψ片段的向量表示，表示一个以为主片段的时间金字塔，m为片段所包含的视频帧数；公式(3)中，c
k
是通过点乘注意力计算出来的注意力分数，w
g
为线性映射函数，w
g
∈r
d'
×
d
将向量映射到共享特征空间r
d'
，代表视频的k 1个主片段特征；公式(4)将计算出来的注意力用softmax函数进行归一化，得到符合概率分布取值区间的注意力分配概率分布数值，d为q和k向量的维度，其中，公式(3)中的z
k
、z
k
分别对应公式(4)中的q、k、v；公式(5)为自注意力计算出来的注意力分数，其中，w
e
为权重，通过网络训练得到的，h为所有时间金字塔表示集合的矩阵；为得到更具表现力的特征，添加两个线性层w1和w2，两个线性层中间加入gelu激活函数，公式(6)中h
k
＝w2·
gelu(w1c
k
b1) b2,b1∈r
d
,b2∈r
d
，其中，b1和b2分别代表线性层w1和w2的偏差，h
k
表示第k个时间金字塔的表示。5.如权利要1所述的语音唇读方法，其特征在于，步骤s2解码器包括一个前处理网络、两层lstm和一个位置敏感的注意力层。6.如权利要1所述的语音唇读方法，其特征在于，步骤s5中以解码器重建出的语音mel谱和步骤s3中提取出的mel谱之间的mse损失最小化为目标，构建mse损失函数，公式为：式中，代表模型重建出的语音mel谱，y
i
代表真实语音mel谱，n代表样本对的个数。7.一种基于多尺度视频特征融合的语音唇读系统，其特征在于，包括：视频数据获取模块，用于获取大量的说话人说话视频数据集；语音分离模块，用于从获取的视频数据集中提取出视频帧和语音数据；语音特征提取模块，用于从语音数据中提取出mel谱；语音唇读模型构建模块，用于构建基于多尺度视频特征融合的语音唇读模型，其中，语音唇读模型包括编码器、解码器以及声码器，编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块，多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征，得到不同尺度的特征向量，位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中，多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合，得到融合后的时空向量；解码器用于根据融合后的时空向量重建出语音mel谱，声码器用于将得到的代表语音的mel谱转化为语音；模型训练模块，用于将语音分离模块中提取出的视频帧作为训练数据，将解码器重建
出的语音mel谱和语音特征提取模块中提取出的mel谱之间的mse损失最小化为目标，对语音唇读模型进行训练，得到训练好的语音唇读模型；语音识别模块，用于利用训练好的语音唇读模型对输入的视频进行语音识别。

技术总结
本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统，其中，基于多尺度视频特征融合的语音唇读方法，步骤如下：首先将输入视频的视频帧和语音分离，视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔，再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后，将视频特征通过多尺度特征融合模块，得到一个固定维度的中间向量，然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图，最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读，大大改善了语音合成的效果。大改善了语音合成的效果。大改善了语音合成的效果。

技术研发人员：熊盛武曾瑞陈燚雷
受保护的技术使用者：武汉理工大学
技术研发日：2021.06.28
技术公布日：2021/9/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于深度神经网络的语音环境降噪方法与流程

一种基于多尺度视频特征融合的语音唇读方法及系统与流程

相关文章

最热文献