一种消除不同说话特性的缄默通讯方法和系统

2022-07-31 07:12:17 来源：中国专利 TAG：

技术特征：
1.一种消除不同说话特性的缄默通讯方法，其特征在于，所述消除不同说话特性的缄默通讯方法包括：采集无声状态下的面部肌电信号；对面部肌电信号进行预处理，对预处理后的面部肌电信号进行语速监测控制和幅度的监测控制；对处理后的面部肌电信号进行特征提取，得到处理后的特征数据；将处理后的特征数据送到缄默语音识别模型中进行识别，得到以缄默方式说话时的无声语音数据；将得到的无声语音数据传输到设备上进行显示或者进行相应设备的操控。2.根据权利要求1所述的一种消除不同说话特性的缄默通讯方法，其特征在于，所述对预处理后的肌电信号进行语速监测控制包括：监测预处理后的肌电信号的时间范围；当预处理后的肌电信号的序列长度小于时间阈值，使用插帧技术将预处理后的肌电信号铺展至固定长度。3.根据权利要求2所述的一种消除不同说话特性的缄默通讯方法，其特征在于，所述使用插帧技术将监测预处理后的肌电信号铺展至固定长度包括：采用super-slomo神经网络的插帧技术将预处理后的肌电信号铺展至固定长度；所述super-slomo神经网络包括两个u-net网络，用一个u-net网络计算帧与帧之间的双向信号流，在每个时间步长上对这些信号流进行线性拟合，以近似中间帧的信号，使用另一个u-net网络来对近似的信号进行改善，并且预测柔性可见性映射关系，最后，将前后两帧信号进行扭曲和线性融合，从而形成中间帧；所述中间帧的预测计算如式(4)所示：i
t
＝(1-t)*g(i0,s
t
→0) t*g(i1,s
t
→1)
ꢀꢀꢀꢀ
(4)其中，t是中间帧的位置信息，g(i0,s
t
→0)是初始帧到中间帧的信号流的转换，g(i1,s
t
→1)是结束帧到中间帧的信号流转换；i
t
和i0之间的信号流如式(5)所示：s
t
→0＝-(1-t)ts0→1 t2s1→0ꢀꢀꢀꢀꢀ
(5)其中，s
t
→0是初始帧到中间帧的预测信号流，即正向信号流信息，t是中间帧的位置信息，s0→1是初始帧到结束帧的信号流信息，s1→0是结束帧到初始帧的信号流信息；i
t
和i1之间的信号流如式(6)所示：s
t
→1＝(1-t)2s0→
1-t(1-t)s1→0ꢀꢀꢀꢀꢀ
(6)其中，s
t
→1是结束帧到中间帧的预测信号流，即反向信号流信息，t是中间帧的位置信息，s0→1是初始帧到结束帧的信号流信息，s1→0是结束帧到初始帧的信号流信息；将中间帧插入到原信号流中，重新生成新的中间帧。4.根据权利要求3所述的一种消除不同说话特性的缄默通讯方法，其特征在于，所述u-net网络左侧是由卷积和max pooling构成，为压缩路径；压缩路径由5block组成，每个block使用了2有效卷积和1个max pooling降采样，每个block的卷积核数目为：32，64，128，256，512；采样之后input个数乘2；所述u-net网络右侧部分由卷积和bilinear upsampling构成，为扩展路径；扩展路径由5block组成，每个block的卷积核数目为512，256，128，64，32；前四个block开始之前通过反卷积将input的尺寸乘2，同时将其个数减半；之后和左侧对称的压缩路径的input合并。
5.根据权利要求2所述的一种消除不同说话特性的缄默通讯方法，其特征在于，所述幅度的监测控制包括：监测语速调节后的肌电信号的绝对平均值；若语速调节后的肌电信号的绝对平均值小于所设定的信号阈值，便对整个语速调节后的肌电信号进行等比例调节处理。6.根据权利要求5所述的一种消除不同说话特性的缄默通讯方法，其特征在于，所述将整个语速处理后的肌电信号进行等比例调节包括：训练时调节和识别时调节；所述训练时调节包括：检索一名用户的所有指令，将该用户所有信号中的绝对平均值的最大值标记为该用户的信号界值；检索其他用户的信号界值，对比不同用户之间的信号界值，将其中的最大值设置为信号阈值；幅值调节使用如式(8)所示，其中，x是欠调制状态的信号，x
i
是原始的欠调制状态信号的绝对平均值，x
p
是当前指令信号阈值，x
o
是幅值调节后信号的数据值；所述识别时调节包括：以模型生成时得到的信号阈值为标准进行调节；幅值调节使用如式(8)所示，其中，x是欠调制状态的信号，x
i
是原始的欠调制状态信号的绝对平均值，x
p
是当前指令信号阈值，x
o
是幅值调节后信号的数据值。7.根据权利要求1所述的一种消除不同说话特性的缄默通讯方法，其特征在于，所述对面部肌电信号进行预处理，包括：对面部肌电信号进行直流偏置的去除，工频噪声的去除和有效信号段的提取。8.根据权利要求1所述的一种消除不同说话特性的缄默通讯方法，其特征在于，所述缄默语音识别模型使用如下方式建立：采集无声状态下的面部肌电信号及收集对应的缄默方式说话时的无声语音数据；对面部肌电信号进行预处理，对预处理后的面部肌电信号进行语速监测控制和幅度的监测控制；对处理后的面部肌电信号进行特征提取，得到处理后的特征数据；将处理后的特征数据和对应的无声语音数据送入到卷积神经网络和门控循环单元进行特征学习。9.根据权利要求8所述的一种消除不同说话特性的缄默通讯方法，其特征在于，所述卷积神经网络和门控循环单元包括：cnn网络和gru网络；其中，cnn网络作为处理后的特征数据的预训练网络，gru网络作为处理后的特征数据的解码网络；所述cnn网络包括两个64维的卷积，两个128维的卷积，两个256维的卷积和两个512维的卷积，不同的卷积层中间使用最大池化层连接；所述gru网络为两层gru网络，第一层包含512个隐藏层，第二层包含1024个隐藏层；所述cnn网络最后一层的池化层输出与gru网络中重置门输入连接。10.一种消除不同说话特性的缄默通讯系统，其特征在于，所述消除不同说话特性的缄
默通讯系统包括：采集组件，用于采集无声状态下的面部肌电信号；预处理组件，用于对预处理后的肌电信号进行语速监测控制和幅度的监测控制；特征提取组件，用于对处理后的面部肌电信号进行特征提取，得到处理后的特征数据；识别组件，用于将处理后的特征数据送到缄默语音识别模型中进行识别，得到以缄默方式说话时的无声语音数据；传送组件，用于将得到的无声语音数据传输到设备上进行显示或者进行相应设备的操控；模型建立组件，用于建立缄默语音识别模型，所述缄默语音识别模型使用如下方式建立：采集无声状态下的面部肌电信号及收集对应的缄默方式说话时的无声语音数据；对面部肌电信号进行预处理，对预处理后的肌电信号进行语速监测控制和幅度的监测控制；对处理后的面部肌电信号进行特征提取，得到处理后的特征数据；将处理后的特征数据和对应的无声语音数据送入到卷积神经网络和门控循环单元进行特征学习。

技术总结
本发明公开了一种消除不同说话特性的缄默通讯方法和系统，方法包括采集无声状态下的面部肌电信号；对面部肌电信号进行预处理，对预处理后的面部肌电信号进行语速监测控制和幅度的监测控制；对处理后的面部肌电信号进行特征提取；将处理后的特征数据送到缄默语音识别模型中进行识别，得到无声语音数据，用来显示或者操控。本发明设计了一种消除不同说话特性的缄默通讯方法和系统，首先采集面部肌电信号，其次进行预处理、语速和幅度的监控处理以及特征提取，得到处理后的特征数据，最后根据处理后的特征数据训练缄默语音识别模型，进而识别以缄默方式说话时的无声语音。该方法能够获得准确率更高，识别速度更快的无声语音识别结果。结果。结果。

技术研发人员：闫野张亚坤蔡慧慧印二威谢良张敬艾勇保张皓洋
受保护的技术使用者：中国人民解放军军事科学院国防科技创新研究院
技术研发日：2022.04.25
技术公布日：2022/7/29

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：琴键信息生成方法、装置、电子设备和计算机可读介质与流程

一种消除不同说话特性的缄默通讯方法和系统

相关文献

最热文献