农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵真空机包装食品玩具

首页 > 乐器声学设备的制造及制作,分析技术 > 正文

提取语音特征的方法、装置、电子设备及存储介质与流程

2022-02-22 07:13:04 来源：中国专利 TAG：

技术特征：

1.一种提取语音特征的方法，包括：

获取待处理的语音，并将所述语音分帧以获得多帧语音数据；

对所述多帧语音数据进行特征提取以获取所述语音的第一特征向量，其中，所述第一特征向量包括分别对应于所述多帧语音数据的相应特征的多个元素；

获取与所述第一特征向量中的所述多个元素相关联的协方差矩阵；

基于所述第一特征向量和所述协方差矩阵，获取所述语音的第二特征向量；

获取表征所述第一特征向量中的所述多个元素的重要性的参数向量；以及

将所述第二特征向量与所述参数向量进行拼接以获取所述语音的语音特征。

2.根据权利要求1所述的方法，其中，所述第二特征向量是所述第一特征向量根据高斯分布的后验均值向量。

3.根据权利要求1或2所述的方法，其中，基于所述第一特征向量和所述协方差矩阵，获取所述语音的第二特征向量包括：

对所述协方差矩阵应用归一化指数函数以获得关于所述协方差矩阵的归一化指数值；以及

将所述归一化指数值与所述第一特征向量相乘以获得所述第二特征向量。

4.根据权利要求1至3中任一项所述的方法，其中，获取表征所述第一特征向量中的所述多个元素的重要性的参数向量包括：

将所述第一特征向量输入第三神经网络，其中，所述第三神经网络包括第一子神经网络和第二子神经网络，并且其中，

将所述第一特征向量输入所述第一子神经网络以获取所述第一特征向量的归一化的权重向量；以及

将所述归一化的权重向量和所述第一特征向量输入所述第二子神经网络以计算所述参数向量。

5.根据权利要求4所述的方法，其中，将所述第一特征向量输入所述第一子神经网络以获取所述第一特征向量的归一化的权重向量包括：

通过所述第一子神经网络获取所述第一特征向量的初始权重向量；以及

对所述初始权重向量应用归一化指数函数以获取所述归一化的权重向量。

6.根据权利要求1至5中任一项所述的方法，其中，所述参数向量包括：加权均值向量和加权标准差向量中的至少一个。

7.根据权利要求1至6中任一项所述的方法，其中，所述第二特征向量具有多个维度，且所述参数向量具有多个维度，并且其中，将所述第二特征向量与所述参数向量进行拼接以获取所述语音的语音特征包括：

生成具有目标维度的语音特征，其中，所述目标维度为所述第二特征向量和所述参数向量的维度之和。

8.一种用于训练语音特征提取模型的方法，包括：

获取经过样本标注的样本语音，并将所述样本语音分帧以获得多帧样本语音数据；

对所述多帧样本语音数据进行特征提取以获取所述样本语音的第一样本特征向量，其中，所述第一样本特征向量包括分别对应于所述多帧样本语音数据的相应特征的多个样本元素；

获取与所述第一样本特征向量中的所述多个样本元素相关联的样本协方差矩阵；

基于所述第一样本特征向量和所述样本协方差矩阵，获取所述样本语音的第二样本特征向量；

获取表征所述样本第一特征向量中的所述多个样本元素的重要性的样本参数向量；

将所述第二样本特征向量与所述样本参数向量进行拼接以获取所述语音特征；以及

基于所述语音特征获取用于更新语音特征提取模型的网络参数，以训练所述语音特征提取模型。

9.一种提取语音特征的装置，包括：

分帧模块，被配置为：获取待处理的语音，并将所述语音分帧以获得多帧语音数据；

第一获取模块，被配置为：对所述多帧语音数据进行特征提取以获取所述语音的第一特征向量，其中，所述第一特征向量包括分别对应于所述多帧语音数据的相应特征的多个元素；

第二获取模块，被配置为：获取与所述第一特征向量中的所述多个元素相关联的协方差矩阵；

第三获取模块，被配置为：基于所述第一特征向量和所述协方差矩阵，获取所述语音的第二特征向量；

第四获取模块，被配置为：获取表征所述第一特征向量中的所述多个元素的重要性的参数向量；以及

拼接模块，被配置为：将所述第二特征向量与所述参数向量进行拼接以获取所述语音的语音特征。

10.根据权利要求9所述的装置，其中，所述第二特征向量是所述第一特征向量根据高斯分布的后验均值向量。

11.根据权利要求9或10所述的装置，其中，所述第三获取模块包括：

第三子模块，被配置为：对所述协方差矩阵应用归一化指数函数以获得关于所述协方差矩阵的归一化指数值；以及

第四子模块，被配置为：将所述归一化指数值与所述第一特征向量相乘以获得所述第二特征向量。

12.根据权利要求9至11中任一项所述的装置，其中，所述第四获取模块包括：

第五子模块，被配置为：将所述第一特征向量输入第三神经网络，其中，所述第三神经网络包括第一子神经网络和第二子神经网络，并且其中，所述第五子模块包括：

第六子模块，被配置为：将所述第一特征向量输入所述第一子神经网络以获取所述第一特征向量的归一化的权重向量；以及

第七子模块，被配置为：将所述归一化的权重向量和所述第一特征向量输入所述第二子神经网络以计算所述参数向量。

13.根据权利要求12所述的装置，其中，所述第六子模块包括：

第八子模块，被配置为：通过所述第一子神经网络获取所述第一特征向量的初始权重向量；以及

第九子模块，被配置为：对所述初始权重向量应用归一化指数函数以获取所述归一化的权重向量。

14.根据权利要求13所述的装置，其中，所述参数向量包括：加权均值向量和加权标准差向量中的至少一个。

15.根据权利要求9至14中任一项所述的装置，其中，所述第二特征向量具有多个维度，且所述参数向量具有多个维度，并且其中，所述拼接模块包括：

第十子模块，被配置为：生成具有目标维度的语音特征，其中，所述目标维度为所述第二特征向量和所述参数向量的维度之和。

16.一种用于训练语音特征提取模型的装置，包括：

样本分帧模块，被配置为：获取经过样本标注的样本语音，并将所述样本语音分帧以获得多帧样本语音数据；

第一样本获取模块，被配置为：对所述多帧样本语音数据进行特征提取以获取所述样本语音的第一样本特征向量，其中，所述第一样本特征向量包括分别对应于所述多帧样本语音数据的相应特征的多个样本元素；

第二样本获取模块，被配置为：获取与所述第一样本特征向量中的所述多个样本元素相关联的样本协方差矩阵；

第三样本获取模块，被配置为：基于所述第一样本特征向量和所述样本协方差矩阵，获取所述样本语音的第二样本特征向量；

第四样本获取模块，被配置为：获取表征所述样本第一特征向量中的所述多个样本元素的重要性的样本参数向量；

样本拼接模块，被配置为：将所述第二样本特征向量与所述样本参数向量进行拼接以获取所述样本语音的语音特征；以及

参数调整模块，被配置为：基于所述语音特征获取用于更新语音特征提取模型的网络参数，以训练所述语音特征提取模型。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。

技术总结
本公开提供了一种提取语音特征的方法，涉及人工智能技术领域，尤其涉及声纹识别领域。实现方案为，包括：获取待处理的语音，并将语音分帧以获得多帧语音数据；对多帧语音数据进行特征提取以获取语音的第一特征向量，其中，第一特征向量包括分别对应于多帧语音数据的相应特征的多个元素；获取与第一特征向量中的多个元素相关联的协方差矩阵；基于第一特征向量和协方差矩阵，获取语音的第二特征向量；获取表征第一特征向量中的多个元素的重要性的参数向量；以及将第二特征向量与参数向量进行拼接以获取语音的语音特征。

技术研发人员：张银辉;赵情恩;熊新雷;陈蓉;梁芸铭;周羊;肖岩;
受保护的技术使用者：北京百度网讯科技有限公司;
技术研发日：2021.10.29
技术公布日：2022.02.01

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于语音交互的问答方法、系统、电子设备及存储介质与流程

提取语音特征的方法、装置、电子设备及存储介质与流程

相关文献

最热文献