声纹特征提取方法、装置、电子设备及存储介质与流程

2022-02-19 08:42:50 来源：中国专利 TAG：

技术特征：
1.一种声纹特征提取方法，包括：获取关于说话人的初始声纹特征数据；基于所述初始声纹特征数据生成所述说话人的初始特征向量；生成对应于所述初始特征向量的协方差矩阵；基于所述初始特征向量和所述协方差矩阵，生成所述说话人的更新的特征向量，其中，所述更新的特征向量为所述初始特征向量根据高斯分布的后验均值向量；以及基于所述更新的特征向量提取所述说话人的声纹特征。2.根据权利要求1所述的方法，其中，所述初始声纹特征数据是从关于所述说话人的音频数据提取的，并且所述初始声纹特征数据包括具有时间上的上下文关系的多个子特征数据，其中，所述多个子特征数据对应于所述音频数据的多个帧。3.根据权利要求2所述的方法，其中，所述基于所述初始声纹特征数据生成所述说话人的初始特征向量包括：将所述初始声纹特征数据输入至第一神经网络以获取所述初始特征向量，其中，所述初始特征向量包括具有所述时间上的上下文关系的、对应于所述多个子特征数据的多个第一元素。4.根据权利要求3所述的方法，其中，所述生成对应于所述初始特征向量的协方差矩阵包括：将所述初始特征向量输入至第二神经网络以获取对应于所述初始特征向量的所述协方差矩阵，其中，所述协方差矩阵具有与所述初始特征向量的多个第一元素相对应的多个第二元素，且每个第二元素表征对应的第一元素在不同特征维度之间的相关性。5.根据权利要求1至4中任一项所述的方法，其中，所述生成所述说话人的更新的特征向量包括：对所述协方差矩阵应用归一化指数函数以获得关于所述协方差矩阵的归一化指数值；以及将所述归一化指数值与所述初始特征向量相乘以获得所述更新的特征向量。6.根据权利要求1至5中任一项所述的方法，其中，所述基于所述更新的特征向量提取所述说话人的声纹特征包括：通过嵌入操作对所述更新的特征向量进行映射以生成所述说话人的所述声纹特征。7.一种用于训练声纹特征提取模型的方法，包括：提供关于预定说话人的样本初始声纹特征数据；基于所述样本初始声纹特征数据生成所述预定说话人的样本初始特征向量；生成对应于所述样本初始特征向量的样本协方差矩阵；基于所述样本初始特征向量和所述样本协方差矩阵，生成所述预定说话人的更新的样本特征向量，其中，所述更新的样本特征向量为所述样本初始特征向量根据高斯分布的后验均值向量；基于所述更新的样本特征向量提取所述预定说话人的声纹特征；以及基于所述声纹特征获取用于更新声纹特征提取模型的网络参数，以训练所述声纹特征提取模型。8.一种声纹特征提取装置，包括：
获取单元，被配置为获取关于说话人的初始声纹特征数据；第一生成单元，被配置为基于所述初始声纹特征数据生成所述说话人的初始特征向量；第二生成单元，被配置为生成对应于所述初始特征向量的协方差矩阵；第三生成单元，被配置为基于所述初始特征向量和所述协方差矩阵，生成所述说话人的更新的特征向量，其中，所述更新的特征向量为所述初始特征向量根据高斯分布的后验均值向量；以及提取单元，被配置为基于所述更新的特征向量提取所述说话人的声纹特征。9.根据权利要求8所述的装置，其中，所述初始声纹特征数据是从关于所述说话人的音频数据提取的，并且所述初始声纹特征数据包括具有时间上的上下文关系的多个子特征数据，其中，所述多个子特征数据对应于所述音频数据的多个帧。10.根据权利要求9所述的装置，其中，所述第一生成单元包括：第一子单元，被配置为将所述初始声纹特征数据输入至第一神经网络以获取所述初始特征向量，其中，所述初始特征向量包括具有所述时间上的上下文关系的、对应于所述多个子特征数据的多个第一元素。11.根据权利要求10所述的装置，其中，所述第二生成单元包括：第二子单元，被配置为将所述初始特征向量输入至第二神经网络以获取对应于所述初始特征向量的所述协方差矩阵，其中，所述协方差矩阵具有与所述初始特征向量的多个第一元素相对应的多个第二元素，且每个第二元素表征对应的第一元素在不同特征维度之间的相关性。12.根据权利要求8至11中任一项所述的装置，其中，所述第三生成单元包括：第三子单元，被配置为对所述协方差矩阵应用归一化指数函数以获得关于所述协方差矩阵的归一化指数值；以及第四子单元，被配置为将所述归一化指数值与所述初始特征向量相乘以获得所述更新的特征向量。13.根据权利要求8至12中任一项所述的装置，其中，所述提取单元包括：映射单元，被配置为通过嵌入操作对所述更新的特征向量进行映射以生成所述说话人的所述声纹特征。14.一种用于训练声纹特征提取模型的装置，包括：提供单元，被配置为提供关于预定说话人的样本初始声纹特征数据；第一样本生成单元，被配置为基于所述样本初始声纹特征数据生成所述预定说话人的样本初始特征向量；第二样本生成单元，被配置为生成对应于所述样本初始特征向量的样本协方差矩阵；第三样本生成单元，被配置为基于所述样本初始特征向量和所述样本协方差矩阵生成所述预定说话人的更新的样本特征向量，其中，所述更新的样本特征向量为所述样本初始特征向量根据高斯分布的后验均值向量；样本提取单元，被配置为基于所述更新的样本特征向量提取所述预定说话人的声纹特征；以及网络参数获取单元，被配置为基于所述声纹特征获取用于更新声纹特征提取模型的网
络参数，以训练所述声纹特征提取模型。15.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有能够被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1
‑
7中任一项所述的方法。16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1
‑
7中任一项所述的方法。17.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据权利要求1
‑
7中任一项所述的方法。

技术总结
本公开提供了一种声纹特征提取方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及语音识别技术。实现方案为：一种声纹特征提取方法包括：获取关于说话人的初始声纹特征数据；基于初始声纹特征数据生成说话人的初始特征向量；生成对应于初始特征向量的协方差矩阵；基于初始特征向量和协方差矩阵，生成说话人的更新的特征向量，其中，更新的特征向量为初始特征向量根据高斯分布的后验均值向量；以及基于更新的特征向量提取说话人的声纹特征。纹特征。纹特征。

技术研发人员：赵情恩
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.09.28
技术公布日：2022/1/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：声音识别方法、装置、电子设备及存储介质与流程

声纹特征提取方法、装置、电子设备及存储介质与流程

相关文献

最热文献