一种基于音素对数似然比的时延神经网络的声纹识别方法与流程

2021-10-09 14:47:00 来源：中国专利 TAG：音素神经网络对数识别语音识别

技术特征：
1.一种基于音素对数似然比的时延神经网络的声纹识别方法，其特征在于，所述方法包括步骤：获取语音数据；对所述语音数据进行预处理；使用音素识别器对预处理后的所述语音数据提取音素后验概率向量；使用预处理后的所述语音数据训练时延神经网络并提取x
‑
vector辨别矢量；使用所述音素后验概率向量训练混合高斯模型
‑
通用背景模型；使用所述混合高斯模型
‑
通用背景模型计算i
‑
vector辨别矢量；消除i
‑
vector特征空间中信道信息影响；使用所述x
‑
vector辨别矢量和所述i
‑
vector辨别矢量生成新分类器；将x
‑
vector特征和i
‑
vector特征输入所述新分类器；获取所述新分类器的声纹信息输出。2.根据权利要求1所述的基于音素对数似然比的时延神经网络的声纹识别方法，其特征在于，所述对所述语音数据进行预处理包括步骤：对所述语音数据进行声学特征提取；对所述语音数据进行静音检测；对所述语音数据进行语音增强。3.根据权利要求1所述的基于音素对数似然比的时延神经网络的声纹识别方法，其特征在于，所述使用音素识别器对预处理后的所述语音数据提取音素后验概率向量包括步骤：获取音素识别器；对所述音素识别器进行音素对数似然比训练；获取预处理后的所述语音数据；将所述语音数据输入所述音素识别器；获取所述音素识别器输出的所述音素后验概率向量。4.根据权利要求1所述的基于音素对数似然比的时延神经网络的声纹识别方法，其特征在于，所述使用预处理后的所述语音数据训练时延神经网络并提取x
‑
vector辨别矢量包括步骤：利用神经网络提取预处理后的所述语音数据的帧级特征；通过池化层提取预处理后的所述语音数据的段级信息；将预处理后的所述语音数据映射到固定维度超向量并得到固定维度语音；使用所述固定维度语音训练tdnn时延神经网络；使用所述tdnn时延神经网络提取预处理后的所述语音数据的x
‑
vector辨别矢量。5.根据权利要求1所述的基于音素对数似然比的时延神经网络的声纹识别方法，其特征在于，所述使用所述音素后验概率向量训练混合高斯模型
‑
通用背景模型包括步骤：利用语料训练混合高斯模型
‑
通用背景模型；对所述混合高斯模型
‑
通用背景模型进行最大后验概率算法自适应；通过em算法迭代优化隐藏参数。6.根据权利要求1所述的基于音素对数似然比的时延神经网络的声纹识别方法，其特
征在于，所述使用所述混合高斯模型
‑
通用背景模型计算i
‑
vector辨别矢量包括步骤：利用混合高斯模型
‑
通用背景模型通过最大后验概率算法自适应算法获得训练语音音素对数似然比特征样本的混合高斯超向量；通过前向
‑
后向算法参数估计方法计算全差异空间矩阵；获取i
‑
vector辨别矢量提取器；使用所述i
‑
vector辨别矢量提取器对待识别语音的音素对数似然比特征提取i
‑
vector辨别矢量特征的训练集和待识别集。7.根据权利要求1所述的基于音素对数似然比的时延神经网络的声纹识别方法，其特征在于，所述消除i
‑
vector特征空间中信道信息影响包括步骤：获取概率线性判别分析法模型；将所述i
‑
vector辨别矢量输入所述概率线性判别分析法模型。8.根据权利要求7所述的基于音素对数似然比的时延神经网络的声纹识别方法，其特征在于，所述概率线性判别分析法模型的表达式为：其中，xij表示概率线性判别分析法模型，u表示所有i
‑
vector辨别矢量向量的均值，β
i
表示第i个说话人的辨别因子，表示一个指定维度的说话人子空间，ε
ij
表示包含信道影响的残差。

技术总结
一种基于音素对数似然比的时延神经网络的声纹识别方法，所述方法包括步骤：获取语音数据；对所述语音数据进行预处理；使用音素识别器对预处理后的所述语音数据提取音素后验概率向量；使用预处理后的所述语音数据训练时延神经网络并提取X

技术研发人员：刘俊南薛辉缪蔚郭鹏齐心
受保护的技术使用者：因诺微科技（天津）有限公司
技术研发日：2021.07.02
技术公布日：2021/10/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于音素对数似然比的时延神经网络的声纹识别方法与流程

相关文章

最热文献