技术特征:
1.一种基于残差神经网络的语音欺骗检测方法,其特征在于,包括以下步骤:
采集真实语音信号数据和欺骗语音信号数据,进行特征提取,获得线性频率倒谱系数;对所述线性频率倒谱系数进行训练,获得高斯混合模型;将所述线性频率倒谱系数输入所述高斯混合模型,获得高斯概率特征;构建堆叠残差层模型,将所述高斯概率特征作为输入,输出得到二维矩阵;根据自适应最大池化层对所述二维矩阵进行池化操作后,输入到全连接层进行分类,根据分类结果判断语音是正常语音还是欺骗语音。
2.根据权利要求1所述的基于残差神经网络的语音欺骗检测方法,其特征在于,所述高斯混合模型采用期望最大方法进行训练。
3.根据权利要求2所述的基于残差神经网络的语音欺骗检测方法,其特征在于,
所述高斯混合模型概率分布密度函数的公式为:
其中j=1,2,3…,m,πj是权值因子,表示高斯分量在模型中所占的权重,且
4.根据权利要求3所述的基于残差神经网络的语音欺骗检测方法,其特征在于,
所述高斯密度函数的公式为:
5.根据权利要求1所述的基于残差神经网络的语音欺骗检测方法,其特征在于,
获得所述高斯概率特征具体通过将所述线性频率倒谱系数的均值和标准差进行归一化。
6.根据权利要求5所述的基于残差神经网络的语音欺骗检测方法,其特征在于,
所述高斯概率特征根据公式fi={fij,j=1…512}得到,每个分量fij计算公式为:
fij=log(wj·pj(xi))(2)
其中:xi为语音特征,wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值。
7.根据权利要求1所述的基于残差神经网络的语音欺骗检测方法,其特征在于,所述堆叠残差层模型至少包括卷积操作层、单位加操作层、批归整化操作层。
8.根据权利要求7所述的基于残差神经网络的语音欺骗检测方法,其特征在于,
所述卷积操作层包括256个卷积核,每个所述卷积核大小为3。
9.根据权利要求1所述的基于残差神经网络的语音欺骗检测方法,其特征在于,所述分类的过程为:
计算所述语音在真实语音类和欺骗语音类在上的得分,若真实语音类得分值大于欺骗语音类得分值,则判定此语音为真实语音;若欺骗语音类得分值大于真实语音类得分值,则判定此语音为欺骗语音。
技术总结
本发明提供一种基于残差神经网络的语音欺骗检测方法,包括:采集真实语音信号数据和欺骗语音信号数据,进行特征提取,获得线性频率倒谱系数;对所述线性频率倒谱系数进行训练,获得高斯混合模型;将所述线性频率倒谱系数输入所述高斯混合模型,获得高斯概率特征;构建堆叠残差层模型,将所述高斯概率特征作为输入,输出得到二维矩阵;根据自适应最大池化层对所述二维矩阵进行池化操作后,输入到全连接层进行分类,根据分类得分判断语音是正常语音还是欺骗语音。本发明采用高斯概率特征结合残差神经网络模型,进一步提高了语音欺骗检测系统性能。
技术研发人员:雷震春;马明磊;杨印根
受保护的技术使用者:江西师范大学
技术研发日:2021.04.29
技术公布日:2021.08.10
本文用于企业家、创业者技术爱好者查询,结果仅供参考。