一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音处理方法及其装置与流程

2022-03-26 02:26:22 来源:中国专利 TAG:

技术特征:
1.一种语音处理方法,包括:获取麦克风采集的语音信号;利用回声消除模型消除所述语音信号中的回声以得到中间语音信号;以及利用深度神经网络模型去除所述中间语音信号中的噪音信号以得到所述语音信号中的语音指令信号。2.如权利要求1所述的语音处理方法,其特征在于,所述利用远端信号的回声消除模型消除所述语音信号中的回声以得到中间语音信号包括:基于所述回声的声源利用所述回声消除模型进行回声估计以得到所述语音信号的回声估计值;以及将所述语音信号减去所述回声估计值以得到所述中间语音信号。3.如权利要求2所述的语音处理方法,其特征在于,所述语音信号中的回声包括多个声源的回声,所述回声消除模型包括分别与所述多个声源对应的多个自适应滤波器,所述基于所述回声的声源利用所述回声消除模型进行回声估计以得到回声估计值包括:采用所述多个自适应滤波器分别对所述多个声源进行回声估计以分别得到所述多个声源的回声估计值;以及求出所述多个声源的回声估计值之和以作为所述语音信号的回声估计值。4.如权利要求3所述的语音处理方法,其特征在于,还包括:判断所述语音信号中是否包括语音指令信号;以及所述基于所述回声的声源利用所述回声消除模型进行回声估计以得到回声估计值还包括:响应于所述语音信号中不包括语音指令信号,利用所述多个声源更新所述多个自适应滤波器;以及响应于所述语音信号中包括语音指令信号,采用最近更新的多个自适应滤波器对所述多个声源进行回声估计。5.如权利要求4所述的语音处理方法,其特征在于,所述判断所述语音信号中是否包括语音指令信号包括:利用所述多个声源和所述麦克风采集的语音信号计算出检测函数其中,r
xd
=e[x(n)d(n)]=r
xx
h,r
xx
=e[x(n)x
t
(n)],x(n)为所述多个声源之和,d(n)为所述语音信号,r
xx
为x(n)的自相关矩阵,h为回声路径,为所述语音信号d(n)的方差,为回声y(n)的方差,为回声y(n)的方差,为所述噪音信号s(n)的方差,为所述语音指令信号v(n)的方差;响应于所述检测函数值大于等于预设阈值,判断所述语音信号中不包括语音指令信号;以及响应于所述检测函数值小于所述预设阈值,判断所述语音信号中包括语音指令信号。6.如权利要求4所述的语音处理方法,其特征在于,假设所述多个声源为m个声源,所述多个滤波器为与所述m个声源对应的m个滤波器,m>1,所述利用所述多个声源更新所述多
个自适应滤波器包括:利用参数更新公式更新所述多个自适应滤波器的第i个自适应滤波器,其中,波器的第i个自适应滤波器,其中,波器的第i个自适应滤波器,其中,y(n)为所述语音信号,为所述m个声源的声源信号之和,x
i
为所述m个声源中的第i个声源的声源信号,l是滤波器长度,μ为步长因子,0<μ<2,α为保护系数。7.如权利要求1所述的语音处理方法,其特征在于,所述深度神经网络模型包括输入层、隐含层和输出层,所述利用深度神经网络模型去除所述中间语音信号中的噪音以得到所述语音信号中的语音指令信号包括:将所述中间语音信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层的输出信号以作为所述语音指令信号。8.如权利要求7所述的语音处理方法,其特征在于,还包括:构造所述深度神经网络模型其中,为所述隐含层和所述输出层中的任意一层l层的第i个神经元的输出函数,为连接第l-1层的第j个神经元和第l层的第i个神经元的权重参数,为第l-1层的第j个神经元的激活函数值,f(x)为sigmoid函数,为第l层的第i个神经元的偏置参数,m
l-1
为第l-1层的神经元个数,所述输入层的第i个神经元的输出函数值为所述深度神经网络模型的第i个输入语音,该输入层的第i个神经元的激活函数值等于所述第i个神经元的输出函数值;以及训练所述深度神经网络模型以得到所述神经网络模型的每一权重参数和每一偏置参数。9.如权利要求8所述的语音处理方法,其特征在于,所述训练所述深度神经网络模型以得到所述神经网络模型的每一权重参数和每一偏置参数包括:采集纯净语音指令信号和实际应用环境的噪音信号;将所述纯净语音指令信号与所述噪音信号混合以得到带噪语音指令信号,所述纯净语音指令为所述带噪语音指令信号的标签值;将所述带噪语音指令信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层输出的与所述带噪语音指令信号对应的预测语音指令信号;以及将所述带噪语音指令信号的标签值与其对应的预测语音指令信号进行对比以更新所述深度神经网络模型的每一权重参数和每一偏置参数。10.如权利要求9所述的语音处理方法,其特征在于,所述将所述带噪语音指令信号的标签值与其对应的预测语音指令信号进行对比以更新所述深度神经网络模型的每一权重参数和每一偏置参数包括:
采用均方误差算法确定出所述带噪语音指令信号对应的预测语音指令信号相对于其标签值的代价函数值;以及利用反向传播过程基于所述代价函数值采用随机梯度下降算法不断更新所述深度神经网络模型的每一权重参数和每一偏置参数。11.一种语音处理装置,包括:存储器,用于存储计算机程序;以及处理器,与所述存储器连接,用于执行所述存储器上的计算机程序,所述处理器被配置成:获取麦克风采集的语音信号;利用远端信号的回声消除模型消除所述语音信号中的回声以得到中间语音信号;以及利用深度神经网络模型去除所述中间语音信号中的噪音信号以得到所述语音信号中的语音指令信号。12.如权利要求11所述的语音处理装置,其特征在于,所述处理器进一步被配置成:基于所述回声的声源利用所述回声消除模型进行回声估计以得到所述语音信号的回声估计值;以及将所述语音信号减去所述回声估计值以得到所述中间语音信号。13.如权利要求12所述的语音处理装置,其特征在于,所述语音信号中的回声包括多个声源的回声,所述回声消除模型包括分别与所述多个声源对应的多个自适应滤波器,所述处理器进一步被配置成:采用所述多个自适应滤波器分别对所述多个声源进行回声估计以分别得到所述多个声源的回声估计值;以及求出所述多个声源的回声估计值之和以作为所述语音信号的回声估计值。14.如权利要求13所述的语音处理装置,其特征在于,所述处理器还被配置成:判断所述语音信号中是否包括语音指令信号;响应于所述语音信号中不包括语音指令信号,利用所述多个声源更新所述多个自适应滤波器;以及响应于所述语音信号中包括语音指令信号,采用最近更新的多个自适应滤波器对所述多个声源进行回声估计。15.如权利要求14所述的语音处理装置,其特征在于,所述处理器进一步被配置成:利用所述多个声源和所述麦克风采集的语音信号计算出检测函数其中,r
xd
=e[x(n)d(n)]=r
xx
h,r
xx
=e[x(n)x
t
(n)],x(n)为所述多个声源之和,d(n)为所述语音信号,r
xx
为x(n)的自相关矩阵,h为回声路径,为所述语音信号d(n)的方差,为回声y(n)的方差,为回声y(n)的方差,为所述噪音信号s(n)的方差,为所述语音指令信号v(n)的方差;响应于所述检测函数值大于等于预设阈值,判断所述语音信号中不包括语音指令信号;以及
响应于所述检测函数值小于所述预设阈值,判断所述语音信号中包括语音指令信号。16.如权利要求14所述的语音处理装置,其特征在于,假设所述多个声源为m个声源,所述多个滤波器为与所述m个声源对应的m个滤波器,m>1,所述处理器进一步被配置成:利用参数更新公式更新所述多个自适应滤波器的第i个自适应滤波器,其中,波器的第i个自适应滤波器,其中,波器的第i个自适应滤波器,其中,y(n)为所述语音信号,为所述m个声源的声源信号之和,x
i
为所述m个声源中的第i个声源的声源信号,l是滤波器长度,μ为步长因子,0<μ<2,α为保护系数。17.如权利要求11所述的语音处理装置,其特征在于,所述深度神经网络模型包括输入层、隐含层和输出层,所述处理器进一步被配置成:将所述中间语音信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层的输出信号以作为所述语音指令信号。18.如权利要求17所述的语音处理装置,其特征在于,所述处理器还被配置成:构造所述深度神经网络模型其中,为所述隐含层和所述输出层中的任意一层l层的第i个神经元的输出函数,为连接第l-1层的第j个神经元和第l层的第i个神经元的权重参数,为第l-1层的第j个神经元的激活函数值,f(x)为sigmoid函数,为第l层的第i个神经元的偏置参数,m
l-1
为第l-1层的神经元个数,所述输入层的第i个神经元的输出函数值为所述深度神经网络模型的第i个输入语音,该输入层的第i个神经元的激活函数值等于所述第i个神经元的输出函数值;以及训练所述深度神经网络模型以得到所述神经网络模型的每一权重参数和每一偏置参数。19.如权利要求18所述的语音处理装置,其特征在于,所述语音处理装置适应于轨道交通车辆的司机室,所述处理器进一步被配置成:采集纯净语音指令信号和实际应用环境的噪音信号;将所述纯净语音指令信号与所述噪音信号混合以得到带噪语音指令信号,所述纯净语音指令为所述带噪语音指令信号的标签值;将所述带噪语音指令信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层输出的与所述带噪语音指令信号对应的预测语音指令信号;以及将所述带噪语音指令信号的标签值与其对应的预测语音指令信号进行对比以更新所述深度神经网络模型的每一权重参数和每一偏置参数。20.如权利要求19所述的语音处理装置,其特征在于,所述处理器进一步被配置成:采用均方误差算法确定出所述带噪语音指令信号对应的预测语音指令信号相对于其
标签值的代价函数值;以及利用反向传播过程基于所述代价函数值采用随机梯度下降算法不断更新所述深度神经网络模型的每一权重参数和每一偏置参数。21.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1~10中任一项所述的语音处理方法的步骤。

技术总结
本发明提供了语音处理方法及其装置。所述语音处理方法包括:获取麦克风采集的语音信号;利用回声消除模型消除所述语音信号中的回声以得到中间语音信号;以及利用深度神经网络模型去除所述中间语音信号中的噪音信号以得到所述语音信号中的语音指令信号。到所述语音信号中的语音指令信号。到所述语音信号中的语音指令信号。


技术研发人员:褚伟 胡云卿 刘悦 林军 罗潇
受保护的技术使用者:中车株洲电力机车研究所有限公司
技术研发日:2020.09.09
技术公布日:2022/3/25
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献