技术特征:
1.一种基于神经网络vad算法的人机交互方法,其特征在于,包括以下步骤:
对输入的音频信号进行预加载,保留有效的音频段;
对所述音频段进行数字化处理,并对所述数字化处理后的音频数字进行分帧和加窗操作;
把加窗操作后的音频数字作为新的样本放入样本集进行样本训练,采用神经网络和人机交互结果自动调整vad参数;
将调整好的vad参数运用于神经网络vad算法,采用神经网络vad算法读取加窗后的音频数字,以读取语音数据;
对读取到的语音数据进行降噪处理和频域滤波处理;
得到人机交互的输出结果。
2.如权利要求1所述的基于神经网络vad算法的人机交互方法,其特征在于,自动调整vad参数的步骤如下:
加载神经网络提前训练得到的vad参数;
把加窗操作后的音频数字放入已有的样本集中;
在神经网络中,根据特征值将已有的样本集划分为不同节点,各节点对输入的新样本集进行后验概率向量降维;
将后验概率向量降维后的新样本集输入混合型神经网络中,混合型神经网络输出结果;
存储混合型神经网络的输出结果;
比较混合型神经网络的输出结果和人机交互的输出结果;
根据比较结果自动训练并调整vad参数。
3.如权利要求2所述的基于神经网络vad算法的人机交互方法,其特征在于,所述混合型神经网络由深层神经网络和隐马尔科夫模型组成。
4.如权利要求2所述的基于神经网络vad算法的人机交互方法,其特征在于,在得到调整后的vad参数后,递归所述vad参数。
5.如权利要求1所述的基于神经网络vad算法的人机交互方法,其特征在于,降噪处理的方式为:对读取到的带噪音的语音数据进行平滑处理,公式为:
6.如权利要求1所述的基于神经网络vad算法的人机交互方法,其特征在于,频域滤波处理的公式为:
技术总结
本发明涉及一种基于神经网络VAD算法的人机交互方法,包括以下步骤:对输入的音频信号进行预加载,保留有效的音频段;对所述音频段进行数字化处理,并对所述数字化处理后的音频数字进行分帧和加窗操作;把加窗操作后的音频数字作为新的样本放入样本集进行训练,采用神经网络和人机交互结果自动调整VAD参数;将调整好的VAD参数运用于神经网络VAD算法,并读取加窗后的音频数字,以读取语音数据;对读取到的语音数据进行降噪处理和频域滤波处理;得到人机交互的输出结果。本发明通过神经网络把新的音频数字作为新的样本放入样本集进行训练,在大量通话和相同背景下,结合利用人机交互的输出结果纠正VAD参数,从而不断优化VAD参数,以不断优化人机交互质量。
技术研发人员:徐闽兆龙
受保护的技术使用者:万蚓网络科技(上海)有限公司
技术研发日:2021.04.16
技术公布日:2021.07.23
本文用于企业家、创业者技术爱好者查询,结果仅供参考。