一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度神经网络模型的带噪语音端点检测方法及装置与流程

2021-08-31 17:44:00 来源:中国专利 TAG:神经网络 深度 语音 检测方法 装置
基于深度神经网络模型的带噪语音端点检测方法及装置与流程

本发明涉及语音识别检测技术领域,尤其涉及一种基于深度神经网络模型的带噪语音端点检测方法及装置。



背景技术:

随着智能技术的发展,语音识别、语音分析、语音压缩及语音合作等技术领域的发展和应用,对语音信号中的处理要求越来越高,所需要的的计算复杂度也越来越多,因此需要在进行相关语音处理的时候,首先对识别带噪语音信息中的语音段和非语音段,现有技术中,一般通过短时能量法、过零率检测法等方式进行识别,但是识别速度较慢,并且识别准确率不高,无法满足后续的语音处理的要求。



技术实现要素:

本发明的目的在于克服现有技术的不足,本发明提供了一种基于深度神经网络模型的带噪语音端点检测方法及装置,可以快速的检测出带噪语音信息数据中的语音段和非语音段,并且具有较高的识别率。

为了解决上述技术问题,本发明实施例提供了一种基于深度神经网络模型的带噪语音端点检测方法,所述方法包括:

获得带噪语音信息数据;

对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据;

对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据;

基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果;

基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵;

将所述能量熵特征矩阵输入预设的深度神经网络模型中进行端点检测识别处理,输出端点检测识别结果。

可选的,所述获得带噪语音信息数据,包括:

基于预设的麦克风设备进行语音信息采集处理,获得带噪语音信息数据;或,接收用户输入的方式获得带噪语音信息数据。

可选的,所述对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据,包括:

基于汉明窗函数对所述带噪语音信息数据进行加窗处理,获得加窗处理结果;

对所述加窗处理结果进行按照预设分帧规则进行分帧处理,获得预处理后的带噪语音信息数据。

可选的,所述对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据,包括:

获得用于小波变换的分解过程中的分解层数;

基于所述分解层数对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据。

可选的,所述获得用于小波变换的分解过程中的分解层数,包括:

基于所述预处理后的带噪语音信息数据的语音信噪比;

基于所述语音信噪比获得用于小波变换的分解过程中的分解层数。

可选的,所述基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果,包括:

对所述小波变换后的带噪语音信息数据的每层重构信号的每帧进行能量熵计算,获得能量熵计算结果。

可选的,所述基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵,包括:

基于所述能量熵计算结果的高频系数能量熵进行能量熵特征矩阵的构建,获得高频能量熵特征矩阵;

基于所述能量熵计算结果的低频系数能量熵进行能量熵特征矩阵的构建,获得低频能量熵特征矩阵;

将所述高频能量熵特征矩阵和所述低频能量熵特征矩阵按照预设比例系数进行矩阵融合,获得能量熵特征矩阵。

可选的,所述比例系数之和为1。

可选的,所述预设的深度神经网络模型为利用带噪的训练语音信息数据所构建的训练能量熵特征矩阵进行训练后,并利用带噪的测试语音信息数据所构建的训练能量熵特征矩阵进行测试,测试结果达到预设阈值的收敛深度神经网络模型。

另外,本发明实施例还提供了一种基于深度神经网络模型的带噪语音端点检测装置,所述装置包括:

获得模块:用于获得带噪语音信息数据;

预处理模块:用于对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据;

小波变换模块:用于对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据;

计算模块:用于基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果;

矩阵构建模块:用于基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵;

检测识别模块:用于将所述能量熵特征矩阵输入预设的深度神经网络模型中进行端点检测识别处理,输出端点检测识别结果。

在本发明实施例中,通过获得带噪语音信息数据;对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据;对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据;基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果;基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵;将所述能量熵特征矩阵输入预设的深度神经网络模型中进行端点检测识别处理,输出端点检测识别结果。可以实现快速的检测出带噪语音信息数据中的语音段和非语音段,并且具有较高的识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于深度神经网络模型的带噪语音端点检测方法的流程示意图;

图2是本发明实施例中的基于深度神经网络模型的带噪语音端点检测装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

实施例一

请参阅图1,图1是本发明实施例中的基于深度神经网络模型的带噪语音端点检测方法的流程示意图。

如图1所示,一种基于深度神经网络模型的带噪语音端点检测方法,所述方法包括:

s11:获得带噪语音信息数据;

在本发明具体实施过程中,所述获得带噪语音信息数据,包括:基于预设的麦克风设备进行语音信息采集处理,获得带噪语音信息数据;或,接收用户输入的方式获得带噪语音信息数据。

具体的,一般情况下,对于带噪语音信息数据的获得,可以通过采集的方式或者用户输入的方式,在通过采集的方式时,即可以设置麦克风设备,通过设置的麦克风设备进行语音信息数据的采集,即可得到带噪语音信息数据;或者通过接受用户输入的方式,一般用户将存有待输入的带噪语音信息数据存放在某一终端,然后通过相应的技术输入至该检测识别设备中,即可获得带噪语音信息数据。

s12:对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据;

在本发明具体实施过程中,所述对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据,包括:基于汉明窗函数对所述带噪语音信息数据进行加窗处理,获得加窗处理结果;对所述加窗处理结果进行按照预设分帧规则进行分帧处理,获得预处理后的带噪语音信息数据。

具体的,对带噪语音信息数据进行处理,主要包括加窗处理和分帧处理,在加窗处理时,利用汉明窗函数来对带噪语音信息数据进行加窗处理,通过利用汉明加窗处理,通过汉明加窗处理,可以使得后续在语音分帧时的分帧效果更佳,更方便后续的处理,在对该加窗处理结果进行分帧时,是按照预设分帧规则进行分帧的,即按照一个设定的时间周期进行分帧,最后得到预处理后的带噪语音信息数据。

s13:对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据;

在本发明具体实施过程中,所述对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据,包括:获得用于小波变换的分解过程中的分解层数;基于所述分解层数对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据。

进一步的,所述获得用于小波变换的分解过程中的分解层数,包括:基于所述预处理后的带噪语音信息数据的语音信噪比;基于所述语音信噪比获得用于小波变换的分解过程中的分解层数。

具体的,在进行小波变换处理之前,需要得到小波变换处理时,需要分解的分解层数,然后根据该分解层数对该预处理后的带噪语音信息数据进行小波变换处理,最终得到小波变换后的带噪语音信息数据;在得到小波变换的分解层数时,需要得到预处理后的带噪语音信息数据的语音信噪比,然后利用相关的计算公式根据语音信噪比获得用于小波变换的分解过程中的分解层数;相关计算公式如下:

m=c*snr c0;

其中,c和c0为统计试验所得到的参数,snr为预处理后的带噪语音信息数据的语音信噪比;m即为用于小波变换的分解过程中的分解层数。

s14:基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果;

在本发明具体实施过程中,所述基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果,包括:对所述小波变换后的带噪语音信息数据的每层重构信号的每帧进行能量熵计算,获得能量熵计算结果。

具体的,在小波变换之后,每帧语音信号数据中的每层重构信号得到高通滤波和低通滤波得到高频系数和低频系数;利用每层的高频系数和低频系数分别计算能量熵,即可得到能量熵计算结果。

s15:基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵;

在本发明具体实施过程中,所述基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵,包括:基于所述能量熵计算结果的高频系数能量熵进行能量熵特征矩阵的构建,获得高频能量熵特征矩阵;基于所述能量熵计算结果的低频系数能量熵进行能量熵特征矩阵的构建,获得低频能量熵特征矩阵;将所述高频能量熵特征矩阵和所述低频能量熵特征矩阵按照预设比例系数进行矩阵融合,获得能量熵特征矩阵。

进一步的,所述比例系数之和为1。

具体的,对得到的能量熵计算结果中的高频系数能量熵,按照带噪语音信息数据的分帧数量和分层数量来构建一个高频能量熵特征矩阵,得到高频能量熵特征矩阵,对得到的能量熵计算结果中的低频系数能量熵,按照带噪语音信息数据的分帧数量和分层数量来构建一个低频能量熵特征矩阵,得到低频能量熵特征矩阵;然后利用预设的比例系数将高频能量熵特征矩阵和低频能量熵特征矩阵进行加权融合,获得能量熵特征矩阵;并且预设的比例系数之和为1。

s16:将所述能量熵特征矩阵输入预设的深度神经网络模型中进行端点检测识别处理,输出端点检测识别结果。

在本发明具体实施过程中,所述预设的深度神经网络模型为利用带噪的训练语音信息数据所构建的训练能量熵特征矩阵进行训练后,并利用带噪的测试语音信息数据所构建的训练能量熵特征矩阵进行测试,测试结果达到预设阈值的收敛深度神经网络模型。

具体的,该预设的深度神经网络模型为利用带噪的训练语音信息数据所构建的训练能量熵特征矩阵进行训练后,并利用带噪的测试语音信息数据所构建的训练能量熵特征矩阵进行测试,测试结果达到预设阈值的收敛深度神经网络模型;然后将得到的能量熵特征矩阵输入预设的深度神经网络模型中进行端点检测识别处理,最后输出端点检测识别结果。

在本发明实施例中,通过获得带噪语音信息数据;对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据;对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据;基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果;基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵;将所述能量熵特征矩阵输入预设的深度神经网络模型中进行端点检测识别处理,输出端点检测识别结果。可以实现快速的检测出带噪语音信息数据中的语音段和非语音段,并且具有较高的识别率。

实施例二

请参阅图2,图2是本发明实施例中的基于深度神经网络模型的带噪语音端点检测装置的结构组成示意图。

如图2所示,一种基于深度神经网络模型的带噪语音端点检测装置,所述装置包括:

获得模块21:用于获得带噪语音信息数据;

在本发明具体实施过程中,所述获得带噪语音信息数据,包括:基于预设的麦克风设备进行语音信息采集处理,获得带噪语音信息数据;或,接收用户输入的方式获得带噪语音信息数据。

具体的,一般情况下,对于带噪语音信息数据的获得,可以通过采集的方式或者用户输入的方式,在通过采集的方式时,即可以设置麦克风设备,通过设置的麦克风设备进行语音信息数据的采集,即可得到带噪语音信息数据;或者通过接受用户输入的方式,一般用户将存有待输入的带噪语音信息数据存放在某一终端,然后通过相应的技术输入至该检测识别设备中,即可获得带噪语音信息数据。

预处理模块22:用于对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据;

在本发明具体实施过程中,所述对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据,包括:基于汉明窗函数对所述带噪语音信息数据进行加窗处理,获得加窗处理结果;对所述加窗处理结果进行按照预设分帧规则进行分帧处理,获得预处理后的带噪语音信息数据。

具体的,对带噪语音信息数据进行处理,主要包括加窗处理和分帧处理,在加窗处理时,利用汉明窗函数来对带噪语音信息数据进行加窗处理,通过利用汉明加窗处理,通过汉明加窗处理,可以使得后续在语音分帧时的分帧效果更佳,更方便后续的处理,在对该加窗处理结果进行分帧时,是按照预设分帧规则进行分帧的,即按照一个设定的时间周期进行分帧,最后得到预处理后的带噪语音信息数据。

小波变换模块23:用于对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据;

在本发明具体实施过程中,所述对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据,包括:获得用于小波变换的分解过程中的分解层数;基于所述分解层数对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据。

进一步的,所述获得用于小波变换的分解过程中的分解层数,包括:基于所述预处理后的带噪语音信息数据的语音信噪比;基于所述语音信噪比获得用于小波变换的分解过程中的分解层数。

具体的,在进行小波变换处理之前,需要得到小波变换处理时,需要分解的分解层数,然后根据该分解层数对该预处理后的带噪语音信息数据进行小波变换处理,最终得到小波变换后的带噪语音信息数据;在得到小波变换的分解层数时,需要得到预处理后的带噪语音信息数据的语音信噪比,然后利用相关的计算公式根据语音信噪比获得用于小波变换的分解过程中的分解层数;相关计算公式如下:

m=c*snr c0;

其中,c和c0为统计试验所得到的参数,snr为预处理后的带噪语音信息数据的语音信噪比;m即为用于小波变换的分解过程中的分解层数。

计算模块24:用于基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果;

在本发明具体实施过程中,所述基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果,包括:对所述小波变换后的带噪语音信息数据的每层重构信号的每帧进行能量熵计算,获得能量熵计算结果。

具体的,在小波变换之后,每帧语音信号数据中的每层重构信号得到高通滤波和低通滤波得到高频系数和低频系数;利用每层的高频系数和低频系数分别计算能量熵,即可得到能量熵计算结果。

矩阵构建模块25:用于基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵;

在本发明具体实施过程中,所述基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵,包括:基于所述能量熵计算结果的高频系数能量熵进行能量熵特征矩阵的构建,获得高频能量熵特征矩阵;基于所述能量熵计算结果的低频系数能量熵进行能量熵特征矩阵的构建,获得低频能量熵特征矩阵;将所述高频能量熵特征矩阵和所述低频能量熵特征矩阵按照预设比例系数进行矩阵融合,获得能量熵特征矩阵。

进一步的,所述比例系数之和为1。

具体的,对得到的能量熵计算结果中的高频系数能量熵,按照带噪语音信息数据的分帧数量和分层数量来构建一个高频能量熵特征矩阵,得到高频能量熵特征矩阵,对得到的能量熵计算结果中的低频系数能量熵,按照带噪语音信息数据的分帧数量和分层数量来构建一个低频能量熵特征矩阵,得到低频能量熵特征矩阵;然后利用预设的比例系数将高频能量熵特征矩阵和低频能量熵特征矩阵进行加权融合,获得能量熵特征矩阵;并且预设的比例系数之和为1。

检测识别模块26:用于将所述能量熵特征矩阵输入预设的深度神经网络模型中进行端点检测识别处理,输出端点检测识别结果。

在本发明具体实施过程中,所述预设的深度神经网络模型为利用带噪的训练语音信息数据所构建的训练能量熵特征矩阵进行训练后,并利用带噪的测试语音信息数据所构建的训练能量熵特征矩阵进行测试,测试结果达到预设阈值的收敛深度神经网络模型。

具体的,该预设的深度神经网络模型为利用带噪的训练语音信息数据所构建的训练能量熵特征矩阵进行训练后,并利用带噪的测试语音信息数据所构建的训练能量熵特征矩阵进行测试,测试结果达到预设阈值的收敛深度神经网络模型;然后将得到的能量熵特征矩阵输入预设的深度神经网络模型中进行端点检测识别处理,最后输出端点检测识别结果。

在本发明实施例中,通过获得带噪语音信息数据;对于所述带噪语音信息数据进行预处理,获得预处理后的带噪语音信息数据;对所述预处理后的带噪语音信息数据进行小波变换处理,获得小波变换后的带噪语音信息数据;基于所述小波变换后的带噪语音信息数据进行能量熵计算,获得能量熵计算结果;基于所述能量熵计算结果进行能量熵特征矩阵的构建,获得能量熵特征矩阵;将所述能量熵特征矩阵输入预设的深度神经网络模型中进行端点检测识别处理,输出端点检测识别结果。可以实现快速的检测出带噪语音信息数据中的语音段和非语音段,并且具有较高的识别率。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、磁盘或光盘等。

另外,以上对本发明实施例所提供的一种基于深度神经网络模型的带噪语音端点检测方法及装置进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜