农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种语音活性检测方法与流程

2021-06-11 21:44:00 来源：中国专利 TAG：语音活性检测方法检测

本发明属于语音检测技术领域，具体为一种语音活性检测方法。

背景技术：

语音活性检测(voiceactivitydetection,vad)，或端点检测（endpointing），是一项在音频信号中检测区分语音或非语音区段的技术。现实生活中的声音讯号往往夹杂有不同长度的静默语音、环境噪声等非语音信号，随着语音交互界面的广泛普及，作为语音信号处理、语音增强、语音识别、说话人识别等系统的必备前处理模块，语音活性检测模块的性能对下游应用显得益发重要。

传统的语音活性检测一般是基于一段声学信号的短时能量、过零率等时域特征，或频域上的分析，根据预先设定的阈值或经验规则进行判定，这类方法虽然简单，但对超参数设定较为敏感，在信噪比较低的环境下性能也会明显下降。基于统计模型如多元混合高斯模型（gaussianmixturemodel,gmm）的非监督式语音活性检测方法，虽然可以在一定程度上缓解这个问题，但当环境中存在其它非人类语音信号-如音乐等情况时，检测准确率也会有所损失。

技术实现要素：

针对现有方案的不足，本发明公开了一种基于深度学习和神经网络架构，通过训练一个对噪音鲁棒的帧级分类器，以及对语音段的后处理策略，实现对低信噪比和音乐等复杂背景噪声下语音活性的准确和鲁棒检测的语音活性检测方法。

本发明技术方案是：

一种语音活性检测方法，其包括以下步骤：

（1）音频获取：实时获取待检测语音，存储至缓存队列

（2）特征提取：从缓存队列中获取预设时长的音频，进行特征提取，送至神经网络分类器；

（3）帧级检测：由神经网络分类器判定当前帧为有效语音或者非有效语音，神经网络分类器预先通过训练数据学习得到；

（4）音频段后处理：对预设时长内的神经网络输出的帧级预测结果进行后处理，判定当前音频段是否为有效语音；

（5）音频分割及输出：截取当前判断为有效语音的音频段并输出。

优选地，步骤（2）中，对缓存队列中的待检测语音数据进行分帧处理，基于快速傅立叶变换法提取短时声学特征，得到逐帧语音特征后进行拼接和归一化处理，将该预设时长内的特征作为输入传入神经网络分类器模块进行判定。

优选地，步骤（3）中，判定方法为计算当前输入音频帧为有效语音或者非有效语音的得分，与预先设定的阈值进行比较得到当前语音帧的帧级判定结果

优选地，所述的神经网络分类器为基于卷积神经网络的特征表示层、单向或双向长短时记忆层、全连接层和输出层组成的架构，输出层包含两个节点，分别对应当前语音帧为有效语音或者非有效语音的后验概率。

优选地，所述的神经网络分类器的训练过程包括以下步骤：

（3.1）通过语音识别系统，获取训练数据所对应的帧级别的对齐信息，即有效语音或非有效语音标注，作为训练数据使用；

（3.2）训练时，将干净的语音数据、以及添加了不同程度噪音或者音乐背景的合成数据同时作为输入，提取对应的声学特征、并进行时域或者频域上的掩蔽处理后送入神经网络；

（3.3）使用每帧特征和其对应的标注，通过交叉熵损失函数进行监督式学习。

优选地，步骤（4）中，对神经网络输出的帧级预测结果进行平滑处理，减小相邻帧预测结果的波动；采用预设时长的移动窗对平滑后的结果进行整体判定，当当前预设时长内的有效语音帧占比超过设定阈值时，则判定该音频区段为有效语音，缓存至输出队列。

优选地，所述的非有效语音包括静音和噪音。

本发明的有益效果是：

1、本发明基于深度学习和神经网络架构，通过训练一个对噪音鲁棒的帧级分类器，以及对语音段的后处理策略，实现对低信噪比和音乐等复杂背景噪声下语音活性的准确和鲁棒检测，从而达到节约下游任务计算资源、提升响应时间以及系统性能的整体效果。

2、本发明基于卷积神经网络进行声学特征表示，可更好利用语音的频域及时域特征。

3、本发明基于双向长短时记忆神经网络，可以更好利用当前语音帧附近上下文隐藏的时序信息，降低连续语音帧中间插入非语音帧的判定错误率。

4、本发明结合训练方法，可使得帧级别的分类准确率得到有效的提升。

5、本发明结合卷积神经网络和双向长短时神经网络，在提升性能的同时，保持了模型的轻量化，不会大幅增加延迟时间或计算资源的耗费。

附图说明

图1为本发明方法流程图。

图2为本发明方法中神经网络训练分类器训练流程图。

具体实施方式

为进一步了解本发明的内容，结合实施例对本发明作详细描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例涉及一种语音活性检测方法，包括以下步骤

（1）音频获取：实时获取待处理音频，并将其缓存至队列进行后续处理；

（2）特征提取：对缓存队列中一定预设时长的待检测语音数据进行分帧处理，并基于快速傅立叶变换等方法提取短时声学特征，得到逐帧语音特征后进行拼接和归一化等处理，将该预设时长内的特征作为输入传入神经网络分类器模块进行判定；

（3）帧级检测：

将预设时长内处理好的特征输入至预先训练好的神经网络模型中进行预测，具体地，计算当前输入音频帧为有效语音或者非有效语音的得分，与预先设定的阈值，阈值可根据具体场景和应用进行调整，进行比较得到当前语音帧的帧级判定结果，送入后处理模块，非有效语音包括静音和噪音。

其中，神经网络分类器为基于卷积神经网络的特征表示层、单向或双向长短时记忆层、全连接层和输出层组成的架构。输出层包含两个节点，分别对应当前语音帧为语音或者非语音的后验概率。

该分类器是预先通过训练数据学习得到的，训练流程如图2所示。首先通过已有的语音识别系统，获取训练数据所对应的帧级别的对齐信息，即语音或非语音标注，作为训练数据使用。训练时，将干净的语音数据、以及添加了不同程度噪音或者音乐等背景的合成数据同时作为输入，提取对应的声学特征、并进行时域或者频域上的一定掩蔽处理后送入神经网络，使用每帧特征和其对应的标注，通过交叉熵损失函数进行监督式学习。

（4）帧级检测后处理：

对神经网络输出的帧级预测结果进行平滑处理，以减小相邻帧预测结果的波动；采用预设时长的移动窗对平滑后的结果进行整体判定，当当前预设时长内的有效语音帧占比超过设定阈值时，则判定该音频区段为有效语音，缓存至输出队列。

（5）音频分割及输出：

将判定为有效语音区段的音频输出，根据具体应用，保存分割后的语音区段或传输给下游任务，如语音识别、话者分离等模块。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方案，实际的结构并不局限于此。所以本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

技术特征：

1.一种语音活性检测方法，其特征在于，其包括以下步骤：（1）音频获取：实时获取待检测语音，存储至缓存队列（2）特征提取：从缓存队列中获取预设时长的音频，进行特征提取，送至神经网络分类器；（3）帧级检测：由神经网络分类器判定当前帧为有效语音或者非有效语音，神经网络分类器预先通过训练数据学习得到；（4）音频段后处理：对预设时长内的神经网络输出的帧级预测结果进行后处理，判定当前音频段是否为有效语音；（5）音频分割及输出：截取当前判断为有效语音的音频段并输出。

2.根据权利要求1所述的语音活性检测方法，其特征在于，步骤（2）中，对缓存队列中的待检测语音数据进行分帧处理，基于快速傅立叶变换法提取短时声学特征，得到逐帧语音特征后进行拼接和归一化处理，将该预设时长内的特征作为输入传入神经网络分类器模块进行判定。

3.根据权利要求1所述的语音活性检测方法，其特征在于，步骤（3）中，判定方法为计算当前输入音频帧为有效语音或者非有效语音的得分，与预先设定的阈值进行比较得到当前语音帧的帧级判定结果。

4.根据权利要求1所述的语音活性检测方法，其特征在于，所述的神经网络分类器为基于卷积神经网络的特征表示层、单向或双向长短时记忆层、全连接层和输出层组成的架构，输出层包含两个节点，分别对应当前语音帧为有效语音或者非有效语音的后验概率。

5.根据权利要求1所述的语音活性检测方法，其特征在于，所述的神经网络分类器的训练过程包括以下步骤：（3.1）通过语音识别系统，获取训练数据所对应的帧级别的对齐信息，即有效语音或非有效语音标注，作为训练数据使用；

（3.2）训练时，将干净的语音数据、以及添加了不同程度噪音或者音乐背景的合成数据同时作为输入，提取对应的声学特征、并进行时域或者频域上的掩蔽处理后送入神经网络；

（3.3）使用每帧特征和其对应的标注，通过交叉熵损失函数进行监督式学习。

6.根据权利要求1所述的语音活性检测方法，其特征在于，步骤（4）中，对神经网络输出的帧级预测结果进行平滑处理，减小相邻帧预测结果的波动；采用预设时长的移动窗对平滑后的结果进行整体判定，当当前预设时长内的有效语音帧占比超过设定阈值时，则判定该音频区段为有效语音，缓存至输出队列。

7.根据权利要求1所述的语音活性检测方法，其特征在于，所述的非有效语音包括静音和噪音。

技术总结
本发明涉及一种语音活性检测方法，包括以下步骤：（1）实时获取待检测语音；（2）从缓存队列中获取预设时长的音频，进行特征提取，送至神经网络分类器；（3）由神经网络分类器判定当前帧为有效语音或者非有效语音（4）对预设时长内的神经网络输出的帧级预测结果进行后处理，判定当前音频段是否为有效语音；（5）截取当前判断为有效语音的音频段并输出。本发明基于深度学习和神经网络架构，通过训练一个对噪音鲁棒的帧级分类器，以及对语音段的后处理策略，实现对低信噪比和音乐等复杂背景噪声下语音活性的准确和鲁棒检测，从而达到节约下游任务计算资源、提升响应时间以及系统性能的整体效果。

技术研发人员：郑文露
受保护的技术使用者：浙江百应科技有限公司
技术研发日：2021.04.14
技术公布日：2021.06.11

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：模型训练、语音识别方法及装置、电子设备及存储介质与流程

一种语音活性检测方法与流程

相关文章

最热文献