人声激活检测方法、装置、计算机设备和存储介质与流程

2021-07-13 16:21:00 来源：中国专利 TAG：人声激活检测方法装置语音识别

技术特征：

1.一种人声激活检测方法，其特征在于，包括以下步骤：

实时采集语音数据；所述语音数据包括多帧音频数据；

提取所述语音数据中每一帧音频数据对应的语音特征向量；

依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；

基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。

2.根据权利要求1所述的人声激活检测方法，其特征在于，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；

所述基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声的步骤，包括：

将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算，得到第一中间特征向量；

将所述第一中间特征向量输入至所述第二卷积层进行卷积运算，得到第二中间特征向量；

将所述第二中间特征向量输入至所述第三卷积层进行卷积运算，得到第三中间特征向量；

将所述第三中间特征向量输入至所述分类层中进行分类，得出所述预设帧音频数据中是否包括人声的检测结果。

3.根据权利要求2所述的人声激活检测方法，其特征在于，所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络；其中，所述第一卷积层的dilate＝1，context＝3，所述第二卷积层的dilate＝3，context＝3，所述第三卷积层的dilate＝3，context＝15。

4.根据权利要求1所述的人声激活检测方法，其特征在于，所述实时采集语音数据的步骤之前，还包括：

获取训练数据；所述训练数据包括多帧训练音频，所述训练数据为带噪的音频文件；

提取每一帧训练音频对应的训练特征向量；

依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练，得到所述人声激活检测模型。

5.根据权利要求4所述的人声激活检测方法，其特征在于，所述获取训练数据的步骤，包括：

获取干净的人声语音；其中，所述干净的人声语音为不包括噪声以及混响的语音；

基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧；

将所述干净的人声语音中每个字对应的音频帧标注为第一标签，将其余的音频帧标注为第二标签；

对标注后的所述干净的人声语音进行加噪以及加混响处理，得到所述训练数据。

6.一种人声激活检测装置，其特征在于，包括：

采集单元，用于实时采集语音数据；所述语音数据包括多帧音频数据；

第一提取单元，用于提取所述语音数据中每一帧音频数据对应的语音特征向量；

第一输入单元，用于依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；

检测单元，用于基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。

7.根据权利要求6所述的人声激活检测装置，其特征在于，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；

所述检测单元，具体用于：

将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算，得到第一中间特征向量；

将所述第一中间特征向量输入至所述第二卷积层进行卷积运算，得到第二中间特征向量；

将所述第二中间特征向量输入至所述第三卷积层进行卷积运算，得到第三中间特征向量；

将所述第三中间特征向量输入至所述分类层中进行分类，得出所述预设帧音频数据中是否包括人声的检测结果。

8.根据权利要求6所述的人声激活检测装置，其特征在于，还包括：

获取单元，用于获取训练数据；所述训练数据包括多帧训练音频，所述训练数据为带噪的音频文件；

第二提取单元，用于提取每一帧训练音频对应的训练特征向量；

训练单元，用于依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练，得到所述人声激活检测模型。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。

技术总结
本申请提供一种人声激活检测方法、装置、计算机设备和存储介质，其中方法包括：实时采集语音数据；提取所述语音数据中每一帧音频数据对应的语音特征向量；依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，所述预设的人声激活检测模型基于时延神经网络训练得到，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声，不仅检测速度快，且模型结合了当前帧及其上下文的语音，检测效果好。

技术研发人员：徐泓洋;王广新;杨汉丹
受保护的技术使用者：深圳市友杰智新科技有限公司
技术研发日：2021.04.20
技术公布日：2021.07.13

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频信号处理方法、装置、设备及存储介质与流程

人声激活检测方法、装置、计算机设备和存储介质与流程

相关文章

最热文献