基于进阶式的语音深度神经网络训练读方法、装置与流程

2022-03-09 05:07:46 来源：中国专利 TAG：

技术特征：
1.一种基于进阶式的语音深度神经网络训练方法，其特征在于，包括：获取混合语音样本以及目标样本语音，其中，所述混合语音样本包括所述目标语音和噪音语音；将所述混合语音样本输入预设语音深度神经网络模型，得到预测目标语音，其中，所述预设语音神经网络模型包括进阶式提取器、重构器和编码器，所述编码器用于对所述混合语音进行特征提取，得到第一特征，所述进阶式提取器用于根据所述第一特征，计算得到高维映射关系特征，所述重构器用于根据所述高维映射关系特征，得到所述混合语音样本中的预测目标语音；在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件，确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。2.根据权利要求1所述的方法，其特征在于，所述编码器用于对所述混合语音进行特征提取，得到第一特征，包括：将所述混合语音样本输入到所述预设语音深度神经网络模型中，通过所述编码器包括的两层卷积网络、relu激活函数和批归一化处理，得到所述第一特征。3.根据权利要求1所述的方法，其特征在于，所述进阶式提取器用于根据所述第一特征，计算得到高维映射关系特征，包括：在所述进阶式提取器包括多个进阶单元，每个进阶单元包括：延时神经网络、relu激活函数、批归一化处理、时延神经网络、池化层、批归一化处理、图卷积层的情况下；将所述第一特征中的每个元素分别输入对应的进阶单元，得到所述高维映射关系特征。4.根据权利要求3所述的方法，其特征在于，所述将所述第一特征中的每个元素分别输入对应的进阶单元，得到所述高维映射关系特征，包括：在所述第一特征表示为h={h0，
…
，hi，
…
，hm-1}，其中，i=0到m-1，所述进阶单元包括m个，即j={j0，
…
，ji，
…
，jm-1}的情况下；h0输入至第一个进阶单元，得到对应输出p0；h1与p0相加后的结果输入第二进阶单元计算，得到h1位置对应的输出p1；h2与p1相加后输入至第三进阶单元得到h2位置对应的输出p2；每个位置计算以此类推，直到最后的hm-1与pm-2相加得到对应的输出pm-1，得到高维映射关系特征p={p0，
…
，pm-1}。5.根据权利要求4所述的方法，其特征在于，所述重构器用于根据所述高维映射关系特征，得到所述混合语音样本中的预测目标语音，包括：将所述映射关系p输入到所述重构器，经两层卷积网络层、relu激活函数和批归一化处理后，得到所述混合语音样本中的预测目标语音。6.根据权利要求1所述的方法，其特征在于，所述在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件，确定所述预设语音深度神经网络模型为目标语音深度神经网络模型，包括：计算所述目标样本语音和所述预测目标语的等比例不变信噪比，根据所述等比例不变信噪比确定所述损失函数；根据所述损失函数的损失值，通过梯度下降法调整所述预设语音神经网络模型的各参
数的权重和偏置；在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件，确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。7.一种基于进阶式的语音深度神经网络训练装置，其特征在于，包括：获取单元，用于获取混合语音样本以及目标样本语音，其中，所述混合语音样本包括所述目标语音和噪音语音；预测单元，用于将所述混合语音样本输入预设语音深度神经网络模型，得到预测目标语音，其中，所述预设语音神经网络模型包括进阶式提取器、重构器和编码器，所述编码器用于对所述混合语音进行特征提取，得到第一特征，所述进阶式提取器用于根据所述第一特征，计算得到高维映射关系特征，所述重构器用于根据所述高维映射关系特征，得到所述混合语音样本中的预测目标语音；确定单元，用于在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件，确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。8.根据权利要求7所述的装置，其特征在于，所述预测单元，包括：编码模块，用于将所述混合语音样本输入到所述预设语音深度神经网络模型中，通过所述编码器包括的两层卷积网络、relu激活函数和批归一化处理，得到所述第一特征。9.根据权利要求7所述的装置，其特征在于，所述预测单元还用于执行如下操作：在所述进阶式提取器包括多个进阶单元，每个进阶单元包括：延时神经网络、relu激活函数、批归一化处理、时延神经网络、池化层、批归一化处理、图卷积层的情况下；将所述第一特征中的每个元素分别输入对应的进阶单元，得到所述高维映射关系特征。10.根据权利要求9所述的装置，其特征在于，所述预测单元还用于执行如下操作：在所述第一特征表示为h={h0，
…
，hi，
…
，hm-1}，其中，i=0到m-1，所述进阶单元包括m个，即j={j0，
…
，ji，
…
，jm-1}的情况下；h0输入至第一个进阶单元，得到对应输出p0；h1与p0相加后的结果输入第二进阶单元计算，得到h1位置对应的输出p1；h2与p1相加后输入至第三进阶单元得到h2位置对应的输出p2；每个位置计算以此类推，直到最后的hm-1与pm-2相加得到对应的输出pm-1，得到高维映射关系特征p={p0，
…
，pm-1}。11.根据权利要求10所述的装置，其特征在于，所述预测单元还用于执行如下操作：将所述映射关系p输入到所述重构器，经两层卷积网络层、relu激活函数和批归一化处理后，得到所述混合语音样本中的预测目标语音。12.根据权利要求7所述的装置，其特征在于，所述确定单元，包括：计算模块，用于计算所述目标样本语音和所述预测目标语的等比例不变信噪比，根据所述等比例不变信噪比确定所述损失函数；调整模块，用于根据所述损失函数的损失值，通过梯度下降法调整所述预设语音神经网络模型的各参数的权重和偏置；确定模块，用于在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件，确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。

技术总结
本发明公开了一种基于进阶式的语音深度神经网络训练方法、装置、存储介质及电子装置。其中，该基于进阶式的语音深度神经网络训练方法包括：获取混合语音样本以及目标样本语音，其中，混合语音样本包括目标语音和噪音语音；将混合语音样本输入预设语音深度神经网络模型，得到预测目标语音，其中，预设语音神经网络模型包括进阶式提取器、编码器和重构器，确定预设语音深度神经网络模型为目标语音深度神经网络模型，基于本方案中训练的包括进阶式提取器、编码器和重构器的语音深度神经网络，解决了现有技术中，无法有效的从混合语音中分离出目标语音的技术问题。出目标语音的技术问题。出目标语音的技术问题。

技术研发人员：史慧宇欧阳鹏
受保护的技术使用者：北京清微智能信息技术有限公司
技术研发日：2022.02.07
技术公布日：2022/3/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音唤醒方法、装置、电子设备及存储介质与流程

基于进阶式的语音深度神经网络训练读方法、装置与流程

相关文献

最热文献