一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音分离方法和系统、电子设备及可读存储介质与流程

2021-09-14 22:51:00 来源:中国专利 TAG:语音 分离 电子设备 可读 方法

技术特征:
1.一种语音分离方法,其特征在于,包括:对输入的多通道语音进行特征提取,得到语音特征;将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音,所述波束集合包括基于麦克风阵列确定的若干个第一波束系数;其中,所述语音分离模型是基于混合语音样本数据、所述波束集合以及预先确定的干净语音标签进行训练后得到。2.根据权利要求1所述的语音分离方法,其特征在于,所述语音分离模型包括分离子模型和注意力选择机制子模型;所述将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音,包括:将所述语音特征输入到分离子模型,得到目标语音的mask;将波束集合和所述目标语音的mask分别输入到注意力选择机制子模型,得到融合后的第二波束系数;基于所述语音特征和所述第二波束系数,得到分离后的语音;其中,所述分离子模型是基于混合语音样本数据以及所述目标语音的mask进行训练后得到;所述注意力选择机制子模型是基于所述分离后的语音、所述波束集合以及预先确定的干净语音标签进行训练后得到。3.根据权利要求2所述的语音分离方法,其特征在于,所述注意力选择机制子模型包括第一映射层和第二映射层;所述将波束集合和所述目标语音的mask分别输入到注意力选择机制子模型,得到融合后的第二波束系数,包括:将所述目标语音的mask输入到所述第一映射层,得到映射后的mask;将所述波束集合输入到所述第二映射层,得到若干个映射后的第一波束系数,其中每一个映射后的第一波束系数与映射后的mask在同一维度;基于每一个映射后的第一波束系数和映射后的mask,进行多类别分类,并基于所得到的各个映射后的第一波束系数的概率值及其所对应的所述若干个第一波束系数,得到融合后的第二波束系数。4.根据权利要求3所述的语音分离方法,其特征在于,所述进行多类别分类包括:按照每一个映射后的第一波束系数作为一个类别进行分类,各个映射后的第一波束系数类别值的概率和为1。5.根据权利要求1所述的语音分离方法,其特征在于,所述将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音之后,还包括:对所述分离后的语音进行滤波处理,得到目标语音。6.根据权利要求1所述的语音分离方法,其特征在于,所述语音分离模型采用以下损失函数进行训练:loss=α*mse(mask

true label) β*si_snr(beam_out

clean)其中,所述mse表示最小均方误差函数,mask表示目标语音的mask,mask的数值介于[0,1],α和β分别是平衡标量,true label表示由混合语音样本数据计算得到的样本mask,si_snr表示尺度不变的信噪比函数,beam_out表示分离后的语音,clean表示预先确定的干净语音标签。
7.一种语音分离系统,其特征在于,包括;语音特征提取模块,用于对输入的多通道语音进行特征提取,得到语音特征;语音分离模块,用于将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音,所述波束集合包括基于麦克风阵列确定的若干个第一波束系数;其中,所述语音分离模型是基于混合语音样本数据、所述波束集合以及预先确定的干净语音标签进行训练后得到。8.根据权利要求7所述的语音分离系统,其特征在于,所述语音分离模型包括分离子模型和注意力选择机制子模型,所述语音分离模块包括:mask确定单元,用于将所述语音特征输入到分离子模型,得到目标语音的mask;第二波束系数确定单元,用于将波束集合和所述目标语音的mask分别输入到注意力选择机制子模型,得到融合后的第二波束系数;分离单元,用于基于所述语音特征和所述第二波束系数,得到分离后的语音;其中,所述分离子模型是基于混合语音样本数据以及所述目标语音的mask进行训练后得到;所述注意力选择机制子模型是基于所述分离后的语音、所述波束集合以及预先确定的干净语音标签进行训练后得到。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的语音分离方法的步骤。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的语音分离方法的步骤。

技术总结
本申请实施例提供一种语音分离方法和系统、电子设备及可读存储介质,其中该方法包括:对输入的多通道语音进行特征提取,得到语音特征;将语音特征和波束集合分别输入到语音分离模型,得到分离后的语音,波束集合包括基于麦克风阵列确定的若干个第一波束系数;其中,语音分离模型是基于混合语音样本数据、波束集合以及预先确定的干净语音标签进行训练后得到。本申请实施例通过对输入的多通道语音进行特征提取,再将语音特征和波束集合分别输入到经过训练后的语音分离模型,得到分离后的语音,训练过程中对第一波束系数进行优化,利用优化后的波束系数以提高性能,可以有效地提高语音分离的效果,保证分离后的语音的质量。保证分离后的语音的质量。保证分离后的语音的质量。


技术研发人员:陈孝良 李智勇
受保护的技术使用者:北京声智科技有限公司
技术研发日:2021.05.27
技术公布日:2021/9/13
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜