技术特征:
1.一种语音数据的处理方法,其特征在于,包括:
对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单元上噪声能量大于原始语音能量;
根据所述目标时频单元的语音上下文,对所述目标语音数据进行语音补全和语音增强,获得所述语音数据中的原始语音。
2.如权利要求1所述的方法,其特征在于,对语音数据进行噪音检测并将检测出的目标时频单元置零,包括:
通过预先训练好的理想二值掩蔽网络对所述语音数据进行噪音检测并将所述目标时频单元置零,获得所述目标语音数据。
3.如权利要求2所述的方法,其特征在于,在获得所述目标语音数据之后,所述方法还包括:
判断所述目标语音数据中连续为零的时频单元与所述语音数据中总的时频单元之间的比值是否小于设定阈值;
若所述连续为零的时频单元与所述总的时频单元之间的比值小于设定阈值,执行所述对所述目标语音数据进行语音补全和语音增强的操作,以获得所述原始语音。
4.如权利要求1所述的方法,其特征在于,根据所述目标时频单元的语音上下文,对所述目标语音进行语音补全和语音增强,获得所述语音数据中的原始语音,包括:
基于深度卷积神经网络的语谱生成模型捕捉所述语音上下文,并根据所述语音上下文对所述目标语音数据频域上的所述目标时频单元进行语音补全;
对所述目标语音数据中包含弱平稳噪声的时频单元进行语音增强,获取所述语音补全和所述语音增强后的数据作为所述原始语音,其中,所述弱平稳噪声为能量小于原始语音能量的噪声。
5.一种语音数据的处理装置,其特征在于,包括:
检测单元,用于对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单元上噪声能量大于原始语音能量;
恢复单元,用于根据所述目标时频单元的语音上下文,对所述目标语音数据进行语音补全和语音增强,获得所述语音数据中的原始语音。
6.如权利要求5所述的装置,其特征在于,所述检测单元用于:
通过预先训练好的理想二值掩蔽网络对所述语音数据进行噪音检测并将所述目标时频单元置零,获得所述目标语音数据。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
判断单元,用于在获得所述目标语音数据之后,判断所述目标语音数据中连续为零的时频单元与所述语音数据中总的时频单元之间的比值是否小于设定阈值;
若所述连续为零的时频单元与所述总的时频单元之间的比值小于设定阈值,执行所述对所述目标语音数据进行语音补全和语音增强的操作,以获得所述原始语音。
8.如权利要求5所述的装置,其特征在于,所述恢复单元用于:
基于深度卷积神经网络的语谱生成模型捕捉所述语音上下文,并根据所述语音上下文对所述目标语音数据频域上的所述目标时频单元进行语音补全;
对所述目标语音数据中包含弱平稳噪声的时频单元进行语音增强,获取所述语音补全和所述语音增强后的数据作为所述原始语音,其中,所述弱平稳噪声为能量小于原始语音能量的噪声。
9.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如权利要求1~4任一所述方法对应的操作指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~4任一所述方法对应的步骤。
技术总结
本发明公开了一种语音数据的处理方法、装置及电子设备,该方法包括:对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单元上噪声能量大于原始语音能量;根据所述目标时频单元的语音上下文,对所述目标语音数据进行语音补全和语音增强,获得所述语音数据中的原始语音。通过去除噪声主导的目标时频单元之后不仅降低了语音增强的难度,还避免了这部分时频单元对语音增强的副作用,使整个语谱上原始语音占据主导,数据的分布趋于稳定一致,由此进行语音补全和语音增强,大大提高了语音增强的质量。
技术研发人员:文仕学;郝翔;潘逸倩
受保护的技术使用者:北京搜狗科技发展有限公司
技术研发日:2019.12.17
技术公布日:2021.07.06
本文用于企业家、创业者技术爱好者查询,结果仅供参考。