一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音增强方法、装置、计算机设备及存储介质与流程

2022-07-22 22:46:52 来源:中国专利 TAG:


1.本技术涉及音频处理技术领域,更具体地,涉及一种语音增强方法、装置、计算机设备及存储介质。


背景技术:

2.目前,深度学习开始被应用于语音增强技术中。深度学习对语音数据进行处理,可以有效地应对突发的瞬态噪声,相较于传统的信号处理算法,经过增强后的语音数据,其清晰度和可懂度都有较大的提升,但神经网络对语音数据的增强往往是对语音全局的增益,这可能会对语音中的部分有效数据进行过度的抑制。


技术实现要素:

3.鉴于上述问题,本技术提出了一种语音增强方法、装置、计算机设备及存储介质,以实现对语音数据的动态增强。
4.第一方面,本技术实施例提供了一种语音增强方法,所述方法包括:获取语音数据;基于预先训练的语音增强模型,获取所述语音数据的人声检测结果、信噪比检测结果以及语音增益参数,所述人声检测结果用于表征所述语音数据中人声部分对应的数据,所述信噪比检测结果用于表征所述语音数据对应的信噪比,所述语音增益参数用于对所述语音数据进行增强;基于所述人声检测结果以及所述信噪比检测结果,调整所述语音增益参数;基于调整后的所述语音增益参数对所述语音数据进行增强处理,获得增强后的语音数据。
5.第二方面,本技术实施例提供了一种语音增强装置,所述装置包括:语音获取模块、数据获取模块、增益调整模块以及语音增强模块。其中,所述语音获得模块用于获取语音数据;所述数据获取模块用于基于预先训练的语音增强模型,获取所述语音数据的人声检测结果、信噪比检测结果以及语音增益参数,所述人声检测结果用于表征所述语音数据中人声部分对应的数据,所述信噪比检测结果用于表征所述语音数据对应的信噪比,所述语音增益参数用于对所述语音数据进行增强;所述增益调整模块用于基于所述人声检测结果以及所述信噪比检测结果,调整所述语音增益参数;所述语音增强模块用于基于调整后的所述语音增益参数对所述语音数据进行增强处理,获得增强后的语音数据。
6.第三方面,本技术实施例提供了一种计算机设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述第一方面提供的语音增强方法。
7.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的语音增强方法。
8.本技术提供的方案,通过获取语音数据,基于预先训练的语音增强模型,获取语音数据的人声检测结果、信噪比检测结果以及语音增益参数,基于人声检测结果以及信噪比
检测结果,调整语音增益参数,基于调整后的语音增益参数对语音数据进行增强处理,获得增强后的语音数据。该方法可以通过针对语音数据动态调整增益参数,实现对语音数据中噪声的抑制,提升语音数据的清晰度和可懂度。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
10.图1示出了本技术一个实施例提供的语音增强方法的流程示意图。
11.图2示出了本技术另一个实施例提供的语音增强方法的流程示意图。
12.图3示出了本技术另一个实施例中步骤s230的具体流程示意图。
13.图4示出了本技术又一个实施例提供的语音增强方法的流程示意图。
14.图5示出了本技术又一个实施例中步骤s310的具体流程示意图。
15.图6示出了本技术又一个实施例中步骤s320的具体流程示意图。
16.图7示出了本技术又一个实施例中步骤s323的具体流程示意图。
17.图8其示出了本技术实施例提供的一种语音增强装置的结构框图。
18.图9示出了本技术实施例提供的一种计算机设备的结构框图。
19.图10示出了本技术实施例提供的计算机可读存储介质的结构框图。
具体实施方式
20.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
21.神经网络应常被应用于对音频数据的处理,通过对语音数据进行增强,实现对语音数据中噪声的抑制效果,提升语音数据的清晰度。但神经网络对语音数据的调整往往是一个全局的调整,可能会出现在抑制语音数据中的噪声的同时,也将语音数据中的有效人声也一起抑制。
22.针对上述问题,发明人提出了本技术实施例提供的语音增强方法、装置、计算机设备以及存储介质,实现对语音数据的增益参数进行动态调整。其中,具体的语音增强方法在后续的实施例中进行详细的说明。
23.下面将结合附图具体描述本技术实施例提供的语音增强方法。
24.请参阅图1,图1示出了本技术一个实施例提供的语音增强方法的流程示意图。下面将针对图1所示流程进行详细阐述,所述语音增强方法具体可以包括以下步骤:
25.步骤s110:获取语音数据。
26.在本技术实施例中,计算机设备可以获取需要进行语音增强的语音数据,用以基于语音增强模型获取的增益值对语音数据进行增强,实现对语音数据中噪声的抑制,提升语音数据的清晰度。可以理解,人们在通过设备录音或者进行通话的过程中,相关设备可能不仅收录包含有用信息的人声数据,还可以将周围环境中存在的杂声一并收录,因此需要对获取的语音数据进行降噪等处理,用以抑制语音数据中的噪声,放大语音数据中的人声。
27.在一些实施方式中,计算机设备为更加准确地得到语音数据对应的增益参数,可以对预先获取的语音数据进行处理,使其符合语音增强模型的输入条件,用以更方便地对语音数据进行增强。如计算机设备可以在获取语音数据后,将其经过快速傅里叶变换得到其对应的复频谱,进而对该复频谱提取幅值得到对应的幅度谱。
28.可以理解,计算机设备获取的语音数据是时间域内的连续数据,将其经过快速傅里叶变换后得到其在频域对应的复频谱,该复频谱是一个表征频率与幅度之间关系的函数。复频谱在每一个频率点的取值是一个复数,而复数可以由模和辐角唯一地确定,所以可以将复频谱分解为幅度谱以及相位谱。其中幅度谱可以作为语音增强模型的输入,得到语音数据对应的增益参数后,可以基于增益参数对幅度谱进行增强处理,将增强后的幅度谱重新与相位谱结合得到增强后的复频谱,进而得到增强后的语音数据,由此可以实现对语音数据中噪声的抑制。
29.在一些实施方式中,计算机设备可以为智能手机、平板电脑、智能手表等设置有录音设备的移动终端,计算机设备可以通过录音设备获取语音数据。
30.在另一些实施方式中,计算机设备可以从本地获取语音数据,即从本地存储的文件中获取语音数据,如,计算机设备为移动终端时,可以从录音文件夹中获取存储在本地的语音数据,或者预先从网络下载语音数据后存储在本地文件夹中,在需要对语音数据进行处理时,从相应文件夹中读取语音数据。
31.在又一些实施方式中,计算机设备为电脑或移动终端时,还可以从网络下载语音数据,如计算机设备可以通过无线网络、数据网络等从相应的服务器中下载需求的语音数据。
32.在再一些实施方式中,计算机设备还可以通过用户在其他设备中的输入操作,对输入的语音数据进行接收,从而获取语音数据。
33.其中,计算机设备具体获取语音数据的方式可以不做限定。
34.步骤s120:基于预先训练的语音增强模型,获取所述语音数据的人声检测结果、信噪比检测结果以及语音增益参数,所述人声检测结果用于表征所述语音数据中人声部分对应的数据,所述信噪比检测结果用于表征所述语音数据对应的信噪比,所述语音增益参数用于对所述语音数据进行增强。
35.在本技术实施例中,计算机设备在获取语音数据后,可以将语音数据输入至预先训练的语音增强模型,得到语音数据对应的人声检测结果、信噪比检测结果以及语音增益参数。用以计算机设备基于获取的上述参数对语音数据进行增强调整。
36.可以理解,语音增强模型基于输入的语音数据,生成的人声检测结果、信噪比检测结果以及语音增益参数,可以是对语音数据中的每一帧数据均生成对应的人声检测结果、信噪比检测结果以及语音增益参数。即语音数据可以按照其时间顺序依次将每一帧数据输入语音增强模型,而语音增强模型也可以基于每一帧输入的语音数据,实时生成相应的人声检测结果、信噪比检测结果以及语音增益参数。最终也可以得到语音数据整体对应的人声检测结果、信噪比检测结果以及语音增益参数。
37.在一些实施方式中,语音增强模型生成的语音数据对应的人声检测结果,可以用于表征该语音数据中人声部分对应的数据。就语音数据整体而言,人声检测结果可以表示语音数据中存在人声的部分数据段以及不存在人声的部分数据段。就每一帧语音数据而
言,其对应的人声检测结果可以表征该帧数据中是否存在人声,例如:若该帧数据中存在人声,则语音增强模型可以将人声检测结果标示为“1”,若不存在人声,则将人声检测结果标示为“0”。每一帧语音数据对应的人声检测结果可以形成语音数据整体的人声检测结果。例如:将每一帧语音数据对应的人声检测结果作为元素形成一个向量,若语音数据中包括200帧数据,则该语音数据对应的人声检测结果可以为一个包含200个元素的向量。
38.在一些实施方式中,语音增强模型生成的信噪比检测结果可以用于表征语音数据对应的信噪比,即语音数据中信号强度与噪声强度之间的比例。就语音数据整体而言,信噪比检测结果可以表征语音数据中人声信号的强度与噪声信号强度之间的比例。就每一帧语音数据而言,其对应的信噪比检测结果可以用于表征这一帧数据中人声与噪声的比值,可以理解,若信噪比越大,该帧语音数据中包括的噪声强度越小。与人声检测结果相似,语音数据整体对应的信噪比检测结果也可以由每一帧语音数据对应的信噪比检测结果组成。
39.步骤s130:基于所述人声检测结果以及所述信噪比检测结果,调整所述语音增益参数。
40.在本技术实施例中,计算机设备在基于语义增强模型获取语义数据对应的人声检测结果、信噪比检测结果以及语义增益参数后,可以基于人声检测结果以及信噪比检测结果,调整语音增益参数。用以基于语义增益参数对语音数据进行增强,实现降噪的效果。可以理解,人声检测结果用于表征语音数据中是否存在人声,计算机设备可以基于人声检测结果将语音数据中的人声段与非人声段分离开,用以适当降低语音数据中人声段对应的语音增益参数,以避免对有效人声进行抑制;而信噪比检测结果用于表征语音数据对应的信噪比,计算机设备可以基于信噪比检测结果获取语音数据中噪声强度较大的部分,即信噪比较低的部分数据段,用以增大这部分对应的语音增益参数,以实现对语音数据降噪的效果。
41.步骤s140:基于调整后的所述语音增益参数对所述语音数据进行增强处理,获得增强后的语音数据。
42.在本技术实施例中,计算机设备在基于人声检测结果以及信噪比检测结果对语音增益参数进行调整后,可以基于语音增益参数对语音数据进行增强处理。具体来说,计算机设备获取的语音增益参数可以是一个矩阵,基于语音增益参数对幅度谱进行增强,即将该矩阵与语音数据对应的幅度谱进行卷积操作,可以得到增强后的幅度谱,其后可以将增强后的幅度谱与语音数据对应的相位谱进行结合,得到语音数据增强后的复频谱,再通过逆傅里叶变换,由此得到增强后的语音数据。可以理解,语音增益参数可以包括语音数据中每一帧数据对应的语音增益参数,计算机设备基于每一帧数据在语音增益参数矩阵中对应的元素,对每一帧数据进行增强。进而实现对语音数据整体的增强调整,以及对语音数据部分之间的不同调整。
43.本技术实施例提供的语音增强方法,通过获取语音数据,基于预先训练的语音增强模型,获取语音数据的人声检测结果、信噪比检测结果以及语音增益参数,基于人声检测结果以及信噪比检测结果,调整语音增益参数,基于调整后的语音增益参数对语音数据进行增强处理,获得增强后的语音数据。实现了针对语音数据动态调整增益参数,从而对语音数据的自适应的语音增强,进而避免抑制语音数据中的有效人声,也抑制了语音数据中的噪声,提升了语音数据的清晰度和可懂度。
44.请参阅图2,图2示出了本技术另一个实施例提供的语音增强方法的流程示意图。下面将针对图2所示流程进行详细阐述,所述语音增强方法具体可以包括以下步骤:
45.步骤s210:获取语音数据。
46.步骤s220:基于预先训练的语音增强模型,获取所述语音数据的人声检测结果、信噪比检测结果以及语音增益参数,所述人声检测结果用于表征所述语音数据中人声部分对应的数据,所述信噪比检测结果用于表征所述语音数据对应的信噪比,所述语音增益参数用于对所述语音数据进行增强。
47.在本技术实施例中,步骤s210以及步骤s220可以参阅其他实施例的内容,在此不再赘述。
48.步骤s230:基于所述人声检测结果以及所述信噪比检测结果,确定所述语音数据中的第一数据以及第二数据,所述第一数据为人声占比大于预设比例的数据,所述第二数据为所述语音数据中除所述第一数据以外的数据。
49.本技术实施例中,计算机设备在通过语音增强模型获取语音数据对应的人声检测结果、信噪比检测结果以及语音增益参数后,可以基于人声检测结果以及信噪比检测结果,将语音数据中的人声占比大于预设比例的数据作为第一数据,将语音数据中除第一数据以外的数据作为第二数据。可以理解,计算机设备将语音数据分为第一数据以及第二数据,是基于语音数据中的人声占比来确定的。其中第一数据中的人声占比大于预设比例,则计算机设备可以将第一数据视为有效的人声数据段,当然第一数据中也可以包括噪声,但显然其中的人声部分更多。第二数据中也可以包括人声,但其中包含的噪声部分更多。计算机设备将语音数据分为第一数据以及第二数据,用以根据第一数据以及第二数据中包括的主要部分的不同,分别对其语音增益参数进行不同的调整,以实现对语音数据的动态调整,适应不同的使用场景。
50.在一些实施方式中,如图3所示,步骤s230中确定语音数据中的第一数据以及第二数据,可以包括以下几个步骤:
51.步骤s231:基于所述人声检测结果,确定所述语音数据中人声部分对应的数据,作为第三数据。
52.本技术实施例中,计算机设备在获取语音数据对应的人声检测结果以及信噪比检测结果后,可以基于人声检测结果,将语音数据分为人声部分以及非人声部分,并将人声部分的数据作为第三数据。可以理解,人声检测结果用于表征语音数据中是否存在人声,但由于语音数据中可能混有噪声,且噪声的强弱并不能确定,因此不能直接将第三数据对应的语音增益参数降低。例如:第三数据中存在一段数据,该段数据中存在人声但其对应的信噪比很低,表明该段数据中虽然有人声,但噪声强度很大,此时就需要计算机设备增大该段数据对应的语音增益参数,用以对该段数据中的噪声进行抑制。
53.在一些实施方式中,语音增强模型输出的人声检测结果,可以是一个表征语音数据中存在人声的概率的向量,向量中的每个元素可以表征语音数据中的对应帧中存在人声的概率。即在“0-1”的概率范围内,若向量中任意一个元素的大小为“0.8”,则表明该元素对应的一帧语音数据中有0.8的概率存在人声。计算机设备在获取语音数据对应的人声检测结果,即该概率向量后,可以根据预先设定的概率标准,将人声检测结果分为人声段以及非人声段,即人声段中的每一帧对应的存在人声的概率均大于预先设定的概率标准,而非人
声段中的每一帧对应的存在人声的概率均小于或等于预先设定的概率标准。
54.步骤s232:基于所述信噪比检测结果,从所述第三数据中确定出信噪比大于预设信噪比的数据,作为所述第一数据,所述预设信噪比基于所述预设比例设置。
55.在本技术实施例中,计算机设备可以适当降低第一数据对应的语音增益参数,是由于第一数据中均存在有效的人声数据,且第一数据中的噪声强度都较低,即可以认为第一数据中的语音数据都是较为清晰的人声,此时对第一数据的抑制程度就可以降低,以避免抑制第一数据中的有效人声。而计算机设备获取第一数据的方法,可以是通过在第三数据中选取噪声强度较弱的部分得到。由信噪比的概念可以知道,信噪比越大,语音数据对应的噪声强度越弱,反之则噪声强度较强。因此计算机设备可以基于语音数据对应的信噪比检测结果,确定语音数据中的噪声强弱,进而在第三数据中选取信噪比大于预设信噪比的数据,作为第一数据。此时第一数据不仅包括有效的人声数据,而且对应的信噪比也较大,噪声的强度较弱。
56.在一些实施方式中,语音增强模型输出的信噪比检测结果,可以是对语音数据中对应的信噪比的预测结果。信噪比检测结果可以是一个预测的信噪比向量,其中向量的每一个元素对应于语音数据中的一帧数据对应的信噪比。
57.步骤s233:从所述语音数据中获取除所述第一数据以外的数据,作为所述第二数据。
58.在本技术实施例中,计算机设备在获取第一数据后,可以将语音数据中除第一数据以外的数据均作为第二数据,因此第二数据中可以包括部分存在人声数据但噪声强度较强的数据段,这部分数据由于其信噪比过低,噪声强度过强,需要对其进行抑制,即增大其对应的语音增益参数。第二数据中也可以包括部分不存在人声数据只有噪声的数据,这部分数据由于不含人声数据也可以增大其对应的语音增益参数,以使其中包含的噪声数据进一步被抑制。
59.步骤s240:降低所述第一数据对应的所述语音增益参数,以及提升所述第二数据对应的所述语音增益参数。
60.在本技术实施例中,由上述分析可知,第一数据中的人声较强且噪声较弱,是比较清晰的语音数据,因此,计算机设备可以适当降低第一数据对应的语音增益参数,以避免对其中的有效人声产生抑制,还可以适当提升第二数据对应的语音增益参数。其中,对于第一数据中每一帧数据对应的语音增益参数的降低幅度,以及对第二数据中每一帧数据对应的语音增益参数的提升幅度,可以基于每一帧数据对应的不同的人声检测结果以及信噪比检测结果确定,也可以基于人工经验手动调节,在此不做限定。
61.步骤s250:基于调整后的所述语音增益参数对所述语音数据进行增强处理,获得增强后的语音数据。
62.在本技术实施例中,步骤s250可以参阅其他实施例的内容,在此不再赘述。
63.本技术实施例提供的语音增强方法,将语音数据输入预先训练的语音增强模型,通过语音增强模型输出的人声检测结果,确定语音数据中的人声部分作为第三数据;通过语音增强模型输出的信噪比检测结果,从第三数据中确定出信噪比大于预设信噪比的数据作为第一数据;将语音数据中除第一数据以外的数据作为第二数据;降低第一数据对应的语音增益参数,提升第二数据对应的语音增益参数,进而基于调整后的语音增益参数对语
音数据进行增强处理,获得增强后的语音数据。通过对语音数据中有效人声段以及无效噪声段之间不同的语音增益参数的调整,实现了对语音数据的动态调整,提升了语音数据的清晰度和可懂度。
64.请参阅图4,图4示出了本技术又一个实施例提供的语音增强方法的流程示意图。下面将针对图4所示流程进行详细阐述,所述语音增强方法具体可以包括以下步骤:
65.步骤s310:获取所述样本语音集合,所述样本语音集合包括多段混噪语音,每段所述混噪语音被标注有人声标签以及信噪比标签,所述每段混噪语音由干净语音样本以及噪声样本进行混噪得到,所述人声标签用于表征所述混噪语音中人声部分对应的数据,所述信噪比标签用于表征所述混噪语音对应的信噪比。
66.针对前述实施例中的语音增强模型,本技术实施例中还包括对该语音增强模型的训练方法,值得说明的是,对语音增强模型的训练可以是根据获取的训练数据集合预先进行的,后续在每次需要获取语音数据对应的语音增益参数时,可以利用训练得到的语音增强模型进行,而无需每次在需要获取语音数据对应的语音增益参数时,对语音增强模型进行训练。在本技术实施例中,将对语音增强模型的训练过程进行说明。
67.在本技术实施例中,样本语音集合可以包括多段混噪语音,每段混噪语音中都包括有效的人声数据以及噪声数据,用以对初始增强模型进行训练,以得到语音增强模型。其中,混噪语音被标注有人声标签,用以表征语音数据中的人声部分对应的数据以及非人声部分对应的数据,如可以将混噪语音中人声部分的数据标注上“1”的标签,将混噪语音中非人声部分的数据标注上“0”的标签,可以理解,标签的作用仅仅是为区分人声部分数据以及非人声部分数据。混噪语音中还被标注有信噪比标签,用于表征混噪语音对应的信噪比。信噪比是指信号与噪声强度之间的比例,混噪语音对应的信噪比可以表示该混噪语音中噪声的强度。可以理解,若混噪语音对应的信噪比越低,该语音中包括的噪声越强,反之则噪声弱。基于混噪语音对初始增强模型进行训练,可以提升模型生成的语音增益参数的准确性。
68.在一些实施方式中,在对混噪语音进行标签标注时,可以基于每段混噪语音中的每一帧数据进行标注,即每段混噪语音对应的每一帧数据,均具有其对应的人声标签以及信噪比标签,用以标注该帧数据中是否存在人声以及该帧数据对应的信噪比。
69.在一些实施方式中,如图5所示,步骤s310可以包括以下几个步骤:
70.步骤s311:获取多个干净语音样本以及多个噪声样本。
71.在本技术实施方式中,样本语音集合中的混噪语音可以是基于干净语音样本以及噪声样本混合得到的。通过混合得到的混噪语音不仅可以使混噪语音对应的人声标签以及信噪比标签更加准确,还根据不同的模型需求,混噪出不同比例的语音数据,以使初始增强模型训练出不同的效果。
72.步骤s312:获取对所述干净语音中的人声段以及非人声段进行标注的人声标签。
73.在本技术实施方式中,由于对初始增强模型进行训练的混噪语音需要具有人声标签以及信噪比标签使模型训练准确,因此混噪语音中的人声标签以及信噪比标签需要标注准确,以避免模型训练出错。为使混噪语音中的人声标签的标注准确,可以通过在干净语音中的人声段以及非人声段进行标注,由于干净语音中不存在噪声,因此对干净语音中的人声段以及非人声段的划分会更加准确,进而使由干净语音得到的混噪语音中的人声标签相应的准确。
74.在一些实施方式中,可以通过语音活动检测(voice activity detection,vad)工具对干净语音中的有效语音进行判断,可以将干净语音中的人声段标注标签为“1”,对干净语音中的非人声段标注标签为“0”,由此在基于干净语音获得的混噪语音中也带有相应的标签,用于标识出混噪语音中的人声段以及非人声段。
75.步骤s313:将所述干净语音以及噪声按照不同的信噪比进行混合,得到多段所述混噪语音。
76.在本技术实施方式中,样本语音集合中的多段混噪语音,需要具有不同的信噪比,以使训练后的模型应用更广泛,而基于样本语音集合对初始增强模型进行训练时,需要基于混噪语音对应的信噪比确定对初始增强模型的训练是否正确,因此,混噪语音对应的信噪比的正确性直接影响对初始增强模型的训练的准确性。因此,可以通过将干净语音和噪声数据按照不同的预设信噪比进行混合,可以得到信噪比可控的多段混噪语音,基于这些混噪语音训练得到的模型也可以具有更高的准确性和更广的应用范围。
77.步骤s314:基于混合每段所述混噪语音时采用的信噪比,对每段所述混噪语音标注信噪比标签,以及基于所述干净语音的人声标签对每段所述混噪语音标注人声标签,得到所述样本语音集合。
78.在本技术实施方式中,在将干净语音与噪声进行混合时,可以记录混合时的信噪比,并将其作为混噪语音对应的信噪比标签。同时通过对干净语音中的人声段以及非人声段进行标注,即在干净语音中标注人声标签,可以使基于该段干净语音与噪声混合得到的多段混噪语音,也具有相应的人声标签。
79.在一些实施方式中,步骤s314中对每段混噪语音标注上信噪比标签以及人声标签后,还可以有下面的步骤:
80.步骤s3141:对所述多段混噪语音中的部分混噪语音进行混响处理,将混响处理后的混噪语音加入所述样本语音集合。
81.在本技术实施方式中,在获取混噪语音后,可以在多段混噪语音中选取部分混噪语音进行混响处理,将混响后的语音数据再次添加进样本语音集合,由此样本语音集合中不仅包括混噪语音,还包括部分的混响语音,扩充了样本语音集合中用于训练模型的语音数据,同时基于此时的样本语音集合对初始增强模型进行训练,还可以使模型具有一定的抑制混响的能力。
82.在一些实施方式中,可以按照预设概率,在多段混噪语音中随机选取一定数量的混噪语音,通过混响混叠工具,对这些混噪语音中加入一定程度的混响,其中所加入的混响的程度可以随机选取。
83.步骤s320:根据所述样本语音集合,以及所述混噪语音对应的干净语音样本和噪声样本,对初始增强模型进行训练,直到初始增强模型满足预设条件,得到训练后的语音增强模型。
84.在本技术实施方式中,在获取包括多段混噪语音的样本语音集合后,可以基于混噪语音对初始增强模型进行训练,用以在训练完成后获得语音增强模型。其中预设条件用于判断初始增强模型是否能够准确地得到输入的语音数据对应的语音增益参数,若初始增强模型满足预设条件,则表明此时该模型已经能够准确输出语音数据对应的语音增益参数,由此可以将该初始增强模型作为成熟的语音增强模型使用。
85.在一些实施方式中,如图6所示,初始增强模型包括第一输入模块、第一输出模块、第二输出模块以及第三输出模块,步骤s320中可以包括以下几个步骤:
86.步骤s321:将所述混噪语音对应的幅度谱输入至所述第一输入模块,获得所述混噪语音对应的隐藏表征,以及基于所述隐藏特征得到的初始语音增益参数。
87.在本技术实施方式中,在基于混噪语音对初始增强模型进行训练时,可以将混噪语音经过快速傅里叶变换,得到其复频谱,提取复频谱中的幅值作为混噪语音对应的幅度谱,并将幅度谱输入至第一输入模块。其中第一输入模块可以是由卷积神经网络(convolutional neural networks,cnn)以及长短时记忆网络(long short-tern memory,lstm)组成的复合网络。在将混噪语音对应的幅度谱输入第一输入模块后,可以得到混噪语音对应的隐藏表征,以及初始语音增益参数,其中初始语音增益参数的获取是基于隐藏表征得到的。
88.具体来说,第一输入模块可以包括两个部分,第一部分可以是一个7层的cnn编码器结构,能够从输入的混噪语音对应的幅度谱中提取出隐藏表征,该隐藏表征不仅可以用于输入至初始增强模型中的其他模块,用以得到混噪语音相应的参数,还可以将其输入至第一输入模块中的第二部分,即一个2层的lstm网络,对隐藏表征加上时序信息,最后将加上时序信息的隐藏表征还原到与输入的幅度谱相同的大小,作为混噪语音对应的初始语音增益参数。
89.步骤s322:将所述隐藏表征分别输入至所述第一输出模块、第二输出模块以及第三输出模块,得到所述第一输出模块输出的初始人声检测结果,所述第二输出模块输出的初始信噪比检测结果,以及所述第三输出模块输出的初始噪声幅度谱。
90.在本技术实施方式中,初始增强模型还可以包括第一输出模块、第二输出模块以及第三输出模块,根据输入的隐藏表征,可以分别输出初始人声检测结果、初始信噪比检测结果以及初始噪声幅度谱。
91.在一些实施方式中,第一输出模块可以是一个2层的lstm网络,该网络能够基于输入的隐藏表征,输出预测的人声向量,并将其作为初始人声检测结果。可以理解,初始增强模型输出的初始人声检测结果是对混噪语音中是否存在人声的预测数据,用于表征混噪语音中的每一帧数据中存在人声的概率。在对初始增强模型不断训练使其满足预设条件后,模型输出的人声检测结果可以接近于真实的数据。第二输出模块可以是一个2层的全连接层,可以基于输入的隐藏表征,输出预测的信噪比作为初始信噪比检测结果。第三输出模块可以包括一个2层的lstm网络,用以将隐藏表征加上时序信息,还可以包括一个7层的cnn解码器结构的网络,用以基于输入的具有时序信息的隐藏表征,输出预测的噪声幅度谱,并将其作为初始噪声幅度谱。
92.在步骤s323:基于所述混噪语音标注的标签数据、所述初始语音增益参数、所述初始人声检测结果、所述初始信噪比检测结果、所述初始噪声幅度谱、以及所述混噪语音对应的干净语音样本和噪声样本,确定所述初始增强模型的总损失值。
93.在本技术实施方式中,在得到初始增强模型输出的初始语音增益参数、初始人声检测结构、初始信噪比检测结果以及初始噪声幅度谱等数据后,还可以获得输入的混噪语音对应的标签数据,包括人声标签以及信噪比标签,以及混噪语音对应的干净语音样本和噪声样本等数据,基于上述数据,可以确定初始增强模型的总损失值,用以基于总损失值对
初始增强模型中的各个参数进行调整,使初始增强模型输出的混噪语音对应的数据更加准确,实现对初始增强模型训练的约束。
94.在一些实施方式中,如图7所示,步骤s323中确定初始增强模型的总损失值,可以包括以下几个步骤:
95.步骤s3231:基于增强幅度谱与所述干净语音样本对应的幅度谱之间的差异,确定第一损失值,所述增强幅度谱基于所述初始语音增益参数对所述混噪语音对应的幅度谱进行增强处理得到。
96.在本技术实施方式中,第一损失值可以由干净语音样本对应的幅度谱与增强幅度谱之间的差异确定,增强幅度谱是指由初始增强模型得到的初始语音增益参数,对混噪语音的幅度谱进行增强得到的增强幅度谱,第一损失值可以由下述公式计算得到:
97.loss
gain
=mse(mag
clean
,mag
noisy
*out
gain
)
98.其中,loss
gain
即表示第一损失值,mag
clean
表示干净语音样本对应的幅度谱,mag
noisy
*out
gain
则表示增强幅度谱,由公式可以看出,增强幅度谱是由初始语音增益参数out
gain
与混噪语音对应的幅度谱mag
noisy
卷积得到。mse函数是指均方误差函数,该函数是用于评价数据的变化程度的函数,若mse函数的值即第一损失值小,可以表明该模型具有较好的精确度。
99.步骤s3232:基于所述初始人声检测结果与所述人声标签之间的差异,确定第二损失值。
100.在本技术实施方式中,第二损失值可以由初始人声检测结果以及混噪语音对应的人声标签确定,第二损失值可以用于表征初始增强模型对输入的混噪语音是否能够准确的识别出其中的人声部分数据以及非人声部分数据。具体来说,第二损失值的大小可以由以下的公式得到:
101.loss
vad
=softmax(label
vad
,out
vad
)
102.其中,loss
vad
代表第二损失值,label
vad
表示混噪语音对应的人声标签,out
vad
表示初始增强模型输出的初始人声检测结果;softmax函数,即归一化指数函数,该函数可以将一个包含任意实数的k维向量转换为另一个k维实向量中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。
103.步骤s3233:基于所述初始信噪比检测结果,与所述信噪比标签之间的差异,确定第三损失值。
104.在本技术实施方式中,第三损失值可以由初始信噪比检测结果以及混噪语音对应的信噪比标签确定,第三损失值可以用于表征初始增强模型对于输入的混噪语音是否能够准确的识别出其对应的信噪比,即基于初始增强模型输出的初始信噪比检测结果,与混噪语音对应的实际的信噪比标签之间的差异,可以确定初始增强模型的对于语音数据的信噪比识别的准确性。具体来说,第三损失值可以由公式得到:
105.loss
snr
=rmse(label
snr
,out
snr
)
106.其中,loss
snr
即表示第三损失值,label
snr
用于表示混噪语音对应的信噪比标签,out
snr
用于表示初始增强模型输出的初始信噪比检测结果,rmse函数是指均方根误差函数,也被称为标准误差,该函数是由预测值与真实值偏差的平方与观测次数的比值的平方根。均方根误差是用于衡量观测值同真值之间的偏差,均方根误差函数对一组测量中的特大或
特小误差反映非常敏感,因此能够很好地反映测量的精密度。
107.步骤s3234:基于所述初始噪声幅度谱与所述噪声样本对应的幅度谱之间的差异,确定第四损失值。
108.在本技术实施方式中,第四损失值可以由初始增强模型输出的初始噪声幅度谱与噪声样本对应的幅度谱确定,其中初始增强模型中输出的初始噪声幅度谱仅用于对初始增强模型的误差进行计算,并不用于对模型输出的语音增益参数进行调整。具体来说,第四损失值可以由以下公式计算得到:
109.loss
noise
=mse(mag
noise
,out
noise
)
110.其中,loss
noise
用于表示第四损失值,mag
noise
用于表示噪声对应的幅度谱,out
noise
用于表示初始增强模型输出的初始噪声幅度谱,mse函数为上述步骤所述的均方误差函数。
111.步骤s3235:基于所述第一损失值、第二损失值、第三损失值以及四损失值,确定所述初始增强模型的总损失值。
112.在本技术实施方式中,在获取第一损失值、第二损失值、第三损失值以及第四损失值后,可以基于这四个损失值,确定初始增强模型对应的总损失值。具体来说,可以将四个损失值之和,作为初始增强模型的总损失值,如下述公式:
113.loss
total
=loss
gain
loss
vad
loss
snr
loss
noise
114.步骤s324:根据所述总损失值,对所述初始增强模型进行迭代训练,直至所述初始增强模型满足预设条件。
115.在本技术实施方式中,在获取初始增强模型对应的总损失值后,可以基于反向传播算法,更新初始增强模型中的参数,直至总损失值满足预设条件。其中,预设条件可以是总损失值小于预设值,也可以是总损失值趋近于最小值后不再发生变化,还可以是对初始增强模型的训练次数达到预设次数。
116.步骤s330:获取语音数据。
117.步骤s340:基于预先训练的语音增强模型,获取所述语音数据的人声检测结果、信噪比检测结果以及语音增益参数,所述人声检测结果用于表征所述语音数据中人声部分对应的数据,所述信噪比检测结果用于表征所述语音数据对应的信噪比,所述语音增益参数用于对所述语音数据进行增强。
118.步骤s350:基于所述人声检测结果以及所述信噪比检测结果,调整所述语音增益参数。
119.步骤s360;基于调整后的所述语音增益参数对所述语音数据进行增强处理,获得增强后的语音数据。
120.在本技术实施方式中,训练后的语音增强模型可以基于输入的语音数据,得到其对应的语音增益参数,将该语音增益参数与语音数据对应的幅度谱进行卷积,可以得到增强后的幅度谱,如下所示的公式:
121.mag
enhance
=mag
noisy
*out
gain
122.其后可以将增强后的幅度谱结合上语音数据对应的相位谱,通过逆傅里叶变换,最终得到增强后的语音数据。
123.在本技术实施例中,步骤s330以及步骤s360可以参阅其他实施例的内容,在此不再赘述。
124.本技术实施例提供的语音增强方法,通过基于干净语音样本以及噪声样本混合获得多段混噪语音,使混噪语音对应的人声标签以及信噪比标签具有准确性,基于由多段混噪语音组成的样本语音集合,以及混噪语音对应的干净语音样本以及噪声样本,对初始增强模型进行训练,直至初始增强模型的损失值满足预设条件,将训练后的模型作为语音增强模型。基于训练后的语音增强模型获取语音数据对应的人声检测结果以及信噪比检测结果,调整语音数据对应的语音增益参数,基于调整后的语音增益参数对语音数据进行增强处理。实现了对语音数据的动态调整,提升了语音数据的清晰度和可懂度。
125.请参阅图8,其示出了本技术实施例提供的一种语音增强装置200的结构框图,语音增强装置200包括:语音获取模块210、数据获取模块220、增益调整模块230以及语音增强模块240。其中,语音获取模块210用于获取语音数据;数据获取模块220用于基于预先训练的语音增强模型,获取语音数据的人声检测结果、信噪比检测结果以及语音增益参数,人声检测结果用于表征语音数据中人声部分对应的数据,信噪比检测结果用于表征语音数据对应的信噪比,语音增益参数用于对语音数据进行增强;增益调整模块230用于基于人声检测结果以及信噪比检测结果,调整语音增益参数;语音增强模块240用于基于调整后的语音增益参数对语音数据进行增强处理,获得增强后的语音数据。
126.作为一种可能的实施方式,增益调整模块230包括数据确定单元以及数据调整单元。其中,数据确定单元用于基于人声检测结果以及信噪比检测结果,确定语音数据中的第一数据以及第二数据,第一数据为人声占比大于预设比例的数据,第二数据为语音数据中除第一数据以外的数据;数据调整单元用于降低第一数据对应的语音增益参数,以及提升所述第二数据对应的语音增益参数。
127.作为一种可能的实施方式,数据确定单元可以用于基于人声检测结果,确定语音数据中人声部分对应的数据,作为第三数据;基于信噪比检测结果,从第三数据中确定出信噪比大于预设信噪比的数据,作为第一数据,预设信噪比基于预设比例设置;从语音数据中获取除第一数据以外的数据,作为第二数据。
128.作为一种可能的实施方式,该语音增强装置还可以包括:样本获取模块以及模型训练模块。其中,样本获取模块用于获取样本语音集合,样本语音集合包括多段混噪语音,每段混噪语音被标注有人声标签以及信噪比标签,每段混噪语音由干净语音样本以及噪声样本进行混噪得到,人声标签用于表征混噪语音中人声部分对应的数据,信噪比标签用于表征混噪语音对应的信噪比;模型训练模块用于根据样本语音集合,以及混噪语音对应的干净语音样本和噪声样本,对初始增强模型进行训练,直到初始增强模型满足预设条件,得到训练后的语音增强模型。
129.在该实施方式中,初始增强模型包括第一输入模块、第一输出模块、第二输出模块以及第三输出模块。模型训练模块可以具体用于:将混噪语音对应的幅度谱输入至所述第一输入模块,获得混噪语音对应的隐藏表征,以及基于隐藏特征得到的初始语音增益参数;将隐藏特征分别输入至第一输出模块、第二输出模块以及第三输出模块,得到第一输出模块输出的初始人声检测结果,第二输出模块输出的初始信噪比检测结果,以及第三输出模块输出的初始噪声幅度谱;基于混噪语音标注的标签数据、初始语音增益参数、初始人声检测结果、初始信噪比检测结果、初始噪声幅度谱、以及混噪语音对应的干净语音样本和噪声样本,确定初始增强模型的总损失值;根据总损失值,对初始语音增强模型进行迭代训练,
array,pla)中的至少一种硬件形式来实现。处理器110可集成中央处理器(central processing unit,cpu)、图形处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
139.存储器120可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
140.请参考图10,其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
141.计算机可读存储介质800可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
142.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献