一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质与流程

2022-02-21 03:57:26 来源:中国专利 TAG:


1.本技术涉及音频处理技术领域,尤其涉及一种音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质。


背景技术:

2.随着云技术的发展,越来越多的用户选择使用云服务来通过互联网进行会议讨论以及开展课堂教学等。但是这些云会议或云课堂都需要采集用户在自己终端附近发出的语音并且将其通过互联网传递到参加云会议或参加云课堂的用户处并且播放出来。但是用户通常在房间里进行这样的云会议或云课堂的发言,因此,不可避免的是,用户终端处的语音采集装置采集到的语音音频实际上是混合有用户发出语音直接传递到采集装置的直达音频、用户发出的语音在发出后经过诸如墙壁的物体进行了一次或两次反射的反射音频以及经过了多次反射以后的晚期混响的混合音频。这样的混合音频会严重降低用户发出的语音的可辨别度,非常影响收听语音的其他用户的收听体验。


技术实现要素:

3.本技术实施例提供一种音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质,以解决现有技术中对混响音频处理效果不自然的缺陷。
4.为达到上述目的,本技术实施例提供了一种音频处理方法,包括:
5.获取待处理音频;
6.提取所述待处理音频的特征向量;
7.使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频。
8.本技术实施例还提供了一种音频模型训练方法,包括:
9.使用预定的算法针对预定采样音频生成混响训练音频;
10.根据所述预定采样音频和所述混响训练音频中的至少一部分生成训练目标音频;
11.使用所述混响训练音频作为输入并且使用所述训练目标音频作为验证数据对预定模型进行训练。
12.本技术实施例还提供了一种会议音频处理方法,包括:
13.通过音频采集装置获取参加会议的与会终端发送的发言音频;
14.提取所述发言音频的特征向量;
15.使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频;
16.将所述处理后音频发送给参加会议的其他与会终端。
17.本技术实施例还提供了一种教室音频处理方法,包括:
18.通过布置在教室中的音频采集装置获取教师在授课时发送的教学音频;
19.提取所述教学音频的特征向量;
20.使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频;
21.将所述处理后音频通过网络发送给通过网络收听教室授课的终端。
22.本技术实施例还提供了一种音频处理装置,包括:
23.获取模块,用于获取待处理音频;
24.提取模块,用于提取所述待处理音频的特征向量;
25.处理模块,用于使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频。
26.本技术实施例还提供了一种音频模型训练装置,包括:
27.第一生成模块,用于使用预定的算法针对预定采样音频生成混响训练音频;
28.第二生成模块,用于根据所述预定采样音频和所述混响训练音频中的至少一部分生成训练目标音频;
29.训练模块,用于使用所述混响训练音频作为输入并且使用所述训练目标音频作为验证数据对预定模型进行训练。
30.本技术实施例还提供了一种电子设备,包括:
31.存储器,用于存储程序;
32.处理器,用于运行所述存储器中存储的所述程序,所述程序运行时执行本技术实施例提供的音频处理方法或音频模型训练方法。
33.本技术实施例还提供了一种计算机可读存储介质,其上存储有可被处理器执行的计算机程序,其中,该程序被处理器执行时实现如本技术实施例提供的音频处理方法或音频模型训练方法。
34.本技术实施例还提供了一种计算机程序产品,其中,包括:存储有计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行如本技术实施例提供的音频处理方法或音频模型训练方法中的步骤。
35.本技术实施例提供的音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质,通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练,并且在实际使用中使用经过这样训练的模型来对混合音频进行处理,因此,由于通过选用早期反射声,而不是直达声作为模型训练和恢复目标,可以有效地保护原始目标音频,保证处理后音频听感的自然度和清晰度。
36.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
37.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
38.图1为本技术实施例提供的音频处理方案的应用场景示意图;
39.图2为本技术提供的音频处理方法的一个实施例的流程图;
40.图3为本技术提供的音频处理方法的一个实施例的流程图;
41.图4a为本技术提供的音频处理装置的实施例的结构示意图;
42.图4b为本技术提供的音频模型训练装置的实施例的结构示意图;
43.图5为本技术提供的电子设备实施例的结构示意图。
具体实施方式
44.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
45.实施例一
46.本技术实施例提供的方案可应用于任何具有音频数据处理能力的系统,例如包括有音频处理功能的芯片件的服务器系统等等。图1为本技术实施例提供的音频处理方案的应用场景示意图,图1所示的场景仅仅是本技术的技术方案可应用的示例之一。
47.随着云技术的发展,越来越多的用户选择使用云服务来通过互联网进行会议讨论以及开展课堂教学等。但是这些云会议或云课堂都需要采集用户在自己终端附近发出的语音并且将其通过互联网传递到参加云会议或参加云课堂的用户处并且播放出来。但是用户通常在房间里进行这样的云会议或云课堂的发言,因此,不可避免的是,用户终端处的语音采集装置采集到的语音音频实际上是混合有用户发出语音直接传递到采集装置的直达音频、用户发出的语音在发出后经过诸如墙壁的物体进行了一次或两次反射的反射音频以及经过了多次反射以后的晚期混响的混合音频。这样的混合音频会严重降低用户发出的语音的可辨别度,非常影响收听语音的其他用户的收听体验。为此,需要一种能够对采集到的音频进行混响抑制的技术方案。
48.例如,在如图1中所示的例如教室的音频采集场景中,当老师在教室左侧的讲台处发出语音来表达讲课内容时,其发出的语音可以向右侧传播并由右侧的音频采集装置采集到。在该采集过程中就会发生混响现象。即,在音频处理技术领域,混响是指声源停止发声后,其在空间内衰减的过程,即继续在空间内存在的过程称为混响过程。因此,在如图1中所示的课堂采集声音的场景中,可以认为采集装置最终采集到的声音音频包括三个部分:音频1、老师发出的语音没有经过任何反射而直接到达采集装置而被采集装置采集到的直接语音;音频2,老师发出的语音经过例如教室的墙壁进行了一次或两次反射而到达采集装置的早期反射音频;音频3,老师发出的语音经过例如教室的三侧墙壁进行了三次或更多次反射才到达采集装置的晚期反射音频。因此,最终采集到的音频信号实际上是由作为直达语音的音频1、早期反射音频的音频2和晚期反射音频的音频3构成的混合音频。而通常情况下,只有与晚期反射音频对采集到的混合音频中的语音的清晰度影响较大,而早期反射音频实际上在直达声强度较弱的情况下甚至可以增强语音的能量。因此,在混合音频处理领域,通常需要对采集到的混合音频中的晚期反射音频进行抑制。
49.为此,在现有技术中已经提出了基于信号处理的方案,例如在单通道拾音场景中通过预先假设的混响统计模型来估计混合音频中晚期混响的能量来计算维纳增益,但是该
方案对于抑制混响的效果并不理想。而在多通道拾音场景中,还提出了wpe(weighted prediction error,加权预测误差)方法,该方案通过先估计音频信号的混响尾部,然后再从音频信号中减去该估计的混响尾部,从而得到对弱混响信号的极大似然意义下的估计,但是该方法在麦克风数据较少时对于听感的改善并不明显。
50.另外,在现有技术中还提出了一种基于深度学习模型的混响抑制算法,该算法采用混合音频中的直达音频作为训练时的处理目标,但是由于这样的模型对混响抑制程度在时间上不够平滑,其处理后的音频会存在较明显的能量起伏,听感不自然。
51.为此,在本技术实施例中,可以在对模型进行训练时,例如先准备采样频率为16k/48k的语音音频作为采样语音数据,并且在模拟随机生成的房间中随机设定能够声源和采集装置的位置。例如,可以如图1中所示地将声源设置在房间左侧中间,并且将采集装置设置在右侧中间。之后,可以使用例如allen(亚伦)和berkley(伯克利)于1979年提出的镜像声源模型方法(image)来生成房间冲击响应(roomimpulseresponse,rip)数据,该rip数据可以用于描述该模拟生成的房间的混响特性。之后可以根据实际需求对模型进行配置和初始化。例如,在本技术实施例中国,模型可以使用线性变换模型、dfsmn(deepfeedforwardsequentialmemorynetwork,深度前馈顺序记忆网络)模型以及非线性激活函数的深度神经网络模型。在模型参数初始化之后,可以使用采样语音数据和rip数据通过卷积运算获得混合音频,并且使用该采样语音和rip数据中的早期反射音频,即图1中的音频2通过卷积运算获得训练目标音频。在本技术实施例中,早期反射音频可以选取rip数据中直达声之后50ms或100ms的早期反射音频。
52.之后可以使用短时傅里叶变换(stft)算法来从前面基于采样语音数据和rip数据通过卷积运算获得的混合音频中提取能量特征向量。在本技术实施例中,该提取的能量特征可以是滤波器组(filerbank)特征向量。因此该提取的特征向量可以输入到模型中并经过模型的前向计算而获得例如时频掩蔽数据。因此,这时就可以将该时频掩蔽数据与之前基于采样语音和图1中所示的音频2卷积获得的目标音频计算损失函数,例如,可以计算模型输出的时频掩蔽数据与该目标音频的掩蔽数据之间的均方差,并且之后可以利用梯度回传(back propagation)算法来根据该计算结果调整模型参数,并重新进行模型计算,直到当前轮次的损失函数与前轮次计算的损失函数相比不再明显下降,则可以表示该模型已经收敛,即模型的训练已经完成。
53.之后,在本技术实施例中就可以使用这样训练的模型对采集到的混合音频进行计算。与上述训练过程类似地,可以对采集装置采集到的混合音频提取例如滤波器组特征向量,并且将提取的特征向量输入到上述训练好的模型中进行处理。例如,可以通过将模型输出的掩蔽数据与采集到的混合音频的时频谱进行相乘,之后经过逆傅里叶变换就可以获得混响得到抑制的时域信号。
54.因此,本技术实施例提供的音频处理方案,通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练,并且在实际使用中使用经过这样训练的模型来对混合音频进行处理,因此,由于通过选用早期反射声,而不是直达声作为模型训练和恢复目标,可以有效地保护原始目标音频,保证处理后音频听感的自然度和清晰度。
55.上述实施例是对本技术实施例的技术原理和示例性的应用框架的说明,下面通过
多个实施例来进一步对本技术实施例具体技术方案进行详细描述。
56.实施例二
57.图2为本技术提供的音频处理方法的一个实施例的流程图,该方法的执行主体可以为具有音频处理能力的各种终端或服务器设备,也可以为集成在这些设备上的装置或芯片。如图2所示,该音频处理方法可以包括如下步骤:
58.s201,获取待处理音频。
59.在本技术实施例中,可以在与语音源的同一空间中采集语音源所发出的语音。换言之,由于语音源所发出的语音在采集空间中传播时,一部分语音可以沿着语音源与采集装置的连线方向传播的语音可以由采集装置直接获取,例如如图1中所示的直达音频1,而还有一部分语音则可以向其他方向传播并且经由例如如图1中所示的墙壁反射1次或2次就到达采集装置,例如如图1中所示的早期反射音频2,最后还有一部分音频则会经历多次的反射才能够到达采集装置,例如如图1中所示的晚期反射音频3。因此,最终在步骤s201中获取到由这样的直达音频1、早期反射音频2和晚期反射音频3构成的待处理音频。
60.s202,提取待处理音频的特征向量。
61.在步骤s201中获取到混合了直达音频、早期反射音频和晚期反射音频的待处理音频之后,在步骤s202中可以先对于待处理音频提取特征向量。例如可以提取例如滤波器组特征向量。
62.s203,使用预定模型对特征向量进行计算以获得处理后音频。
63.在步骤s203中可以将步骤s202中提取到特征向量输入到预定模型中进行处理。例如,这样的模型可以是线性变换模型、dfsmn(deepfeedforwardsequentialmemorynetwork,深度前馈顺序记忆网络)模型以及非线性激活函数的深度神经网络模型。例如,在本技术实施例中,步骤s203中可以使用基于预定采样音频生成的混响训练音频训练获得的预定模型对步骤s202中提取的特征向量进行计算以获得处理后音频。
64.例如,本技术实施例的预定模型可以是经由根据本技术实施例的下述训练方式所训练的。
65.s204,使用预定的算法针对预定采样音频生成混响训练音频。
66.在本技术实施例中,可以在对模型进行训练时,例如先准备采样频率为16k/48k的语音音频作为采样语音数据,并且在模拟随机生成的房间中随机设定能够声源和采集装置的位置。例如,可以如图1中所示地将声源设置在房间左侧中间,并且将采集装置设置在右侧中间。之后,可以使用各种预定算法来对该采样音频生成混响训练音频。例如可以使用镜像声源模型方法(image)来生成房间冲击响应(roomimpulseresponse,rip)数据,该rip数据可以用于描述该模拟生成的房间的混响特性。之后可以根据实际需求对模型进行配置和初始化。例如,在本技术实施例中国,模型可以使用线性变换模型、dfsmn(deepfeedforwardsequentialmemorynetwork,深度前馈顺序记忆网络)模型以及非线性激活函数的深度神经网络模型。在模型参数初始化之后,可以使用采样语音数据和rip数据通过卷积运算获得混合音
67.s205,根据预定采样音频和所混响训练音频中的至少一部分生成训练目标音频。
68.在本技术实施例中,可以使用步骤s204中所使用的采样语音数和步骤s204中获得的rip数据中的早期反射音频,例如图1中的音频2通过卷积运算获得训练目标音频。在本申
请实施例中,步骤s205中使用的早期反射音频可以选取rip数据中直达声之后50ms或100ms的早期反射音频。
69.s206,使用混响训练音频作为输入并且使用训练目标音频作为验证数据对预定模型进行训练。
70.在步骤s206可以使用步骤s205中获得的混响训练音频作为模型的输入并且使用步骤s205中获得的训练目标音频作为模型的验证数据来对步骤s203中使用的模型进行训练。
71.例如,可以使用短时傅里叶变换(stft)算法来从前面基于采样语音数据和rip数据通过卷积运算获得的混合音频中提取能量特征向量。在本技术实施例中,该提取的能量特征可以是滤波器组(filerbank)特征向量。因此该提取的特征向量可以输入到模型中并经过模型的前向计算而获得例如时频掩蔽数据。因此,这时就可以将该时频掩蔽数据与之前基于采样语音和图1中所示的音频2卷积获得的目标音频计算损失函数,例如,可以计算模型输出的时频掩蔽数据与该目标音频的掩蔽数据之间的均方差,并且之后可以利用梯度回传(back propagation)算法来根据该计算结果调整模型参数,并重新进行模型计算,直到当前轮次的损失函数与前轮次计算的损失函数相比不再明显下降,则可以表示该模型已经收敛,即模型的训练已经完成。
72.因此,本技术实施例提供的音频处理方案,通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练,并且在实际使用中使用经过这样训练的模型来对混合音频进行处理,因此,由于通过选用早期反射声,而不是直达声作为模型训练和恢复目标,可以有效地保护原始目标音频,保证处理后音频听感的自然度和清晰度。
73.实施例三
74.图3为本技术提供的音频处理方法的一个实施例的流程图,该方法的执行主体可以为具有音频处理能力的各种终端或服务器设备,也可以为集成在这些设备上的装置或芯片。如图3所示,该音频处理方法可以包括如下步骤:
75.s301,获取待处理音频。
76.在本技术实施例中,可以在与语音源的同一空间中采集语音源所发出的语音。换言之,由于语音源所发出的语音在采集空间中传播时,一部分语音可以沿着语音源与采集装置的连线方向传播的语音可以由采集装置直接获取,例如如图1中所示的直达音频1,而还有一部分语音则可以向其他方向传播并且经由例如如图1中所示的墙壁反射1次或2次就到达采集装置,例如如图1中所示的早期反射音频2,最后还有一部分音频则会经历多次的反射才能够到达采集装置,例如如图1中所示的晚期反射音频3。因此,最终在步骤s301中获取到由这样的直达音频1、早期反射音频2和晚期反射音频3构成的待处理音频。
77.s302,提取待处理音频的特征向量。
78.在步骤s301中获取到混合了直达音频、早期反射音频和晚期反射音频的待处理音频之后,在步骤s302中可以先对于待处理音频提取特征向量。例如可以提取例如滤波器组特征向量。
79.s303,使用预定模型对特征向量进行前向计算以获得掩蔽数据。
80.s304,将掩蔽数据与待处理音频的时频谱进行相乘并进行逆傅里叶变换获得处理
后音频。
81.在步骤s303中可以将步骤s302中提取到特征向量输入到预定模型以对该特征向量进行前向计算并获得例如时频掩蔽数据,之后可以在步骤s304中将这样获得的掩蔽数据与步骤s301中获得的待处理音频的时频谱进行相乘处理,并进而进行逆傅里叶变换就能够获得处理后的时域信号,该时域信号就可以作为处理后的音频来进行语音识别或播放等处理。
82.特别地,在本技术实施例中,这样的模型可以是线性变换模型、dfsmn(deepfeedforwardsequentialmemorynetwork,深度前馈顺序记忆网络)模型以及非线性激活函数的深度神经网络模型例如,在本技术实施例中,步骤s303中可以使用基于预定采样音频生成的混响训练音频训练获得的预定模型对步骤s302中提取的特征向量进行前向计算以获得掩蔽数据。
83.例如,本技术实施例的预定模型可以是经由根据本技术实施例的下述训练方式所训练的。
84.s305,使用预定采样音频和预定的房间冲击响应数据进行卷积计算获得混响训练音频。
85.在本技术实施例中,可以在对模型进行训练时,例如先准备采样频率为16k/48k的语音音频作为采样语音数据,并且在模拟随机生成的房间中随机设定能够声源和采集装置的位置。例如,可以如图1中所示地将声源设置在房间左侧中间,并且将采集装置设置在右侧中间。之后,可以使用各种预定算法来对该采样音频生成混响训练音频。例如可以使用镜像声源模型方法(image)来生成房间冲击响应(roomimpulseresponse,rip)数据,该rip数据可以用于描述该模拟生成的房间的混响特性。之后可以根据实际需求对模型进行配置和初始化。例如,在本技术实施例中,模型可以使用线性变换模型、dfsmn(deepfeedforwardsequentialmemorynetwork,深度前馈顺序记忆网络)模型以及非线性激活函数的深度神经网络模型。在模型参数初始化之后,可以使用采样语音数据和rip数据通过卷积运算获得混合音
86.s306,使用预定采样音频和早期反射音频进行卷积计算获得训练目标音频。
87.在本技术实施例中,可以使用步骤s305中所使用的采样语音数据和步骤s305中获得的rip数据中的早期反射音频,例如图1中的音频2通过卷积运算获得训练目标音频。在本技术实施例中,步骤s306中使用的早期反射音频可以选取rip数据中直达声之后50ms或100ms的早期反射音频。
88.s307,使用混响训练音频作为输入并且使用训练目标音频作为验证数据对预定模型进行训练。
89.在步骤s307可以使用步骤s305中获得的混响训练音频作为模型的输入并且使用步骤s306中获得的训练目标音频作为模型的验证数据来对步骤s303中使用的模型进行训练。
90.例如,可以使用短时傅里叶变换(stft)算法来从前面基于采样语音数据和rip数据通过卷积运算获得的混合音频中提取能量特征向量。在本技术实施例中,该提取的能量特征可以是滤波器组(filerbank)特征向量。因此该提取的特征向量可以输入到模型中并经过模型的前向计算而获得例如时频掩蔽数据。因此,这时就可以将该时频掩蔽数据与之
前基于采样语音和图1中所示的音频2卷积获得的目标音频计算损失函数,例如,可以计算模型输出的时频掩蔽数据与该目标音频的掩蔽数据之间的均方差,并且之后可以利用梯度回传(back propagation)算法来根据该计算结果调整模型参数,并重新进行模型计算,直到当前轮次的损失函数与前轮次计算的损失函数相比不再明显下降,则可以表示该模型已经收敛,即模型的训练已经完成。
91.因此,本技术实施例提供的音频处理方案,通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练,并且在实际使用中使用经过这样训练的模型来对混合音频进行处理,因此,由于通过选用早期反射声,而不是直达声作为模型训练和恢复目标,可以有效地保护原始目标音频,保证处理后音频听感的自然度和清晰度。
92.实施例四
93.图4a为本技术提供的音频处理装置的一个实施例的结构示意图,可以用于执行图2或图3中所示的音频处理方法。如图4a所示,该音频处理装置可以包括:获取模块41、提取模块42、处理模块43。
94.获取模块41可以用于获取待处理音频。
95.在本技术实施例中,获取模块41可以在与语音源的同一空间中采集语音源所发出的语音。换言之,由于语音源所发出的语音在采集空间中传播时,一部分语音可以沿着语音源与获取模块41的连线方向传播的语音可以由获取模块41直接获取,例如如图1中所示的直达音频1,而还有一部分语音则可以向其他方向传播并且经由例如如图1中所示的墙壁反射1次或2次就到达获取模块41,例如如图1中所示的早期反射音频2,最后还有一部分音频则会经历多次的反射才能够到达获取模块41,例如如图1中所示的晚期反射音频3。因此,最终由获取模块41获取到由这样的直达音频1、早期反射音频2和晚期反射音频3构成的待处理音频。
96.提取模块42可以用于提取待处理音频的特征向量。
97.获取模块41获取到混合了直达音频、早期反射音频和晚期反射音频的待处理音频之后,提取模块42可以先对于待处理音频提取特征向量。例如可以提取例如滤波器组特征向量。
98.处理模块43可以用于使用预定模型对特征向量进行计算以获得处理后音频。例如,在本技术实施例中,处理模块43可以使用基于预定采样音频生成的混响训练音频训练获得的预定模型对提取模块42提取的特征向量进行计算以获得处理后音频。
99.处理模块43可以将提取模块42提取到特征向量输入到预定模型中进行处理。例如,处理模块43可以将提取模块42提取到特征向量输入到预定模型以对该特征向量进行前向计算并获得例如时频掩蔽数据,之后可以将这样获得的掩蔽数据与获取模块41获得的待处理音频的时频谱进行相乘处理,并进而进行逆傅里叶变换就能够获得处理后的时域信号,该时域信号就可以作为处理后的音频来进行语音识别或播放等处理。例如,这样的模型可以是线性变换模型、dfsmn(deepfeedforwardsequentialmemorynetwork,深度前馈顺序记忆网络)模型以及非线性激活函数的深度神经网络模型。例如,本技术实施例的预定模型可以是经由如图4b中所示的根据本技术实施例的音频模型训练装置所训练的。
100.图4b为本技术提供的音频模型训练装置的实施例的结构示意图。
101.例如,根据本技术实施例的音频模型训练装置可以包括:第一生成模块44、第二生成模块45和训练模块46。
102.第一生成模块44可以用于使用预定的算法针对预定采样音频生成混响训练音频。在本技术实施例中,可以在音频模型训练装置对模型进行训练时,例如先准备采样频率为16k/48k的语音音频作为采样语音数据,并且音频模型训练装置可以在模拟随机生成的房间中随机设定能够声源和采集装置的位置。例如,可以如图1中所示地将声源设置在房间左侧中间,并且将采集装置设置在右侧中间。之后,第一生成模块44可以使用各种预定算法来对该采样音频生成混响训练音频。例如可以使用镜像声源模型方法(image)来生成房间冲击响应(roomimpulseresponse,rip)数据,该rip数据可以用于描述该模拟生成的房间的混响特性。之后可以根据实际需求对模型进行配置和初始化。例如,在本技术实施例中国,模型可以使用线性变换模型、dfsmn(deepfeedforwardsequentialmemorynetwork,深度前馈顺序记忆网络)模型以及非线性激活函数的深度神经网络模型。在模型参数初始化之后,第一生成模块44可以使用采样语音数据和rip数据通过卷积运算获得混合音频。
103.第二生成模块45可以用于根据预定采样音频和混响训练音频中的至少一部分生成训练目标音频。
104.在本技术实施例中,第二生成模块45可以使用同样的采样语音数来和rip数据中的早期反射音频,例如图1中的音频2通过卷积运算获得训练目标音频。在本技术实施例中,第二生成模块45所使用的早期反射音频可以选取rip数据中直达声之后50ms或100ms的早期反射音频。
105.训练模块46可以用于使用混响训练音频作为输入并且使用训练目标音频作为验证数据对处理模块43所使用的预定模型进行训练。
106.例如,可以使用短时傅里叶变换(stft)算法来从前面基于采样语音数据和rip数据通过卷积运算获得的混合音频中提取能量特征向量。在本技术实施例中,该提取的能量特征可以是滤波器组(filerbank)特征向量。因此该提取的特征向量可以输入到模型中并经过模型的前向计算而获得例如时频掩蔽数据。因此,这时就可以将该时频掩蔽数据与之前基于采样语音和图1中所示的音频2卷积获得的目标音频计算损失函数,例如,可以计算模型输出的时频掩蔽数据与该目标音频的掩蔽数据之间的均方差,并且之后可以利用梯度回传(back propagation)算法来根据该计算结果调整模型参数,并重新进行模型计算,直到当前轮次的损失函数与前轮次计算的损失函数相比不再明显下降,则可以表示该模型已经收敛,即模型的训练已经完成。
107.因此,本技术实施例提供的音频处理装置,通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练,并且在实际使用中使用经过这样训练的模型来对混合音频进行处理,因此,由于通过选用早期反射声,而不是直达声作为模型训练和恢复目标,可以有效地保护原始目标音频,保证处理后音频听感的自然度和清晰度。
108.实施例五
109.以上描述了数据处理装置的内部功能和结构,该装置可实现为一种电子设备。图5为本技术提供的电子设备实施例的结构示意图。如图5所示,该电子设备包括存储器51和处理器52。
110.存储器51,用于存储程序。除上述程序之外,存储器51还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
111.存储器51可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
112.处理器52,不仅仅局限于中央处理器(cpu),还可能为图形处理器(gpu)、现场可编辑门阵列(fpga)、嵌入式神经网络处理器(npu)或人工智能(ai)芯片等处理芯片。处理器52,与存储器51耦合,执行存储器51所存储的程序,以执行上述实施例二和三的音频处理方法。
113.进一步,如图5所示,电子设备还可以包括:通信组件53、电源组件54、音频组件55、显示器56等其它组件。图5中仅示意性给出部分组件,并不意味着电子设备只包括图5所示组件。
114.通信组件53被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如wifi,3g、4g或5g,或它们的组合。在一个示例性实施例中,通信组件53经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件53还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
115.电源组件54,为电子设备的各种组件提供电力。电源组件54可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
116.音频组件55被配置为输出和/或输入音频信号。例如,音频组件55包括一个麦克风(mic),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器51或经由通信组件53发送。在一些实施例中,音频组件55还包括一个扬声器,用于输出音频信号。
117.显示器56包括屏幕,其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
118.本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
119.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献