音频降噪方法、装置、电子设备及存储介质与流程

2022-07-06 06:31:44 来源：中国专利 TAG：

1.本技术属于音频处理技术领域，具体涉及一种音频降噪方法、装置、电子设备及存储介质。

背景技术：

2.随着音频处理技术的日益发展，日常生活中音频数据的使用也越发的普遍。在一些情况下，存在多种噪声数据和设备信号的干扰，使得音频质量会受到一定的影响，因此出现了音频降噪技术。但相关的音频降噪方式中，对音频进行降噪的降噪效果还有待提高。

技术实现要素：

3.鉴于上述问题，本技术提出了一种音频降噪方法、装置、电子设备以及存储介质，以实现改善上述问题。
4.第一方面，本技术实施例提供了一种音频降噪方法，应用于电子设备，所述方法包括：获取待降噪音频；获取所述待降噪音频对应用户的声纹特征，所述声纹特征为对所述用户的注册音频进行信息提取后得到的；将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频，所述降噪模型用于根据所述声纹特征从所述待降噪音频中得到所述用户对应的降噪后的音频。
5.第二方面，本技术实施例提供了一种音频降噪方法，应用于降噪系统，所述降噪系统包括电子设备和服务器，所述方法包括：所述电子设备获取用户的注册音频，并将所述注册音频发送给所述服务器；所述服务器基于所述注册音频，获取所述用户的声纹特征，并向所述电子设备返回所述声纹特征；所述电子设备获取所述用户的待降噪音频；所述电子设备将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频，所述降噪模型用于根据所述声纹特征从所述待降噪音频中得到所述用户对应的降噪后的音频。
6.第三方面，本技术实施例提供了一种音频降噪装置，运行于电子设备，所述装置包括：第一音频获取单元，用于获取待降噪音频；信息获取单元，用于获取所述待降噪音频对应用户的声纹特征，所述声纹特征为对所述用户的注册音频进行信息提取后得到的；第二音频获取单元，用于将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频，所述降噪模型用于根据所述声纹特征从所述待降噪音频中得到所述用户对应的降噪后的音频。
7.第四方面，本技术实施例提供了一种音频降噪装置，运行于服务器，所述装置包括：音频发送单元，用于接收电子设备发送的用户的注册音频；信息获取单元，用于基于所述注册音频，获取所述用户的声纹特征；信息返回单元，用于向所述电子设备返回所述用户的声纹特征，所述声纹特征用于所述电子设备获取到所述用户的待降噪音频后，将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频，所述降噪模型用于根据所述声纹特征从所述待降噪音频中得到所述用户对应的降噪后的音频。
8.第五方面，本技术实施例提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。
9.第六方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。
10.第七方面，本技术实施例提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述方法的步骤。
11.本技术实施例提供了一种音频降噪方法、装置、电子设备及存储介质，通过获取待降噪音频以及待降噪音频对应用户的声纹特征，将待降噪音频和对应的声纹特征输入降噪模型，降噪模型结合用户的声纹特征，从待降噪音频中找到与该声纹特征对应的音频，将与该声纹特征对应的音频进行输出，得到了不包含其他用户的干扰音频以及背景噪音的与该声纹特征对应用户的降噪后的音频，从而完成了对待降噪音频的降噪，提高了对用户的待降噪音频的降噪效果。
附图说明
12.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
13.图1示出了本技术实施例提出的相关的音频降噪方法的示意图；
14.图2示出了本技术一实施例提出的音频降噪方法的应用场景示意图；
15.图3示出了本技术一实施例提出的一种音频降噪方法的流程图；
16.图4示出了本技术一实施例中的降噪模型的结构示意图；
17.图5示出了本技术另一实施例提出的一种音频降噪方法的流程图；
18.图6示出了本技术另一实施例提出的一种音频降噪方法的具体实施方式的示意图；
19.图7示出了本技术又一实施例提出的一种音频降噪方法的流程图；
20.图8示出了本技术再一实施例提出的一种音频降噪方法的流程图；
21.图9示出了本技术再一实施例中步骤s420的流程图；
22.图10示出了本技术实施例提出的一种音频降噪装置的结构框图；
23.图11示出了本技术实施例提出的一种音频降噪装置的结构框图；
24.图12示出了本技术实施例提出的一种音频降噪装置的结构框图；
25.图13示出了本技术实施例提出的一种音频降噪装置的结构框图；
26.图14示出了本技术实施例提出的一种音频降噪系统的结构框图；
27.图15示出了用于执行根据本技术实施例的音频降噪方法的电子设备或服务器的结构框图；
28.图16示出了用于保存或者携带实现根据本技术实施例的音频降噪方法的程序代码的存储单元。
具体实施方式
29.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.在相关的音频降噪方法中，如图1所示，首先会在服务器端准备一个已经训练好的通用降噪模型，然后在用户端通过录音设备获取用户注册音频，并将用户注册音频发送给服务器端，服务器端在接收到用户注册音频后，对用户注册音频进行数据预处理，得到用户定制训练数据，再将用户定制训练数据输入到通用降噪模型中，进行迁移学习，得到个人定制化的降噪模型参数，然后服务器端会将个人定制化的降噪模型参数传给用户端，从而用户端可以加载个人定制化的降噪模型参数和降噪模型的网络结构，得到个人定制化降噪模型。
31.在实际使用阶段，当用户在使用个人定制化降噪模型进行音频降噪时，用户可以通过客户端中的录音设备上传用户原始音频，从而客户端可以将用户通过客户端上传的用户原始音频输入到个人定制化降噪模型中，通过个人定制化降噪模型对用户通过客户端上传的用户原始音频进行降噪，得到降噪后的音频。其中，迁移学习为一种训练神经网络的方式。具体的，先是在一个基础的数据集上进行任务的训练，生成一个基础网络，然后将学习到的特征重新进行调整或迁移到另一个目标网络上，目的是将目标网络用来训练目标任务的数据集。
32.在上述音频降噪方法中，需要用户上传用户注册音频，并通过用户上传的用户注册音频对训练好的通用降噪模型进行迁移学习，增加了服务器端的计算成本。同时若有多个用户持续上传用户注册音频，会不断占用服务器端的计算资源。并且，由于上述方法需要一定量的用户上传的用户注册音频对通用降噪模型进行训练，用户上传的用户注册音频的数据量的多少决定了训练后的通用降噪模型的降噪效果，因此需要用户上传较长时间的用户注册音频以形成用户定制训练数据。这种方式增加了用户注册的复杂程度，影响了用户注册过程的使用体验。
33.因此，发明人提出了本技术中的音频降噪方法、装置、电子设备及存储介质。首先获取待降噪音频以及待降噪音频对应用户的声纹特征，然后将待降噪音频和对应的声纹特征一起输入降噪模型，降噪模型结合用户的声纹特征，从待降噪音频中找到与该声纹特征对应的音频，将与该声纹特征对应的音频进行输出，得到了不包含其他用户的干扰音频以及背景噪音的与该声纹特征对应用户的降噪后的音频，从而完成了对待降噪音频的降噪，提高了对用户的待降噪音频的降噪效果。
34.在对本技术实施例进行进一步详细说明之前，对本技术实施例中涉及一种应用环境进行介绍。
35.图2示出了根据本技术的实施例可以将本技术描述的各种方法和装置在其中实施的系统100的示意图。参考图1，该系统100包括一个或多个电子设备110、服务器120以及将一个或多个电子设备耦接到服务器120的一个或多个通信网络130。
36.在本技术的实施例中，服务器120可以运行使得能够执行声纹特征提取方法的一个或多个服务或软件应用。在一些实施方式中，服务器120可以为分布式系统的服务器。服
务器120也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。
37.可以使用电子设备110来获取用户的注册音频和用户的待降噪音频。电子设备110可以提供使电子设备110的用户能够与电子设备110进行交互的接口。电子设备110还可以经由该接口向用户输出信息，比如电子设备110可以通过该接口输入音频数据。
38.电子设备110可以为各种类型可以获取音频数据的计算机设备，例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)以及可穿戴设备等。其中，便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(pda)等；可穿戴设备可以包括头戴式显示器和其他设备。电子设备110能够执行各种不同的应用程序，例如各种与internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(sms)应用程序，并且可以使用各种通信协议。
39.网络130可以是任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于tcp/ip、sna、ipx等)来支持数据通信。仅作为示例，一个或多个网络130可以是局域网(lan)、基于以太网的网络、令牌环、广域网(wan)、因特网、虚拟网络、虚拟专用网络(vpn)、内部网、外部网、公共交换电话网(pstn)、红外网络、无线网络(例如蓝牙、wifi)和/或这些和/或其他网络的任意组合。
40.系统100还可以包括一个或多个数据库140。在某些实施例中，这些数据库可以用于存储用户的注册音频。数据库140可以驻留在各种位置。例如，由服务器120使用的数据库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据库140可以是不同的类型。在某些实施例中，由服务器120使用的数据库可以为关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。
41.可选的，电子设备110也可以运行使得能够执行音频降噪方法的一个或多个服务或软件应用，也就是说，本技术实施例提供的音频降噪方法可以由电子设备110单独执行。
42.可选的，在本技术实施例中，本技术实施例提供的音频降噪方法也可以由电子设备110和服务器120协同，在此不做具体限定。在由电子设备110和服务器120协同执行的这种方式中，本技术实施例提供的音频降噪方法中的部分步骤可以由电子设备110执行，而另外部分的步骤则由服务器120来执行。
43.示例性的，电子设备110可以执行音频降噪方法中包括的：获取用户的注册音频，并将所述注册音频发送给所述服务器120，然后由服务器120基于所述注册音频，获取所述用户的声纹特征，并向所述电子设备110返回所述声纹特征，再由电子设备110获取所述用户的待降噪音频；所述电子设备110将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频。
44.需要说明的是，在由电子设备110和服务器120协同执行的这种方式中，电子设备110和服务器120分别执行的步骤不限于上述示例中所介绍的方式，在实际应用中，可以根据实际情况动态的调整电子设备110和服务器120分别执行的步骤。
45.下面将结合附图具体描述本技术的各实施例。
46.请参阅图3，本技术实施例提供的一种音频降噪方法，应用于电子设备，所述方法包括：
47.步骤s110：获取待降噪音频。
48.在本技术实施例中，待降噪音频为实际应用中，电子设备获取到的用户的原始音频，也就是包含噪音的音频。不同应用场景下，用户的待降噪音频可以不同。比如，在通话场景下，用户的待降噪音频可以通话过程中的包含通话双方的语音的音频；在音乐录制场景下，待降噪音频可以为用户录制的包含用户唱的音乐和伴奏的音频，在此不做具体限定。
49.作为一种方式，电子设备可以通过电子设备中设置的录音设备来获取用户的待降噪音频。在本技术实施例中，电子设备中设置的录音设备可以为麦克风(内置麦克风或外置麦克风)。可选的，电子设备可以通过多种不同的方式来获取用户的待降噪音频，比如，在电子设备未外接麦克风时，电子设备可以通过内置的麦克风来获取用户的待降噪音频；又比如，在电子设备外接有麦克风时，电子设备可以通过外接的麦克风来获取用户的待降噪音频。
50.作为另一种方式，电子设备也可以从其他外部设备中获取用户的待降噪音频。其中，其他外部设备可以为可以采集用户的待降噪音频的设备，比如智能手机或平板电脑等。在这种方式下，可以先建立电子设备和其他外部设备之间的通信连接，使得电子设备和其他外部设备之间可以进行数据传输。当电子设备需要用户的待降噪音频时，可以先向其他外部设备发送数据获取请求，当其他外部设备接收到电子设备发送的数据获取请求后，响应于该数据获取请求，向电子设备返回用户的待降噪音频。可选的，在本技术实施例中，一个其他外部设备可以只用于采集一个用户的待降噪音频，当然，一个其他外部设备也可以用于采集多个用户的待降噪音频，在此不做具体限定。
51.步骤s120：获取所述待降噪音频对应用户的声纹特征，所述声纹特征为对所述用户的注册音频进行特征提取后得到的。
52.在本技术实施例中，声纹特征可以理解为通过声纹特征提取模型，提取的对用户的声纹具有可分性强、稳定性高等特性的声学或语言特征。该声纹特征可以用于通过特定的计算方法衡量不同用户音频相似程度，或者用于识别特定用户。比如，特定的计算方法可以为计算声纹特征之间的欧氏距离。示例性的，在通过计算不同声纹特征之间的欧氏距离来识别特征的用户的场景下，可以先获取该用户的注册音频对应的声纹特征，以及实时采集到的该用户的音频对应的声纹特征，然后计算注册音频对应的声纹特征以及实时采集到的该用户的音频的声纹特征的欧氏距离，若计算得到的欧式距离大于或等于预设欧式距离时，确定这两个音频属于同一个用户；若计算得到的欧氏距离小于预设欧式距离时，确定这两个音频不属于同一个用户。
53.作为一种方式，获取用户的注册音频，对所述注册音频进行特征提取，得到所述对应用户的声纹特征。
54.在本技术实施例中，用户的注册音频为用户在声纹注册阶段用于提取用户的声纹特征的音频。
55.作为其中一种方式，可以通过电子设备中设置的录音设备来获取用户的注册音频。在本技术实施例中，电子设备中设置的录音设备可以为麦克风(内置麦克风或外置麦克风)。可选的，电子设备可以通过多种不同的方式来获取用户的注册音频，比如，在电子设备未外接麦克风时，电子设备可以通过内置的麦克风来获取用户的注册音频；又比如，在电子设备外接有麦克风时，电子设备可以通过外接的麦克风来获取用户的注册音频。
56.作为其中另一种方式，电子设备也可以从其他外部设备中获取用户的注册音频。
其中，其他外部设备可以为可以采集用户的注册音频的设备，比如智能手机或平板电脑等。在这种方式下，可以先建立电子设备和其他外部设备之间的通信连接，使得电子设备和其他外部设备之间可以进行数据传输。当电子设备需要用户的注册音频时，可以先向其他外部设备发送数据获取请求，当其他外部设备接收到电子设备发送的数据获取请求后，响应于该数据获取请求，向电子设备返回用户的注册音频。可选的，在本技术实施例中，一个其他外部设备可以只用于采集一个用户的注册音频，当然，一个其他外部设备也可以用于采集多个用户的注册音频。
57.在一个其他外部设备只用于采集一个用户的注册音频的这种情况下，可以先建立不同用户与不同其他外部设备之间的对应关系，并将建立的对应关系发送给电子设备，当电子设备需要获取指定用户的注册音频时，就可以查找该对应关系，找到与该特定用户对应的其他外部设备，从而可以向与该特定用户对应的其他外部设备发送数据获取请求，当与该特定用户对应的其他外部设备接收到电子设备发送的数据获取请求后，响应于该数据获取请求，向电子设备发送该指定用户的注册音频。示例性的，用户可以包括用户a、用户b以及用户c，其他外部设备可以包括设备1、设备2以及设备3，设备1用于采集用户a的注册音频、设备2用于采集用户b的注册音频以及设备3用于采集用户c的注册音频，当电子设备需要获取用户a的注册音频时，就可以向设备1发送数据获取请求。
58.在一个其他外部设备可以用于采集多个用户的注册音频的这种情况下，可以先在该其他外部设备中建立不同用户的用户标识和注册音频之间的对应关系，当电子设备需要获取指定用户的注册音频时，就可以向其他外部设备发送携带指定用户的用户标识的数据获取请求，从而当其他外部设备接收到电子设备发送的携带指定用户的用户标识的数据获取请求时，可以根据数据请求中携带的用户标识以及对应关系，找到该指定用户的注册音频，并将该指定用户的注册音频发送给电子设备。示例性的，其他外部设备中存储有用户a的注册音频、用户b的注册音频以及用户c的注册音频，当电子设备需要获取用户b的注册音频时，可以向其他外部设备发送携带用户b的用户标识的数据获取请求。
59.可选地，其他外部设备可以根据电子设备发送的数据获取请求实时采集用户的注册音频，也可以预先采集用户的注册音频，在此不做具体限定。
60.作为一种方式，当电子设备获取到用户的注册音频后，可以对用户的注册音频进行声纹特征提取，得到用户的声纹特征，并将用户的声纹特征存储在电子设备的存储区域中。在本技术实施例中，声纹特征的提取通常只需要上传一小段注册音频。
61.步骤s130：将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频，所述降噪模型用于根据所述声纹特征从所述待降噪音频中得到所述用户对应的降噪后的音频。
62.在本技术实施例中，在将用户的待降噪音频和声纹特征输入到降噪模型之前，可以先对用户的待降噪音频进行声学特征提取，提取的声学特征可以为fbank特征、mfcc(mel frequency cepstral coefficents，梅尔频率倒谱系数)特征或语谱图特征等。声学特征向量的维度可以根据具体需要设定，例如，声学特征向量可以是80维的fbank特征。fbank特征、mfcc特征以及语谱图特征的提取方法为现有技术，不再赘述。
63.进而，再将提取的待降噪音频的声学特征和用户的声纹特征输入到降噪模型中，通过降噪模型对用户的待降噪音频进行降噪，获取降噪模型输出的降噪后的音频。
64.在本技术实施例中，降噪模型为一种基于通用的u-net降噪网络构建的。其中，本技术实施例中的降噪模型的结构可以如图4所示，降噪模型可以包括编码器、时序建模网络以及解码器，降噪模型的编码器的输出层和时序建模网络的输入层连接，时序建模网络的输出层与解码器的输入层连接。
65.作为一种方式，所述步骤s130具体可以包括：将所述待降噪音频和对应的所述声纹特征输入降噪模型，所述编码器用于对所述待降噪音频进行特征提取，输出所述待降噪音频对应的高维特征向量；所述时序建模网络用于将所述高维特征向量与所述声纹特征进行拼接，得到特征向量；所述解码器用于基于所述特征向量，得到降噪后的音频。
66.其中，编码器是典型的卷积神经网络结构，它用于逐层提取待降噪音频的高维特征。编码器的输出可以理解为提取的待降噪音频的高维特征向量。
67.当将用户的待降噪音频输入到编码器中后，可以通过编码器对待降噪音频的高维特征进行提取，得到待降噪音频的高维特征向量。
68.在本技术实施例中，时序建模网络是指具有时序建模能力的网络，比如可以为lstm(long short term memory，长短期记忆网络)、gru(gate recurrent unit，门循环单元)、多层cnn(convolutional neural network，卷积神经网络)等结构。时序建模网络的作用是用于增加历史帧音频对当前帧音频的影响。
69.作为一种方式，为了可以针对性的对指定用户的待降噪音频进行降噪处理，可以通过引入额外的声纹特征来作为时序建模网络的输入，从而达到对指定用户的待降噪音频进行针对性降噪。其中，额外的声纹特征指的就是指定用户相关的声纹特征。
70.当获取到编码器输出的待降噪音频的高维特征向量后，将编码器输出的待降噪音频的高维特征向量和用户的声纹特征进行拼接，这里的拼接可以理解为将编码器输出的待降噪音频的高维特征向量连接在用户的声纹特征后面，也可以理解为将用户的声纹特征连接在编码器输出的待降噪音频的高维特征向量后面。当通过上述方式将编码器输出的待降噪音频的高维特征向量和用户的声纹特征进行拼接后，可以得到一个新的特征向量，将该新的特征向量输入到时序建模网络中，获取时序建模网络的输出，得到具有更多用户信息的特征向量。
71.其中，解码器用于估计待降噪音频中的语音分量，在本技术实施例中，语音分量指的就是降噪后的音频，也就是用户的干净的音频。
72.在本技术实施例中，将具有更多用户信息的特征向量输入到解码器中，通过解码器来估计具有更多用户信息的特征向量中的语音分量，得到降噪后的音频。
73.本实施例提供的一种音频降噪方法，首先获取用户的待降噪音频以及用户的声纹特征，然后将用户的待降噪音频和声纹特征一起输入到降噪模型中，降噪模型结合用户的声纹特征，从待降噪音频中找到与该声纹特征对应的音频，将与该声纹特征对应的音频进行输出，从而完成了对待降噪音频的降噪，得到了不包含其他用户的干扰音频以及背景噪音的与该声纹特征对应用户的降噪后的音频，提高了对用户的待降噪音频的降噪效果。
74.请参阅图5，本技术实施例提供的一种音频降噪系统，所述降噪系统包括电子设备和服务器，所述方法包括：
75.步骤s210：所述电子设备获取用户的注册音频，并将所述注册音频发送给所述服务器。
76.在本技术实施例中，当电子设备通过上述方式获取到用户的注册音频后，可以将获取到的用户的注册音频发送给服务器。
77.步骤s220：所述服务器基于所述注册音频，获取所述用户的声纹特征，并向所述电子设备返回所述声纹特征。
78.作为一种方式，当服务器获取到电子设备发送的用户的注册音频，可以通过声纹特征提取模型对用户的注册音频进行声纹特征提取，得到用户的声纹特征，并将用户的声纹特征发送给电子设备进行存储。在本技术实施例中，声纹特征的提取通常只需要上传一小段注册音频。
79.步骤s230：所述电子设备获取所述用户的待降噪音频。
80.步骤s240：所述电子设备将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频。
81.在本技术实施例中，降噪模型为预先训练好的可以对不同的用户的待降噪音频进行针对性降噪的神经网络模型。降噪后的音频为不包括其他用户的干扰语音以及背景噪音的用户的干净音频。
82.当电子设备获取到用户的待降噪音频和用户的声纹特征时，可以将用户的待降噪音频和用户的声纹特征一起输入到降噪模型中，降噪模型结合用户的声纹特征对该用户的待降噪音频进行降噪处理，得到降噪后的音频。
83.作为一种方式，在将用户的待降噪音频和用户的声纹特征输入到降噪模型中时，需要注意的是，是将同一个用户的待降噪音频和声纹特征作为降噪模型的输入，从而降噪模型可以针对性的输出该用户的干净音频。
84.示例性的，步骤s210-步骤s240所包括的方法的具体实施方式可以如图6所示，为了减少对服务器的计算资源的占用，在服务器端不再进行迁移学习，只需要调用声纹特征提取模型进行声纹特征提取。具体的，首先通过用户端的录音设备向服务器端发送用户注册音频，服务器端在接收到用户端发送的用户注册音频后，服务器端可以调用已经训练好的通用降噪模型对用户注册音频进行降噪处理，去除用户注册音频中的背景噪音，得到通用降噪数据，然后服务器端可以调用声纹特征提取模型来提取通用降噪数据的声纹特征，并将提取到的声纹特征发送给用户端，当用户端接收到服务器端发送的声纹特征后可以将声纹特征进行存储，从而在用户端通过录音设备获取到用户原始音频后，可以将用户原始音频和该用户的声纹特征输入到已训练好的降噪模型中，降噪模型结合用户的声纹特征对用户原始音频进行降噪处理，得到降噪后的音频。
85.本实施例提供的一种音频降噪方法，首先电子设备获取用户的注册音频，并将用户的注册音频发送给服务器，然后服务器可以基于用户的注册音频获取用户的声纹特征，并将用户的声纹特征返回给电子设备，从而电子设备在获取到用户的待降噪音频后，可以将用户的待降噪音频和声纹特征输入到降噪模型中，获取降噪模型输出的降噪后的音频。通过上述方法，在用户注册阶段，只需要上传一小段注册音频用于提取声纹特征(不需要通过上传音频进行模型训练)，简化了用户的注册流程，同时在用户注册阶段，不需要服务器利用注册音频进行迁移学习，减少了对服务器的计算资源的占用。再者，由于将用户的待降噪音频和声纹特征一起输入到降噪模型中，降噪模型结合了用户的声纹特征，从待降噪音频中找到与该身为声纹特征对应的音频，将与该声纹特征对应的音频进行输出，从而完成
了对待降噪音频的降噪，得到了不包含其他用户的干扰音频以及背景噪音的与该声纹特征对应用户的降噪后的音频，提高了对用户的待降噪音频的降噪效果。
86.请参阅图7，本技术实施例提供的一种音频降噪方法，应用于电子设备，所述方法包括：
87.步骤s310：获取用户的注册音频。
88.步骤s320：将所述用户的注册音频发送给服务器，以使所述服务器对所述注册音频进行声纹特征提取，得到所述用户的声纹特征。
89.步骤s330：接收并存储所述服务器发送的所述用户的声纹特征。
90.在本技术实施例中，当电子设备接收到服务器发送的用户的声纹特征后，可以对用户的声纹特征进行存储。由于，有时候会了加快注册阶段的效率，可以同时向服务器上传多个不同用户的注册音频，从而服务器在接收到多个不同用户的注册音频时，在分别对不同用户的注册音频进行声纹特征提取后，可以建立一个预设关联关系，其中，预设关联关系为用户信息和对应的用户的声纹特征之间的对应关系，用户信息可以为用户标识。具体的，可以为每一个用户的声纹特征配置一个用户标识(用户信息)，在将用户的声纹特征以及为每一个用户配置的用户标识(用户信息)一起发送给电子设备，从而电子设备在对用户的声纹特征进行存储时，可以根据每一个用户的用户标识(用户信息)对用户的声纹特征进行存储，建立用户信息和用户的声纹特征之间的预设关联关系，将该预设关联关系以及用户的声纹特征存储在电子设备的本地存储区域中。
91.可选地，在根据用户标识(用户信息)对用户的声纹特征进行存储时，可以一个用户的声纹特征存储在一个文件夹中，并将该文件夹的命名设置为用户标识(用户信息)。当然，也可以将所有用户的声纹特征存储在一个文件夹中，以数据表的形式进行存储，也就是一个用户标识(用户信息)对应一个声纹特征。可选地，还可以将每一个用户标识和每一个注册账号关联起来，一个注册账号对应一个用户标识(用户信息)，一个用户标识(用户信息)对应一个声纹特征，从而当检测到有用户在电子设备中登录注册账号时，可以根据该关联关系，找到与该注册账号关联的用户的声纹特征。
92.步骤s340：获取所述用户的待降噪音频。
93.在本技术实施例中，用户指的是在电子设备中登录注册账号的用户。当检测到有用户在电子设备中登录注册账号后，开始通过电子设备中的录音设备获取该登录注册账号的用户的待降噪音频。
94.步骤s350：从本地读取所述待降噪音频对应用户的声纹特征。
95.在本技术实施例中，当检测到有用户在电子设备中登录注册账号时，就可以从电子设备的本地存储区域中读取与该注册账号关联的用户的声纹特征。
96.作为一种方式，获取待降噪音频对应用户的声纹特征，包括：获取所述待降噪音频对应的用户信息；根据所述用户信息以及预设关联关系获取对应用户的声纹特征。
97.其中，用户信息可以为用户标识，比如用户标识可以包括用户的姓名、性别、年龄、身份证号等中的至少一种。预设关联关系为用户信息和声纹特征之间的关联关系。
98.当获取到用户的待降噪音频后，可以通过语音识别模型对待降噪音频进行识别，识别待降噪音频属于哪个用户，从而获取该用户的用户信息，进而可以根据该用户的用户信息以及预设关联关系查找到对应的声纹特征。
99.步骤s360：将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频。
100.在本技术实施例中，在使用降噪模型对用户的待降噪音频进行降噪处理之前，可以先通过训练得到降噪模型，训练降噪模型的具体步骤可以包括以下步骤：获取训练数据集，所述训练数据集包括不同用户的带噪音频以及所述带噪音频对应的声纹特征；将所述训练数据集输入到初始降噪模型中进行迭代训练，直至满足训练结束条件，得到所述降噪模型。
101.其中，训练数据集包括的不同用户的带噪音频中不包括用户的注册音频。当获取到不同用户的带噪音频后，可以先将不同用户的带噪音频发送给服务器，以使服务器对不同的带噪音频进行声纹特征提取，得到每个带噪音频对应的声纹特征。
102.在本技术实施例中，训练结束条件可以为训练后的降噪模型输出的降噪后的音频达到预设值，或者训练后的降噪模型对应的损失函数的损失值不在下降，或者下降到一定阈值以下。
103.作为一种方式，当获取到不同用户的带噪音频以及带噪音频对应的声纹特征后，将不同用户的带噪音频以及带噪音频对应的声纹特征输入到初始降噪模型中，对该初始降噪模型进行迭代训练，直至训练后的降噪模型输出的用户的降噪后的音频达到预设值时，停止训练该初始降噪模型，将此时的初始降噪模型作为最终的降噪模型。
104.作为另一种方式，当获取到不同用户的带噪音频以及带噪音频对应的声纹特征后，将不同用户的带噪音频以及带噪音频对应的声纹特征输入到初始降噪模型中，获取该初始降噪模型的输出，基于该初始降噪的输出确定损失函数的损失值，若该损失值小于预设阈值，将此时的初始降噪模型作为最终的降噪模型。其中，损失函数可以mse均方误差损失函数、cross entropy交叉熵损失函数等，在此不做具体限定。
105.本实施例提供的一种音频降噪方法，首先获取用户的注册音频，将用户的注册音频发送给服务器，以使服务器对注册音频进行声纹特征提取，得到用户的声纹特征，接收并存储服务器发送的用户的声纹特征，然后获取用户的待降噪语音和从本地读取用户的声纹特征，最后将待降噪音频和声纹特征输入到降噪模型中，获取该降噪模型输出的降噪后的音频。通过上述方法，在用户注册阶段，只需要上传一小段注册音频用于提取声纹特征，简化了用户的注册流程，同时在用户注册阶段，不需要服务器利用注册音频进行迁移学习，减少了对服务器的计算资源的占用。再者，由于将用户的待降噪音频和声纹特征一起输入到降噪模型中，降噪模型结合了用户的声纹特征，从待降噪音频中找到与该身为声纹特征对应的音频，将与该声纹特征对应的音频进行输出，从而完成了对待降噪音频的降噪，得到了不包含其他用户的干扰音频以及背景噪音的与该声纹特征对应的用户的降噪后的音频，提高了对用户的待降噪音频的降噪效果。
106.请参阅图8，本技术实施例提供的一种音频降噪方法，应用于服务器，所述方法包括：
107.步骤s410：所述服务器接收电子设备发送的用户的注册音频。
108.步骤s420：所述服务器基于所述注册音频，获取所述用户的声纹特征。
109.在本技术实施例中，请参阅图9，步骤s420可以包括以下步骤：
110.步骤s421：所述服务器将所述注册音频输入到通用降噪模型中，获取所述通用降
噪模型输出的通用降噪音频，其中，所述通用降噪模型用于去除所述注册音频中的背景噪音。
111.在本技术实施例中，通用降噪模型为基于u-net神经网络结构搭建的降噪网络。其中，u-net神经网络是由编码器、解码器和时序建模网络结构组成的神经网络，因其结构为u型，故称之为u-net。u-net神经网络广泛应用于视觉领域的图像分割和语音领域的语音增强等任务。
112.在本技术实施例中，当服务器接收到电子设备发送的用户的注册音频时，可以调用预先已训练好的通用降噪模型对用户的注册音频中的背景噪音进行去除，优化用户的注册音频的质量。其中，背景噪音为也称为本底噪声，是指除研究对象以外所有噪声的总称。
113.步骤s422：所述服务器将所述通用降噪音频输入到声纹特征提取模型中，获取所述声纹特征提取模型输出的所述用户的声纹特征。
114.在本技术实施例中，声纹特征提取模型可以为任意可以进行声纹特征提取的神经网络模型，在此不做具体限定。
115.作为一种方式，声纹特征可以理解为声纹特征提取模型的输出，也就是声纹特征向量。可选的，声纹特征向量可以作为用户身份信息判断的依据。
116.在本技术实施例中，可以将用户的注册音频输入到已训练好的声纹特征提取模型中，得到用户的声纹特征向量，然后可以对用户声纹特征向量进行存储，存入注册库。
117.在对用户的声纹特征向量进行存储时，可以建立用户标识、注册音频以及声纹特征向量之间的对应关系，进而可以根据该对应关系，来对用户身份进行识别。
118.步骤s430：所述服务器向所述电子设备返回所述用户的声纹特征，所述声纹特征用于所述电子设备获取到所述用户的待降噪音频后，将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频，所述降噪模型用于根据所述声纹特征从所述待降噪音频中得到所述用户对应的降噪后的音频。
119.本实施例提供的一种音频降噪方法，首先服务器接收电子设备发送的用户的注册音频，然后服务器可以基于该注册音频，获取用户的声纹特征，并向电子设备返回用户的声纹特征，该声纹特征用于电子设备获取到用户的待降噪音频后，将待降噪音频和声纹特征输入到降噪模型，获取降噪模型输出的降噪后的音频。通过上述方法，在用户注册阶段，只需要上传一小段注册音频用于提取声纹特征，简化了用户的注册流程，同时在用户注册阶段，不需要服务器利用注册音频进行迁移学习，减少了对服务器的计算资源的占用。再者，由于将用户的待降噪音频和声纹特征一起输入到降噪模型中，降噪模型结合了用户的声纹特征，从待降噪音频中找到与该身为声纹特征对应的音频，将与该声纹特征对应的音频进行输出，从而完成了对待降噪音频的降噪，得到了不包含其他用户的干扰音频以及背景噪音的与该声纹特征对应的用户的降噪后的音频，提高了对用户的待降噪音频的降噪效果。
120.请参阅图10，本技术实施例提供的一种音频降噪装置500，所述音频降噪装置500包括：
121.第一音频获取单元510，用于获取待降噪音频。
122.信息获取单元520，用于获取所述待降噪音频对应用户的声纹特征，所述声纹特征为对所述用户的注册音频进行信息提取后得到的。
123.作为一种方式，所述信息获取单元520用于从本地读取所述待降噪音频对应用户
的声纹特征。
124.作为另一种方式，所述信息获取单元520用于获取所述待降噪音频对应的用户信息；根据所述用户信息以及预设关联关系获取对应用户的声纹特征。
125.第二音频获取单元530，用于将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频，所述降噪模型用于根据所述声纹特征从所述待降噪音频中得到所述用户对应的降噪后的音频。
126.作为一种方式，所述降噪模型包括编码器、时序建模网络以及解码器。所述第二音频获取单元530用于将所述待降噪音频和对应的所述声纹特征输入降噪模型，所述编码器用于对所述待降噪音频进行特征提取，输出所述待降噪音频对应的高维特征向量；所述时序建模网络用于将所述高维特征向量与所述声纹特征进行拼接，得到特征向量；所述解码器用于基于所述特征向量，得到降噪后的音频。
127.请参阅图11，所述音频降噪装置500还包括：
128.音频注册单元540，用于获取用户的注册音频；将所述用户的注册音频发送给服务器，以使所述服务器对所述注册音频进行声纹特征提取，得到所述用户的声纹特征；接收并存储所述服务器发送的所述用户的声纹特征。
129.可选的，音频注册单元540，还用于获取用户的注册音频，对所述注册音频进行特征提取，得到所述对应用户的声纹特征。
130.请参阅图12，所述音频降噪装置500还包括：
131.模型训练单元550，用于获取训练数据集，所述训练数据集包括不同用户的带噪音频以及所述带噪音频对应的声纹特征；将所述训练数据集输入到初始降噪模型中进行迭代训练，直至满足训练结束条件，得到所述降噪模型。
132.请参阅图13，本技术实施例提供的一种音频降噪装置600，运行于服务器，所述音频降噪装置600包括：
133.音频发送单元610，用于接收电子设备发送的用户的注册音频。
134.信息获取单元620，用于基于所述注册音频，获取所述用户的声纹特征。
135.作为一种方式，所述信息获取单元620用于所述服务器将所述注册音频输入到通用降噪模型中，获取所述通用降噪模型输出的通用降噪音频，其中，所述通用降噪模型用于去除所述注册音频中的背景噪音；所述服务器将所述通用降噪音频输入到声纹特征提取模型中，获取所述声纹特征提取模型输出的所述用户的声纹特征。
136.信息返回单元630，用于向所述电子设备返回所述用户的声纹特征，所述声纹特征用于所述电子设备获取到所述用户的待降噪音频后，将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频，所述降噪模型用于根据所述声纹特征从所述待降噪音频中得到所述用户对应的降噪后的音频。
137.请参阅图14，本技术实施例提供的一种音频降噪系统700，所述音频降噪系统包括电子设备710和服务器720。
138.所述电子设备710，用于获取用户的注册音频，并将所述注册音频发送给所述服务器720。
139.所述服务器720，用于基于所述注册音频，获取所述用户的声纹特征，并向所述电子设备710返回所述声纹特征。
140.所述电子设备710，用于获取所述用户的待降噪音频。
141.所述电子设备710，用于将所述待降噪音频和对应的所述声纹特征输入降噪模型，得到所述用户对应的降噪后的音频，所述降噪模型用于根据所述声纹特征从所述待降噪音频中得到所述用户对应的降噪后的音频。
142.需要说明的是，本技术中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。
143.下面将结合图15对本技术提供的一种电子设备或服务器进行说明。
144.请参阅图15，基于上述的音频降噪方法、装置，本技术实施例还提供的另一种可以执行前述音频降噪方法的电子设备或服务器800。电子设备或服务器800包括相互耦合的一个或多个(图中仅示出一个)处理器802、存储器804、以及网络模块806。其中，该存储器804中存储有可以执行前述实施例中内容的程序，而处理器802可以执行该存储器804中存储的程序。
145.其中，处理器802可以包括一个或者多个处理核。处理器802利用各种接口和线路连接整个电子设备或服务器800内的各个部分，通过运行或执行存储在存储器804内的指令、程序、代码集或指令集，以及调用存储在存储器804内的数据，执行服务器800的各种功能和处理数据。可选地，处理器802可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field－programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器802可集成中央处理器(central processing unit，cpu)、图像处理器(graphics processing unit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器802中，单独通过一块通信芯片进行实现。
146.存储器804可以包括随机存储器(random access memory，ram)，也可以包括只读存储器(read-only memory，rom)。存储器804可用于存储指令、程序、代码、代码集或指令集。存储器804可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备或服务器800在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
147.所述网络模块806用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块806可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(sim)卡、存储器等等。所述网络模块806可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块806可以与基站进行信息交互。
148.请参考图16，其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
149.计算机可读存储介质900可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、
eprom、硬盘或者rom之类的电子存储器。可选地，计算机可读存储介质900包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。
150.本实施例提供的一种音频降噪方法、装置、电子设备以及存储介质，首先获取用户的待降噪音频以及用户的声纹特征，然后将用户的待降噪音频和声纹特征一起输入到降噪模型中，降噪模型结合用户的声纹特征，从待降噪音频中找到与该身为声纹特征对应的音频，将与该声纹特征对应的音频进行输出，从而完成了对待降噪音频的降噪，得到了不包含其他用户的干扰音频以及背景噪音的与该声纹特征对应的用户的降噪后的音频，提高了对用户的待降噪音频的降噪效果。
151.上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种增强声音回响的班卓琴结构的制作方法

音频降噪方法、装置、电子设备及存储介质与流程

相关文献

最热文献