一种音频降噪方法、装置、设备及介质与流程

2021-09-04 08:38:00 来源：中国专利 TAG：介质装置音频申请方法

一种音频降噪方法、装置、设备及介质
1.本申请要求在2020年7月3日提交中华人民共和国知识产权局、申请号为202010635457.5、发明名称为“一种音频信号的处理方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。
技术领域
2.本发明涉及语音处理领域，尤其涉及一种音频降噪方法、装置、设备及介质。

背景技术：

3.在语音控制领域中，通常同一时间由一个用户发出语音控制命令，根据采集该用户的音频确定具体的命令意图。但在共享语音控制权限的场景中(例如，电梯场景)，多个用户均享有语音控制权限，若出现多个用户同一时间发出语音控制命令，被采集的音频中包含了多个用户的语音控制命令。从被采集的音频中分离出每个用户的语音控制命令音频的质量较差，造成无法确定每个用户的具体命令意图，还需要确认多个用户逐个发出语音控制命令，使得处理效率低下。

技术实现要素：

4.本发明提供一种音频降噪方法、装置、设备及介质，用以对对象的音频进行降噪处理，可以优化语音识别过程。
5.本发明的技术方案如下：
6.根据本发明实施例的第一方面，提供一种音频降噪方法，包括：
7.获取目标对象的语音音频；
8.基于频域与巴克域变换关系，确定目标语音信号在所述多个预设频率的幅值对应的目标巴克带，所述目标语音信号为所述语音音频的任一帧语音信号；
9.利用确定出的目标巴克带组成的矩阵，确定所述目标语音信号的音频特征；
10.将所述目标语音信号的音频特征输入降噪网络模型后，得到目标语音信号对应的音噪比值矩阵；
11.基于所述音噪比值矩阵，以及所述目标语音信号在所述多个预设频率的幅值，确定去噪后的所述目标语音信号。
12.一种可能的实施方式中，本发明实施例提供的音频降噪方法中，所述基于所述音噪比值矩阵，以及所述目标语音信号在所述多个预设频率的幅值，确定去噪后的目标语音信号，包括：
13.基于所述音噪比值矩阵，以及所述目标语音信号在所述多个预设频率的幅值，确定去噪后的目标语音信号在所述多个预设频率的幅值；
14.基于预设转换关系，将所述去噪后的所述目标语音信号在所述多个预设频率的幅值，转换为去噪后的所述目标语音信号。
15.一种可能的实施方式中，本发明实施例提供的音频降噪方法中，所述基于所述音
噪比值矩阵，以及所述目标语音信号在所述多个预设频率的幅值，确定去噪后的目标语音信号在所述多个预设频率的幅值，包括：
16.利用所述频域与巴克域变换关系，将所述音噪比值矩阵变换到频域后的矩阵确定为所述目标语音信号的降噪矩阵；
17.将所述目标语音信号在所述多个预设频率的幅值组成的第一矩阵，与所述目标语音信号的降噪矩阵的乘积，确定为第二矩阵，所述第二矩阵由去噪后的目标语音信号在所述多个预设频率的幅值组成的。
18.一种可能的实施方式中，本发明实施例提供的音频降噪方法中，所述获取所述目标对象的语音音频，包括：
19.获取多路音频信号，所述多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号，所述目标对象为所述多个对象中的任一对象；
20.基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵；
21.根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定每个对象的各帧语音信号在所述多个预设频率的幅值，根据所述每个对象的各帧语音信号在所述多个预设频率的幅值，确定每个对象的语音音频。
22.一种可能的实施方式中，本发明实施例提供的音频降噪方法中，所述各帧音频信号的解混矩阵，采用如下步骤确定：
23.确定每路音频信号中首帧音频信号的中间解混矩阵，并基于所述每路音频信号中首帧音频信号的中间解混矩阵，确定所述首帧音频信号的解混矩阵；
24.确定每路音频信号中非首帧音频信号的中间解混矩阵，并基于所述每路音频信号中非首帧音频信号的中间解混矩阵，确定所述非首帧音频信号的解混矩阵。
25.一种可能的实施方式中，本发明实施例提供的音频降噪方法中，所述降噪网络模型采用如下步骤进行训练：
26.将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵、以及所述纯噪声音频样本的音频特征、所述无噪声音频样本的音频特征作为神经网络模型的输入，将所述无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵为输出对所述神经网络进行训练；
27.将训练结束后的所述神经网络模型作为所述降噪网络模型；
28.其中，所述无噪声音频样本的音频特征是根据所述无噪声音频样本的巴克带矩阵确定的，所述纯噪声音频样本的音频特征是根据所述纯噪声音频样本的巴克带矩阵确定的。
29.一种可能的实施方式中，本发明实施例提供的音频降噪方法中，所述利用确定出的目标巴克带组成的矩阵，确定所述目标语音信号的音频特征，包括：
30.计算所述目标巴克带组成的矩阵中全部元素的平均值和方差；
31.将所述目标巴克带组成的矩阵进行预设处理后得到的矩阵，确定为所述目标语音信号的音频特征，其中，所述预设处理为对矩阵中的每个元素与所述平均值作差并除以所述方差。
32.根据本发明实施例的第二方面，提供一种音频降噪装置，包括：
33.获取单元，用于获取目标对象的音频信号；
34.处理单元，基于频域与巴克域变换关系，确定目标语音信号在所述多个预设频率的幅值对应的目标巴克带，所述目标语音信号为所述语音音频的任一帧语音信号；利用确定出的目标巴克带组成的矩阵，确定所述目标语音信号的音频特征；将所述目标语音信号的音频特征输入降噪网络模型后，得到目标语音信号对应的音噪比值矩阵；基于所述音噪比值矩阵，以及所述目标语音信号在所述多个预设频率的幅值，确定去噪后的所述目标语音信号。
35.一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元具体用于：
36.基于所述音噪比值矩阵，以及所述目标语音信号在所述多个预设频率的幅值，确定去噪后的目标语音信号在所述多个预设频率的幅值；
37.基于预设转换关系，将所述去噪后的所述目标语音信号在所述多个预设频率的幅值，转换为去噪后的所述目标语音信号。
38.一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元具体用于：
39.利用所述频域与巴克域变换关系，将所述音噪比值矩阵变换到频域后的矩阵确定为所述目标语音信号的降噪矩阵；
40.将所述目标语音信号在所述多个预设频率的幅值组成的第一矩阵，与所述目标语音信号的降噪矩阵的乘积，确定为第二矩阵，所述第二矩阵由去噪后的目标语音信号在所述多个预设频率的幅值组成的。
41.一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元具体用于：
42.获取多路音频信号，所述多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号，所述目标对象为所述多个对象中的任一对象；
43.基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵；
44.根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定每个对象的各帧语音信号在所述多个预设频率的幅值，根据所述每个对象的各帧语音信号在所述多个预设频率的幅值，确定每个对象的语音音频。
45.一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元具体用于：
46.采用如下步骤确定所述各帧音频信号的解混矩阵：
47.确定每路音频信号中首帧音频信号的中间解混矩阵，并基于所述每路音频信号中首帧音频信号的中间解混矩阵，确定所述首帧音频信号的解混矩阵；
48.确定每路音频信号中非首帧音频信号的中间解混矩阵，并基于所述每路音频信号中非首帧音频信号的中间解混矩阵，确定所述非首帧音频信号的解混矩阵。
49.一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元具体用
于：
50.采用如下步骤训练所述降噪网络模型：
51.将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵、以及所述纯噪声音频样本的音频特征、所述无噪声音频样本的音频特征作为神经网络模型的输入，将所述无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵为输出对所述神经网络进行训练；
52.将训练结束后的所述神经网络模型作为所述降噪网络模型；
53.其中，所述无噪声音频样本的音频特征是根据所述无噪声音频样本的巴克带矩阵确定的，所述纯噪声音频样本的音频特征是根据所述纯噪声音频样本的巴克带矩阵确定的。
54.一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元具体用于：
55.计算所述目标巴克带组成的矩阵中全部元素的平均值和方差；
56.将所述目标巴克带组成的矩阵进行预设处理后得到的矩阵，确定为所述目标语音信号的音频特征，其中，所述预设处理为对矩阵中的每个元素与所述平均值作差并除以所述方差。
57.根据本发明实施例的第三方面，提供一种音频降噪设备，包括：
58.处理器；
59.用于存储处理器可执行指令的存储器；
60.其中，处理器被配置为执行指令以实现第一方面中任一项的音频降噪方法。
61.根据本发明实施例的第四方面，提供一种存储介质，当存储介质中的指令由音频降噪设备的处理器执行时，使得音频降噪设备能够执行第一方面中任一项的音频降噪方法。
62.本发明的实施例提供的技术方案至少带来以下有益效果：
63.对目标对象的语音音频中的任一帧语音信号，也即目标语音信号进行降噪的过程中，利用目标语音信号的音频特征和降噪网络模型，确定目标语音信号对应的音噪比值矩阵。该音噪比值矩阵可以用于对相应的语音信号进行降噪处理。基于目标语音信号在多个预设频率的幅值以及该目标语音信号对应的音噪比值矩阵，可以确定去噪后的目标语音信号，实现对所述目标对象的任一帧语音信号进行降噪，从而实现对目标对象的语音音频降噪，有利于优化语音识别过程，提升对象语音识别效率。
附图说明
64.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理，并不构成对本发明的不当限定。
65.图1是根据一示例性实施例示出的一种音频信号的处理方法的示意流程图。
66.图2是根据一示例性实施例示出的另一种音频信号的处理方法的示意流程图。
67.图3是根据一示例性实施例示出的音频降噪方法信号流向示意图。
68.图4是根据一示例性实施例示出的又一种音频降噪方法的示意流程图。
69.图5是根据一示例性实施例示出的一种音频降噪装置的结构示意图。
70.图6是根据一示例性实施例示出的一种音频降噪设备的结构示意图。
71.图7是根据一示例性实施例示出的另一种音频降噪设备的结构示意图。
具体实施方式
72.为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
73.本发明实施例描述的应用是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。
74.本发明实施例中的音频降噪方法，可以应用于识别多人(多个对象)同时进行语音控制的场景。例如，电梯的语音控制场景、智能汽车的语音控制场景、其他语音控制智能设备的语音控制场景等。
75.在语音控制的场景中，尤其是多个对象发出语音控制命令的场景中，在第一种实现方式中，可以在从采集的音频中分离每个对象的音频信号过程中，采用本发明实施例提供的音频降噪方法，这样的设计可以实现从采集的音频中分离出降噪后的各对象的音频。在第二种实现方式中，也可以从采集的音频中分离出每个对象的音频，然后对各对象的音频进行降噪处理。在对任意一个对象的音频进行降噪处理时，可以采用本发明实施例提供的音频降噪方法。
76.下面首先对从采集的音频中分离每个对象的音频信号的过程进行介绍。图1是根据一示例性实施例示出的一种音频信号的处理方法的流程示意图，如图1所示，音频信号的处理方法，包括以下步骤：
77.步骤s101，获取多路音频信号，多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号。
78.具体实施时，在同一场景中，利用多个音频采集设备采集多路音频信号，例如，每个音频采集设备采集一路音频信号，音频采集设备可以是麦克风等设备。由于在同一场景中，例如电梯场景中，乘坐者通过语音控制命令控制电梯停靠某个楼层，当多个乘坐者同时发出语音控制命令时，因采集的音频为混有多个乘坐者的语音，导致无法识别每一个乘坐者的语音，可以在电梯场景中可以通过本发明实施例提供的音频信号的处理方法确定出每一个乘坐者的语音，可以对每一个乘坐者的语音进行语义识别，从而实现确定每一个乘坐者的语音控制命令。需要说明的是，本发明实施例中提供的音频信号的处理方法可以应用于带有唤醒词的语音控制场景中，也可以应用于无唤醒词的语音控制场景中。
79.在实际应用场景中，为了提升确定出的每个乘坐者的语音信号的效果，可以增加对音频采集设备采集条件的限定，例如，音频采集设备以预设采样频率(如16000hz)进行音频信号的采集等。为便于对本发明实施例提供的音频信号的处理方法的描述，获取的多路音频信号中第m路音频信号记为x
m
。
80.步骤s102，基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅
值，确定各帧音频信号的幅值矩阵。
81.具体实施时，根据采集频率确定可以确定每路音频信号都包含数量相同帧音频信号，第m路音频信号的第n帧音频信号记为x
m
(n)。利用短时傅里叶变换方法，可以确定每路音频信号中各帧音频信号在多个预设频率的幅值，例如，第m路音频信号的第n帧音频信号在多个预设频率中的第k个频率(频点)的幅值记为x
m
(k,n)，需要说明的是，本申请的音频信号由时域变到频域后在多个预设频率上的幅值实际为一个复数(包含实部和虚部)。根据每路音频信号中各帧音频信号在多个预设频率的幅值，可以确定各帧音频信号的幅值矩阵x，例如
82.步骤s103，根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定每个对象的各帧语音信号在多个预设频率的幅值。
83.具体实施时，利用各帧音频信号的幅值矩阵x，以及预先确定的各帧音频信号的解混矩阵w，将解混矩阵w的共轭矩阵w
h
与各帧音频信号的幅值矩阵这两个矩阵的乘积w
h
x＝y。
84.然后，基于各帧语音信号的幅值矩阵y、多路音频的路数，确定每个对象的各帧语音信号在多个预设频率的幅值。
85.通常，获取的多路音频信号的路数大于或等于对象数量。各帧音频信号的幅值矩阵y中包含全部对象的各帧语音信号在多个预设频率的幅值。
86.若获取的多路音频信号的路数num大于实际对象数量为p，各帧音频信号的幅值矩阵其中，y1(k,n)为第一个对象的语音信号的幅值矩阵，y
p
(k,n)为第p个对象的语音信号的幅值矩阵，y
p 1
(k,n)至y
num
(k,n)为包含p个对象的语音泄露信号的幅值矩阵。
87.若获取的多路音频信号的路数num等于实际对象数量为p，各帧语音信号的幅值矩阵y1(k,n)为第一个对象的语音信号的幅值矩阵，y
p
(k,n)为第p个对象的语音信号的幅值矩阵。
88.在矩阵计算过程中，第n帧、第k个频率的音频信号的幅值x(k，n)的矩阵的行数和列数均为定值，第n帧、第k个频率的解混矩阵w(k，n)的矩阵的行数和列数均为定值。第n帧，第k个频率的语音信号幅值矩阵y(k，n)的行数和列数可以根据音频信号的幅值矩阵与解混矩阵之间的矩阵计算结果进行确定。因而，可以从各帧语音信号的幅值矩阵中逐个确定出每个对象的语音信号的幅值矩阵，例如，第n帧，第k个频率的语音信号幅值矩阵y(k，n)的行数为d，各帧语音信号的幅值矩阵y，前d行的元素构成了第一个对象的语音信号的幅值矩阵，第d 1行至第2d行之间的元素构成了第二个对象的语音信号的幅值矩阵。因此，可以从
各帧音频信号的幅值矩阵y中确定每个对象的各帧语音信号在多个预设频率的幅值。不需要在时域中，区分各帧音频信号的幅值矩阵y中哪些是包含实际对象的语音信号幅值矩阵，哪些是包含对象的音频泄露信号的幅值矩阵，减少数据计算量和复杂度。
89.在实际应用中，可以将确定出的每个对象的各帧语音信号的幅值变换到时域中，通过语音识别的方式，确定是否为对象的语音音频，以及是否无效对象的语音音频(包含对象的音频泄露信号的幅值矩阵对应的音频)。也可以结合图像识别的方式，通过采集包含多个对象的图像，确定对象数量p，将确定出的num个对象的语音信号的幅值矩阵中，前p个对象的语音信号的幅值矩阵，确定包含各对象的语音信号的幅值矩阵。
90.一种可能的实施方式中，预先确定的各帧音频信号的解混矩阵，采用如下步骤确定：
91.确定每路音频信号中首帧音频信号的中间解混矩阵，并基于每路音频信号中首帧音频信号的中间解混矩阵，确定首帧音频信号的解混矩阵；
92.确定每路音频信号中非首帧音频信号的中间解混矩阵，并基于每路音频信号中非首帧音频信号的中间解混矩阵，确定非首帧音频信号的解混矩阵。
93.具体实施时，各帧音频信号的解混矩阵w，其中第n帧，第k个频点的解混矩阵记为w
m
(k,n)表示第m路音频信号的第n帧音频信号在多个预设频率中的第k个频率(频点)的中间解混矩阵，w
m
(k,1)表示第m路音频信号中首帧音频信号(n＝1)的中间解混矩阵记，根据所有路音频信号中首帧音频信号的中间解混矩阵，可以确定首帧音频信号的解混矩阵第m路音频信号中非首帧音频信号(n≠1)的中间解混矩阵记为w
m
(k,n)，根据所有路音频信号中第n帧音频信号的中间解混矩阵，可以确定第n帧音频信号的解混矩阵实现确定每帧音频信号的解混矩阵，需要说明的是，为了便于区分中间解混矩阵与解混矩阵，本发明实施例中的中间解混矩阵为每路音频信号中各帧音频信号的中间解混矩阵，解混矩阵是由每路音频信号中帧次序相同的音频信号的中间解混矩阵组成的矩阵。也即，中间解混矩阵中仅包含一路音频信号中一帧音频信号的信息，解混矩阵中包含多路音频信号中帧次序相同的音频信号的信息。
94.在实际应用场景中，确定每路音频信号中首帧音频信号的中间解混矩阵，包括：
95.针对每路音频信号，将预设矩阵确定为该路音频信号中首帧音频信号的中间解混矩阵。
96.具体实施时，针对每路音频信号首帧音频信号的中间解混矩阵，可以设置为单位矩阵，也即预设矩阵设置为单位矩阵，例如第m路音频信号中首帧音频信号(n＝1)的中间解混矩阵w
m
(k,1)中每个频点的幅值均为1，假设预设多个频点数量k＝3，那么
97.在实际应用场景中，确定每路音频信号中非首帧音频信号的中间解混矩阵，包括：
98.针对每路音频信号中非首帧音频信号：
99.根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵，确定当前帧音频信号的信号能量；
100.基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵，确定当前帧音频信号的协方差矩阵；
101.依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵，确定当前帧音频信号的中间解混矩阵；
102.其中，各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的。
103.具体实施时，确定每路音频信号中非首帧音频信号的中间解混矩阵时，针对第m路音频信号中的当前帧音频信号(第n帧音频信号)，进行如下处理：
104.根据第n帧音频信号在多个预设频率的幅值x
m
(k,n)，前一帧音频信号的解混矩阵w(k,n
‑
1)中可以确定出第m路音频信号的前一帧音频信号的中间解混矩阵w
m
(k,n
‑
1)，然后通过如下公式确定每路音频信号中当前帧音频信号(n≠1)的信号能量：其中，为w
m
(k,n
‑
1)的共轭矩阵。
105.基于第n帧音频信号的能量r
m
(n)、第n帧音频信号在多个预设频率的幅值x
m
(k,n)、以及前一帧音频信号的协方差矩阵v
m
(k,n
‑
1)，通过公式确定第m路音频信号中第n帧音频信号的协方差矩阵，其中a为预设平滑系数，在实际应用场景中g
·
(r
m
(n))的值可以取1。
106.根据第m路音频信号中第n帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵w(k,n
‑
1)，通过公式w
m
(k,n)＝(w(k,n
‑
1)v
m
(k,n))
‑1e
k
，确定出第m路音频信号中第n帧音频信号的中间解混矩阵w
m
(k,n)。
107.需要说明的是，由于各路首帧音频信号的中间解混矩阵是根据预设矩阵确定的，各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的，其中，确定协方差矩阵时的平滑系数a的值可以等于0。
108.步骤s104，根据每个对象的各帧语音信号在多个预设频率的幅值，确定每个对象的语音音频。
109.具体实施时，可以根据步骤s102中预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值的方法，确定将每个对象的各帧语音信号在多个预设频率的幅值转换为确定每个对象的语音音频的方法。
110.例如，基于预设转换关系，将每个对象的各帧语音信号在多个预设频率的幅值，转
换为每个对象的各帧语音信号。在实际应用场景中，例如，预先确定每路音频信号中各帧音频信号在多个预设频率的幅值采用短时傅里叶变换，那个预设转换关系可以是短时傅里叶变换的逆变换，将每个对象的各帧语音信号在多个预设频率的幅值y
p
(k,n)，通过预设转换关系，转换为各帧语音信号y
p
(n)。将每个对象的各帧语音信号y
p
(n)，根据帧时序关系，将各帧语音信号拼接得到每个对象的语音音频y
p
＝{y
p
(1)
ꢀ…ꢀ
y
p
(n)}。
111.由于日常环境中充斥着噪声，利用多个音频采集设备采集多路音频信号时，环境中的噪声也被采集。为提升每个对象的语音音频的质量，可以在确定每个对象的语音音频之后，对语音音频进行降噪处理。也可以在确定每个对象的语音音频之前，在确定每个对象的各帧语音信号在多个预设频率的幅值之后，进行降噪处理。
112.在步骤s103中可以确定出每个对象的各帧语音信号在多个预设频率的幅值，也即获得每个对象的语音信号，在执行步骤s104之前，可以对每个对象的语音信号进行降噪处理，例如，通过对每个对象的各帧语音信号在多个预设频率的幅值的降噪处理，实现对每个对象的语音信号进行降噪处理，从而实现可以对从混合多个对象的音频信号中分离出的每个对象的语音音频进行降噪处理。
113.对目标对象的语音音频进行音频降噪时，可以基于频域与巴克域变换关系，确定目标语音信号在多个预设频率对应的目标巴克带，目标语音信号为目标对象的语音音频的任一帧语音信号，目标对象可以为多个对象中的任一对象。
114.具体实施时，若在确定每个对象的语音音频之后，对语音音频进行降噪处理，可以将多个对象中的任一对象作为目标对象，将目标对象的语音音频的任一帧n语音信号y
p
(n)作为目标语音信号，对目标语音信号进行频域变换(如短时傅里叶变换)后可以得到多个预设频率的幅值y
p
(k,n)，利用频域与巴克域变换关系，确定目标语音信号在多个预设频率的幅值y
p
(k,n)对应的巴克带(目标巴克带)。
115.若在确定每个对象的语音音频之前，在确定每个对象的各帧语音信号在多个预设频率的幅值之后，进行降噪处理，也可以利用频域与巴克域变换关系，直接确定目标语音信号在多个预设频率的幅值y
p
(k,n)对应的巴克带(目标巴克带)，其中目标语音信号为任意对象的任一帧语音信号。
116.例如，y
p
(1,n)对应的巴克带为b1，y
p
(2,n)对应的巴克带为b2，y
p
(3,n)对应的巴克带为b3，
…
，y
p
(k,n)对应的巴克带为bm，可以得到目标巴克带组成的矩阵b＝[b1 b2 b3
ꢀ…ꢀ
bm]。
[0117]
然后，利用确定出的目标巴克带组成的矩阵，确定目标语音信号的音频特征。在频域与巴克域变换关系中，若频率k1和k2属于同一频带，则频率k1和频率k2对应的巴克带相同，目标巴克带组成矩阵会出现相邻的频率的巴克带相同，例如[b1 b1 b3
ꢀ…ꢀ
bm]，对重复的巴克带仅保留一个巴克带，删除重复的巴克带，例如，[b1 b1 b3
ꢀ…ꢀ
bm]变为[b1 b3
ꢀ…ꢀ
bm]，将删除重复的巴克带的矩阵b，直接确定为目标语音信号的音频特征，也可以对删除重复的巴克带的矩阵b输入预设高通滤波器进行滤波处理，将滤波后的矩阵作为目标语音信号的音频特征。
[0118]
在对目标巴克带组成矩阵进行删除重复的巴克带的操作后的矩阵b中全部元素的平均值a和方差s。按照预设处理对矩阵b进行处理，预设处理可以是使矩阵b中的每个元素都与平均值作差，然后除以方差，如矩阵b中的任意元素(b
i,j
‑
a)/s。矩阵b经过预设处理后
得到的矩阵m，可以确定为是目标语音信号的音频特征。
[0119]
本申请提供一种降噪网络模型，降噪网络模型训练过程如下：
[0120]
将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵、以及纯噪声音频样本的音频特征、无噪声音频样本的音频特征作为神经网络模型的输入，将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵为输出对神经网络进行训练；
[0121]
将训练结束后的神经网络模型作为降噪网络模型；
[0122]
其中，无噪声音频样本的音频特征是根据无噪声音频样本的巴克带矩阵确定的，纯噪声音频样本的音频特征是根据纯噪声音频样本的巴克带矩阵确定的。
[0123]
具体实施时，将无噪声音频样本变换到频域中，并根据频域与巴克域变换关系，确定无噪声音频样本对应的巴克带矩阵，将删除重复的巴克带操作后的巴克带矩阵m1做为该无噪声音频样本的音频特征，也可以将矩阵m1输入预设高通滤波器进行滤波处理，将滤波后的矩阵作为该无噪声音频样本的音频特征。同样的处理方式，将纯噪声音频样本变换到频域中，根据频域与巴克域变换关系，确定纯噪声音频样本对应的巴克带矩阵，将删除重复的巴克带操作后的巴克带矩阵m2做为该纯噪声音频样本的音频特征，也可以将矩阵m2输入预设高通滤波器进行滤波处理，将滤波后的矩阵作为该纯噪声音频样本的音频特征。需要说明的是，无噪声音频样本是指音频中为不含有噪声的纯语音音频，纯噪声音频样本是指音频中为仅包含噪声的音频。
[0124]
可以根据将无噪声音频样本的巴克带矩阵m1与纯噪声音频样本的巴克带矩阵m2点除后得到的音噪比值矩阵，也即使矩阵m1中每一元素m1
i,j
除以矩阵m2中对应的元素m2
i,j
，得到的比值z
i,j
组成了音噪比值矩阵z。
[0125]
将音噪比值矩阵z、纯噪声音频样本的音频特征以及无噪声音频样本的音频特征作为神经网络模型的输入，并以音噪比值矩阵z作为神经网络模型的输出为目标进行训练，也可以使输出的矩阵逼近与音噪比值矩阵z为目标进行训练。将训练后的神经网络模型作为降噪网络模型，应用于降噪处理过程。还可以设置目标迭代次数，当训练神经网络模型时的迭代次数达到目标迭代次数时，确定神经网络模型训练结束，并将训练后的神经网络模型作为降噪网络模型。在实际应用场景中，神经网络模型可以是长短期记忆网络(long short
‑
term memory，lstm)。
[0126]
将目标语音信号的音频特征输入降噪网络模型后，得到目标语音信号对应的音噪比值矩阵z
p
(n)(对象p的第n帧语音信号的音噪比值矩阵)。
[0127]
基于目标语音信号对应的音噪比值矩阵z
p
(n)，以及目标语音信号在多个预设频率的幅值y
p
(k,n)，可以确定去噪后的目标语音信号在多个预设频率的幅值。
[0128]
例如，基于目标语音信号对应的音噪比值矩阵z
p
(n)，可以确定目标语音信号对应的降噪矩阵。然后利用目标语音信号对应的降噪矩阵以及目标语音信号在多个预设频率的幅值y
p
(k,n)，可以确定去噪后的目标语音信号在多个预设频率的幅值。
[0129]
具体实施时，基于目标语音信号对应的音噪比值矩阵z
p
(n)，确定目标语音信号对应的降噪矩阵时，可以利用频域与巴克域变换关系，将目标语音信号对应的音噪比值矩阵z
p
(n)变换到频域中，将变换到频域中的矩阵t确定为目标语音信号的降噪矩阵，矩阵t(k,n)中的元素为目标语音信号多个预设频率对应的掩膜值。利用目标语音信号对应的降噪矩
阵以及目标语音信号在多个预设频率的幅值y
p
(k,n)，确定去噪后的目标语音信号在多个预设频率的幅值时，可以将目标语音信号在多个预设频率的幅值y
p
(k,n)组成的第一矩阵y与目标语音信号的降噪矩阵t相乘，得到第二矩阵c，第二矩阵c中的元素为去噪后的目标语音信号在多个预设频率的幅值。
[0130]
通过上述过程，可以实现对目标语音信号在频率中去噪处理。进一步地，基于预设转换关系，将去噪后的目标语音信号在多个预设频率的幅值，转换为去噪后的目标语音信号。在实际应用场景中，例如，预先确定每路音频信号中各帧音频信号在多个预设频率的幅值采用短时傅里叶变换，则预设转换关系可以是短时傅里叶变换的逆变换，将去噪后的目标音频信号在说个预设频率的幅值，通过预设转换关系，转换为去噪后的目标语音信号c
p
(n)。
[0131]
将每个对象的去噪后的各帧语音信号c
p
(n)，根据帧时序关系，将去噪后的各帧语音信号拼接得到每个对象的去噪后的语音音频c
p
＝{c
p
(1)
…
c
p
(n)}。在本申请实施例中，不仅从获取的多路音频信号中分离出每个对象的语音音频，同时去除分离出的语音音频中的背景噪声或散射噪声，增强语音音频，在语音控制电梯场景中或者语音控制智能汽车场景中，增强后的语音音频可以提升对电梯或智能汽车的控制效果。
[0132]
图2为根据一示例性示出的音频分离方法的示意流程图，如图2所示，音频分离方法，包括：
[0133]
步骤s201，获取多路音频信号。
[0134]
具体实施时，多路音频信号是以利用设置在统一场景中的多个音频采集设备采集的，并且每路音频信号中混有多个对象的语音信号。其中，多个对象可指多个说话人，语音信号可指多个说话人的语音。如图3示出音频分离方法信号流向示意图，获取的多路音频信号记为x
m
，每路音频信号中各帧音频信号记为x
m
(n)。
[0135]
步骤s202，确定每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵。
[0136]
具体实施时，如图3所示，可以通过图3中示出的短时傅里叶变换301，将每路音频信号中各帧音频信号通过变换确定其在频域中多个预设频率的幅值x
m
(k，n)，并组成各帧音频信号的幅值矩阵
[0137]
步骤s203，确定各帧音频信号的解混矩阵。
[0138]
具体实施时，确定各帧音频信号的解混矩阵是一个迭代的过程，也即确定当前帧音频信号的解混矩阵，需要基于前一帧音频信号的解混矩阵进行确定。针对任一频点k，第n帧音频信号的解混矩阵w(k，n)，是由各路音频信号中第n帧音频信号的中间解混矩阵w
m
(k，n)确定的，
[0139]
若第n帧音频信号为非首帧音频信号(n≠1)，采用如下过程确定每路音频信号中第n帧音频信号的中间解混矩阵：
[0140]
根据当前帧音频信号在多个预设频率的幅值以及前一帧音频信号的解混矩阵，确
定当前帧音频信号的信号能量；
[0141]
基于当前帧音频信号的信号能量、当前帧音频信号在多个预设频率的幅值、以及前一帧音频信号的协方差矩阵，确定当前帧音频信号的协方差矩阵；
[0142]
依据当前帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵，确定当前帧音频信号的中间解混矩阵。
[0143]
具体实施时，根据第n帧音频信号在多个预设频率的幅值x
m
(k，n)，前一帧音频信号的解混矩阵w(k，n
‑
1)中可以确定出第m路音频信号的前一帧音频信号的中间解混矩阵w
m
(k，n
‑
1)，然后通过如下公式确定每路音频信号中当前帧音频信号(n≠1)的信号能量：
[0144]
基于第n帧音频信号的能量r
m
(n)、第n帧音频信号在多个预设频率的幅值x
m
(k，n)、以及前一帧音频信号的协方差矩阵v
m
(k，n
‑
1)，通过公式确定第m路音频信号中第n帧音频信号的协方差矩阵，其中a为预设平滑系数，在实际应用场景中g
·
(r
m
(n))的值可以取1。
[0145]
根据第m路音频信号中第n帧音频信号的协方差矩阵以及前一帧音频信号的解混矩阵w(k，n
‑
1)，通过公式w
m
(k，n)＝(w(k，n
‑
1)v
m
(k，n))
‑1e
k
，确定出第m路音频信号中第n帧音频信号的中间解混矩阵w
m
(k,n)。
[0146]
若第n帧音频信号为首帧音频信号(n＝1)，将预设矩阵确定为每路音频信号中首帧音频信号的中间解混矩阵，例如预设矩阵可以为单位矩阵，各路首帧音频信号的协方差矩阵是基于预设矩阵以及各路音频信号中首帧音频信号在多个预设频率的幅值确定的，其中，确定协方差矩阵时的平滑系数a的值可以等于0。
[0147]
步骤s204，确定每个对象的各帧语音信号在多个预设频率的幅值。
[0148]
具体实施时，针对任一频点k，利用第n帧音频信号的幅值矩阵x(k，n)以及第n帧音频信号的解混矩阵w(k，n)，通过x(k，n)w(k，n)＝y(k，n)。通常，获取的多路音频信号的路数num大于或等于对象数量。各帧音频信号的幅值矩阵y中包含全部对象的各帧语音信号在多个预设频率的幅值，若对象数量为2，则y1(k，n)为第一个对象的语音信号的幅值矩阵，y2(k，n)为第二个对象的语音信号的幅值矩阵。
[0149]
步骤s205，根据每个对象的各帧语音信号在多个预设频率的幅值，确定每个对象的语音音频。
[0150]
具体实施时，可以通过如图3中示出的短时傅里叶逆变换302，将每个对象的第n帧语音信号在多个预设频率的幅值，转换为每个对象第n帧的语音音频。每个对象的语音音频由全部帧语音音频组成，实现从混合多个对象的音频信号中分离出每个对象的语音音频。
[0151]
图4根据一示例性实施例示出了一种音频降噪方法的示意流程图，包括如下步骤：
[0152]
步骤s401，获取目标对象的音频信号。
[0153]
本申请实施例提供的音频降噪方法中可以采用上述音频分离方法获得至少一个对象的音频信号，也可以采用其它方式获得至少一个对象的音频信号。对于至少一个对象中的任意一个对象(目标对象)的音频信号进行降噪处理，可以对目标对象的音频信号的各帧语音信号进行降噪处理，例如对各帧语音信号在多个预设频率的幅值进行降噪处理。
[0154]
一种可能的实施方式中，可以通过执行上述步骤s201至步骤s205中的操作，获得每个对象的音频信号。也可以通过执行上述步骤s201至步骤s204中的操作，获得每个对象的各帧语音信号在多个预设频率的幅值。
[0155]
步骤s402，基于频域与巴克域变换关系，确定目标语音信号在多个预设频率的幅值对应的目标巴克带，目标语音信号为目标对象的语音音频的任一帧语音信号，目标对象为多个对象中的任一对象。
[0156]
具体实施时，目标对象为多个对象中的任一对象p，目标语音信号为目标对象的语音音频的任一帧n语音信号，目标语音信号在多个预设频域的幅值可记为y
p
(k，n)。通过频域与巴克域变换关系，确定目标语音信号在多个预设频率的幅值y
p
(k，n)对应的巴克带(目标巴克带)。
[0157]
步骤s403，利用确定出的目标巴克带组成的矩阵，确定目标语音信号的音频特征。
[0158]
具体实施时，去掉确定出的目标巴克带中重复的巴克带，并组成矩阵，将该矩阵确定为目标语音信号的音频特征。也可计算该矩阵中全部元素的平均值和方差，将该矩阵中每个元素与平均值作差并除以方差后的矩阵确定为目标语音信号的音频特征。
[0159]
步骤s404，将目标语音信号的音频特征输入降噪网络模型后，得到目标语音信号对应的音噪比值矩阵。
[0160]
具体实施时，将目标语音信号的音频特征输入预先训练的降噪网络模型后，输出目标语音信号对应的音噪比值矩阵。
[0161]
步骤s405，基于所述音噪比值矩阵，以及所述目标语音信号在所述多个预设频率的幅值，确定去噪后的所述目标语音信号。
[0162]
具体实施时，基于音噪比值矩阵和目标语音信号在多个预设频率的幅值，可以确定去噪后的目标语音信号在多个预设频率的幅值。例如，利用频域与巴克域变换关系，将音噪比值矩阵变换到频域后的矩阵确定为目标语音信号的降噪矩阵，将目标语音信号在多个预设频率的幅值组成的第一矩阵，与目标语音信号的降噪矩阵的乘积，确定为第二矩阵，第二矩阵由去噪后的目标语音信号在多个预设频率的幅值组成的。
[0163]
然后，基于预设转换关系，将去噪后的目标语音信号在多个预设频率的幅值，转换为去噪后的目标语音信号。例如，预先确定每路音频信号中各帧音频信号在多个预设频率的幅值采用短时傅里叶变换，则预设转换关系可以是短时傅里叶变换的逆变换，将去噪后的目标音频信号在说个预设频率的幅值，通过预设转换关系，转换为去噪后的目标语音信号。
[0164]
一种可能的实施方式中，根据帧时序关系，将去噪后的各帧语音信号进行拼接可以得到目标对象的去噪后的语音音频。
[0165]
在分别在安静环境中和有干扰环境中，利用音频播放设备(如蓝牙音箱)播放已知声源s，由多个麦克风采集多路音频信号，利用本申请实施例提供的音频降噪方法对采集的多路音频信号进行分离和去噪处理，处理后的语音音频记为c。
[0166]
分别统计安静环境中和有干扰环境中的信噪比将安静环境中的信噪比记为sdr_ref，有干扰环境中的信噪比记为sdri，有干扰环境中存在干扰源数量记为i(干扰源能量水平位于55
‑
60db)。测试结果如下表1所示：
[0167]
表1
[0168]
干扰源数量i12346sdri
‑
sdr_ref16db13db10db9db8db
[0169]
另外，分别统计安静环境中和有干扰环境中的信号与干扰加噪声比其中n为声源s录制时的背景噪声，v为干扰环境中的干扰源。在不同输入信号与干扰加噪声比in_sinr的情况下，进行分离和去噪处理后的语音音频为c对应的信号与干扰加噪声比提升情况如下表2所示：
[0170]
表2
[0171]
in_sinr
‑
5db0db5dbsinri15
‑
20db15
‑
20db15
‑
20db
[0172]
若将进行分离和去噪处理后的语音音频为c利用普通唤醒模型进行唤醒词识别，在不同输入信号与干扰加噪声比in_sinr的情况下的唤醒成功率(识别出唤醒词次数/包含唤醒词句子总数)如下表3所示：
[0173]
表3
[0174]
in_sinr
‑
5db0db5db唤醒成功率83％
‑
95％87％
‑
98％90％
‑
100％
[0175]
图5是根据一示例性实施例示出的一种音频降噪装置结构示意图，如图5所示，该装置包括获取单元501和处理单元502。
[0176]
获取单元501，用于获取多路音频信号，多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号；
[0177]
处理单元502，用于针对所述音频信号的每一帧语音信号，确定所述语音信号的音频特征，并基于所述音频特征，确定所述语音信号对应的降噪矩阵；以及根据所述降噪矩阵和所述语音信号，确定所述语音信号降噪后的语音信号；以及根据降噪后的每帧语音信号，确定所述目标对象降噪后的音频信号。
[0178]
一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元502具体用于：
[0179]
基于所述音噪比值矩阵，以及所述目标语音信号在所述多个预设频率的幅值，确定去噪后的目标语音信号在所述多个预设频率的幅值；
[0180]
基于预设转换关系，将所述去噪后的所述目标语音信号在所述多个预设频率的幅值，转换为去噪后的所述目标语音信号。
[0181]
一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元502具体用于：
[0182]
利用频域与巴克域变换关系，将所述音噪比值矩阵变换到频域后的矩阵确定为所
述目标语音信号的降噪矩阵；
[0183]
将所述目标语音信号在所述多个预设频率的幅值组成的第一矩阵，与所述目标语音信号的降噪矩阵的乘积，确定为第二矩阵，所述第二矩阵由去噪后的目标语音信号在所述多个预设频率的幅值组成的。
[0184]
一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元502具体用于：
[0185]
获取多路音频信号，所述多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号，所述目标对象为所述多个对象中的任一对象；
[0186]
基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵；
[0187]
根据所述各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定每个对象的各帧语音信号在所述多个预设频率的幅值，根据所述每个对象的各帧语音信号在所述多个预设频率的幅值，确定每个对象的语音音频。
[0188]
一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元502具体用于：
[0189]
采用如下步骤确定所述各帧音频信号的解混矩阵：
[0190]
确定每路音频信号中首帧音频信号的中间解混矩阵，并基于所述每路音频信号中首帧音频信号的中间解混矩阵，确定所述首帧音频信号的解混矩阵；
[0191]
确定每路音频信号中非首帧音频信号的中间解混矩阵，并基于所述每路音频信号中非首帧音频信号的中间解混矩阵，确定所述非首帧音频信号的解混矩阵。
[0192]
一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元502具体用于：
[0193]
采用如下步骤训练所述降噪网络模型：
[0194]
将无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵、以及所述纯噪声音频样本的音频特征、所述无噪声音频样本的音频特征作为神经网络模型的输入，将所述无噪声音频样本的巴克带矩阵与纯噪声音频样本的巴克带矩阵点除后得到的音噪比值矩阵为输出对所述神经网络进行训练；
[0195]
将训练结束后的所述神经网络模型作为所述降噪网络模型；
[0196]
其中，所述无噪声音频样本的音频特征是根据所述无噪声音频样本的巴克带矩阵确定的，所述纯噪声音频样本的音频特征是根据所述纯噪声音频样本的巴克带矩阵确定的。
[0197]
一种可能的实施方式中，本发明实施例提供的音频降噪装置中，处理单元502具体用于：
[0198]
计算所述目标巴克带组成的矩阵中全部元素的平均值和方差；
[0199]
将所述目标巴克带组成的矩阵进行预设处理后得到的矩阵，确定为所述目标语音信号的音频特征，其中，所述预设处理为对矩阵中的每个元素与所述平均值作差并除以所述方差。
[0200]
基于上述本发明实施例相同构思，图6是根据一示例性实施例示出的音频降噪设
备600的结构示意图，如图6所示，本发明实施例示出的音频降噪设备600包括：
[0201]
处理器610；
[0202]
用于存储处理器610可执行指令的存储器620；
[0203]
其中，处理器610被配置为执行指令，以实现本发明实施例中音频降噪方法。
[0204]
在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器620，上述指令可由音频降噪装置的处理器610执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd
‑
rom、磁带、软盘和光数据存储设备等。
[0205]
另外，结合图1、2、3、4所描述的本发明实施例提供的音频降噪方法及装置可以由音频降噪设备来实现。图7示出了本发明实施例提供的音频降噪设备结构示意图。
[0206]
该音频降噪设备可以包括处理器701以及存储有计算机程序指令的存储器702。
[0207]
具体地，上述处理器701可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，asic)，或者可以被配置成实施本发明实施例的一个或多个集成电路。
[0208]
存储器702可以包括用于存储数据或指令的大容量存储器。举例来说而非限制，存储器702可包括硬盘驱动器(hard disk drive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在数据处理装置的内部或外部。在特定实施例中，存储器702是非易失性固态存储器。在特定实施例中，存储器702包括只读存储器(rom)。在合适的情况下，该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。
[0209]
处理器701通过读取并执行存储器702中存储的计算机程序指令，以实现上述实施例中的音频降噪方法。
[0210]
在一个示例中，该音频降噪设备还可包括通信接口703和总线710。其中，如图7所示，处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。
[0211]
通信接口703，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
[0212]
总线710包括硬件、软件或两者，将该音频降噪设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(agp)或其它图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci
‑
express(pci
‑
x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其它合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线710可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。
[0213]
另外，结合上述实施例中的音频降噪方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一项音频降噪方法。
[0214]
本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序
产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
[0215]
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0216]
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0217]
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0218]
尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
[0219]
显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音转换方法、装置、设备及存储介质与流程

一种音频降噪方法、装置、设备及介质与流程

相关文章

最热文献