音频信号处理方法、装置及电子设备与流程

2022-06-16 02:23:43 来源：中国专利 TAG：

1.本技术涉及音频处理技术领域，更具体地说，涉及一种音频信号处理方法、装置及电子设备。

背景技术：

2.在音频处理过程中，通过波达方向(direction of arrival，doa)估计算法可以用于确定声源相对于音频采集装置的方向信息，基于该方向信息可以对相应方向上的音频信号进行语音增强。
3.在音频会议或者语音控制等音频处理场景中，需要准确定位用户的发声方向。然而，在音频采集过程中，如果音频采集设备所处的环境中存在突发的干扰噪声，那么就可能会将噪声源所在方向确定为需要语音增强的方向，从而导致语音增强错误，进而影响到音频处理效果。

技术实现要素：

4.本技术提供了一种音频信号处理方法、装置及电子设备。
5.其中，一种音频信号处理方法，包括：
6.确定音频采集装置当前采集到的音频信号的第一发声源相对所述音频采集装置的第一方位信息；
7.确定所述第一方位信息与第二方位信息之间的差异信息，其中，所述第二方位信息为所述音频采集装置历史采集到的音频信号的第二发声源相对所述音频采集装置的方位信息，所述第一方位信息与所述第二方位信息为确定的相邻两次方位信息；
8.根据所述差异信息确定所述第一发声源与所述第二发声源是否相同；
9.在所述第一发声源与所述第二发声源不同的情况下，分别基于所述第一方位信息和第二方位信息对所述音频采集装置采集到的音频信号进行语音增强，得到对应所述第一方位信息的第一语音增强信号和对应所述第二方位信息的第二语音增强信号。
10.在一种可能的实现方式中，该装置还包括：
11.在所述第一发声源与所述第二发声源相同的情况下，基于所述第二方位信息对所述音频采集装置采集到的音频信号进行语音增强，得到对应所述第二方位信息的第三语音增强信号。
12.在又一种可能的实现方式中，所述根据所述差异信息确定所述第一发声源与所述第二发声源是否相同，包括：
13.检测所述差异信息表征的方位变化量是否超过设定阈值；
14.其中，所述方位变化量超过设定阈值表明所述第一发声源与所述第二发声源不同；
15.所述方位变化量未超过设定阈值表明所述第一发声源与所述第二发声源相同。
16.在又一种可能的实现方式中，所述分别基于所述第一方位信息和第二方位信息对
所述音频采集装置采集到的音频信号进行语音增强，包括：
17.在设定时长内，分别基于所述第一方位信息和第二方位信息对所述音频采集装置采集到的音频信号进行语音增强；
18.所述方法还包括：
19.在所述设定时长内，将所述第二语音增强信号降低设定幅度，得到降幅后的第二语音增强信号；
20.将所述第一语音增强信号和降幅后的第二语音增强信号，确定为所述音频采集装置采集到的音频信号经过语音增强后的语音信号。
21.在又一种可能的实现方式中，所述分别基于所述第一方位信息和第二方位信息对所述音频采集装置采集到的音频信号进行语音增强，包括：
22.在设定时长内，分别基于所述第一方位信息和第二方位信息对所述音频采集装置采集到的音频信号进行语音增强；
23.所述方法还包括：
24.在到达所述设定时长之后，结合所述第一语音增强信号和第二语音增强信号，从所述第一方位信息和第二方位信息中确定需要语音增强的至少一个目标方位信息；
25.分别基于所述至少一个目标方位信息对所述音频采集装置采集到的音频信号进行语音增强。
26.在又一种可能的实现方式中，所述结合所述第一语音增强信号和第二语音增强信号，从所述第一方位信息和第二方位信息中确定需要语音增强的至少一个目标方位信息，包括：
27.结合所述第一语音增强信号和第二语音增强信号，从所述第一方位信息和第二方位信息中，确定当前时刻所述音频采集装置能够采集到音频信号的至少一个目标方位信息，所述目标方位信息为需要语音增强的方位信息。
28.在又一种可能的实现方式中，结合所述第一语音增强信号和第二语音增强信号，从所述第一方位信息和第二方位信息中，确定当前时刻所述音频采集装置能够采集到音频信号的至少一个目标方位信息，包括：
29.如果最近设定次确定出的第一语音增强信号不全部为空，且最近设定次确定出的第二语音增强信号不全部为空，将所述第一方位信息和第二方位信息确定为需要语音增强的目标方位信息；
30.如果最近设定次确定出的第一语音增强信号全部为空，且最近设定次确定出的第二语音增强信号不全部为空，将所述第二方位信息确定为需要语音增强的目标方位信息；
31.如果最近设定次确定出的第一语音增强信号不全部为空，且最近设定次确定出的第二语音增强信号全部为空，将所述第一方位信息确定为需要语音增强的目标方位信息。
32.在又一种可能的实现方式中，在所述确定所述第一方位信息之前，还包括：建立电子设备与至少一个其他电子设备之间的语音会议通道；
33.所述将所述第一语音增强信号和降幅后的第二语音增强信号，确定为所述音频采集装置采集到的音频信号经过语音增强后的语音信号，包括：
34.将所述第一语音增强信号和降幅后的第二语音增强信号通过所述语音会议通道传输给所述至少一个其他电子设备；
35.在所述分别基于所述至少一个目标方位信息对所述音频采集装置采集到的音频信号进行语音增强之后，还包括：
36.基于所述语音会议通道，将基于所述目标方位信息对音频信号进行语音增强后的第四语音增强信号传输给所述至少一个其他电子设备。
37.其中，一种音频信号处理装置，包括：
38.方位确定单元，用于确定音频采集装置当前采集到的音频信号的第一发声源相对所述音频采集装置的第一方位信息；
39.差异确定单元，用于确定所述第一方位信息与第二方位信息之间的差异信息，其中，所述第二方位信息为所述音频采集装置历史采集到的音频信号的第二发声源相对所述音频采集装置的方位信息，所述第一方位信息与所述第二方位信息为确定的相邻两次方位信息；
40.发声源判别单元，用于根据所述差异信息确定所述第一发声源与所述第二发声源是否相同；
41.第一语音增强单元，用于在所述第一发声源与所述第二发声源不同的情况下，分别基于所述第一方位信息和第二方位信息对所述音频采集装置采集到的音频信号进行语音增强，得到对应所述第一方位信息的第一语音增强信号和对应所述第二方位信息的第二语音增强信号。
42.其中，一种电子设备，至少包括存储器和处理器；
43.其中，所述处理器，用于执行如上任意一项所述的音频信号处理方法；
44.所述存储器，用于存储处理器执行操作所需的程序。
45.通过以上方案可知，本技术在确定出当前的发声源的第一方位信息之后，会确定该第一方位信息与上一次确定的发声源的第二方位信息的差异信息，如果该差异信息表征这两次检测到的音频信号来源于不同的发声源，会分别基于该第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强，以分别得到这两个方位信息上的语音增强信号，因此，即使突然出现噪声干扰，也不会将原本发声源发出的有效音频信号削弱，从而可以减少由于噪声干扰引发误判，使得干扰噪声被增强而有效音频被削弱的情况，进而可以提高音频处理效果。
附图说明
46.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
47.图1为本技术实施例提供的音频信号处理方法一个流程示意图；
48.图2为本技术实施例提供的音频信号处理方法又一个流程示意图；
49.图3为本技术实施例提供的音频信号处理方法的又一个流程示意图；
50.图4为本技术实施例提供的音频信号处理方法在一种应用场景中的流程示意图；
51.图5为本技术实施例提供的音频信号处理装置的一种组成结构示意图；
52.图6为本技术实施例提供的电子设备的一种组成结构示意图。
53.说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
54.本技术的方案可以适用于任意涉及到音频信号处理的场景，以更为合理的对音频信号进行语音增强，提高音频信号处理效果。
55.本技术的方案可以应用于任意涉及到需要对语音信号进行语音增强处理的场景中，如，本技术的方案可以应用于语音会议场景中的音频信号进行语音增强，还可以用于智能音响中音频信号识别之前的语音信号增强，或者是基于电子设备进行音频录音过程中的音频增强处理等等，对此不加限制。
56.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
57.如图1所示，其示出了本技术实施例提供的一种音频信号处理方法又一个实施例的流程示意图，本实施例的方法应用于电子设备，该电子设备可以为手机、平板电脑等移动终端，还可以是台式电脑，智能音箱或者语音会议终端等等，对此不加限制。
58.本实施例的方法可以包括：
59.s101，确定音频采集装置当前采集到的音频信号的第一发声源相对音频采集装置的第一方位信息。
60.可以理解的是，在音频采集装置持续采集音频信号的过程中，电子设备的音频处理装置按照设定的时间间隔或者不定时的方式，确定采集到的音频信号的方位信息。
61.为了便于与后续历史上采集到的音频信号相区分，本技术当前采集到的音频信号的发声源称为第一发声源。相应的，为了便于与历史上确定出的发声源的方位信息进行区分，将确定出的该第一发声源相对该音频采集装置的方位信息称为第一方位信息。
62.可以理解的是，该第一方位信息至少可以包括：第一发声源相对音频采集装置的方向信息。如，可以通过波达方向(direction of arrival，doa)估计算法确定音频信号所属的第一发声源相对音频采集装置的方向信息，当然，还可以通过其他方式确定该方向信息。
63.当然，该第一方位信息还可以包括第一发声源相对音频采集装置的距离等其他方位信息，对此不加限制。
64.可以理解的是，在获得音频信号之后，确定音频信号相对于采集该音频信号的音频采集装置的方位信息的具体实现方式可以有多种可能，本技术对此不加限制。
65.s102，确定第一方位信息与第二方位信息之间的差异信息。
66.其中，第二方位信息为该音频采集装置历史采集到的音频信号的第二发声源相对音频采集装置的方位信息，且该第一方位信息与第二方位信息为确定的相邻两次方位信息。也就是说，该第二方位信息为电子设备在确定第一方位信息之前最近一次确定的方位
信息。
67.其中，差异信息是指第一方位信息与第二方位信息之间的方位信息差异。
68.s103，根据差异信息确定第一发声源与第二发声源是否相同。
69.可以理解的是，由于第一方位信息和第二方位信息为相邻两次确定出的方位信息，因此，基于第一方位信息与第二方位信息之间的差异信息，可以确定相邻两次确定出的方位信息对应的发声源是否为同一个，即确定第一方位信息对应的第一发声源是否与上一次确定出的第二方位信息对应的第二发声源是否为同一个。
70.在一种可能的实现方式，由于电子设备相邻两次检测音频信号的发声源的方位信息之间的时间间隔较短，且该差异信息又可以表征出相邻两次确定出的发声源的方位变化信息，因此，本技术可以结合差异信息表征出的方位变化量来判断相邻两次确定出的发声源是否为同一个。
71.具体的，可以检测该差异信息表征的方位变化量是否超过设定阈值。如果该方位变化量超过设定阈值表明第一发声源与所述第二发声源不同；反之，如果该方位变化量未超过设定阈值表明该第一发声源与该第二发声源相同。
72.其中，该设定阈值可以为根据需要设定，对此不加限制。
73.可以理解的是，同一个发声源在短时间内不可能存在较大的变化，因此，如果相邻两次确定出的方位信息变化较大，则说明这两次确定出的音频信号的方位信息对应的发声源不是同一个。
74.如，以音频信号的发声源相对音频采集装置的方位信息为方向信息为例说明。
75.在确定出当前采集到的音频信号的第一发声源相对音频采集装置的第一方向信息之后，可以获得上一次确定出的历史音频信号的第二发声源相对该音频采集装置的第二方向信息。在此基础上，可以检测该第一方向信息与该第二方向信息的方向变化量超过设定的方向变化量。相应的，如果方向变化量超过设定的方向变化量，则确定第一发声源与第二发声源不同。
76.例如，如果该第一方向信息与第二方向信息之间的变化角度超过设定的角度阈值，则可以确定第一发声源与第二发声源不是同一个。
77.可以理解的是，在相邻两次音频信号的波达方向检测过程中，同一个发声源相对音频采集装置的方向信息不会有太大变化，例如，用一个用户不可能在短时间内从相对音频采集装置一个方向移动到方向角度变化较大的另一个方向。
78.s104，在第一发声源与第二发声源不同的情况下，分别基于第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强，得到对应第一方位信息的第一语音增强信号和对应第二方位信息的第二语音增强信号。
79.其中，语音增强是指从含噪语音中提取尽可能纯净的原始语音，因此，语音增强的目的增强音频信号的质量，减少背景噪声干扰等。
80.可以理解的是，如果第一发声源与第二发声源不同，则说明该第一发声源为出现出的一个新的发声源，如果这个新的发声源是第二发声源之外的有效发声源，那么则说明当前可能会存在两个声源同时发生的可能。基于此，如果仅仅基于第一发声源的第一方位信息对音频信号进行增强，那么在检测到第一方位信息之后到下一次方位检测之间的时间段内，即使第二发声源仍发出声音，也不会对第二发声源发出的声音进行增强，从而导致一
部分有效信息被削弱或者清除等，无法保留多个发声源同时发出的音频信号。
81.另外，在第一发声源与第二发声源不同的情况下，由于第一发声源为一个新出现的发声源，那么如果该第一发声源为噪声源，仅仅基于该第一发声源的第一方位信息对音频信号进行语音增强，必然会使得音频信号中来自噪声源的音频得到增强，而使得非噪声的第二发声源发出的音频被削弱，甚至消除，从而使得用户无法从增强后的语音信号后获得所需的音频信号。
82.基于此，为了减少由于突发噪声而导致仅仅提取出噪声声源的音频信号，或者是，在多个发声源同时发出语音信号使得多路音频信号重叠的情况中，提到音频信号的语音增强效果，本技术，在检测到出现一新的发声源时，并不会直接仅利用新的发声源(即第一发声源)的方位信息进行语音增强，而是同时将最近相邻两次确定出的方位信息分别进行语音增强，以同时保留并增强这两个发声源发出的语音信号。
83.其中，在确定出音频信号的发声源的方位信息之后，基于方位信息进行语音增强的具体实现方式可以有多种，本技术对于语音增强的具体实现方式不加限制。
84.可以理解的是，如果基于第一方位信息和第二方位信息的差异信息确定出第一发声源与第二发声源相同的情况下，那么可以说明仅仅是发声源的方位信息存在变化，相应的，可以基于该第二方位信息对音频采集装置采集到的音频信号进行语音增强，得到对应第二方位信息的第三语音增强信号。
85.需要说明的是，本技术实施例仅仅是为了便与区分，将在第一发声源和第二发声源不同的情况下，基于第一方位信息对音频信号进行语音增强得到的语音增强信号称为第一语音增强信号，将基于第二方位信息进行语音增强得到的语音增强信号称为第二语音增强信号。同时，将在第一发声源与第二发声源相同的情况，基于第二方位信息得到的语音增强信号称为第三语音增强信号。
86.由以上内容可知，本技术在确定出当前的发声源的第一方位信息之后，会确定该第一方位信息与上一次确定的发声源的第二方位信息的差异信息，如果该差异信息表征这两次检测到的音频信号来源于不同的发声源，会分别基于该第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强，以分别得到这两个方位信息上的语音增强信号，因此，即使突然出现噪声干扰，也不会将原本发声源发出的有效音频信号削弱，从而可以减少由于噪声干扰引发误判，使得干扰噪声被增强而有效音频被削弱的情况，进而可以提高音频处理效果。
87.可以理解的是，考虑到第一发声源有可能是噪声源，在此基础上，为了能够最大限度的保证原第二发声源发出的音频信号的质量，本技术在得到第二语音增强信号之后，还可以将该第二语音增强信号降低设定幅度，在此基础上，可以将第一语音增强信号以及经过降幅后的第二语音增强信号确定为该音频采集装置采集到的音频信号经过语音增强后的语音信号。
88.如，在音频录制等场景中，可以将第一语音增强信号和经过降幅后的第二语音信号确定为语音增强后的语音信号进行存储等。
89.可以理解的是，考虑到突发的噪声源可能会维持一段时间，为了避免到达下一次需要定位音频信号的方位信息时，错误将噪声源发出的噪声信号进行语音增强，本技术可以在一定时长内均分别基于第一方位信息和第二方位信息对所述音频采集装置采集到的
音频信号进行语音增强。
90.如，可以设定一设定时长。该设定时长可以根据需要设定。
91.在此基础上，在确定出第一发声源和第二发声源不同的情况下，可以在该设定时长内，分别基于该第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强。
92.相应的，可以在该设定时长内，将第二语音增强信号降低设定幅度，得到降幅后的第二语音增强信号。在此基础上，在该设定时长内，会将第一语音增强信号和降幅后的第二语音增强信号，确定为音频采集装置采集到的音频信号经过语音增强后的语音信号。
93.进一步的，在到达该设定时长之后，本技术还可以结合第一语音增强信号和第二语音增强信号来判断是否第一方位信息和第二方位信息都需要语音增强。下面结合流程图对该种情况进行说明。
94.如图2所示，其示出了本技术一种音频信号处理方法又一个实施例的流程示意图，本实施例的方法可以包括：
95.s201，确定音频采集装置当前采集到的音频信号的第一发声源相对音频采集装置的第一方位信息。
96.s202，确定第一方位信息与第二方位信息之间的差异信息。
97.其中，第二方位信息为该音频采集装置历史采集到的音频信号的第二发声源相对音频采集装置的方位信息，且该第一方位信息与第二方位信息为确定的相邻两次方位信息。
98.以上步骤可以参见前面实施例的相关介绍，在此不再赘述。
99.s203，在根据差异信息确定出第一发声源与第二发声源不相同的情况下，在设定时长内，分别基于第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强，得到对应第一方位信息的第一语音增强信号和对应第二方位信息的第二语音增强信号。
100.s204，在该设定时长内，将第二语音增强信号降低设定幅度，得到降幅后的第二语音增强信号。
101.s205，将第一语音增强信号和降幅后的第二语音增强信号，确定为音频采集装置采集到的音频信号经过语音增强后的语音信号。
102.可以理解的是，在设定时长内，音频采集装置会持续采集音频信号，而本技术在该设定时长内，会持续基于第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强，可以减少由于噪声源持续发出声音而误将噪声源作为唯一有效音频信号进行增强的情况。
103.在一种可选方式中，该设定时长可以大于用于检测音频信号的方位信息的方位检测周期。
104.可以理解的是，在每个方位检测周期确定出方位信息之后，电子设备都会基于确定的方位信息对音频信号进行语音增强，那么在基于第一方位信息和第二方位信息分别进行语音增强之后，在达到下一个方位检测周期时，如果第二发声源为噪声且这个发声源仍持续发出音频信号，那么则可能会将发声源发出的音频信号对应的该第二方位信息确定为需要语音增强的方位信息，从而错误的将噪声信号增强。
105.基于此，如果将设定时长设置为大于一个方位检测周期，那么就可以减少在检测到第一方位信息之后的下一个方位检测周期内，仅仅将噪声源发出的噪声信号增强的情况。
106.s206，在到达该设定时长之后，结合第一语音增强信号和第二语音增强信号，从该第一方位信息和第二方位信息中确定需要语音增强的至少一个目标方位信息。
107.可以理解的是，第一语音增强信号为基于第一方位信息对音频信号进行语音增强得到的，因此，第一语音增强信号表征是主要是来自第一发声源发出的音频信号的特征。而基于第一语音增强信号表征出的第一发声源发出的音频信号的特征，可以判断第一发声源是否仍在发声，以及第一发声源发出的音频信号的音量大小等音频信号质量等。
108.如果第一发声源在到达设定时长后，没有继续发出音频信号，那么自然不需要继续基于第一方位信息进行语音增强。或者，如果基于第一语音增强信号确定出第一发声源发出的音频信号的音量较小或或者音频质量差等，则说明第一发声源不是需要关注的发声源或者可能是突然出现的噪声源，也需要将第一方位信息作为需要语音增强的目标方位信息。反之，如果第一语音增强信号表征第一发声源仍发出音频信号，或者是，发出的音频信号的音频质量较高等，则可以将第一方位信息确定为目标方位信息。
109.类似的，第二语音增强信号可以表征第二发声源发出的音频信号的特征。在到达设定时长后，如果基于第二语音增强信号确定出第二发声源不存在输出的音频信号，或者是，第二发声源发出的音频信号的音量过小或者音频质量差，则也不需要再继续将第二发声源作为有效音频信号的发声源，自然也不需要将第二方位信息作为需要语音增强的目标方位信息。反之，可以将第二方位信息确定为需要语音增强的目标方位信息。
110.s207，分别基于该至少一个目标方位信息对该音频采集装置采集到的音频信号进行语音增强。
111.如，如果目标方位信息为第一方位信息，则基于第一方位信息对音频采集装置采集到的音频信号进行语音增强；如果目标方位信息为第二方位信息，则基于第二方位信息对音频采集装置采集到的音频信号进行语音增强。
112.当然，如果目标方位信息包括第一方位信息和第二方位信息，则可以分别基于第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强。
113.可以理解的是，在步骤s207中，基于目标方位信息对音频采集装置采集到的音频信号进行语音增强之后，本技术可以根据实际场景的需求，将该语音增强后的音频信号进行存储或者传输到音频会议的对端电子设备等，对此不加限制。
114.可以理解的是，如前面所述设定时长可以根据需要设定。在一种可选方式中，将设定时长设置为大于一个方位检测周期的时长。在将设定时长设置为大于一个方位检测周期的时长，那么通过该第一语音增强信号和第二语音增强信号是否持续发出音频信号，或者持续发出的音频信号的质量，从而可以更为合理且准确确定出第一发声源和第二发声源发出的声音属于有效音频信号，进而可以调整音频增强所参照的方位信息。
115.可以理解的是，在步骤s207之后，如果基于该方位检测周期到达方位信息检测时刻，那么电子设备可以重新检测音频采集装置采集到的音频信号的发声源对应的方位信息，同时，可以结合检测到的方位信息对音频信号进行语音增强。在此基础上，电子设备还可以将检测到的方位信息存储为历史的方位信息，以便后续再继续结合该历史的方位信息
检测是否存在新出现的发声源，并执行本实施例的操作，在此不再赘述。
116.由以上内容可知，本实施例在确定出采集到的音频信号的第一发声源相对音频采集装置的第一方位信息之后，如果第一发声源与最近一次确定的第二方位信息对应的第二发声源不是同一个，本技术会在设定时长内分别基于第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强，以减少噪声信号被增强而有效的音频信号被削弱的情况。
117.另外，在到达设定时长后，本技术还会结合第一语音增强信号和第二语音增强信号的特征，确定第一方位信息和第二方位信息中实际上需要增强的一个或者两个目标方位信息，从而可以更为合理确定出语音增强的方位信息。
118.可以理解的是，在到达设定时长后，对于第一发声源和第二发声源中任意一个发声源而言，该发声源是否仍会发出音频信号是判断发声源是否为有效发声源的可靠依据。基于此，本技术以在到达设定时长后，基于发声源是否发出音频信号来选取目标方位信息为例进行说明。
119.如图3所示，其示出了本技术一种音频信号处理方法的又一种流程示意图，本实施例的方法可以包括：
120.s301，确定音频采集装置当前采集到的音频信号的第一发声源相对音频采集装置的第一方位信息。
121.s302，确定第一方位信息与第二方位信息之间的差异信息。
122.第二方位信息为该音频采集装置历史采集到的音频信号的第二发声源相对音频采集装置的方位信息，且该第一方位信息与第二方位信息为确定的相邻两次方位信息。
123.s303，检测该差异信息表征的方位变化量是否超过设定阈值，如果是，执行步骤s304；如果否，执行步骤s308。
124.该设定阈值可以根据需要设定。
125.其中，方位变化量超过设定阈值表明所述第一发声源与第二发声源不同；方位变化量未超过设定阈值表明第一发声源与第二发声源相同。
126.可以理解的是，本实施例是以判断第一发声源和第二发声源是否相同的一种实现方式为例说明，对于前面提到的其他实现方式也同样适用于本实施例，在此不再赘述。
127.s304，在设定时长内，分别基于第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强，得到对应第一方位信息的第一语音增强信号和对应第二方位信息的第二语音增强信号。
128.s305，将第二语音增强信号降低设定幅度，将第一语音增强信号和降幅后的第二语音增强信号，确定为音频采集装置采集到的音频信号经过语音增强后的语音信号。
129.可以理解的是，在设定时长内，针对音频采集装置每次采样的音频信号，在执行完步骤s304之后，都需要执行步骤s305。
130.s306，在到达该设定时长之后，结合该第一语音增强信号和第二语音增强信号，从第一方位信息和第二方位信息中，确定当前时刻该音频采集装置能够采集到音频信号的至少一个目标方位信息。
131.其中，目标方位信息为需要语音增强的方位信息。
132.s307，分别基于该至少一个目标方位信息对该音频采集装置采集到的音频信号进
行语音增强。
133.可以理解的是，在到达设定时长之后，如果第一语音增强信号不为空，则说明第一发声源仍会发出音频信号，在此基础上，第一发声源为突发噪声源的概率会比较小，则需要保留该第一发声源对应的第一方位信息为目标方位信息；反之，则可以不将第一方位信息确定为目标方位信息。
134.类似的，如果第二语音增强信号不为空，则说明第二发声源也仍在持续发声，那么就需要从采集到的音频信号中提取出该第二发声源发出的音频信号，因此，也需要将第二发声源对应的第二方位信息确定为目标方位信息。反之，如果第二语音增强信号为空，则说明此处第二发声源已经不再发出音频信号，也就需要再对基于第二方位信息进行语音增强。
135.在一种可选方式中，为了能够更为准确判断第一发声源和第二发声源是否仍继续发出音频，还可以结合最近设定次确定出的第一语音增强信号和第二语音增强信号进行分析。具体的，可以分为如下三种可能情况：
136.在一种可能的情况中，如果最近设定次确定出的第一语音增强信号不全部为空，且最近设定次确定出的第二语音增强信号不全部为空，将第一方位信息和第二方位信息确定为需要语音增强的目标方位信息。可以分别基于第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强，以对两个声源发出的交叠音频进行合理的语音增强。
137.在又一种可能的情况中，如果最近设定次确定出的第一语音增强信号全部为空，且最近设定次确定出的第二语音增强信号不全部为空，将第二方位信息确定为需要语音增强的目标方位信息。在该种情况下，说明第一发声源不存在音频信号输出，因此，只需基于第二方位信息对采集到的音频信号进行语音增强。
138.在又一种可能的情况中，如果最近设定次确定出的第一语音增强信号不全部为空，且最近设定次确定出的第二语音增强信号全部为空，将第一方位信息确定为需要语音增强的目标方位信息。相应的，只需基于第一方位信息对采集到的音频信号进行语音增强。
139.其中，最近设定次可以根据需要设定次，如最近设定次可以为最近一次，或者是最近两次等。
140.可以理解的是，如果目标方位信息包括第一方位信息和第二方位信息，则说明第一发声源和第二发声源同时发声，即音频采集装置采集到的音频信号为两个发声源发出的音频信号的叠加信号，在此基础上，这两个发声源发出的音频信号都应该属于需要提取出的音频信号。因此，在到达设定时长后，本技术在基于第一方位信息和第二方位信息对音频采集装置采集到的音频信号进行语音增强之后，不会再对任意一个方位信息上的语音增强信号进行降幅，而是将这两个方位信息上得到的语音增强信号均确定该为最终经过语音增强后的语音增强信号。
141.s308，在第一发声源与所述第二发声源相同的情况下，基于第二方位信息对音频采集装置采集到的音频信号进行语音增强，得到对应该第二方位信息的第三语音增强信号。
142.可以理解的是，在第一发声源与所述第二发声源相同的情况下，在一个方位检测周期内，均可以基于该第二方位信息对音频采集装置采集到的音频信号进行语音增强。而
在到达下一个方位检测周期时，则可以基于检测到方位信息重复执行本技术实施例的如上操作，在此不再赘述。
143.可以理解的是，本技术实施例的方法可以应用于多种应用场景，为了便于理解，下面以语音会议这一场景为例说明。
144.可以理解的是，在语音会议场景中，需要先建立电子设备与至少一个其他电子设备之间的语音会议通道。在此基础上，在基于本技术的方案对音频信号进行语音增强之后，可以基于语音会议通道，将前面提到的任意一种情况中经过语音增强后的语音增强信号传输给语音会议中该至少一个其他电子设备。
145.如，基于语音会议通道，将第一语音增强信号以及降幅后的第二语音增强信号发送给至少一个其他电子设备；或者是，基于语音会议通道，将基于目标方位信息对音频信号进行语音增强后的第三语音增强信号传输给至少一个其他电子设备。
146.为了便于理解，下面结合该应用场景，并以确定出的音频信号的发声源相对音频采集装置的方位信息为方向信息为例进行说明。
147.如图4所示，其示出了本技术实施例提供的音频信号处理方法的又一种流程示意图，本实施例的方法应用于电子设备，本实施例可以包括：
148.s401，建立电子设备与至少一个其他电子设备之间的语音会议通道。
149.s402，确定电子设备的音频采集装置当前采集到的音频信号的第一发声源相对音频采集装置的第一方向信息。
150.s403，确定第一方向信息与历史上最近一次确定的音频信号对应的第二方向信息之间的角度差。
151.第二方向信息为该音频采集装置历史采集到的音频信号的第二发声源相对音频采集装置的方向信息，且该第一方向信息与第二方向信息为相邻两次确定出的方向。
152.s404，如果该角度差大于角度阈值，在设定时长内，分别基于第一方向信息和第二方向信息对音频采集装置采集到的音频信号进行语音增强，得到对应第一方向信息的第一语音增强信号和对应第二方向信息的第二语音增强信号。
153.该角度阈值可以根据需要设定。
154.s405，将第二语音增强信号降低设定幅度，通过语音会议通道将第一语音增强信号和降幅后的第二语音增强信号发送给该至少一个其他电子设备。
155.s405，在到达该设定时长，结合该第一语音增强信号和第二语音增强信号，从第一方向信息和第二方向信息中，确定当前时刻该音频采集装置能够采集到音频信号的至少一个目标方向信息。
156.该步骤可以参见前面图3实施例的相关介绍，在此不再赘述。
157.s406，分别基于该至少一个目标方向信息对该音频采集装置采集到的音频信号进行语音增强，将经过语音增强后的语音增强信号传输给至少一个其他电子设备。
158.可以理解的是，为了便于区分，可以将基于目标方向信息对音频信号进行语音增强得到的语音增强信号称为第四语音增强信号。当然，如果目标方向信息有多个的情况下，基于每个目标方向信息得到的语音增强信号均为一路第四语音增强信号。
159.需要说明的是，本实施例是以方位信息为方向信息为例，但是可以理解的是，将方向信息替换为方位信息也同样适用于本实施例，在此不再赘述。
160.s407，如果该角度差不大于角度阈值，基于第二方向信息对音频采集装置采集到的音频信号进行语音增强，通过语音会议通道将得到的第三语音增强信号传输给该至少一个其他电子设备。
161.对应本技术实施例提供的一种音频信号处理方法，本技术还提供了一种音频信号处理装置。
162.如图5所示，其示出了本技术一种音频信号处理装置的一种组成结构示意图，该装置应用于电子设备，该装置可以包括：
163.方位确定单元501，用于确定音频采集装置当前采集到的音频信号的第一发声源相对所述音频采集装置的第一方位信息；
164.差异确定单元502，用于确定所述第一方位信息与第二方位信息之间的差异信息，其中，所述第二方位信息为所述音频采集装置历史采集到的音频信号的第二发声源相对所述音频采集装置的方位信息，所述第一方位信息与所述第二方位信息为确定的相邻两次方位信息；
165.发声源判别单元503，用于根据所述差异信息确定所述第一发声源与所述第二发声源是否相同；
166.第一语音增强单元504，用于在所述第一发声源与所述第二发声源不同的情况下，分别基于所述第一方位信息和第二方位信息对所述音频采集装置采集到的音频信号进行语音增强，得到对应所述第一方位信息的第一语音增强信号和对应所述第二方位信息的第二语音增强信号。
167.在一种可能的实现方式中，该装置还包括：
168.第二语音增强单元，用于在所述第一发声源与所述第二发声源相同的情况下，基于所述第二方位信息对所述音频采集装置采集到的音频信号进行语音增强，得到对应所述第二方位信息的第三语音增强信号。
169.在又一种可能的实现方式中，所述发声源判别单元，包括：
170.变化检测单元，用于检测所述差异信息表征的方位变化量是否超过设定阈值；其中，所述方位变化量超过设定阈值表明所述第一发声源与所述第二发声源不同；所述方位变化量未超过设定阈值表明所述第一发声源与所述第二发声源相同。
171.在又一种可能的实现方式中，该第一语音增强单元，包括：
172.第一语音增强子单元，用于在设定时长内，分别基于所述第一方位信息和第二方位信息对所述音频采集装置采集到的音频信号进行语音增强；
173.该装置还包括：
174.幅度降低单元，用于在所述设定时长内，将所述第二语音增强信号降低设定幅度，得到降幅后的第二语音增强信号；
175.增强信号确认单元，用于将所述第一语音增强信号和降幅后的第二语音增强信号，确定为所述音频采集装置采集到的音频信号经过语音增强后的语音信号。
176.在又一种可能的实现方式中，该第一语音增强单元，包括：
177.第一语音增强子单元，用于在设定时长内，分别基于所述第一方位信息和第二方位信息对所述音频采集装置采集到的音频信号进行语音增强；
178.该装置还包括：
179.方位重确定单元，用于在到达所述设定时长之后，结合所述第一语音增强信号和第二语音增强信号，从所述第一方位信息和第二方位信息中确定需要语音增强的至少一个目标方位信息；
180.第三语音增强单元，用于分别基于所述至少一个目标方位信息对所述音频采集装置采集到的音频信号进行语音增强。
181.在一种可能的实现方式中，方位重确定单元，具体为，用于在到达所述设定时长之后，结合所述第一语音增强信号和第二语音增强信号，从所述第一方位信息和第二方位信息中，确定当前时刻所述音频采集装置能够采集到音频信号的至少一个目标方位信息，所述目标方位信息为需要语音增强的方位信息。
182.在又一种可能的实现方式中，方位重确定单元，包括：
183.第一方位重确定单元，用于如果最近设定次确定出的第一语音增强信号不全部为空，且最近设定次确定出的第二语音增强信号不全部为空，将所述第一方位信息和第二方位信息确定为需要语音增强的目标方位信息；
184.第二方位重确定单元，用于如果最近设定次确定出的第一语音增强信号全部为空，且最近设定次确定出的第二语音增强信号不全部为空，将所述第二方位信息确定为需要语音增强的目标方位信息；
185.第三方位重确定单元，用于如果最近设定次确定出的第一语音增强信号不全部为空，且最近设定次确定出的第二语音增强信号全部为空，将所述第一方位信息确定为需要语音增强的目标方位信息。
186.在又一种可能的实现方式中，该装置还包括：会议建立单元，用于在方位确定单元确定所述第一方位信息之前，建立电子设备与至少一个其他电子设备之间的语音会议通道；
187.所述增强信号确认单元，包括：
188.增强信号确认子单元，用于将所述第一语音增强信号和降幅后的第二语音增强信号通过所述语音会议通道传输给所述至少一个其他电子设备；
189.该装置还包括：
190.信号传输单元，用于在第三语音增强单元分别基于所述至少一个目标方位信息对所述音频采集装置采集到的音频信号进行语音增强之后，基于所述语音会议通道，将基于所述目标方位信息对音频信号进行语音增强后的第四语音增强信号传输给所述至少一个其他电子设备。
191.又一方面，本技术还提供了一种电子设备，如图6所示，其示出了该电子设备的一种组成结构示意图，该电子设备可以为任意类型的电子设备，该电子设备至少包括处理器601和存储器602；
192.其中，处理器601用于执行如上任意一个实施例中的音频信号处理方法。
193.该存储器602用于存储处理器执行操作所需的程序。
194.可以理解的是，该电子设备还可以包括显示单元603以及输入单元604。
195.当然，该电子设备还可以具有比图6更多或者更少的部件，对此不加限制。
196.另一方面，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一
段程序、所述代码集或指令集由处理器加载并执行以实现如上任意一个实施例所述的音频信号处理方法。
197.本技术还提出了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机程序在电子设备上运行时，用于执行如上任意一个实施例中的音频信号处理方法。
198.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。同时，本说明书中各实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本技术。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
199.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
200.对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：声学场景分类模型训练方法、装置、智能终端及存储介质与流程

音频信号处理方法、装置及电子设备与流程

相关文献

最热文献