一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频信号处理方法及装置、存储介质与流程

2021-09-07 21:27:00 来源:中国专利 TAG:信号处理 装置 音频 公开 方法


1.本公开涉及信号处理领域,尤其涉及一种音频信号处理方法及装置、存储介质。


背景技术:

2.相关技术中,智能产品设备拾音多采用麦克风阵列,应用麦克风波束形成技术提高语音信号处理质量,以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感,性能影响较大,另外麦克风个数增多了也会导致产品成本升高。
3.因此,目前越来越多的智能产品设备只配置两个麦克风;两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强。然而,进行盲源分离后的语音信号往往还带有噪声残留,造成了信噪比偏低的问题。


技术实现要素:

4.本公开提供一种音频信号处理方法及装置、存储介质。
5.根据本公开实施例的第一方面,提供一种音频信号处理方法,包括:
6.获取至少两个麦克风分别对至少两个声源所采集的原始带噪信号;
7.对所述至少两个麦克风各自的原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号;
8.基于所述至少两个声源各自的频域估计信号,确定每个所述声源分别在所述至少两个麦克风的观测估计信号;
9.基于所述至少两个声源对应的所述观测估计信号,确定每个声源的增强输出信号;
10.根据滤波处理后的所述每个声源的增强输出信号,确定所述至少两个声源各自发出的音频信号。
11.在一些实施例中,所述对所述至少两个麦克风各自的原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号,包括:
12.利用去模糊处理后的每一帧信号的分离矩阵对所述原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号;其中,所述频域估计信号携带有所述声源发出的所述音频信号的相位信息。
13.在一些实施例中,所述方法还包括:
14.利用所述分离矩阵和所述分离矩阵的逆矩阵,确定所述模糊处理后的分离矩阵。
15.在一些实施例中,所述方法还包括:
16.在当前帧不是第一帧时,基于当前帧的前一帧的分离矩阵与当前帧的原始带噪信号,确定当前帧的分离矩阵;或
17.在当前帧是第一帧时,基于预定的单位矩阵与当前帧的原始带噪信号,确定当前帧的分离矩阵。
18.在一些实施例中,所述观测估计信号携带有所述声源发出的所述音频信号的相位
信息;所述基于所述至少两个声源对应的所述观测估计信号,确定每个声源的增强输出信号,包括:
19.根据所述观测估计信号,确定所述至少两个声源的估计坐标信息;
20.根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定所述至少两个声源到所述至少两个麦克风的时延差;
21.根据所述时延差,确定每个声源的所述增强输出信号。
22.在一些实施例中,所述根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定所述至少两个声源到所述至少两个麦克风的时延差,包括:
23.根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定每个声源分别到所述至少两个麦克风的距离;
24.根据所述距离和声速,确定所述时延差。
25.在一些实施例中,所述根据所述时延差,确定每个声源的所述增强输出信号,包括:
26.根据所述时延差和所述每个声源在各麦克风的所述观测估计信号,确定所述每个声源的增强输出信号。
27.在一些实施例中,所述方法还包括:
28.根据所述观测估计信号,对所述每个声源的增强输出信号进行所述滤波处理。
29.在一些实施例中,所述根据所述观测估计信号,对所述每个声源的增强输出信号进行所述滤波处理,包括:
30.根据所述观测估计信号,确定所述增强输出信号的干扰信号;
31.根据所述干扰信号对所述增强输出信号进行所述滤波处理。
32.根据本公开实施例的第二方面,提供一种音频信号处理装置,包括:
33.第一获取模块,用于获取至少两个麦克风分别对至少两个声源所采集的原始带噪信号;
34.分离模块,用于对所述至少两个麦克风各自的原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号;
35.第一确定模块,用于基于所述至少两个声源各自的频域估计信号,确定每个所述声源分别在所述至少两个麦克风的观测估计信号;
36.第二确定模块,用于基于所述至少两个声源对应的所述观测估计信号,确定每个声源的增强输出信号;
37.第三确定模块,用于根据滤波处理后的所述每个声源的增强输出信号,确定所述至少两个声源各自发出的音频信号。
38.在一些实施例中,所述分离模块,包括:
39.分离子模块,用于利用去模糊处理后的每一帧信号的分离矩阵对所述原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号;其中,所述频域估计信号携带有所述声源发出的所述音频信号的相位信息。
40.在一些实施例中,所述装置还包括:
41.第四确定模块,用于利用所述分离矩阵和所述分离矩阵的逆矩阵,确定所述模糊处理后的分离矩阵。
42.在一些实施例中,所述装置还包括:
43.第五确定模块,用于在当前帧不是第一帧时,基于当前帧的前一帧的分离矩阵与当前帧的原始带噪信号,确定当前帧的分离矩阵;或
44.第六确定模块,用于在当前帧是第一帧时,基于预定的单位矩阵与当前帧的原始带噪信号,确定当前帧的分离矩阵。
45.在一些实施例中,所述观测估计信号携带有所述声源发出的所述音频信号的相位信息;所述第二确定模块,包括:
46.第一确定子模块,用于根据所述观测估计信号,确定所述至少两个声源的估计坐标信息;
47.第二确定子模块,用于根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定所述至少两个声源到所述至少两个麦克风的时延差;
48.第三确定子模块,用于根据所述时延差,确定每个声源的所述增强输出信号。
49.在一些实施例中,所述第一确定子模块,具体用于:
50.根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定每个声源分别到所述至少两个麦克风的距离;
51.根据所述距离和声速,确定所述时延差。
52.在一些实施例中,所述第三确定子模块,具体用于:
53.根据所述时延差和所述每个声源在各麦克风的所述观测估计信号,确定所述每个声源的增强输出信号。
54.在一些实施例中,所述装置还包括:
55.滤波模块,用于根据所述观测估计信号,对所述每个声源的增强输出信号进行所述滤波处理。
56.在一些实施例中,所述滤波模块,包括:
57.第四确定子模块,用于根据所述观测估计信号,确定所述增强输出信号的干扰信号;
58.滤波子模块,用于根据所述干扰信号对所述增强输出信号进行所述滤波处理。
59.根据本公开实施例的第三方面,提供一种音频信号处理装置,所述装置至少包括:处理器和用于存储能够在所述处理器上运行的可执行指令的存储器,其中:
60.处理器用于运行所述可执行指令时,所述可执行指令执行上述任一项音频信号处理方法中的步骤。
61.根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述任一音频信号处理方法中的步骤。
62.本公开的实施例提供的技术方案可以包括以下有益效果:通过本公开实施例的技术方案,在对音频信号进行分离得到每个声源各自的频域估计信号后,还进一步根据频域估计信号确定每个声源分别在多个麦克风处的观测估计信号,进而对每个声源的音频信号进行增强以及滤波,从而提升分离后信号的信噪比,提升信号质量。
63.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
64.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
65.图1是根据一示例性实施例示出的一种音频信号处理方法的流程图一;
66.图2是根据一示例性实施例示出的一种音频信号处理方法的流程图二;
67.图3是根据一示例性实施例示出的一种音频信号处理方法的应用场景的框图。
68.图4是根据一示例性实施例示出的一种音频信号处理方法的流程图三;
69.图5是根据一示例性实施例示出的一种音频信号处理装置的结构框图;
70.图6是根据一示例性实施例示出的一种音频信号处理装置的实体结构框图。
具体实施方式
71.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
72.图1是根据一示例性实施例示出的一种音频信号处理方法的流程图,如图1所示,包括以下步骤:
73.步骤s101、获取至少两个麦克风分别对至少两个声源所采集的原始带噪信号;
74.步骤s102、对所述至少两个麦克风各自的原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号;
75.步骤s103、基于所述至少两个声源各自的频域估计信号,确定每个所述声源分别在所述至少两个麦克风的观测估计信号;
76.步骤s104、基于所述至少两个声源对应的所述观测估计信号,确定每个声源的增强输出信号;
77.步骤s105、根据滤波处理后的所述每个声源的增强输出信号,确定所述至少两个声源各自发出的音频信号。
78.本公开实施例所述的方法应用在终端中。这里,所述终端为集成了两个或两个以上麦克风的电子设备。例如,所述终端可以为车载终端、计算机或服务器等。
79.在一实施例中,所述终端还可以是:与集成了两个或两个以上麦克风的预定设备连接的电子设备;所述电子设备基于所述连接接收所述预定设备采集的音频信号,且基于所述连接将处理后的音频信号发送给所述预定设备。例如,所述预定设备为音箱等。
80.在实际应用中,所述终端中包括至少两个麦克风,所述至少两个麦克风同时检测至少两个声源各自发出的音频信号,得到所述至少两个麦克风各自的原始带噪信号。这里,可以理解的是,本实施例中所述至少两个麦克风对所述两个声源发出的音频信号是同步进行检测的。
81.在本公开实施例中,所述麦克风为2个或2个以上,所述声源为2个或2个以上。
82.在本公开实施例中,所述原始带噪信号为:包括至少两个声源发出的声音的混合信号。例如,所述麦克风的数量为2个,分别为麦克风1和麦克风2;所述声源为2个,分别为声源1和声源2;则所述麦克风1的原始带噪信号为包括声源1和声源2的音频信号;所述麦克风
2原始带噪信号同样也是均包括声源1和声源2音频信号。
83.又如,所述麦克风的数量为3个,分别为麦克风1、麦克风2和麦克风3;所述声源为3个,分别为声源1、声源2和声源3;则所述麦克风1的原始带噪信号为包括声源1、声源2和声源3的音频信号;所述麦克风2和所述麦克风3的原始带噪信号同样也是均包括声源1、声源2和声源3的音频信号。
84.可以理解的是,若一个声源发出的声音在一个对应的麦克风中信号为音频信号,则其它声源在麦克风中的信号为噪声信号。本公开实施例是需要从至少两个麦克风中恢复至少两个声源发出的声源。
85.可以理解的是,一般声源个数是与麦克风个数相同的。若在一些实施例中,麦克风的个数小于所述声源的个数,可以对所述声源的个数进行降维,以降到与所述麦克风个数相等的维度。
86.可以理解的是,麦克风采集声源发出声音的音频信号时,可以采集至少一帧音频帧的音频信号,此时采集到的音频信号为每一个麦克风的原始带噪信号。原始带噪信号可以是时域信号也可以是频域信号。如果原始带噪信号为时域信号,则可以根据时频转换的运算将时域信号转换为频域信号。
87.这里,可以基于快速傅里叶变换(fast fourier transform,fft),将时域信号进行时频变换得到频域信号。或者,可以基于短时傅里叶变换(short

time fourier transform,stft),将时域信号进行频域变换。或者,还可以基于其它傅里叶变换,将时域信号进行时频变换得到频域信号。
88.示例性的,若第p个麦克风在第n帧的时域信号为:将第n帧的时域信号变变换为频域信号,确定第n帧的原始带噪信号为:其中,所述m为第n帧时域信号的离散时间点数量,k为频点。如此,本实施例可以通过所述时域到频域的变化,可以获得每一帧的原始带噪信号。当然,获取每一帧的原始带噪信号也可以基于其它的快速傅里叶变换公式,在此不做限制。
89.根据上述频域的原始带噪信号,可以通过先验估计的方式获得初始的频域估计信号。
90.示例性的,可以根据初始化的分离矩阵,如单位矩阵;或者根据上一帧得到的分离矩阵,对原始带噪信号进行分离,得到各声源每一帧的频域估计信号。如此,为后续基于频域估计信号及分离矩阵分离出各声源的音频信号提供了依据。
91.在本公开实施例中,进行声源分离后得到每个声源各自的频域估计信号,但每个声源各自的频域估计信号中仍可能存在噪声残留。因此,这里为了减少噪声残留,进一步提升信号的信噪比,对分离后的频域估计信号还需要进行后处理。
92.这里,可以利用频域估计信号估计各声源在各麦克风处的观测信号,即上述观测估计信号。通过观观测估计信号可以对每个声源的频域估计信号进行增强和滤波等处理,最终得到增强后的每个声源各自发出的音频信号。
93.如此,通过本公开实施例,对盲源分离后的音频信号进行了进一步的后处理,实现了信号增强以及滤波,从而提升了信号的信噪比,降低残留噪声,提升了信号质量。
94.在一些实施例中,如图2所示,上述步骤s102中,所述对所述至少两个麦克风各自
的原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号,包括:
95.步骤s202、利用去模糊处理后的每一帧信号的分离矩阵对所述原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号;其中,所述频域估计信号携带有所述声源发出的所述音频信号的相位信息。
96.在本公开实施例中,可以利用分离矩阵对原始带噪信号进行声源分离,对每一帧原始带噪信号进行分离后,都可以对分离矩阵进行更新,并利用更新后的分离矩阵分离下一帧信号。
97.示例性地,可以在获得每一帧的原始带噪信号后,基于分离矩阵与当前帧的原始带噪信号,获得当前帧的分离信号。这里,基于所述分离矩阵与当前帧的原始带噪信号,获取当前帧的分离信号可以为:基于分离矩阵乘当前帧的原始带噪信号,获得当前帧的分离信号。例如,若所述分离矩阵为w(k),若当前帧的原始带噪信号为x(k,n);则所述当前帧的分离信号为:y(k,n)=w(k)x(k,n)。
98.在本公开实施例中,去模糊处理后的分离矩阵即进行幅度去模糊的分离矩阵。这里,去模糊处理可以包括:采用mdp(minimal distortion principle,最小失真原则)算法对幅度进行调整。进行去模糊处理后的分离矩阵得到的分离信号可以恢复出每个声源在麦克风处的观测数据的估计信号,因此,在本公开实施例中,可以通过频域估计信号确定每个声源分别在至少两个麦克风的观测估计信号。
99.示例性地,针对有两个声源s1和s2以及两个麦克风mic1和mic2的情况下,利用分离得到的y(k,τ)=[y1(k,τ),y2(k,τ)]
t
可以恢复出每个声源的观测估计信号:
[0100]
声源s1在mic1处的观测估计信号为:y1(k,τ)=h
11
s1(k,τ),即y
11
(k,τ)=y1(k,τ);其中,h
11
为传递函数,s1(k,τ)为声源s1的信号矢量。
[0101]
声源s2在mic2处的观测估计信号为:y2(k,τ)=h
22
s2(k,τ),即y
22
(k,τ)=y2(k,τ)。其中,h
22
为传递函数,s2(k,τ)为声源s2的信号矢量。
[0102]
由于每个麦克风处的观测信号是两个声源观测数据的叠加,因此,声源s2在mic1处的观测估计信号为:y
12
(k,τ)=x1(k,τ)

y
11
(k,τ);声源s1在mic2处的观测估计信号为:y
21
(k,τ)=x2(k,τ)

y
22
(k,τ),其中,k表示频点的序号,τ表示音频信号的帧的序号。
[0103]
在一些实施例中,如图2所示,所述方法还包括:
[0104]
步骤s201、利用所述分离矩阵和所述分离矩阵的逆矩阵,确定所述模糊处理后的分离矩阵。
[0105]
在本公开实施例中,可以利用mdp算法对分离矩阵进行去模糊处理,即通过分离矩阵和分离矩阵的逆矩阵确定去模糊处理后的分离矩阵。
[0106]
示例性地,分离矩阵为w(k,τ)进行幅度去模糊:w(k,τ)=diag(invw(k,τ))
·
w(k,τ)。其中,invw(k,τ)为w(k,τ)的逆矩阵。diag(invw(k,τ))表示将invw(k,τ)的非主对角元素置为0。
[0107]
如此,可以利用mdp算法去模糊处理后得到的分离矩阵对频域估计信号进行分离处理,进而可以恢复出各声源在各麦克风处的观测信号,保留原始的相位信息,便于确定各声源的方位,从而便于对分离后各声源的信号进行增强。
[0108]
在一些实施例中,所述方法还包括:
[0109]
在当前帧不是第一帧时,基于当前帧的前一帧的分离矩阵与当前帧的原始带噪信
号,确定当前帧的分离矩阵;或
[0110]
在当前帧是第一帧时,基于预定的单位矩阵与当前帧的原始带噪信号,确定当前帧的分离矩阵。
[0111]
在一实施例中,若分离矩阵为当前帧的分离矩阵,基于当前帧的分离矩阵与当前帧的原始带噪信号,获得当前帧的分离信号。
[0112]
在另一实施例中,若分离矩阵为当前帧的前一帧的分离矩阵,基于前一帧的分离矩阵与当前帧的原始带噪信号,获得当前帧的分离信号。
[0113]
在一实施例中,若麦克风采集到的音频信号的帧长为n,其中,n为大于或等于1的自然数,则n=1时,为第一帧。若当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵。示例性地,若所述麦克风的个数为2个,则所述单位矩阵为:若所述麦克风的个数为3个,则所述单位矩阵为:依次类推,若所述麦克风的个数为n个,则所述单位矩阵可以为:其中,所述为n
×
n的单位矩阵。
[0114]
在另一些实施例中,所述若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。
[0115]
在一实施例中,一个音频帧可为预设时长的音频段。
[0116]
示例性的,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵,具体可以为如下:则可以先根据原始带噪信号以及前一帧协方差矩阵,计算出当前帧的协方差矩阵;再基于当前帧的协方差以及前一帧的分离矩阵计算当前帧的分离矩阵。
[0117]
在一些实施例中,所述观测估计信号携带有所述声源发出的所述音频信号的相位信息;所述基于所述至少两个声源对应的所述观测估计信号,确定每个声源的增强输出信号,包括:
[0118]
根据所述观测估计信号,确定所述至少两个声源的估计坐标信息;
[0119]
根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定所述至少两个声源到所述至少两个麦克风的时延差;
[0120]
根据所述时延差,确定每个声源的所述增强输出信号。
[0121]
这里,观测估计信号保留了原始的相位信息,因此,可以利用观测估计信号确定各个声源的方位。也就是通过对分离后的信号进行巡向,并进行延迟求和波束成形,进而得到各声源主通路的信号,从而实现信号的增强。
[0122]
在本公开实施例中,可以利用srp

phat(steered response power

phase transform,可控响应功率相位变换)巡向算法,使用观测估计信号进行巡向,进而确定声源
的位置。例如,针对两个声源s1与s2的情况,可以利用巡向算法确定声源s1的估计坐标信息以及声源s2的估计坐标信息其中,x、y、z分别表示坐标轴的三个方向。
[0123]
由于麦克风位置已知,如,两个麦克风的情形,设坐标信息分别为以及则可以基于声源位置以及麦克风位置确定声源到麦克风的距离,进而确定声音信号传递的时延差。
[0124]
这里,时延差是指声源分别到第一个麦克风与第二麦克风之间的时延差。
[0125]
利用时延差,可以估算分离后音频信号中的干扰信号,进而确定每个声源的增强输出信号。
[0126]
在一些实施例中,所述根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定所述至少两个声源到所述至少两个麦克风的时延差,包括:
[0127]
根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定每个声源分别到所述至少两个麦克风的距离;
[0128]
根据所述距离和声速,确定所述时延差。
[0129]
这里,可以利用每个声源的估计坐标信息及每个麦克风的上述坐标信息确定各声源到各麦克风之间的距离,进而确定同一声源到不同麦克风之间的距离差:
[0130][0131][0132]
其中,d1为声源s1到第一个麦克风的距离与到第二个麦克风的距离之差;d2为声源到第一个麦克风的距离与到第二麦克风的距离之差。
[0133]
利用上述距离差与声速,则可求得上述时延差:
[0134]
声源s1对应的时延差为:声源s2对应的时延差为其中f
s
为采样频率,c为声速。
[0135]
在一些实施例中,所述根据所述时延差,确定每个声源的所述增强输出信号,包括:
[0136]
根据所述时延差和所述每个声源在各麦克风的所述观测估计信号,确定所述每个声源的增强输出信号。
[0137]
在本公开实施例中,利用上述时延差以及每个声源对应在不同麦克风的观测估计信号,可以进行波束延迟求和波束成形的处理,得到主通路的增强输出,即上述增强输出信号。
[0138]
示例性地,对于声源s1,可以利用其在第一个麦克风的观测估计信号y
11
(k,τ)和第二个麦克风的观测估计信号y
21
(k,τ)以及上述时延差τ1进行波束延迟求和波束成形,进而得到主通路的增强输出其中,k=1,2,

,k,k为频点的序号,k为一帧对应的总频点数;nfft为系统帧长。其中,exp表示指数函
数;j表示虚部;pi表示圆周率。
[0139]
相应地,对于声源s2,可以利用其在第一个麦克风的观测估计信号y
12
(k,τ)和第二个麦克风的观测估计信号y
22
(k,τ)以及上述时延差τ2进行波束延迟求和波束成形,进而得到主通路的增强输出其中,k=1,2,

,k,k为频点的序号,k为一帧对应的总频点数;nfft为系统帧长。其中,exp表示指数函数;j表示虚部;pi表示圆周率。
[0140]
如此,就对利用分离矩阵分离进行盲源分离后的音频信号进行了进一步增强,减少了系统噪声,提升了信号质量。
[0141]
在一些实施例中,所述方法还包括:
[0142]
根据所述观测估计信号,对所述每个声源的增强输出信号进行所述滤波处理。
[0143]
在本公开实施例中,对分离后的音频信号进行增强得到增强输出信号后,还可以通过自适应滤波等方式进行进一步降噪滤波。
[0144]
在一实施例中,可以将观测估计信号作为参考信号,并利用自适应滤波器确定上述增强输出信号中的干扰残留,进而滤波去除干扰残留。
[0145]
如此,对增强后的信号进行了进一步滤波,提升了信号的信噪比,提升盲源分离后的信号质量和分离效果。
[0146]
在一些实施例中,所述根据所述观测估计信号,对所述每个声源的增强输出信号进行所述滤波处理,包括:
[0147]
根据所述观测估计信号,确定所述增强输出信号的干扰信号;
[0148]
根据所述干扰信号对所述增强输出信号进行所述滤波处理。
[0149]
示例性地,对于声源s1,可以利用声源s2观测估计信号y
22
(k,τ)或者y
12
(k,τ)做参考信号,经过一个自适应滤波器来估计ym1(k,τ)中的干扰残留,即上述增强输出信号的干扰信号。记ym1(k,τ)中的干扰残留为yc1(k,τ),则:
[0150]
如此,利用干扰信号可以对增强输出信号进行自适应对消,也就是滤波处理,从而得到滤波后的输出结果,即完成了降噪处理。
[0151]
需要说明的是,上述自适应滤波器可以通过如下方法进行更新:
[0152][0153]
其中,u1(k,n)=[|y
22
(k,n)|2,...,|y
22
(k,n

l 1)|2]为参考输入向量;
[0154]
为估计误差。
[0155]
同理,对于声源s2,则可以利用观测估计信号y
11
(k,τ)或者y
21
(k,τ)作为参考信号,并利用自适应滤波器估计干扰信号,进而通过干扰信号进行滤波处理,得到降噪后的输
出结果。
[0156]
此外,对于上述输出信号的频域信号,还可以进行傅里叶反变换,得到时域信号。示例性地,可以对降噪后的频域信号进行istft(短时傅里叶逆变换)和重叠相加,得到分离及增强后的时域信号,从而还原出每个声源发出的音频信号。
[0157]
本公开实施例还提供以下示例:
[0158]
图4是根据一示例性实施例示出的一种音频信号处理方法的流程图;其中,所述音频信号处理方法中,如图3所示,声源包括声源1和声源2,麦克风包括麦克风1和麦克风2。基于所述音频信号处理方法,从麦克风1和麦克风2的原始带噪信号中恢复出声源1和声源2的音频信号。如图4所示,所述方法包括以下步骤:
[0159]
步骤s401:初始化w(k)和v
p
(k);
[0160]
其中,初始化包括以下步骤:设系统帧长为nfft,则一帧中对应的频点数为k=nfft/2 1。
[0161]
1)初始化各个频点的分离矩阵;
[0162]
其中,所述为单位矩阵;所述k为频点的序号;k的取值可以为:k=1,2,

,k,即为一帧中的任一频点。
[0163]
2)初始化各声源在各个频点的加权协方差矩阵v
p
(k)。
[0164]
其中,为零矩阵;其中,所述p用于表示麦克风;p=1,2。
[0165]
步骤s402:获得第p个麦克风在第n帧的原始带噪信号;
[0166]
对加窗进行nfft点得到对应的频域信号:其中,所述m为傅里叶变换所选取的点数;其中,所述stft为短时傅里叶变换;所述为第p个麦克风第n帧的时域信号;这里,所述时域信号为原始带噪信号。
[0167]
则所述x
p
(k,)n的观测信号为:x(k,n)=[x1(k,n),x2(k,n)]
t
;其中,[x1(k,n),x2(k,n)]
t
为转置矩阵。
[0168]
步骤s403:利用上一帧的w(k)获得两个声源信号的频域估计信号;
[0169]
令两个声源信号的先验频域估计y(k,n)=[y1(k,n),y2(k,n)]
t
,其中y1(k,n),y2(k,n)分别为声源1和声源2在时频点(k,n)处的估计值。
[0170]
通过分离矩阵w(k)对观测矩阵x(k,n)进行分离得到:y(k,n)=w(k)'x(k,n);其中,w'(k)为上一帧(即当前帧的前一帧)的分离矩阵。
[0171]
则第p个声源在第n帧的先验频域估计为:
[0172]
步骤s404:更新加权协方差矩阵v
p
(k,n);
[0173]
计算更新的加权协方差矩阵:其中,所述β为平滑系数。在一实施例中,所述β为0.98;其中,所述v
p
(k,n

1)为上一帧的加权协方差矩阵;所述为x
p
(k,n)的共轭转置;所述为加权系数,
其中,所述为辅助变量;所述为对比函数。
[0174]
步骤s405:更新分离矩阵w(k,τ):
[0175]
w
i
(k,τ)=(w(k,τ

1)v
i
(k,τ))
‑1e
i
;w(k,τ)=[w1(k,τ),w2(k,τ)]
h
;i=1,2。其中,e
i
为特征向量。
[0176]
步骤s406:利用mdp算法对w(k,τ)进行幅度的去模糊处理:
[0177]
w(k,τ)=diag(invw(k,τ))
·
w(k,τ),其中,invw(k,τ)为w(k,τ)的逆矩阵。diag(invw(k,τ))表示将的非主对角元素置为0。
[0178]
在一些实施例中,可以利用上述处理后的分离矩阵对原始带噪信号进行分离,得到每个声源各自的频域估计信号,但是分离后的信号仍会存在一定的噪声残留。因此,为了提升信噪比,这里可以对分离后的信号进行后处理。具体包括以下步骤:
[0179]
步骤s407:利用分离矩阵确定各声源在各麦克风处的观测信号:
[0180]
利用mdp处理后的w(k,τ)对原始带噪信号进行分离得到y(k,τ)=[y1(k,τ),y2(k,τ)]
t
。根据mdp算法的特性,其恢复出的频域估计信号y(k,τ)正好是声源在对应麦克风处的观测数据的估计,即声源s1在mic1处的观测信号的估计为:y1(k,τ)=h
11
s1(k,τ),记为y
11
(k,τ)=y1(k,τ)。声源s2在mic2处的观测信号的估计为:y2(k,τ)=h
22
s2(k,τ),记为y
22
(k,τ)=y2(k,τ)。
[0181]
由于每个麦克风处的观测信号是两个声源观测数据的叠加,因此声源s2在mic1处的观测数据的估计为:y
12
(k,τ)=x1(k,τ)

y
11
(k,τ);声源s1在mic2处的观测数据的估计为:y
21
(k,τ)=x2(k,τ)

y
22
(k,τ)。
[0182]
如此,基于mdp算法,完全恢复出了各声源在各麦克风处的观测信号,保留了原始的相位信息,因此可以基于这些信号进一步估计各声源的方位。
[0183]
步骤s408:使用各声源在各个mic处的观测信号估计分别利用srp

phat算法估计各声源的方位:
[0184]
利用srp

paht算法对y
11
(k,τ)和y
21
(k,τ)进行处理估计声源s1的方位:
[0185]
对声源s1的上述观测估计信号进行遍历:
[0186][0187]
其中,y
i
(τ)=[y
i
(1,τ),

,y
i
(k,τ)]
t
为第i个麦克风的第τ帧的观测估计信号。k=nfft为系统帧长;.
·
表示两个向量对应项相乘;*表示伴随矩阵。
[0188]
同理,对于声源s2也采用上述算法进行处理。
[0189]
对于单位球体上的任意一点s,坐标为(s
x
,s
y
,s
z
),满足计算得到任意两个麦克风的时延差:
[0190][0191]
其中,f
s
为系统的采样频率,c为声速。
[0192]
根据求取对应的srp(steered response power,可控响应功率):遍历单位球上所有点s,找到srp最大值的点即为所估计的声源:
[0193]
在本公开实施例中,通过上述方法可以得到声源的估计坐标信息,例如:声源s1的坐标为声源s2的坐标为
[0194]
步骤s409:使用延迟求和波束成形技术得到各声源的主通路信号,提升信噪比:
[0195]
基于上述估计方位信息确定各声源到各麦克风的时延差:
[0196][0197][0198][0199][0200]
利用y
11
(k,τ)和y
21
(k,τ)对声源s1进行波束延迟求和波束成形得到其主通路增强输出利用y
12
(k,τ)和y
22
(k,τ)对声源s2进行波束延迟求和波束成形,得到其主通路的增强输出信号:其中k=1,2,

,k。
[0201]
步骤s410、对增强输出信号去除干扰残留:
[0202]
对声源s1,进一步去除ym1(k,τ)中的干扰残留,使用y
22
(k,τ)或者y
12
(k,τ)做参考
信号,本例中使用y
22
(k,τ),经过一个自适应滤波器来估计ym1(k,τ)中的干扰残留。记ym1(k,τ)中的干扰残留为yc1(k,τ),则:
[0203]
的更新方法为:
[0204]
其中,
[0205]
u1(k,n)=[|y
22
(k,n)|2,...,|y
22
(k,n

l 1)|2]为参考输入向量;
[0206]
为估计误差。
[0207]
经过自适应噪声对消后的输出为:
[0208][0209]
同理对声源s2,进一步去除ym2(k,τ)中的干扰残留,使用y
11
(k,τ)或者y
21
(k,τ)做参考信号,本例中使用y
11
(k,τ),经过一个自适应滤波器l=0,...,l

1,来估计ym2(k,τ)中的干扰残留。记ym2(k,τ)中的干扰残留为yc2(k,τ),则:
[0210]
的更新方法为:
[0211]
其中,u2(k,n)=[|y
11
(k,n)|2,...,|y
11
(k,n

l 1)|2]为参考输入向量;
[0212]
为估计误差;
[0213]
则经过自适应噪声对消后的输出为:
[0214][0215]
如此,就可以得到降低残留干扰的分离信号。
[0216]
步骤s411:对分离信号进行时频转换,得到各声源发出的时域的音频信号。
[0217]
分别对ye1(τ)=[ye1(1,τ),...,ye1(k,τ)]和ye2(τ)=[ye2(1,τ),...,ye2(k,τ)],
k=1,..,k进行istft和重叠相加得到分离及后处理增强后的时域声源信号记为其中m=1,

,nfft;i=1,2。
[0218]
图5是根据一示例性实施例示出的一种音频信号的处理装置的框图。参照图5,该装置500包括第一获取模块501,分离模块502,第一确定模块503,第二确定模块504以及第三确定模块505。
[0219]
第一获取模块501,用于获取至少两个麦克风分别对至少两个声源所采集的原始带噪信号;
[0220]
分离模块502,用于对所述至少两个麦克风各自的原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号;
[0221]
第一确定模块503,用于基于所述至少两个声源各自的频域估计信号,确定每个所述声源分别在所述至少两个麦克风的观测估计信号;
[0222]
第二确定模块504,用于基于所述至少两个声源对应的所述观测估计信号,确定每个声源的增强输出信号;
[0223]
第三确定模块505,用于根据滤波处理后的所述每个声源的增强输出信号,确定所述至少两个声源各自发出的音频信号。
[0224]
在一些实施例中,所述分离模块,包括:
[0225]
分离子模块,用于利用去模糊处理后的每一帧信号的分离矩阵对所述原始带噪信号进行声源分离,得到所述至少两个声源各自的频域估计信号;其中,所述频域估计信号携带有所述声源发出的所述音频信号的相位信息。
[0226]
在一些实施例中,所述装置还包括:
[0227]
第四确定模块,用于利用所述分离矩阵和所述分离矩阵的逆矩阵,确定所述模糊处理后的分离矩阵。
[0228]
在一些实施例中,所述装置还包括:
[0229]
第五确定模块,用于在当前帧不是第一帧时,基于当前帧的前一帧的分离矩阵与当前帧的原始带噪信号,确定当前帧的分离矩阵;或
[0230]
第六确定模块,用于在当前帧是第一帧时,基于预定的单位矩阵与当前帧的原始带噪信号,确定当前帧的分离矩阵。
[0231]
在一些实施例中,所述观测估计信号携带有所述声源发出的所述音频信号的相位信息;所述第二确定模块,包括:
[0232]
第一确定子模块,用于根据所述观测估计信号,确定所述至少两个声源的估计坐标信息;
[0233]
第二确定子模块,用于根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定所述至少两个声源到所述至少两个麦克风的时延差;
[0234]
第三确定子模块,用于根据所述时延差,确定每个声源的所述增强输出信号。
[0235]
在一些实施例中,所述第一确定子模块,具体用于:
[0236]
根据所述估计坐标信息和所述至少两个麦克风的坐标信息,确定每个声源分别到所述至少两个麦克风的距离;
[0237]
根据所述距离和声速,确定所述时延差。
[0238]
在一些实施例中,所述第三确定子模块,具体用于:
[0239]
根据所述时延差和所述每个声源在各麦克风的所述观测估计信号,确定所述每个声源的增强输出信号。
[0240]
在一些实施例中,所述装置还包括:
[0241]
滤波模块,用于根据所述观测估计信号,对所述每个声源的增强输出信号进行所述滤波处理。
[0242]
在一些实施例中,所述滤波模块,包括:
[0243]
第四确定子模块,用于根据所述观测估计信号,确定所述增强输出信号的干扰信号;
[0244]
滤波子模块,用于根据所述干扰信号对所述增强输出信号进行所述滤波处理。
[0245]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0246]
图6是根据一示例性实施例示出的一种音频信号的处理装置600的实体结构框图。例如,装置600可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
[0247]
参照图6,装置600可以包括以下一个或多个组件:处理组件601,存储器602,电源组件603,多媒体组件604,音频组件605,输入/输出(i/o)接口606,传感器组件607,以及通信组件608。
[0248]
处理组件601通常控制装置600的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件601可以包括一个或多个处理器610来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件601还可以包括一个或多个模块,便于处理组件601和其他组件之间的交互。例如,处理组件601可以包括多媒体模块,以方便多媒体组件604和处理组件601之间的交互。
[0249]
存储器610被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器602可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器、磁盘或光盘。
[0250]
电源组件603为装置600的各种组件提供电力。电源组件603可以包括:电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
[0251]
多媒体组件604包括在所述装置600和用户之间提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件604包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和/或后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0252]
音频组件605被配置为输出和/或输入音频信号。例如,音频组件605包括一个麦克风(mic),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器610或经由通信组件608发送。在一些实施例中,音频组件605还包括一个扬声器,用于输出音频信号。
[0253]
i/o接口606为处理组件601和外围接口模块之间提供接口,上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0254]
传感器组件607包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件607可以检测到装置600的打开/关闭状态、组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件607还可以检测装置600或装置600的一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件607可以包括接近传感器,被配置为在没有任何的物理接触时检测附近物体的存在。传感器组件607还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件607还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
[0255]
通信组件608被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如wifi、2g或3g,或它们的组合。在一个示例性实施例中,通信组件608经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件608还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术、红外数据协会(irda)技术、超宽带(uwb)技术、蓝牙(bt)技术或其他技术来实现。
[0256]
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0257]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器602,上述指令可由装置600的处理器610执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd

rom、磁带、软盘和光数据存储设备等。
[0258]
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述实施例中提供的任一种方法。
[0259]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0260]
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜