一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音增强方法、装置、设备及可读存储介质与流程

2022-11-30 15:46:29 来源:中国专利 TAG:


1.本技术涉及音频处理技术领域,更具体的说,是涉及一种语音增强方法、 装置、设备及可读存储介质。


背景技术:

2.麦克风阵列被广泛应用于声学前端的语音增强任务,基于麦克风阵列的 语音增强技术包括波束形成(固定波束形成、自适应波束形成)。通常基于 加性信号的相干函数矩阵模型,认为实际声学环境由三种理想声场构成,即 自由场、扩散场、空间白噪声场;而噪声是点声源、扩散噪声和空间白噪声 的线性叠加,而波束形成只能够抑制与目标声源方向不同的相干噪声源,其 降噪能力是有限的,并不能达到较好的语音增强效果,为了提高波束形成后 的音频质量,可以采用后滤波方案实现语音增强。
3.目前,常用的后滤波方案有mcmf(multi-channelwiener filter,多通道 维纳滤波器)、全局优化lspf(least-squares post filter,最小二乘后置滤波 器)等,这些后滤波方案均基于麦克风阵列拾取的原始多通道音频信号计算 后置滤波器的增益系数,后置滤波器的增益系数容易出现误差,影响语音增 强效果。
4.因此,如何提供一种语音增强方法,以提升语音增强效果,成为本领域 技术人员亟待解决的技术问题。


技术实现要素:

5.鉴于上述问题,本技术提出了一种语音增强方法、装置、设备及可读存 储介质。具体方案如下:
6.一种语音增强方法,所述方法包括:
7.基于当前声学场景确定前置固定波束滤波器组;
8.获取麦克风阵列在所述声学场景采集的原始多通道音频信号;
9.利用所述前置固定波束滤波器组对所述原始多通道音频信号进行波束形 成处理,得到波束形成信号;
10.基于所述前置固定波束滤波器组,以及所述波束形成信号,计算后置滤 波器的增益系数;
11.利用所述后置滤波器的增益系数,对所述波束形成信号进行增强处理, 得到增强后的语音信号。
12.可选地,所述基于当前声学场景确定前置固定波束滤波器组,包括:
13.基于所述声学场景,确定所述前置固定波束滤波器的波束模式、所述前 置固定波束滤波器组的波束数量,以及,所述前置固定波束滤波器组的波束 空间排布和主瓣指向;
14.基于所述前置固定波束滤波器的波束模式、所述前置固定波束滤波器组 的波束数量,以及,所述前置固定波束滤波器组的波束空间排布和主瓣指向, 确定所述前置固定波束滤波器组。
15.可选地,基于所述声学场景,确定所述前置固定波束滤波器组的波束数 量,包括:
16.根据所述声学场景包含的声源个数,确定相干函数矩阵方程组的未知量 个数;
17.根据所述函数矩阵方程组的未知量个数,确定所述前置固定波束滤波器 组的波束数量。
18.可选地,所述基于所述前置固定波束滤波器组,以及所述波束形成信号, 计算后置滤波器的增益系数,包括:
19.获取所述前置固定波束滤波器组的波束空间排布和主瓣指向、所述前置 固定波束滤波器组的系数矩阵;
20.确定所述波束形成信号的自协方差矩阵;
21.基于所述前置固定波束滤波器组的波束空间排布和主瓣指向、所述前置 固定波束滤波器组的系数矩阵,以及,所述波束形成信号的自协方差矩阵, 估计所述声学场景中包含的声源的功率;
22.基于所述声学场景中包含的声源的功率,计算得到所述后置滤波器的增 益系数。
23.可选地,所述基于所述前置固定波束滤波器组的波束空间排布和主瓣指 向、所述前置固定波束滤波器组的系数矩阵,以及,所述波束形成信号的自 协方差矩阵,估计所述声学场景中包含的声源的功率,包括:
24.基于所述前置固定波束滤波器组的波束空间排布和主瓣指向、所述前置 固定波束滤波器组的系数矩阵,以及,所述波束形成信号的自协方差矩阵, 确定所述相干函数矩阵方程组的具体表达式;
25.计算所述相干函数矩阵方程组的最小二乘解,得到所述声学场景中包含 的声源的功率。
26.可选地,所述基于所述前置固定波束滤波器组的波束空间排布和主瓣指 向、所述前置固定波束滤波器组的系数矩阵,以及,所述波束形成信号的自 协方差矩阵,确定所述相干函数矩阵方程组的具体表达式,包括:
27.基于所述前置固定波束滤波器组的波束空间排布和主瓣指向,以及,所 述前置固定波束滤波器组的系数矩阵,计算所述声学场景中各个点声源的波 束后协方差矩阵、所述声学场景中扩散噪声的波束后协方差矩阵和所述声学 场景中白噪声的波束后协方差矩阵;
28.基于所述声学场景中各个点声源的波束后协方差矩阵、所述声学场景中 扩散噪声的波束后协方差矩阵、所述声学场景中白噪声的波束后协方差矩阵, 以及,所述波束形成信号的自协方差矩阵,确定所述相干函数矩阵方程组的 具体表达式。
29.可选地,所述基于所述前置固定波束滤波器组的波束空间排布和主瓣指 向,以及,所述前置固定波束滤波器组的系数矩阵,计算所述声学场景中各 个点声源的波束后协方差矩阵,包括:
30.基于所述前置固定波束滤波器组的波束空间排布和主瓣指向,确定所述 声学场景中各个点声源的方位;
31.针对所述声学场景中每个点声源,根据所述点声源的方位计算所述点声 源的直接导向矢量,将所述点声源的直接导向矢量与所述前置固定波束滤波 器组的系数矩阵进行矩阵乘,得到所述点声源的波束后导向矢量,对所述点 声源的波束后导向矢量求自协方
差,得到所述点声源的波束后协方差矩阵。
32.一种语音增强装置,所述装置包括:
33.前置固定波束滤波器组确定单元,用于基于当前声学场景确定前置固定 波束滤波器组;
34.获取单元,用于获取麦克风阵列在所述声学场景采集的原始多通道音频 信号;
35.波束形成处理单元,用于利用所述前置固定波束滤波器组对所述原始多 通道音频信号进行波束形成处理,得到波束形成信号;
36.增益系数计算单元,用于基于所述前置固定波束滤波器组,以及所述波 束形成信号,计算后置滤波器的增益系数;
37.增强处理单元,用于利用所述后置滤波器的增益系数,对所述波束形成 信号进行增强处理,得到增强后的语音信号。
38.可选地,所述前置固定波束滤波器组确定单元,包括:
39.波束模式确定单元,用于基于所述声学场景,确定所述前置固定波束滤 波器的波束模式;
40.波束数量确定单元,用于基于所述声学场景,确定所述前置固定波束滤 波器组的波束数量;
41.波束空间排布和主瓣指向确定单元,用于基于所述声学场景确定所述前 置固定波束滤波器组的波束空间排布和主瓣指向;
42.前置固定波束滤波器组确定子单元,用于基于所述前置固定波束滤波器 的波束模式、所述前置固定波束滤波器组的波束数量,以及,所述前置固定 波束滤波器组的波束空间排布和主瓣指向,确定所述前置固定波束滤波器组。
43.可选地,所述波束数量确定单元,包括:
44.未知量个数确定单元,用于根据所述声学场景包含的声源个数,确定相 干函数矩阵方程组的未知量个数;
45.波束数量确定子单元,用于根据所述函数矩阵方程组的未知量个数,确 定所述前置固定波束滤波器组的波束数量。
46.可选地,所述增益系数计算单元,包括:
47.前置固定滤波器组信息获取单元,用于获取所述前置固定波束滤波器组 的波束空间排布和主瓣指向、所述前置固定波束滤波器组的系数矩阵;
48.自协方差矩阵确定单元,用于确定所述波束形成信号的自协方差矩阵;
49.声源功率估计单元,用于基于所述前置固定波束滤波器组的波束空间排 布和主瓣指向、所述前置固定波束滤波器组的系数矩阵,以及,所述波束形 成信号的自协方差矩阵,估计所述声学场景中包含的声源的功率;
50.增益系数计算子单元,用于基于所述声学场景中包含的声源的功率,计 算得到所述后置滤波器的增益系数。
51.可选地,所述声源功率估计单元,包括:
52.相干函数矩阵方程组的具体表达式确定单元,用于基于所述前置固定波 束滤波器组的波束空间排布和主瓣指向、所述前置固定波束滤波器组的系数 矩阵,以及,所述波束形成信号的自协方差矩阵,确定所述相干函数矩阵方 程组的具体表达式;
53.最小二乘计算单元,用于计算所述相干函数矩阵方程组的最小二乘解, 得到所述声学场景中包含的声源的功率。
54.可选地,所述相干函数矩阵方程组的具体表达式确定单元,具体用于:
55.基于所述前置固定波束滤波器组的波束空间排布和主瓣指向,以及,所 述前置固定波束滤波器组的系数矩阵,计算所述声学场景中各个点声源的波 束后协方差矩阵、所述声学场景中扩散噪声的波束后协方差矩阵和所述声学 场景中白噪声的波束后协方差矩阵;
56.基于所述声学场景中各个点声源的波束后协方差矩阵、所述声学场景中 扩散噪声的波束后协方差矩阵、所述声学场景中白噪声的波束后协方差矩阵, 以及,所述波束形成信号的自协方差矩阵,确定所述相干函数矩阵方程组的 具体表达式。
57.可选地,所述相干函数矩阵方程组的具体表达式确定单元,具体用于:
58.基于所述前置固定波束滤波器组的波束空间排布和主瓣指向,确定所述 声学场景中各个点声源的方位;
59.针对所述声学场景中每个点声源,根据所述点声源的方位计算所述点声 源的直接导向矢量,将所述点声源的直接导向矢量与所述前置固定波束滤波 器组的系数矩阵进行矩阵乘,得到所述点声源的波束后导向矢量,对所述点 声源的波束后导向矢量求自协方差,得到所述点声源的波束后协方差矩阵。
60.一种语音增强设备,包括存储器和处理器;
61.所述存储器,用于存储程序;
62.所述处理器,用于执行所述程序,实现如上所述的语音增强方法的各个 步骤。
63.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器 执行时,实现如上所述的语音增强方法的各个步骤。
64.借由上述技术方案,本技术公开了一种语音增强方法、装置、设备及可 读存储介质。先基于当前声学场景确定前置固定波束滤波器组;在获取麦克 风阵列在声学场景采集的原始多通道音频信号之后,先利用前置固定波束滤 波器组对原始多通道音频信号进行波束形成处理,得到波束形成信号,再基 于前置固定波束滤波器组,以及波束形成信号,计算后置滤波器的增益系数, 使得计算得到的后置滤波器的增益系数误差较小,最后再利用后置滤波器的 增益系数,对波束形成信号进行增强处理,得到增强后的语音信号,能够提 升语音增强效果。
附图说明
65.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:
66.图1为本技术实施例公开的一种语音增强系统的结构示意图;
67.图2为本技术实施例公开的一种语音增强方法的流程示意图;
68.图3为本技术实施例公开的一种基于声学场景确定前置固定波束滤波器 组的方法的流程示意图;
69.图4为本技术实施例公开的一种基于前置固定波束滤波器组,以及波束 形成信
号,计算后置滤波器的增益系数的方法的流程示意图;
70.图5为本技术实施例公开的一种语音增强装置结构示意图;
71.图6为本技术实施例公开的一种语音增强设备的硬件结构框图。
具体实施方式
72.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而 不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
73.由背景技术可知,目前的后滤波方案均基于麦克风阵列拾取的原始多通 道音频信号计算后置滤波器的增益系数,后置滤波器的增益系数容易出现误 差,影响语音增强效果。为了便于更深入理解本技术方案,本案首先对目前 的后滤波方案的缺陷进行详细说明。
74.目前的后滤波方案在对麦克风阵列拾取的原始多通道音频信号进行语音 增强时,是需要估计后置滤波器的增益系数的,以全局最优最小二乘后置滤 波器(least-squares post filter,lspf)方案为例,其将点声源、扩散噪声和空 间白噪声均考虑在统一的相干函数矩阵模型内,并使用一种应用于全部阵元 的最小二乘算法来估计最优的后置滤波器系数。具体流程可以如下:
75.1)在某一确定声学环境,由一些声源产生噪声,通过麦克风阵列拾取原 始多通道音频信号;
76.2)根据1)所述声学环境,假设理想的声场场景,即是否包括点干扰源、 扩散噪声、空间白噪声等;
77.3)基于1)所述获取的多通道音频信号计算前置固定波束滤波器系数;
78.4)基于2)假设的声场环境,确定要使用的相干函数矩阵模型;该相干 函数矩阵模型包含点声源的协方差矩阵、扩散噪声的协方差矩阵以及白噪声 的协方差矩阵;
79.5)根据1)所述获取的原始多通道音频信号,计算原始多通道音频信号 的自协方差矩阵;
80.6)基于4)确定的相干函数矩阵模型和5)计算得到的自协方差矩阵, 使用最小二乘法估计1)所述各声源的功率或方差;
81.7)基于6)所述估计得到的功率,以及3)所述计算得到的前置固定波 束滤波器系数,计算后置滤波器的增益系数。
82.在上述流程4)中,在求解点声源的协方差矩阵时,要求已知点声源具体 的空间方位或入射角度,而点声源具体的空间方位或入射角度在实际应用中 难以直接获取,需要进行估计,而点声源具体的空间方位或入射角度估计不 准确,容易造成求解的点声源的协方差矩阵出现误差;求解的点声源的协方 差矩阵出现误差,会造成求解的声源功率大小的计算误差,进一步扩大后置 滤波器增益系数的计算误差;
83.在上述流程5)中,原始多通道音频信号的自协方差矩阵的形式与麦克风 阵列拓扑结构直接相关,若麦克风阵列阵元数量较多,会导致在上述流程6) 中最小二乘法一次迭代的参数量和计算复杂度将指数上升,若麦克风阵列阵 元数量较少,会导致在上述流程6)
中通过相干函数矩阵方程组可求得的最小 二乘解的声源数量将受到限制,最终也会导致后置滤波器增益系数的计算误 差。
84.可见,全局最优最小二乘后置滤波器(least-squares post filter,lspf)方 案,其估计后置滤波器的增益系数容易出现误差,进而影响其语音增强效果。
85.鉴于上述问题,本案发明人进行了深入研究,最终提出了一种语音增强 系统。
86.参照图1,图1为本技术实施例公开的一种语音增强系统的结构示意图。 所述语音增强系统包括麦克风阵列、前置固定波束滤波器组以及后置滤波器, 所述前置固定波束滤波器组中包括多个前置固定波束滤波器。其中,麦克风 阵列用于采集当前声学场景的原始多通道音频信号,在对原始多通道音频信 号进行语音增强处理时,先基于当前声学场景确定前置固定波束滤波器组, 再利用其对原始多通道音频信号进行波束形成处理,得到波束形成信号,然 后基于前置固定波束滤波器组以及波束形成信号确定得到后置滤波器的增益 系数,最后基于后置滤波器的增益系数对波束形成信号进行增强,得到增强 后的语音信号。
87.基于上述语音增强系统,本案发明人提出了一种语音增强方法,该方法 能够实现语音增强,并且达到较好的增强效果。接下来,通过下述实施例对 本技术提供的语音增强方法进行介绍。
88.参照图2,图2为本技术实施例公开的一种语音增强方法的流程示意图, 该方法可以包括:
89.步骤s101:基于当前声学场景确定前置固定波束滤波器组。
90.在本技术中,当前声学场景可以由三种理想声场构成,即自由场、扩散 场、空间白噪声场;而噪声是点干扰源、扩散噪声和空间白噪声的线性叠加, 也就是说,在本技术中,当前声学场景中可以包括扩散噪声、空间白噪声以 及至少一个点声源。
91.作为一种可实施方式,在本技术中,可以基于当前声学场景中包括的扩 散噪声、空间白噪声以及至少一个点声源,确定前置固定波束滤波器组,具 体实现方式将通过后面的实施例详细说明,此处不再赘述。
92.步骤s102:获取麦克风阵列在所述声学场景采集的原始多通道音频信号。
93.在所述声学场景中,可以使用麦克风阵列采集得到原始多通道音频信号。
94.步骤s103:利用所述前置固定波束滤波器组对所述原始多通道音频信号 进行波束形成处理,得到波束形成信号。
95.在本技术中,麦克风阵列在所述声学场景采集的原始多通道音频信号为 时域信号,因此,在利用所述前置固定波束滤波器组对所述原始多通道音频 信号进行波束形成处理之前,可以先根据标准数字信号处理流程将原始多通 道音频信号变换到频域,得到频域原始多通道音频信号,再利用所述前置固 定波束滤波器组对所述频域原始多通道音频信号进行波束形成处理。具体的, 可以采用dtft(离散时间傅里叶变换,discrete-time fourier transform)将麦 克风阵列采集的原始多通道音频信号变换到频域。
96.另外,在麦克风阵列的远场信号模型假设中,各个阵元接收到的信号功 率幅度理论上是一致的,但是由于系统误差,导致各个阵元接收到的信号功 率可能不一致,此时需要进行功率均衡,以满足远场信号模型的假设。因此, 在本技术中,在得到频域原始多通道音频信号之后,还可以进一步确定是否 需要对频域原始多通道音频信号进行功率均衡处
理,如果需要,则先对频域 原始多通道音频信号进行功率均衡处理,得到功率均衡处理后的频域原始多 通道音频信号,再利用前置固定波束滤波器组对功率均衡处理后的频域原始 多通道音频信号进行波束形成处理,如果不需要,则直接利用前置固定波束 滤波器组对频域原始多通道音频信号进行波束形成处理。
97.作为一种可实施方式,在本技术中,如果频域原始多通道音频信号各个 通道音频信号的功率幅度方差小于一个特定阈值,则不需要进行功率均衡处 理,否则,则需要进行功率均衡处理。
98.在本技术中,利用所述前置固定波束滤波器组对所述原始多通道音频信 号进行波束形成处理,即将频域原始多通道音频信号通过所述前置固定波束 滤波器组进行滤波操作,所述前置固定波束滤波器组输出所述波束形成信号, 所述波束形成信号的维度与前置固定波束滤波器组中所包含的前置固定波束 滤波器的数量相同。
99.基于该步骤,可以将麦克风阵列采集的原始多通道音频信号映射到任意 维度,前置固定波束滤波器本身的参数固定,计算量较小,若将高维数据映 射至低维,将极大减少后续相干函数矩阵方程组的计算冗余,降低算法的参 数量和计算复杂度;若将低维数据映射至高维,可拓展后续相干函数矩阵方 程组能够一次求解的声源数量,同时前置滤波器组的多路输出可有效缓解原 始低维数据引入的随机误差扰动,提升系统的鲁棒性。
100.步骤s104:基于所述前置固定波束滤波器组,以及所述波束形成信号, 计算后置滤波器的增益系数。
101.在本技术中,可以基于前置固定波束滤波器组的特定信息,以及所述波 束形成信号,计算后置滤波器的增益系数,具体实现方式将在后面的实施例 进行详细说明,此处不再赘述。
102.步骤s105:利用所述后置滤波器的增益系数,对所述波束形成信号进行 增强处理,得到增强后的语音信号。
103.在本技术中,可以将后置滤波器的增益系数应用到波束形成信号上,得 到增强后的频域语音信号,再将增强后的频域语音信号的每一帧变换到时域, 得到增强后的时域语音信号。具体的,可以采用反离散时间傅里叶变换idtft 将增强后的频域语音信号的每一帧变换到时域,得到增强后的时域语音信号。
104.本实施例公开了一种语音增强方法。先基于当前声学场景确定前置固定 波束滤波器组;在获取麦克风阵列在声学场景采集的原始多通道音频信号之 后,先利用前置固定波束滤波器组对原始多通道音频信号进行波束形成处理, 得到波束形成信号,再基于前置固定波束滤波器组,以及波束形成信号,计 算后置滤波器的增益系数,使得计算得到的后置滤波器的增益系数误差较小, 最后再利用后置滤波器的增益系数,对波束形成信号进行增强处理,得到增 强后的语音信号,能够提升语音增强效果。
105.在本技术的另一个实施例中,对步骤s101基于所述声学场景确定前置固 定波束滤波器组的具体实现方式进行了说明。
106.参照图3,图3为本技术实施例公开的一种基于声学场景确定前置固定波 束滤波器组的方法的流程示意图,该方法可以包括:
107.步骤s201:基于所述声学场景,确定所述前置固定波束滤波器的波束模 式、所述前置固定波束滤波器组的波束数量,以及,所述前置固定波束滤波 器组的波束空间排布和
主瓣指向。
108.在本技术中,前置固定波束滤波器可以是常规的延迟相加波束、超指向 波束,也可以利用凸优化工具求解最优的固定波束模式;所述前置固定波束 滤波器组的波束空间排布和主瓣指向应根据所述声学场景进行针对性设计, 以保证设计的波束能够覆盖相关声源所处空间方位。
109.作为一种可实施方式,基于所述声学场景,确定所述前置固定波束滤波 器组的波束数量,包括:
110.根据所述声学场景包含的声源个数,确定相干函数矩阵方程组的未知量 个数;根据所述函数矩阵方程组的未知量个数,确定所述前置固定波束滤波 器组的波束数量。
111.在本技术中,当前声学场景可以由三种理想声场构成,即自由场、扩散 场、空间白噪声场;而噪声是点干扰源、扩散噪声和空间白噪声的线性叠加, 也就是说,在本技术中,当前声学场景中可以包括扩散噪声、空间白噪声以 及至少一个点声源,因此,相干函数矩阵方程组可以采用基于加性信号的相 干函数矩阵模型确定,相干函数矩阵方程组的未知量个数可以为所述声学场 景中包含的点声源、扩散噪声及空间白噪声的个数,为便于理解,如果所述 声学场景中包含3个点声源、扩散噪声和空间白噪声,则相干函数矩阵方程 组的未知量个数为5。
112.需要说明的是,在本技术中,为了保证相干函数矩阵方程组有最小二乘 解,假设所述前置固定波束滤波器组的波束数量为n,则n(n 1)不小于所述 相干函数矩阵方程组的未知量个数。
113.步骤s202:基于所述前置固定波束滤波器的波束模式、所述前置固定波 束滤波器组的波束数量,以及,所述前置固定波束滤波器组的波束空间排布 和主瓣指向,确定所述前置固定波束滤波器组。
114.在本技术中,在确定所述前置固定波束滤波器组之后,即可得到所述前 置固定波束滤波器组的系数矩阵。
115.为便于理解,假设所述前置固定波束滤波器组的波束数量为n,则所述 前置固定波束滤波器组的系数矩阵可以为:
116.w
p
=[w1,w2,

,wn]
[0117]
其中,元素wn=[h1,h2,

,hm]
t
为前置固定波束滤波器n的系数矢量。
[0118]
则波束形成信号可以通过如下公式确定:
[0119]
x(jw)=y(jw)
·wp
[0120]
其中,y(jw)为频域原始多通道音频信号,x(jw)为波束形成信号。
[0121]
在本技术的另一个实施例中,对步骤s104基于前置固定波束滤波器组, 以及波束形成信号,计算后置滤波器的增益系数的具体实现方式进行说明。
[0122]
参照图4,图4为本技术实施例公开的一种基于前置固定波束滤波器组, 以及波束形成信号,计算后置滤波器的增益系数的方法的流程示意图,该方 法可以包括:
[0123]
步骤s301:获取所述前置固定波束滤波器组的波束空间排布和主瓣指向、 所述前置固定波束滤波器组的系数矩阵。
[0124]
在前述实施例中,已经确定了前置固定波束滤波器组的波束空间排布和 主瓣指向、所述前置固定波束滤波器组的系数矩阵,可以对其进行存储,在 本实施例中直接获取
即可。
[0125]
步骤s302:确定所述波束形成信号的自协方差矩阵。
[0126]
步骤s303:基于所述前置固定波束滤波器组的波束空间排布和主瓣指向、 所述前置固定波束滤波器组的系数矩阵,以及,所述波束形成信号的自协方 差矩阵,估计所述声学场景中包含的声源的功率。
[0127]
作为一种可实施方式,在本技术中,可以先基于所述前置固定波束滤波 器组的波束空间排布和主瓣指向、所述前置固定波束滤波器组的系数矩阵, 以及,所述波束形成信号的自协方差矩阵,确定所述相干函数矩阵方程组的 具体表达式;再计算所述相干函数矩阵方程组的最小二乘解,得到所述声学 场景中包含的声源的功率。
[0128]
具体的,可以先基于所述前置固定波束滤波器组的波束空间排布和主瓣 指向,以及,所述前置固定波束滤波器组的系数矩阵,计算所述声学场景中 各个点声源的波束后协方差矩阵、所述声学场景中扩散噪声的波束后协方差 矩阵和所述声学场景中白噪声的波束后协方差矩阵;再基于所述声学场景中 各个点声源的波束后协方差矩阵、所述声学场景中扩散噪声的波束后协方差 矩阵、所述声学场景中白噪声的波束后协方差矩阵,以及,所述波束形成信 号的自协方差矩阵,确定所述相干函数矩阵方程组的具体表达式。
[0129]
其中,所述基于所述前置固定波束滤波器组的波束空间排布和主瓣指向, 以及,所述前置固定波束滤波器组的系数矩阵,计算所述声学场景中各个点 声源的波束后协方差矩阵,包括:
[0130]
基于所述前置固定波束滤波器组的波束空间排布和主瓣指向,确定所述 声学场景中各个点声源的方位;
[0131]
针对所述声学场景中每个点声源,根据所述点声源的方位计算所述点声 源的直接导向矢量,将所述点声源的直接导向矢量与所述前置固定波束滤波 器组的系数矩阵进行矩阵乘,得到所述点声源的波束后导向矢量,对所述点 声源的波束后导向矢量求自协方差,得到所述点声源的波束后协方差矩阵。
[0132]
为便于理解,假设点声源的波束后协方差矩阵可表述为:
[0133][0134]
其中,w
p
是前置固定波束滤波器组系数矩阵,φg是声源的原始相干函数 矩阵,φy是待求点声源功率;
[0135]
扩散噪声的波束后协方差矩阵可表述为:
[0136][0137]
其中,w
p
是前置固定波束滤波器组系数矩阵,φv是扩散噪声的原始协方 差矩阵,γ
diff
是理想扩散声场的相干函数矩阵,φv是待求解的扩散噪声的功率;
[0138]
白噪声的波束后协方差矩阵可表述为:
[0139][0140]
其中,w
p
是前置固定波束滤波器组系数矩阵,i
white
是空间白噪声的相干函 数矩阵,通常为单位阵,φu是待求解的白噪声的功率;
[0141]
所述波束形成信号的自协方差矩阵为φ
x

[0142]
综上,可以得到相干函数矩阵方程组的具体表达式:
[0143][0144]
矩阵秩为n(n 1)/2,其中[φy]i,φv,φu是待求解的未知量,i表示点声源的 序号。
[0145]
通过计算上述相干函数矩阵方程组的最小二乘解,即可得到声学场景中 包含的声源的功率。
[0146]
需要说明的是,在求解声学场景中包含的声源的功率时,最小二乘算法 有两种迭代方式,可以选择在多个最小二乘解决方案中每次只考虑一个点声 源,最后进行累加平均;或是在一个最小解决方案中一次性考虑所有目标点 声源,以满足计算性能的要求。
[0147]
步骤s304:基于所述声学场景中包含的声源的功率,计算得到所述后置 滤波器的增益系数。
[0148]
在该步骤中,可以基于所述声学场景中包含的声源的功率对波束形成信 号进行限幅,再参考前置固定波束滤波器组系数矩阵,即可计算得到后置滤 波器的增益系数。
[0149]
在本实施例中,根据前置固定波束滤波器组各路输出信号功率大小,可 以判断声学环境中各声源的空间方位,将对应的波束主瓣指向视为声源方向, 能够解决现有后滤波方案中,目标声源空间方位难以获取的问题。而且,前 置固定波束滤波器组波束的输出功率可以作为对应目标声源功率的参考阈 值,例如目标声源功率应始终不大于对应的前置固定波束滤波器的输出功率, 缓解了声源功率估计的误差问题。
[0150]
下面对本技术实施例公开的语音增强装置进行描述,下文描述的语音增 强装置与上文描述的语音增强方法可相互对应参照。
[0151]
参照图5,图5为本技术实施例公开的一种语音增强装置结构示意图。如 图5所示,该语音增强装置可以包括:
[0152]
前置固定波束滤波器组确定单元11,用于基于当前声学场景确定前置固 定波束滤波器组;
[0153]
获取单元12,用于获取麦克风阵列在所述声学场景采集的原始多通道音 频信号;
[0154]
波束形成处理单元13,用于利用所述前置固定波束滤波器组对所述原始 多通道音频信号进行波束形成处理,得到波束形成信号;
[0155]
增益系数计算单元14,用于基于所述前置固定波束滤波器组,以及所述 波束形成信号,计算后置滤波器的增益系数;
[0156]
增强处理单元15,用于利用所述后置滤波器的增益系数,对所述波束形 成信号进行增强处理,得到增强后的语音信号。
[0157]
作为一种可实施方式,所述前置固定波束滤波器组确定单元,包括:
[0158]
波束模式确定单元,用于基于所述声学场景,确定所述前置固定波束滤 波器的波束模式;
[0159]
波束数量确定单元,用于基于所述声学场景,确定所述前置固定波束滤 波器组的波束数量;
[0160]
波束空间排布和主瓣指向确定单元,用于基于所述声学场景确定所述前 置固定波束滤波器组的波束空间排布和主瓣指向;
[0161]
前置固定波束滤波器组确定子单元,用于基于所述前置固定波束滤波器 的波束模式、所述前置固定波束滤波器组的波束数量,以及,所述前置固定 波束滤波器组的波束空间排布和主瓣指向,确定所述前置固定波束滤波器组。
[0162]
作为一种可实施方式,所述波束数量确定单元,包括:
[0163]
未知量个数确定单元,用于根据所述声学场景包含的声源个数,确定相 干函数矩阵方程组的未知量个数;
[0164]
波束数量确定子单元,用于根据所述函数矩阵方程组的未知量个数,确 定所述前置固定波束滤波器组的波束数量。
[0165]
作为一种可实施方式,所述增益系数计算单元,包括:
[0166]
前置固定滤波器组信息获取单元,用于获取所述前置固定波束滤波器组 的波束空间排布和主瓣指向、所述前置固定波束滤波器组的系数矩阵;
[0167]
自协方差矩阵确定单元,用于确定所述波束形成信号的自协方差矩阵;
[0168]
声源功率估计单元,用于基于所述前置固定波束滤波器组的波束空间排 布和主瓣指向、所述前置固定波束滤波器组的系数矩阵,以及,所述波束形 成信号的自协方差矩阵,估计所述声学场景中包含的声源的功率;
[0169]
增益系数计算子单元,用于基于所述声学场景中包含的声源的功率,计 算得到所述后置滤波器的增益系数。
[0170]
作为一种可实施方式,所述声源功率估计单元,包括:
[0171]
相干函数矩阵方程组的具体表达式确定单元,用于基于所述前置固定波 束滤波器组的波束空间排布和主瓣指向、所述前置固定波束滤波器组的系数 矩阵,以及,所述波束形成信号的自协方差矩阵,确定所述相干函数矩阵方 程组的具体表达式;
[0172]
最小二乘计算单元,用于计算所述相干函数矩阵方程组的最小二乘解, 得到所述声学场景中包含的声源的功率。
[0173]
作为一种可实施方式,所述相干函数矩阵方程组的具体表达式确定单元, 具体用于:
[0174]
基于所述前置固定波束滤波器组的波束空间排布和主瓣指向,以及,所 述前置固定波束滤波器组的系数矩阵,计算所述声学场景中各个点声源的波 束后协方差矩阵、所述声学场景中扩散噪声的波束后协方差矩阵和所述声学 场景中白噪声的波束后协方差矩阵;
[0175]
基于所述声学场景中各个点声源的波束后协方差矩阵、所述声学场景中 扩散噪声的波束后协方差矩阵、所述声学场景中白噪声的波束后协方差矩阵, 以及,所述波束形成信号的自协方差矩阵,确定所述相干函数矩阵方程组的 具体表达式。
[0176]
作为一种可实施方式,所述相干函数矩阵方程组的具体表达式确定单元, 具体用于:
[0177]
基于所述前置固定波束滤波器组的波束空间排布和主瓣指向,确定所述 声学场景中各个点声源的方位;
[0178]
针对所述声学场景中每个点声源,根据所述点声源的方位计算所述点声 源的直接导向矢量,将所述点声源的直接导向矢量与所述前置固定波束滤波 器组的系数矩阵进行矩阵乘,得到所述点声源的波束后导向矢量,对所述点 声源的波束后导向矢量求自协方
差,得到所述点声源的波束后协方差矩阵。
[0179]
参照图6,图6为本技术实施例提供的一种语音增强设备的硬件结构框图, 参照图6,语音增强设备的硬件结构可以包括:至少一个处理器1,至少一个 通信接口2,至少一个存储器3和至少一个通信总线4;
[0180]
在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量 为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的 通信;
[0181]
处理器1可能是一个中央处理器cpu,或者是特定集成电路asic (application specific integrated circuit),或者是被配置成实施本发明实施例 的一个或多个集成电路等;
[0182]
存储器3可能包含高速ram存储器,也可能还包括非易失性存储器 (non-volatile memory)等,例如至少一个磁盘存储器;
[0183]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序 用于:
[0184]
基于当前声学场景确定前置固定波束滤波器组;
[0185]
获取麦克风阵列在所述声学场景采集的原始多通道音频信号;
[0186]
利用所述前置固定波束滤波器组对所述原始多通道音频信号进行波束形 成处理,得到波束形成信号;
[0187]
基于所述前置固定波束滤波器组,以及所述波束形成信号,计算后置滤 波器的增益系数;
[0188]
利用所述后置滤波器的增益系数,对所述波束形成信号进行增强处理, 得到增强后的语音信号。
[0189]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0190]
本技术实施例还提供一种可读存储介质,该可读存储介质可存储有适于 处理器执行的程序,所述程序用于:
[0191]
基于当前声学场景确定前置固定波束滤波器组;
[0192]
获取麦克风阵列在所述声学场景采集的原始多通道音频信号;
[0193]
利用所述前置固定波束滤波器组对所述原始多通道音频信号进行波束形 成处理,得到波束形成信号;
[0194]
基于所述前置固定波束滤波器组,以及所述波束形成信号,计算后置滤 波器的增益系数;
[0195]
利用所述后置滤波器的增益系数,对所述波束形成信号进行增强处理, 得到增强后的语音信号。
[0196]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0197]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”ꢀ
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存 在另外的相同要素。
[0198]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0199]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下, 在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献