一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音处理方法、装置、存储介质及电子装置与流程

2022-12-07 02:18:10 来源:中国专利 TAG:


1.本发明涉及计算机领域,具体而言,涉及一种语音处理方法、装置、存储介质及电子装置。


背景技术:

2.在物联网的发展下,越来越多的智能穿戴设备可以帮助或辅助人们日常生活,对智能穿戴设备的要求越来越高,需要不同场景下具有较高语音分离以及的降噪能力。
3.相关技术中,语音处理中,在进行语音分离后的语音残留较多,且当语音出现异常值的时候容易出现分离异常的问题;设备中途移动后容易导致分离异常。
4.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供了一种语音处理方法、装置、存储介质及电子装置,以至少解决现有技术中,语音分离处理导致语音异常的技术问题。
6.根据本发明实施例的一个方面,提供了一种语音处理方法,包括:获取圆形麦克风阵列采集到的混合语音信息,并将所述混合语音信号进行短时傅里叶变换,得到混合语音时频域;利用神经网络降噪算法处理所述混合语音信号,并计算每一帧处理完的信号与原始信号的比值;基于所述比值与预设阈值之间的关系,对所述混合语音信号进行不同的预处理;将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,其中,所述每个通道对应一个声源;基于所述每个通道的能量,确定每个通道的干净语音信号;对所述干净语音信号的语音信号时频域形式进行短时傅里叶逆变换,得到目标声源的语音时域信号。
7.可选的,所述基于所述比值与预设阈值之间的关系,对所述混合语音信号进行不同的预处理,包括:在所述比值小于预设阈值的情况下,将去混响后的语音信号的当前帧置0;在所述比值大于等于所述预设阈值的情况下,保留当前帧混合语音信号。
8.可选的,所述将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,包括:将所述混合语音信号通过二维波达方位估计得到每一帧的俯仰角和方位角;所述圆形麦克风阵列包括多个麦克风,每个麦克风对应一个通道,针对每个通道的语音信号通过如下方式确定:在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值、且方位角与预设方位角之间的差值小于等于预设方位角偏差的情况下,得到通道的语音信号。
9.可选的,所述基于所述每个通道的能量,确定每个通道的干净语音信号,包括:在所述圆形麦克风阵列包括四个麦克风,所述四个麦克风采集的语音信息通过分离聚类算法后只得到两个单通道语音,针对每个语音通道确定干净语音信号的方式如下;语音通道a信号与原始信号进行能量对比,语音通道a与语音通道b进行能量对比分别得到语音通道a的干净语音信号,语音通道b的干净语音信号。
10.可选的,所述基于所述每个通道的能量,确定每个通道的干净语音信号之后,所述方法还包括:每个语音通道的干净语音信号通过语音活动性检测算法,得到对应的状态信号。
11.可选的,所述每个通道的干净语音信号通过语音活动性检测算法,得到对应的状态信号之后,所述方法还包括:对于语音通道a,在所述状态信号大于设定语音活动性检测的阈值、且在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值的情况下,记录第一当前帧;对于语音通道b,在所述状态信号大于设定语音活动性检测的阈值、且在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值的情况下,记录第二当前帧;在预设时间段后,第一当前帧大于第二当前帧的情况下,通过单通道降噪算法消除背景噪声,得到目标声源的时频域信号。
12.根据本发明实施例的另一方面,还提供了一种语音处理装置,包括:获取单元,用于获取圆形麦克风阵列采集到的混合语音信息,并将所述混合语音信号进行短时傅里叶变换,得到混合语音时频域;计算单元,用于利用神经网络降噪算法处理所述混合语音信号,并计算每一帧处理完的信号与原始信号的比值;处理单元,用于基于所述比值与预设阈值之间的关系,对所述混合语音信号进行不同的预处理;聚类单元,用于将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,其中,所述每个通道对应一个声源;确定单元,用于基于所述每个通道的能量,确定每个通道的干净语音信号;逆变换单元,用于对所述干净语音信号的语音信号时频域形式进行短时傅里叶逆变换,得到目标声源的语音时域信号。
13.可选的,所述处理单元,包括:第一处理模块,用于在所述比值小于预设阈值的情况下,将去混响后的语音信号的当前帧置0;第二处理模块,用于在所述比值大于等于所述预设阈值的情况下,保留当前帧混合语音信号。
14.可选的,所述聚类单元,包括:估计模块,用于将所述混合语音信号通过二维波达方位估计得到每一帧的俯仰角和方位角;第一确定模块,用于所述圆形麦克风阵列包括多个麦克风,每个麦克风对应一个通道,针对每个通道的语音信号通过如下方式确定:在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值、且方位角与预设方位角之间的差值小于等于预设方位角偏差的情况下,得到通道的语音信号。
15.可选的,所述确定单元,包括:第二确定模块,用于在所述圆形麦克风阵列包括四个麦克风,所述四个麦克风采集的语音信息通过分离聚类算法后只得到两个单通道语音,针对每个语音通道确定干净语音信号的方式如下;语音通道a信号与原始信号进行能量对比,语音通道a与语音通道b进行能量对比分别得到语音通道a的干净语音信号,语音通道b的干净语音信号。
16.可选的,所述装置还包括:检测单元,所述基于所述每个通道的能量,确定每个通道的干净语音信号之后,每个语音通道的干净语音信号通过语音活动性检测算法,得到对应的状态信号。
17.可选的,所述装置还包括:第一记录单元,用于所述每个通道的干净语音信号通过语音活动性检测算法,得到对应的状态信号之后,对于语音通道a,在所述状态信号大于设定语音活动性检测的阈值、且在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值的情况下,记录第一当前帧;第二记录单元,用于对于语音通道b,在所述状态信号大于设
定语音活动性检测的阈值、且在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值的情况下,记录第二当前帧;在预设时间段后,第一当前帧大于第二当前帧的情况下,通过单通道降噪算法消除背景噪声,得到目标声源的时频域信号。
18.根据本技术实施例的第一个方面,提供了一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述语音处理方法。
19.根据本技术实施例的第一个方面,提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述语音处理方法。
20.在本发明实施例中,获取圆形麦克风阵列采集到的混合语音信息,并将混合语音信号进行短时傅里叶变换,得到混合语音时频域;利用神经网络降噪算法处理混合语音信号,并计算每一帧处理完的信号与原始信号的比值;基于比值与预设阈值之间的关系,对混合语音信号进行不同的预处理;将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,其中,每个通道对应一个声源;基于每个通道的能量,确定每个通道的干净语音信号;对干净语音信号的语音信号时频域形式进行短时傅里叶逆变换,得到目标声源的语音时域信号。即在本发明中,首先对语音用神经网络降噪算法进行了预处理,避免了语音异常值带来的影响,结合去混响和分离聚类算法达到初步分离效果,并在此基础上利用了二维方位估计,能量对比和语音活动性检测算法,解决了便携式可穿戴设备移动时导致的分离异常问题,最后通过单通道降噪使得目标语音更为干净,分离出目标两通道语音,进而解决了现有技术中,语音分离处理导致语音异常的技术问题。
附图说明
21.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
22.图1是根据本发明实施例的一种可选的语音处理方法的移动终端的硬件结构框图;
23.图2是根据本发明实施例的一种可选的语音处理方法的流程图;
24.图3是根据本发明实施例的一种可选的鲁棒的说话人分离系统示意图;
25.图4是根据本发明实施例的一种可选的圆形麦克风阵列示意图;
26.图5是根据本发明实施例的一种可选的鲁棒的说话人分离方法示意图;
27.图6是根据本发明实施例的一种可选的语音处理装置图。
具体实施方式
28.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
29.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第
二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
30.本技术实施例所提供的语音处理方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音处理方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
31.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
32.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
33.在本实施例中还提供了一种语音处理方法,图2是根据本发明实施例的语音处理方法的流程图,如图2所示,该语音处理方法流程包括如下步骤:
34.步骤s202,获取圆形麦克风阵列采集到的混合语音信息,并将所述混合语音信号进行短时傅里叶变换,得到混合语音时频域。
35.步骤s204,利用神经网络降噪算法处理所述混合语音信号,并计算每一帧处理完的信号与原始信号的比值。
36.步骤s206,基于所述比值与预设阈值之间的关系,对所述混合语音信号进行不同的预处理。
37.步骤s208,将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,其中,所述每个通道对应一个声源。
38.步骤s210,基于所述每个通道的能量,确定每个通道的干净语音信号。
39.步骤s212,对所述干净语音信号的语音信号时频域形式进行短时傅里叶逆变换,得到目标声源的语音时域信号。
40.在本实施例中,上述语音处理方法可以用于基于处理得到的语音时域信号,得到佩戴者的语音识别结果。上述语音处理方法可以包括但不限于应用可穿戴设备中的语音处理中,即基于降噪后的语音信号,识别佩戴中的语义。可以包括但不限于圆形麦克风阵列,大于两个麦克风的多个麦克风阵列。
41.上述圆形麦克阵列的半径为r。可以获取不同方向的语音信息。即每个麦克风对应一个通道语音数据。大于两个麦克的多个麦克阵列可以等距排列,也可以不等距随意排列,可以从更多方向获取佩戴者的语音信息。
42.通过麦克风阵列获取的佩戴者的语音信息,通常会携带很多噪音,通过本实施例采用的降噪方式,可以实现高效率的降噪。
43.在本实施例中,可穿戴设备可以包括但不限于智能手表、智能手环、智能眼镜、vr头戴、智能头盔以及智能球鞋等。
44.其中,上述语音处理方法的执行主体可以包括但不限于由智能设备、服务器、终端设备等。
45.通过本技术提供的实施例,获取圆形麦克风阵列采集到的混合语音信息,并将混合语音信号进行短时傅里叶变换,得到混合语音时频域;利用神经网络降噪算法处理混合语音信号,并计算每一帧处理完的信号与原始信号的比值;基于比值与预设阈值之间的关系,对混合语音信号进行不同的预处理;将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,其中,每个通道对应一个声源;基于每个通道的能量,确定每个通道的干净语音信号;对干净语音信号的语音信号时频域形式进行短时傅里叶逆变换,得到目标声源的语音时域信号。即在本发明中,首先对语音用神经网络降噪算法进行了预处理,避免了语音异常值带来的影响,结合去混响和分离聚类算法达到初步分离效果,并在此基础上利用了二维方位估计,能量对比和语音活动性检测算法,解决了便携式可穿戴设备移动时导致的分离异常问题,最后通过单通道降噪使得目标语音更为干净,分离出目标两通道语音,进而解决了现有技术中,语音分离处理导致语音异常的技术问题。
46.可选的,所述基于所述比值与预设阈值之间的关系,对所述混合语音信号进行不同的预处理,可以包括:在所述比值小于预设阈值的情况下,将去混响后的语音信号的当前帧置0;在所述比值大于等于所述预设阈值的情况下,保留当前帧混合语音信号。
47.可选的,所述将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,包括:将所述混合语音信号通过二维波达方位估计得到每一帧的俯仰角和方位角;所述圆形麦克风阵列包括多个麦克风,每个麦克风对应一个通道,针对每个通道的语音信号通过如下方式确定:在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值、且方位角与预设方位角之间的差值小于等于预设方位角偏差的情况下,得到通道的语音信号。
48.可选的,所述基于所述每个通道的能量,确定每个通道的干净语音信号,可以包括:在所述圆形麦克风阵列包括四个麦克风,所述四个麦克风采集的语音信息通过分离聚类算法后只得到两个单通道语音,针对每个语音通道确定干净语音信号的方式如下;语音通道a信号与原始信号进行能量对比,语音通道a与语音通道b进行能量对比分别得到语音通道a的干净语音信号,语音通道b的干净语音信号。
49.可选的,所述基于所述每个通道的能量,确定每个通道的干净语音信号之后,所述
方法还可以包括:每个语音通道的干净语音信号通过语音活动性检测算法,得到对应的状态信号。
50.可选的,所述每个通道的干净语音信号通过语音活动性检测算法,得到对应的状态信号之后,所述方法还可以包括:对于语音通道a,在所述状态信号大于设定语音活动性检测的阈值、且在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值的情况下,记录第一当前帧;对于语音通道b,在所述状态信号大于设定语音活动性检测的阈值、且在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值的情况下,记录第二当前帧;在预设时间段后,第一当前帧大于第二当前帧的情况下,通过单通道降噪算法消除背景噪声,得到目标声源的时频域信号。
51.作为一种可选的实施例,本技术还提供了一种鲁棒的说话人分离系统方法。如图3所示,基于鲁棒的说话人分离系统示意图。
52.如图3所示,鲁棒的说话人分离系统,该系统主要分为三个步骤:将麦克风采集到的语音先经过语音活动性检测得到有效语音段,避免了长时间无效语音带来的效率问题,然后将有效语音段经过前端信号处理算法进行分离,最后将输出语音段送入语音识别。
53.如图4所示,圆形麦克风阵列示意图。图4中示意出,圆形麦克风阵列,半径为r,俯仰角0
°
角方向,方位角90
°
角方向,方位角0
°
角方向。
54.其中,前端信号处理部分假设目标声源a方位可以在便携式可穿戴设备的任意方位,其俯仰角为θ(如30度方向),方位角为φ(如60度方向),目标声源b可在其他任意方位。
55.在本实施例中,先对信号进行预处理,而后利用分离聚类算法处理去混响后的多通道信号,得到通道1,通道2以及通道1’和通道2’的语音信号,然后通过能量对比的方式拿到更为干净的语音信号,之后通过语音活动性检测算法,并结合二维定位算法得到最后输出的目标声源a和目标声源b的语音信号。
56.在该鲁棒的说话人分离系统中的前端信号处理可以包括但不限于上述鲁棒的说话人分离方法。
57.如图5所示,鲁棒的说话人分离方法示意图。
58.步骤1,设定语音活动性检测的阈值为能量计算的阈值α1,能量对比的阈值为σ1,预设俯仰角θ1,方位角φ1,俯仰角θ2,方位角φ2,俯仰角偏差θ
bias
,方位角偏差φ
bias

59.步骤2,将麦克风接收到的混合语音信号进行短时傅里叶变换,得到数据的时频域形式x(t,k),t表示帧数,k表示频率;
60.步骤3,将麦克风信号通过二维波达方位估计得到每一帧的俯仰角和方位角
61.步骤4,利用神经网络降噪算法处理麦克风信号,并计算每帧处理完的信号与原始信号的比值α(t,k),如果α(t,k)<α1,将去混响后的语音信号的当前帧置0,反之保留当前帧信号;
62.步骤5,将步骤4预处理之后的多通道信号通过分离聚类算法,若且则得到通道1和通道2的语音信号;若且则得到通道1’和通道2’的语音信号;
63.步骤6,将步骤5得到的通道1与原始信号进行能量对比,通道1与通道2进行能量对比分别得到较为干净的通道1和通道2信号,同理可以得到较为干净的通道1’和通道2’语音信号;
64.步骤7,将步骤6得到的通道1和通道1’干净语音信号通过语音活动性检测算法分别得到通道1的状态和通道1’的状态
65.步骤8,当时,若记录当前帧frame1;当时,若记录当前帧frame2;
66.步骤9,在一段时间后,若frame1>frame2,将步骤6得到的通道1语音信号和通道2的语音信号通过单通道降噪算法消除背景噪声得到最终目标声源的时频域信号,反之将步骤6得到的通道1’语音信号和通道2’的语音信号通过单通道降噪算法消除背景噪声后得到最终目标声源的时频域信号;
67.步骤10,将语音信号时频域形式进行短时傅里叶逆变换,得到最终的目标声源a的语音时域信号和目标声源b的语音时域信号。
68.在本实施例中,首先对语音用神经网络降噪算法进行了预处理,避免了语音异常值带来的影响,结合去混响和分离聚类算法达到初步分离效果,并在此基础上利用了二维方位估计,能量对比和语音活动性检测算法,解决了便携式可穿戴设备移动时导致的分离异常问题,最后通过单通道降噪使得目标语音更为干净,分离出目标两通道语音。
69.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
70.在本实施例中还提供了一种语音处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
71.图6是根据本发明实施例的语音处理装置的结构框图,如图6所示,该语音处理装置包括:
72.获取单元601,用于获取圆形麦克风阵列采集到的混合语音信息,并将所述混合语音信号进行短时傅里叶变换,得到混合语音时频域;
73.计算单元603,用于利用神经网络降噪算法处理所述混合语音信号,并计算每一帧处理完的信号与原始信号的比值;
74.处理单元605,用于基于所述比值与预设阈值之间的关系,对所述混合语音信号进行不同的预处理;
75.聚类单元607,用于将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,其中,所述每个通道对应一个声源;
76.确定单元609,用于基于所述每个通道的能量,确定每个通道的干净语音信号;
77.逆变换单元611,用于对所述干净语音信号的语音信号时频域形式进行短时傅里叶逆变换,得到目标声源的语音时域信号。
78.通过本技术提供的实施例,获取单元601获取圆形麦克风阵列采集到的混合语音信息,并将所述混合语音信号进行短时傅里叶变换,得到混合语音时频域;计算单元603利用神经网络降噪算法处理混合语音信号,并计算每一帧处理完的信号与原始信号的比值;处理单元605基于比值与预设阈值之间的关系,对混合语音信号进行不同的预处理;聚类单元607将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,其中,每个通道对应一个声源;确定单元609基于每个通道的能量,确定每个通道的干净语音信号;逆变换单元611对干净语音信号的语音信号时频域形式进行短时傅里叶逆变换,得到目标声源的语音时域信号。首先对语音用神经网络降噪算法进行了预处理,避免了语音异常值带来的影响,结合去混响和分离聚类算法达到初步分离效果,并在此基础上利用了二维方位估计,能量对比和语音活动性检测算法,解决了便携式可穿戴设备移动时导致的分离异常问题,最后通过单通道降噪使得目标语音更为干净,分离出目标两通道语音。
79.可选的,所述处理单元605,可以包括:第一处理模块,用于在所述比值小于预设阈值的情况下,将去混响后的语音信号的当前帧置0;第二处理模块,用于在所述比值大于等于所述预设阈值的情况下,保留当前帧混合语音信号。
80.可选的,所述聚类单元607,可以包括:估计模块,用于将所述混合语音信号通过二维波达方位估计得到每一帧的俯仰角和方位角;第一确定模块,用于所述圆形麦克风阵列包括多个麦克风,每个麦克风对应一个通道,针对每个通道的语音信号通过如下方式确定:在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值、且方位角与预设方位角之间的差值小于等于预设方位角偏差的情况下,得到通道的语音信号。
81.可选的,所述确定单元609,可以包括:第二确定模块,用于在所述圆形麦克风阵列包括四个麦克风,所述四个麦克风采集的语音信息通过分离聚类算法后只得到两个单通道语音,针对每个语音通道确定干净语音信号的方式如下;语音通道a信号与原始信号进行能量对比,语音通道a与语音通道b进行能量对比分别得到语音通道a的干净语音信号,语音通道b的干净语音信号。
82.可选的,所述装置还可以包括:检测单元,所述基于所述每个通道的能量,确定每个通道的干净语音信号之后,每个语音通道的干净语音信号通过语音活动性检测算法,得到对应的状态信号。
83.可选的,所述装置还可以包括:第一记录单元,用于所述每个通道的干净语音信号通过语音活动性检测算法,得到对应的状态信号之后,对于语音通道a,在所述状态信号大于设定语音活动性检测的阈值、且在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值的情况下,记录第一当前帧;第二记录单元,用于对于语音通道b,在所述状态信号大于设定语音活动性检测的阈值、且在仰俯角与预设仰俯角之间的差值小于等于预设俯仰角偏差值的情况下,记录第二当前帧;在预设时间段后,第一当前帧大于第二当前帧的情况下,通过单通道降噪算法消除背景噪声,得到目标声源的时频域信号。
84.需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
85.本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
86.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
87.s1,获取圆形麦克风阵列采集到的混合语音信息,并将所述混合语音信号进行短时傅里叶变换,得到混合语音时频域;
88.s2,利用神经网络降噪算法处理所述混合语音信号,并计算每一帧处理完的信号与原始信号的比值;
89.s3,基于所述比值与预设阈值之间的关系,对所述混合语音信号进行不同的预处理;
90.s4,将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,其中,所述每个通道对应一个声源;
91.s5,基于所述每个通道的能量,确定每个通道的干净语音信号;
92.s6,对所述干净语音信号的语音信号时频域形式进行短时傅里叶逆变换,得到目标声源的语音时域信号。
93.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
94.本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
95.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
96.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
97.s1,获取圆形麦克风阵列采集到的混合语音信息,并将所述混合语音信号进行短时傅里叶变换,得到混合语音时频域;
98.s2,利用神经网络降噪算法处理所述混合语音信号,并计算每一帧处理完的信号与原始信号的比值;
99.s3,基于所述比值与预设阈值之间的关系,对所述混合语音信号进行不同的预处理;
100.s4,将预处理后的混合语音信号通过分离聚类算法,得到每个通道的语音信号,其中,所述每个通道对应一个声源;
101.s5,基于所述每个通道的能量,确定每个通道的干净语音信号;
102.s6,对所述干净语音信号的语音信号时频域形式进行短时傅里叶逆变换,得到目标声源的语音时域信号。
103.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
104.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成
的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
105.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献