农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

分离语音信号的方法、装置及介质与流程

2021-08-06 18:27:00 来源：中国专利 TAG：语音介质信号处理装置信号

本公开涉及语音信号处理领域，尤其涉及一种分离语音信号的方法、装置及介质。

背景技术：

语音分离是将目标语音从噪声干扰中分离出来，其具有广泛的应用，如助听器设计、鲁棒性自动语音识别(asr)、免提通信和自动会议记录。在实际的房间环境中进行语音分离时，由于混响的存在，语音分离就成为卷积盲源分离(cbss)问题。对于超定的卷积混合模型，在频域内独立分量分析(ica)后接置换校正装置和独立向量分析(iva)是近十年来发展起来的标准技术。

独立向量分析(iva)在理论上可以避免频域独立分量分析中出现的排列模糊现象，该方法是通过使用多变量源先验信息来保持每个源的不同频率箱之间的依赖关系。基于辅助函数的独立向量分析(auxiva)是一种稳定、快速的iva更新算法，它不包含任何调整参数。

技术实现要素：

为克服相关技术中存在的问题，本公开提供的分离语音信号的方法、装置及介质较好地保持了语音信号不同频率库之间的相关性，提高了分离性能。

根据本公开实施例的第一方面，提供一种分离语音信号的方法，包括：

对待分离的时域混合语音信号进行分帧处理，获取多帧时域子信号，所述时域混合语音信号包括至少两个声源信号；

获取所述时域子信号的频域子信号；

设置所述声源信号概率密度函数，其中所述概率密度函数与e为底的指数函数成正比，且所述指数函数的指数包括所述声源信号的m/n次方，其中m＝2，n＝(2a 1)/(2a-1)，a为自然数；

基于所述声源信号的概率密度函数，获取针对各帧频域子信号的分离矩阵；

通过针对各帧频域子信号的分离矩阵，获取至少一个声源信号的各帧频域子信号的后验估计信号；

基于至少一个声源信号的各帧频域子信号的后验估计信号，获取分离后的所述至少一个声源信号的时域信号。

其中，所述设置所述声源信号概率密度函数，包括：a的取值设置为1，n的取值设置为3。

其中，所述获取针对各帧频域子信号的分离矩阵，包括通过下述方法获取针对每个当前帧频域子信号的分离矩阵：

通过针对上一帧频域子信号的分离矩阵与当前帧频域子信号相乘，获取当前帧声源信号频域子信号的先验估计信号；

基于所述当前帧声源信号频域子信号的先验估计信号和针对上一帧频域子信号的分离矩阵，获取针对当前帧频域子信号的分离矩阵。

其中，所述基于所述当前帧声源信号频域子信号的先验估计信号和针对上一帧频域子信号的分离矩阵，获取针对当前帧频域子信号的分离矩阵，包括：

获取针对上一帧频域子信号的加权协方差矩阵；

基于所述针对上一帧频域子信号的加权协方差矩阵和所述当前帧声源信号频域子信号的先验估计信号，获取针对当前帧频域子信号的加权协方差矩阵；

通过所述针对上一帧频域子信号的分离矩阵和针对当前帧频域子信号的加权协方差矩阵相乘，获取针对当前帧频域子信号的分离矩阵。

其中，所述设置所述声源信号概率密度函数，包括：

设置所述声源信号的概率密度函数为

其中，p(si)表示所述声源信号的概率密度函数，si表示所述声源信号，i表示所述声源信号的编号且取值为大于等于1的正整数，μi和分别表示第i个所述声源信号的均值向量和协方差矩阵。

根据本公开实施例的第二方面，提供一种分离语音信号的装置，包括：

分帧模块，被设置为对待分离的时域混合语音信号进行分帧处理，获取多帧时域子信号，所述时域混合语音信号包括至少两个声源信号；

时频变换模块，被设置为获取所述时域子信号的频域子信号；

源先验设置模块，被设置为设置所述声源信号概率密度函数，其中所述概率密度函数与e为底的指数函数成正比，且所述指数函数的指数包括所述声源信号的m/n次方，其中m＝2，n＝(2a 1)/(2a-1)，a为自然数；

分离矩阵获取模块，被设置为基于所述声源信号的概率密度函数，获取针对各帧频域子信号的分离矩阵；

分离信号获取模块，被设置为通过针对各帧频域子信号的分离矩阵，获取至少一个声源信号的各帧频域子信号的后验估计信号，以及基于至少一个声源信号的各帧频域子信号的后验估计信号，获取分离后的所述至少一个声源信号的时域信号。

其中，所述源先验设置模块还被设置为：

将a的取值设置为1，n的取值设置为3。

其中，所述分离矩阵获取模块还被设置为通过下述方法获取针对每个当前帧频域子信号的分离矩阵：

通过针对上一帧频域子信号的分离矩阵与当前帧频域子信号相乘，获取当前帧声源信号频域子信号的先验估计信号；

基于所述当前帧声源信号频域子信号的先验估计信号和针对上一帧频域子信号的分离矩阵，获取针对当前帧频域子信号的分离矩阵。

其中，所述分离矩阵获取模块还被设置为：

获取针对上一帧频域子信号的加权协方差矩阵；

基于所述针对上一帧频域子信号的加权协方差矩阵和所述当前帧声源信号频域子信号的先验估计信号，获取针对当前帧频域子信号的加权协方差矩阵；

通过所述针对上一帧频域子信号的分离矩阵和针对当前帧频域子信号的加权协方差矩阵相乘，获取针对当前帧频域子信号的分离矩阵。

其中，所述源先验设置模块还被设置为：

设置所述声源信号的概率密度函数为

其中，p(si)表示所述声源信号的概率密度函数，si表示所述声源信号，i表示所述声源信号的编号且取值为大于等于1的正整数，μi和分别表示第i个所述声源信号的均值向量和协方差矩阵。

根据本公开实施例的第三方面，提供一种分离语音信号的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对待分离的时域混合语音信号进行分帧处理，获取多帧时域子信号，所述时域混合语音信号包括至少两个声源信号；

获取所述时域子信号的频域子信号；

设置所述声源信号概率密度函数，其中所述概率密度函数与e为底的指数函数成正比，且所述指数函数的指数包括所述声源信号的m/n次方，其中m＝2，n＝(2a 1)/(2a-1)，a为自然数；

基于所述声源信号的概率密度函数，获取针对各帧频域子信号的分离矩阵；

通过针对各帧频域子信号的分离矩阵，获取至少一个声源信号的各帧频域子信号的后验估计信号；

基于至少一个声源信号的各帧频域子信号的后验估计信号，获取分离后的所述至少一个声源信号的时域信号。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种分离语音信号的方法，所述方法包括：

对待分离的时域混合语音信号进行分帧处理，获取多帧时域子信号，所述时域混合语音信号包括至少两个声源信号；

获取所述时域子信号的频域子信号；

设置所述声源信号概率密度函数，其中所述概率密度函数与e为底的指数函数成正比，且所述指数函数的指数包括所述声源信号的m/n次方，其中m＝2，n＝(2a 1)/(2a-1)，a为自然数；

基于所述声源信号的概率密度函数，获取针对各帧频域子信号的分离矩阵；

通过针对各帧频域子信号的分离矩阵，获取至少一个声源信号的各帧频域子信号的后验估计信号；

基于至少一个声源信号的各帧频域子信号的后验估计信号，获取分离后的所述至少一个声源信号的时域信号。

本公开的方法中，对混合语音信号进行分帧处理和傅里叶变换，得到多帧频域子信号，获取针对各帧频域子信号的分离矩阵，通过该分离矩阵，逐帧获取各帧频域子信号的后验估计信号，并通过更改后验估计信号获取分离后的声源时域信号。该算法通过采用一种具有特殊形式的广义高斯分布作为源信号的概率密度函数，通过该概率密度函数来获取分离矩阵。从而除了利用混合语音信号的二阶自相关信息外，还利用了混合语音信号的四阶信息，这样通过利用语音信号不同频率库之间的相关性，提高了分离性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本公开应用场景示意图。

图2是根据一示例性实施例示出的一种分离语音信号的方法的流程图。

图3是盲源分离的基本原理的示意图。

图4是根据一示例性实施例的接收信号的时域波形图和语谱图。

图5和图6分别为现有技术中基于二阶信息分离的结果。

图7和图8分别为根据一示例性实施例的分离结果。

图9是根据一示例性实施例示出的一种分离语音信号的方法的流程图。

图10是根据一示例性实施例示出的一种分离语音信号的装置的框图。

图11是根据一示例性实施例示出的一种装置的框图。

图12是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

辅助在线独立向量分析(auxiva)方法在离线批处理中运行，不适用于实时系统。例如有的离线批处理算法，在实际应用中需要缓存较大的数据长度，造成分离系统输出的较大时间延迟，不适用于实时系统。对于一些在线独立向量分析(iva)方法，虽然将批处理auxiva算法推广为实时处理方式，但是估计评分函数时仅利用了混合语音信号的二阶自相关信息，未能充分利用信号的其它统计信息。然而，实际观察发现，随着距离的增加，不同频率间的二阶相关性急剧下降。因此，分离性能受到一定的限制，无法满足高质量语音分离的需要。

本公开提出了一种在线auxiva算法，其用于语音信号的盲源分离，即盲信号处理。盲信号处理是利用观测信号，通过信号处理的方法，获得感兴趣的信号(如某些源信号)。

本公开的应用场景可以参照图1所示。其中，智能音箱a周围空间存在2个声源s1、s2。此智能设备有两个麦克风mic1、mic2。声源s1和s2发出的信号都会被mic1和mic2采集到。每个麦克风采集到的都是两个声源信号混叠在一起的声音信号。通过本公开的方法，从麦克风采集到的声音信号中恢复出声源s1和s2中的至少一个。

本公开的方法中，对混合语音信号进行分帧处理和傅里叶变换，得到多帧频域子信号，获取针对各帧频域子信号的分离矩阵，通过该分离矩阵，逐帧获取各帧频域子信号的后验估计信号，并通过更改后验估计信号获取分离后的声源时域信号。该算法通过采用一种具有特殊形式的广义高斯分布作为源信号的概率密度函数，通过该概率密度函数来获取分离矩阵。从而除了利用混合语音信号的二阶自相关信息外，还利用了混合语音信号的四阶信息，这样通过利用语音信号不同频率库之间的相关性，提高了分离性能。

下面详细描述根据本公开的分离语音信号的方法。

本公开提供了一种分离语音信号的方法，如图2所示，该方法包括：

步骤201，对待分离的时域混合语音信号进行分帧处理，获取多帧时域子信号，所述时域混合语音信号包括至少两个声源信号；

步骤202，获取所述时域子信号的频域子信号；

步骤203，设置所述声源信号概率密度函数，其中所述概率密度函数与e为底的指数函数成正比，且所述指数函数的指数包括所述声源信号的m/n次方，其中m＝2，n＝(2a 1)/(2a-1)，a为自然数；

步骤204，基于所述声源信号的概率密度函数，获取针对各帧频域子信号的分离矩阵；

步骤205，通过针对各帧频域子信号的分离矩阵，获取至少一个声源信号的各帧频域子信号的后验估计信号；

步骤206，基于至少一个声源信号的各帧频域子信号的后验估计信号，获取分离后的所述至少一个声源信号的时域信号。

本公开的分离语音信号的方法是一种盲源分离方法，图3示出了盲源分离的基本原理。其中s(t)表示未知声源信号，n(t)表示噪声，x(t)表示观测信号，即未知声源信号经过未知混合系统作用后与噪声的混合信号，y(t)表示经过分离系统得到的源信号的估计信号。图3所示的原理是在时域上的表示。下面结合公式对盲源分离进行说明。

频域无噪声模型描述为：

x(k,τ)＝h(k,τ)s(k,τ)(1)

y(k,τ)＝w(k,τ)x(k,τ)(2)

x(k,τ)＝[x1(k,τ),x2(k,τ),...,xm(k,τ)]^t为观测信号矢量，

s(k,τ)＝[s1(k,τ),s2(k,τ),...,sn(k,τ)]^t为待分离源信号矢量，

y(k,τ)＝[y1(k,τ),y2(k,τ),...,yn(k,τ)]^t为待分离源信号的估计信号矢量，h(k,τ)为模拟混合系统以及噪声影响的混合矩阵，

w(k,τ)为分离矩阵，可以表示为

w(k,τ)＝[w1(k,τ),w2(k,τ),...,wn(k,τ)]^h(3)

()^t表示向量(或矩阵)的转置向量(或矩阵)，()^h表示向量(或矩阵)的共轭转置向量(或矩阵)，k为频点编号，τ为帧编号。

本领域技术人员已知的是，由(2)式可以得到第i个声源的频域信号该信号是y(k,τ)在1,…,k个频点的组合。

盲源分离时针对从检测的混合信号中估计或恢复声源信号，即在声源信号、传输通道特性未知的情况下仅由观测信号和源信号的一些先验知识(如概率密度函数)估计出声源信号的各个分量。这里，语音信号可以看做是一个遍历性随机过程的样本函数，其统计特性可以用概率密度函数来描述。声源信号的概率密度函数(先验知识)对所有的iva方法都很重要，因为它是用来推导非线性评分函数的，而非线性评分函数用来保持不同频率箱之间的相关性。

本公开的方法是在频域上进行处理的。即，将观测信号x(t)变换到频域上，由分离系统在频域上进行处理，得到声源信号的频域信号的后验估计信号后，再将该频域信号变换到时域，从而得到声源信号的时域信号。

本公开的方法是一种实时在线处理的方法，对信号逐帧进行处理，当前帧信号的处理需要利用上一帧的相关数据，下一帧信号的处理需要利用当前帧的相关数据。

步骤201和202中，通过对待分离的时域混合语音信号进行分帧处理和傅里叶变换，可以得到各帧时域子信号的频域子信号。后面的分离操作是在频域上进行的，因此需要将时域信号变换到频域上。这里的分帧处理和傅里叶变换为本领域技术人员已知的技术，再次不再赘述。

步骤203中，将声源信号概率密度函数设置为与e为底的指数函数成正比。这里的指数函数的指数包括所述声源信号的m/n次方，且m＝2，n＝(2a 1)/(2a-1)，a为自然数。这里，将n设置为(2a 1)/(2a-1)是为了在后续计算分离矩阵时，能够保留混合语音信号的四阶信息，提高分离算法的分离性能。具体原因在下文中说明。

如上所述，声源信号的概率密度函数(先验知识)对所有的iva方法都很重要。因此在本公开的方法中，对声源信号概率密度函数进行了特殊的设置，从而除了利用混合语音信号的二阶自相关信息外，还利用了混合语音信号的四阶信息，这样通过利用语音信号不同频率库之间的相关性，提高了分离性能。后面会结合具体的实施方式对声源信号的概率密度函数的设置做进一步说明。

步骤204中，基于声源信号的概率密度函数，获取针对各帧频域子信号的分离矩阵。具体的获取过程会在下文中详细说明。

步骤205和206中，通过将分离矩阵乘以步骤202中的频域子信号，来获取至少一个声源信号的频域的估计信号(后验估计信号)，并进一步获得该声源信号的时域估计信号，从而实现将时域混合语音信号分离的目的。

在可选实施方式中，所述设置所述声源信号概率密度函数，包括：a的取值设置为1，n的取值设置为3。

通过实验测试结果发现，当a＝1，即n＝3时，可以取得较佳的分离效果。

在可选实施方式中，所述设置所述声源信号概率密度函数，包括：

设置所述声源信号的概率密度函数为

其中，p(si)表示所述声源信号的概率密度函数，si表示所述声源信号，i表示所述声源信号的编号且取值为大于等于1的正整数，μi和分别表示第i个所述声源信号的均值向量和协方差矩阵。

在该实施方式中，n为3，参见式(4)中的三次根号。

式(4)列出的频域待分离源信号的概率密度函数为一种特殊形式的拉普拉斯分布，其中n的取值为3，该取值使得概率密度函数满足广义高斯分布，从而本公开的方法更加稳健。该概率密度函数与e为底的指数函数成正比，且该指数函数的指数包括频域待分离源信号的2/3次方。正是因为此处包括频域待分离源信号的2/3次方，使得利用频域待分离声源信号的概率密度函数，在通过kl散度公式推导auxiva的对比函数时，保留下来混合语音信号的四阶互相关信息。后面将结合下面的实施方式进行具体说明。通过kl散度公式推导auxiva的对比函数为本领域技术人员知道的推导过程，在此不再赘述。

在可选实施方式中，所述设置频域待分离源信号的概率密度函数，包括：

设置所述频域待分离源信号的概率密度函数为

其中，|·|表示绝对值，||·||表示euclidean范数。因此，||si||2表示所述频域待分离源信号的范数。

在该具体实施方式中，为了简化计算，将频域待分离源信号的均值向量设置为零均值，将其协方差矩阵设置为单位协方差矩阵，得到上述式(5)。从这里也可以看出在本公开的频域待分离源信号的概率密度函数中包括了频域待分离声源信号的2/3次方的信息。即该概率密度函数可以理解为形状参数为2/3的广义高斯分布，该分布具有更重的拖尾，使其在分离语音信号时更具优势。

下面基于式(5)的概率密度函数，讨论在线auxiva算法的对比函数、辅助函数、辅助变量、加权系数、加权协方差矩阵和分离矩阵。需要说明的是，对比函数、辅助函数、辅助变量、加权系数、加权协方差矩阵和分离矩阵为本领域技术人员已知的在线auxiva算法中的函数和变量，下面主要给出这些函数和变量的计算结果，推导过程可以采用在线auxiva算法实现，在此不再赘述。

基于上述概率密度函数导出的auxiva的对比函数可以表示为：

其中，yprii(k,τ)为第τ帧第i个声源信号频域子信号的先验估计信号，为对比函数，gr(ri(τ))为辅助函数，ri(τ)为辅助变量。

计算得到的加权系数为：

其中，对分母展开得到：

其中，cuv是一个标量系数，u、v分别表示频点编号，k表示频点的总数。由式(8)可以看出，等号右边第二项互相关项包含了不同频点间的四阶互相关信息，因此，提供了更多的频点间依赖项信息，从而提高算法的分离性能。

已知在线auxiva的代价函数为：

代价函数最小时的分离矩阵具有最佳的分离性能。因此，通过使代价函数最小化，来推导下述加权协方差矩阵和分离矩阵。计算得到在线auxiva的加权协方差矩阵和分离矩阵的更新规则如下：

其中，通过本领域技术人员已知的关于kl散度公式推导对比函数的过程，可知式(11)中的可由式(7)表示。式(11)中α为平滑系数，取值范围可以是0.9-1。

wi(k,τ)＝(w(k,τ-1)vi(k,τ))^-1ei(12)

其中，vi(k,τ)为针对第τ帧频域子信号的加权协方差矩阵，wi(k,τ)为针对第τ帧频域子信号的分离矩阵，ei为单位矩阵的第i列，

式(13)是对分离矩阵进行归一化的步骤，是为了使得本公开的算法更加稳定。

因此，基于上述推导过程，可以得到分离混合语音信号的分离矩阵，下面结合具体实施方式进行描述。

在可选实施方式中，所述获取针对各帧频域子信号的分离矩阵，包括通过下述方法获取针对每个当前帧频域子信号的分离矩阵：

通过针对上一帧频域子信号的分离矩阵与当前帧频域子信号相乘，获取当前帧声源信号频域子信号的先验估计信号；

基于所述当前帧声源信号频域子信号的先验估计信号和针对上一帧频域子信号的分离矩阵，获取针对当前帧频域子信号的分离矩阵。

ypri(k,τ)＝w(k,τ-1)x(k,τ)(14)

其中，k＝1,..,k，表示频点编号，ypri(k,τ)为第τ帧声源信号频域子信号的先验估计信号，w(k,τ-1)为第τ-1帧频域子信号的分离矩阵，x(k,τ)为第τ帧混合语音信号的频域子信号。

参照上述式(7)和式(11)可知，基于当前帧声源信号频域子信号的先验估计信号和针对上一帧频域子信号的分离矩阵，获取针对当前帧频域子信号的分离矩阵。即，基于ypri(k,τ)获取vi(k,τ)，然后基于vi(k,τ)和w(k,τ-1)获取wi(k,τ)。

下面进一步结合具体实施方式描述如何获取分离矩阵。

在可选实施方式中，所述基于所述当前帧声源信号频域子信号的先验估计信号和针对上一帧频域子信号的分离矩阵，获取针对当前帧频域子信号的分离矩阵，包括：

获取针对上一帧频域子信号的加权协方差矩阵；

基于所述针对上一帧频域子信号的加权协方差矩阵和所述当前帧声源信号频域子信号的先验估计信号，获取针对当前帧频域子信号的加权协方差矩阵；

通过所述针对上一帧频域子信号的分离矩阵和针对当前帧频域子信号的加权协方差矩阵相乘，获取针对当前帧频域子信号的分离矩阵。

在当前帧为第一帧时，针对上一帧频域子信号的加权协方差矩阵初始化为零矩阵：

在当前帧为第一帧时，针对上一帧频域子信号的分离矩阵初始化为单位阵：

其中，k表示频点编号，i表示声源编号。

该实施方式中，基于所述针对上一帧频域子信号的加权协方差矩阵和基于所述当前帧声源信号频域子信号的先验估计信号，获取针对当前帧频域子信号的加权协方差矩阵的步骤，可参照式(7)和式(11)。通过所述针对上一帧频域子信号的分离矩阵和针对当前帧频域子信号的加权协方差矩阵相乘，获取针对当前帧频域子信号的分离矩阵的步骤，可参照式(12)。

为了验证本公开方法的性能，下面给出基于本公开方法和基于现有技术方法(仅利用二阶信息)的处理结果对比。例如，在混响较小的环境下录制数据，用两个麦克风记录两个男声。图4为接收信号的时域波形图和语谱图，图5和图6分别为现有技术中基于二阶信息分离后的两个语音信号，图7和图8分别为基于本公开方法分离后的两个语音信号。可以看出，本公开方法在收敛速度和收敛性能方面均有提高。

下面结合具体实施例，描述根据本公开的分离语音信号的方法。在该实施例中，时域混合语音信号包括，即s1和s2。如图9所示，该方法包括以下步骤：

步骤901，设置声源信号的概率密度函数为：p(si)∝exp(-(||si||2)^2/3)。

步骤902，初始化各个频点的第0帧的分离矩阵为单位阵，如式(16)，并初始化各声源在各个频点的第0帧的加权协方差矩阵vi(k,τ)为零矩阵，如式(15)。

步骤903，获取两个声源信号的时域混合语音信号，对该混合语音信号进行分帧处理和傅里叶变换，得到多帧频域子信号。具体如下：

以代表第i个麦克风第τ帧的时域信号，i＝1,2，j＝1,…,nfft，nfft表示每帧中时域的点数，也是fft的点数。加窗进行nfft点fft(快速傅里叶变换)得到对应的频域信号xi(k,τ)，

则麦克风采集的声音信号为

x(k,τ)＝[x1(k,τ),x2(k,τ)]^t，

其中，k＝1,..,k，且k＝nfft/2 1。

步骤904，通过针对上一帧频域子信号的分离矩阵与当前帧频域子信号相乘，获取当前帧声源信号频域子信号的先验估计信号ypri(k,τ)。

令ypri(k,τ)＝[ypri1(k,τ),ypri2(k,τ)]^t，k＝1,..,k，其中ypri1(k,τ),ypri2(k,τ)分别为声源s1和s2在时频点(k,τ)处的先验估计值。其可以通过式(14)得到。因此，第i个声源在第τ帧的频域上的先验估计为：

其中，i＝1,2。

该步骤中，先计算第一帧频域子信号的先验估计信号。

步骤905，更新加权协方差矩阵，即计算针对第一帧频域子信号的加权协方差矩阵，可以通过式(7)和式(11)获得。

步骤906，更新分离矩阵，即计算针对第一帧频域子信号的分离矩阵，可以通过式(12)获得。

步骤907，归一化分离矩阵，可以通过式(13)获得，并得到最终的分离矩阵：

w(k,τ)＝[w1(k,τ),w2(k,τ)]^h(19)

步骤908，利用w(k,τ)对原始麦克信号进行分离得到声源信号的后验频域估计ypost(k,τ)：

ypost(k,τ)＝[ypost1(k,τ),ypost2(k,τ)]^t＝w(k,τ)x(k,τ)(20)

步骤909，分别对进行istft(逆短时傅里叶变换)和重叠相加得到分离后的时域声源信号

其中，j＝1,…,nfft，i＝1,2。

重复上述步骤904到步骤909，可以得到分离后的各帧时域声源信号，进而得到分离后的时域声源信号。

上述方法是一种基于辅助函数的iva算法，这是近年来提出的一种快速iva算法。对于所有的iva算法，频域待分离源信号的概率密度函数的选择都是非常重要的。本公开中，在上述定义的概率密度函数的基础上推导出在线auxiva方法。该方法的评分函数中包含描述每个源的不同频率箱之间的四阶互相关信息的项，从而提供了一个更有用的依赖结构，从而能够更好的分离不同源信号。

图10是根据一示例性实施例示出的一种分离语音信号的装置框图。参照图10，该装置包括：

分帧模块1001，被设置为对待分离的时域混合语音信号进行分帧处理，获取多帧时域子信号，所述时域混合语音信号包括至少两个声源信号；

时频变换模块1002，被设置为获取所述时域子信号的频域子信号；

源先验设置模块1003，被设置为设置所述声源信号概率密度函数，其中所述概率密度函数与e为底的指数函数成正比，且所述指数函数的指数包括所述声源信号的m/n次方，其中m＝2，n＝(2a 1)/(2a-1)，a为自然数；

分离矩阵获取模块1004，被设置为基于所述声源信号的概率密度函数，获取针对各帧频域子信号的分离矩阵；

分离信号获取模块1005，被设置为通过针对各帧频域子信号的分离矩阵，获取至少一个声源信号的各帧频域子信号的后验估计信号，以及基于至少一个声源信号的各帧频域子信号的后验估计信号，获取分离后的所述至少一个声源信号的时域信号。

在可选实施方式中，所述源先验设置模块1003还被设置为：

将a的取值设置为1，n的取值设置为3。

在可选实施方式中，所述分离矩阵获取模块1004还被设置为通过下述方法获取针对每个当前帧频域子信号的分离矩阵：

通过针对上一帧频域子信号的分离矩阵与当前帧频域子信号相乘，获取当前帧声源信号频域子信号的先验估计信号；

基于所述当前帧声源信号频域子信号的先验估计信号和针对上一帧频域子信号的分离矩阵，获取针对当前帧频域子信号的分离矩阵。

在可选实施方式中，所述分离矩阵获取模块1004还被设置为：

获取针对上一帧频域子信号的加权协方差矩阵；

基于所述针对上一帧频域子信号的加权协方差矩阵和所述当前帧声源信号频域子信号的先验估计信号，获取针对当前帧频域子信号的加权协方差矩阵；

通过所述针对上一帧频域子信号的分离矩阵和针对当前帧频域子信号的加权协方差矩阵相乘，获取针对当前帧频域子信号的分离矩阵。

在可选实施方式中，源先验设置模块1003还被设置为：

设置所述声源信号的概率密度函数为

其中，p(si)表示所述声源信号的概率密度函数，si表示所述声源信号，i表示所述声源信号的编号且取值为大于等于1的正整数，μi和分别表示第i个所述声源信号的均值向量和协方差矩阵。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开的方法中，对混合语音信号进行分帧处理和傅里叶变换，得到多帧频域子信号，获取针对各帧频域子信号的分离矩阵，通过该分离矩阵，逐帧获取各帧频域子信号的后验估计信号，并通过更改后验估计信号获取分离后的声源时域信号。该算法通过采用一种具有特殊形式的广义高斯分布作为源信号的概率密度函数，通过该概率密度函数来获取分离矩阵。从而除了利用混合语音信号的二阶自相关信息外，还利用了混合语音信号的四阶信息，这样通过利用语音信号不同频率库之间的相关性，提高了分离性能。

图11是根据一示例性实施例示出的一种用于一种分离语音信号的装置1100的框图。例如，装置1100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图11，装置1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电力组件1106，多媒体组件1108，音频组件1110，输入/输出(i/o)的接口1112，传感器组件1114，以及通信组件1116。

处理组件1102通常控制装置1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理组件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在设备1100的操作。这些数据的示例包括用于在装置1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1106为装置1100的各种组件提供电力。电力组件1106可以包括电源管理系统，一个或多个电源，及其他与为装置1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在所述装置1100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当设备1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦克风(mic)，当装置1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。

i/o接口1112为处理组件1102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1114包括一个或多个传感器，用于为装置1100提供各个方面的状态评估。例如，传感器组件1114可以检测到设备1100的打开/关闭状态，组件的相对定位，例如所述组件为装置1100的显示器和小键盘，传感器组件1114还可以检测装置1100或装置1100一个组件的位置改变，用户与装置1100接触的存在或不存在，装置1100方位或加速/减速和装置1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1116被配置为便于装置1100和其他设备之间有线或无线方式的通信。装置1100可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1116还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，装置1100可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1104，上述指令可由装置1100的处理器1120执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种分离语音信号的方法，所述方法包括：对待分离的时域混合语音信号进行分帧处理，获取多帧时域子信号，所述时域混合语音信号包括至少两个声源信号；获取所述时域子信号的频域子信号；设置所述声源信号概率密度函数，其中所述概率密度函数与e为底的指数函数成正比，且所述指数函数的指数包括所述声源信号的m/n次方，其中m＝2，n＝(2a 1)/(2a-1)，a为自然数；基于所述声源信号的概率密度函数，获取针对各帧频域子信号的分离矩阵；通过针对各帧频域子信号的分离矩阵，获取至少一个声源信号的各帧频域子信号的后验估计信号；基于至少一个声源信号的各帧频域子信号的后验估计信号，获取分离后的所述至少一个声源信号的时域信号。

图12是根据一示例性实施例示出的一种用于分离语音信号的装置1200的框图。例如，装置1200可以被提供为一服务器。参照图12，装置1200包括处理组件1222，其进一步包括一个或多个处理器，以及由存储器1232所代表的存储器资源，用于存储可由处理组件1222的执行的指令，例如应用程序。存储器1232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1222被配置为执行指令，以执行上述方法：对待分离的时域混合语音信号进行分帧处理，获取多帧时域子信号，所述时域混合语音信号包括至少两个声源信号；获取所述时域子信号的频域子信号；设置所述声源信号概率密度函数，其中所述概率密度函数与e为底的指数函数成正比，且所述指数函数的指数包括所述声源信号的m/n次方，其中m＝2，n＝(2a 1)/(2a-1)，a为自然数；基于所述声源信号的概率密度函数，获取针对各帧频域子信号的分离矩阵；通过针对各帧频域子信号的分离矩阵，获取至少一个声源信号的各帧频域子信号的后验估计信号；基于至少一个声源信号的各帧频域子信号的后验估计信号，获取分离后的所述至少一个声源信号的时域信号。

装置1200还可以包括一个电源组件1226被配置为执行装置1200的电源管理，一个有线或无线网络接口1250被配置为将装置1200连接到网络，和一个输入输出(i/o)接口1258。装置1200可以操作基于存储在存储器1232的操作系统，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：模型训练、数据处理方法、装置、电子设备及存储介质与流程

分离语音信号的方法、装置及介质与流程

相关文章

最热文献