一种基于角度谱特征的多通道远场的目标语音识别方法与流程

2021-09-03 20:48:00 来源：中国专利 TAG：识别道远角度特征语音识别

1.本发明涉及智能识别领域，特别涉及一种基于角度谱特征的多通道远场的目标语音识别方法。

背景技术：

2.人工智能的迅速发展，逐渐渗透到生活的各个方面，语音是人机交互的重要方式，促进了语音识别技术在各领域广泛运用。现在高信噪比情况下的语音识别准确率已经达到了很多实际应用的需求标准，但是鸡尾酒会问题仍然是语音识别领域的一个亟待解决的问题。它的主要难点在于，目标说话人的语音中存在人声干扰，非平稳噪声干扰，远场混响等因素的影响。
3.解决这一问题的常用方法是先对多说话人的语音分离之后再分别进行识别。人耳通常可以很好在嘈杂的环境中将注意力集中在感兴趣的目标语音上，在这个过程中说话人的位置信息起到了重要的作用。在此基础上我们构建了目标说话人语音识别框架，这个框架中我们将目标人的说话人特征和包含位置信息的角度谱特征作为识别模型的辅助特征，来引导模型将注意力集中到目标说话人，从而提升针对目标语音的识别性能。

技术实现要素：

4.本发明的目的在于，为了从多说话人混叠或者带噪声的多通道语音中提取出感兴趣的目标说话人的语音，该方法提出一种基于角度谱的目标语音识别框架，该框架通过目标人位置信息的辅助，引导模型去增强对目标方向的语音进行识别，同时尽量排除其他方向上的声音的干扰。具体地，该方法主要是从多通道混合语音中提取出角度谱特征，然后将多说话人的混合语音的特征，目标人的说话人特征和目标人的角度谱特征一起作为输入，来训练目标说话人识别网络。
5.为了达到上述目的，本发明实施例记载了一种基于角度谱特征的多通道远场的目标语音识别方法，通过下列步骤实现对目标语音的识别：
6.获取包含目标人语音的m个通道的混合语音；将两个通道组成通道对，得到h个不重复的通道对；其中，h＝m*(m-1)/2，m为大于等于2的正整数；提取m个通道的混合语音的梅尔倒谱系数mfcc特征，将m个mfcc特征串接，得到第一特征；计算h个通道对的相位变换可控响应功率srp-phat，根据srp-phat生成包含目标人的位置信息的角度谱特征作为第二特征；从目标人预先注册的语音中，提取出目标人特征作为第三特征；根据第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。
7.一个实例中，通过对各通道的混合语音进行分帧加窗，傅立叶变换，梅尔滤波，离散余弦变换，得到m个n维的mfcc特征；串接m个mfcc特征，生成m*n维的第一特征；其中，n为正整数。
8.一个实例中，根据预设的采样间隔得到l个采样点对应的srp-phat值，将l个srp-phat值合成为1个l维的第二特征；其中，l为正整数。
frequencycepstral coefficients)特征，得到m个mfcc特征。将这些mfcc特征进行串接，得到第一特征。
21.一个实例中，分别对各通道的混合语音进行分帧加窗，傅立叶变换，梅尔滤波，离散余弦变换，得到m个n维的mfcc特征；其中，n为正整数。将这m个mfcc特征依次串接，构成一个m*n维的第一特征。
22.需要指出，这里所说的依次串接可以是，对m个通道进行编号并根据对应的编号顺序对提取的mfcc特征进行串接。
23.例如，获取一个包含8个通道的麦克风阵列的混合语音，并分别提取8个通道所对应的mfcc特征。在对混合语音进行分帧加窗，傅立叶变换，梅尔滤波，离散余弦变换的过程中，通过设置使得到的mfcc特征为40维。将这8个40维的mfcc特征按照预先设置的1～8的通道编号顺序进行串接，得到一个320维的第一特征。
24.步骤s130：计算h个通道对的相位变换可控响应功率srp-phat(steered response power with phase transform)，根据srp-phat生成包含目标人的位置信息的角度谱特征，并将其作为第二特征。
25.由于目标人语音到达不同通道的距离不同，各通道间收集到的各混合语音之间存在到达时延。这个到达时延可以提供目标人语音的方向信息，这里的方向信息可以通过波达方向doa表示。所以我们考虑将目标人语音所对应的方向信息编码成特征向量，即第二特征。作为识别过程和模型训练过程中的样本。
26.利用每个通道对的傅里叶变换系数计算各通道对的互相关函数的值，将各互相关函数的值求和相加，得到混合语音的srp-phat，可以成功对多通道声源进行定位。具体地，srp-phat的计算公式如下：
[0027][0028]
其中，m表示通道数量，k，l分别表示第几个通道，x代表傅立叶变换系数，x
*
表示傅里叶变换的共轭，ω代表角频率，d表示两个麦克风之间的距离，c是声音的速度，θ指的是不同的到达方向的角度，即波达角，t是每一个时刻的每一个角度。
[0029]
基于srp声源定位的基本原理是计算不同方向上的srp-phat值。其中，最大的srp-phat值出现的位置就是声源方向。并且，以此方法得到的定位结果对混响具有较强的抵抗能力。
[0030]
一个实例中，对h个通道对进行l次采样。每次采样对应不同的波达角θ，得到每个通道对的l个互相关函数的值。将相同的波达角θ下计算得到的h个通道的互相关函数的值进行合成，得到l次采样的互相关函数的值，即l个srp-phat值。将l个srp-phat值进行合成，得到1个l维的特征向量，即第二特征。
[0031]
例如，获取一个包含8个通道的麦克风阵列的混合语音。8个通道可以构成28个不重复的通道对。假设波达角θ∈[0，π]，对每个通道对的波达角θ进行181次采样，即采样间隔为π/180，得到每个通道对的181个互相关函数的值。将相同的波达角θ下计算得到的28个通道的互相关函数的值进行合成，得到181个srp-phat值。将181个srp-phat值进行合成为1个181维的特征向量，即第二特征。
[0032]
因为第二特征中包含波达角信息，我们把它称为角度谱特征向量。
[0033]
由于，角度谱特征向量会在声源方向的角度上出现峰值。所以第二特征中包含着目标人语音的位置信息，这一信息的引入将会提升模型对于多通道输入的混合语音信号的增强和处理能力。
[0034]
但是，当需要识别的混合语音中存在多个说话人时。混合语音中包括至少一个目标人，以及可能存在也可能不存在的至少一个非目标人。则第二特征中将包含对应于多个说话人的多个峰值。此时，采用滑窗算法将第二特征中的多个峰值进行分离，得到多个单峰值的第二特征，即每个分离得到的第二特征中只包含一个对应于某一说话人语音的峰值。在后续的步骤中，将多个单峰值第二特征分别通过网络模型进行识别。
[0035]
步骤s140：从目标人预先注册的语音中，提取目标人的语音特征，作为第三特征。
[0036]
步骤s150：根据第一特征、第二特征和第三特征，对多通道的混合语音中的目标人进行语音识别。
[0037]
将第一特征、第二特征和第三特征输入到目标语音识别网络中，得到识别结果。目标语音识别网络可以采用延时神经网络tdnn(time-delay neural network)结构，也可以采用其他的网络模型结构。
[0038]
通过大量实验证实，在训练目标语音识别网络以及使用目标语音识别网络进行目标人语音识别的过程中。将第一特征和第二特征输入到目标语音识别网络的第一层，再将第一个隐层的输出和第三特征相结合输入到之后的网络中的训练和识别方法，可以更为有效的提高目标语音识别网络的训练效果以及识别能力，如图2所示。
[0039]
将本发明实施例的方法应用于远场条件下对目标人语音进行识别，并与现有技术中的其他两种方法进行对比。通过语音识别的识别词错误率wer(word error rate)体现语音识别的准确率。选择10小时混合语音作为待测试数据，待测试数据中的目标人语音并未在网络模型训练过程中作为样本使用过。通过以两个现有方法作为对比例，以本发明实施例的方法作为实施例一，得到对应的wer数值，如下表所示：
[0040] 识别方法wer(％)对比例一单通道特征识别法26.14对比例二多通道特征串接识别法25.04实施例一本发明实施例的目标语音识别方法23.33
[0041]
表1
[0042]
其中，对比例一采用了单通道特征识别法。具体地，在进行语音识别时，以本发明实施例中的步骤s120中的第一个通道mfcc特征和第三特征作为网络模型的样本，进行目标人语音识别。
[0043]
对比例二采用了多通道特征串接识别法。具体地，在进行语音识别时，以本发明实施例中的步骤s120中的各通道mfcc特征串接得到的第一特征和第三特征作为网络模型的样本，进行目标人语音识别。
[0044]
实施例一采用本发明实施例中的方法。通过步骤s110获得多通道的混合语音，通过步骤s120获得第一特征，通过步骤s130获得第二特征，通过步骤s140获得第三特征，将第一特征、第二特征和第三特征作为网络模型的样本，进行目标人语音识别。
[0045]
通过对比例一、对比例二和实施例一进行对比可知，在网络模型识别过程中，加入
含有包含着目标人语音的位置信息的角度谱特征向量作为特征，可以有效地提高识别率，降低识别词错误率。
[0046]
本发明实施例在远场多通道场景下，为了减少干扰说话人对于目标说话人语音的影响，本发明的方法将目标说话人的位置信息编码成一个特征向量，可以实现对目标说话人定向的识别；同时说话人的位置信息的引入也能增强模型对于多通道远场信号的处理能力，从而进一步提升模型对于目标说话人语音的识别性能。。
[0047]
以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音评测方法、装置、设备及存储介质与流程

一种基于角度谱特征的多通道远场的目标语音识别方法与流程

相关文章

最热文献