一种基于盲源分离的文本无关型多源说话人识别方法与流程

2021-06-15 21:49:00 来源：中国专利 TAG：

技术特征：

1.一种基于盲源分离的文本无关型多源说话人识别方法，其特征在于：针对鸡尾酒环境下的多声源语音，根据盲源信号检测与分离算法将多声源语音进行分离和检测，将包含的多个声源分离出来，然后针对每个声源进行语音特征提取即将语音进行小波包变换与伽马通滤波器相结合进行特征提取，同时将提取的特征通过深度学习模型cnn，完成多源说话人识别。

2.根据权利要求1所述的一种基于盲源分离的文本无关型多源说话人识别方法，其特征在于：所述识别方法具体包括以下步骤：

步骤1：盲源分离与检测；获取一段包含多个人的语音的声源，并采用盲源信号检测与分离算法对声源进行盲源分离和检测，将多源语音信号分离出多个单源语音信号；

步骤2：语音特征预处理；对步骤1分离出的每个单源语音信号进行预加重、分帧及加窗处理，得到时序语音信号；

步骤3：对时序语音信号进行小波包分解与重构；

步骤4：采用耳蜗听觉滤波器对小波包分解与重构后的语音信号进行人耳特征滤波，提取语音特征；

步骤5：构建cnn模型，并将步骤4提取的二维语音特征向量转变成三维向量后输入到cnn模型，实现多源说话人识别。

3.根据权利要求2所述的一种基于盲源分离的文本无关型多源说话人识别方法，其特征在于：所述步骤1的具体方法为：

首先将原始混合的语音数据矩阵进行归一化和白化处理得到白化变换的语音矩阵；然后采用随机的方式初始化一个矩阵w，并对矩阵w迭代进行去相关处理得到更新后的矩阵wnew；最后将原始混合的语音数据矩阵和白化变换的语音矩阵以及更新后的矩阵wnew做矩阵相乘，将多源语音信号分离出多个单源语音信号。

4.根据权利要求2所述的一种基于盲源分离的文本无关型多源说话人识别方法，其特征在于：所述步骤2的具体方法为：

采用小波包对时序语音信号进行分解，以便对语音信号中包含的低频和高频信号进行时频局部化处理与分析；其中小波包按照完全最优二叉树方式分解，时频节点对应小波包频率系数；将小波包分解后的低频和高频语音信号进行重构，重构后语音信号的时序顺序对应原始的时域信息。

5.根据权利要求2所述的一种基于盲源分离的文本无关型多源说话人识别方法，其特征在于：所述步骤4的具体方法为：

将步骤3得到小波包分解与重构后的语音信号通过一组伽马通滤波器组得到符合人耳生理数据的语音特征向量，并对得到的语音特征向量进行短时傅里叶变换，得到二维语音特征向量，完成语音特征的提取。

6.根据权利要求2所述的一种基于盲源分离的文本无关型多源说话人识别方法，其特征在于：步骤4所述cnn模型由4个2d卷积层、4个池化层和2个全连接层以及输出层组成；卷积核采用3×3矩阵；在每个卷积层中，使用激活函数relu；每次卷积层运算后，进入池化层；所述池化层采用的策略为最大池化，池化大小为2×2；输出层的激活函数采用softmax，输出该语音对应的类别的概率。

技术总结
本发明提供一种基于盲源分离的文本无关型多源说话人识别方法，涉及声纹识别技术领域。该方法首先获取一段包含多个人的语音的声源，并采用盲源信号检测与分离算法对声源进行盲源分离和检测，将多源语音信号分离出多个单源语音信号；再对分离出的每个单源语音信号进行预加重、分帧及加窗处理，得到时序语音信号；并对时序语音信号进行小波包分解与重构；然后采用耳蜗听觉滤波器进行人耳特征滤波，提取语音特征；最后构建CNN模型，将提取的语音特征输入到CNN模型，实现多源说话人识别；本发明方法采用小波包和伽马通滤波器相结合的方法，可以在噪声环境下，拥有较高的识别率。

技术研发人员：谭振华;徐晓梦
受保护的技术使用者：东北大学;赛尔网络有限公司
技术研发日：2021.02.01
技术公布日：2021.06.15

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：调整均衡器的方法、装置、设备和计算机可读存储介质与流程

一种基于盲源分离的文本无关型多源说话人识别方法与流程

相关文章

最热文献