一种基于性别和语言的说话人识别方法及系统

2022-04-16 16:28:07 来源：中国专利 TAG：

技术特征：
1.一种基于性别和语言的说话人识别方法，其特征在于，包括：获取待识别语音数据，所述的语音数据为包含有效说话人音频的音频文件；将音频文件通过降噪处理得到低噪声的语音音频；将降噪后的语音音频通过smac特征提取得到语音频谱特征图；将语音频谱特征图输入resnet模型中得到语音特征向量；将语音特征向量输入到多目标学习模型中，识别得到说话人身份、说话人性别以及说话人使用的语言信息；通过将识别得到的说话人身份、说话人性别以及说话人使用的语言信息进行加权融合，得到待识别语音数据对应的说话人识别结果。2.根据权利要求1所述的一种基于性别和语言的说话人识别方法，其特征在于，所述的smac特征提取方法为：将语音音频通过滤波器处理：x
q
(ω，t)＝x(ω，t)h
q
(ω)q＝1,2,...，q其中，t表示在第t时刻，ω是频谱的自变量，x(ω,t)表示的第t时刻不同频率下的信息强度；h
q
(ω)表示第q个滤波器，α表示控制滤波器带宽宽度的参数，ω
q
是第q个滤波器的中心频率，q是滤波器的数量；x
q
(ω,t)表示第q个滤波器的滤波结果；计算滤波结果的0阶中心矩和1阶中心矩：其中，m表示中心距的阶数，m
m
(q,t)表示滤波结果的m阶中心矩；将1阶中心矩和0阶中心矩的比值作为语音频谱特征：其中，r1(q,t)表示第q个语音频谱特征，q个语音频谱特征构成语音频谱特征图。3.根据权利要求1所述的一种基于性别和语言的说话人识别方法，其特征是，所述的多目标学习模型包含三个识别任务：说话人身份识别、说话人性别识别以及说话人使用的语言信息识别，由n层共享层和三层隐含层构成；所述的n层共享层依次连接，在训练过程中，共享层的参数受三个任务的识别结果影响；三层隐含层的输入分别连接第n层共享层的输出，三层隐含层的输出分别为说话人身份、说话人性别以及说话人使用的语言信息识别结果，在训练过程中，隐藏层的参数只受到相应识别任务的影响。4.根据权利要求3所述的一种基于性别和语言的说话人识别方法，其特征在于，所述的多目标学习模型还包括融合层，所述的融合层用于融合三个识别任务的输出结果，每一个识别任务的输出结果设有可训练权重参数，融合层将三个识别任务的加权结果作为最终识
别结果。5.一种基于性别和语言的说话人识别系统，其特征在于，用于实现权利要求1所述的说话人识别方法，所述的说话人识别系统包括：声音采集模块，用于采集说话人的语音音频数据；音频滤波模块，用于对采集的语音音频数据进行滤波，消除噪音；说话人识别模块，用于对滤波处理后的语音音频数据进行说话人识别；识别结果展示模块，用于将识别结果进行可视化处理。6.基于权利要求5所述的一种基于性别和语言的说话人识别系统，其特征是，所述的说话人识别模块包括：音频频谱转换模块，用于对语音音频进行smac特征提取，转换得到语音频谱特征图；频谱特征提取模块，用于提取语音频谱特征图的特征向量。多目标学习模型模块，其包含三个识别任务：说话人身份识别、说话人性别识别以及说话人使用的语言信息识别，由n层共享层、三层隐含层和一层融合层构成；所述的n层共享层依次连接，在训练过程中，共享层的参数受三个任务的识别结果影响；三层隐含层的输入分别连接第n层共享层的输出，三层隐含层的输出分别为说话人身份、说话人性别以及说话人使用的语言信息识别结果，在训练过程中，隐藏层的参数只受到相应识别任务的影响；所述的融合层用于融合三个识别任务的输出结果，每一个识别任务的输出结果设有可训练权重参数，融合层将三个识别任务的加权结果作为最终识别结果。7.基于权利要求5所述的一种基于性别和语言的说话人识别系统，其特征在于，所述的音频滤波模块采用低频切除法，将阈值之下的所有噪声信号切除。8.基于权利要求5所述的一种基于性别和语言的说话人识别系统，其特征在于，所述的识别结果展示模块包括：语音提示模块，通过语音播放识别到的结果，如果说话人不在注册者列表中，则播放警报声音；文字显示模块，通过文字显示识别到的说话人信息，如果在识别过程中出现问题，则在该模块上进行错误显示。

技术总结
本发明公开了一种基于性别和语言的说话人识别方法及系统，属于说话人识别领域。包括：获取待识别语音数据，具体为包含有效说话人音频的音频文件；将音频文件通过降噪处理得到低噪声的语音音频；将降噪后的语音音频通过SMAC特征提取得到语音频谱特征图；将语音频谱特征图输入ResNet模型中得到语音特征向量；将语音特征向量输入到多目标学习模型中，识别得到说话人身份、说话人性别以及说话人使用的语言信息；通过将三个识别任务结果进行加权融合，得到待识别语音数据对应的说话人识别结果。本发明综合利用了语音中带有的性别信息和语言信息，有效的提高了说话认识别的鲁棒性，特别是在说话人语音变化的情况下，识别精度高。识别精度高。识别精度高。

技术研发人员：徐文渊冀晓宇程雨诗高逸卓
受保护的技术使用者：浙江大学
技术研发日：2022.01.07
技术公布日：2022/4/15

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：按讲话者进行语音识别的目标话音分离的制作方法

一种基于性别和语言的说话人识别方法及系统

相关文献

最热文献