一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于性别和语言的说话人识别方法及系统

2022-04-16 16:28:07 来源:中国专利 TAG:

技术特征:
1.一种基于性别和语言的说话人识别方法,其特征在于,包括:获取待识别语音数据,所述的语音数据为包含有效说话人音频的音频文件;将音频文件通过降噪处理得到低噪声的语音音频;将降噪后的语音音频通过smac特征提取得到语音频谱特征图;将语音频谱特征图输入resnet模型中得到语音特征向量;将语音特征向量输入到多目标学习模型中,识别得到说话人身份、说话人性别以及说话人使用的语言信息;通过将识别得到的说话人身份、说话人性别以及说话人使用的语言信息进行加权融合,得到待识别语音数据对应的说话人识别结果。2.根据权利要求1所述的一种基于性别和语言的说话人识别方法,其特征在于,所述的smac特征提取方法为:将语音音频通过滤波器处理:x
q
(ω,t)=x(ω,t)h
q
(ω)q=1,2,...,q其中,t表示在第t时刻,ω是频谱的自变量,x(ω,t)表示的第t时刻不同频率下的信息强度;h
q
(ω)表示第q个滤波器,α表示控制滤波器带宽宽度的参数,ω
q
是第q个滤波器的中心频率,q是滤波器的数量;x
q
(ω,t)表示第q个滤波器的滤波结果;计算滤波结果的0阶中心矩和1阶中心矩:其中,m表示中心距的阶数,m
m
(q,t)表示滤波结果的m阶中心矩;将1阶中心矩和0阶中心矩的比值作为语音频谱特征:其中,r1(q,t)表示第q个语音频谱特征,q个语音频谱特征构成语音频谱特征图。3.根据权利要求1所述的一种基于性别和语言的说话人识别方法,其特征是,所述的多目标学习模型包含三个识别任务:说话人身份识别、说话人性别识别以及说话人使用的语言信息识别,由n层共享层和三层隐含层构成;所述的n层共享层依次连接,在训练过程中,共享层的参数受三个任务的识别结果影响;三层隐含层的输入分别连接第n层共享层的输出,三层隐含层的输出分别为说话人身份、说话人性别以及说话人使用的语言信息识别结果,在训练过程中,隐藏层的参数只受到相应识别任务的影响。4.根据权利要求3所述的一种基于性别和语言的说话人识别方法,其特征在于,所述的多目标学习模型还包括融合层,所述的融合层用于融合三个识别任务的输出结果,每一个识别任务的输出结果设有可训练权重参数,融合层将三个识别任务的加权结果作为最终识
别结果。5.一种基于性别和语言的说话人识别系统,其特征在于,用于实现权利要求1所述的说话人识别方法,所述的说话人识别系统包括:声音采集模块,用于采集说话人的语音音频数据;音频滤波模块,用于对采集的语音音频数据进行滤波,消除噪音;说话人识别模块,用于对滤波处理后的语音音频数据进行说话人识别;识别结果展示模块,用于将识别结果进行可视化处理。6.基于权利要求5所述的一种基于性别和语言的说话人识别系统,其特征是,所述的说话人识别模块包括:音频频谱转换模块,用于对语音音频进行smac特征提取,转换得到语音频谱特征图;频谱特征提取模块,用于提取语音频谱特征图的特征向量。多目标学习模型模块,其包含三个识别任务:说话人身份识别、说话人性别识别以及说话人使用的语言信息识别,由n层共享层、三层隐含层和一层融合层构成;所述的n层共享层依次连接,在训练过程中,共享层的参数受三个任务的识别结果影响;三层隐含层的输入分别连接第n层共享层的输出,三层隐含层的输出分别为说话人身份、说话人性别以及说话人使用的语言信息识别结果,在训练过程中,隐藏层的参数只受到相应识别任务的影响;所述的融合层用于融合三个识别任务的输出结果,每一个识别任务的输出结果设有可训练权重参数,融合层将三个识别任务的加权结果作为最终识别结果。7.基于权利要求5所述的一种基于性别和语言的说话人识别系统,其特征在于,所述的音频滤波模块采用低频切除法,将阈值之下的所有噪声信号切除。8.基于权利要求5所述的一种基于性别和语言的说话人识别系统,其特征在于,所述的识别结果展示模块包括:语音提示模块,通过语音播放识别到的结果,如果说话人不在注册者列表中,则播放警报声音;文字显示模块,通过文字显示识别到的说话人信息,如果在识别过程中出现问题,则在该模块上进行错误显示。

技术总结
本发明公开了一种基于性别和语言的说话人识别方法及系统,属于说话人识别领域。包括:获取待识别语音数据,具体为包含有效说话人音频的音频文件;将音频文件通过降噪处理得到低噪声的语音音频;将降噪后的语音音频通过SMAC特征提取得到语音频谱特征图;将语音频谱特征图输入ResNet模型中得到语音特征向量;将语音特征向量输入到多目标学习模型中,识别得到说话人身份、说话人性别以及说话人使用的语言信息;通过将三个识别任务结果进行加权融合,得到待识别语音数据对应的说话人识别结果。本发明综合利用了语音中带有的性别信息和语言信息,有效的提高了说话认识别的鲁棒性,特别是在说话人语音变化的情况下,识别精度高。识别精度高。识别精度高。


技术研发人员:徐文渊 冀晓宇 程雨诗 高逸卓
受保护的技术使用者:浙江大学
技术研发日:2022.01.07
技术公布日:2022/4/15
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献