一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种陆空通话说话人身份识别方法及装置与流程

2021-07-02 21:13:00 来源:中国专利 TAG:

技术特征:

1.一种陆空通话说话人身份识别方法,其特征在于,包括以下步骤:

s1:采集管制单位的管制员的语音数据,获取所述管制员的说话人声纹嵌入码,构建包括管制员静态声纹库以及飞行员动态声纹库的声纹数据库,并在所述管制员静态声纹库中对所有所述管制员进行声纹注册;

s2:实时采集陆空通话语音信号,对所述陆空通话语音信号进行切分,获取单句语音信号;对所述单句语音信号进行预处理后存入存储设备;

s3:将所述单句语音信号输入到陆空通话语义理解模型,提取并输出所述单句语音信号对应的说话人角色和航班号;所述说话人角色包括管制员和飞行员;

s4:将所述单句语音信号输入到说话人声纹嵌入码提取模型,获取所述单句语音信号的说话人声纹嵌入码;并将所述说话人声纹嵌入码输入说话人判决模型,在所述声纹数据库中进行匹配,并输出所述单句语音信号的匹配结果;

s5:根据所述步骤s3语义理解和所述步骤s4声纹匹配的结果,若所述声纹库有匹配结果,输出说话人身份;若所述声纹库无匹配结果,对所述说话人声纹嵌入码进行声纹注册,并输出说话人身份;

其中,所述步骤s3和所述步骤s4顺序能交换。

2.根据权利要求1所述的一种陆空通话说话人身份识别方法,其特征在于,所述管制员的声纹注册内容包括所述管制员的所述说话人声纹嵌入码和背景信息,其中,所述背景信息包括管制员id、性别、年龄、籍贯中的一种或多种;

所述飞行员的声纹注册内容包括所述飞行员的所述说话人声纹嵌入码和飞行员id,其中,所述飞行员id为对应的航班号;

所述管制员的所述语音数据满足以下要求:

(1)所述语音数据包括识别场景中使用的语种;

(2)所述语音数据包括多种发音状态下的语音;所述发音状态包括一般语速、快语速、慢语速、不稳定语速、缓和情绪、紧张情绪中的一种或多种;

(3)所述语音数据包括与所述管制员相对应的管制用语。

3.根据权利要求2所述的一种陆空通话说话人身份识别方法,其特征在于,所述步骤s2中通过语音帧分类器将所述陆空通话连续语音信号中的音频信号帧分为起始帧、语音帧、非语音帧和结束帧四类,并将起始帧与后一个相邻的结束帧之间的语音帧输出为单句语音信号;

所述语音帧为包含语音信息的信号部分,所述非语音帧为未包含语音信息的信号部分,所述起始帧和所述结束帧分别为未包含语音信息的信号部分向包含语音信息的信号部分过渡的音频帧和包含语音信息的信号部分向未包含语音信息的信号部分过渡的音频帧;

所述语音帧分类器包括卷积模块、循环神经网络模块以及输出模块;

所述卷积模块包括一维卷积层、最大池化层、归一化层和剪枝层,用于抽取所述陆空通话语音信号中的起始帧、语音帧、非语音帧和结束帧以及不稳定的噪声的局部特征,增加网络的鲁棒性;

所述循环神经网络采用门限循环神经网络,用于捕捉帧内信息短时变化的依赖关系;

所述输出模块包括4个神经元的全连接层组成,用于输出四类音频帧的概率分布。

4.根据权利要求2所述的一种陆空通话说话人身份识别方法,其特征在于,所述步骤s3包括:

s31:通过陆空通话语音识别模型识别出所述单句语音信号中包含的文本信息;

s32:构建基于多任务学习的陆空通话语义理解模型;

s33:通过标注好的陆空通话文本数据训练所述陆空通话语义理解模型直至网络收敛,并使用测试集测试模型效果,通过预设的模型评估标准后输出所述陆空通话语义理解模型;

s34:将所述文本信息输入到所述陆空通话语义理解模型,输出所述单句语音信号对应的说话人角色以及航班号;

其中,所述陆空通话语义理解模型包括语义信息提取网络和说话人角色识别网络;

所述语义信息提取网络为编码器-解码器结构,所述说话人角色识别网络为编码器-分类器结构,且所述语义信息提取网络和所述说话人角色识别网络共用编码器结构;所述编码器包括词嵌入提取层和双向lstm层,所述分类器包括lstm层和2个节点的全连接层,所述解码器包括多层lstm层和n个节点的全连接层,其中n为解码器词汇表的大小。

5.根据权利要求2所述的一种陆空通话说话人身份识别方法,其特征在于,所述步骤s4包括:

s41:设定分割步长和分割段长,并根据所述分割步长和所述分割段长将所述单句语音信号分割为多个带有重叠部分的语音片段;

s42:构建基于深度神经网络的说话人声纹嵌入码提取模型,将所述语音片段输入到所述说话人声纹嵌入码提取模型中,提取所述语音片段的说话人声纹嵌入码;

s43:构建多语音片段的说话人声纹嵌入码融合模型,将所述单句语音信号的所有所述语音片段的所述说话人声纹嵌入码输入到所述说话人声纹嵌入码融合模型,得到所述单句语音信号的说话人声纹嵌入码;

s44:构建基于bert的说话人判决模型,将所述单句语音信号的说话人声纹嵌入码输入到所述说话人判决模型中,进行反向传播训练模型,通过预设的模型评估标准后输出所述陆空通话语义理解模型;

s45:将所述单句语音信号的说话人声纹嵌入码与声纹数据库中的说话人声纹嵌入码一同输入到所述说话人判决模型进行说话人识别,给出该句语音与声纹库中的嵌入码匹配结果。

6.根据权利要求5所述的一种陆空通话说话人身份识别方法,其特征在于,所述说话人声纹嵌入码提取模型包括:正弦卷积神经网络、一维卷积神经网络、长短期记忆模型以及全连接层;

所述正弦卷积神经网络用于对所述语音片段进行特征预提取;所述一维卷积神经网络用于凝练所述语音片段中的说话人特征,并对特征向量作降维处理,减少后续网络层的计算量;所述长短期记忆模型用于学习所述语音片段帧之间的时序关联,从而学习说话人的语速、语调等发声特征;所述全连接层用于将说话人特征空间映射到一个固定维度的向量空间中,并将获取的向量经过l2正则化处理,得到说话人声纹嵌入码。

7.根据权利要求2所述的一种陆空通话说话人身份识别方法,其特征在于,所述步骤s5包括以下匹配结果:

匹配结果1:所述步骤s4声纹匹配成功,且所述说话人声纹嵌入码对应的所述说话人角色与所述步骤s3语义理解输出一致时,直接输出所述单句语音信号对应的说话人身份;

匹配结果2:所述步骤s4声纹匹配成功,且所述说话人声纹嵌入码对应的说话人角色与所述步骤s3语义理解输出的说话人角色不一致时;分别从所述管制员静态声纹库以及所述飞行员动态声纹库中选择概率最高的注册信息,进行概率融合判决后输出所述单句语音信号对应的说话人身份;

匹配结果3:所述步骤s4声纹匹配失败、所述步骤s3语义理解输出的说话人角色为飞行员,且所述单句语音信号中的航班号不存在于所述飞行员动态声纹库中,则所述单句语音信号属于新增飞行员,将所述飞行员注册至所述飞行员动态声纹库并输出说话人身份;

匹配结果4:所述步骤s4声纹匹配失败、所述步骤s3语义理解输出的说话人角色为飞行员,且所述单句语音信号中的航班号存在于所述飞行员动态声纹库中,则取出所述航班号对应飞行员id的声纹匹配的概率、所述管制员静态声纹库中声纹匹配概率最高的管制员id以及概率,进行概率融合判决后输出所述单句语音信号对应的说话人身份;

匹配结果5:所述步骤s4声纹匹配失败、所述步骤s3语义理解输出的说话人角色为管制员,则取出所述管制员静态声纹库中声纹匹配概率最高的管制员id以及概率,所述飞行员动态声纹库中声纹匹配概率最高的飞行员id以及概率,进行概率融合判决后输出所述单句语音信号对应的说话人身份。

8.根据权利要求7所述的一种陆空通话说话人身份识别方法,其特征在于,所述匹配结果2中融合判决包括以下步骤:

令所述单句语音信号为x,则说话人身份满足以下公式:

pspker(x)=αprole(x) βpvpr(x),

其中,pspker(x)为说话人身份,α、β为预设参数,prole(x)、pvpr(x)分别是所述步骤s3语义理解角色识别和所述步骤s4声纹匹配输出的概率;

所述匹配结果4中融合判决包括以下步骤:

令所述单句语音信号为x,则说话人身份满足以下公式:

其中,pspker(x)为说话人身份,pilotid为所述航班号对应飞行员id,其对应的声纹匹配的概率为pvpr_pilot(x),controllerid为所述管制员id,其对应的声纹匹配的概率为pvpr_controller(x),unknown为未知说话人,t1,t2为预设的阈值,且满足0<t2<t1<1;

所述匹配结果5中融合判决包括以下步骤:

令所述单句语音信号为x,则说话人身份满足以下公式:

其中,pspker(x)为说话人身份,pilotid为所述飞行员id,其对应的声纹匹配的概率为pvpr_pilot(x),controllerid为所述管制员id,其对应的声纹匹配的概率为pvpr_controller(x),unknown为未知说话人,t3,t4为预设的阈值,且满足0<t4<t3<1。

9.根据权利要求2所述的一种陆空通话说话人身份识别方法,其特征在于,所述飞行员动态声纹库能周期性对所述飞行员id进行检测,若所述飞行员id在预设的周期内无活动状态,删除所述飞行员id对应的注册内容。

10.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。


技术总结
本发明涉及民用航空空中交通管理领域,特别是一种陆空通话说话人身份识别方法及装置。本发明基于深度神经网络的声纹识别和语义理解技术,来对陆空通话中的说话人进行身份识别,解决陆空通话中开放环境下“多人”、“多轮”对话中的说话人身份识别问题,建立管制通话上下文的关联,提高机器智能对管制通话的理解能力,为空管安全防护、管制数据分析等应用提供可靠的说话人身份信息,从而提升管制安全系数。

技术研发人员:郭东岳;林毅;杨波;张建伟
受保护的技术使用者:四川大学
技术研发日:2021.03.12
技术公布日:2021.07.02
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜