农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

基于多源注意力网络的说话人识别方法及系统与流程

2021-07-06 18:47:00 来源：中国专利 TAG：识别说话注意力特别方法

本发明涉及说话人识别技术领域，特别是涉及基于多源注意力网络的说话人识别方法及系统。

背景技术：

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

说话人识别是指根据人的说话声来判别说话人的身份，其在近几年得到广泛关注。说话人识别具有广阔的应用前景，可广泛用于安全监控、说话人日志等领域。近几年，结合自注意力机制的深度神经网络模型越来越多地被用于说话人识别领域，这类方法将神经网络输入端的一组输入特征通过网络映射为两组中间特征，用两组中间特征构造注意力系数，创建注意力机制进行识别。这类方法在输入端只用了单一的输入特征，没有充分利用说话人的其它信息，因而对说话人识别准确率的提升有限。

技术实现要素：

为了解决现有技术的不足，本发明提出了基于多源注意力网络的说话人识别方法及系统；解决上述在输入端只用了单一特征，没有利用说话人的其它信息而导致的识别准确率提升有限问题，提出了一种基于多源注意力网络的说话人识别方法及系统。该方法在输入端同时采用三组特征，并通过多源注意力机制将三组特征进行融合，融合后的特征用于识别。

第一方面，本发明提供了基于多源注意力网络的说话人识别方法；

基于多源注意力网络的说话人识别方法，包括：

提取待识别语音片段的性别特征；提取待识别语音片段的口音特征；

基于训练后的多源注意力网络的cnn网络，提取待识别语音片段的音色特征；

基于训练后的多源注意力网络的性别注意力网络，利用性别特征和音色特征构造性别辅助特征；

基于训练后的多源注意力网络的口音注意力网络，利用口音特征和音色特征构造口音辅助特征；

将音色特征、性别辅助特征和口音辅助特征相结合，进行说话人识别。

第二方面，本发明提供了基于多源注意力网络的说话人识别系统；

基于多源注意力网络的说话人识别系统，包括：

性别和口音特征提取模块，其被配置为：提取待识别语音片段的性别特征；提取待识别语音片段的口音特征；

音色特征提取模块，其被配置为：基于训练后的多源注意力网络的cnn网络，提取待识别语音片段的音色特征；

性别辅助特征构造模块，其被配置为：基于训练后的多源注意力网络的性别注意力网络，利用性别特征和音色特征构造性别辅助特征；

口音辅助特征构造模块，其被配置为：基于训练后的多源注意力网络的口音注意力网络，利用口音特征和音色特征构造口音辅助特征；

识别模块，其被配置为：将音色特征、性别辅助特征和口音辅助特征相结合，进行说话人识别。

第三方面，本发明还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本发明还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

(1)本公开设计的说话人识别方法是模拟人类进行说话人识别的思维模式进行设计的，因而其识别效果更好，尤其是对那些极易引起混淆的说话人，该方法能更好地对其进行区分。

(2)本公开设计的多源注意力机制与目前常用的自注意力机制相比，能联合说话人的更多的信息进行识别，并能将多种信息进行有效融合，融合后的信息具有更强的辨识力，能有效提高网络模型的识别性能。

(3)本公开设计的说话人识别方法同时联合了说话人的音色特征、性别辅助特征和口音辅助特征进行识别，联合方案模拟了人类进行说话人识别的思维模式，以音色特征为主，以性别特征和口音特征作为辅助特征，辅助特征在识别存在不确定时能起到很好的辅助确认作用。更多的特征意味着更多的判别信息，因而能有效提高识别效果。

(4)本公开提出的多源注意力机制适用性广，不限于说话人识别，可以为其它领域的分类识别提供很好的方法借鉴。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是实施例一的一种基于多源注意力网络的说话人识别方法流程图；

图2是实施例一的性别特征和口音特征提取的神经网络结构示意图；

图3是实施例一的图1中的cnn网络的结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本公开提出的基于多源注意力网络的说话人识别方法模拟人类进行说话人识别的思维模式，以音色特征为主，以性别特征和口音特征作为辅助特征。算法要解决音色特征提取、性别辅助特征和口音辅助特征的构建、音色特征和性别辅助特征以及口音辅助特征的结合等问题。

实施例一

本实施例提供了基于多源注意力网络的说话人识别方法；

如图1所示，基于多源注意力网络的说话人识别方法，包括：

s101：提取待识别语音片段的性别特征；提取待识别语音片段的口音特征；

s102：基于训练后的多源注意力网络的cnn网络，提取待识别语音片段的音色特征；

s103：基于训练后的多源注意力网络的性别注意力网络，利用性别特征和音色特征构造性别辅助特征；

s104：基于训练后的多源注意力网络的口音注意力网络，利用口音特征和音色特征构造口音辅助特征；

s105：将音色特征、性别辅助特征和口音辅助特征相结合，进行说话人识别。

作为一个或多个实施例，所述s101：提取待识别语音片段的性别特征；具体步骤包括：

对待识别语音片段进行分帧处理；

对每一帧待识别语音提取mfcc(melfrequencycepstrumcoefficien)特征，将待识别语音片段中所有帧的mfcc特征在时间方向上进行拼接，得到待识别语音片段的mfcc频谱；

以待识别语音片段的mfcc频谱作为训练后的性别分类网络的输入值；

将性别分类网络最大池化层的输出特征连接成特征矩阵，记为g，以g作为待识别语音片段的性别特征。

进一步地，所述训练后的性别分类网络，网络结构包括：

依次串联的输入层n1、卷积层n2、卷积层n3、最大池化层n4、全连接层n5和softmax输出层n6。

进一步地，所述训练后的性别分类网络，其工作原理包括：

输入层n1接收待识别语音片段的输入特征；

卷积层n2对输入层的信号进行特征提取；

卷积层n3对卷积层n2的输出信号进行特征提取；

最大池化层n4对卷积层n3的输出信号进行下采样，实现特征压缩；

全连接层n5对最大池化层n4的输出信号进行映射；

softmax输出层n6对全连接层n5的输出信号进行映射，输出待识别语音片段在各类上的概率分布。

进一步地，所述训练后的性别分类网络，训练步骤包括：

构建第一训练集，所述第一训练集包括已知性别标签的语音片段；

对语音片段进行分帧处理，对每一帧提取mfcc特征，将语音片段中所有帧的mfcc特征在时间方向上进行拼接，得到语音片段的mfcc频谱，将mfcc频谱作为性别分类网络的输入值，将已知的性别标签作为性别分类网络的理想输出值，对性别分类网络进行训练，得到训练后的性别分类网络。

作为一个或多个实施例，所述s101：提取待识别语音片段的口音特征；具体步骤包括：

对待识别语音片段进行分帧处理；

对每一帧待识别语音提取mfcc特征，将待识别语音片段中所有帧的mfcc特征在时间方向上进行拼接，得到待识别语音片段的mfcc频谱；

以待识别语音片段的mfcc频谱作为训练后的国籍分类网络的输入值；

将国籍分类网络最大池化层的输出特征连接成特征矩阵，记为q，以q作为待识别语音片段的口音特征。

进一步地，所述训练后的国籍分类网络，网络结构包括：

依次串联的输入层c1、卷积层c2、卷积层c3、最大池化层c4、全连接层c5和softmax输出层c6。

进一步地，所述训练后的国籍分类网络，其工作原理包括：

输入层c1接收待识别语音片段的输入特征；

卷积层c2对输入层的信号进行特征提取；

卷积层c3对卷积层c2的输出信号进行特征提取；

最大池化层c4对卷积层c3的输出信号进行下采样，实现特征压缩；

全连接层c5对最大池化层c4的输出信号进行映射；

softmax输出层c6对全连接层c5的输出信号进行映射，输出待识别语音片段在各类上的概率分布。

进一步地，所述训练后的国籍分类网络，训练步骤包括：

构建第二训练集，所述第二训练集包括已知国籍标签的语音片段；

对语音片段进行分帧处理，对每一帧提取mfcc特征，将语音片段中所有帧的mfcc特征在时间方向上进行拼接，得到语音片段的mfcc频谱，将mfcc频谱作为国籍分类网络的输入值，将已知的国籍标签作为国籍分类网络的理想输出值，对国籍分类网络进行训练，得到训练后的国籍分类网络。

作为一个或多个实施例，多源注意力网络，其网络结构包括：

并列的性别注意力网络、cnn网络和口音注意力网络；

其中，cnn网络的输出端还分别与性别注意力网络和口音注意力网络连接；

性别注意力网络、cnn网络和口音注意力网络的输出端，均与特征融合单元连接，特征融合单元与全连接层连接，全连接层与输出层连接。

进一步地，性别注意力网络，其网络结构包括：

依次连接的转置单元p1、矩阵相乘单元p2、转置单元p3和矩阵相乘单元p4；

其中，转置单元p1，用于对性别特征进行转置操作；

矩阵相乘单元p2，用于对转置单元p1的输出值和cnn网络的输出值进行矩阵相乘操作；

转置单元p3，用于对矩阵相乘单元p2的输出值进行转置操作；

矩阵相乘单元p4，用于对转置单元p3的输出值和cnn网络的输出值进行矩阵相乘操作。

进一步地，cnn网络，其网络结构包括：

依次串联的输入层m1、卷积层m2、卷积层m3和最大池化层m4。

进一步地，所述cnn网络，其工作原理包括：

输入层m1接收待识别语音片段的mfcc频谱；

卷积层m2对输入层的信号进行特征提取；

卷积层m3对卷积层m2的输出信号进行特征提取；

最大池化层m4对卷积层m3的输出信号进行下采样，实现特征压缩。

进一步地，口音注意力网络，其网络结构包括：

依次连接的转置单元q1、矩阵相乘单元q2、转置单元q3和矩阵相乘单元q4。

其中，转置单元q1，用于对口音特征进行转置操作；

矩阵相乘单元q2，用于对转置单元q1的输出值和cnn网络的输出值进行矩阵相乘操作；

转置单元q3，用于对矩阵相乘单元q2的输出值进行转置操作；

矩阵相乘单元q4，用于对转置单元q3的输出值和cnn网络的输出值进行矩阵相乘操作。

其中，cnn网络的输出端还分别与性别注意力网络和口音注意力网络连接，具体是指：

cnn网络的最大池化层m4分别与矩阵相乘单元p2的输入端、矩阵相乘单元p4的输入端、矩阵相乘单元q2的输入端和矩阵相乘单元q4的输入端连接。

进一步地，所述训练后的多源注意力网络，训练步骤包括：

构建第三训练集，所述第三训练集包括已知说话人身份的语音片段；

对第三训练集语音片段提取mfcc频谱、性别特征g和口音特征q；(其中，这里对第三训练集语音片段提取mfcc频谱、性别特征g和口音特征q的具体步骤；与对待识别语音片段提取mfcc频谱、性别特征g和口音特征q的具体步骤是一致的，此处不再赘述；)

将语音片段的mfcc频谱作为图1中cnn网络的输入值；

将语音片段的性别特征g作为图1中性别注意力网络的输入值；

将语音片段的口音特征q作为图1中口音注意力网络的输入值；

将已知的说话人身份作为图1中输出层的理想输出值；

对多源注意力网络进行训练，当多源注意力网络的损失函数达到最小值，或者训练达到设定迭代次数后，停止训练，得到训练后的多源注意力网络；

得到训练后的多源注意力网络，也就是，得到了训练后的多源注意力网络的性别注意力网络、训练后的多源注意力网络的口音注意力网络和训练后的多源注意力网络的cnn网络。

其中，性别注意力网络、口音注意力网络和cnn网络，这三个网络是作为一个整体(多源注意力网络)进行训练的，而不是单个进行训练的。

作为一个或多个实施例，s102：基于训练后的多源注意力网络的cnn网络，提取待识别语音片段的音色特征；具体步骤包括：

s1021：对待识别语音片段进行分帧处理；

s1022：对每一帧待识别语音提取mfcc特征，将待识别语音片段中所有帧的mfcc特征在时间方向上进行拼接，得到待识别语音片段的mfcc频谱；

s1023：基于mfcc频谱，提取音色特征。

进一步地，所述基于mfcc频谱，提取音色特征；具体步骤包括：

基于训练后的多源注意力网络的cnn网络，以mfcc频谱作为cnn网络的输入，将cnn网络最大池化层的输出连接成特征矩阵，记为e，以e作为待识别语音片段的音色特征。

作为一个或多个实施例，s103：基于训练后的多源注意力网络的性别注意力网络，利用性别特征和音色特征构造性别辅助特征；具体步骤包括：

对性别特征g进行转置操作，得到g^t；

将转置后的性别特征g^t与音色特征e进行矩阵相乘，得到注意力系数矩阵a＝g^te；

对注意力系数矩阵a进行转置操作，得到a^t；

将转置后的注意力系数矩阵a^t和音色特征e进行矩阵相乘，得到性别辅助特征ea^t。

作为一个或多个实施例，s104：基于训练后的多源注意力网络的口音注意力网络，利用口音特征和音色特征构造口音辅助特征；具体步骤包括：

对口音特征q进行转置操作，得到q^t；

将转置后的口音特征q^t与音色特征e进行矩阵相乘，得到注意力系数矩阵b＝q^te；

对注意力系数矩阵b进行转置操作，得到b^t；

将转置后的注意力系数矩阵b^t和音色特征e进行矩阵相乘，得到口音辅助特征eb^t。

作为一个或多个实施例，s105：将音色特征、性别辅助特征和口音辅助特征相结合，进行说话人识别；具体步骤包括：

将音色特征、性别辅助特征和口音辅助特征进行特征融合：将音色特征e，性别辅助特征ea^t和口音辅助特征eb^t在特征矩阵行方向上进行拼接，然后将拼接后的矩阵逐行进行首尾连接，形成特征融合后的特征向量r；

将融合特征r输入到训练后的分类器中，输出说话人身份的概率分布；

根据说话人身份的概率分布，以具有最大概率值的说话人身份作为识别结果。

进一步地，所述训练后的分类器；其训练步骤包括：

构建分类器；构建第四训练集，所述第四训练集为已知说话人身份的语音片段融合特征；

将语音片段融合特征作为分类器的输入值，将已知的说话人身份作为分类器的理想输出值，对分类器进行训练，得到训练后的分类器。

如图1所示，本公开提出的一种基于多源注意力网络的说话人识别方法主要包括四部分：(1)生成音色特征，(2)通过性别注意力网络生成性别辅助特征，(3)通过口音注意力网络生成口音辅助特征，(4)将音色特征、性别辅助特征、口音辅助特征相结合，进行分类识别。

假设有一带有说话人身份标签、性别标签和国籍标签的定长说话人数据库，对数据库中每个说话人的每个语音片段进行分帧处理，并对每帧提取40维的mfcc(melfrequencycepstrumcoefficien)特征，得到每个语音片段的尺寸为40×n的mfcc频谱，n表示语音片段中包含的帧的数量。

图1中cnn网络的结构示意图如图3所示，包括输入层、两层卷积层和一层最大池化层。性别特征和口音特征提取的神经网络结构示意图如图2所示，包括输入层、两层卷积层、一层最大池化层、一层全连接层和一层k节点softmax输出层，k表示输出层节点的个数，softmax表示输出层的激活函数。图2和图3中的输入层、两层卷积层、一层最大池化层的结构完全相同，具体结构根据数据库内数据情况进行设置。

(1)生成音色特征

以数据库中语音片段的mfcc频谱作为图1中cnn网络的输入，将网络最大池化层的输出连接成特征矩阵，记为e，以e作为语音片段的音色特征。

(2)通过性别注意力网络生成性别辅助特征

为了生成性别辅助特征，首先要提取性别特征。性别特征用如图2所示结构的神经网络模型通过性别分类进行提取。由于性别分类是两类分类，因此输出层设置两个输出节点，即令k＝2。

以语音片段的mfcc频谱作为性别分类神经网络模型的输入，以语音片段的性别标签作为神经网络模型的理想输出，对神经网络模型进行训练，训练结束后，固定神经网络模型的参数。将每个说话人的每个语音片段的mfcc频谱作为性别分类网络的输入，将最大池化层的输出特征连接成特征矩阵，记为g，以g作为语音片段的性别特征。

对每个语音片段，用性别特征和音色特征构造注意力系数矩阵a：a＝g^te，用注意力系数矩阵a和音色特征e构造性别辅助特征：ea^t。

(3)通过口音注意力网络生成口音辅助特征

为了生成口音辅助特征，首先要提取口音特征。口音特征用如图2所示结构的神经网络模型通过国籍分类进行提取。由于不同国籍的人的发音特点不同，因此可以用国籍分类信息作为口音信息。假设数据库中的说话人的国籍共有m类，则设置输出层的输出节点的个数为m，即令k＝m。

以语音片段的mfcc频谱作为国籍分类神经网络模型的输入，以语音片段的国籍标签作为国籍分类神经网络模型的理想输出，对神经网络模型进行训练，训练结束后，固定神经网络模型的参数。将每个说话人的每个语音片段的mfcc频谱作为国籍分类网络的输入，将最大池化层的输出特征连接成特征矩阵，记为q，以q作为语音片段的口音特征。

对每个语音片段，用口音特征q和音色特征e构造注意力系数矩阵b：b＝q^te，用注意力系数矩阵b和音色特征e构造口音辅助特征：eb^t。

(4)将音色特征、性别辅助特征、口音辅助特征相结合，进行分类识别。

将音色特征e，性别辅助特征ea^t和口音辅助特征eb^t在特征矩阵行方向上进行连接，然后将连接后的矩阵逐行进行首尾连接，形成一个特征向量，记作r：

r＝flatten[e,ea^t,eb^t]

flatten[·]表示将矩阵逐行进行首尾连接。在特征向量r后依次接全连接层和输出层。输出层节点的个数设置为数据库中说话人的个数，激活函数采用softmax函数，以此网络结构进行说话人识别。

本公开提出了一种基于多源注意力网络的说话人识别方法及系统，该方法基于cnn网络提取语音片段的音色特征；通过性别分类网络提取性别特征，利用性别特征和性别注意力网络构造性别辅助特征；通过国籍分类网络提取口音特征，利用口音特征和口音注意力网络构造口音辅助特征；最后将音色特征、性别辅助特征和口音辅助特征相结合进行说话人识别。该方法模拟人类进行说话人识别的思维模式进行设计，因而其识别效果更好。该方法同时融合音色、性别和口音三类信息进行识别，融合后的信息具有更强的辨识力，能有效提高网络模型的识别性能。该方法提出的多源注意力机制不限于说话人识别，可以为其它领域的分类识别提供很好的方法借鉴。

实施例二

本实施例提供了基于多源注意力网络的说话人识别系统；

基于多源注意力网络的说话人识别系统，包括：

性别和口音特征提取模块，其被配置为：提取待识别语音片段的性别特征；提取待识别语音片段的口音特征；

音色特征提取模块，其被配置为：基于训练后的多源注意力网络的cnn网络，提取待识别语音片段的音色特征；

性别辅助特征构造模块，其被配置为：基于训练后的多源注意力网络的性别注意力网络，利用性别特征和音色特征构造性别辅助特征；

口音辅助特征构造模块，其被配置为：基于训练后的多源注意力网络的口音注意力网络，利用口音特征和音色特征构造口音辅助特征；

识别模块，其被配置为：将音色特征、性别辅助特征和口音辅助特征相结合，进行说话人识别。

此处需要说明的是，上述性别和口音特征提取模块、音色特征提取模块、性别辅助特征构造模块、口音辅助特征构造模块和识别模块对应于实施例一中的步骤s101至s105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元cpu，处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic，现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音数据的处理方法、装置及电子设备与流程

基于多源注意力网络的说话人识别方法及系统与流程

相关文章

最热文献