说话人验证方法及系统与流程

2022-03-09 07:42:42 来源：中国专利 TAG：

1.本发明涉及智能语音领域，尤其涉及一种说话人验证方法及系统。

背景技术：

2.说话人验证是一种利用所发出的语音来验证说话人身份的任务。对于两个话语，典型的说话人验证系统可以提取说话人嵌入，自动判断两个话语是否属于同一个说话人。一般来说，一个典型的说话人验证系统包括两部分。第一种是嵌入提取，用于从话语中提取定长说话人表示。另一种是后端判断模型，其目的是计算说话者嵌入向量之间的相似性。
3.随着深度学习方法在其他领域的广泛应用，深度神经网络的有效性得到了广泛的证明。由于transformer强大的建模和并行计算能力，它已成为自然语言处理和自动语音识别领域最流行的方法。例如由transformer作为主要架构的说话人验证系统s-vector，可以进行说话人验证。
4.在实现本发明过程中，发明人发现相关技术中至少存在如下问题：
5.基于自注意力的s-vector，往往注重建模全局信息，忽略局部信息，然而说话人信息往往反映在局部节奏变化中，使得基于自注意力的说话人验证系统对于局部节奏变化的说话人语音验证不够准确。

技术实现要素：

6.为了至少解决现有技术中说话人验证注重建模全局信息，忽略局部信息，对于局部节奏变化的说话人语音验证不够准确的问题。第一方面，本发明实施例提供一种说话人验证方法，包括：
7.将待验证语音转化为音频序列；
8.将所述音频序列输入至基于transformer的固定窗口大小的自注意力块，使所述待验证语音中各帧的自注意力的可视范围限制在所述各帧语音的相邻帧，得到局部自注意力的说话人特征；
9.将所述局部自注意力的说话人特征输入至前馈网络，得到说话人验证结果。
10.第二方面，本发明实施例提供一种说话人验证系统，包括：
11.音频序列转化程序模块，用于将待验证语音转化为音频序列；
12.特征限制程序模块，用于将所述音频序列输入至基于transformer的固定窗口大小的自注意力块，使所述待验证语音中各帧的自注意力的可视范围限制在所述各帧语音的相邻帧，得到局部自注意力的说话人特征；
13.说话人验证程序模块，用于将所述局部自注意力的说话人特征输入至前馈网络，得到说话人验证结果。
14.第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例
的说话人验证方法的步骤。
15.第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的说话人验证方法的步骤。
16.本发明实施例的有益效果在于：为了更好地关注transformer中的局部信息，本方法提出了三种改进的自我注意方法，包括局部自注意力、高斯自注意力和卷积自注意力。前两种方法通过限制注意的大小来实现目标，后一种方法通过结合卷积来获得性能增益，总的提升说话人验证效果。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1是本发明一实施例提供的一种说话人验证方法的流程图；
19.图2是本发明一实施例提供的一种说话人验证方法的左侧是transformer最初的全局注意事项，右侧是带有偏差的局部受限注意事项的结构图；
20.图3是本发明一实施例提供的一种说话人验证方法的全局和局部关注的例证示意图；
21.图4是本发明一实施例提供的一种说话人验证方法的transformer编码器结构图；
22.图5是本发明一实施例提供的一种说话人验证方法的voxceleb数据集上不同系统的结果比较数据图；
23.图6是本发明一实施例提供的一种说话人验证系统的结构示意图；
24.图7为本发明一实施例提供的一种说话人验证的电子设备的实施例的结构示意图。
具体实施方式
25.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.如图1所示为本发明一实施例提供的一种说话人验证方法的流程图，包括如下步骤：
27.s11：将待验证语音转化为音频序列；
28.s12：将所述音频序列输入至基于transformer的固定窗口大小的自注意力块，使所述待验证语音中各帧的自注意力的可视范围限制在所述各帧语音的相邻帧，得到局部自注意力的说话人特征；
29.s13：将所述局部自注意力的说话人特征输入至前馈网络，得到说话人验证结果。
30.在本实施方式中，transformer中最重要的部分是自我注意模块(或自我注意力块)。注意功能可以描述为将一组查询和键值对映射到输出，其中查询、键、值和输出都是向
量。输出作为值的加权和计算，其中分配给每个值的权重由查询与相应键的兼容函数计算。
31.对于步骤s11，将接收到待验证语音转化为对应的长度为t的音频序列x＝[x1，x2，
…
，x
t
]。
[0032]
对于步骤s12，将长度为t的输入音频序列x＝[x1，x2，
…
，x
t
]输入至自我注意力块，使用和一组可训练参数和一组可训练参数然后，模型将输入x转换为k键和值定义如下：
[0033]
qi＝xiwq[0034]ki
＝xiwk[0035]
vi＝xiwv[0036]
然后，向量点积自注意力模型如图2左侧所示：它根据向量点积的softmax计算的兼容性函数，将每个输入令牌xj∈x与输出oi软对齐，后相加。因此，可以得到时间实例i的输出oi：
[0037][0038]
自我注意机制使模型具有对全局信息建模的能力，对于解决序列问题中棘手的长期依赖问题非常有效，但却失去了对局部特征的捕捉能力。在本方法，主要的目的是考虑从两个不同的方面帮助转换器显式地对本地信息建模。对于第一个方面，可以约束每个查询可以参与的上下文，从整个序列到相邻区域。另一方面，可以直接将本地信息编码为查询、键和值。接下来，将从这两个方面说明本方法的局部注意机制。
[0039]
对于自我注意的原始定义，它几乎平等地对待不同位置的相似帧，并全局执行，如图3的(a)所示。相邻帧对说话人嵌入提取的贡献更大，这与本领域技术人员的认知不一致。虽然cnns/rnns(深度神经网络/循环神经网络)在内部模拟了这种“分块”现象，但transformer中普通的自我注意机制无法捕获文本的局部结构。
[0040]
由于语音具有很强的局部性，因此自然会限制每个查询关注其相邻节点。这种模式被广泛采用的一类是局部自我注意，其中，注意矩阵是一个带状矩阵，如图3右侧所示。给定一个固定的窗口大小2w，每个帧只聚焦于每侧的相邻的w帧。为了在transformer中实现局部自我注意，可以生成一个偏差矩阵，并将其添加到分数矩阵中，以屏蔽帧，如图2的右侧部分所示：
[0041][0042]
其中b
ij
是一种偏差，定义如下：
[0043][0044]
从而得到局部自注意力的说话人特征。
[0045]
作为一种实施方式，所述将所述音频序列输入至基于transformer的固定窗口大
小的自注意力块包括：通过所述自注意力块生成说话人特征的偏差矩阵；利用高斯分布优化所述偏差矩阵中每帧语音的权重，得到增强局部的高斯自注意力的说话人特征。
[0046]
在本实施方式中，局部自我注意可以直接约束注意上下文，但固定的窗口大小是不灵活的。为了更好地对局部信息进行建模，本方法还提出了另一种基于高斯分布的自关注方法，根据令牌之间的距离不断降低分数权重。与使用硬权重(0或1)限制局部信息的局部自我注意相比，高斯自我注意可以看作是局部自我注意的软版本。假设不同距离的令牌对中心帧的贡献服从正态分布，然后在校正与当前中心帧相邻的令牌的得分权重之前使用高斯变量。
[0047]
为简单起见，假设该权重满足标准范数分布，其均值和方差为0，1/2π。然后，其概率密度函数可以简化为其中d
ij
是帧i和j之间的距离。为了校正不同距离处的帧权重，插入了高斯先验φ(d)：
[0048][0049]
然后，上述公式将乘法运算转换为高斯偏差项的加法运算，其形式与图2右侧相同。因为关于高斯分布的假设太强了，为了放松限制，引入了一个可学习的参数w来调整高斯分布的形状，如下所示：
[0050][0051]
此外，使用惩罚词b用于减轻中心词自身的重量：
[0052][0053]
其中|*|表示标量参数w＞0和b的绝对值≤0，从而得到增强局部的高斯自注意力的说话人特征。
[0054]
作为另一种实施方式，所述自注意力块包括：
[0055]
多个一维卷积层，用于强化对局部上下文的建模能力。
[0056]
在本实施方式中，卷积还成功地应用于说话人验证任务，该任务通过一个局部感受野逐层渐进地捕获局部上下文。本方法还探讨了如何将卷积与自我注意有效地结合起来，提高模型捕捉局部信息的能力。
[0057]
conformer是最先进的asr编码器体系结构，它将卷积层插入transformer块中，以增强传统transformer模型的局部信息建模能力。首先，尝试采用构象作为嵌入提取器来提取说话人嵌入，但效果并不理想。基于此，本方法提出了以下的用于语音验证的卷积增强transformer，如下所述：
[0058]
conv-sab：1、查询、键和值通过在自我注意块(sab)中学习矩阵wq、wk和wv转换输入x获得。为了将卷积引入sab，将矩阵替换为三个不同的一维卷积层，称为conv-sab。通过卷
积层，可以在计算注意时引入局部信息，得到卷积自注意力的说话人特征。
[0059]
对于步骤s13，可以将上述步骤确定的局部自注意力的说话人特征或增强局部的高斯自注意力的说话人特征输入至前馈网络，与预先存储的对应的说话人特征进行比对，从而得到说话人验证结果。
[0060]
同样的，为了与卷积层对应，conv-ffn：另一个想法是引入注意力之间的卷积。使用了一个带relu激活的2层卷积1d网络来代替前馈网络(ffn)中原来的全连接层，如图4所示。然后，将conv-ffn定义为：
[0061]
convffn(x)＝conv(relu(conv(x)))
[0062]
relu(x)＝max(0，x)
[0063]
其中，conv为一维卷积层，relu为激活函数，x为conv-ffn的输入。这样，也可以与预先存储的对应的说话人特征进行比对，从而得到说话人验证结果。
[0064]
通过该实施方式可以看出，为了更好地关注transformer中的局部信息，本方法提出了三种改进的自我注意方法，包括局部自注意力、高斯自注意力和卷积自注意力。前两种方法通过限制注意的大小来实现目标，后一种方法通过结合卷积来获得性能增益，总的提升说话人验证效果。
[0065]
对本方法的说话人验证进行试验，在实验中，在voxceleb2的开发集上对所有系统进行了培训，该开发集包含5994名说话者1092009次的话语。对于评估，使用voxceleb1的开发集和测试集。报告了3个试验集的实验结果：voxceleb 1的原始测试集包含来自40位发言者的37720个试验，voxceleb 1-e测试集(使用整个数据集)包含来自1251位发言者的581480个试验，voxceleb 1-h测试集(在相同国籍和性别范围内)包含来自1190位发言者的552536次试听。
[0066]
为了丰富训练数据，我们使用musan数据集进行在线数据扩充。噪声类型包括环境噪声、音乐、电视和背景加性噪声的嘈杂噪声。通过将噪声与原始语音混合生成增强数据。对于混响，用40000个模拟的房间脉冲响应进行卷积操作。在训练过程中，决定是否对每个样本进行概率为0.6的增强。
[0067]
使用40维fbank，长度为25ms的汉明窗和10ms的窗移作为输入特征，不涉及语音活动检测。所有特征都是通过一个长达3秒的滑动窗口进行均值标准化的。整个训练过程将持续165个时期。应用noam作为优化器，对softmax损失函数模型进行训练，该优化器具有25,000个预热步骤。模型优化后，采用概率线性判别分析作为后端对试验进行评分。
[0068]
首先，将展示通过限制注意上下文来整合本地信息的有效性。结果如图5所示。根据该表，可以看到，与每个测试集的基线系统相比，最佳l-sa(local self-attention，局部自注意力)(尺寸＝5)在eer(equal error rate，等错误率)和mindcf(一种评估指标)上实现了平均相对》15.0％的改善。实验结果表明，利用局部信息进行说话人确认可以显著改善系统性能，并且所提出的l-sa算法比原始的自注意算法在说话人确认方面有更好的效果。此外，还探讨了不同注意大小对绩效的影响。基于此，具有全局模式的原始自我注意可以看作是一个非常大的注意量。对于不同的注意大小，当注意大小为5时，系统可以达到最佳性能位置，过小(大小＝2)或过大(大小＝8)不适合局部自我注意。
[0069]
因此，注意大小对模型有显著影响，但在实际应用中很难选择合适的值。因此，本方法提出了具有可学习注意大小的g-sa(gaussian self-attention，高斯自注意力)，这可
以看作是l-sa的软版本。根据如图5给出的结果，可以明显地观察到g-sa系统优于所有l-sa系统，这意味着g-sa比固定注意大小的l-sa系统更灵活。
[0070]
对于卷积自注意力，本方法还对在transformer的不同位置引入卷积层的效果进行了研究。结果如图5所示。为了说明本工作中所提出的方法的优越性，还提供了将transformer和卷积结合在一起设计并已在asr中广泛应用的conformer(卷积增强的transformer)的结果。然而，在结果方面，conformer表现不佳，甚至比基线更差。这也表明只有将卷积层放在正确的位置才能提高性能。
[0071]
进而提出的两种具有csa(convolution self-attention,卷积自我注意)的模式，即conv-sab和conv-ffn，都比通常的自我注意得到了明显的改善。特别是，conv-ffn方法优于如图5所示的所有其他自我注意系统。然后，可以得出结论，引入卷积可以帮助网络利用局部信息，从而提高模型的整体性能。
[0072]
值得注意的是，l-sa和g-sa改变了查询可以看到的上下文，而c-sa通过卷积操作改变了计算注意元素的方式。将l-sa或g-sa与c-sa相结合将是直观且简单的。为简单起见，仅利用最好的conv-ffn进行系统组合。如图5底部显示了相应的结果。从结果中，发现l-sa与c-sa不兼容，系统性能下降。g-sa很好地补充了c-sa，并取得了进一步的改进。在所有系统中，这种组合系统的效果最好，eer和mindcf都相对降低了约25.0％。
[0073]
总的来说，为了更好地关注transformer中的局部信息，本方法提出了三种改进的自我注意方法，包括l-sa、g-sa和c-sa。前两种方法通过限制注意的大小来实现目标，后一种方法通过结合卷积来获得性能增益。实验结果表明，这些方法都能显著提高说话人识别的性能，说明了局部信息在基于变换器的说话人识别中的重要性。其中，与l-sa相比，具有动态注意大小的g-sa也表现出更好的性能和灵活性。此外，为了进一步改进该系统，还将提出的g-sa与conv-ffn相结合，该系统实现了最佳性能，与传统的自我注意相比，eer和mindcf都获得了较优的改善。
[0074]
如图6所示为本发明一实施例提供的一种说话人验证系统的结构示意图，该系统可执行上述任意实施例所述的说话人验证方法，并配置在终端中。
[0075]
本实施例提供的一种说话人验证系统10包括：音频序列转化程序模块11，特征限制程序模块12和说话人验证程序模块13。
[0076]
其中，音频序列转化程序模块11用于将待验证语音转化为音频序列；特征限制程序模块12用于将所述音频序列输入至基于transformer的固定窗口大小的自注意力块，使所述待验证语音中各帧的自注意力的可视范围限制在所述各帧语音的相邻帧，得到局部自注意力的说话人特征；说话人验证程序模块13用于将所述局部自注意力的说话人特征输入至前馈网络，得到说话人验证结果。
[0077]
进一步地，所述限制程序模块用于：
[0078]
通过所述自注意力块生成说话人特征的偏差矩阵；
[0079]
利用高斯分布优化所述偏差矩阵中每帧语音的权重，得到增强局部的高斯自注意力的说话人特征。
[0080]
进一步地，所述自注意力块包括：
[0081]
多个一维卷积层，用于强化对局部上下文的建模能力。
[0082]
进一步地，所述限制程序模块用于：
[0083]
利用线性整流函数激活的双层卷积一维网络替代所述前馈网络的全连接层，以确定待验证语音的卷积自注意力的说话人特征。
[0084]
本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的说话人验证方法；
[0085]
作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
[0086]
将待验证语音转化为音频序列；
[0087]
将所述音频序列输入至基于transformer的固定窗口大小的自注意力块，使所述待验证语音中各帧的自注意力的可视范围限制在所述各帧语音的相邻帧，得到局部自注意力的说话人特征；
[0088]
将所述局部自注意力的说话人特征输入至前馈网络，得到说话人验证结果。
[0089]
作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的说话人验证方法。
[0090]
图7是本技术另一实施例提供的说话人验证方法的电子设备的硬件结构示意图，如图7所示，该设备包括：
[0091]
一个或多个处理器710以及存储器720，图7中以一个处理器710为例。说话人验证方法的设备还可以包括：输入装置730和输出装置740。
[0092]
处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。
[0093]
存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本技术实施例中的说话人验证方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例说话人验证方法。
[0094]
存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0095]
输入装置730可接收输入的数字或字符信息。输出装置740可包括显示屏等显示设备。
[0096]
所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的说话人验证方法。
[0097]
上述产品可执行本技术实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术实施例所提供的方法。
[0098]
非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程
序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0099]
本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的说话人验证方法的步骤。
[0100]
本技术实施例的电子设备以多种形式存在，包括但不限于：
[0101]
(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
[0102]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。
[0103]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
[0104]
(4)其他具有数据处理功能的电子装置。
[0105]
在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0106]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0107]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0108]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种人工智能检测系统、方法和计算机程序与流程

说话人验证方法及系统与流程

相关文献

最热文献