说话人验证方法及系统与流程

2022-04-06 17:31:54 来源：中国专利 TAG：

1.本发明涉及智能语音领域，尤其涉及一种说话人验证方法及系统。

背景技术：

2.说话人验证的任务是确定测试的语音和注册语音是否属于同一说话人。通常，说话人验证系统由两个模块组成：前端和后端。前端用于从可变长度的话语中提取说话人嵌入。后端帐户根据嵌入的相似性分数做出决策。
3.自从深度学习出现以来，神经网络在说话人验证任务中得到了高度的应用，并逐渐成为最先进系统中不可或缺的一部分。具体而言，现有方法利用深度神经网络作为说话人嵌入提取器，训练它们对具有交叉熵损失的说话人进行分类。基于深度学习的系统通常由帧级特征提取器、段级嵌入聚合器和说话者分类器组成。给定一个话语，首先通过网络获得帧级特征表示。然后利用池化层通过时域聚合说话人特征将可变长度表示映射到固定的低维嵌入。
4.例如，可以通过将主干网络的多层特征图直接拼接然后使用全联接转化为说话人特征向量或者使用自上而下的特征金字塔进行多层特征融合。
5.在实现本发明过程中，发明人发现相关技术中至少存在如下问题：
6.这些技术生成的说话人特征向量不够鲁棒，在对于建模复杂的模拟说话人语音时，无法捕捉建模说话人特征中复杂的关系，验证的准确性会降低。

技术实现要素：

7.为了至少解决现有技术中无法捕捉建模说话人特征中复杂的关系，验证的准确性会降低的问题。第一方面，本发明实施例提供一种说话人验证方法，包括：
8.通过加权双向特征金字塔网络对待验证语音处理，得到特征图；
9.将所述特征图作为主干网络的横向层的输入，输出原始的待验证语音的第一映射特征；
10.将所述第一映射特征作为所述主干网络的自上而下层的输入，输出中间层的细粒度的第二特征映射；
11.将所述第一映射特征和所述第二特征映射作为所述主干网络的自下而上层的输入，输出混合的第三特征映射，通过所述第三特征映射进行说话人验证。
12.第二方面，本发明实施例提供一种说话人验证系统，包括：
13.特征图确定程序模块，用于通过加权双向特征金字塔网络对待验证语音处理，得到特征图；
14.横向特征输出程序模块，用于将所述特征图作为主干网络的横向层的输入，输出第一映射特征；
15.中间特征输出程序模块，用于将所述第一映射特征作为所述主干网络的自上而下层的输入，输出中间层的第二特征映射；
16.验证程序模块，用于将所述第一映射特征和所述第二特征映射作为所述主干网络的自下而上层的输入，输出混合的第三特征映射，通过所述第三特征映射进行说话人验证。
17.第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的说话人验证方法的步骤。
18.第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的说话人验证方法的步骤。
19.本发明实施例的有益效果在于：可以简单无缝地与现有卷积主干网络进行结合，并且可以大幅度的提升基线网络的性能，从而可以捕捉建模说话人特征中复杂的关系，提高说话人验证的准确性。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1是本发明一实施例提供的一种说话人验证方法的流程图；
22.图2是本发明一实施例提供的一种说话人验证方法的多路径特征增强网络的体系结构图；
23.图3是本发明一实施例提供的一种说话人验证方法的基于resnet34的特征增强网络架构图；
24.图4是本发明一实施例提供的一种说话人验证方法的基于ecapa tdnn的特征增强网络架构图；
25.图5是本发明一实施例提供的一种说话人验证方法的在voxceleb1数据集上不同系统的等错误率和mindcf结果示意图；
26.图6是本发明一实施例提供的一种说话人验证方法的基于resnet的特征增强网络中的se块数据示意图；
27.图7是本发明一实施例提供的一种说话人验证方法的基于ecapa-tdnn的特征增强网络中的残差连接数据示意图；
28.图8是本发明一实施例提供的一种说话人验证系统的结构示意图；
29.图9为本发明一实施例提供的一种说话人验证的电子设备的实施例的结构示意图。
具体实施方式
30.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
31.如图1所示为本发明一实施例提供的一种说话人验证方法的流程图，包括如下步骤：
32.s11：通过加权双向特征金字塔网络对待验证语音处理，得到特征图；
33.s12：将所述特征图作为主干网络的横向层的输入，输出原始的待验证语音的第一映射特征；
34.s13：将所述第一映射特征作为所述主干网络的自上而下层的输入，输出中间层的细粒度的第二特征映射；
35.s14：将所述第一映射特征和所述第二特征映射作为所述主干网络的自下而上层的输入，输出混合的第三特征映射，通过所述第三特征映射进行说话人验证。
36.在本实施方式中，本方法构建了深度说话人嵌入学习的新型加权双向特征金字塔网络，如图2所示，展示了resnet(残差网络)和ecapa-tdnn(emphasized channel attention，propagation and aggregation in tdnn，强调通道注意力、传播和聚合的时延神经网络)主干的完整架构概览，其中，挤压和激励-rse块为se-resblock所翻译。
37.对于步骤s11，bifpn(bi-feature pyramid networks，加权双向特征金字塔网络)的结构是从计算机视觉中的对象检测领域发展而来的。本方法提出的多路径特征金字塔网络，该网络是从bifpn的结构修改而来的，以针对说话人验证任务量身定制。
38.多路径特征金字塔网络的目的是提供一种精确的特征表示，也就是说将待验证语音的作为输入，可以得到特征映射fi每一阶段的特征图，例如，i＝1，
…
，4，得到原始的待验证语音的第一映射特征。
39.对于步骤s12，将上述步骤得到的特征图作为主干网络的横向层的输入，对特征映射fi应用横向卷积运算，如下所示：
40.li＝conv(fi；di)
41.其中conv是具有di个输出通道的卷积运算。为了提高效率，本方法采用深度卷积进行卷积操作。li表示第i个横向卷积输出。从而得到横向层输出的每个阶段的第一映射特征。
42.对于步骤s13，自上而下层由横向输出和先前的自上而下特征提供，这将产生一个新的中间特征映射pi：
[0043][0044][0045]
其中pi代表自上而下路径的第i个阶段。和是可学习的融合权重参数，它们允许网络学习每个输入特征的重要性。本方法将softmax应用于每个权重参数以获得归一化值表示每个输入的重要性。resize是一个运算符，负责处理输入特征之间的尺寸不匹配。采用双线性插值进行上采样，采用最大池化进行下采样，从而得到自上而下路层输出的中间层的细粒度的第二特征映射。
[0046]
对于步骤s14，通过自底向上(自下而上)的路径实现自底向上的特征融合。对于最
浅层，它接收横向输出和自上而下特征作为输入。最深层利用横向输出和先前的自底向上特性作为输入。中间层ti由横向、自上而下和自下而上的特征：
[0047][0048][0049]
其中，ti表示自底向上(自下而上)路径的第i个阶段。类似地，表示自底向上(自下而上)路径的第i个阶段。类似地，和是可学习的融合权重参数。是一个介于0和1之间的标准化值。resize是一个调整大小运算符。
[0050]
对上述步骤来说，本方法首先对主干网络特征图进行横向卷积操，其次自上而下层以横向输出作为输入，生成新的中间层特征图，自下而上层以横向和自上而下层输出作为输入，生成新的复杂融合特征图作为混合的第三特征映射。从所述混合的第三特征映射提取说话人的混合特征；利用所述说话人的混合特征进行说话人验证。通过对复杂融合特征图进行说话人验证，例如从复杂融合特征图中提取复杂的待验证语音特征，与本地存储的待验证语音对应的预存语音的语音特征进行分类比较，从而得到说话人验证结果。
[0051]
通过该实施方式可以看出，可以简单无缝地与现有卷积主干网络进行结合，并且可以大幅度的提升基线网络的性能，从而可以捕捉建模说话人特征中复杂的关系，提高说话人验证的准确性。
[0052]
作为一种实施方式，所述主干网络包括基于resnet的特征增强网络，所述方法包括：
[0053]
将所述特征图作为所述基于resnet的特征增强网络的横向层的输入，输出四个阶段的基于挤压和激励的残差特征作为第一映射特征。
[0054]
在本实施方式中，基于resnet的特征增强网络，本方法所述的加权双向特征金字塔网络的resnet如图2中的(a)所示。左半边是深度说话人嵌入学习的resnet主干。架构细节如图3所示它总共包含四个阶段，每个阶段由多个残差层组成。与原始resnet不同，本方法在resnet的每个瓶颈内的最后一个batchnorm层之后放置了一个se(sequeze and excitation，挤压和激励)块。
[0055]
每个阶段产生一个缩放步长为2的特征图。从四个阶段中选择特征图作为加权双向特征金字塔网络的输入，记为{f1，f2，f3，f4}。图2中(a)中的右半边显示了加权双向特征金字塔网络，包括横向、自顶向下和自底向上路径。横向路径有四个阶段，其输出称为{l1，l2，l3，l4}，也就是第一映射特征，接着可以继续进行自顶向下(自上而下)和自下而上的处理。自顶向下的路径涉及两个阶段，记为{p2，p3}。此外，自下而上的路径有四个阶段，表示为{t1，t2，t3，t4}。交叉路径的计算li、pi、ti上述步骤已经说明，在此不再赘述。
[0056]
作为另一种实施方式，所述主干网络还包括基于强调通道注意力、传播、聚合和时延神经的特征增强网络，所述方法还包括：
[0057]
将所述特征图作为所述基于强调通道注意力、传播、聚合和时延神经的特征增强网络的输入，输出三个阶段的基于挤压和激励的复合残差特征；
[0058]
将所述复合残差特征以及所述待验证语音的一维卷积特征作为第一映射特征。
[0059]
在本实施方式中，对于ecapa-tdnn(基于强调通道注意力、传播、聚合和时延神经网络)，如图1中的(b)所示，在左半边利用ecapa-tdnn主干的前四个阶段，去除多层特征聚合。架构细节如图4所示。要注意的是，根据实验证明，去除残差连接会导致更好的性能。因此，se-res2block(基于挤压和激励的残差块)默认情况下不使用剩余连接。
[0060]
即由一维卷积和三个阶段的基于挤压和激励的复合残差特征组成的四阶段{f1，f2，f3，f4}。其输出被用作多径特征增强网络的输入。类似地，加权双向特征金字塔网络在右半边包括三条路径。每个路径分别输出{l1、l2、l3、l4}、{p2、p3}和{t1、t2、t3、t4}。具体计算li、pi、ti上述步骤已经说明，在此不再赘述。
[0061]
通过该实施方式可以看出，对于主干网络的选择使用了基于resnet的特征增强网络和基于强调通道注意力、传播、聚合和时延神经的特征增强网络。用户可以根据个人使用的场景选择对应的网络。
[0062]
对本方法进行实验说明，本方法的实验是在voxceleb1&2数据集上进行的。采用包含5994名说话人和1092009次话语的voxceleb2开发集作为训练数据。对于测试，使用voxceleb1作为评估数据。三份官方试验清单用于性能测量。此外，还采用了数据扩充技术，使系统更加健壮。利用公共musan数据集和rir数据集在线生成额外的数据样本进行训练。
[0063]
输入特征是40维的fbank。帧长为25ms，帧位移为10ms。在训练期间，从一个话语中随机裁剪一个300帧的块来提取fbank特征。在测试期间，为每个话语提取了一个256维的说话人嵌入。使用余弦距离计算试验分数。随后，自适应分数归一化(as-norm)用于对所有分数进行归一化。为冒名顶替者(假的合成语音)群体的规模设置了600。性能是根据eer(equal error rate，等错误率)和最小检测成本函数(mindcf)来衡量的，设置为p
target
＝0.01和c
fa
＝c
miss
＝1。
[0064]
本方法基于pytorch框架实现了上述说明的模型。所有系统都使用随机梯度下降(sgd)优化器进行训练，动量为0.9，权重衰减为0.0001。由于内存限制，单个gpu上的小批量大小设置为16。训练时期数在145到165之间进行微调。aam(additive angular margin，附加角边距)-softmax的边距为0.2，尺度为32，用于计算训练期间的损失。
[0065]
基线系统和本方法提出的fe(feature enhancement，特征增强)系统的性能如图5所示。实现了基于resnet和基于ecapa-tdnn的特征增强网络。可以明显地观察到，本方法提出的体系结构在参数上仅略微增加的情况下就显著优于基线。特别是，resnet34 fe系统实现了比最先进的ecapa-tdnn(c＝1024)更好的性能，参数大小减少了50％以上，这证明了所提出的多路径特征增强网络的有效性。
[0066]
对于基于resnet的特征增强网络，resnet18和resnet34被实现为基线。功能增强网络中的通道号设置为256。具体而言，在与功能增强模块集成后，resnet18系统的eer和mindcf的平均相对改善率分别为29.5％和23.9％。与resnet34基线相比，resnet34 fe系统的eer和mindcf的平均相对改善率分别为22.4％和18.2％。对于ecapa-tdnn，本方法重新实现了两个模型(c＝256和c＝512)。主干网和特征增强网络中的信道数分别设置为256或512，这将产生四个具有不同信道配置的ecpa-tdnn-fe系统如图5所示。ecapa-tdnnfe系统也实现了对ecapa-tdnn基线的类似改进。
[0067]
本方法将多路径特征增强网络的成功归因于不同层次的说话人信息存在于不同的网络层。神经网络的浅层包含原始说话人信息，而深层则包含更抽象和细粒度的说话人
信息。仅使用最深特征映射提取说话人嵌入是不够的，这将丢失大部分的底层说话人信息。本方法的特征增强网络通过灵活地聚合来自不同层的低层和高层说话人信息，可以产生更健壮和更具辨别力的特征表示。
[0068]
如图6所示，本方法分析了se块在基于resnet的特征增强网络中的效果。对于resnet18-fe和resnet34-fe，可以清楚地看到，如果不使用se块，eer和mindcf会变得更糟。se块具有增加感受野和融合来自不同渠道的信息的能力。通过将se块与resnet集成，有利于为说话人验证任务聚合帧级和全局话语级信息。
[0069]
为了测量残差连接的影响，运行了在基于ecapa-tdnn的特征增强网络中引入残差连接的实验。默认情况下，ecapa-tdnn-fe系统在实验中不使用残差连接。从图7可以看出，当添加残差连接时，四种不同的ecapa-tdnn-fe系统的eer和mindcf分别平均增加了5.7％
–
8.2％和4.1％
–
8.7％。假设它与优化有关。在训练过程中，具有残差连接的基于ecapa-tdnn的特征增强网络可能比没有残差连接的网络更容易进入局部最小值，从而发现更深层次的特征。
[0070]
总的来说，本方法主干网络的横向层、自上而下层、自下而上层的特征增强网络，它可以与一维和二维深度卷积嵌入提取器无缝集成，用于说话人验证任务。在voxceleb数据集上的实验证明了本方法的有效性和效率，它可以在仅稍微增加参数的情况下，对基线进行显著改进。最佳系统在数据集voxceleb-o、voxceleb-e和voxceleb-h上的eer分别比ecapa-tdnn(c＝1024)高0.76％、1.01％和1.89％，参数大小减少了50％以上。
[0071]
如图8所示为本发明一实施例提供的一种说话人验证系统的结构示意图，该系统可执行上述任意实施例所述的说话人验证方法，并配置在终端中。
[0072]
本实施例提供的一种说话人验证系统10包括：特征图确定程序模块11，横向特征输出程序模块12，中间特征输出程序模块13和验证程序模块14。
[0073]
其中，特征图确定程序模块11用于通过加权双向特征金字塔网络对待验证语音处理，得到特征图；横向特征输出程序模块12用于将所述特征图作为主干网络的横向层的输入，输出原始的待验证语音的第一映射特征；中间特征输出程序模块13用于将所述第一映射特征作为所述主干网络的自上而下层的输入，输出中间层的细粒度的第二特征映射；验证程序模块14用于将所述第一映射特征和所述第二特征映射作为所述主干网络的自下而上层的输入，输出混合的第三特征映射，通过所述第三特征映射进行说话人验证。
[0074]
进一步地，所述主干网络包括基于resnet的特征增强网络，所述横向特征输出程序模块用于：
[0075]
将所述特征图作为所述基于resnet的特征增强网络的横向层的输入，输出四个阶段的基于挤压和激励的残差特征作为第一映射特征。
[0076]
进一步地，所述主干网络还包括基于强调通道注意力、传播、聚合和时延神经的特征增强网络，所述横向特征输出程序模块还用于：
[0077]
将所述特征图作为所述基于强调通道注意力、传播、聚合和时延神经的特征增强网络的输入，输出三个阶段的基于挤压和激励的复合残差特征；
[0078]
将所述复合残差特征以及所述待验证语音的一维卷积特征作为第一映射特征。
[0079]
进一步地，所述验证程序模块用于：
[0080]
从所述混合的第三特征映射提取说话人的混合特征；
[0081]
利用所述说话人的混合特征进行说话人验证。
[0082]
本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的说话人验证方法；
[0083]
作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
[0084]
通过加权双向特征金字塔网络对待验证语音处理，得到特征图；
[0085]
将所述特征图作为主干网络的横向层的输入，输出原始的待验证语音的第一映射特征；
[0086]
将所述第一映射特征作为所述主干网络的自上而下层的输入，输出中间层的细粒度的第二特征映射；
[0087]
将所述第一映射特征和所述第二特征映射作为所述主干网络的自下而上层的输入，输出混合的第三特征映射，通过所述第三特征映射进行说话人验证。
[0088]
作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的说话人验证方法。
[0089]
图9是本技术另一实施例提供的说话人验证方法的电子设备的硬件结构示意图，如图9所示，该设备包括：
[0090]
一个或多个处理器910以及存储器920，图9中以一个处理器910为例。说话人验证方法的设备还可以包括：输入装置930和输出装置940。
[0091]
处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。
[0092]
存储器920作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本技术实施例中的说话人验证方法对应的程序指令/模块。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例说话人验证方法。
[0093]
存储器920可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器920可选包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0094]
输入装置930可接收输入的数字或字符信息。输出装置940可包括显示屏等显示设备。
[0095]
所述一个或者多个模块存储在所述存储器920中，当被所述一个或者多个处理器910执行时，执行上述任意方法实施例中的说话人验证方法。
[0096]
上述产品可执行本技术实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术实施例所提供的方法。
[0097]
非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0098]
本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的说话人验证方法的步骤。
[0099]
本技术实施例的电子设备以多种形式存在，包括但不限于：
[0100]
(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
[0101]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。
[0102]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
[0103]
(4)其他具有数据处理功能的电子装置。
[0104]
在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0105]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0106]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0107]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；
而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音合成方法及装置、电子设备和存储介质与流程

说话人验证方法及系统与流程

相关文献

最热文献