用于说话者验证的广义负对数似然损失的制作方法

2022-03-30 10:46:45 来源：中国专利 TAG：

1.根据一个或多个实施例，本技术总体上涉及音频信号处理，并且更特别地，例如，涉及用于训练和/或实现用于说话者验证的音频分析系统的系统和方法。

背景技术：

2.生物测定认证在各种电子系统中用于任务，诸如认证支付交易中的用户和账户信息、限制对个人电子设备的访问、以及控制对一个或多个物理位置的访问。生物测定方面的改进已经允许在使用诸如指纹标识、面部识别、虹膜扫描、和语音识别之类的技术的个人设备（例如，移动电话、可穿戴设备、智能扬声器）中更多地采用生物测定认证。然而，诸如硬件和处理限制以及其中可以使用这些设备的广泛的各种用例和环境之类的因素可能使得安全且可靠的生物测定认证具有挑战性。
3.随着诸如智能扬声器之类的语音交互设备的激增和免提语音控制应用的普及，对语音认证的需求正在增加。与诸如指纹匹配或虹膜扫描之类的其他生物测定技术相比，语音生物测定认证系统具有相对高的错误接受率（far）和错误拒绝率（frr）。语音交互设备可以用于进一步降低语音生物测定认证的可靠性和安全性的各种环境中。在受控的安静环境中，语音生物测定的可靠性可以达到可接受的水平，但是当语音控制设备在嘈杂环境中操作时，可靠性下降。在许多场景中，添加昂贵的硬件或阻碍免提、语音控制应用的用户体验的解决方案是不期望的。因此，当在嘈杂的环境中与移动设备一起使用时和/或与需要高水平的安全性和可靠性的应用一起使用时，语音认证仍然具有挑战性。
4.鉴于前述内容，本领域中存在对于当在各种设备、应用和环境中使用时安全且可靠的改进的语音生物测定系统和方法的持续需要。

技术实现要素：

5.本公开涉及用于说话者验证的系统和方法，包括结合广义负对数似然损失（gnll）函数的改进的训练系统和方法。在各种实施例中，gnll函数用于有效的训练过程中，以相对于常规方法改进说话者验证模型的训练。所公开的实施例可以用于改进文本相关或文本无关的语音生物测定解决方案的性能，并且还可以应用于面部标识和其他生物测定模态以改进鲁棒性。本公开提供了一种鲁棒的解决方案，其适合于诸如平板电脑、移动电话、膝上型计算机等之类的各种设备，从而在真实环境中提供具有改进的对噪声的鲁棒性和改进的far和frr性能的语音生物测定。
6.在各种实施例中，一种方法包括：接收音频样本的训练批，所述音频样本的训练批包括多个说话者中的每个的多个表达（例如，第一数量的说话者和每个说话者的第二数量的表达）；从音频样本提取特征以生成一批特征；使用神经网络处理所述一批特征以生成多个嵌入向量，所述多个嵌入向量被配置为按说话者来区分音频样本；至少部分地基于嵌入向量来计算训练批的广义负对数似然损失（gnll）值；以及修改神经网络的权重以减小gnll值。计算gnll可以包括至少部分地基于嵌入向量为多个说话者中的每个生成质心向量。修
改神经网络的权重以减小gnll值可以包括使用反向传播来优化神经网络。
7.该方法还可以包括注册过程，该注册过程包括接收包括与已知用户相关联的话音的注册音频信号，标识注册音频信号中的话音段，从话音段提取用户特征，将提取的用户特征输入到神经网络以生成多个用户嵌入向量，以及存储根据用户嵌入向量计算的质心向量和用户标识符。
8.该方法还可以包括说话者认证过程，该说话者认证过程包括接收包括来自目标说话者的话音的目标音频信号，从目标音频信号提取目标特征，通过神经网络处理目标特征以生成至少一个目标嵌入向量，以及通过将目标嵌入向量和与用户标识符相关联的存储的质心向量进行比较来确定目标说话者是否与用户标识符相关联。在一些实施例中，确定目标说话者是否与用户标识符相关联包括计算测量目标嵌入向量与存储的质心向量之间的相似性的置信度分数。计算置信度分数可以包括计算目标嵌入向量和质心向量的内积并应用σ（sigmoid）函数。在一些实施例中，确定目标说话者是否与用户标识符相关联还包括存储多个用户标识符和对应的质心向量，其中多个用户标识符中的每个与不同的说话者相关联，以及部分地基于目标嵌入向量来自与对应的质心向量相同的说话者的可能性来计算多个用户标识符中的每个的置信度分数。
9.在各种实施例中，该方法还包括将附加余量并入到嵌入向量中，附加余量被配置为分离嵌入向量中的说话者类的嵌入。嵌入向量可以是单位向量。
10.在一些实施例中，一种系统包括逻辑设备，所述逻辑设备被配置为使用广义负对数似然损失（gnll）函数来训练神经网络，所述逻辑设备被配置为执行逻辑，所述逻辑包括：接收音频样本的训练批，所述音频样本的训练批包括多个说话者中的每个的多个表达（例如，第一数量的说话者和每个说话者的第二数量的音频样本）；从音频样本提取特征以生成一批特征；使用神经网络处理所述一批特征以生成嵌入向量，所述嵌入向量被配置为按说话者来区分音频样本；至少部分地基于嵌入向量来计算训练批的广义负对数似然损失（gnll）值；以及修改神经网络的权重以减小gnll值。计算gnll还可以包括至少部分地基于嵌入向量为多个说话者中的每个生成质心向量。在一些实施例中，修改神经网络的权重以减小gnll值包括使用反向传播来优化神经网络。
11.在一些实施例中，一种系统包括存储部件和逻辑设备，所述逻辑设备被配置为通过执行包括执行注册过程的逻辑来验证说话者的身份。注册过程可以包括接收包括与已知用户相关联的话音的注册音频信号，标识注册音频信号中的话音段，从话音段提取用户特征，通过神经网络处理提取的用户特征，以生成多个用户嵌入向量，以及存储根据用户嵌入向量计算的质心向量和用户标识符。
12.在一些实施例中，逻辑设备还被配置为执行包括执行说话者认证过程的逻辑，该说话者认证过程包括接收包括来自目标说话者的话音的目标音频信号，从目标音频信号提取目标特征，通过神经网络处理目标特征以生成至少一个目标嵌入向量，以及通过将目标嵌入向量和与用户标识符相关联的存储的质心向量进行比较来确定目标说话者是否与用户标识符相关联。在一些实施例中，确定目标说话者是否与用户标识符相关联包括通过计算目标嵌入向量和质心向量的内积并应用σ函数来计算测量目标嵌入向量和存储的质心向量之间的相似性的置信度分数。在一些实施例中，确定目标说话者是否与用户标识符相关联还包括存储多个用户标识符和对应的质心向量，其中多个用户标识符中的每个与唯一说
话者相关联，以及部分地基于目标嵌入向量来自与对应的质心向量相同的说话者的可能性来计算多个用户标识符中的每个的置信度分数。
13.本公开的范围由权利要求限定，权利要求通过引用并入本部分中。通过考虑一个或多个实施例的以下详细描述，将向本领域技术人员提供对本公开的更完整的理解，以及其附加优点的实现。将参考将首先简要描述的附图的附页。
附图说明
14.参考以下附图和下面的详细描述，可以更好地理解本公开的方面及其优点。应当理解，相同的参考标号用于标识在一个或多个附图中图示的相同元件，其中在附图中的示出是出于说明本公开的实施例的目的，而不是出于限制本公开的实施例的目的。附图中的部件不一定是按比例的，而是将重点放在清楚地说明本公开的原理上。
15.图1图示了根据本公开的一个或多个实施例的用于生成嵌入向量的示例神经网络过程。
16.图2图示了根据本公开的一个或多个实施例的示例说话者验证过程。
17.图3a和3b是图示根据本公开的一个或多个实施例的具有和不具有附加余量的嵌入向量的示例绘图。
18.图4a图示了根据本公开的一个或多个实施例的用于说话者验证系统的示例训练过程。
19.图4b图示了根据本公开的一个或多个实施例的示例说话者注册过程。
20.图4c图示了根据本公开的一个或多个实施例的示例说话者验证过程。
21.图5图示了根据本公开的一个或多个实施例的示例神经网络。
22.图6图示了根据本公开的一个或多个实施例的示例语音生物测定系统。
具体实施方式
23.本公开涉及用于说话者验证的系统和方法，包括结合广义负对数似然损失（gnll）函数的改进的训练系统和方法。说话者验证（sv）通常包括基于说话者的已知表达（utterance）（例如，登陆或注册表达）来验证表达是否属于特定人的过程。两种类型的说话者验证是文本相关说话者验证和文本无关说话者验证。文本相关说话者验证要求说话者说出特定短语，然后将该特定短语与在注册过程期间记录的短语的先前发声进行比较。文本无关说话者验证包括通过不依赖于通过特定短语的说话者的先前记录的表达的过程来标识说话者的声波纹。
24.在各种实施例中，在有效的训练过程中使用gnll函数以相对于常规方法改进说话者验证模型的训练。gnll训练基于处理一批数据中的多个表达，所述一批数据可以包括n个不同的说话者、以及每个说话者的m个表达样本。在一批中的所有表达上对损失进行平均。所公开的实施例可以用于改进文本相关或文本无关的语音生物测定解决方案的性能，以用于面部标识和其他生物测定解决方案以改进鲁棒性。使用gnll训练的神经网络可以在诸如平板电脑、移动电话、膝上型计算机等之类的各种设备上实现，以供在语音生物测定中使用，以在真实环境中改进其对噪声的鲁棒性并改进fa/frr性能。
25.参考图1，现在将描述根据一个或多个实施例的示例神经网络过程。过程100包括
接收音频输入样本110，其表示由说话者发出的检测到的关键字。在一些实施例中，系统包括感测声音并将声音转换为电信号的一个或多个麦克风。通过音频输入电路和一个或多个数字音频处理系统来处理所接收的音频信号，所述一个或多个数字音频处理系统可以包括语音活动检测器（vad），所述语音活动检测器（vad）被配置为标识所接收的音频信号中的话音段、降噪、回声消除、去混响、空间处理、和/或其他音频处理。在一些实施例中，数字音频处理系统在处理音频输入样本110以输入到过程100之前进一步标识关键字或短语。
26.音频输入样本110被馈送到神经网络120。在各种实施例中，在输入到神经网络120之前，从固定长度帧中的音频信号导出输入话音样本，所述固定长度帧被预处理以用于特征提取（例如，传递音频信号通过有限脉冲响应滤波器，将音频信号划分成帧，应用回声和噪声消除/抑制等）。
27.神经网络120可以包括长短期记忆（lstm）网络，其包括输入层122、lstm隐藏层（例如，lstm层124a、124b、和124c）、和输出层126。神经网络120是可以与本文中公开的改进一起使用的神经网络的示例，并且可以使用其他类型的神经网络和配置，诸如卷积神经网络（cnn）、基于注意力的网络、配置有不同数量的隐藏层的网络等。用于音频输入样本110的神经网络120的输出是嵌入向量130，其可以表示d维空间（例如，d=128的固定长度）中的输入数据。嵌入向量（ek）表示输入数据的第k个样本的固定长度。
28.参考图2，将根据一个或多个实施例更详细地讨论训练过程。过程200接收训练数据的输入批210作为包括数据表达的一系列音频样本，其通过特征提取过程220运行以生成用于说话者标识的一批特征230。输入批210具有n
×
m个表达，其中n是说话者的数量，以及m是每个说话者的表达的数量。输入批210用于提取每个说话者（例如，spk1、spk2和spk3）的该批特征230。在一些系统中，该批可以填充有来自干净和/或目标环境中的已知说话者的记录的表达、以合成方法生成的音频样本、和/或其他音频训练数据。
29.在各种实施例中，所提取的特征可以包括通过修改的群延迟函数、基于频谱斜率的分析、短时傅里叶变换分析、倒频谱分析、复倒频谱分析、线性预测系数、线性预测倒频谱系数、线性预测倒频谱系数、梅尔频率倒频谱系数、离散小波变换、感知线性预测、梅尔尺度离散小波分析、和/或能够从音频输入数据生成特征以在多个说话者之间进行区分的其他音频特征分析中的一个或多个导出的特征。在各种实施例中也可以使用其他音频特征提取方法（例如，与话音识别、噪声、音乐等相关的特征）以从音频样本中提取如与特定实现方式相关的附加信息。
30.在所图示的实施例中，每批数据或特征具有n=3个说话者，并且每个说话者具有m=3个样本（例如，图2中标识的每个说话者的3个样本）。这批特征230被馈送到神经网络240（例如，lstm网络），以便获得每个数据样本的嵌入向量250。第j个说话者的第i个样本的嵌入向量由e
ji
表示。每个类（ck）的嵌入向量（e
ji
）和计算的质心向量（例如，由相似性矩阵260表示）用于计算数据的输入批的置信度分数和/或相似性度量。如所图示，每个类ck表示对应的说话者，诸如类c1中的嵌入向量262、类c2中的嵌入向量264、和类c3中的嵌入向量266。在一些实施例中，通过对嵌入向量求平均来获得每个说话者spkn的质心，并且假设每个样本的嵌入向量具有单位范数。应当理解，在其他实施例中，可以使用不同数量的说话者和/或样本，并且可以使用其他已知的统计方法获得每个说话者的质心。
31.质心向量针对每个说话者id被存储在存储器或数据库中，并然后计算任何说话者
的任何新样本与质心之间的相似性。在一个实施例中，通过使用向量的内积（后面是σ函数）来计算置信度分数。如下计算置信度分数以确定第j个说话者的第i个样本是否属于第k个说话者：质心置信度分数值w（权重）和b（偏差）是可以在训练期间学习的标量。符号表示两个向量的点积。值和是固定的超参数值，并且在训练期间不被学习。值是期（epoch）或迭代次数。
32.用于计算类间相似性的置信度分数与类内的分数相比具有附加项。这是附加的余量，其被引入以迫使类间的嵌入至少在该余量的情况下彼此远离。此外，余量将以指数方式增加直到最终值。
33.如图3a和3b中所图示，添加用于类间的该附加余量的效果将导致弧空间中的嵌入向量350（因为嵌入向量被假设为单位范数）具有额外的余量。如与右侧的绘图相比，左侧的绘图示出了当不添加附加余量时的嵌入向量300，右侧的绘图示出了当添加附加余量时的嵌入向量350，如置信度分数方程中所指示的那样。换句话说，当附加余量被并入置信度分数方程中时，最近的类之间的测地距间隙变得明显。
34.在实践中，为了计算，将使用除第i个样本之外的第j个说话者的所有样本来重新计算质心cj。然后如下计算每批数据的总损失：其中和是在训练期间调整的两个超参数。
35.在训练之后，存储每个说话者的质心以用于说话者标识。将使用质心和嵌入向量来计算来自任何说话者的每个新样本的置信度分数，并且所述分数将与预定义阈值进行比较以决定说话者是否属于特定用户id。所提出的系统的性能可以通过引入另一概率分类器（诸如概率线性判别分析（plda）分类器）来进一步改进，该概率分类器将被应用于学习的嵌入向量。
36.所提出的系统旨在用于语音id解决方案，其中说话者的语音用于验证说话者的身份。该系统可以用于文本相关和文本无关语音id两者。所提出的系统可以用于在说话者被
请求发特定关键字（在文本相关语音id中）的音或者其被要求说出任何密码短语或话音内容并且id将被验证时验证说话者的id。此外，所提出的解决方案可以用于改进其他认证问题，诸如面部id或其他生物测定标识。类似于语音id，人的面部的一些照片将用于注册，并且然后用户的id将使用其面部来验证。
37.参考图4a，将描述根据本公开的一个或多个实施例的用于训练用于说话者标识的神经网络的示例过程。如先前所讨论的，示例训练过程400使用广义负对数似然损失方法来训练用于说话者验证的神经网络。在步骤402中，训练系统接收包括来自多个说话者的多个表达的一批训练数据（例如，n个说话者和每个说话者的m个表达）。在步骤404中，训练系统从训练批中的每个数据样本提取特征以产生一批特征。在步骤406中，将该批训练特征输入到神经网络以生成每个样本的嵌入向量。在步骤408中，使用广义负对数似然损失函数为每个说话者计算来自训练批的总损失。在步骤410中，通过反向传播过程来调整神经网络的权重以最小化所计算的损失（例如，通过计算损失函数相对于权重的梯度）。然后，训练过程400继续下一训练批。
38.在训练之后，神经网络可以用于说话者标识。参考图4b，将描述根据一个或多个实施例的示例说话者注册过程450。说话者注册过程450开始于系统和/或设备的注册过程452。在一些实施例中，用户设备被配置有至少一个麦克风、用于存储用户数据和用于说话者标识的经训练的神经网络的存储部件、以及被配置为执行说话者注册过程450的步骤的计算系统。注册过程记录来自已知用户的话音，可以使用说话者id向系统标识该已知用户。在步骤454中，系统从记录的话音段提取特征。该过程可以包括语音标识、用于标识一个或多个表达的话音处理、成帧、和/或用于准备记录的音频以输入到经训练的神经网络的其他步骤。在步骤456中，将特征输入到经训练的神经网络以生成每个表达的嵌入向量。在步骤458中，计算说话者的质心并将其与说话者标识符一起存储。系统现在可以用于说话者标识。
39.参考图4c，将描述根据一个或多个实施例的用于验证说话者的示例过程470。可以例如通过发起说话者验证接口并提示用户对一个或多个麦克风说话来进行说话者标识确定（步骤472）。在步骤474中，处理从麦克风接收的音频信号以抑制噪声、消除回声、标识话音段、增强话音目标、和/或以其他方式准备音频信号以输入到针对话音验证训练的神经网络。在步骤476中，系统从记录的话音段提取特征，并将特征输入到经训练的神经网络以生成嵌入向量。在步骤478中，系统计算一个或多个存储的说话者id质心和用户嵌入向量的置信度分数，并且在步骤480中，将置信度分数与阈值进行比较以决定说话者是否属于特定id。例如，如果说话者id的置信度分数大于预定阈值，则用户可被标识为具有特定说话者id的说话者。
40.参考图5，现在将描述根据一个或多个实施例的可以用于生成供说话者标识使用的经训练的人工智能训练模型的示例神经网络和训练过程。神经网络500可以被实现为被配置为接收输入数据样本并生成如本文中所教导的对应嵌入向量的任何神经网络，诸如递归神经网络、卷积神经网络（cnn）等。
41.使用将输入数据与基准真相（ground truth）（例如，预期网络输出）进行比较的监督学习过程来训练神经网络500。对于说话者验证系统而言，训练数据集502可以包括标记有对应的说话者id的样本话音输入（例如，音频样本）。如本文中所述，话音输入包括一批话
音样本，诸如多个说话者中的每个说话者的多个话音样本，其被提供给特征提取过程504以生成用于输入到神经网络500的一批特征。将输入批与神经网络500的输出进行比较，并且将所生成的输出数据与基准真相输出数据之间的差异反馈回到神经网络500中以对各种可训练权重和偏差进行校正。如所图示，如本文中所述，神经网络500的输出包括嵌入向量532，并且使用gnll过程540计算损失。使用反向传播技术（例如，使用随机梯度下降算法或类似算法）将损失542反馈回到神经网络500中。在一些示例中，训练数据组合可以被多次呈现给神经网络500，直到总体gnll损失函数收敛到可接受的水平为止。
42.在一些示例中，输入层510、隐藏层520、和/或输出层530中的每个包括一个或多个神经元，其中每个神经元应用其输入x的组合（例如，使用可训练加权矩阵w的加权和），添加可选的可训练偏差b，并应用激活函数f以生成输出a，如等式中所示。在一些示例中，激活函数f可以是线性激活函数、具有上限和/或下限的激活函数、对数-σ（log-sigmoid）函数、双曲正切函数、修正线性单位函数、和/或类似物。在一些示例中，每个神经元可以具有相同或不同的激活函数。
43.在训练之后，神经网络500可以在远程设备的运行时间环境中实现，以接收话音表达并生成相关联的嵌入向量以用于相对于质心向量的比较。应当理解，神经网络500的架构仅是代表性的，并且其他架构是可能的，包括仅具有一个或若干个隐藏层的神经网络、每层具有不同数量的神经元的神经网络、具有不同类型的隐藏层（诸如卷积层和注意力层）的神经网络、和/或类似物。
44.在其他实施例中，训练数据集可以包括与一种或多种类型的传感器相关联的捕获的传感器数据，诸如话音表达、可见光图像、指纹数据、和/或其他类型的生物测定信息。训练数据集可以包括用于面部标识系统的用户的面部的图像、用于指纹标识系统的指纹图像、用于视网膜标识系统的视网膜图像、和/或用于训练另一种类型的生物测定标识系统的数据集。
45.图6图示了根据本公开的一个或多个实施例的被配置为实现用于说话者验证的广义负对数似然损失的示例系统600。然而，可能不需要示例系统600中的所有描绘的部件，并且一个或多个实施例可以包括图中未示出的附加部件。在不脱离本公开的范围的情况下，可以对部件的布置和类型进行变化，包括附加部件、使部件不同、和/或使部件更少。
46.系统600包括认证设备620，认证设备620包括处理部件630、音频输入处理部件640、用户输入/输出部件646、通信部件648、和存储器650。在一些实施例中，可以包括其他传感器和部件645以促进附加的生物测定认证模态，诸如指纹识别、面部识别、虹膜识别等。认证设备620的各种部件可以通过总线或其他电子通信接口进行接合和通信。
47.认证设备620例如可以在通用计算设备上实现为片上系统、集成电路、或其他处理系统，并且可以被配置为作为电子系统610的部分操作。在一些实施例中，电子系统610可以是或可以耦合到移动电话、平板电脑、膝上型计算机、台式计算机、汽车、个人数字助理（pda）、电视、语音交互设备（例如，智能扬声器、会议扬声器系统等）、网络或系统接入点、和/或被配置为接收用于认证和/或标识的用户语音输入的设备的其他系统。
48.处理部件630可以包括处理器、控制器、逻辑设备、微处理器、单核处理器、多核处理器、微控制器、可编程逻辑设备（pld）（例如，现场可编程门阵列（fpga））、数字信号处理（dsp）设备、专用集成电路、或可以通过硬连线、执行软件指令、或两者的组合来配置以执行
本文中讨论的用于音频源增强的各种操作的（一个或多个）其他设备中的一个或多个。在所图示的实施例中，处理部件630包括中央处理单元（cpu）632、被配置为实现用于执行机器学习算法的逻辑的神经处理单元（npu）634、和/或图形处理单元（gpu）636。处理部件630被配置为执行存储在存储器650和/或其他存储器部件中的指令。处理部件630可以执行认证设备620和/或电子系统610的操作，包括本文中在图1-5中公开的过程和/或计算中的一个或多个。
49.存储器650可以被实现为被配置为存储数据的一个或多个存储器设备或部件，所述数据包括音频数据、用户数据、经训练的神经网络、认证数据、和程序指令。存储器650可以包括一种或多种类型的存储器设备，包括易失性和非易失性存储器设备，诸如随机存取存储器（ram）、只读存储器（rom）、电可擦除可编程只读存储器（eeprom）、闪存、硬盘驱动器、和/或其他类型的存储器。
50.音频输入处理部件640包括用于接收音频输入信号的电路和数字逻辑部件，所述音频输入信号诸如来自一个或多个用户644的由音频传感器（诸如一个或多个麦克风642）感测的话音。在各种实施例中，音频输入处理部件640被配置为处理从多个麦克风（诸如麦克风阵列）接收的多通道输入音频流，并且生成包括来自用户644的话音的增强的目标音频信号。
51.通信部件648被配置为促进认证设备620与电子系统610和/或一个或多个网络与外部设备之间的通信。例如，通信部件648可以实现电子系统610与一个或多个本地设备之间的wi-fi（例如，ieee 802.11）或蓝牙连接，或者实现到无线路由器的连接，以经由网络680提供对外部计算系统的网络访问。在各种实施例中，通信部件648可以包括有线和/或其他无线通信部件，以用于促进认证设备620和/或其他设备与部件之间的直接或间接通信。
52.取决于特定实现方式，认证设备620可进一步包括其他传感器和部件645。其他传感器部件645可以包括其他生物测定输入传感器（例如，指纹传感器、视网膜扫描仪、用于面部识别的视频或图像捕获等），并且用户输入/输出部件646可以包括i/o部件，诸如触摸屏、触摸板显示器、小键盘、一个或多个按钮、拨盘、或旋钮、扩音器和/或可操作以使用户能够与电子系统610交互的其他部件。
53.存储器650包括被配置为促进根据本文中公开的一个或多个实施例的说话者验证、和/或执行认证设备620和/或电子系统610的其他功能的程序逻辑和数据。存储器650包括用于指示处理部件630对通过音频输入处理部件640接收的音频输入信号执行语音处理652（包括话音识别654）的程序逻辑。在各种实施例中，语音处理652逻辑被配置为标识包括用于说话者验证处理的一个或多个口头表达的音频样本。
54.存储器650还包括用于实现用户验证控件662的程序逻辑，其可以包括用于验证用户644的安全协议（例如，以证实用户的身份来进行安全交易，以标识对电子系统610的数据或程序的访问权限等）。在一些实施例中，用户验证控件662包括用于注册和/或登记过程的程序逻辑，以标识用户和/或获得用户声纹信息，其可以包括唯一用户标识符和一个或多个嵌入向量。存储器650还可以包括用于指示处理部件630执行如本文中关于图1-5所述的语音认证过程664的程序逻辑，其可以包括使用广义负对数似然损失过程被训练用于说话者验证的神经网络、用于从输入音频样本提取特征的特征提取部件、用于标识嵌入向量并生成质心或其他向量以及供说话者标识使用的置信度分数的过程。
55.存储器650还可以包括其他生物测定认证过程666，其可以包括面部识别、指纹标识、视网膜扫描、和/或用于特定实现方式的其他生物测定处理。其他生物测定认证过程666可包括特征提取过程、一或多个神经网络、统计分析模块、和/或其他过程。在一些实施例中，用户验证控件662可以处理来自语音认证过程664和/或一个或多个其他生物测定认证过程666的置信度分数或其他信息，以生成说话者标识确定。在一些实施例中，其他生物测定认证过程666包括通过使用如本文中所述的一批生物测定输入数据和gnll函数的过程训练的神经网络。
56.存储器650还包括用于存储包括用户标识符658和对应的向量660（诸如用户质心和/或嵌入向量）的程序和其他数据的数据存储设备656。在一些实施例中，数据包括系统的登记的用户的信息，其可以例如在注册或登记过程期间、在系统的使用期间、或其中来自已知说话者的话音由麦克风接收的其他过程中获取。每个音频样本与对应的说话者标识符相关联，以将说话者链接到用户简档或由系统维护的其他用户信息。
57.在各种实施例中，认证设备620可以跨网络680与一个或多个服务器通信地操作。例如，神经网络服务器690包括被配置为训练神经网络的处理部件和程序逻辑（例如，神经网络训练模块692），以供如本文中图1-5中所述的说话者验证使用。在一些实施例中，数据库694存储训练数据696，包括供训练一个或多个神经网络模型使用的训练数据集和验证数据集。经训练的神经网络698也可以存储在数据库694中，以用于下载到一个或多个运行时间环境，以供语音认证过程664使用。还可以将经训练的神经网络698提供给一个或多个验证服务器682，验证服务器682提供云或其他联网的说话者标识服务。例如，验证服务器682可以从认证设备620接收生物测定数据，诸如语音数据或其他生物测定数据，并且将数据上传到验证服务器682以用于进一步处理。上传的数据可以包括接收的音频样本、提取的特征、嵌入向量、和/或其他数据。验证服务器682通过包括根据本公开训练的一个或多个神经网络（例如，存储在数据库686中的经训练的神经网络688）的生物测定认证过程684、以及系统和/或用户数据689，以将样本与已知认证因素和/或用户标识符进行比较，以确定用户644是否已被验证。在各种实施例中，验证服务器682可以被实现为提供对金融服务或交易的认证、对云或其他在线系统的访问、供在电子系统610中使用的云或网络认证服务等。
58.在可适用的情况下，由本公开提供的各种实施例可以使用硬件、软件、或硬件和软件的组合来实现。此外，在可适用的情况下，本文中阐述的各种硬件部件和/或软件部件可以组合成包括软件、硬件、和/或两者的复合部件，而不脱离本公开的范围。在可适用的情况下，本文中阐述的各种硬件部件和/或软件部件可以被分成包括软件、硬件、或两者的子部件，而不脱离本公开的范围。另外，在可适用的情况下，预期软件部件可以被实现为硬件部件，以及反之亦然。
59.根据本公开，诸如程序代码和/或数据之类的软件可以存储在一个或多个计算机可读介质上。还预期的是，本文中所标识的软件可以使用联网和/或以其他方式的一个或多个通用或专用计算机和/或计算机系统来实现。在可适用的情况下，本文中所述的各种步骤的排序可以被改变、组合成复合步骤、和/或分成子步骤以提供本文中所述的特征。
60.前述公开不旨在将本公开限制于所公开的精确形式或特定使用领域。因此，预期根据本公开，对本公开的各种替代实施例和/或修改（无论在本文中是明确描述还是暗示）都是可能的。已经如此描述了本公开的实施例，本领域普通技术人员将认识到，在不脱离本
公开的范围的情况下，可以在形式和细节方面进行改变。因此，本公开仅受权利要求限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：实时语音去混响的混合方法及系统与流程

用于说话者验证的广义负对数似然损失的制作方法

相关文献

最热文献