一种语音验证处理的方法以及相关装置与流程

2022-06-22 19:05:11 来源：中国专利 TAG：

1.本技术实施例涉及音频识别处理技术领域，具体涉及一种语音验证处理的方法以及相关装置。

背景技术：

2.在目标对象的身份识别或者验证等场景中，通常需要对不同对象的声音进行验证，进而根据声纹识别的结果来判断验证是否成功。
3.在相关方案中，大都是在终端设备中采用离线声纹识别的方式，通过对音频特征进行简单的匹配来实现对象的声音的识别。然而，终端设备易受到硬件资源的限制，使得简单的音频特征匹配的识别方式会导致说明对象的识别准确度较低，进而导致用户体验欠佳。

技术实现要素：

4.本技术实施例提供了一种语音验证处理的方法以及相关装置，能够有效地提高与待验证语音对应的说话对象的识别准确度，提升用户体验程度；并且将声纹验证处理的过程部署在声纹验证服务器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。
5.第一方面，本技术实施例提供了一种语音验证处理的方法。该方法可以应用于声纹验证服务器。该方法包括：获取终端设备发送的待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备；通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量；计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象；从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度；在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码，验证通过消息用于指示待验证语音验证成功。
6.第二方面，本技术实施例提供了另一种语音验证处理的方法。该方法应用于终端设备。该方法包括：获取与目标对象对应的待验证语音；向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，待验证信息用于声纹验证服务器对待验证语音进行验证处理，对象标识码用于标识目标对象，设备标识码用于标识录入待验证语音时的终端设备；接收声纹验证服务器发送的验证通过消息，其中，验证通过消息由声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时发送，目标声纹相似度由待验证语音所对应的声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定得到，验证通过消息包括对象标识码；基于验证通过消息确定待验证语音验证成功。
7.第三方面，本技术实施例提供一种声纹验证服务器。该声纹验证服务器包括：获取单元、处理单元以及发送单元。其中，获取单元，用于获取终端设备发送的待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备。处理单元用于：通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量；计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象；从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度。发送单元用于在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码，验证通过消息用于指示待验证语音验证成功。
8.在一些可选的实施方式中，获取单元还用于获取更新后的模型版本号。处理单元还用于基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量。
9.在一些可选的实施方式中，处理单元还用于：将设备标识码、对象标识码以及更新后的模型版本号进行绑定处理，得到第一绑定关系，并存储第一绑定关系。
10.在一些可选的实施方式中，验证通过消息包括目标声纹特征向量，目标声纹特征向量与目标声纹相似度对应，目标声纹特征向量用于指示终端设备获取目标对象输入的其他语音命令。
11.在一些可选的实施方式中，发送单元还用于：在目标声纹相似度小于预设相似阈值时，则向终端设备发送验证失败消息，验证失败消息用于提示待验证语音验证失败。
12.在一些可选的实施方式中，处理单元用于：从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定最大值的声纹相似度；将最大值的声纹相似度作为目标声纹相似度。
13.第四方面，本技术实施例提供了一种终端设备。该终端设备可以包括获取单元、处理单元以及发送单元。其中，获取单元用于获取与目标对象对应的待验证语音。发送单元用于向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，待验证信息用于声纹验证服务器对待验证语音进行验证处理，对象标识码用于标识目标对象，设备标识码用于标识录入待验证语音时的终端设备。获取单元用于接收声纹验证服务器发送的验证通过消息，其中，验证通过消息由声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时发送，目标声纹相似度由待验证语音所对应的声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定得到，验证通过消息包括对象标识码。处理单元用于基于验证通过消息确定待验证语音验证成功。
14.在一些可选的实施方式中，验证通过消息包括目标声纹特征向量，目标声纹特征向量与目标声纹相似度对应。获取单元还用于基于目标声纹特征向量获取目标对象输入的其他语音命令。
15.在一些可选的实施方式中，获取单元还用于接收声纹验证服务器发送的验证失败消息，其中，验证失败消息由声纹验证服务器在目标声纹相似度小于预设相似阈值时发送。处理单元还用于基于验证失败消息确定待验证语音验证失败。
16.本技术实施例第五方面提供了一种语音验证处理装置，该语音验证处理装置可以包括但不限于上述第三方面中的声纹验证服务器，第四方面中的终端设备等。该语音验证处理装置包括：存储器、输入/输出(i/o)接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令，以执行上述第一方面的实施方式对应的语音验证处理的方法；或者执行上述第二方面的实施方式对应的语音验证处理的方法。
17.本技术实施例第六方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以执行上述第一方面的实施方式对应的方法；或者执行上述第二方面的实施方式对应的语音验证处理的方法。
18.本技术实施例第七方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述以执行上述第一方面的实施方式对应的方法；或者执行上述第二方面的实施方式对应的语音验证处理的方法。
19.从以上技术方案可以看出，本技术实施例具有以下优点：
20.本技术实施例中，由于对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备，因此声纹验证服务器获取终端设备发送的包括有待验证语音、对象标识码以及设备标识码的待验证信息。然后，声纹验证服务器通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量，并计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量。这样，声纹验证服务器可以从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度，并在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息用于指示待验证语音验证成功。换句话说，通过声纹验证服务器调用预设模型版本号的神经网络模型对待验证语音进行相应的声纹特征向量的提取，并基于声纹特征向量与候选声纹特征向量之间的目标声纹相似度是否大于或等于预设相似阈值来验证该待验证语音，而不是简单地在终端设备中依赖于音频特征的匹配来识别验证该待验证语音，能够有效地提高与该待验证语音对应的说话对象的识别准确度，提升用户体验程度。另外，将声纹验证处理的过程部署在声纹验证服务器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。
附图说明
21.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1示出了本技术实施例提供的系统架构的示意图；
23.图2示出了本技术实施例提供的语音验证处理的方法的一种流程图；
24.图3示出了本技术实施例提供的语音验证处理的方法的另一种流程图；
25.图4示出了本技术实施例中提供的声纹验证服务器的一个结构示意图；
26.图5示出了本技术实施例中提供的终端设备的一个结构示意图；
27.图6是本技术实施例提供的语音验证处理装置的一种结构示意图。
具体实施方式
28.本技术实施例提供了一种语音验证处理的方法以及相关装置，能够有效地提高与待验证语音对应的说话对象的识别准确度，提升用户体验程度；并且将声纹验证处理的过程部署在声纹验证服务器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。
29.可以理解的是，在本技术的具体实施方式中，涉及到用户信息等相关的数据，当本技术以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
30.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
31.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
32.随着人工智能(artificial intelligence,ai)技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
33.说话对象识别系统是一种能够通过音频或者语音等，识别出对应的说话对象的系统，大都是建立在人工智能的基础上。
34.本技术实施例提供了一种语音验证处理的方法。本技术实施例提供的语音验证处理的方法是基于人工智能实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
35.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。
36.在本技术实施例中，主要涉及的人工智能技术包括上述所提及的语音技术、机器学习(machine learning，ml)等方向。例如，可以涉及语音技术中的声纹识别等；也可以涉及机器学习中的深度学习(deep learning)等神经网络。
37.本技术提供的语音验证处理的方法可以应用于具有数据处理能力的语音验证处理装置，如终端设备、服务器、问答机器人等。其中，所提及的终端设备可以包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表、可穿戴智能设备、智能语音交互设备、智能家电、飞行器等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器等，本技术不做具体限定。另外，所提及的终端设备以及服务器可以通过有线通信或无线通信等方式进行直接连接或间接连接，本技术不做具体限定。
38.上述所提及的语音验证处理装置可以具备实施语音处理的能力。所提及的语音处理可以通过人工智能领域中的语音技术来实现。所提及的语音技术的关键技术有自动语音识别技术(automatic speech recognition，asr)和语音合成技术(text to speech，tts)以及声纹识别技术。语音技术让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音称为未来最被看好的人机交互方式之一。在本技术实施例中，语音验证处理装置可以通过语音技术中的声纹识别等技术对目标对象说出的待验证语音进行声纹验证。
39.另外，该语音验证处理装置还可以具备机器学习能力。机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括神经网络等技术。
40.在本技术实施例提供的语音验证处理的方法中的采用人工智能模型，主要涉及对神经网络的应用，通过神经网络实现对待验证语音进行声纹特征向量的提取等处理。
41.为了便于理解本技术的技术方案，下面结合系统架构，以终端设备与声纹验证服务器之间的数据交互对本技术实施例提供的语音验证处理的方法进行介绍。图1示出了本技术实施例提供的系统架构的示意图。
42.如在图1所示出的系统架构中，该系统架构包括终端设备和声纹验证服务器。可选地，该系统架构还可以包括音频存储服务器、嵌入码存储服务器等。在该系统架构中，目标对象可以通过终端设备录入自身说出的待验证语音。然后，终端设备在录入到该待验证语音后，可以向声纹验证服务器发送语音验证请求。而且由于声纹验证服务器已经预先在音频存储服务器中注册并存储有通过各个终端设备录入的音频。嵌入码存储服务器中也已经预先存储有每个音频对应的声纹特征向量。这样，声纹验证服务器在接收到语音验证请求后，可以通过确定出该待验证语音所对应的声纹特征向量后，将该待验证语音所对应的声纹特征向量与预先存储的声纹特征向量进行相似度的匹配，进而通过匹配结果来确定该待验证语音是否验证成功。
43.示例性地，该系统架构还可以包括嵌入码更新服务器。该嵌入码更新服务器可以从音频存储服务器中获取各个终端设备中各个说话对象录入的音频。然后，嵌入码更新服务器获取更新后的模型版本号所对应的神经网络模型，进而基于更新后的模型版本号所对
应的神经网络模型对各个终端设备中各个说话对象录入的音频所对应的声纹特征向量进行更新处理。
44.需说明，上述所提及的音频存储服务器、嵌入码存储服务器、离线更新嵌入码服务器可以是独立的服务器，也可以是声纹验证服务器中的功能模块等，本技术仅以音频存储服务器、嵌入码存储服务器、离线更新嵌入码服务器为不同的服务器为例进行说明。
45.下面结合附图，以终端设备与声纹验证服务器之间的数据交互对本技术实施例提供的语音验证处理的方法进行介绍。
46.图2示出了本技术实施例提供的语音验证处理的方法的一种流程图。如图2所示，该语音验证处理的方法可以包括如下步骤：
47.201、终端设备获取与目标对象对应的待验证语音。
48.该示例中，目标对象可以通过终端设备的语音录入端口等，在终端设备上录入相应的待验证语音。所描述的待验证语音可以是一段音频等，本技术不做具体限定。这样，终端设备能够获取到与目标对象对应的待验证语音。
49.示例性地，终端设备在请求声纹验证服务器对待验证语音进行验证处理之前，还可以先在该声纹验证服务器中完成设备注册。具体地，终端设备可以向声纹验证服务器发起设备登记请求。声纹验证服务器在接收到该设备登记请求后，会为终端设备分配唯一的设备标识码，进而完成设备的注册。需说明，所描述的设备标识码可以用来标识录入待验证语音时的终端设备。
50.示例性地，终端设备在请求声纹验证服务器对待验证语音进行验证处理之前，终端设备还可以预先录入每个说话对象说出的至少两段音频。然后通过声纹验证服务器将每个说明对象说出的至少两段音频存储在音频存储服务器中。另外，针对每段音频，分别可以使用设备标识码和对象标识码进行标记，这样能够明确出每段音频是由哪个说话对象通过哪个终端设备录入的。
51.另外，声纹验证服务器可以从音频存储服务器中获取到每个说话对象所对应的至少两段音频中的每段音频。然后，声纹验证服务器可以通过预设模型版本号的神经网络模型对每段音频进行声纹识别处理，得到每段音频对应的声纹特征向量。进而计算这所有音频所对应的声纹特征向量的平均值。这样，声纹验证服务器将该平均值作为对应的说话对象所对应的最终的声纹特征向量。最后，声纹验证服务器还可以将每个说话对象所对应的声纹特征向量存储在嵌入码存储服务器中，进而完成对每个说话对象的声纹注册，使得每个说话对象所对应的最终的声纹特征向量能够作为后续声纹验证处理过程中的匹配标准。
52.另外，还可以使用设备标识码、对象标识码以及模型版本号对最终得到的声纹特征向量进行标记，能够明确出该最终得到的声纹特征向量是通过哪个版本的神经网络模型对哪个终端设备录入的说话对象所对应的音频进行处理的。
53.需说明，前述所提及的声纹特征向量有时候也可以称为嵌入码。嵌入码是将说话对象的声纹通过深度学习的方式，转化成一个数值序列，用于表示说话对象的声纹特征。另外，所描述的模型版本号可以用来表示进行声纹特征处理时所使用的神经网络模型。通常情况下，注册过程中所使用的神经网络模型的模型版本号应当与后续声纹验证处理过程中所使用的神经网络模型的模型版本号一致。
54.这样，在完成上述的设备注册、音频存储以及声纹注册以后，终端设备在获取到与
目标对象对应的待验证语音后，便可以向声纹验证服务器发送待验证信息，使得声纹验证服务器能够对该待验证信息中的待验证语音进行验证处理。
55.202、终端设备向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备。
56.该示例中，终端设备在获取到与目标对象对应的待验证语音后，可以携带上设备标识码和对象标识码，向声纹验证服务器发送待验证信息。示例性地，终端设备可以向声纹验证服务器发送声纹验证请求，该声纹验证请求中包括该待验证信息。需说明，该待验证信息中包括待验证语音、设备标识码以及对象标识码。所提及的设备标识码和对象标识码可以参照前述步骤201中所描述的内容进行理解，此处不做赘述。
57.203、声纹验证服务器通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量。
58.该示例中，声纹验证服务器在获取到待验证信息后，可以通过预先模型版本号所对应的神经网络模型对该待验证信息中的待验证语音进行声纹特征的
59.提取处理，进而得到该待验证语音所对应的声纹特征向量。示例性地，声纹验证服务器可以计算出该待验证语音的fbank(filter bank)特征，然后通过该预设模型版本号所对应的神经网络模型对该fbank特征进行处理，进而得到相应的声纹特征向量。应理解，所描述的fbank特征可以保留更多的元素语音数据。
60.204、声纹验证服务器计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象。
61.该示例中，由于在声纹注册过程中，针对每个终端设备录入的音频，声纹验证服务器已经将每个说话对象通过各个终端设备录入的音频所对应的最终的声纹特征向量存储在嵌入码存储服务器中。因此，声纹验证服务器可以从嵌入码存储服务器中，基于该设备标识码和预设模型版本号获取到该终端设备上的每个说话对象的每个候选声纹特征向量。所描述的每个候选声纹特征向量，可以理解成每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量。
62.这样，声纹验证服务器在确定该待验证语音所对应的声纹特征向量后，可以将该待验证语音所对应的声纹特征向量与每个候选声纹特征向量进行余弦相似度的计算处理，进而计算出该声纹特征向量与每个候选声纹特征向量之间的声纹相似度。
63.205、声纹验证服务器从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度。
64.该示例中，声纹相似度越高，说明声纹特征向量所对应的待验证语音与已注册语音为同一个说话对象使用相同的终端设备发出的语音。因此，声纹验证服务器在计算出声纹特征向量与每个候选声纹特征向量之间的声纹相似度之后，可以从这计算出得到的所有声纹相似度中确定出最大值的声纹相似度，并将最大值的声纹相似度确定为目标声纹相似度。
65.示例性地，声纹验证服务器还可以基于该目标声纹相似度，确定出该目标声纹相
似度所对应的目标声纹特征向量。
66.206、声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码。
67.该示例中，声纹验证服务器在确定出目标声纹相似度后，可以对该声纹相似度作出判断。示例性地，声纹验证服务器可以将目标声纹相似度与预设相似阈值进行比较，并在判断出该目标声纹相似度大于或等于预设相似阈值的时候，向终端设备发送验证通过消息。所描述的验证通过消息指示了该待验证语音已验证成功。另外，该验证通过消息中还包括了对象标识码，而且由于该对象标识码能够用于标识说出待验证语音时的目标对象。那么，通过将该对象标识码反馈给终端设备，使得终端设备能够获知是哪个说话对象的声纹特征验证通过了。
68.在一些可选的示例中，声纹验证服务器还可以在目标声纹相似度小于预设相似阈值的时候，向终端设备发送验证失败消息。通过该验证失败消息指示出该待验证语音无法通过验证，进而也说明了相应的目标对象的声纹验证不成功。这样，终端设备在获取到验证失败消息后，便可以获知该待验证语音验证失败。
69.207、终端设备基于验证通过消息确定待验证语音验证成功。
70.该示例中，终端设备在接收到声纹验证服务器发送的验证通过消息后，便可以获知该待验证语音已被成功验证。
71.示例性地，该验证通过消息中还可以包括目标声纹特征向量。这样，终端设备在接收到验证通过消息后，可以解析该验证通过消息，提取出该目标声纹特征向量。然后，终端设备可以基于该目标声纹特征向量获取相应的目标对象输入的其他语音命令。
72.本技术实施例中，由于对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备，因此声纹验证服务器获取终端设备发送的包括有待验证语音、对象标识码以及设备标识码的待验证信息。然后，声纹验证服务器通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量，并计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量。这样，声纹验证服务器可以从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度，并在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息用于指示待验证语音验证成功。换句话说，通过声纹验证服务器调用预设模型版本号的神经网络模型对待验证语音进行相应的声纹特征向量的提取，并基于声纹特征向量与候选声纹特征向量之间的目标声纹相似度是否大于或等于预设相似阈值来验证该待验证语音，而不是简单地依赖于音频特征的匹配来识别验证该待验证语音，能够有效地提高与该待验证语音对应的说话对象的识别准确度，提升用户体验程度。另外，将声纹验证处理的过程部署在声纹验证服务器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。
73.图3示出了本技术实施例提供的语音验证处理的方法的另一种流程图。如图3所示，该语音验证处理的方法可以包括如下步骤：
74.301、终端设备获取与目标对象对应的待验证语音。
75.该示例中，目标对象可以通过终端设备的语音录入端口等，在终端设备上录入相应的待验证语音。所描述的待验证语音可以是一段音频等，本技术不做具体限定。这样，终端设备能够获取到与目标对象对应的待验证语音。
76.示例性地，对于设备注册、音频存储以及声纹注册的过程，具体可以参照前述图2中步骤201所描述的内容进行理解，此处不做赘述。
77.302、终端设备向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备。
78.该示例中，终端设备在获取到与目标对象对应的待验证语音后，可以携带上设备标识码和对象标识码，向声纹验证服务器发送待验证信息。示例性地，终端设备可以向声纹验证服务器发送声纹验证请求，该声纹验证请求中包括该待验证信息。需说明，该待验证信息中包括待验证语音、设备标识码以及对象标识码。所提及的设备标识码和对象标识码可以参照前述步骤301中所描述的内容进行理解，此处不做赘述。
79.303、声纹验证服务器通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量。
80.该示例中，声纹验证服务器在获取到待验证信息后，可以通过预先模型版本号所对应的神经网络模型对该待验证信息中的待验证语音进行声纹特征的提取处理，进而得到该待验证语音所对应的声纹特征向量，具体也可以参照前述图2中的步骤203的内容进行理解，此处不做赘述。
81.304、声纹验证服务器计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象。
82.该示例中，由于在声纹注册过程中，针对每个终端设备录入的音频，声纹验证服务器已经将每个说话对象通过各个终端设备录入的音频所对应的最终的声纹特征向量存储在嵌入码存储服务器中。因此，声纹验证服务器可以从嵌入码存储服务器中，基于该设备标识码和预设模型版本号获取到该终端设备上的每个说话对象的每个候选声纹特征向量。所描述的每个候选声纹特征向量，可以理解成每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量。
83.这样，声纹验证服务器在确定该待验证语音所对应的声纹特征向量后，可以将该待验证语音所对应的声纹特征向量与每个候选声纹特征向量进行余弦相似度的计算处理，进而计算出该声纹特征向量与每个候选声纹特征向量之间的声纹相似度。
84.305、声纹验证服务器从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度。
85.该示例中，声纹相似度越高，说明声纹特征向量所对应的待验证语音与已注册语音为同一个说话对象使用相同的终端设备发出的语音。因此，声纹验证服务器在计算出声纹特征向量与每个候选声纹特征向量之间的声纹相似度之后，可以从这计算出得到的所有声纹相似度中确定出最大值的声纹相似度，并将最大值的声纹相似度确定为目标声纹相似
度。示例性地，声纹验证服务器还可以基于该目标声纹相似度，确定出该目标声纹相似度所对应的目标声纹特征向量。
86.306、声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码。
87.该示例中，声纹验证服务器在确定出目标声纹相似度后，可以对该声纹相似度作出判断。示例性地，声纹验证服务器可以将目标声纹相似度与预设相似阈值进行比较，并在判断出该目标声纹相似度大于或等于预设相似阈值的时候，向终端设备发送验证通过消息。所描述的验证通过消息指示了该待验证语音已验证成功。具体也可以参照前述图2中的步骤306的内容进行理解，此处不做赘述。
88.307、终端设备基于验证通过消息确定待验证语音验证成功。
89.该示例中，终端设备在接收到声纹验证服务器发送的验证通过消息后，便可以获知该待验证语音已被成功验证。示例性地，该验证通过消息中还可以包括目标声纹特征向量。这样，终端设备在接收到验证通过消息后，可以解析该验证通过消息，提取出该目标声纹特征向量。然后，终端设备可以基于该目标声纹特征向量获取相应的目标对象输入的其他语音命令。
90.308、声纹验证服务器获取更新后的模型版本号。
91.该示例中，为了不断地提高对说话对象的识别验证效果，神经网络模型也需要不断的更新，这就使得在不同场景中针对同一个说话对象录入的音频，可能会使用不同的模型版本号所对应的神经网络模型进行声纹特征向量的提取。基于此，声纹验证服务器可以离线训练神经网络模型后，将更新后的神经网络模型使用新的模型版本号来标识。这样，声纹验证服务器便可以获取到更新后的模型版本号。
92.309、声纹验证服务器基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量。
93.该示例中，声纹验证服务器在获取到更新后的模型版本号之后，还可以基于该更新后的模型版本号获取到相应的更新后的神经网络模型，并将原先的神经网络模型替换成更新后的神经网络模型。
94.当声纹验证服务器完成对所有的神经网络模型的更新后，再开启声纹注册功能。这样，声纹验证服务器能够基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量。这样，便能够将原先在声纹注册过程中预先注册完成的声纹特征向量进行更新，使得更新后的每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量能够更加地贴近于说话对象的真实声纹。
95.示例性地，声纹验证服务器还可以将设备标识码、对象标识码以及更新后的模型版本号进行绑定处理，得到第一绑定关系，并存储第一绑定关系。需说明，该声纹验证服务器可以将该第一绑定关系存储在嵌入码存储服务器中，具体此处不做限定说明。
96.本技术实施例中通过声纹验证服务器调用预设模型版本号的神经网络模型对待验证语音进行相应的声纹特征向量的提取，并基于声纹特征向量与候选声纹特征向量之间的目标声纹相似度是否大于或等于预设相似阈值来验证该待验证语音，而不是简单地依赖于音频特征的匹配来识别验证该待验证语音，能够有效地提高与该待验证语音对应的说话对象的识别准确度，提升用户体验程度。另外，将声纹验证处理的过程部署在声纹验证服务
器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。另外，声纹验证服务器还能够基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量，能够在不影响说话对象使用终端设备的情况下，实现对神经网络模型的迭代更新，并且使得更新后的每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量能够更加地贴近于说话对象的真实声纹。
97.上述主要从方法的角度对本技术实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本技术中所公开的实施例描述的各示例的模块及算法步骤，本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
98.本技术实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本技术实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
99.下面对本技术实施例中的声纹验证服务器进行详细描述，图4为本技术实施例中提供的声纹验证服务器一个实施例示意图。如图4所示，该声纹验证服务器可以包括获取单元401、处理单元402以及发送单元403。
100.其中，获取单元401，用于获取终端设备发送的待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备。处理单元402用于：通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量；计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象；从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度。发送单元403用于在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码，验证通过消息用于指示待验证语音验证成功。
101.在一些可选的实施方式中，获取单元401还用于获取更新后的模型版本号。处理单元402还用于基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量。
102.在一些可选的实施方式中，处理单元402还用于：将设备标识码、对象标识码以及更新后的模型版本号进行绑定处理，得到第一绑定关系，并存储第一绑定关系。
103.在一些可选的实施方式中，验证通过消息包括目标声纹特征向量，目标声纹特征向量与目标声纹相似度对应，目标声纹特征向量用于指示终端设备获取目标对象输入的其
他语音命令。
104.在一些可选的实施方式中，发送单元403还用于：在目标声纹相似度小于预设相似阈值时，则向终端设备发送验证失败消息，验证失败消息用于提示待验证语音验证失败。
105.在一些可选的实施方式中，处理单元402用于：从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定最大值的声纹相似度；将最大值的声纹相似度作为目标声纹相似度。
106.下面对本技术实施例中的终端设备进行详细描述，图5为本技术实施例中提供的终端设备一个实施例示意图。如图5所示，该终端设备可以包括获取单元501、发送单元502以及处理单元503。
107.其中，获取单元501用于获取与目标对象对应的待验证语音。
108.发送单元502用于向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，待验证信息用于声纹验证服务器对待验证语音进行验证处理，对象标识码用于标识目标对象，设备标识码用于标识录入待验证语音时的终端设备。获取单元用于接收声纹验证服务器发送的验证通过消息，其中，验证通过消息由声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时发送，目标声纹相似度由待验证语音所对应的声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定得到，验证通过消息包括对象标识码。
109.处理单元503用于基于验证通过消息确定待验证语音验证成功。
110.在一些可选的实施方式中，验证通过消息包括目标声纹特征向量，目标声纹特征向量与目标声纹相似度对应。获取单元501还用于基于目标声纹特征向量获取目标对象输入的其他语音命令。
111.在一些可选的实施方式中，获取单元501还用于接收声纹验证服务器发送的验证失败消息，其中，验证失败消息由声纹验证服务器在目标声纹相似度小于预设相似阈值时发送。处理单元203还用于基于验证失败消息确定待验证语音验证失败。
112.上面从模块化功能实体的角度对本技术实施例中的声纹验证服务器、终端设备进行描述，下面从硬件处理的角度对本技术实施例中的语音验证处理装置进行描述，所描述的语音验证处理装置可以包括但不限于前述图4所描述的声纹验证服务器、图5所描述的终端设备等等。图6是本技术实施例提供的语音验证处理装置的结构示意图。该语音验证处理装置可因配置或性能不同而产生比较大的差异。该语音验证处理装置可以至少一个处理器601，通信线路607，存储器603以及至少一个通信接口604。
113.处理器601可以是一个通用中央处理器(central processing unit，cpu)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器ic)，或一个或多个用于控制本技术方案程序执行的集成电路。
114.通信线路607可包括一通路，在上述组件之间传送信息。
115.通信接口604，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网(radio access network，ran)，无线局域网(wireless local area networks，wlan)等。
116.存储器603可以是只读存储器(read-only memory，rom)或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器(random access memory，ram)或者可存储信
息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路607与处理器相连接。存储器也可以和处理器集成在一起。
117.其中，存储器603用于存储执行本技术方案的计算机执行指令，并由处理器601来控制执行。处理器601用于执行存储器603中存储的计算机执行指令，从而实现本技术上述实施例提供的语音验证处理的方法。
118.可选的，本技术实施例中的计算机执行指令也可以称之为应用程序代码，本技术实施例对此不作具体限定。
119.在具体实现中，作为一种实施例，该语音验证处理装置可以包括多个处理器，例如图6中的处理器601和处理器602。这些处理器中的每一个可以是一个单核(single-cpu)处理器，也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
120.在具体实现中，作为一种实施例，语音验证处理装置还可以包括输出设备605和输入设备606。输出设备605和处理器601通信，可以以多种方式来显示信息。输入设备606和处理器601通信，可以以多种方式接收目标对象的输入。例如，输入设备606可以是鼠标、触摸屏装置或传感装置等。
121.上述的语音验证处理装置可以是一个通用装置或者是一个专用装置。在具体实现中，语音验证处理装置可以是服务器、终端等或有图6中类似结构的装置。本技术实施例不限定语音验证处理装置的类型。
122.需说明，图6中的处理器601可以通过调用存储器603中存储的计算机执行指令，使得语音验证处理装置执行如图2或图3对应的方法实施例中的语音验证处理的方法。
123.具体的，图4中的处理单元402、图5中的处理单元503的功能/实现过程可以通过图6中的处理器601调用存储器603中存储的计算机执行指令来实现。图4中的获取单元401和发送单元403、图5中的获取单元501和发送单元502的功能/实现过程可以通过图6中的通信接口604来实现。
124.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。
125.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
126.在本技术所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
127.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
128.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
129.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
130.上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。
131.计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本技术实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如ssd))等。
132.以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音唤醒方法、装置、电子设备、存储介质及产品与流程

一种语音验证处理的方法以及相关装置与流程

相关文献

最热文献