农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种基于增强型声纹库的语音身份确定方法及系统与流程

2021-06-18 20:18:00 来源：中国专利 TAG：增强型语音识别身份申请

本申请涉及声纹识别技术领域，尤其是涉及一种基于增强型声纹库的语音身份确定方法及系统。

背景技术：

目前声纹库的建立方法为采集一段语音，根据采集的语音进行声纹特征提取，将提取的声纹特征存入数据库中形成声纹库。使用这种声纹库对待查询语音所属的目标人物进行确认时，采用的技术手段为：将待查询的声纹特征与声纹库中的声纹特征一一比对，计算声纹特征之间的相似性，根据相似性的大小进行排序，将相似性最大的作为查询比对结果。但由于声纹特征不明显，这种使用传统的声纹库识别语音的方法导致识别率较低以及比对结果准确度较低，因此，如何提高语音识别率一直是公安单位亟待解决的问题。

技术实现要素：

有鉴于此，本申请的目的在于提供一种基于增强型声纹库的语音身份确定方法及系统，在对待查询语音进行身份确定时，充分使用了语音数据中的声纹特征、关键字特征以及主题特征进行语音特征比对，从而可以提高查询比对的命中率以及识别效率。

本申请实施例提供了一种基于增强型声纹库的语音身份确定方法，所述语音身份确定方法，包括：

获取待查询语音；

从所述待查询语音中提取待鉴定用户的第一声纹特征向量、第一关键字特征向量以及第一主题特征向量；

分别将所述第一声纹特征向量、所述第一关键字特征向量以及所述第一主题特征向量与增强型声纹库中每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量进行比对，确定所述待鉴定用户与每个候选用户之间的语音相似度；

将语音相似度位于前预设位的候选用户，确定为目标用户；

按照所述目标用户的唯一身份标识对应的原始语音存储地址，获取所述目标用户的原始语音，并将所述原始语音发送给鉴定人员，以供所述鉴定人员基于所述原始语音确定所述待鉴定用户的身份信息。

进一步的，通过以下步骤构建增强型声纹库：

获取多个候选用户的至少一条原始语音；

针对于每个候选用户，从该候选用户的至少一条原始语音中提取出该候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量；

通过该候选用户的唯一身份标识绑定该候选用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量以及该候选用户的原始语音存储地址；

基于每个候选用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量、原始语音存储地址以及唯一身份标识，构建增强型声纹库。

进一步的，通过以下步骤提取每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量：

针对于每个候选用户，利用预先训练好的声纹特征提取模型，对该候选用户的至少一条原始语音进行声纹特征提取，确定出至少一个候选声纹特征向量，对确定出的至少一个候选声纹特征向量进行均值处理，将进行均值处理后得到的特征向量作为该候选用户的第二声纹特征向量；

利用预先训练好的语音内容识别模型，对该候选用户的至少一条原始语音进行文本识别提取，得到至少一个文本内容，利用预先建立好的关键字词库对至少一个文本内容进行关键字提取，确定出至少一个候选关键字特征向量，并求取确定出的至少一个候选关键字特征向量的并集，将求取完并集得到的特征向量作为该候选用户的第二关键字特征向量；

基于确定出的至少一个文本内容，利用预先训练好的主题抽取模型，对确定出的至少一个文本内容进行主题抽取，确定出至少一个候选主题特征向量，并求取确定出的至少一个候选主题特征向量的并集，将求取完并集得到的特征向量作为该候选用户的第二主题特征向量。

进一步的，所述所述分别将所述第一声纹特征向量、所述第一关键字特征向量以及所述第一主题特征向量与增强型声纹库中每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量进行比对，确定所述待鉴定用户与每个候选用户之间的语音相似度，包括：

针对于每个候选用户，基于所述第一声纹特征向量和该候选用户的第二声纹特征向量，计算所述待鉴定用户与该候选用户的声纹相似度；

基于所述第一关键字特征向量和该候选用户的第二关键字特征向量，计算所述待鉴定用户与该候选用户的关键字相似度；

基于所述第一主题特征向量和该候选用户的第二主题特征向量，计算所述待鉴定用户与该候选用户的主题相似度；

基于所述声纹相似度、预设声纹权重、所述关键字相似度、预设关键字权重、所述主题相似度以及预设主题权重，计算所述待鉴定用户与该候选用户之间的语音相似度。

进一步的，通过以下公式计算所述待鉴定用户与每个候选用户之间的语音相似度：

其中，pi为待鉴定用户与第i个候选用户的语音相似度，s函数为余弦相似度计算函数；

当k为0时，w0为预设声纹权重，为待鉴定用户与第i个候选用户的声纹相似度；

当k为1时，w1为预设关键字权重，为待鉴定用户与第i个候选用户的关键字相似度；

当k为2时，w2为预设主题权重，为待鉴定用户与第i个候选用户的主题相似度。

进一步的，所述将语音相似度位于前预设位的候选用户，确定为目标用户，包括：

将确定出的所述待鉴定用户与每个候选用户之间的语音相似度，按照降序排列，得到语音相似度序列；

将所述语音相似度序列中语音相似度位于前预设位的候选用户，确定为目标用户。

本申请实施例还提供了一种基于增强型声纹库的语音身份确定系统，所述语音身份确定系统，包括：

获取模块，用于获取待查询语音；

特征提取模块，用于从所述待查询语音中提取待鉴定用户的第一声纹特征向量、第一关键字特征向量以及第一主题特征向量；

语音相似度确定模块，用于分别将所述第一声纹特征向量、所述第一关键字特征向量以及所述第一主题特征向量与增强型声纹库中每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量进行比对，确定所述待鉴定用户与每个候选用户之间的语音相似度；

目标用户确定模块，用于将语音相似度位于前预设位的候选用户，确定为目标用户；

身份确定模块，用于按照所述目标用户的唯一身份标识对应的原始语音存储地址，获取所述目标用户的原始语音，并将所述原始语音发送给鉴定人员，以供所述鉴定人员基于所述原始语音确定所述待鉴定用户的身份信息。

进一步的，所述语音身份确定系统还包括声纹库构建模块，所述声纹库构建模块用于：

获取多个候选用户的至少一条原始语音；

针对于每个候选用户，从该候选用户的至少一条原始语音中提取出该候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量；

通过该候选用户的唯一身份标识绑定该候选用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量以及该候选用户的原始语音存储地址；

基于每个候选用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量、原始语音存储地址以及唯一身份标识，构建增强型声纹库。

进一步的，所述声纹库构建模块在用于提取每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量时，所述声纹库构建模块用于：

针对于每个候选用户，利用预先训练好的声纹特征提取模型，对该候选用户的至少一条原始语音进行声纹特征提取，确定出至少一个候选声纹特征向量，对确定出的至少一个候选声纹特征向量进行均值处理，将进行均值处理后得到的特征向量作为该候选用户的第二声纹特征向量；

利用预先训练好的语音内容识别模型，对该候选用户的至少一条原始语音进行文本识别提取，得到至少一个文本内容，利用预先建立好的关键字词库对至少一个文本内容进行关键字提取，确定出至少一个候选关键字特征向量，并求取确定出的至少一个候选关键字特征向量的并集，将求取完并集得到的特征向量作为该候选用户的第二关键字特征向量；

基于确定出的至少一个文本内容，利用预先训练好的主题抽取模型，对确定出的至少一个文本内容进行主题抽取，确定出至少一个候选主题特征向量，并求取确定出的至少一个候选主题特征向量的并集，将求取完并集得到的特征向量作为该候选用户的第二主题特征向量。

进一步的，所述语音相似度确定模块在用于分别将所述第一声纹特征向量、所述第一关键字特征向量以及所述第一主题特征向量与增强型声纹库中每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量进行比对，确定所述待鉴定用户与每个候选用户之间的语音相似度时，所述语音相似度确定模块用于：

针对于每个候选用户，基于所述第一声纹特征向量和该候选用户的第二声纹特征向量，计算所述待鉴定用户与该候选用户之间的声纹相似度；

基于所述第一关键字特征向量和该候选用户的第二关键字特征向量，计算所述待鉴定用户与该候选用户之间的关键字相似度；

基于所述第一主题特征向量和该候选用户的第二主题特征向量，计算所述待鉴定用户与该候选用户之间的主题相似度；

基于所述声纹相似度、预设声纹权重、所述关键字相似度、预设关键字权重、所述主题相似度以及预设主题权重，计算所述待鉴定用户与该候选用户之间的语音相似度。

进一步的，所述语音相似度确定模块在用于计算所述待鉴定用户与每个候选用户之间的语音相似度时，所述语音相似度确定模块用于：

通过以下公式计算所述待鉴定用户与每个候选用户之间的语音相似度：

其中，pi为待鉴定用户与第i个候选用户的语音相似度，s函数为余弦相似度计算函数；

当k为0时，w0为预设声纹权重，为待鉴定用户与第i个候选用户的声纹相似度；

当k为1时，w1为预设关键字权重，为待鉴定用户与第i个候选用户的关键字相似度；

当k为2时，w2为预设主题权重，为待鉴定用户与第i个候选用户的主题相似度。

进一步的，所述目标用户确定模块在用于将语音相似度位于前预设位的候选用户，确定为目标用户时，所述目标用户确定模块用于：

将确定出的所述待鉴定用户与每个候选用户之间的语音相似度，按照降序排列，得到语音相似度序列；

将所述语音相似度序列中语音相似度位于前预设位的候选用户，确定为目标用户。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的基于增强型声纹库的语音身份确定方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的基于增强型声纹库的语音身份确定方法的步骤。

本申请实施例提供的一种基于增强型声纹库的语音身份确定方法及系统。所述语音身份确定方法，包括：获取待查询语音；从所述待查询语音中提取待鉴定用户的第一声纹特征向量、第一关键字特征向量以及第一主题特征向量；分别将所述第一声纹特征向量、所述第一关键字特征向量以及所述第一主题特征向量与增强型声纹库中每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量进行比对，确定所述待鉴定用户与每个候选用户之间的语音相似度；将语音相似度位于前预设位的候选用户，确定为目标用户；按照所述目标用户的唯一身份标识对应的原始语音存储地址，获取所述目标用户的原始语音，并将所述原始语音发送给鉴定人员，以供所述鉴定人员基于所述原始语音确定所述待鉴定用户的身份信息。

这样，本申请在对待查询语音进行身份确定时，充分使用了语音数据中的声纹特征、关键字特征以及主题特征进行语音特征比对，从而可以提高查询比对的命中率以及识别效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种基于增强型声纹库的语音身份确定方法的流程图；

图2为增强型声纹库的构建方法流程示意图；

图3为本申请语音特征的提取方法流程示意图；

图4为本申请实施例所提供的一种基于增强型声纹库的语音身份确定系统的结构示意图之一；

图5为本申请实施例所提供的一种基于增强型声纹库的语音身份确定系统的结构示意图之二；

图6为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

目前声纹库的建立方法为采集一段语音，根据采集的语音进行声纹特征提取，将提取的声纹特征存入数据库中形成声纹库。使用这种声纹库对待查询语音所属的目标人物进行确认时，采用的技术手段为：将待查询的声纹特征与声纹库中的声纹特征一一比对，计算声纹特征之间的相似性，根据相似性的大小进行排序，将相似性最大的作为查询比对结果。但由于声纹特征不明显，这种使用传统的声纹库识别语音的方法导致识别率较低以及比对结果准确度较低。

为了解决上述问题，本申请实施例提供了一种基于增强型声纹库的语音身份确定方法及系统，在对待查询语音进行身份确定时，充分使用了语音数据中的声纹特征、关键字特征以及主题特征进行语音特征比对，从而可以提高查询比对的命中率以及识别效率。

请参阅图1，图1为本申请实施例所提供的一种基于增强型声纹库的语音身份确定方法的流程图。如图1中所示，本申请实施例提供的基于增强型声纹库的语音身份确定方法，包括：

s101，获取待查询语音。

该步骤中，由鉴定人员获取待查询语音，获取的待查询语音为需要确认身份信息的用户的待查询语音。

示例的，待查询语音可以为公安人员从犯罪现场获取的嫌疑人的语音，公安人员对获取的待查询语音进行识别，确定出嫌疑人的身份。

s102，从所述待查询语音中提取待鉴定用户的第一声纹特征向量、第一关键字特征向量以及第一主题特征向量。

该步骤中，获取待查询语音后，使用声纹特征提取模型提取待查询语音的声纹向量，并作为第一声纹特征向量；使用语音内容识别模型，对待查询语音进行文本识别提取，得到待查询语音的文本内容，基于关键字库，使用关键字提取模型从待查询语音的文本内容中提取出关键字向量，作为第一关键字特征向量，使用主题抽取模型，提取待查询语音的主题向量，得到第一主题特征向量。

这里，关键字库为预先建立的，存储着各个领域的专业名词，例如当为体育界时，对应的关键字包括足球、篮球、奥运会、体能训练等。主题为关键字的上一级别，可以为关键字对应的各个领域，示例的，主题可以包括：新闻，财经，科技，体育，娱乐，汽车，房产，时尚，教育，旅游，游戏等。

其中，待查询语音可以为一个也可以为多个，当待查询语音为一个时，可以从待查询语音中提取出多个关键字也可以提取出多个主题，基于多个关键字确定待查询语音的第一关键字特征向量，基于多个主题确定待查询语音的第一主题特征向量。

当待查询语音为多个且属于一个待鉴定用户时，将每条待查询语音均进行声纹特征提取，并将多条声纹特征取平均值，得到平均后的声纹特征向量，将平均后的声纹特征向量作为第一声纹特征向量。将每条待查询语音进行文本提取，得到多条文本内容，对每条文本内容中均进行关键字向量提取，将提取出的多个关键字向量取并集，得到第一关键字特征向量。对每条文本内容中均进行主题向量提取，将提取出的多个主题向量取并集，得到第一主题特征向量。

这里，使用以下手段构建声纹特征提取模型：获取多个语音以及语音对应的声纹特征向量，将语音作为输入特征，将声纹特征向量作为输出特征，训练声纹特征提取神经网络，得到训练好的声纹特征提取模型。

使用以下手段构建语音内容识别模型：获取多个语音以及语音对应的文本内容，将语音作为输入特征，将文本内容作为输出特征，训练语音内容识别神经网络，得到训练好的语音内容识别模型。

使用以下手段构建关键字提取模型：获取多个文本内容以及文本内容对应的关键字特征向量，将文本内容作为输入特征，将文本内容对应的关键字特征向量作为输出特征，训练关键字提取神经网络，得到训练好的关键字提取模型。

使用以下手段构建主题抽取模型：获取多个文本内容以及文本内容对应的主题特征向量，将文本内容作为输入特征，将文本内容对应的主题特征向量作为输出特征，训练主题抽取神经网络，得到训练好的主题抽取模型。

s103，分别将所述第一声纹特征向量、所述第一关键字特征向量以及所述第一主题特征向量与增强型声纹库中每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量进行比对，确定所述待鉴定用户与每个候选用户之间的语音相似度。

该步骤中，确定待查询语音的第一声纹特征向量、第一关键字特征向量和第一主题特征向量后，对于增强型声纹库中的每个候选用户，基于待查询语音的第一声纹特征向量、第一关键字特征向量和第一主题特征向量和该用户存储于增强型声纹库中的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量，根据语音相似度计算公式，计算待鉴定用户与该候选用户之间的语音相似度，从而确定出待鉴定用户与每个候选用户之间的语音相似度。

作为示例，请参阅图2，图2为增强型声纹库的构建方法流程示意图。如图2中所示，所述增强型声纹库的构建方法，包括：

s201，获取多个候选用户的至少一条原始语音。

该步骤中，确定构建增强型声纹库所需要的用户，将所述用户作为候选用户，确定出多个候选用户，对于每个候选用户，获取该候选用户日常生活中的至少一条语音，将该语音作为该候选用户的原始语言，从而获取多个候选用户的原始语言。

这里，每个候选用户的原始语言可以为一条，也可以为多条。其中候选用户日常生活中的语音，可以为候选用户在社交媒体或网络上的语音，也可以为候选用户的电话通话语音。

示例的，当公安机关构建增强型声纹库时，可以以村为单位，构建包含该村全部人员的增强型声纹库，以可以以县为单元，包含该县全部人员的增强型声纹库，甚至可以构建包含全国人员的语音特征的增强型声纹库。具体采用构建哪种单位的增强型声纹库，可根据实际情况选择，在此不作限定。

s202，针对于每个候选用户，从该候选用户的至少一条原始语音中提取出该候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量。

该步骤中，获取用于构建增强型声纹库的多个候选用户的原始语音后，将确定出的多个候选用户依次排序，针对于每个候选用户，可以根据排序顺序，依次从该候选用户的至少一条原始语音中，获取该候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量。

作为示例，请参阅图3，图3为本申请语音特征的提取方法流程示意图。如图3中所示，本申请实施例提供的语音特征的提取方法，包括：

s301，针对于每个候选用户，利用预先训练好的声纹特征提取模型，对该候选用户的至少一条原始语音进行声纹特征提取，确定出至少一个候选声纹特征向量，对确定出的至少一个候选声纹特征向量进行均值处理，将进行均值处理后得到的特征向量作为该候选用户的第二声纹特征向量。

该步骤中，候选用户为用于构建增强型声纹库所需要的用户。当需要确定的某个候选用户的声纹特征向量时，将该候选用户原始语音输入到预先训练好的声纹特征提取模型中，声纹特征提取模型输出所述原始语音的候选声纹特征向量，当输出的候选声纹特征向量为一个时，直接将该候选声纹特征向量作为该候选用户的第二声纹特征向量。

这里，当输出的候选声纹特征向量为多个时，将确定出多个候选声纹特征向量求平均值，最后将求完平均值后的声纹特征向量作为该候选用户的第二声纹特征向量。

s302，利用预先训练好的语音内容识别模型，对该候选用户的至少一条原始语音进行文本识别提取，得到至少一个文本内容，利用预先建立好的关键字词库对至少一个文本内容进行关键字提取，确定出至少一个候选关键字特征向量，并求取确定出的至少一个候选关键字特征向量的并集，将求取完并集得到的特征向量作为该候选用户的第二关键字特征向量。

该步骤中，当某候选用户的原始语音为一条，需要确定的某个候选用户的关键字特征向量时，将该候选用户原始语音输入到预先训练好的语音内容识别模型中，语音内容识别模型输出原始语音的文本内容，且输出一个文本内容，再利用关键字提取模型，从该文本内容中提取出候选关键字向量，并将该候选关键字向量作为第二关键字特征向量。

这里，当需要确定的某个候选用户的原始语音有多条时，将多条原始语音依次输入至语音内容识别模型中，得到各个原始语音所对应的文本内容，再利用关键字提取模型，确定出多个候选关键字向量，将确定出的多个候选关键字向量取并集，最后将取完并集后的关键字向量作为该候选用户的第二关键字特征向量。

s303，基于确定出的至少一个文本内容，利用预先训练好的主题抽取模型，对确定出的至少一个文本内容进行主题抽取，确定出至少一个候选主题特征向量，并求取确定出的至少一个候选主题特征向量的并集，将求取完并集得到的特征向量作为该候选用户的第二主题特征向量。

该步骤中，当确定出的文本内容为一个时，使用预先训练好的主题抽取模型，对该文本内容进行主题抽取，得到一个候选主题向量，将得到的候选主题向量作为该候选用户的第二主题特征向量。

这里，确定出的文本内容为多个时，对每个文本内容均使用主题抽取模型进行主题抽取，得到多个候选主题向量，将确定出的多个候选主题向量取并集，最后将取完并集后的候选主题向量作为该候选用户的第二关键字特征向量。

s203，通过该候选用户的唯一身份标识绑定该候选用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量以及该候选用户的原始语音存储地址。

该步骤中，确定出该候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量后，为了更好的找到对应的用户以及更快速的提取原始语音，将该用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量以及该候选用户的原始语音存储地址与该候选用户的唯一身份标识进行绑定。

s204，基于每个候选用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量、原始语音存储地址以及唯一身份标识，构建增强型声纹库。

该步骤中，针对每个候选用户，将该候选用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量、原始语音存储地址以及唯一身份标识绑定后。对于每个候选用户，可以以该候选用户的身份标识为存储标签，将该用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量以及原始语音存储地址打包存储至声纹库中，将所有候选用户的信息都存储至声纹库中后，构建成增强型声纹库。

这里，候选用户的唯一身份标识可以为候选用户存储至增强型声纹库中的顺序号码，可以为步骤s202中的排序号码，也可以为用户的身份证号码。

作为示例，所述分别将所述第一声纹特征向量、所述第一关键字特征向量以及所述第一主题特征向量与增强型声纹库中每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量进行比对，确定所述待鉴定用户与每个候选用户之间的语音相似度，包括：针对于每个候选用户，基于所述第一声纹特征向量和该候选用户的第二声纹特征向量，计算所述待鉴定用户与该候选用户之间的声纹相似度；基于所述第一关键字特征向量和该候选用户的第二关键字特征向量，计算所述待鉴定用户与该候选用户之间的关键字相似度；基于所述第一主题特征向量和该候选用户的第二主题特征向量，计算所述待鉴定用户与该候选用户之间的主题相似度；基于所述声纹相似度、预设声纹权重、所述关键字相似度、预设关键字权重、所述主题相似度以及预设主题权重，计算所述待鉴定用户与该候选用户之间的语音相似度。

该步骤中，当需要计算待鉴定用户与增强型声纹库中的每个候选用户之间的语音相似度时，可以基于余弦相似度计算公式。首先，使用待鉴定用户的待查询语音的第一声纹特征向量，和某个候选用户的原始语音的第二声纹特征向量，计算所述待鉴定用户与该候选用户之间的声纹相似度。

这里，余弦相似度计算公式为：

这里，声纹相似度的计算公式为：

其中，x0为待鉴定用户的第一声纹特征向量，xi0为第i个候选用户的第二声纹特征向量，为待鉴定用户与第i个候选用户之间的声纹相似度。

然后，使用待鉴定用户的待查询语音的第一关键字特征向量，和某个候选用户的原始语音的第二关键字特征向量，计算所述待鉴定用户与该候选用户之间的关键字相似度。

这里，关键字相似度的计算公式为：

其中，x1为待鉴定用户的第一关键字特征向量，xi1为第i个候选用户的第二关键字特征向量，为待鉴定用户与第i个候选用户之间的关键字相似度。

再然后，使用待鉴定用户的待查询语音的第一主题特征向量，和某个候选用户的原始语音的第二主题特征向量，计算所述待鉴定用户与该候选用户之间的主题相似度。

这里，主题相似度的计算公式为：

其中，x2为待鉴定用户的第一主题特征向量，xi2为第i个候选用户的第二主题特征向量，为待鉴定用户与第i个候选用户之间的主题相似度。

最后，基于语音相似度计算公式，使用计算出的待鉴定用户与该候选用户之间的声纹相似度以及对应的预设声纹权重、待鉴定用户与该候选用户之间的关键字相似度以及对应的预设关键字权重、待鉴定用户与该候选用户之间的主题相似度以及对应的预设主题权重，计算出待鉴定用户与该候选用户之间的语音相似度，从而可以计算出待鉴定用户与增强型声纹库中每个候选用户之间的语音相似度。

作为示例，通过以下公式计算待鉴定用户与候选用户之间的语音相似度：

其中，pi为待鉴定用户与第i个候选用户的语音相似度，s函数为余弦相似度计算函数；当k为0时，w0为预设声纹权重，为待鉴定用户与第i个候选用户的声纹相似度；当k为1时，w1为预设关键字权重，为待鉴定用户与第i个候选用户的关键字相似度；当k为2时，w2为预设主题权重，为待鉴定用户与第i个候选用户的主题相似度。

这里，预设权重可以根据实际情况选择合适的权重。示例的，选择预设声纹权重w0=0.7，选择预设关键字权重w1=0.2，选择预设主题权重w2=0.1。

s104，将语音相似度位于前预设位的候选用户，确定为目标用户。

作为示例，将确定出的所述待鉴定用户与每个候选用户之间的语音相似度，按照降序排列，得到语音相似度序列；将所述语音相似度序列中语音相似度位于前预设位的候选用户，确定为目标用户。

这里，前预设位可以为鉴定人员根据实际情况需求，将前预设数量个候选用户确定为目标用户，也可以采用设定相似度阈值的方式，将语音相似度大于阈值相似的候选用户作为目标用户。例如，可以选择排序靠前的前20个候选用户作为目标用户，也可以设定相似度阈值0.8，将语音相似度大于0.8的候选用户作为目标用户。

s105，按照所述目标用户的唯一身份标识对应的原始语音存储地址，获取所述目标用户的原始语音数据，并将所述原始语音数据发送给鉴定人员，以供所述鉴定人员基于所述原始语音数据确定所述待鉴定用户的身份信息。

该步骤中，确定出目标用户后，根据目标用户的唯一身份标识，确定出目标用户的原始语音的存储地址，然后根据确定的存储地址，获取多个目标用户的原始语音数据，并将确定出的原始语音数据发送给鉴定人员，鉴定人员可以对接收到原始数据进行核查，确定出与待查询语音最相似的原始语音，最后根据确定的原始语音对应的候选用户的身份，确定出待鉴定人员的身份信息。

示例的，假设确定的目标用户数量为20个，将确定出的20个用户的原始语音发送给鉴定人员进行核查，其中鉴定人员可以为司法鉴定人员，也可以为公安人员等执行鉴定工作的人员。鉴定人员对接收到的原始语音进行核查，可以通过精密仪器进行鉴定，也可以直接播放进行人工鉴定核查。当确定出某个原始语音和待查询语音最相似时，如果该原始语音对应的候选用户是张三时，则待鉴定人员的身份即为张三。

通过上述方式，本申请在对待查询语音进行身份确定时，充分使用了语音数据中的声纹特征、关键字特征以及主题特征进行语音特征比对，从而可以提高查询比对的命中率以及识别效率。

请参阅图4、图5，图4为本申请实施例所提供的一种基于增强型声纹库的语音身份确定系统的结构示意图之一，图5为本申请实施例所提供的一种基于增强型声纹库的语音身份确定系统的结构示意图之二。如图4中所示，所述语音身份确定系统400包括：

获取模块410，用于获取待查询语音；

特征提取模块420，用于从所述待查询语音中提取待鉴定用户的第一声纹特征向量、第一关键字特征向量以及第一主题特征向量；

语音相似度确定模块430，用于分别将所述第一声纹特征向量、所述第一关键字特征向量以及所述第一主题特征向量与增强型声纹库中每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量进行比对，确定所述待鉴定用户与每个候选用户之间的语音相似度；

目标用户确定模块440，用于将语音相似度位于前预设位的候选用户，确定为目标用户；

身份确定模块450，用于按照所述目标用户的唯一身份标识对应的原始语音存储地址，获取所述目标用户的原始语音，并将所述原始语音发送给鉴定人员，以供所述鉴定人员基于所述原始语音确定所述待鉴定用户的身份信息。

进一步的，如图5中所示，所述语音身份确定系统400还包括声纹库构建模块460，所述声纹库构建模块460用于：

获取多个候选用户的至少一条原始语音；

针对于每个候选用户，从该候选用户的至少一条原始语音中提取出该候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量；

通过该候选用户的唯一身份标识绑定该候选用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量以及该候选用户的原始语音存储地址；

基于每个候选用户的第二声纹特征向量、第二关键字特征向量、第二主题特征向量、原始语音存储地址以及唯一身份标识，构建增强型声纹库。

进一步的，所述声纹库构建模块460在用于提取每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量时，所述声纹库构建模块460用于：

针对于每个候选用户，利用预先训练好的声纹特征提取模型，对该候选用户的至少一条原始语音进行声纹特征提取，确定出至少一个候选声纹特征向量，对确定出的至少一个候选声纹特征向量进行均值处理，将进行均值处理后得到的特征向量作为该候选用户的第二声纹特征向量；

利用预先训练好的语音内容识别模型，对该候选用户的至少一条原始语音进行文本识别提取，得到至少一个文本内容，利用预先建立好的关键字词库对至少一个文本内容进行关键字提取，确定出至少一个候选关键字特征向量，并求取确定出的至少一个候选关键字特征向量的并集，将求取完并集得到的特征向量作为该候选用户的第二关键字特征向量；

基于确定出的至少一个文本内容，利用预先训练好的主题抽取模型，对确定出的至少一个文本内容进行主题抽取，确定出至少一个候选主题特征向量，并求取确定出的至少一个候选主题特征向量的并集，将求取完并集得到的特征向量作为该候选用户的第二主题特征向量。

进一步的，所述语音相似度确定模块430在用于分别将所述第一声纹特征向量、所述第一关键字特征向量以及所述第一主题特征向量与增强型声纹库中每个候选用户的第二声纹特征向量、第二关键字特征向量以及第二主题特征向量进行比对，确定所述待鉴定用户与每个候选用户之间的语音相似度时，所述语音相似度确定模块430用于：

针对于每个候选用户，基于所述第一声纹特征向量和该候选用户的第二声纹特征向量，计算所述待鉴定用户与该候选用户之间的声纹相似度；

基于所述第一关键字特征向量和该候选用户的第二关键字特征向量，计算所述待鉴定用户与该候选用户之间的关键字相似度；

基于所述第一主题特征向量和该候选用户的第二主题特征向量，计算所述待鉴定用户与该候选用户之间的主题相似度；

基于所述声纹相似度、预设声纹权重、所述关键字相似度、预设关键字权重、所述主题相似度以及预设主题权重，计算所述待鉴定用户与该候选用户之间的语音相似度。

进一步的，所述语音相似度确定模块430在用于计算所述待鉴定用户与每个候选用户之间的语音相似度时，所述语音相似度确定模块430用于：

通过以下公式计算所述待鉴定用户与每个候选用户之间的语音相似度：

其中，pi为待鉴定用户与第i个候选用户的语音相似度，s函数为余弦相似度计算函数；

当k为0时，w0为预设声纹权重，为待鉴定用户与第i个候选用户的声纹相似度；

当k为1时，w1为预设关键字权重，为待鉴定用户与第i个候选用户的关键字相似度；

当k为2时，w2为预设主题权重，为待鉴定用户与第i个候选用户的主题相似度。

进一步的，所述目标用户确定模块440在用于将语音相似度位于前预设位的候选用户，确定为目标用户时，所述目标用户确定模块440用于：

将确定出的所述待鉴定用户与每个候选用户之间的语音相似度，按照降序排列，得到语音相似度序列；

将所述语音相似度序列中语音相似度位于前预设位的候选用户，确定为目标用户。

这样，本申请在对待查询语音进行身份确定时，充分使用了语音数据中的声纹特征、关键字特征以及主题特征进行语音特征比对，从而可以提高查询比对的命中率以及识别效率。

请参阅图6，图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示，所述电子设备600包括处理器610、存储器620和总线630。

所述存储器620存储有所述处理器610可执行的机器可读指令，当电子设备600运行时，所述处理器610与所述存储器620之间通过总线630通信，所述机器可读指令被所述处理器610执行时，可以执行如上述图1至图3所示方法实施例中的基于增强型声纹库的语音身份确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1至图3所示方法实施例中的基于增强型声纹库的语音身份确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（read-onlymemory，rom）、随机存取存储器（randomaccessmemory，ram）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于离线语音识别的测量系统输入方法与流程

一种基于增强型声纹库的语音身份确定方法及系统与流程

相关文章

最热文献