多层级声纹库的搭建方法、系统、设备及介质与流程

2022-11-16 15:07:37 来源：中国专利 TAG：

1.本发明涉及音频处理领域，尤其涉及一种多层级声纹库的搭建方法、系统、设备及介质。

背景技术：

2.声纹识别，是生物识别技术的一种，也称为说话人识别，是一种通过声音判别说话人身份的技术。声纹识别技术主要分为两类：说话人辨别和说话人确认。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可使用辨认技术，而银行交易时则使用确认技术，无论哪种声纹识别技术都离不开声纹库的支持。
3.目前的任务和应用中多涉及1:1声纹库，但对于特定的任务需要1：n声纹库的支持。其中，1:1声纹库的搭建方法主要有两种：第一种是针对任务进行声纹采集，例如app内的声纹注册，即注册人对手机麦克风在安静的环境下进行录音，这种采集方法需要用户的高度配合；第二种是基于已有的音频数据搭建声纹库，对于每个用户的声纹采用近期质量较高的音频进行处理后落库，用户的声音具有易变性，易受到身体状况、年龄、情绪等影响，因此需要对声纹库定时更新。1：n声纹库中，第一层标签是已知的，第二层标签未知，即在第一层标签下有许多未知用户的音频，并且一个用户对应一个或多个音频，分辨音频难度大、效果差、成本高，第二层标签未知造成难以同步各用户的情况，难以预测用户数量。目前亟需支持搭建1：n声纹库的方法。

技术实现要素：

4.本发明要解决的技术问题是为了克服现有技术中缺少搭建1：n声纹库，无法对声纹库数据动态更新的缺陷，提供一种多层级声纹库的搭建方法、系统、设备及介质。
5.本发明是通过下述技术方案来解决上述技术问题：
6.作为本发明的第一方面，提供一种多层级声纹库的搭建方法，所述方法包括：
7.提取音频中的声纹数据；
8.输入所述声纹数据至所述多层级声纹库；
9.对所述声纹数据进行声纹匹配，得到声纹数据组；
10.根据每个所述声纹数据组对应生成标签数据，所述标签数据包含用户名数据。
11.较佳地，所述对所述声纹数据进行声纹匹配，得到声纹数据组的步骤包括：
12.选取所述声纹数据组中的所述声纹数据组成声纹数据对；
13.获取所述声纹数据对的相似度；
14.对比所述相似度，若所述相似度高于预设阈值，则将所述声纹数据归为同一声纹数据组，若所述相似度低于预设阈值，则重新选取所述声纹数据组中的所述声纹数据组成声纹数据对。
15.较佳地，所述对所述声纹数据进行声纹匹配，得到声纹数据组的步骤还包括：
16.若存在所述声纹数据与任意声纹数据组成的所述声纹数据对的相似度均低于预
设阈值，则新增标签数据。
17.较佳地，所述方法还包括：
18.判断所述声纹数据组中的声纹数据的接收时间间隔，若接收时间间隔大于预设时间间隔，则删除所述声纹数据，并替换为第一声纹数据；
19.所述第一声纹数据的接收时间晚于所述声纹数据的接收时间且与所述声纹数据的相似度高于预设阈值。
20.作为本发明的第二方面，提供一种多层级声纹库的搭建系统，所述系统包括：
21.提取模块，用于提取音频中的声纹数据；
22.输入模块，用于输入所述声纹数据至所述多层级声纹库；
23.匹配模块，用于对所述声纹数据进行声纹匹配，得到声纹数据组；
24.生成模块，用于根据每个所述声纹数据组对应生成标签数据，所述标签数据包含用户名数据。
25.较佳地，所述匹配模块包括：
26.选取单元，用于选取所述声纹数据组中的所述声纹数据组成声纹数据对；
27.获取单元，用于获取所述声纹数据对的相似度；
28.对比单元，用于对比所述相似度，若所述相似度高于预设阈值，则将所述声纹数据归为同一声纹数据组，若所述相似度低于预设阈值，则重新选取所述声纹数据组中的所述声纹数据组成声纹数据对。
29.较佳地，所述匹配模块还包括：
30.新增标签单元，用于若存在所述声纹数据与任意声纹数据组成的所述声纹数据对的相似度均低于预设阈值，则新增标签数据。
31.较佳地，所述系统还包括：
32.判断模块，用于判断所述声纹数据组中的声纹数据的接收时间间隔，若接收时间间隔大于预设时间间隔，则删除所述声纹数据，并替换为第一声纹数据；
33.所述第一声纹数据的接收时间晚于所述声纹数据的接收时间且与所述声纹数据的相似度高于预设阈值。
34.作为本发明的第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项所述的多层级声纹库的搭建方法。
35.作为本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的多层级声纹库的搭建方法。
36.本发明的积极进步效果在于：
37.本发明提供的多层级声纹库的搭建方法、系统、设备及介质，该方法中将数据分标签对声纹数据进行分类，无需依赖历史数据，可以实现多层级声纹库数据的动态更新，保持多层级声纹库的数据新鲜度，定时删除无用旧数据，避免声纹库无意义的增大，避免数据资源的浪费。
附图说明
38.图1为本发明一示例性实施例提供的一种多层级声纹库的搭建方法的流程示意
图；
39.图2为本发明另一示例性实施例提供的一种多层级声纹库的搭建方法的流程示意图；
40.图3为本发明一示例性实施例提供的一种多层级声纹库的搭建系统的模块示意图；
41.图4为本发明一示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
42.下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。
43.图1为本发明一示例性实施例提供的一种多层级声纹库的搭建方法的流程示意图，如图1所示，该方法包括：
44.步骤101、提取音频中的声纹数据。其中，声纹数据是用电声学仪器显示的接待言语信息的声波频谱，是由波长、频率以及强度等特征维度组成的数据。
45.步骤102、输入声纹数据至多层级声纹库。
46.步骤103、对声纹数据进行声纹匹配，得到声纹数据组，便于后续生成标签数据。
47.步骤104、根据每个声纹数据组对应生成标签数据，标签数据包含用户名数据，例如某声纹数据的标签数据为某酒店员工。
48.在一个实施例中，标签数据分为两层，第一层标签数据中包含场景数据和根据声纹数据组对应生成的标签数据，其中，场景数据是根据声纹数据的来源生成的，例如：酒店场景。
49.在一个实施例中，步骤104后还包括：判断声纹数据组中的声纹数据的接收时间间隔，若接收时间间隔大于预设时间间隔，则删除声纹数据，并替换为第一声纹数据，设置预设时间间隔的目的在于，用户短时间声纹数据变化不大，故避免声纹数据更新频繁、更新频率过快，加大声纹库的工作量。
50.其中，第一声纹数据的接收时间晚于所述声纹数据的接收时间且与所述声纹数据的相似度高于预设阈值，本步骤考虑到用户声纹会随着时间推移发生变化，故及时更新大于预设时间间隔的声纹数据，保证声纹库数据的新鲜度，使声纹库中的数据更加准确。
51.在一个实施例中，若声纹库的标签数据数量达到上限，则删除达到最大时间间隔的声纹数据，例如，某一用户已离职，则在声纹库的标签数据达到上限时，删除该用户的声纹数据，避免了声纹库无意义的增大，减少了数据资源的浪费。
52.图2为本发明另一示例性实施例提供的一种多层级声纹库的搭建方法的流程示意图，如图2所示，步骤103包括：
53.步骤1031、选取声纹数据组中的声纹数据组成声纹数据对。在本步骤中，任意选取一声纹数据组中的声纹数据，再选取一声纹数据组成声纹数据对。
54.步骤1032、获取声纹数据对的相似度，相似度是判别两个声纹数据是否为同一用户发出的参考值。
55.步骤1033、对比相似度，若相似度高于预设阈值，则将声纹数据归为同一声纹数据组，若相似度低于预设阈值，则重新选取声纹数据组中的声纹数据组成声纹数据对。
56.步骤1034、若存在声纹数据与任意声纹数据组成的声纹数据对的相似度均低于预设阈值，则新增标签数据，在实际应用中，如一声纹数据与任意其他声纹数据的相似度均低于预设阈值，则可以认为是新用户的声纹数据，故新增标签数据，将该声纹数据与新增标签数据相对应。
57.图3为本发明一示例性实施例提供的一种多层级声纹库的搭建系统的模块示意图，如图3所示，该系统包括：
58.提取模块301，用于提取音频中的声纹数据；
59.输入模块302，用于输入所述声纹数据至所述多层级声纹库；
60.匹配模块303，用于对所述声纹数据进行声纹匹配，得到声纹数据组；
61.其中，匹配模块303包括：
62.选取单元3031，用于选取所述声纹数据组中的所述声纹数据组成声纹数据对；
63.获取单元3032，用于获取所述声纹数据对的相似度；
64.对比单元3033，用于对比所述相似度，若所述相似度高于预设阈值，则将所述声纹数据归为同一声纹数据组，若所述相似度低于预设阈值，则重新选取所述声纹数据组中的所述声纹数据组成声纹数据对。
65.新增标签单元3034，用于若存在所述声纹数据与任意声纹数据组成的所述声纹数据对的相似度均低于预设阈值，则新增标签数据。
66.生成模块304，用于根据每个所述声纹数据组对应生成标签数据，所述标签数据包含用户名数据。
67.判断模块305，用于判断所述声纹数据组中的声纹数据的接收时间间隔，若接收时间间隔大于预设时间间隔，则删除所述声纹数据，并替换为第一声纹数据；
68.所述第一声纹数据的接收时间晚于所述声纹数据的接收时间且与所述声纹数据的相似度高于预设阈值。
69.图4为本发明一示例实施例示出的一种电子设备的结构示意图，表示出了适于用来实现如上述实施例中的多层级声纹库的搭建方法的示例性电子设备40的框图。图4显示的电子设备40仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
70.如图4所示，电子设备40可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备40的组件可以包括但不限于：上述至少一个处理器41、上述至少一个存储器42、连接不同系统组件(包括存储器42和处理器41)的总线43。
71.总线43包括数据总线、地址总线和控制总线。
72.存储器42可以包括易失性存储器，例如随机存取存储器(ram)421和/或高速缓存存储器422，还可以进一步包括只读存储器(rom)423。
73.存储器42还可以包括具有一组(至少一个)程序模块424的程序工具425(或实用工具)，这样的程序模块424包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
74.处理器41通过运行存储在存储器42中的计算机程序，从而执行各种功能应用以及数据处理，例如上述实施例所提供的多层级声纹库的搭建方法。
75.电子设备40也可以与一个或多个外部设备44(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口45进行。并且，模型生成的电子设备40还可以通过网络
适配器46与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器46通过总线43与模型生成的电子设备40的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的电子设备40使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
76.应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
77.本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现如上述实施例所提供的多层级声纹库的搭建方法的步骤。
78.其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
79.在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现上述提供的方法的步骤。
80.其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
81.虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：歌曲创作方法、歌曲创作装置、存储介质及电子设备与流程

多层级声纹库的搭建方法、系统、设备及介质与流程

相关文献

最热文献