声纹聚类方法、装置、存储介质及电子装置与流程

2022-05-11 11:12:43 来源：中国专利 TAG：

1.本发明涉及金融相关领域，具体而言，涉及一种声纹聚类方法、装置、存储介质及电子装置。

背景技术：

2.随着社会的发展，各种语音信息的识别应用在更多的领域中，语音识别设计语音的聚类，聚类后的语音识别将会更准确。其中，主流的声纹聚类流程是：输入待聚类声纹集-》计算声纹两两之间的相似度-》基于声纹之间的相似度进行盲聚类(例如：层次聚类，谱聚类，k-means等)。
3.语音的声纹信息受原始语音的长度影响很大，相同说话人的短语音声纹与长语音声纹分布偏差较大，长语音声纹分布更集中更稳定。假如原始语音很短，比如小于1s，那么此语音提取的声纹信息波动很大，这样此声纹与其他的声纹计算的相似度就会不准确，这种声纹参与聚类过程时，会污染整个聚类过程，从而造成聚类错误率高。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种声纹聚类方法、装置、存储介质及电子装置，以至少解决现有技术中，由于原始语音短，提取声纹信息不准确导致的聚类结果错误率高的问题。
6.根据本发明实施例的一个方面，提供了一种声纹聚类方法，包括：提取每个语音片段的声纹信息，计算每个语音片段的长度；使用声纹模型，计算两两声纹之间的相似度；通过所述每个语音片段的长度与第一预设阈值的比对，将所述语音片段分为第一语音片段集合和第二语音片段集合；将所述第一语音片段集合中的声纹基于损失函数进行聚类，得到第一目标语音片段；计算所述第二语音片段集合中的每个语音片段与所述第一目标语音片段之间的目标相似度；在所述目标相似度满足第二预设阈值的情况下，将对应的语音片段与所述第一目标语音片段聚类。
7.可选的，所述提取每个语音片段的声纹信息，计算每个语音片段的长度，包括：从所述每个语音片段中提取语音特征；将所述语音特征送入x-vector网络，输出所述每个语音片段的声纹信息。
8.可选的，所述通过所述每个语音片段的长度与第一预设阈值的比对，将所述语音片段分为第一语音片段集合和第二语音片段集合，包括：将所述每个语音片段中语音长度大于等于所述第一阈值的语音片段，得到所述第一语音片段集合；将所述每个语音片段中语音长度小于所述第一阈值的语音片段，得到所述第二语音片段集合。
9.可选的，所述将所述第一语音片段集合中的声纹基于损失函数进行聚类，得到目标语音片段，包括：使用plda score的相反数作为所述损失函数，对所述第一语音片段集合中的声纹进行聚类，得到所述目标语音片段，其中，所述第一目标语音片段包括一个或多个。
10.可选的，所述方法还包括：在所述第一目标语音片段包括多个的情况下，对于所述第二语音片段集合中的每个语音片段执行如下操作：计算语音片段与所述多个第一目标语音片段之间的相似度，确定所述与所述语音片段相似度最小的第二目标语音片段；将所述语音片段与所述第二目标语音片段进行聚类。
11.根据本发明实施例的另一方面，还提供了一种声纹聚类装置，包括：第一计算单元，用于提取每个语音片段的声纹信息，计算每个语音片段的长度；第二计算单元，用于使用声纹模型，计算两两声纹之间的相似度；划分单元，用于通过所述每个语音片段的长度与第一预设阈值的比对，将所述语音片段分为第一语音片段集合和第二语音片段集合；第一聚类单元，用于将所述第一语音片段集合中的声纹基于损失函数进行聚类，得到第一目标语音片段；第三计算单元，用于计算所述第二语音片段集合中的每个语音片段与所述第一目标语音片段之间的目标相似度；第二聚类单元，用于在所述目标相似度满足第二预设阈值的情况下，将对应的语音片段与所述第一目标语音片段聚类。
12.可选的，所述第一计算单元，包括：提取模块，用于从所述每个语音片段中提取语音特征；输出模块，用于将所述语音特征送入x-vector网络，输出所述每个语音片段的声纹信息。
13.可选的，所述划分单元，包括：第一划分模块，用于将所述每个语音片段中语音长度大于等于所述第一阈值的语音片段，得到所述第一语音片段集合；第二划分模块，用于将所述每个语音片段中语音长度小于所述第一阈值的语音片段，得到所述第二语音片段集合。
14.可选的，所述第一聚类单元，包括：第一聚类模块，用于使用plda score的相反数作为所述损失函数，对所述第一语音片段集合中的声纹进行聚类，得到所述目标语音片段，其中，所述第一目标语音片段包括一个或多个。
15.可选的，所述装置还包括：在所述第一目标语音片段包括多个的情况下，对于所述第二语音片段集合中的每个语音片段执行如下操作：计算模块，用于计算语音片段与所述多个第一目标语音片段之间的相似度，确定所述与所述语音片段相似度最小的第二目标语音片段；第二聚类模块，用于将所述语音片段与所述第二目标语音片段进行聚类。
16.根据本技术实施例的第一个方面，提供了一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述声纹聚类方法。
17.根据本技术实施例的第一个方面，提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述声纹聚类方法。
18.在本发明实施例中，提取每个语音片段的声纹信息，计算每个语音片段的长度；使用声纹模型，计算两两声纹之间的相似度；通过每个语音片段的长度与第一预设阈值的比对，将语音片段分为第一语音片段集合和第二语音片段集合；将第一语音片段集合中的声纹基于损失函数进行聚类，得到第一目标语音片段；计算第二语音片段集合中的每个语音片段与第一目标语音片段之间的目标相似度；在目标相似度满足第二预设阈值的情况下，将对应的语音片段与第一目标语音片段聚类，利用声纹的原始语音的长度信息，先对较长语音的声纹进行聚类，然后将较短语音的声纹归类，解决了现有技术中，由于原始语音短，
提取声纹信息不准确导致的聚类结果错误率高的技术问题。
附图说明
19.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
20.图1是根据本发明实施例的一种可选的声纹聚类方法的移动终端的硬件结构框图；
21.图2是根据本发明实施例的一种可选的声纹聚类方法的流程图；
22.图3是根据本发明实施例的一种可选的声纹聚类装置图。
具体实施方式
23.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
24.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.本技术实施例所提供的声纹聚类方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种声纹聚类方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
26.存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的声纹聚类方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
27.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括
移动终端10的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(network interface controller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(radio frequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。
28.在本实施例中还提供了一种声纹聚类方法，图2是根据本发明实施例的声纹聚类方法的流程图，如图2所示，该声纹聚类方法流程包括如下步骤：
29.步骤s202，提取每个语音片段的声纹信息，计算每个语音片段的长度。
30.步骤s204，使用声纹模型，计算两两声纹之间的相似度。
31.步骤s206，通过每个语音片段的长度与第一预设阈值的比对，将语音片段分为第一语音片段集合和第二语音片段集合。
32.步骤s208，将第一语音片段集合中的声纹基于损失函数进行聚类，得到第一目标语音片段。
33.步骤s210，计算第二语音片段集合中的每个语音片段与第一目标语音片段之间的目标相似度。
34.步骤s212，在目标相似度满足第二预设阈值的情况下，将对应的语音片段与第一目标语音片段聚类。
35.在本实施例中，上述声纹聚类方法可以包括但不限于应用于各类语音识别场景下。
36.通过本技术提供的实施例，提取每个语音片段的声纹信息，计算每个语音片段的长度；使用声纹模型，计算两两声纹之间的相似度；通过每个语音片段的长度与第一预设阈值的比对，将语音片段分为第一语音片段集合和第二语音片段集合；将第一语音片段集合中的声纹基于损失函数进行聚类，得到第一目标语音片段；计算第二语音片段集合中的每个语音片段与第一目标语音片段之间的目标相似度；在目标相似度满足第二预设阈值的情况下，将对应的语音片段与第一目标语音片段聚类，即利用声纹的原始语音的长度信息，先对较长语音的声纹进行聚类，然后将较短语音的声纹归类，解决了现有技术中，由于原始语音短，提取声纹信息不准确导致的聚类结果错误率高的技术问题。
37.可选的，提取每个语音片段的声纹信息，计算每个语音片段的长度，包括：从每个语音片段中提取语音特征；将语音特征送入x-vector网络，输出每个语音片段的声纹信息。
38.可选的，通过每个语音片段的长度与第一预设阈值的比对，将语音片段分为第一语音片段集合和第二语音片段集合，包括：将每个语音片段中语音长度大于等于第一阈值的语音片段，得到第一语音片段集合；将每个语音片段中语音长度小于第一阈值的语音片段，得到第二语音片段集合。
39.可选的，将第一语音片段集合中的声纹基于损失函数进行聚类，得到目标语音片段，包括：使用plda score的相反数作为损失函数，对第一语音片段集合中的声纹进行聚类，得到目标语音片段，其中，第一目标语音片段包括一个或多个。
40.可选的，方法还包括：在第一目标语音片段包括多个的情况下，对于第二语音片段集合中的每个语音片段执行如下操作：计算语音片段与多个第一目标语音片段之间的相似度，确定与语音片段相似度最小的第二目标语音片段；将语音片段与第二目标语音片段进行聚类。
41.作为一种可选的实施例，本技术还提供了一种基于原始语音长度的声纹聚类方法。具有包括如下内容。
42.第1步：提取每个语音片段的声纹信息，同时计算每个语音片段的长度。声纹提取过程如下：从语音片段提取mfcc特征；将特征送入x-vector网络；x-vector网络的输入就是该语音片段的声纹信息。
43.第2步：使用plda模型(相当于声音模型)，计算两两声纹之间的相似度(plda score)。
44.第3步：根据设定的阈值(相当于第一预设阈值)，将第1步中的声纹分成两个集合a(相当于第一语音片段集合)和b(相当于第二语音片段集合)，a中声纹的原始语音长度都大于等于阈值，b中声纹的原始语音长度都少于阈值。假如a集合为空，那么将b赋值给a，同时将b设置为空
45.第4步：使用plda score的相反数作为ahc聚类的cost(相当于预设损失函数)，对a集合中的声纹进行ahc聚类，每个声纹得到一个组id。假设一共分成了s组，标记为g1，g2
…
gs。
46.其中，ahc是层次聚类法的一种，其基本思想是：把单个的文献看做一个个的类，然后利用不同的方法进行合并，使类的数目逐渐减少，直到最后为一个类或聚到所需的类数。
47.第5步：对b中的每个声纹打组标签。过程为：对b中的每一个声纹，使用plda模型，计算与第4步中的s个声纹组的相似度(声纹和组中所有声纹的相似度(plda score)的平均值)，在s个相似度中找出最小的，比如第i个，那么该声纹就归到第i组。
48.以上，就完成了声纹聚类。
49.在本实施例中，利用声纹的原始语音的长度信息，先对较长语音的声纹进行聚类，然后将较短语音的声纹归类，解决了由于原始语音短，提取声纹信息不准确导致的聚类结果错误率高的问题。
50.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
51.在本实施例中还提供了一种声纹聚类装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
52.图3是根据本发明实施例的声纹聚类装置的结构框图，如图3所示，该声纹聚类装置包括：
53.第一计算单元301，用于提取每个语音片段的声纹信息，计算每个语音片段的长度。
54.第二计算单元303，用于使用声纹模型，计算两两声纹之间的相似度。
55.划分单元305，用于通过每个语音片段的长度与第一预设阈值的比对，将语音片段
分为第一语音片段集合和第二语音片段集合。
56.第一聚类单元307，用于将第一语音片段集合中的声纹基于损失函数进行聚类，得到第一目标语音片段。
57.第三计算单元309，用于计算第二语音片段集合中的每个语音片段与第一目标语音片段之间的目标相似度。
58.第二聚类单元311，用于在目标相似度满足第二预设阈值的情况下，将对应的语音片段与第一目标语音片段聚类。
59.通过本技术提供的实施例，第一计算单元301提取每个语音片段的声纹信息，计算每个语音片段的长度；第二计算单元303使用声纹模型，计算两两声纹之间的相似度；划分单元305通过每个语音片段的长度与第一预设阈值的比对，将语音片段分为第一语音片段集合和第二语音片段集合；第一聚类单元307将第一语音片段集合中的声纹基于损失函数进行聚类，得到第一目标语音片段；第三计算单元309计算第二语音片段集合中的每个语音片段与第一目标语音片段之间的目标相似度；第二聚类单元311在目标相似度满足第二预设阈值的情况下，将对应的语音片段与第一目标语音片段聚类。即利用声纹的原始语音的长度信息，先对较长语音的声纹进行聚类，然后将较短语音的声纹归类，解决了现有技术中，由于原始语音短，提取声纹信息不准确导致的聚类结果错误率高的技术问题。
60.可选的，上述第一计算单元301，可以包括：提取模块，用于从每个语音片段中提取语音特征；输出模块，用于将语音特征送入x-vector网络，输出每个语音片段的声纹信息。
61.可选的，上述划分单元305，可以包括：第一划分模块，用于将每个语音片段中语音长度大于等于第一阈值的语音片段，得到第一语音片段集合；第二划分模块，用于将每个语音片段中语音长度小于第一阈值的语音片段，得到第二语音片段集合。
62.可选的，上述第一聚类单元307，可以包括：第一聚类模块，用于使用plda score的相反数作为损失函数，对第一语音片段集合中的声纹进行聚类，得到目标语音片段，其中，第一目标语音片段包括一个或多个。
63.可选的，上述装置还可以包括：在第一目标语音片段包括多个的情况下，对于第二语音片段集合中的每个语音片段执行如下操作：计算模块，用于计算语音片段与多个第一目标语音片段之间的相似度，确定与语音片段相似度最小的第二目标语音片段；第二聚类模块，用于将语音片段与第二目标语音片段进行聚类。
64.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
65.本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
66.可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：
67.s1，提取每个语音片段的声纹信息，计算每个语音片段的长度；
68.s2，使用声纹模型，计算两两声纹之间的相似度；
69.s3，通过每个语音片段的长度与第一预设阈值的比对，将语音片段分为第一语音片段集合和第二语音片段集合；
70.s4，将第一语音片段集合中的声纹基于损失函数进行聚类，得到第一目标语音片段；
71.s5，计算第二语音片段集合中的每个语音片段与第一目标语音片段之间的目标相似度；
72.s6，在目标相似度满足第二预设阈值的情况下，将对应的语音片段与第一目标语音片段聚类。
73.可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(read-only memory，简称为rom)、随机存取存储器(random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
74.本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
75.可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
76.可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
77.s1，提取每个语音片段的声纹信息，计算每个语音片段的长度；
78.s2，使用声纹模型，计算两两声纹之间的相似度；
79.s3，通过每个语音片段的长度与第一预设阈值的比对，将语音片段分为第一语音片段集合和第二语音片段集合；
80.s4，将第一语音片段集合中的声纹基于损失函数进行聚类，得到第一目标语音片段；
81.s5，计算第二语音片段集合中的每个语音片段与第一目标语音片段之间的目标相似度；
82.s6，在目标相似度满足第二预设阈值的情况下，将对应的语音片段与第一目标语音片段聚类。
83.可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
84.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
85.以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于最近克罗内克积分解的双曲正割回声消除法的制作方法

声纹聚类方法、装置、存储介质及电子装置与流程

相关文献

最热文献