说话人日志模型的训练方法、装置、设备及存储介质与流程

2022-05-06 09:24:35 来源：中国专利 TAG：

1.本技术实施例涉及人工智能领域，特别涉及一种说话人日志模型的训练方法、装置、设备及存储介质。

背景技术：

2.说话人日志是指在采集的语音信号中，通过分辨出不同说话人的说话阶段对语音信号进行标注，从而检测出每段语音对应的说话人的身份，进而辅助说话人识别系统针对每个说话人进行对应的识别，说话人日志应用于会议记录、客服工作监督等多种场景中。
3.相关技术中，在针对语音信号生成说话人日志时，利用训练好的说话人日志模型分别计算语音信号对应的估计说话人类别概率及估计说话人个数概率，并通过估计说话人类别概率确定说话人类别，通过估计说话人个数概率确定说话人个数。
4.在上述相关技术中，需要分别利用估计说话人类别概率计算第一损失函数值和利用估计说话人个数概率计算第二损失函数值来对说话人日志模型进行训练，导致模型的训练效果不佳，进而导致说话人识别的准确率较低，也即说话人日志生成的准确率较低。

技术实现要素：

5.本技术提供了一种说话人日志模型的训练方法、装置、设备及存储介质，能够提高说话人日志的生成准确率。所述技术方案如下：
6.根据本技术的一方面，提供了一种说话人日志模型的训练方法，所述方法包括：
7.获取样本语音信号的特征序列及真实标签，所述真实标签是指表征真实说话人类别的标签；
8.根据所述特征序列获取估计吸引子序列，所述估计吸引子序列中的一个吸引子表征一个说话人类别；
9.将所述特征序列及所述估计吸引子序列输入至所述说话人日志模型中得到估计说话人类别概率，所述估计说话人类别概率是指所述说话人日志模型估计得到的说话人类别的概率；
10.基于所述估计说话人类别概率及所述真实标签，计算第一损失函数值；
11.基于所述第一损失函数值对所述说话人日志模型的模型参数进行更新。
12.根据本技术的一方面，通过所述说话人日志模型的所述特征提取网络中的非负函数对所述语音特征进行特征提取，得到提取特征；
13.将所述提取特征的取值进行归一化，得到所述样本语音信号的所述特征序列。
14.根据本技术的一方面，提供了一种说话人识别方法，所述方法包括：
15.获取语音信号的特征序列；
16.根据所述特征序列获取估计吸引子序列，所述估计吸引子序列中的一个吸引子表征一个说话人类别；
17.将所述特征序列及所述估计吸引子序列输入至所述说话人日志模型中得到估计
说话人类别概率，所述估计说话人类别概率是指所述说话人日志模型估计得到的说话人类别的概率；
18.基于所述估计说话人类别概率，确定所述语音信号对应的说话人类别及说话人个数。
19.根据本技术的一方面，所述说话人日志模型还包括特征提取网络；
20.获取所述语音信号的语音特征，所述语音特征为所述语音信号的时频特征数据；
21.通过所述特征提取网络对所述语音特征进行特征提取，得到所述语音信号的所述特征序列。
22.根据本技术的一方面，通过所述说话人日志模型的所述特征提取网络中的非负函数对所述语音特征进行特征提取，得到提取特征；
23.将所述提取特征的取值进行归一化，得到所述样本语音信号的所述特征序列。
24.根据本技术的一方面，提供了一种说话人日志模型的训练装置，所述装置包括：
25.第一获取模块，用于获取样本语音信号的特征序列及真实标签，所述真实标签是指表征真实说话人类别的标签；
26.第二获取模块，用于根据所述特征序列获取估计吸引子序列，所述估计吸引子序列中的一个吸引子表征一个说话人类别；
27.估计模块，用于将所述特征序列及所述估计吸引子序列输入至所述说话人日志模型中得到估计说话人类别概率，所述估计说话人类别概率是指所述说话人日志模型估计得到的说话人类别的概率；
28.计算模块，用于基于所述估计说话人类别概率及所述真实标签，计算第一损失函数值；
29.更新模块，用于基于所述第一损失函数值对所述说话人日志模型的模型参数进行更新。
30.根据本技术的一方面，提供了一种说话人识别装置，所述装置包括：
31.第一获取模块，用于获取语音信号的特征序列；
32.第二获取模块，用于根据所述特征序列获取估计吸引子序列，所述估计吸引子序列中的一个吸引子表征一个说话人类别；
33.估计模块，用于将所述特征序列及所述估计吸引子序列输入至所述说话人日志模型中得到估计说话人类别概率，所述估计说话人类别概率是指所述说话人日志模型估计得到的说话人类别的概率；
34.识别模块，用于基于所述估计说话人类别概率，确定所述语音信号对应的说话人类别及说话人个数。
35.根据本技术的另一方面，提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的说话人日志模型的训练方法或所述的说话人识别方法。
36.根据本技术的另一方面，提供了一种计算机存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的说话人日志模型的训练方法或所述的说话人识别方法。
37.根据本技术的另一方面，提供了一种计算机程序产品，上述计算机程序产品包括
计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行如上方面所述的说话人日志模型的训练方法或所述的说话人识别方法。
38.本技术提供的技术方案带来的有益效果至少包括：
39.通过获取样本语音信号的特征序列及真实标签，根据特征序列获取估计吸引子序列；根据特征序列及估计吸引子序列得到估计说话人类别概率，并基于估计说话人类别概率及真实标签，计算第一损失函数值；基于第一损失函数值对说话人日志模型的模型参数进行更新。
40.本技术根据估计说话人类别概率及真实标签计算第一损失函数值，并通过第一损失函数值对说话人日志模型的模型参数进行更新，使得训练好的说话人日志模型能够具备更高的语音信号识别精度，从而生成更加准确的说话人日志。
附图说明
41.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1是本技术一个示例性实施例提供的一种说话人日志模型的训练方法的示意图；
43.图2是本技术一个示例性实施例提供的计算机系统的架构示意图；
44.图3是本技术一个示例性实施例提供的说话人日志模型的训练方法的流程图；
45.图4是本技术一个示例性实施例提供的说话人日志模型的训练方法的流程图；
46.图5是本技术一个示例性实施例提供的计算估计说话人类别概率的结构示意图；
47.图6是本技术一个示例性实施例提供的计算理想说话人类别概率的结构示意图；
48.图7是本技术一个示例性实施例提供的说话人识别方法的流程图；
49.图8是本技术一个示例性实施例提供的说话人识别方法的流程图；
50.图9是本技术一个示例性实施例提供的说话人识别方法的结构示意图；
51.图10是本技术一个示例性实施例提供的说话人日志模型的训练装置的框图；
52.图11是本技术一个示例性实施例提供的说话人识别装置的框图；
53.图12是本技术一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
54.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
55.本技术实施例提供了一种说话人日志模型的训练方法的技术方案，如图1所示，该方法可以由计算机设备执行，计算机设备可以是终端或服务器。
56.示例性地，计算机设备获取样本语音信号101的特征序列103及真实标签102。
57.真实标签102是指通过归一化处理得到的表征真实说话人类别的标签，真实标签102中的一行代表一个说话人类别，一列代表一个时间戳，图1中真实标签102可表示为：在
第一时间戳内只有第一说话人说话，在第二时间戳内有第二说话人及第三说话人说话，在第三时间戳内只有第三说话人说话，在第四时间戳内有第一说话人说话。
58.样本语音信号101为待进行说话人信息识别的语音样本。特征序列103为样本语音信号101中每一时间戳对应的特征向量，比如，t1，t2，t3…
t
t
，其中，t1表示第一时间戳对应的特征向量。
59.计算机设备将特征序列103输入至说话人日志模型中的编码器104，编码器104中的神经网络对特征序列103进行编码处理，得到说话人特征向量；并将说话人特征向量输入至说话人日志模型中的解码器105，解码器105中的神经网络对进行说话人特征向量解码处理，得到估计吸引子序列106。
60.说话人日志模型是指用于识别语音信号中各个时间点对应的说话人类别和/或说话人个数的模型，说话人日志模型通过分辨出语音信号中不同说话人的说话阶段，从而检测出每段语音对应的说话人的身份。需要说明的是，说话人的身份是指说话人日志模型可以识别出各个时间点对应的不同说话人，并不能确定出各个时间点对应的具体说话人身份。例如，在语音信号中第三秒内有两个人说话，说话人日志模型仅可以确定出在第三秒内有两个人说话，分别为a和b，但不能确定a是“张三”还是“李四”。
61.在一种可能的实现方式中，确定出各个时间点对应的具体说话人身份可通过声纹识别模型预先录制每个说话人的声音，通过与声纹识别模型中预先录制的说话人的声音进行对比，从而确定出语音信号中各个时间点对应的具体说话人身份。
62.例如，在会议记录场景中，通过说话人日志模型对会议过程中录制的音频进行说话人识别，得到语音信号对应的说话人识别结果，从而生成与该会议对应的说话人日志，比如，在第3分5秒至4分2秒时，c和d同时说话，在第6分30秒至8分2秒时，只有c说话。后续，在对会议内容进行复听时，可以根据说话人日志对目标说话人的会议发言进行选择性的收听，比如，只想听c的说话内容，可只听取第3分5秒至4分2秒和第6分30秒至8分2秒的内容。
63.说话人特征向量是编码器104对特征序列103进行编码处理得到的用于表示说话人语音特征的向量。
64.估计吸引子序列106是指说话人日志模型基于特征序列103估计得到的估计说话人特征，比如，s1，s2，s3…
sn，其中，估计吸引子序列106中的一个吸引子表征一个说话人类别。
65.例如，样本语音信号101中包括a、b、c三个人的语音信号和一些杂音，将样本语音信号101的特征序列103经过编码器-解码器处理，得到样本语音信号101对应的估计吸引子序列106，估计吸引子序列106中包括4个吸引子，分别为s1，s2，s3和s4，其中，计算机设备将样本语音信号101中的人声部分划分为不同的吸引子s1，s2，s3，将样本语音信号101中的非人声部分统一划分为一个吸引子s4。
66.计算机设备通过向量点积计算特征序列103中的每一个特征与估计吸引子序列106中的每一个吸引子之间的相似度；并将特征序列103及估计吸引子序列106的相似度结果输入至说话人日志模型中的分类器网络107进行计算，得到估计说话人类别概率108。
67.估计说话人类别概率108是指说话人日志模型估计得到的说话人类别的概率。估计说话人类别概率108中一行代表一个说话人类别，一列代表一个时间戳，以图1中估计说话人类别概率108的第一列为例，第一列可表示为：在第一时间戳内第一说话人说话的概率
network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器200可以是上述目标应用程序的后台服务器，用于为目标应用程序的客户端提供后台服务。
81.其中，云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。
82.在一些实施例中，上述服务器还可以实现为区块链系统中的节点。区块链(blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
83.终端100和服务器200之间可以通过网络进行通信，如有线或无线网络。
84.本技术实施例提供的说话人日志模型的训练方法或说话人识别方法，各步骤的执行主体可以是计算机设备，所述计算机设备是指具备数据计算、处理和存储能力的电子设备。以图2所示的方案实施环境为例，可以由终端100执行说话人日志模型的训练方法或说话人识别方法(如终端100中安装运行的目标应用程序的客户端执行说话人日志模型的训练方法或说话人识别方法)，也可以由服务器200执行该说话人日志模型的训练方法或说话人识别方法，或者由终端100和服务器200交互配合执行，本技术对此不作限定。
85.图3是本技术一个示例性实施例提供的说话人日志模型的训练方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：
86.步骤302：获取样本语音信号的特征序列及真实标签。
87.真实标签是指表征真实说话人类别的标签。真实标签中的一行代表一个说话人类别，一列代表一个时间戳。
88.比如，真实标签为其中第一行代表第一说话人，第二行代表第二说话人，第三行代表第三说话人，第一列代表时间戳t，第二列代表时间戳t 1，第三列代表时间戳t 2，以第一列为例，第一列表示为：在时间戳t内，0代表在时间戳t内第一说话人没说话、0.5分别代表在时间戳t 1内第二说话人和第三说话人同时说话了；以第三列为例，1代表在时间戳t 2内只有第三说话人说话了。
89.样本语音信号为待进行说话人信息识别的语音样本。
90.特征序列为样本语音信号中每一时间戳对应的特征向量。
91.比如，特征序列为其中第一列代表时间戳t对应的特征向量，第二列代表时间戳t 1对应的特征向量，该特征序列的行数代表时间戳对应的特征向量的维度。
92.其中，获取样本语音信号的方式包括如下情况中的至少一种：
93.1、计算机设备接收样本语音信号，例如：终端为发起客服服务的终端，在客服服务阶段进行通话内容的录制，并在录制结束后，将通话内容的语音信号发送至服务器进行识别。
94.2、计算机设备从已存储的数据库中获取样本语音信号，如：在会议类的应用程序中，针对会议过程进行录制，对会议中各个发言人的发言内容进行录制，并存储至服务器中，在需要进行说话人识别时，从已存储的会议录制中获取会议录制的语音信号进行识别。
95.值得注意的是，上述获取样本语音信号的方式仅为示意性的举例，本技术实施例对此不加以限定。
96.步骤304a：根据特征序列获取估计吸引子序列。
97.估计吸引子序列是指说话人日志模型基于特征序列估计得到的估计说话人特征，即，说话人日志模型根据特征序列中的特征估计出估计说话人特征，比如，s1，s2，s3…
sn，s1，s2，s3…
sn分别代表一个吸引子，其中估计吸引子序列中的一个吸引子表征一个说话人类别。
98.例如，样本语音信号中包括a、b、c三个人的语音信号和一些杂音，根据样本语音信号的特征序列得到样本语音信号对应的估计吸引子序列，估计吸引子序列中包括4个吸引子，分别为s1，s2，s3和s4，其中，计算机设备将样本语音信号中的人声部分划分为不同的吸引子s1，s2，s3，将样本语音信号中的非人声部分统一划分为一个吸引子s4。
99.步骤306：将特征序列及估计吸引子序列输入至说话人日志模型中得到估计说话人类别概率。
100.估计说话人类别概率是指说话人日志模型估计得到的不同时间戳对应的说话人类别的概率。估计说话人类别概率为一个二维矩阵，其中矩阵中的一行代表一个说话人类别，矩阵中的一列代表一个时间戳，比如，第一行的第一个概率值代表第一时间戳内第一说话人说话的概率。
101.在获取估计吸引子序列的情况下，计算机设备将特征序列及估计吸引子序列输入至说话人日志模型中，从而得到估计说话人类别概率。
102.步骤308：基于估计说话人类别概率及真实标签，计算第一损失函数值。
103.在获取估计说话人类别概率的情况下，计算机设备基于估计说话人类别概率及真实标签，计算第一损失函数值。
104.可选地，第一损失函数值为估计说话人类别概率与真实标签之间的交叉熵、估计说话人类别概率与真实标签之间的均方差、估计说话人类别概率与真实标签之间的绝对差中的至少一种，但不限于此，本技术实施例对此不作限定。
105.步骤310：基于第一损失函数值对说话人日志模型的模型参数进行更新。
106.示例性地，计算机设备基于第一损失函数值对说话人日志模型的模型参数进行更
新，从而得到训练完成的说话人日志模型。
107.模型参数更新是指对说话人日志模型里面的网络参数进行更新，或对模型里面的各个网络模块的网络参数进行更新，或对模型里面的各个网络层的网络参数进行更新，但不限于此，本技术实施例对此不作限定。
108.说话人日志模型的模型参数包括说话人日志模型中特征提取网络的网络参数、编码器的网络参数、解码器的网络参数、分类器网络的网络参数中的至少一种。
109.在获取第一损失函数值的情况下，计算机设备基于第一损失函数值对说话人日志模型中的特征提取网络、编码器、解码器及分类器网络的网络参数进行更新，得到更新后的特征提取网络、编码器、解码器及分类器网络，从而得到训练完成的说话人日志模型。
110.综上所述，本实施例提供的方法，通过获取样本语音信号的特征序列及真实标签，根据特征序列获取估计吸引子序列；根据特征序列及估计吸引子序列得到估计说话人类别概率，并基于估计说话人类别概率及真实标签，计算第一损失函数值；根据第一损失函数值对说话人日志模型的模型参数进行更新，使得训练好的说话人日志模型能够具备更高的语音信号识别精度，从而生成更加准确的说话人日志。
111.图4是本技术一个示例性实施例提供的说话人日志模型的训练方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：
112.步骤402：获取样本语音信号的特征序列及真实标签。
113.真实标签是指表征真实说话人类别的标签。真实标签中的一行代表一个说话人类别，一列代表一个时间戳。
114.样本语音信号为待进行说话人信息识别的语音样本。
115.真实标签是指通过归一化处理得到的表征真实说话人类别的标签，真实标签为一个二维矩阵，矩阵中的一行代表一个说话人类别，矩阵中的一列代表一个时间戳。
116.真实标签的归一化公式为：
[0117][0118]
其中，r为实数，t为时间戳的个数，s为真实说话人个数，m为归一化前的真实标签。
[0119]
例如，归一化前的真实标签m可表示为则归一化后的真实标签可表示为真实标签中以第一列为例，0.5代表第二说话人和第三说话人同时说话。
[0120]
示例性地，计算机设备获取样本语音信号的语音特征，并通过特征提取网络对该语音特征进行特征提取，得到样本语音信号的特征序列。
[0121]
语音特征为样本语音信号的时频特征数据。特征提取网络提取语音特征中的特
征。
[0122]
可选地，语音特征包括样本语音信号的语谱图、频率倒谱系数(mel frequency cepstrum coefficient，mfcc)中的至少一种，但不限于此，本技术实施例对此不作限定。
[0123]
在一种可能的实现方式中，通过说话人日志模型的特征提取网络中的非负函数对语音特征进行特征提取，得到提取特征；并将提取特征的取值进行归一化，得到样本语音信号的特征序列。
[0124]
可选地，特征提取网络中的非负函数为激活函数sigmoid、激活函数softplus、线性整流函数relu中的至少一种，但不限于此，本技术实施例对此不作限定。
[0125]
步骤404a：根据特征序列获取估计吸引子序列。
[0126]
特征序列为样本语音信号中每一时间戳对应的特征向量。
[0127]
估计吸引子序列是指说话人日志模型基于特征序列估计得到的估计说话人特征，即，说话人日志模型根据特征序列中的特征估计出估计说话人特征，比如，s1，s2，s3…
sn，其中，估计吸引子序列中的一个吸引子表征一个说话人类别。
[0128]
示例性地，说话人日志模型包括编码器和解码器，计算机设备将特征序列输入至编码器，编码器中神经网络对特征序列进行编码处理，得到说话人特征向量；计算机设备将说话人特征向量输入至解码器，解码器中的神经网络对说话人特征向量进行解码处理，得到估计吸引子序列。
[0129]
可选地，编码器中的神经网络是与特征序列输入顺序无关的神经网络，比如，解码器中的神经网络为全自注意力网络transformer。解码器中的神经网络为循环神经网络(recurrent neural network，rnn)、长短期记忆网络(long short-term memory，lstm)中的至少一种，但不限于此，本技术实施例对此不作限定。
[0130]
说话人特征向量是编码器104对特征序列103进行编码处理得到的用于表示说话人语音特征的向量。
[0131]
例如，样本语音信号中包括a、b、c三个人的语音信号和一些杂音，将样本语音信号的特征序列经过编码器-解码器处理，则得到样本语音信号对应的估计吸引子序列，估计吸引子序列中包括4个吸引子，分别为s1，s2，s3和s4，其中，计算机设备将样本语音信号中的人声部分划分为不同的吸引子s1，s2，s3，将样本语音信号中的非人声部分统一划分为一个吸引子s4。
[0132]
步骤406a：将特征序列及估计吸引子序列输入至说话人日志模型中得到估计说话人类别概率。
[0133]
估计说话人类别概率是指说话人日志模型估计得到的不同时间戳对应的说话人类别的概率。估计说话人类别概率为二维矩阵，其中矩阵中的一行代表一个说话人类别，矩阵中的一列代表一个时间戳，比如，第一行的第一个概率值代表第一时间戳内第一说话人说话的概率。
[0134]
示例性地，说话人日志模型包括分类器网络，计算机设备通过计算特征序列中的每一个特征与估计吸引子序列中的每一个吸引子之间的相似度；并将特征序列及估计吸引子序列的相似度结果输入至分类器网络进行计算，从而得到估计说话人类别概率。
[0135]
分类器网络用于确定每一时间戳对应的说话人类别的概率。
[0136]
估计说话人类别概率p的确定公式可表示为：
[0137]
p＝softmax(a
t
n,dim＝0)
[0138]
其中，a为解码器输出的估计吸引子序列，a∈rd×s，r为实数，d为向量维度，s为吸引子个数，a
t
为估计吸引子序列所表征的二维矩阵的转置，n为特征序列，n∈rd×
t
，t为时间戳的个数，p∈rs×
t
，dim＝0为向量的第一个维度。
[0139]
步骤408a：基于估计说话人类别概率及真实标签，计算第一损失函数值。
[0140]
在获取估计说话人类别概率的情况下，计算机设备基于估计说话人类别概率及真实标签，计算第一损失函数值。
[0141]
可选地，第一损失函数值为估计说话人类别概率与真实标签之间的交叉熵、估计说话人类别概率与真实标签之间的均方差、估计说话人类别概率与真实标签之间的绝对差中的至少一种，但不限于此，本技术实施例对此不作限定。
[0142]
例如，以第一损失函数值为交叉熵为例，计算机设备基于估计说话人类别概率中的每一个位置的概率值及真实标签中对应位置的值，得到估计说话人类别概率及真实标签之间的交叉熵。
[0143]
交叉熵的计算公式为：
[0144][0145]
式中，m为真实标签，n为估计说话人类别概率，mi为估计说话人类别概率中的第i个概率值，ni为真实标签中与mi相对应位置的值。
[0146]
例如，图5示出了计算估计说话人类别概率的结构示意图，计算机设备获取样本语音信号501的语音特征502及真实标签511，并通过特征提取网络503对该语音特征502进行特征提取，得到样本语音信号501的特征序列504。计算机设备将特征序列504输入至编码器505进行编码处理，得到说话人特征向量；并将说话人特征向量输入至解码器506进行解码处理，得到估计吸引子序列507。
[0147]
计算机设备对特征序列504及估计吸引子序列507进行相似度计算508，计算机设备通过计算特征序列504中的每一个特征与估计吸引子序列507中的每一个吸引子之间的相似度；并将特征序列504及估计吸引子序列507的相似度结果输入至分类器网络509进行计算，从而得到估计说话人类别概率510。
[0148]
估计说话人类别概率510是指说话人日志模型估计得到的说话人类别的概率。估计说话人类别概率510中一行代表一个说话人类别，一列代表一个时间戳。
[0149]
例如，估计说话人类别概率510为的情况下，估计说话人类别概率510中的4行分别代表第一说话人、第二说话人、第三说话人、第四说话人，估计说话人类别概率510中的4列分别代表第一时间戳、第二时间戳、第三说时间戳、第四时间戳。
[0150]
以第一列为例，估计说话人类别概率510中的第一列可表示为：在第一时间戳内第一说话人说话的概率为0.71，在第一时间戳内第二说话人说话的概率为0.13，在第一时间戳内第三说话人说话的概率为0.15，在第一时间戳内第四说话人说话的概率为0.05。
[0151]
计算机设备基于估计说话人类别概率510及真实标签511，计算得到第一损失函数值512。
[0152]
步骤404b：基于真实标签及特征序列的乘积，得到理想吸引子序列。
[0153]
理想吸引子序列是指说话人日志模型基于特征序列及真实标签计算得到的真实说话人特征，即，说话人日志模型根据真实标签中的说话人类别确定特征序列中的真实说话人特征，比如，q1，q2，
…
qm。其中，理想吸引子序列中的一个吸引子表征一个说话人类别。
[0154]
示例性地，计算机设备基于真实标签及特征序列的乘积，得到理想吸引子序列。
[0155]
理想吸引子序列的计算公式可表示为：
[0156][0157]
其中，r为实数，d为向量维度，s为吸引子个数，为真实标签所表征的二维矩阵的转置，为沿真实标签的每一行求和，为全选真实标签中的第i列。
[0158]
步骤406b：将特征序列及理想吸引子序列输入至说话人日志模型中得到理想说话人类别概率。
[0159]
理想说话人类别概率是指基于真实标签得到的真实的说话人类别的概率。与估计说话人类别概率相似，理想说话人类别概率为一个二维矩阵，其中矩阵中的一行代表一个说话人类别，矩阵中的一列代表一个时间戳，比如，第一行的第一个概率值代表第一时间戳内第一说话人说话的概率。
[0160]
示例性地，说话人日志模型包括分类器网络，计算机设备通过计算特征序列中的每一个特征与理想吸引子序列中的每一个吸引子之间的相似度；并将特征序列及理想吸引子序列的相似度结果输入至说话人日志模型中的分类器网络进行计算，得到理想说话人类别概率。
[0161]
理想说话人类别概率的确定公式可表示为：
[0162][0163]
其中，r为实数，d为向量维度，s为吸引子个数，为理想吸引子序列，吸引子序列所表征的二维矩阵的转置，n为特征序列dim＝0为向量的第一个维度。
[0164]
步骤408b：基于理想说话人类别概率及真实标签，计算第二损失函数值。
[0165]
在获取理想说话人类别概率的情况下，计算机设备基于理想说话人类别概率及真实标签，计算第二损失函数值。
[0166]
可选地，第二损失函数值为理想说话人类别概率与真实标签之间的交叉熵、理想说话人类别概率与真实标签之间的均方差、理想说话人类别概率与真实标签之间的绝对差中的至少一种，但不限于此，本技术实施例对此不作限定。
[0167]
例如，图6示出了计算理想说话人类别概率的结构示意图，计算机设备获取样本语音信号601的语音特征602及真实标签609，并通过特征提取网络603对该语音特征602进行特征提取，得到样本语音信号601的特征序列604。计算机设备基于真实标签609及特征序列
604的乘积，得到理想吸引子序列605。
[0168]
计算机设备对特征序列604及理想吸引子序列605进行相似度计算606，计算机设备通过计算特征序列604中的每一个特征与理想吸引子序列605中的每一个吸引子之间的相似度；并将特征序列604及理想吸引子序列605的相似度结果输入至分类器网络607进行计算，从而得到理想说话人类别概率608。
[0169]
理想说话人类别概率608是指基于真实标签609得到的真实的说话人类别的概率。理想说话人类别概率608中一行代表一个说话人类别，一列代表一个时间戳。
[0170]
例如，理想说话人类别概率608为的情况下，理想说话人类别概率608中的4行分别代表第一说话人、第二说话人、第三说话人、第四说话人，理想说话人类别概率608中的4列分别代表第一时间戳、第二时间戳、第三说时间戳、第四时间戳。
[0171]
以第一列为例，理想说话人类别概率608中的第一列可表示为：在第一时间戳内第一说话人说话的概率为0.61，在第一时间戳内第二说话人说话的概率为0.21，在第一时间戳内第三说话人说话的概率为0.17，在第一时间戳内第四说话人说话的概率为0.01。
[0172]
计算机设备基于理想说话人类别概率608及真实标签609，计算得到第二损失函数值610。
[0173]
计算机设备基于真实标签及特征序列确定理想吸引子序列，即，根据真实标签中的说话人类别确定特征序列中的真实说话人特征，通过特征序列及理想吸引子序列得到理想说话人类别概率，并基于理想说话人类别概率及真实标签，计算第二损失函数值。基于第二损失函数值对说话人日志模型的模型参数进行更新，使得更新后的说话人日志模型中的特征提取网络在对语音特征进行特征提取时，能够更加精确地提取语音特征中的说话人特征，并形成更加精确的特征序列，从而使得说话人日志模型能够具备更高的语音信号识别精度。
[0174]
步骤410：基于第一损失函数值及第二损失函数值的和，对说话人日志模型的模型参数进行更新。
[0175]
示例性地，第一损失函数值为估计说话人类别概率及真实标签之间的第一交叉熵，第二损失函数值为理想说话人类别概率及真实标签之间的第二交叉熵。
[0176]
基于第一交叉熵及第二交叉熵的和，对说话人日志模型的模型参数进行更新，从而得到训练完成的说话人日志模型。
[0177]
模型参数更新是指对说话人日志模型里面的网络参数进行更新，或对模型里面的各个网络模块的网络参数进行更新，或对模型里面的各个网络层的网络参数进行更新，但不限于此，本技术实施例对此不作限定。
[0178]
说话人日志模型的模型参数包括说话人日志模型中特征提取网络的网络参数、编码器的网络参数、解码器的网络参数、分类器网络的网络参数中的至少一种。
[0179]
在一些实施例中，说话人日志模型的模型参数更新包括更新说话人日志模型中的所有网络模块的网络参数，或，固定说话人日志模型中的部分网络模块的网络参数，仅更新
剩余部分的网络模块的网络参数。比如，对说话人日志模型的模型参数进行更新时，固定说话人日志模型中的特征提取网络的网络参数、编码器的网络参数和解码器的网络参数，仅对分类器网络的网络参数进行更新。
[0180]
基于第一交叉熵及第二交叉熵的和，将第一交叉熵及第二交叉熵的和作为误差，基于误差反向传播算法对说话人日志模型中的特征提取网络、编码器、解码器及分类器网络的网络参数进行更新，以使得第一交叉熵及第二交叉熵的和越来越小，直至第一交叉熵及第二交叉熵的和发生收敛，从而得到训练完成的说话人日志模型。
[0181]
第一交叉熵及第二交叉熵的和发生收敛是指第一交叉熵及第二交叉熵的和不再发生改变，或，说话人日志模型的训练时相邻两次迭代之间的误差差别小于预设值，或，说话人日志模型的训练次数达到预设次数中的至少一种，但不限于此，本技术实施例对此不作限定。
[0182]
为了验证本技术实施例所提出的说话人日志模型的训练方法的有效性，选用对照说话人日志模型和改进的说话人日志模型(即本方案中的说话人日志模型)进行对比试验，具体情况如下表一：
[0183]
表一说话人日志错误率对比表
[0184][0185]
从表一中可以看出，本技术实施例所提供的说话人日志模型相比于对照的说话人日志模型的有较大的效果提升，提高了说话人日志模型的准确率。
[0186]
综上所述，本实施例提供的方法，通过说话人日志模型的特征提取网络对样本语音信号的语音特征进行特征提取，从而获取样本语音信号的特征序列及真实标签，根据特征序列获取估计吸引子序列，以及根据特征序列及真实标签的乘积获取理想吸引子序列；根据特征序列及估计吸引子序列得到估计说话人类别概率，并基于估计说话人类别概率及真实标签，计算第一交叉熵；根据特征序列及理想吸引子序列得到理想说话人类别概率，基于理想说话人类别概率及真实标签，计算第二交叉熵；并根据第一交叉熵及第二交叉熵对说话人日志模型的模型参数进行更新，使得训练好的说话人日志模型能够具备更高的语音信号识别精度，从而生成更加准确的说话人日志。
[0187]
以上实施例示出了说话人日志模型的训练方法，接下来将就基于预训练好的说话人日志模型进行说话人识别的方法作进一步描述。
[0188]
图7是本技术一个示例性实施例提供的说话人识别方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：
[0189]
步骤702：获取语音信号的特征序列。
[0190]
语音信号为待进行说话人信息识别的语音。特征序列为语音信号中每一时间戳对应的特征向量。
[0191]
其中，获取语音信号的方式包括如下情况中的至少一种：
cepstrum coefficient，mfcc)中的至少一种，但不限于此，本技术实施例对此不作限定。
[0210]
在一种可能的实现方式中，通过说话人日志模型的特征提取网络中的非负函数对语音特征进行特征提取，得到提取特征；并将提取特征的取值进行归一化，得到语音信号的特征序列。
[0211]
可选地，特征提取网络中的非负函数为激活函数sigmoid、激活函数softplus、线性整流函数relu中的至少一种，但不限于此，本技术实施例对此不作限定。
[0212]
步骤804：根据特征序列获取估计吸引子序列。
[0213]
估计吸引子序列是指说话人日志模型基于特征序列估计得到的估计说话人特征，即，说话人日志模型根据特征序列中的特征估计出估计说话人特征，比如，s1，s2，s3…
sn，其中，估计吸引子序列中的一个吸引子表征一个说话人类别。
[0214]
示例性地，说话人日志模型包括编码器和解码器，计算机设备将特征序列输入至编码器，编码器中神经网络对特征序列进行编码处理，得到说话人特征向量；计算机设备将说话人特征向量输入至解码器，解码器中的神经网络对说话人特征向量进行解码处理，得到估计吸引子序列。
[0215]
可选地，编码器中的神经网络是与特征序列输入顺序无关的神经网络，比如，解码器中的神经网络为全自注意力网络transformer。解码器中的神经网络为循环神经网络(recurrent neural network，rnn)、长短期记忆网络(long short-term memory，lstm)中的至少一种，但不限于此，本技术实施例对此不作限定。
[0216]
说话人特征向量是编码器104对特征序列103进行编码处理得到的用于表示说话人语音特征的向量。
[0217]
例如，语音信号中包括a、b、c三个人的语音信号和一些杂音，将语音信号的特征序列经过编码器-解码器处理，则得到语音信号对应的估计吸引子序列，估计吸引子序列中会包括4个吸引子，分别为s1，s2，s3和s4，其中，计算机设备将语音信号中的人声部分划分为不同的吸引子s1，s2，s3，将语音信号中的非人声部分统一划分为一个吸引子s4。
[0218]
步骤806：将特征序列及估计吸引子序列输入至说话人日志模型中得到估计说话人类别概率。
[0219]
估计说话人类别概率是指说话人日志模型估计得到的不同时间戳对应的说话人类别的概率。估计说话人类别概率为二维矩阵，其中矩阵中的一行代表一个说话人类别，矩阵中的一列代表一个时间戳，比如，第一行的第一个概率值代表第一时间戳内第一说话人说话的概率。
[0220]
在获取估计吸引子序列的情况下，计算机设备将特征序列及估计吸引子序列输入至预先训练好的说话人日志模型中，从而得到估计说话人类别概率。
[0221]
在一种可能的实现方式中，说话人日志模型包括分类器网络，计算机设备通过计算特征序列中的每一个特征与估计吸引子序列中的每一个吸引子之间的相似度；并将特征序列及估计吸引子序列的相似度结果输入至分类器网络进行计算，从而得到估计说话人类别概率。
[0222]
分类器网络用于确定每一时间戳对应的说话人类别的概率。
[0223]
估计说话人类别概率p的确定公式可表示为：
[0224]
p＝softmax(a
t
n,dim＝0)
[0225]
其中，a为解码器输出的估计吸引子序列，a∈rd×s，r为实数，d为向量维度，s为吸引子个数，a
t
为估计吸引子序列所表征的二维矩阵的转置，n为特征序列，n∈rd×
t
，t为时间戳的个数，p∈rs×
t
，dim＝0为向量的第一个维度。
[0226]
例如，图9示出了说话人识别方法的结构示意图，计算机设备获取语音信号901的语音特征902，并通过特征提取网络903对该语音特征902进行特征提取，得到语音信号901的特征序列904。计算机设备将特征序列904输入至编码器905进行编码处理，得到说话人特征向量；并将说话人特征向量输入至解码器906进行解码处理，得到估计吸引子序列907。
[0227]
计算机设备对特征序列904及估计吸引子序列907进行相似度计算908，计算机设备通过计算特征序列904中的每一个特征与估计吸引子序列507中的每一个吸引子之间的相似度；并将特征序列904及估计吸引子序列907的相似度结果输入至分类器网络909进行计算，从而得到估计说话人类别概率910。
[0228]
估计说话人类别概率910是指说话人日志模型估计得到的说话人类别的概率。估计说话人类别概率910中的一行代表一个说话人类别，一列代表一个时间戳。
[0229]
例如，估计说话人类别概率910为的情况下，估计说话人类别概率910中的4行分别代表第一说话人、第二说话人、第三说话人、第四说话人，估计说话人类别概率910中的4列分别代表第一时间戳、第二时间戳、第三说时间戳、第四时间戳。
[0230]
以第一列为例，估计说话人类别概率910中的第一列可表示为：在第一时间戳内第一说话人说话的概率为0.71，在第一时间戳内第二说话人说话的概率为0.13，在第一时间戳内第三说话人说话的概率为0.15，在第一时间戳内第四说话人说话的概率为0.01。
[0231]
步骤808a：在估计说话人类别概率中第一时间戳对应的第一概率值大于第一阈值的情况下，确定第一概率值对应的说话人为语音信号中第一时间戳对应的说话人类别。
[0232]
说话人类别是指语音信号中说话人的类别，即，在一段被识别的语音信号中确定不同时间戳对应的说话人类别，比如，在第一时间戳内a说话，在第二时间戳内a和b说话。
[0233]
例如，在得到的估计说话人类别概率为的情况下，设置第一阈值为0.5，则根据估计说话人类别概率可以确定该估计说话人类别概率对应的说话人类别为：在第一时间戳内说话人类别为第一说话人，在第二时间戳内无人说话，在第三时间戳内说话人类别为第三说话人，在第四时间戳内说话人类别为第一说话人。
[0234]
步骤808b：基于估计说话人类别概率，确定语音信号对应的说话人类别标签向量；根据说话人类别标签向量确定语音信号对应的说话人个数。
[0235]
说话人个数是指语音信号中说话人的个数。
[0236]
说话人类别标签向量是指基于估计说话人类别概率中的概率值得到的表示说话人类别的标签向量。
[0237]
在一种可能的实现方式中，在估计说话人类别概率中第一时间戳对应的第一概率值大于第二阈值的情况下，将说话人类别标签向量中第一概率值对应的类别标签设为1。
[0238]
在估计说话人类别概率中第二时间戳对应的第二概率值和第三概率值均大于第三阈值且均小于第二阈值的情况下，将说话人类别标签向量中第二概率值对应的类别标签及第三概率值对应的类别标签均设为1。
[0239]
在估计说话人类别概率中第三时间戳对应的第四概率值均不大于第三阈值的情况下，将说话人类别标签向量中第三时间戳对应的第四概率值中的最大概率值对应的类别标签设为1。
[0240]
计算机设备基于类别标签的值得到说话人类别标签向量。计算机设备将说话人类别标签向量沿时间戳维度求和，得到说话人类别个数向量；并基于说话人类别个数向量中非零元素的个数，确定语音信号对应的说话人个数。
[0241]
例如，在得到的估计说话人类别概率为的情况下，估计说话人类别概率中的4行分别代表第一说话人、第二说话人、第三说话人、第四说话人，估计说话人类别概率中的4列分别代表第一时间戳、第二时间戳、第三说时间戳、第四时间戳。
[0242]
设置第二阈值为0.5，第三阈值为0.25，则根据估计说话人类别概率可以确定说话人类别标签向量为计算机设备将说话人类别标签向量沿时间戳维度求和，得到说话人类别个数向量，说话人类别个数向量表示为计算机设备基于说话人类别个数向量中非零元素的个数，确定语音信号对应的说话人个数，可知该估计说话人类别概率对应的说话人的个数为3。
[0243]
综上所述，本实施例提供的方法，通过获取语音信号的特征序列，根据特征序列获取估计吸引子序列；根据特征序列及估计吸引子序列得到估计说话人类别概率；并根据计说话人类别概率同时确定语音信号对应的说话人类别及说话人个数，从而生成更加准确的说话人日志。
[0244]
本实施例提供的方法可以应用于会议记录、客服工作监督等多种场景中，示意性的，本技术应用场景包括如下场景中的至少一种：
[0245]
第一，会议记录场景。
[0246]
也即，对会议过程中的音频进行录制，得到语音信号，通过本技术实施例提供的说话人识别方法对语音信号进行说话人识别，得到语音信号对应的说话人识别结果，从而生成与该会议对应的说话人日志。后续，在对会议内容进行复听时，可以根据说话人日志对目
标说话人的会议发言进行选择性的收听。
[0247]
第二，客服工作监督场景。
[0248]
对客服的电话/语音沟通内容进行录制，得到语音信号，通过本技术实施例提供的说话人识别方法对语音信号进行说话人识别，得到语音信号对应的说话人识别结果，从而生成与客服电话沟通过程对应的说话人日志。后续，管理人员可以抽取客服的电话/语音内容，并根据说话人日志选择客服表述的部分进行选择性收听，从而实现对客服的工作监督。
[0249]
值得注意的是，上述应用场景仅为示意性的举例，本技术实施例还可以应用于云技术、人工智能、车联网、地图导航、智慧交通、辅助驾驶等各种场景，本技术实施例对说话人识别方法的具体应用场景不加以限定。
[0250]
需要说明的是，本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本技术中涉及到的语音信号和样本语音信号都是在充分授权的情况下获取的。
[0251]
图10示出了本技术一个示例性实施例提供的说话人日志模型的训练装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：
[0252]
第一获取模块1001，用于获取样本语音信号的特征序列及真实标签，所述真实标签是指表征真实说话人类别的标签。
[0253]
第二获取模块1002，用于根据所述特征序列获取估计吸引子序列，所述估计吸引子序列中的一个吸引子表征一个说话人类别。
[0254]
估计模块1003，用于将所述特征序列及所述估计吸引子序列输入至所述说话人日志模型中得到估计说话人类别概率，所述估计说话人类别概率是指所述说话人日志模型估计得到的说话人类别的概率。
[0255]
计算模块1004，用于基于所述估计说话人类别概率及所述真实标签，计算第一损失函数值。
[0256]
更新模块1005，用于基于所述第一损失函数值对所述说话人日志模型的模型参数进行更新。
[0257]
在一种可能的实现方式中，第二获取模块1002，还用于将所述特征序列输入至所述编码器进行编码处理，得到说话人特征向量；并将所述说话人特征向量输入至所述解码器进行解码处理，得到所述估计吸引子序列。
[0258]
在一种可能的实现方式中，第二获取模块1002，还用于计算所述特征序列中的每一个特征与所述估计吸引子序列中的每一个吸引子之间的相似度；
[0259]
将所述特征序列及所述估计吸引子序列的相似度结果输入至所述分类器网络进行计算，得到所述估计说话人类别概率。
[0260]
在一种可能的实现方式中，第二获取模块1002，还用于根据所述特征序列及所述真实标签获取理想吸引子序列，所述理想吸引子序列中的一个吸引子表征一个说话人类别。
[0261]
在一种可能的实现方式中，估计模块1003，还用于将所述特征序列及所述理想吸
引子序列输入至所述说话人日志模型中得到理想说话人类别概率，所述理想说话人类别概率是指基于所述真实标签得到的真实的说话人类别的概率。
[0262]
在一种可能的实现方式中，计算模块1004，还用于基于所述理想说话人类别概率及所述真实标签，计算第二损失函数值。
[0263]
在一种可能的实现方式中，更新模块1005，还用于基于所述第一损失函数值及所述第二损失函数值对所述说话人日志模型的模型参数进行更新。
[0264]
在一种可能的实现方式中，第二获取模块1002，还用于基于所述真实标签及所述特征序列的乘积，得到所述理想吸引子序列。
[0265]
在一种可能的实现方式中，第二获取模块1002，还用于计算所述特征序列中的每一个特征与所述理想吸引子序列中的每一个吸引子之间的相似度；并将所述特征序列及所述理想吸引子序列的相似度结果输入至所述说话人日志模型中的所述分类器网络进行计算，得到所述理想说话人类别概率。
[0266]
在一种可能的实现方式中，第一获取模块1001，还用于获取所述样本语音信号的语音特征，所述语音特征为所述样本语音信号的时频特征数据；并通过所述特征提取网络对所述语音特征进行特征提取，得到所述样本语音信号的所述特征序列。
[0267]
在一种可能的实现方式中，第一获取模块1001，还用于通过所述说话人日志模型的所述特征提取网络中的非负函数对所述语音特征进行特征提取，得到提取特征；并将所述提取特征的取值进行归一化，得到所述样本语音信号的所述特征序列。
[0268]
所述第一损失函数值为所述估计说话人类别概率及所述真实标签之间的第一交叉熵，所述第二损失函数值为所述理想说话人类别概率及所述真实标签之间的第二交叉熵。
[0269]
在一种可能的实现方式中，更新模块1005，还用于基于所述第一交叉熵及所述第二交叉熵的和，对所述说话人日志模型的模型参数进行更新。
[0270]
图11示出了本技术一个示例性实施例提供的说话人识别装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：
[0271]
第一获取模块1101，用于获取语音信号的特征序列。
[0272]
第二获取模块1102，用于根据所述特征序列获取估计吸引子序列，所述估计吸引子序列中的一个吸引子表征一个说话人类别。
[0273]
估计模块1103，用于将所述特征序列及所述估计吸引子序列输入至所述说话人日志模型中得到估计说话人类别概率，所述估计说话人类别概率是指所述说话人日志模型估计得到的说话人类别的概率。
[0274]
识别模块1104，用于基于所述估计说话人类别概率，确定所述语音信号对应的说话人类别及说话人个数。
[0275]
在一种可能的实现方式中，第二获取模块1102，还用于将所述特征序列输入至所述编码器进行编码处理，得到说话人特征向量；将所述说话人特征向量输入至所述解码器进行解码处理，得到所述估计吸引子序列。
[0276]
所述说话人日志模型包括分类器网络。
[0277]
在一种可能的实现方式中，第二获取模块1102，还用于计算所述特征序列中的每一个特征与所述估计吸引子序列中的每一个所述估计吸引子之间的相似度；将所述特征序
列及所述估计吸引子序列的相似度结果输入至所述分类器网络进行计算，得到所述估计说话人类别概率。
[0278]
在一种可能的实现方式中，识别模块1104，还用于在所述估计说话人类别概率中第一时间戳对应的第一概率值大于第一阈值的情况下，确定所述第一概率值对应的说话人为所述语音信号中所述第一时间戳对应的所述说话人类别。
[0279]
在一种可能的实现方式中，识别模块1104，还用于基于所述估计说话人类别概率，确定所述语音信号对应的说话人类别标签向量；根据所述说话人类别标签向量确定所述语音信号对应的所述说话人个数。
[0280]
其中，所述说话人类别标签向量是指基于所述估计说话人类别概率中的概率值得到的表示说话人类别的标签向量。
[0281]
在一种可能的实现方式中，识别模块1104，还用于在所述估计说话人类别概率中第一时间戳对应的第一概率值大于第二阈值的情况下，将所述说话人类别标签向量中所述第一概率值对应的类别标签设为1；
[0282]
在所述估计说话人类别概率中第二时间戳对应的第二概率值和第三概率值均大于第三阈值且均小于所述第二阈值的情况下，将所述说话人类别标签向量中所述第二概率值对应的所述类别标签及所述第三概率值对应的所述类别标签均设为1；
[0283]
在所述估计说话人类别概率中第三时间戳对应的第四概率值均不大于所述第三阈值的情况下，将所述说话人类别标签向量中所述第三时间戳对应的所述第四概率值中的最大概率值对应的所述类别标签设为1；
[0284]
基于所述类别标签的值得到所述说话人类别标签向量。
[0285]
在一种可能的实现方式中，识别模块1104，还用于将所述说话人类别标签向量沿时间戳维度求和，得到说话人类别个数向量；并基于所述说话人类别个数向量中非零元素的个数，确定所述语音信号对应的所述说话人个数。
[0286]
在一种可能的实现方式中，第一获取模块1101，还用于获取所述语音信号的语音特征，所述语音特征为所述语音信号的时频特征数据；并通过所述特征提取网络对所述语音特征进行特征提取，得到所述语音信号的所述特征序列。
[0287]
在一种可能的实现方式中，第一获取模块1101，还用于通过所述说话人日志模型的所述特征提取网络中的非负函数对所述语音特征进行特征提取，得到提取特征；并将所述提取特征的取值进行归一化，得到所述语音信号的所述特征序列。
[0288]
图12示出了本技术一个示例性实施例提供的计算机设备1200的结构框图。该计算机设备1200可以是便携式移动终端，比如：智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4)播放器。计算机设备1200还可能被称为用户设备、便携式终端等其他名称。
[0289]
通常，计算机设备1200包括有：处理器1201和存储器1202。
[0290]
处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用dsp(digital signal processing，数字信号处理)、fpga(field programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主
处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有gpu(graphics processing unit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
[0291]
存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本技术实施例中提供的说话人日志模型的训练方法或说话人识别方法。
[0292]
在一些实施例中，计算机设备1200还可选包括有：外围设备接口1203和至少一个外围设备。具体地，外围设备包括：射频电路1204、触摸显示屏1205、摄像头1206、音频电路1207和电源1208中的至少一种。
[0293]
外围设备接口1203可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
[0294]
射频电路1204用于接收和发射rf(radio frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括nfc(near field communication，近距离无线通信)有关的电路，本技术对此不加以限定。
[0295]
触摸显示屏1205用于显示ui(user interface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏1205还具有采集在触摸显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。触摸显示屏1205用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏1205可以为一个，设置计算机设备1200的前面板；在另一些实施例中，触摸显示屏1205可以为至少两个，分别设置在计算机设备1200的不同表面或呈折叠设计；在一些实施例中，触摸显示屏1205可以是柔性显示屏，设置在计算机设备1200的弯曲表面上或折叠面上。甚至，触摸显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏1205可以采用lcd(liquid crystal display，液晶显示器)、oled(organic light-emitting diode，有机发光二极管)等材质制备。
[0296]
摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头
和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。
[0297]
音频电路1207用于提供用户和计算机设备1200之间的音频接口。音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。
[0298]
电源1208用于为计算机设备1200中的各个组件进行供电。电源1208可以是交流电、直流电、一次性电池或可充电电池。当电源1208包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0299]
在一些实施例中，计算机设备1200还包括有一个或多个传感器1209。该一个或多个传感器1209包括但不限于：加速度传感器1210、陀螺仪传感器1211、压力传感器1212、光学传感器1213以及接近传感器1214。
[0300]
加速度传感器1210可以检测以计算机设备1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1210可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1210采集的重力加速度信号，控制触摸显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1210还可以用于游戏或者用户的运动数据的采集。
[0301]
陀螺仪传感器1211可以检测计算机设备1200的机体方向及转动角度，陀螺仪传感器1211可以与加速度传感器1210协同采集用户对计算机设备1200的3d动作。处理器1201根据陀螺仪传感器1211采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0302]
压力传感器1212可以设置在计算机设备1200的侧边框和/或触摸显示屏1205的下层。当压力传感器1212设置在计算机设备1200的侧边框时，可以检测用户对计算机设备1200的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器1212设置在触摸显示屏1205的下层时，可以根据用户对触摸显示屏1205的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0303]
光学传感器1213用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1213采集的环境光强度，控制触摸显示屏1205的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1205的显示亮度；当环境光强度较低时，调低触摸显示屏1205的显
示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1213采集的环境光强度，动态调整摄像头组件1206的拍摄参数。
[0304]
接近传感器1214，也称距离传感器，通常设置在计算机设备1200的正面。接近传感器1214用于采集用户与计算机设备1200的正面之间的距离。在一个实施例中，当接近传感器1214检测到用户与计算机设备1200的正面之间的距离逐渐变小时，由处理器1201控制触摸显示屏1205从亮屏状态切换为息屏状态；当接近传感器1214检测到用户与计算机设备1200的正面之间的距离逐渐变大时，由处理器1201控制触摸显示屏1205从息屏状态切换为亮屏状态。
[0305]
本领域技术人员可以理解，图12中示出的结构并不构成对计算机设备1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
[0306]
本技术实施例还提供一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条程序，该至少一条程序由处理器加载并执行以实现上述各方法实施例提供的说话人日志模型的训练方法或说话人识别方法。
[0307]
本技术实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条程序，该至少一条程序由处理器加载并执行以实现上述各方法实施例提供的说话人日志模型的训练方法或说话人识别方法。
[0308]
可以理解的是，在本技术的具体实施方式中，涉及到的数据，历史数据，以及画像等与用户身份或特性相关的用户数据处理等相关的数据，当本技术以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0309]
应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0310]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0311]
以上所述仅为本技术的可选实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同切换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

说话人日志模型的训练方法、装置、设备及存储介质与流程

相关文献

最热文献