用于说话人识别的方法、装置、电子设备及可读存储介质与流程

2021-09-14 23:49:00 来源：中国专利 TAG：电子设备识别装置可读说话

1.本技术涉及语音识别技术领域，例如涉及一种用于说话人识别的方法、装置、电子设备及可读存储介质。

背景技术：

2.随着人工智能技术的发展，语音识别技术日趋成熟，在家居，医疗，教育，机器人，可穿戴设备等领域有广泛的应用。在企业或商家的日常录音数据处理中，例如在对客服和顾客的电话录音整理或多人会议录音进行说话人识别时，通常需要先对录音数据进行切分处理获得若干段包括单个说话人的语音片段。
3.在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：现有技术中在对切分处理后的语音片段进行合并时，由于切分处理后的语音片段之间可能存在语义不连续的情况，会导致在对语音片段进行说话人识别时准确性较差。

技术实现要素：

4.为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。
5.本公开实施例提供了一种用于说话人识别的方法、装置、电子设备及可读存储介质，以能够提高对说话人识别的准确性。
6.在一些实施例中，所述用于说话人识别的方法，包括：获取若干个第一语音片段；各所述第一语音片段分别包括至少一个说话人的音频数据；对各所述第一语音片段进行说话人分类，获得若干个第二语音片段；各所述第二语音片段包括单个说话人的音频数据；确定各所述第二语音片段之间是否语义连续并将语义连续的各所述第二语音片段进行合并，获得若干个第三语音片段；获取各所述第三语音片段的语义特征；根据所述语义特征确定各所述第三语音片段对应的说话人。
7.在一些实施例中，所述用于说话人识别的装置包括：第一获取模块，被配置为获取若干个第一语音片段；各所述第一语音片段分别包括至少一个说话人的音频数据；分类模块，被配置为对各所述第一语音片段进行说话人分类，获得若干个第二语音片段；各所述第二语音片段包括单个说话人的音频数据；合并模块，被配置为确定各所述第二语音片段之间是否语义连续并将语义连续的各所述第二语音片段进行合并，获得若干个第三语音片段；第二获取模块，被配置为获取各所述第三语音片段的语义特征；确定模块，被配置为根据所述语义特征确定各所述第三语音片段对应的说话人。
8.在一些实施例中，所述电子设备包括处理器和存储有程序指令的存储器，所述处理器被配置为在运行所述程序指令时，执行上述的用于说话人识别的方法。
9.在一些实施例中，所述可读存储介质，存储有可执行指令，所述可执行指令在运行时执行上述用于说话人识别的方法。
10.本公开实施例提供的用于说话人识别的方法、装置、电子设备及可读存储介质，可以实现以下技术效果：能够对若干个第一语音片段进行说话人分类，获得若干个第二语音片段；各第二语音片段包括单个说话人的音频数据；并将语义连续的各第二语音片段进行合并获得第三语音片段，根据第三语音片段的语义特征确定对应的说话人。这样，将语义连续的单个说话人的音频数据进行合并得到第三语音片段，再根据第三语音片段的语义特征确定对应的说话人，避免了由于语义不连续导致对语音片段进行说话人识别时的识别错误，从而提高了对语音片段进行说话人识别的准确性。
11.以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本技术。
附图说明
12.一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：
13.图1是本公开实施例提供的一个用于说话人识别的方法的示意图；
14.图2是本公开实施例提供的另一个用于说话人识别的方法的示意图；
15.图3是本公开实施例提供的一个用于说话人识别的装置的示意图；
16.图4是本公开实施例提供的一个电子设备的示意图。
具体实施方式
17.为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。
18.本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。
19.除非另有说明，术语“多个”表示两个或两个以上。
20.本公开实施例中，字符“/”表示前后对象是一种“或”的关系。例如，a/b表示：a或b。
21.术语“和/或”是一种描述对象的关联关系，表示可以存在三种关系。例如，a和/或b，表示：a或b，或，a和b这三种关系。
22.结合图1所示，本公开实施例提供一种用于说话人识别的方法，包括：
23.步骤s101，获取若干个第一语音片段；各第一语音片段分别包括至少一个说话人的音频数据；
24.步骤s102，对各第一语音片段进行说话人分类，获得若干个第二语音片段；各第二语音片段包括单个说话人的音频数据；
25.步骤s103，确定各第二语音片段之间是否语义连续并将语义连续的各第二语音片段进行合并，获得若干个第三语音片段；
coefficient，梅尔频率倒谱系数)、lpcc(linear predictive cepstral coefficient，线性预测倒谱系数)等对应的特征。
40.可选地，根据备选特征确定各第三语音片段对应的说话人，包括：将备选特征输入预设的说话人区分模型，获得带有说话人标签的第三语音片段；将说话人标签对应的说话人确定为第三语音片段对应的说话人。
41.可选地，说话人区分模型根据以下方式获得，包括：获取样本训练特征；根据样本训练特征对预设的识别模型进行训练，获得说话人区分模型。
42.这样，通过确定第二语音片段之间语义是否连续，并将语义连续的各第二语音片段进行合并获得第三语音片段，减少了由于合并后的第三语音片段中的语音特征和/或语义特征与说话人区分模型不匹配导致的识别错误，从而提高了对语音片段进行说话人识别的准确性。同时，在两人对话的客服和顾客的场景，或者，其他特定领域下的多人会话讨论的场景，由于不同说话人在语速、语调和口音等方面存在差异，同时在说话的内容上也具备一定的区分性，而本公开实施例提供的用于说话人识别的方法，不仅利用了说话人的语音特征，同时提取了语音片段对应的语义特征，根据语音特征和语义特征确定语音片段对应的说话人，提升了说话人区分模型的鲁棒性。
43.可选地，根据备选特征确定各第三语音片段对应的说话人，包括：根据备选特征对各第三语音片段进行无监督聚类，获得带有说话人标签的第三语音片段；将说话人标签对应的说话人确定为第三语音片段对应的说话人。
44.可选地，根据语音特征和语义特征确定各第三语音片段对应的说话人后，还包括：将第三语音片段按照第三语音片段对应的说话人进行归档。
45.结合图2所示，本公开实施例提供一种用于说话人识别的方法，包括：
46.步骤s201，获取第四语音片段，第四语音片段包括多个说话人的音频数据；并通过预设的端点检测模型对第四语音片段进行去噪处理，获得若干个第一语音片段；
47.步骤s202，根据贝叶斯信息准则对各第一语音片段进行切分，获得若干个第二语音片段；各第二语音片段包括单个说话人的音频数据；
48.步骤s203，确定各第二语音片段之间是否语义连续并将语义连续的各第二语音片段进行合并，获得若干个第三语音片段；
49.步骤s204，获取各第三语音片段的语音特征和语义特征，并将语音特征和语义特征进行拼接获得备选特征；
50.步骤s205，将备选特征输入预设的说话人区分模型，获得带有说话人标签的第三语音片段。
51.采用本公开实施例提供的用于获取第三语音片段的方法，通过端点检测模型对第四语音片段进行去噪处理获得若干个第一语音片段，同时剔除了静音片段和噪声片段；并通过贝叶斯信息准则对各第一语音片段进行切分，获得若干个第二语音片段，各第二语音片段包括单个说话人的音频数据；并将语义连续的各第二语音片段进行合并获得第三语音片段，获取第三语音片段的语音特征和语义特征；将语音特征和语义特征进行拼接获得备选特征；将备选特征输入预设的说话人区分模型，获得带有说话人标签的第三语音片段。这样，避免了由于语义不连续导致对语音片段进行说话人识别时的识别错误，从而提高了对语音片段进行说话人识别的准确性。
52.结合图3所示，本公开实施例提供一种用于说话人识别的装置，包括：第一获取模块301、分类模块302、合并模块303、第二获取模块304和确定模块305；第一获取模块301被配置为获取若干个第一语音片段；各第一语音片段分别包括至少一个说话人的音频数据，并将各第一语音片段发送给分类模块302；分类模块302被配置为接收第一获取模块发送的第一语音片段，并对各第一语音片段进行说话人分类，获得若干个第二语音片段；各第二语音片段包括单个说话人的音频数据，并将各第二语音片段发送给合并模块303；合并模块303被配置为接收分类模块302发送的第二语音片段，确定各第二语音片段之间是否语义连续并将语义连续的各第二语音片段进行合并，获得若干个第三语音片段，并将第三语音模块发送给第二获取模块304；第二获取模块304被配置为接收合并模块发送的第三语音片段，获取各第三语音片段的语义特征，并将各第三语音片段的语义特征发送给确定模块305；确定模块305被配置为接收第二获取模块发送的语义特征，并根据语义特征确定各第三语音片段对应的说话人。
53.采用本公开实施例提供的用于说话人识别的装置，能够对若干个第一语音片段进行说话人分类，获得若干个第二语音片段；各第二语音片段包括单个说话人的音频数据；并将语义连续的各第二语音片段进行合并获得第三语音片段，根据第三语音片段的语义特征确定对应的说话人。这样，将语义连续的单个说话人的音频数据进行合并得到第三语音片段，再根据第三语音片段的语义特征确定对应的说话人，避免了由于语义不连续导致对语音片段进行说话人识别时的识别错误，从而提高了对语音片段进行说话人识别的准确性。
54.可选地，第一获取模块被配置为获取第四语音片段；第四语音片段包括多个说话人的音频数据；对第四语音片段进行去噪处理后获得若干个第一语音片段。
55.可选地，合并模块被配置为分别获取各第二语音片段对应的识别文本；并确定各识别文本之间是否语义连续，将语义连续的多个识别文本分别所对应的第二语音片段确定为语义连续的第二语音片段。
56.可选地，确定模块被配置为获取各第三语音片段的语音特征；并将语音特征和语义特征进行拼接，获得备选特征；根据备选特征确定各第三语音片段对应的说话人。
57.可选地，确定模块被配置为将备选特征输入预设的说话人区分模型，获得带有说话人标签的第三语音片段；将说话人标签对应的说话人确定为第三语音片段对应的说话人。
58.可选地，确定模块被配置为根据备选特征对各第三语音片段进行无监督聚类，获得带有说话人标签的第三语音片段；将说话人标签对应的说话人确定为第三语音片段对应的说话人。
59.可选地，用于说话人识别的装置还包括：归档模块；归档模块被配置为将第三语音片段按照第三语音片段对应的说话人进行归档。
60.结合图4所示，本公开实施例提供一种电子设备，包括处理器(processor)400和存储有程序指令的存储器(memory)401。可选地，该电子设备还可以包括通信接口(communication interface)402和总线403。其中，处理器400、通信接口402、存储器401可以通过总线403完成相互间的通信。通信接口402可以用于信息传输。处理器400可以调用存储器401中的程序指令，以执行上述实施例的用于说话人识别的方法。
61.此外，上述的存储器401中的程序指令可以通过软件功能单元的形式实现并作为
独立的产品销售或使用时，可以存储在一个可读取存储介质中。
62.存储器401作为一种可读存储介质，可用于存储软件程序、可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器400通过运行存储在存储器401中的程序指令/模块，从而执行功能应用以及数据处理，即实现上述实施例中用于说话人识别的方法。
63.存储器401可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器401可以包括高速随机存取存储器，还可以包括非易失性存储器。
64.采用本公开实施例提供的电子设备，能够对若干个第一语音片段进行说话人分类，获得若干个第二语音片段；各第二语音片段包括单个说话人的音频数据；并将语义连续的各第二语音片段进行合并获得第三语音片段，根据第三语音片段的语音特征和语义特征确定对应的说话人。这样，将语义连续的单个说话人的音频数据进行合并得到第三语音片段，再根据第三语音片段的语义特征确定对应的说话人，避免了由于语义不连续导致对语音片段进行说话人识别时的识别错误，从而提高了对语音片段进行说话人识别的准确性。
65.可选地，电子设备为计算机等。
66.本公开实施例提供了一种可读存储介质，存储有可执行指令，可执行指令设置为执行上述用于说话人识别的方法。
67.本公开实施例提供了一种计算机程序产品，计算机程序产品包括存储在计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述用于说话人识别的方法。
68.上述的可读存储介质可以是暂态可读存储介质，也可以是非暂态可读存储介质。
69.本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。
70.以上描述和附图充分地示出了本公开的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且，本技术中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本技术中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本技术中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个
…”
限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同
相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。
71.本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
72.本文所披露的实施例中，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，可以仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外，在本公开实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
73.附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中，不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生，有时不同的操作或步骤之间不存在特定的顺序。例如，两个连续的操作或步骤实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

用于说话人识别的方法、装置、电子设备及可读存储介质与流程

相关文章

最热文献