一种语音识别方法、装置、存储介质及设备与流程

2022-11-30 15:12:48 来源：中国专利 TAG：

1.本技术涉及自然语言处理技术领域，尤其涉及一种语音识别方法、装置、存储介质及设备。

背景技术：

2.随着人工智能技术在自然理解方面取得的巨大效果，对话系统被越来越广泛的应用于各类实际场景，例如：“语音助手”、“智能外呼机器人”等。
3.目前，信用卡业务新用户获取的主要实现方式包括通过外呼的方式，利用对话系统与用户进行对话，进而通过对用户的对话信息进行语音识别以获取用户的信息。但与用户进行在线对话过程中，往往会存在对话信息量不足、对话中存在干扰、方言难以理解或语音信息省略等问题，对于用户的在线、实时语音识别带来了较大的影响，造成最终的语音识别效果较差。

技术实现要素：

4.本技术实施例的主要目的在于提供一种语音识别方法、装置、存储介质及设备，能够在对用户进行语音识别时，有效提高语音识别效率和识别结果的准确率。
5.本技术实施例提供了一种语音识别方法，包括：
6.获取目标用户发出的待识别的目标语音；并确定出所述目标语音对应的目标文本；
7.将所述目标语音和所述目标文本输入至预先构建的多模态特征提取模型，提取得到所述目标语音在预设信息识别节点对应的语音特征和文本特征；所述多模态特征提取模型是根据所述预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的；
8.将所述目标语音在预设信息识别节点对应的语音特征和文本特征，与所述预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果；
9.将所述目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据所述融合结果，对所述目标语音进行识别，得到所述目标语音的识别结果。
10.一种可能的实现方式中，所述多模态特征提取模型的构建方式如下：
11.获取样本语音数据，所述样本语音数据包括所述预设信息识别节点对应的正样本语音数据和负样本语音数据；
12.将训练样本语音数据、所述正样本语音数据和负样本语音数据输入初始多模态特征提取模型，通过调整损失函数，训练得到所述多模态特征提取模型；
13.其中，所述初始多模态特征提取模型包括vggish编码器、bert编码器、机器阅读理解模型mrc、多层感知机mlp。
14.一种可能的实现方式中，所述损失函数为合页损失函数；所述损失函数用于拉近
正样本语音数据表征之间的距离、且用于拉远负样本语音数据表征之间的距离。
15.一种可能的实现方式中，所述将所述目标语音和所述目标文本输入至预先构建的多模态特征提取模型，提取得到所述目标语音在预设信息识别节点对应的语音特征和文本特征，包括：
16.将所述目标语音和所述目标文本分别输入至预先构建的多模态特征提取模型的vggish编码器和bert编码器，进行编码处理，得到初始语音表征和初始文本表征；
17.利用多模态特征提取模型中的机器阅读理解模型mrc，将所述bert编码器输出的整句表征cls，与所述初始语音表征进行复杂注意力机制co-attention编码，得到融合后的语音表征；并利用所述融合后的语音表征，预测得到与所述目标用户的用户信息相关的语音区间的起点和终点；
18.利用多模态特征提取模型中的多层感知机mlp，对所述与所述目标用户的用户信息相关的语音区间对应的语音表征进行池化pooling操作，得到所述目标语音在预设信息识别节点对应的语音特征；
19.将所述与所述目标用户的用户信息相关的语音区间对应的语音表征，与所述初始文本表征进行co-attention编码，得到融合后的文本表征；并利用所述mlp对所述融合后的文本表征进行pooling操作，得到池化后的文本表征；
20.按照预设文本分类的方式，对所述初始文本表征进行token标签类别的分类，得到分类后的文本表征，并将所述分类后的文本表征与所述池化后的文本表征进行拼接，得到拼接后的文本表征，作为所述目标语音在预设信息识别节点对应的文本特征。
21.一种可能的实现方式中，所述方法还包括：
22.获取验证用户发出的验证语音；并确定出所述验证语音对应的验证文本；
23.将所述验证语音和所述验证文本输入至所述多模态特征提取模型，获得与所述验证用户的用户信息相关的语音区间的起点和终点，以及所述验证文本对应的分类后的文本表征；
24.当与所述验证用户的用户信息相关的语音区间的起点和终点与所述验证语音对应的人工标注的起点和终点不一致，且所述验证文本对应的分类后的文本表征与所述验证文本对应的人工标注的token标签类别结果不一致时，将所述验证语音重新作为所述样本语音，对所述多模态特征提取模型进行更新。
25.一种可能的实现方式中，所述将所述目标语音在预设信息识别节点对应的语音特征和文本特征，与所述预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果，包括：
26.将所述目标语音在预设信息识别节点对应的语音特征和文本特征，与所述预设信息识别节点对应的预先构建的知识库中的所有标准语音特征和标准文本特征进行相似度计算，并将得到的最高相似度作为匹配结果。
27.一种可能的实现方式中，所述将所述目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据所述融合结果，对所述目标语音进行识别，得到所述目标语音的识别结果，包括：
28.将所述目标语音在各个预设信息识别节点对应的最高相似度进行求和计算，得到求和结果；
29.判断所述求和结果是否高于预设阈值；
30.若是，则确定所述目标语音的识别结果为所述目标用户是待推荐用户；若否，则确定所述目标语音的识别结果为所述目标用户不是待推荐用户。
31.一种可能的实现方式中，所述预设阈值为4
32.本技术实施例还提供了一种语音识别装置，包括：
33.第一获取单元，用于获取目标用户发出的待识别的目标语音；并确定出所述目标语音对应的目标文本；
34.提取单元，用于将所述目标语音和所述目标文本输入至预先构建的多模态特征提取模型，提取得到所述目标语音在预设信息识别节点对应的语音特征和文本特征；所述多模态特征提取模型是根据所述预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的；
35.匹配单元，用于将所述目标语音在预设信息识别节点对应的语音特征和文本特征，与所述预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果；
36.识别单元，用于将所述目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据所述融合结果，对所述目标语音进行识别，得到所述目标语音的识别结果。
37.一种可能的实现方式中，所述装置还包括：
38.第二获取单元，用于获取样本语音数据，所述样本语音数据包括所述预设信息识别节点对应的正样本语音数据和负样本语音数据；
39.训练单元，用于将训练样本语音数据、所述正样本语音数据和负样本语音数据输入初始多模态特征提取模型，通过调整损失函数，训练得到所述多模态特征提取模型；
40.其中，所述初始多模态特征提取模型包括vggish编码器、bert编码器、机器阅读理解模型mrc、多层感知机mlp。
41.一种可能的实现方式中，所述损失函数为合页损失函数；所述损失函数用于拉近正样本语音数据表征之间的距离、且用于拉远负样本语音数据表征之间的距离。
42.一种可能的实现方式中，所述提取单元包括：
43.第一编码子单元，用于将所述目标语音和所述目标文本分别输入至预先构建的多模态特征提取模型的vggish编码器和bert编码器，进行编码处理，得到初始语音表征和初始文本表征；
44.第二编码子单元，用于利用多模态特征提取模型中的机器阅读理解模型mrc，将所述bert编码器输出的整句表征cls，与所述初始语音表征进行复杂注意力机制co-attention编码，得到融合后的语音表征；并利用所述融合后的语音表征，预测得到与所述目标用户的用户信息相关的语音区间的起点和终点；
45.池化子单元，用于利用多模态特征提取模型中的多层感知机mlp，对所述与所述目标用户的用户信息相关的语音区间对应的语音表征进行池化pooling操作，得到所述目标语音在预设信息识别节点对应的语音特征；
46.第三编码子单元，用于将所述与所述目标用户的用户信息相关的语音区间对应的语音表征，与所述初始文本表征进行co-attention编码，得到融合后的文本表征；并利用所
述mlp对所述融合后的文本表征进行pooling操作，得到池化后的文本表征；
47.分类子单元，用于按照预设文本分类的方式，对所述初始文本表征进行token标签类别的分类，得到分类后的文本表征，并将所述分类后的文本表征与所述池化后的文本表征进行拼接，得到拼接后的文本表征，作为所述目标语音在预设信息识别节点对应的文本特征。
48.一种可能的实现方式中，所述装置还包括：
49.第三获取单元，用于获取验证用户发出的验证语音；并确定出所述验证语音对应的验证文本；
50.输入单元，用于将所述验证语音和所述验证文本输入至所述多模态特征提取模型，获得与所述验证用户的用户信息相关的语音区间的起点和终点，以及所述验证文本对应的分类后的文本表征；
51.更新单元，用于当与所述验证用户的用户信息相关的语音区间的起点和终点与所述验证语音对应的人工标注的起点和终点不一致，且所述验证文本对应的分类后的文本表征与所述验证文本对应的人工标注的token标签类别结果不一致时，将所述验证语音重新作为所述样本语音，对所述多模态特征提取模型进行更新。
52.一种可能的实现方式中，所述匹配单元具体用于：
53.将所述目标语音在预设信息识别节点对应的语音特征和文本特征，与所述预设信息识别节点对应的预先构建的知识库中的所有标准语音特征和标准文本特征进行相似度计算，并将得到的最高相似度作为匹配结果。
54.一种可能的实现方式中，所述识别单元包括：
55.求和子单元，用于将所述目标语音在各个预设信息识别节点对应的最高相似度进行求和计算，得到求和结果；
56.判断子单元，用于判断所述求和结果是否高于预设阈值；
57.确定子单元，用于若判断出所述求和结果高于预设阈值，则确定所述目标语音的识别结果为所述目标用户是待推荐用户；若判断出所述求和结果不高于预设阈值，则确定所述目标语音的识别结果为所述目标用户不是待推荐用户。
58.一种可能的实现方式中，所述预设阈值为4。
59.本技术实施例还提供了一种语音识别设备，包括：处理器、存储器、系统总线；
60.所述处理器以及所述存储器通过所述系统总线相连；
61.所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音识别方法中的任意一种实现方式。
62.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音识别方法中的任意一种实现方式。
63.本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音识别方法中的任意一种实现方式。
64.本技术实施例提供的一种语音识别方法、装置、存储介质及设备，首先获取目标用户发出的待识别的目标语音；并确定出目标语音对应的目标文本，然后将目标语音和目标文本输入至预先构建的多模态特征提取模型，提取得到目标语音在预设信息识别节点对应
的语音特征和文本特征；其中，多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的；接着，将目标语音在预设信息识别节点对应的语音特征和文本特征，与预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果；进而将目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据该融合结果，对目标语音进行识别，得到目标语音的识别结果。
65.可见，由于本技术实施例中预先构建的多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的，从而能够在特征提取时，对语音和文本等多模态数据进行融合处理，并更好的提取出重要的关键信息，进而在后续对用户进行语音识别时，有效提升了语音识别效率和识别结果的准确率。
附图说明
66.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
67.图1为目前信用卡场景业务新用户获取的流程示意图；
68.图2为本技术实施例提供的一种语音识别方法的流程示意图；
69.图3为本技术实施例提供的信用卡场景下人机对话流程的示例图；
70.图4为本技术实施例提供的信用卡场景下人机对话文本的示例图；
71.图5为本技术实施例提供的信用卡场景下用户对话流程跳转路径的示例图；
72.图6为本技术实施例提供的多模态特征提取模型的网络结构示意图；
73.图7为本技术实施例提供的将目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据融合结果，对目标语音进行识别，得到目标语音的识别结果的示意图；
74.图8为本技术实施例提供的一种语音识别装置的组成示意图。
具体实施方式
75.随着智能识别技术的快速发展，越来越多的场景需要对语音进行识别。如信用卡业务新用户的获取场景，目前主要实现方式就是通过外呼的方式，利用对话系统与用户进行对话，进而通过对用户的对话信息进行语音识别以获取用户的信息。如图1所示，现有的信用卡场景新用户外呼获取任务主要包含“在线外呼”、“合规用户筛选”。其中“在线外呼”方案可以看作为任务型对话系统，根据预设对话流程，机器人与用户进行多轮对话引导用户回答关于用户的常规性问题，然后根据用户回答的内容进行识别，根据识别结果进行不同流程的跳转。“合规用户筛选”方案是根据在线外呼获取的用户对话语音信息和自动语音识别技术(automatic speech recognition，简称asr))转写的文本信息，人工进行用户合规性判断。整个识别过程存在如下五方面问题：
76.(1)需要较大人力成本的投入，无法进行大批量用户的获取，限制了业务本身营利
的空间。(2)人力筛选本身存在标准不一致的问题。(3)在线实时地对用户的语音信息进行识别，所能利用的信息量有限，导致识别本身效果不高。(4)由于用户语音获取过程中环境的声音扰动，可能导致语义转写质量不高，同样对用户语音信息的识别造成了影响。(5)语音信息与文本信息使用独立，不存在信息的交互，限制了识别方案的识别效果：
77.可见，目前在与用户进行在线对话过程中，往往会由于存在对话信息量不足、对话中存在干扰、方言难以理解或语音信息省略等问题，给用户的在线、实时语音识别带来了较大的影响，造成最终的语音识别效果较差。
78.为解决上述缺陷，本技术提供了一种语音识别方法，首先获取目标用户发出的待识别的目标语音；并确定出目标语音对应的目标文本，然后将目标语音和目标文本输入至预先构建的多模态特征提取模型，提取得到目标语音在预设信息识别节点对应的语音特征和文本特征；其中，多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的；接着，将目标语音在预设信息识别节点对应的语音特征和文本特征，与预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果；进而将目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据该融合结果，对目标语音进行识别，得到目标语音的识别结果。
79.可见，由于本技术实施例中预先构建的多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的，从而能够在特征提取时，对语音和文本等多模态数据进行融合处理，并更好的提取出重要的关键信息，进而在后续对用户进行语音识别时，有效提升了语音识别效率和识别结果的准确率。
80.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
81.第一实施例
82.参见图2，为本实施例提供的一种语音识别方法的流程示意图，该方法包括以下步骤：
83.s201：获取目标用户发出的待识别的目标语音；并确定出目标语音对应的目标文本。
84.在本实施例中，将采用本实施例进行识别的任一对话用户发出的语音定义为待识别的目标语音，并将发出待识别的目标语音的用户定义为目标用户。并且，本实施例不限制目标语音的语种类型，比如，目标语音可以是中文语音、或英文语音等；同时，本实施例也不限制目标语音的长度，比如，目标语音可以是一句话、或多句话等。
85.可以理解的是，目标语音可以根据实际需要和预设对话流程，通过录音等方式获得，例如，在信用卡业务新用户的获取场景中，利用对话系统与用户进行对话后，获得的电话通话语音等可作为目标语音，在获取到目标语音后，可以利用现有或未来出现的文本信息转写方式，对目标语音进行文本转写，以确定出目标语音对应的文本，并将其定义为目标文本，用以执行后续步骤s202-s204，实现对目标语音的识别。
86.s202：将目标语音和目标文本输入至预先构建的多模态特征提取模型，提取得到目标语音在预设信息识别节点对应的语音特征和文本特征；其中，多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的。
87.在本实施例中，通过步骤s201获取到目标用户发出的待识别的目标语音，并确定出目标语音对应的目标文本后，为了能够在对目标语音进行识别时，有效提高语音识别效率和识别结果的准确率，进一步可以将目标语音和目标文本输入至预先构建的多模态特征提取模型，提取得到目标语音在预设信息识别节点对应的语音特征和文本特征，用以执行后续步骤s203。
88.其中，多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的，从而在特征提取时，可以对语音和文本等多模态数据进行融合处理，以更好的提取出重要的关键信息，进而在后续对用户进行语音识别时，能够有效提升语音识别效率和识别结果的准确率。
89.而预设信息识别节点则指的是在信用卡业务新用户的获取场景中，利用对话系统与用户进行对话的过程中涉及到的用户的“工作”、“学历”、“是否具有某银行信用卡”等重要的关键信息节点。
90.如图3所示，其示出了本技术实施例提供的信用卡场景下人机对话流程的示例图，其中浅灰色方块表示不同的对话节点(即表征重要的关键信息的信息识别节点)，深灰色方块表示该对话节点绑定的识别意图。例如，“学历”节点，当用户与机器人对话跳转到该节点时，机器人会向用户询问用户的学历，该节点预先设定了用户可能的意图范围，包括“投诉”、“拒绝”、“高中以上”等。浅灰色节点附近方框中的补充文字即为该节点对于的话术(即机器人询问用户信息的语音对应的文本)，主要用来引导用户进行信息回答，，根据识别用户的意图，直至最终完成对话，可以形成一个完整的一通人机对话文本，如图4所示。而连接深灰色意图节点和浅灰色对话节点的连线表示机器人与用户进行对话过程中根据用户回答的内容(实际为提取的意图标签)，进行对话节点的跳转，最终形成完整的对话路径，如图5所示。
91.如图3所示，对于每个用户，能够正常完成对话的用户且输出意向类型为a和b，该类用户是机器预筛保留的意向用户(即待推荐用户)，也是后续需要人工进行筛选和进行信用卡推荐的用户。
92.如图6所示，多模态特征提取模型包括vggish编码器、bert编码器、机器阅读理解(machine reading comprehension,简称mrc)模型、多层感知机(multi layer perceptron简称mlp)。
93.在此基础上，一种可选的实现方式是，本步骤s202的具体实现过程可以包括下述步骤s2021-s2025：
94.步骤s2021：将目标语音和目标文本分别输入至预先构建的多模态特征提取模型的vggish编码器和bert编码器，进行编码处理，得到初始语音表征和初始文本表征。
95.需要说明的是，为了能够在对目标语音进行识别时，有效提高语音识别效率和识别结果的准确率，需要对人机对话中涉及到的用户的“学历”、“工作”和“是否具有某银行信用卡”等表征用户重要的关键信息的信息识别节点进行准确识别。然后再根据信用卡办理
资质条件对用户进行有效筛选，即确定出目标用户是否为信用卡待推荐用户。
96.具体来讲，在本实现方式中，在获取到目标语音并确定出其对应的目标文本后，进一步可以将二者分别输入至预先构建的图网络质检模型中的vggish编码器和bert编码器进行编码处理，如图6所示，得到编码处理后的初始语音表征(此处将其定义为h，如图6所示的h1、h2…hn
)和初始文本表征(此处将其定义为r，如图6所示r1、r2…rn
)。
97.步骤s2022：利用多模态特征提取模型中的机器阅读理解模型mrc，将bert编码器输出的整句表征cls，与初始语音表征进行复杂注意力机制co-attention编码，得到融合后的语音表征；并利用所述融合后的语音表征，预测得到与所述目标用户的用户信息相关的语音区间的起点和终点。
98.在本实现方式中，通过步骤s2021得到初始语音表征h，并将目标文本输入至bert编码器进行编码处理后，进一步可以利用多模态特征提取模型中的mrc模型，将bert编码器输出的整句表征cls(如图6所示的r
cls
)，与初始语音表征h(即如图6所示的h1、h2…hn
)进行复杂注意力机制(co-attention)编码，得到融合后的语音表征，并将其定义为s，如图6所示的s1、s2…
sn。
99.进一步的，采用mrc模型还可以利用融合后的语音表征s，预测得到与目标用户的用户信息相关的语音区间(span)的起点(sp)和终点(ep)，如图6所示。
100.步骤s2023：利用多模态特征提取模型中的多层感知机mlp，对与目标用户的用户信息相关的语音区间对应的语音表征进行池化pooling操作，得到目标语音在预设信息识别节点对应的语音特征。
101.在本实现方式中，通过步骤s2022预测得到与目标用户的用户信息相关的语音区间(span)后，进一步还可以利用多模态特征提取模型中的mlp对该语音区间(span)对应的语音表征(此处将其定义为s'，如图6所示的s'1、s'2…
s'n)进行池化(pooling)操作，得到目标语音在预设信息识别节点(具体取值可根据实际情况进行设定，本技术实施例对比不进行限定，比如可以是“学历”、“工作”等)对应的语音特征，并将其定义为v
rep
，如图6所示。
102.步骤s2024：将与目标用户的用户信息相关的语音区间对应的语音表征，与初始文本表征进行co-attention编码，得到融合后的文本表征；并利用mlp对所述融合后的文本表征进行pooling操作，得到池化后的文本表征。
103.在本实现方式中，通过s2021得到初始文本表征r后，进一步还可以将其与语音区间(span)对应的语音表征s'进行co-attention编码，得到融合后的文本表征，并利用mlp对该融合后的文本表征进行pooling操作，得到池化后的文本表征，如图6所示。
104.步骤s2025：按照预设文本分类的方式，对初始文本表征进行token标签类别的分类，得到分类后的文本表征，并将分类后的文本表征与池化后的文本表征进行拼接，得到拼接后的文本表征，作为目标语音在预设信息识别节点对应的文本特征。
105.需要说明的是，为了使得bert编码器能够更好的抓取文本中的关键信息，本技术添加了token多标签预测任务。即，按照预设文本分类的方式，对初始文本表征r进行了token标签类别的分类，得到分类后的文本表征，并将其定义为k，如图6所示的k1、k2…kk
。
106.这样，在通过步骤s2024得到池化后的文本表征后，进一步可以将该池化后的文本表征与分类后的文本表征k(即如图6所示的k1、k2…kk
)进行拼接，得到拼接后的文本表征，并将其定义为x
rep
，如图6所示，作为目标语音在预设信息识别节点(如“工作”或“学历”等)
对应的文本特征。
107.接下来，本实施例将对多模态特征提取模型的构建过程进行介绍，其中，一种可选的实现方式是，多模态特征提取模型的构建过程具体可以包括以下步骤a1-a2：
108.步骤a1：首先获取样本语音数据，其中，样本语音数据包括预设信息识别节点对应的正样本语音数据和负样本语音数据。
109.需要说明的是，多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的，通过该模型与损失函数的约束，可以不断拉近待测语音数据与正样本语音数据表征之间的距离，并拉远待测语音数据与负样本语音数据表征之间的距离，最后获得对待测语音数据识别能力更强的模型。所以，能够训练出识别准确性更高的模型，预设信息识别节点对应的正样本语音数据和负样本语音数据的构建是非常重要的，用以有效提升模型的特征编码能力。
110.具体来讲，在本实现方式中，为了构建多模态特征提取模型，需要预先进行大量的准备工作，首先，需要收集大量的人机对话中各个用户发出的语音数据，作为正样本语音数据和负样本语音数据，用以构成模型训练数据。
111.需要说明的是，对于每个预设信息识别节点(如“工作”、“学历”等)所包含的意图进行识别时，需要使用该节点的真实数据作为训练数据，真实数据中包含了正确识别的样本(即正样本语音数据)和没有正确识别的样本(即负样本语音数据)，本技术在进行模型训练时，输入的样本为《待测样本语音数据、正样本语音数据、负样本语音数据》对，这样使得模型能够正确学习正样本语音数据的同时，也能够分辨出负样本语音数据。因此，需要对每个节点的每个意图进行正样本语音数据和负样本语音数据的收集，用以构成模型训练数据。
112.进一步的，可以按照如图5所示的用户对话流程跳转路径，基于模型训练数据，从相同的路径中筛选出hard negative样本语音数据和正样本语音数据。并从不同用户跳转路径中筛选出选择easy负样本语音数据，用以在进行模型训练时，提升模型的特征编码能力。且本技术在实际训练时对正样本语音数据和负样本语音数据进行混合学习的数量不做限定，可根据实际情况和经验值进行设定，比如，可将二者的比例控制在1:1左右。
113.其中，真实的非当前意图且识别为非当前意图的样本语音数据，与当前意图在语义表述上存在较大的区别，所以模型很容易将其分辨出来，由此，该类样本称为easy negative样本语音数据。而对于真实为非当前意图样本语音数据但识别为当前意图样本语音数据，说明该类样本语音数据在表述方面与真实样本语音数据比较相近，所以容易误判，故可以将该类样本语音数据作为hard negative样本语音数据。
114.并且，在获取到样本语音数据后，还需要对各个样本语音数据对应的样本文本进行分类，即可以按照预设文本分类的方式进行token标签类别的标注。同时，还需要对各个样本语音数据中与用户信息相关的语音区间进行命名实体识别(named entity recognition，简称ner)抽取，即需要人工根据各个样本语音数据的语音特征序列，进行与样本用户的用户信息相关的语音区间(span)的起点和止点的标注。
115.步骤a2：将训练样本语音数据、正样本语音数据和负样本语音数据输入初始多模态特征提取模型，通过调整损失函数，训练得到多模态特征提取模型。
116.其中，一种可选的实现方式是，初始多模态特征提取模型可以(但不限于)包括
vggish编码器、bert编码器、mrc模型、mlp。
117.在通过步骤a1获取到包括预设信息识别节点对应的正样本语音数据和负样本语音数据的样本语音数据后，进一步可以先确定出正样本语音数据和负样本语音数据的样本语音数据各自对应的正样本文本和负样本文本，然后再单独训练图6右侧生成文本特征的编码器，即可以对输入的样本文本(包括正样本文本和负样本文本)进行预测，得到其对应的token标签，并将其与token标签类别的标注进行比对，通过调整损失函数，训练得到图6右侧生成文本特征的编码器。接着，可以单独进行语音序列起止位置预测。该部分训练需要固定图6右侧生成文本特征的编码器bert的参数，再采用mrc方式预测输入的样本语音数据(包括正样本和负样本语音数据)中与样本用户信息相关的语音区间的起止点序列位置，并将其与人工标注的与样本用户的用户信息相关的语音区间(span)的起点和止点的实际结果进行比对，通过调整损失函数，训练得到图6左侧生成语音特征的编码器。
118.进而，可以采用对比学习方式，利用正样本语音数据和负样本语音数据的样本语音数据及各自对应的正样本文本和负样本文本，通过多轮模型训练，同时训练语音特征和文本特征的整体生成模型，直到满足训练结束条件为止，此时，即训练得到多模态特征提取模型。
119.其中，在进行每轮模型训练时，是采用预设的损失函数进行模型训练的，且该损失函数是用于拉近正样本语音数据表征之间的距离、且用于拉远负样本语音数据表征之间的距离。通过调整该损失函数，可以约束每一样本语音数据对(包括正样本对和负样本对)的相关性，使得正样本对中两个样本语音数据的相似度越来越高，负样本对中两个语音数据的相似度越来越低。
120.具体来讲，为了训练出识别效果更好的多模态特征提取模型，在训练过程中，本实施例采用的损失函数为合页损失函数，具体计算公式如下：
[0121][0122]
其中，j表示输入的任意负样本语音数据；yi表示输入的正样本语音数据；δ表示一个常数，具体取值可根据实际情况和检验值进行设定，本技术对此不进行限定。可见，只有当正样本对越来越相似，负样本对越来越不相似时，损失函数li的取值才会变小，进而才能达到损失函数的约束目标。
[0123]
在具体的对比训练的实现过程中，训练样本的组成形式为《xi,x ,x-》，其中xi表示锚定(anchor)样本，x 表示正样本语音数据，x-表示负样本语音数据。三个数据作为组合样本输入到模型中，经过特征表示，计算xi与x 和xi与x-之间的相似度，根据损失函数，对模型中的参数进行调整，使得xi与x 之间的相似度更高，xi与x-之间的相似度更低。
[0124]
在此基础上，在根据取样本语音数据训练生成多模态特征提取模型后，进一步的，还可以利用验证用户发出的验证语音对生成的多模态特征提取模型进行验证。具体验证过程可以包括下述步骤b1-b3：
[0125]
步骤b1：获取验证用户发出的验证语音；并确定出验证语音对应的验证文本。
[0126]
在本实施例中，为了实现对多模态特征提取模型进行验证，首先需要获取验证用户发出的验证语音，如可以将录制的1000条人机对话中用户发出的语音作为验证语音，其中，验证语音指的是可以用来进行多模态特征提取模型的语音信息，在获取到这些验证语
音及每条验证语音对应的验证文本后，可继续执行后续步骤b2。
[0127]
步骤b2：将验证语音和验证文本输入至多模态特征提取模型，获得与验证用户的用户信息相关的语音区间的起点和终点，以及验证文本对应的分类后的文本表征。
[0128]
通过步骤b1获取到验证语音及对应的验证文本后，进一步的，可以将验证语音和验证文本输入至多模态特征提取模型，获得与验证用户的用户信息相关的语音区间的起点和终点，以及验证文本对应的分类后的文本表征，用以执行后续步骤b3。
[0129]
步骤b3：当与验证用户的用户信息相关的语音区间的起点和终点与验证语音对应的人工标注的起点和终点不一致，且验证文本对应的分类后的文本表征与验证文本对应的人工标注的token标签类别结果不一致时，将验证语音重新作为样本语音，对多模态特征提取模型进行更新。
[0130]
通过步骤b2预测出与验证用户的用户信息相关的语音区间的起点和终点，以及验证文本对应的分类后的文本表征后，若该预测出的与验证用户的用户信息相关的语音区间的起点和终点与验证语音对应的真实识别结果(即人工标注的起点和终点)不一致，且预测出的验证文本对应的分类后的文本表征与验证文本对应的人工标注的token标签类别结果不一致时，则可以将验证语音重新作为样本语音，对多模态特征提取模型进行参数更新。
[0131]
通过上述实施例，可以利用验证语音对多模态特征提取模型进行有效验证，当模型预测出的与验证用户的用户信息相关的语音区间的起点和终点与验证语音对应的真实识别结果(即人工标注的起点和终点)不一致，且预测出的验证文本对应的分类后的文本表征与验证文本对应的人工标注的token标签类别结果不一致时，可以及时调整更新多模态特征提取模型，进而有助于提高模型的识别精度和准确性。
[0132]
s203：将目标语音在预设信息识别节点对应的语音特征和文本特征，与预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果。
[0133]
在本实施例中，通过步骤s202将目标语音和目标文本输入至预先构建的多模态特征提取模型，提取得到目标语音在预设信息识别节点对应的语音特征v
rep
和文本特征x
rep
后，进一步可以将二者分别与预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果，用以执行后续步骤s204。
[0134]
具体来讲，一种可选的实现方式是，可以将目标语音在预设信息识别节点对应的语音特征v
rep
和文本特征x
rep
，与预设信息识别节点(如“工作”或“学历”等)对应的预先构建的知识库中的所有标准语音特征和标准文本特征进行相似度计算(具体计算方式不做限定，可根据实际情况和经验值进行设定)，并将得到的最高相似度作为匹配结果。
[0135]
其中，哥哥预设信息识别节点(如“工作”或“学历”等)对应的预先构建的知识库中包含了各个人工构建或标注的语音数据和文本数据以及各个语音数据和文本数据对应的标准语音特征和标准文本特征。也可以采用如图6多模态特征提取模型进行语音特征和文本特征的提取，用以作为标准语音特征和标准文本特征。
[0136]
s204：将目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据融合结果，对目标语音进行识别，得到目标语音的识别结果。
[0137]
在本实施例中，通过步骤s203得到匹配结果(如目标语音在各个预设信息识别节点对应的最高相似度)后，进一步可以将目标语音在各个预设信息识别节点对应的匹配结
果进行融合计算，得到融合结果；并根据融合结果，对目标语音进行识别，得到目标语音的识别结果。
[0138]
具体来讲，一种可选的实现方式是，可以将目标语音在各个预设信息识别节点对应的最高相似度进行求和计算，得到求和结果，然后，判断该求和结果是否高于预设阈值(具体取值本技术不做限定，可根据实际情况和经验值进行设定，比如可以将其设定为4等)，若是，则确定目标语音的识别结果为目标用户是待推荐用户，可向其推荐办理信用卡；若否，则确定目标语音的识别结果为目标用户不是待推荐用户，则可不向其推荐办理信用卡，节省推荐成本，提高推荐成功率。从而能够在对用户进行语音识别时，有效提高语音识别效率和识别结果的准确率。
[0139]
举例说明：如图7所示，可以通过匹配排序的方式，将目标语音在预设信息识别节点对应的语音特征v
rep
和文本特征x
rep
，与图7中的“邀约回复”、“一年以上信用卡”、“工作”、“学历”、“营执时间”等预设信息识别节点对应的预先构建的知识库中的所有标准语音特征和标准文本特征进行相似度计算，并将得到的最高相似度作为各个对应预设信息识别节点的得分，再将各个预设信息识别节点对应的得分相加，得到相加结果，作为目标用户的总得分，再假设预设阈值为4，则可以通过判断目标用户的总得分是否高于4，来确定其是否为待推荐用户。即，若目标用户的总得分高于4，则可以确定其是待推荐用户，可向其推荐办理信用卡，反之，若目标用户的总得分不高于4，则可以确定其不是待推荐用户，可不向其推荐办理信用卡，以节省推荐成本，提高推荐成功率。
[0140]
综上，本实施例提供的一种语音识别方法，首先获取目标用户发出的待识别的目标语音；并确定出目标语音对应的目标文本，然后将目标语音和目标文本输入至预先构建的多模态特征提取模型，提取得到目标语音在预设信息识别节点对应的语音特征和文本特征；其中，多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的；接着，将目标语音在预设信息识别节点对应的语音特征和文本特征，与预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果；进而将目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据该融合结果，对目标语音进行识别，得到目标语音的识别结果。
[0141]
可见，由于本技术实施例中预先构建的多模态特征提取模型是根据预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的，从而能够在特征提取时，对语音和文本等多模态数据进行融合处理，并更好的提取出重要的关键信息，进而在后续对用户进行语音识别时，有效提升了语音识别效率和识别结果的准确率。
[0142]
第二实施例
[0143]
本实施例将对一种语音识别装置进行介绍，相关内容请参见上述方法实施例。
[0144]
参见图8，为本实施例提供的一种语音识别装置的组成示意图，该装置800包括：
[0145]
第一获取单元801，用于获取目标用户发出的待识别的目标语音；并确定出所述目标语音对应的目标文本；
[0146]
提取单元802，用于将所述目标语音和所述目标文本输入至预先构建的多模态特征提取模型，提取得到所述目标语音在预设信息识别节点对应的语音特征和文本特征；所
述多模态特征提取模型是根据所述预设信息识别节点对应的正样本语音数据和负样本语音数据，利用损失函数进行对比训练得到的；
[0147]
匹配单元803，用于将所述目标语音在预设信息识别节点对应的语音特征和文本特征，与所述预设信息识别节点对应的预先构建的知识库中的标准语音特征和标准文本特征进行匹配计算，得到匹配结果；
[0148]
识别单元804，用于将所述目标语音在各个预设信息识别节点对应的匹配结果进行融合计算，得到融合结果；并根据所述融合结果，对所述目标语音进行识别，得到所述目标语音的识别结果。
[0149]
在本实施例的一种实现方式中，所述装置还包括：
[0150]
第二获取单元，用于获取样本语音数据，所述样本语音数据包括所述预设信息识别节点对应的正样本语音数据和负样本语音数据；
[0151]
训练单元，用于将训练样本语音数据、所述正样本语音数据和负样本语音数据输入初始多模态特征提取模型，通过调整损失函数，训练得到所述多模态特征提取模型；
[0152]
其中，所述初始多模态特征提取模型包括vggish编码器、bert编码器、机器阅读理解模型mrc、多层感知机mlp。
[0153]
在本实施例的一种实现方式中，所述损失函数为合页损失函数；所述损失函数用于拉近正样本语音数据表征之间的距离、且用于拉远负样本语音数据表征之间的距离。
[0154]
在本实施例的一种实现方式中，所述提取单元802包括：
[0155]
第一编码子单元，用于将所述目标语音和所述目标文本分别输入至预先构建的多模态特征提取模型的vggish编码器和bert编码器，进行编码处理，得到初始语音表征和初始文本表征；
[0156]
第二编码子单元，用于利用多模态特征提取模型中的机器阅读理解模型mrc，将所述bert编码器输出的整句表征cls，与所述初始语音表征进行复杂注意力机制co-attention编码，得到融合后的语音表征；并利用所述融合后的语音表征，预测得到与所述目标用户的用户信息相关的语音区间的起点和终点；
[0157]
池化子单元，用于利用多模态特征提取模型中的多层感知机mlp，对所述与所述目标用户的用户信息相关的语音区间对应的语音表征进行池化pooling操作，得到所述目标语音在预设信息识别节点对应的语音特征；
[0158]
第三编码子单元，用于将所述与所述目标用户的用户信息相关的语音区间对应的语音表征，与所述初始文本表征进行co-attention编码，得到融合后的文本表征；并利用所述mlp对所述融合后的文本表征进行pooling操作，得到池化后的文本表征；
[0159]
分类子单元，用于按照预设文本分类的方式，对所述初始文本表征进行token标签类别的分类，得到分类后的文本表征，并将所述分类后的文本表征与所述池化后的文本表征进行拼接，得到拼接后的文本表征，作为所述目标语音在预设信息识别节点对应的文本特征。
[0160]
在本实施例的一种实现方式中，所述装置还包括：
[0161]
第三获取单元，用于获取验证用户发出的验证语音；并确定出所述验证语音对应的验证文本；
[0162]
输入单元，用于将所述验证语音和所述验证文本输入至所述多模态特征提取模
型，获得与所述验证用户的用户信息相关的语音区间的起点和终点，以及所述验证文本对应的分类后的文本表征；
[0163]
更新单元，用于当与所述验证用户的用户信息相关的语音区间的起点和终点与所述验证语音对应的人工标注的起点和终点不一致，且所述验证文本对应的分类后的文本表征与所述验证文本对应的人工标注的token标签类别结果不一致时，将所述验证语音重新作为所述样本语音，对所述多模态特征提取模型进行更新。
[0164]
在本实施例的一种实现方式中，所述匹配单元803具体用于：
[0165]
将所述目标语音在预设信息识别节点对应的语音特征和文本特征，与所述预设信息识别节点对应的预先构建的知识库中的所有标准语音特征和标准文本特征进行相似度计算，并将得到的最高相似度作为匹配结果。
[0166]
在本实施例的一种实现方式中，所述识别单元包括：
[0167]
求和子单元，用于将所述目标语音在各个预设信息识别节点对应的最高相似度进行求和计算，得到求和结果；
[0168]
判断子单元，用于判断所述求和结果是否高于预设阈值；
[0169]
确定子单元，用于若判断出所述求和结果高于预设阈值，则确定所述目标语音的识别结果为所述目标用户是待推荐用户；若判断出所述求和结果不高于预设阈值，则确定所述目标语音的识别结果为所述目标用户不是待推荐用户。
[0170]
在本实施例的一种实现方式中，所述预设阈值为4。
[0171]
进一步地，本技术实施例还提供了一种语音识别设备，包括：处理器、存储器、系统总线；
[0172]
所述处理器以及所述存储器通过所述系统总线相连；
[0173]
所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音识别方法的任一种实现方法。
[0174]
进一步地，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音识别方法的任一种实现方法。
[0175]
进一步地，本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音识别方法的任一种实现方法。
[0176]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0177]
需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0178]
还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个
实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0179]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：上下文关联的语音处理方法及电子设备和存储介质与流程

一种语音识别方法、装置、存储介质及设备与流程

相关文献

最热文献