一种语音识别方法、装置、设备及存储介质与流程

2022-05-21 02:20:21 来源：中国专利 TAG：

1.本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术：

2.语音识别技术为将语音识别为文本的技术。目前的语音识别方案为基于语音识别模型的方案，该方案基于预先训练得到的语音识别模型对待识别语音进行识别，以得到识别结果。
3.目前的语音识别方案中所使用过的语音识别模型通常基于交叉熵准则进行训练得到，然而，仅基于交叉熵准则进行训练得到的语音模型的识别性能不佳，进而导致基于训练得到的语音识别模型进行语音识别时，难以获得较好的识别效果。

技术实现要素：

4.有鉴于此，本发明提供了一种语音识别方法、装置、设备及存储介质，用以解决目前的语音识别方案识别效果不佳的问题，其技术方案如下：
5.一种语音识别方法，包括：
6.获取待识别语音；
7.基于预先训练得到的语音识别模型对所述待识别语音进行识别；
8.其中，所述语音识别模型通过两个阶段的训练得到，第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练，第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练。
9.可选的，第一阶段训练得到语音识别基线模型，第二阶段对所述语音识别基线模型进行训练；
10.对所述语音识别基线模型进行训练，包括：
11.基于所述语音识别基线模型对训练语音进行识别，得到训练语音的若干候选识别结果；
12.确定每个候选识别结果对应的文本单元错误率和语义变化评估指标，其中，所述语义变化评估指标能够反映对应的候选识别结果相对于训练语音的标注文本的语义变化；
13.结合每个候选识别结果对应的文本单元错误率和语义变化评估指标，确定所述语音识别基线模型在每个候选识别结果上的预测损失；
14.根据确定出的预测损失对所述语音识别基线模型进行参数更新。
15.可选的，所述结合每个候选识别结果对应的文本单元错误率和语义变化评估指标，确定所述语音识别基线模型在每个候选识别结果上的预测损失，包括：
16.针对每个候选识别结果：
17.根据该候选识别结果对应的文本单元错误率和语义变化评估指标，确定该候选识别结果对应的权重；
18.根据该候选识别结果对应的权重和该候选识别结果对应的预测概率，确定所述语音识别基线模型在该候选识别结果上的预测损失。
19.可选的，所述语义变化评估指标包括：词性偏离度和/或句法范畴偏离度；
20.所述词性偏离度能够反映对应候选识别结果在词性上相对于训练语音的标注文本的偏离程度；
21.所述句法范畴偏离度能够反映对应候选识别结果在句法范畴上相对于训练语音的标注文本的偏离程度。
22.可选的，所述根据该候选识别结果对应的文本单元错误率和语义变化评估指标，确定该候选识别结果对应的权重，包括：
23.计算该候选识别结果对应的文本单元错误率与平均文本单元错误率的差值、该候选识别结果对应的词性偏离度与平均词性偏离度的差值、该候选识别结果对应的句法范畴偏离度与平均句法范畴偏离度的差值，其中，所述平均字错误率为所述若干候选识别结果分别对应的文本单元错误率的平均值，所述平均词性偏离度为所述若干候选识别结果分别对应的词性偏离度的平均值，所述平均句法范畴偏离度为所述若干候选识别结果分别对应的句法范畴偏离度的平均值；
24.将计算得到的各个差值融合，融合结果作为该候选识别结果对应的权重。
25.可选的，确定一条候选识别结果对应的词性偏离度，包括：
26.确定训练语音的标注文本包含的各个词的词性，并确定该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性；
27.根据训练语音的标注文本包含的各个词的词性以及该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性，确定该条候选识别结果对应的词性偏离度。
28.可选的，所述根据训练语音的标注文本包含的各个词的词性以及该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性，确定该条候选识别结果对应的词性偏离度，包括：
29.根据该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性的权重，确定该候选识别结果相对于训练语音的标注文本的词性偏离权重，其中，一词的词性的权重能够表征该词的词性的重要程度；
30.对训练语音的标注文本包含的各个词的词性的权重求和，得到词性权重和；
31.根据所述词性权重和以及该候选识别结果相对于训练语音的标注文本的词性偏离权重，确定该候选识别结果对应的词性偏离度。
32.可选的，确定一候选识别结果对应的句法范畴偏离度，包括：
33.确定训练语音的标注文本中各个词对应的依存关系，并确定该候选识别结果与标注文本未对齐部分的词所改变的依存关系；
34.根据训练语音的标注文本中各个词对应的依存关系，以及该候选识别结果与标注文本未对齐部分的词所改变的依存关系，确定该候选识别结果对应的句法范畴偏离度。
35.可选的，所述根据训练语音的标注文本中各个词对应的依存关系，以及该候选识别结果与标注文本未对齐部分的词所改变的依存关系，确定该候选识别结果对应的句法范畴偏离度，包括：
36.根据该候选识别结果与标注文本未对齐部分的词所改变的依存关系的权重，确定
该候选识别结果相对于训练语音的标注文本的依存关系偏离权重；
37.确定训练语音的标注文本中各个词对应的依存关系的权重的和，得到依存关系权重和；
38.根据所述依存关系权重和以及该候选识别结果相对于训练语音的标注文本的依存关系偏离权重，确定该候选识别结果对应的句法范畴偏离度。
39.一种语音识别装置，包括：语音获取模块和语音识别模块；
40.所述语音获取模块，用于获取待识别语音；
41.所述语音识别模块，用于基于预先训练得到的语音识别模型对所述待识别语音进行识别；
42.其中，所述语音识别模型通过两个阶段的训练得到，第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练，第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练。
43.一种语音识别设备，包括：存储器和处理器；
44.所述存储器，用于存储程序；
45.所述处理器，用于执行所述程序，实现上述任一项所述的语音识别方法的各个步骤。
46.一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的语音识别方法的各个步骤。
47.本发明提供的语音识别方法、装置、设备及存储介质，首先获取待识别语音，然后基于预先训练得到的语音识别模型对待识别语音进行识别，其中，语音识别模型通过两个阶段的训练得到，第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练，第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练，考虑到仅以使训练语音的识别结果与训练语音标注的文本一致为目标训练得到的模型识别性能不佳(基于该模型获得的识别结果的用户可接受度不高)，本发明提出在以使训练语音的识别结果与训练语音标注的文本一致为目标训练得到的模型基础上，进一步以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练，如此训练得到的语音识别模型具有较好的性能，采用其对待识别语音进行识别时，能够获得用户可接受度较高的识别结果，用户体验较好。
附图说明
48.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
49.图1为本发明实施例提供的语音识别方法的流程示意图；
50.图2为本发明实施例提供的以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标，对语音识别基线模型进行训练的流程示意图；
51.图3为本发明实施例提供的语音识别装置的结构示意图；
52.图4为本发明实施例提供的语音识别设备的结构示意图。
具体实施方式
53.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
54.鉴于仅基于交叉熵准则进行训练得到的语音识别模型的识别性能不佳，进而导致基于训练得到的语音识别模型进行语音识别时，难以获得较好的识别效果，本案发明人进行了研究，起初的思路是：
55.通过两个训练阶段训练得到语音识别模型，第一个训练阶段，基于交叉熵准则训练得到语音识别基线模型，第二个训练阶段，采用文本单元错误率作为约束准则对语音识别基线模型进一步进行训练，第二训练阶段训练得到的模型作为最终的语音识别模型，进而基于训练得到的语音识别模型对待识别语音进行识别。在基于交叉熵准则训练得到语音识别基线模型的基础进一步采用文本单元错误率作为约束准则进行训练在一定程度上能够提升语音识别模型的性能。
56.发明人对上述通过两个训练阶段训练得到语音识别模型的方案进行研究发现，上述方案相比于仅基于交叉熵准则进行训练得到的语音识别模型的方案相比，效果上虽然有一定的提升，但仍然存在一些问题，具体体现在：文本单元错误率只能反映识别结果中识别错误的文本单元的统计信息，而无法直接反映识别结果语义层面的信息，这导致在采用以文本单元错误率作为约束准则训练得到的语音识别模型进行语音识别时，获得的识别结果的可接受度不高。
57.示例性的，采用通过上述两个阶段训练得到的语音识别模型对一条语音进行识别得到的识别结果以及该条语音的标注文本如下：
58.标注结果：是不是我一泡脚病就没有了，后面也就正常了。
59.识别结果：是不是我一泡脚并就没有了，后面也就正常了。
60.对比上述识别结果和标注文本发现，识别结果错了一个字“并-》病”，虽然识别结果只错了一个字，但是其对于语义的影响非常大，可见，该识别结果的可接受度不高。
61.针对上述识别结果可接收度不高的问题，发明人想到可加大语言模型的比重，选取语言分布更合理的结果，但是该方案通常会因为无法寻找到统一的声学与语言分融合的参数而造成识别结果的波动，发明人还想到可联合上下游任务对识别结果进行联调，如联合语音识别和识别结果翻译任务，以翻译任务的损失函数进一步强化语音识别结果的合理性分布，但是，联合任务的方式需要平行数据才可以训练，对数据和任务的要求性较高。
62.鉴于上述解决识别结果可接收度不高这一问题的思路不具可行性，发明人继续进行深入研究，通过研究，最终提出了一种效果较好的语音识别方法，通过该语音识别方法可获得可接受度较高的语音识别结果。在一种可能的实现方式中，本发明提供的语音识别方法涉及的硬件架构可以包括具有数据处理能力的电子设备，示例性的，电子设备可以是任何一种可与用户通过语音交互进行人机交互的电子产品，例如，智能手机、智能音箱、笔记本电脑、平板电脑、掌上电脑、可穿戴设备、智能电视、车载终端等等，电子设备可获取待识别语音，按本发明提供的语音识别方法对待识别语音进行识别，在另一种可能的实现方式中，本发明提供的语音识别方法涉及的硬件架构可以包括电子设备和服务器，电子设备可
以是任何一种可与用户通过语音交互进行人机交互的电子产品，服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务器中心，服务器可以包括处理器、存储器以及网络接口等，电子设备可以通过有线通信网络或无线通信网络与服务器建立连接并通信，电子设备获取待识别语音，通过通信网络将获取的待识别语音发送至服务器，服务器按本发明提供的语音识别方法对待识别语音进行识别。
63.本领域技术人员应能理解，上述电子设备和服务器仅为举例，其它现有的或今后可能出现的电子设备或服务器如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。
64.接下来通过下述实施例对本发明提供的语音识别方法进行介绍。
65.请参阅图1，示出了本发明实施例提供的语音识别方法的流程示意图，该方法可以包括：
66.步骤s101：获取待识别语音。
67.步骤s102：基于预先训练得到的语音识别模型对待识别语音进行识别。
68.其中，语音识别模型通过两个阶段的训练得到，第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练，第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练。
69.需要说明的是，第一阶段可基于交叉熵准则进行训练，训练得到的模型作为语音识别基线模型，在获得语音识别基线模型后，为了提升语音识别模型的性能，使得语音识别模型输出用户可接受度较高的识别结果，本发明进一步以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标对语音识别基线模型进行训练。
70.基于交叉熵准则进行训练的方式为现有技术，本实施例对此不作赘述，本实施例重点对以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标，对第一阶段训练得到的语音识别基线模型进行训练的过程进行介绍。
71.请参阅图2，示出了以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标，对语音识别基线模型进行训练的流程示意图，可以包括：
72.步骤s201：基于语音识别基线模型对训练语音进行识别，以得到训练语音的若干候选识别结果。
73.其中，训练语音的若干候选识别结果可以为nbest候选识别结果。
74.步骤s202：确定每个候选识别结果对应的文本单元错误率和语义变化评估指标。
75.其中，文本单元错误率为对应的候选识别结果中识别错误的文本单元的统计指标，其为与语义无直接性关联的指标，语义变化评估指标为能够反映对应的候选识别结果相对于训练语音的标注文本的语义变化的指标。
76.一候选识别结果对应的文本单元错误率根据该候选识别结果和训练语音的标注文本确定，更为具体的，根据该候选识别结果与训练语音的标注文本未对齐的部分确定。
77.可选的，文本单元错误率可以为字错误率wer，字错误率wer可通过下式计算得到：
[0078][0079]
其中，s表示替换的字数、d表示删除的字数、i表示插入的字数、m表示训练语音的标注文本的总字数。
[0080]
在确定一候选识别结果对应的字错误率时，可首先确定该候选识别结果与训练语音的标注文本未对齐的部分，然后针对未对齐部分，统计替换的字数、删除的字数、插入的字数，并统计训练语音的标注文本的总字数，最后按上式(1)示出的方式计算得到该候选识别结果对应的字错误率。
[0081]
需要说明的是，本实施例并不限定文本单元错误率为字错误率，其还可以为其它，比如词错误率等。
[0082]
可选的，上述的语义变化评估指标可以包括词性偏离度和/或句法范畴偏离度。其中，词性偏离度能够反映对应候选识别结果在词性上相对于训练语音的标注文本的偏离程度，句法范畴偏离度能够反映对应候选识别结果在句法范畴上相对于训练语音的标注文本的偏离程度。词性偏离度和句法范畴偏离度的具体确定方式将在后续实施例中介绍。
[0083]
需要说明的是，上述的词性偏离度和句法范畴偏离度仅为示例，本发明并不限定语义变化评估指标采用词性偏离度、句法范畴偏离度，还可以采用其它能够反映对应的候选识别结果相对于训练语音的标注文本的语义变化的指标。
[0084]
步骤s203：结合每个候选识别结果对应的文本单元错误率和语义变化评估指标，确定语音识别基线模型在每个候选识别结果上的预测损失。
[0085]
步骤s203的具体实现过程包括：针对每个候选识别结果，执行：
[0086]
步骤a1、根据该候选识别结果对应的文本单元错误率和语义变化评估指标，确该候选识别结果对应的权重。
[0087]
具体的，根据该候选识别结果对应的文本单元错误率和语义变化评估指标，确该候选识别结果对应的权重，包括：
[0088]
步骤a11、计算该候选识别结果对应的文本单元错误率与平均文本单元错误率的差值、该候选识别结果对应的词性偏离度与平均词性偏离度的差值以及该候选识别结果对应的句法范畴偏离度与平均句法范畴偏离度的差值。
[0089]
其中，平均字错误率为若干候选识别结果(比如nbest候选识别结果)分别对应的文本单元错误率的平均值，平均词性偏离度为若干候选识别结果分别对应的词性偏离度的平均值，平均句法范畴偏离度为若干候选识别结果分别对应的句法范畴偏离度的平均值。
[0090]
对于若干候选识别结果中的第j条候选识别结果，若将第j条候选识别结果对应的文本单元错误率表示为w(yj,y*)，将平均文本单元错误率表示为将第j条候选识别结果对应的词性偏离度表示为p(yj,y*)，将平均词性偏离度表示为将第j条候选识别结果对应的句法范畴偏离度表示为s(yj,y*)，将平均句法范畴偏离度表示为则经由步骤a11可获得三个差值获得三个差值其中，yj表示第j条候选识别结果，y*表示训练语音的标注文本。
[0091]
步骤a12、将计算得到的各个差值融合，融合结果作为该候选识别结果对应的权重。
[0092]
可选的，对于若干候选识别结果中的第j条候选识别结果而言，可通过下式将三个差值进行融合：
[0093][0094]
其中，α和β为平衡系数。
[0095]
需要说明的是，本实施例并不限定采用式(2)的方式对各个差值融合，还可采用其他的方式，比如，将各个差值直接求和。
[0096]
步骤a2、根据该候选识别结果对应的权重和该候选识别结果对应的预测概率，确定语音识别基线模型在该候选识别结果上的预测损失。
[0097]
具体的，可用该候选识别结果对应的权重对该候选识别结果对应的预测概率加权(即，将该候选识别结果对应的权重与该候选识别结果对应的预测概率相乘)，得到的结果作为语音识别基线模型在该候选识别结果上的预测损失。
[0098]
语音识别基线模型在若干候选识别结果中的第j条候选识别结果上的预测损失可表示为：
[0099][0100]
步骤s204：根据语音识别基线模型在每个候选识别结果上的预测损失，对语音识别基线模型进行参数更新。
[0101]
具体的，可将语音识别基线模型在各候选识别结果上的预测损失求和，求和后损失作为语音识别基线模型的预测损失，根据语音识别基线模型的预测损失对语音识别基线模型进行参数更新。语音识别基线模型的预测损失可表示为：
[0102][0103]
本发明实施例提供的语音识别方法中所采用的语音识别模型通过两个阶段训练得到，即，首先基于交叉熵准则训练得到语音识别基线模型，然后以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进一步对语音识别基线模型进行训练，通过上述两个阶段训练得到的语音识别模型具有较好的性能，采用其对待识别语音进行识别时，能够获得可接受度较高的识别结果，用户体验较好。在以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标对语音识别基线模型进行训练时，本发明实施例在文本单元错误率的基础上，引入能够反映语义变化情况的词性偏离度和句法范畴偏离度，结合文本单元错误率、词性偏离度和句法范畴偏离度对语音识别的解码结果进行区分性训练，能够提升语音识别结果的可接受度。
[0104]
接下来对词性偏离度和句法范畴偏离度的确定方式进行介绍。由于各条候选识别结果对应的词性偏离度和句法范畴偏离度的确定方式相同，本实施例以一条候选识别结果为例，对词性偏离度和句法范畴偏离度的确定方式进行介绍。
[0105]
首先对确定一条候选识别结果对应的词性偏离度的过程进行介绍。
[0106]
词性偏离度是对于词性偏差的统计性指标。考虑到不同词性对于语义的重要程度有一定的区分性，本发明中的词性偏离度重点关注识别错误、删除错误、插入错误导致训练语音的候选识别结果与训练语音的标注文本对齐后词性发生改变的部分。需要说明的是，如果产生了识别错误，但是未造成词性的改变，则从词性偏离的角度认为未发生偏离。
[0107]
确定一条候选识别结果对应的词性偏离度的过程可以包括：
[0108]
步骤b1、确定训练语音的标注文本包含的各个词的词性，并确定该候选识别结果
与训练语音的标注文本未对齐部分所包含词的词性。
[0109]
在确定训练语音的标注文本包含的各个词的词性时，首先对训练语音的标注文本进行分词处理，以得到训练语音的标注文本包含的各个词，然后确定通过分词处理得到的各个词的词性。
[0110]
在确定该候选识别结果与训练语音的标注文本未对齐部分的各个词的词性时，同样需要对该候选识别结果进行分词处理，然后将训练语音的标注文本的分词结果与该候选识别结果的分词结果对齐，从而可确定出该候选识别结果与训练语音的标注文本未对齐部分的各个词，进而可确定出对齐部分的各个词的词性。
[0111]
本实施例中，训练语音的标注文本和训练语音的候选识别结果的词性可采用常用的分词工具获得。
[0112]
步骤b2、根据训练语音的标注文本包含的各个词的词性以及该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性，确定该条候选识别结果对应的词性偏离度。
[0113]
具体的，步骤b2的实现过程可以包括：根据该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性的权重，确定该候选识别结果相对于训练语音的标注文本的词性偏离权重，其中，一词的词性的权重能够表征该词的词性的重要程度；对训练语音的标注文本包含的各个词的词性的权重求和，得到词性权重和；根据词性权重和以及该候选识别结果相对于训练语音的标注文本的词性偏离权重，确定该候选识别结果对应的词性偏离度，具体的，可计算该候选识别结果相对于训练语音的标注文本的词性偏离权重与词性权重和的比值，作为该候选识别结果对应的词性偏离度。
[0114]
本实施例中的词性偏离度通过对词性重要性的权重定义强调词性的变化对语法结构合理性的影响。词性偏离度的计算式为：
[0115][0116]
其中，wj表示候选识别结果与训练语音的标注文本未对齐的第j个词的词性的权重，n表示训练语音的标注文本包含的词的总数量，wi表示训练语音的标注文本包含的第i个词的词性的权重。
[0117]
为了实现词性偏离度的确定，本发明预先对各种词性的权重进行定义，在对词性的权重进行定义时，主要依据组合原则(上级语法结构由若干次级语法结构依照一定层级组合而成，句子整体流畅度为局部流畅度的总和)和述谓中心原则(做独立句子谓语的可能性越强，对语法结构的合法性影响越大)等，基于863词性标注集对不同词性的重要性进行定义：
[0118][0119][0120]
接下来结合两个具体的例子，对确定词性偏离度的过程进行介绍：
[0121]
第一个例子：训练语音的标注文本以及训练语音的一候选识别结果分别包含的各个词的词性如下所示：
[0122][0123][0124]
由于训练语音的候选识别结果与训练语音的标注文本未对齐部分为淹(v)-》烟(n)，因此，上式(2)中的分子为词性权重“6”，分母为训练语音的标注文本包含的各个词的词性的权重的和(6 4 1 2 3 4 6 6)，即，训练语音的候选识别结果对应的词性偏离度posd＝6/(6 4 1 2 3 4 6 6)＝0.1875。
[0125]
第二个例子：训练语音的标注文本以及训练语音的一候选识别结果分别包含的各个词的词性如下所示：
[0126][0127]
由于候选识别结果与训练语音的标注文本未对齐部分包括：我(r)-》null、淹(v)-》烟(n)、null-》了(asp)，因此，上式(2)中的分子为词性权重4、词性权重6和词性权重5的和，分母为训练语音的标注文本包含的各个词的词性权重的和(6 4 1 2 3 4 6 6)，即，候选识别结果对应的词性偏离度posd＝(4 6 5)/(6 4 1 2 3 4 6 6)＝0.46875。
[0128]
最后，对句法范畴偏离度的确定方式进行介绍。
[0129]
句法范畴偏离度是对于句法范畴偏差的统计性指标。由于句子是由各语法成分按照一定的层级结构组合而成，而句法成分间的紧密性是不一致的，因此，联系紧密的语法关系一旦被破坏，用户的理解会更加困难。识别错误、删除错误或者插入错误导致成分与成分间的句法关系发生改变，则称该成分发生了句法范畴偏离。需要说明的是，若发生识别错误，但未造成范畴改变，则视为未发生句法范畴偏离。
[0130]
确定一条候选识别结果对应的词性偏离度的过程可以包括：
[0131]
步骤c1、确定训练语音的标注文本中各个词对应的依存关系，并确定该候选识别结果与标注文本未对齐部分的词所改变的依存关系。
[0132]
本实施例中，训练语音的标注文本和候选识别结果中各个词对应的依存关系可采用常用的句式范畴分析工具分析得到。
[0133]
步骤c2、根据训练语音的标注文本中各个词对应的依存关系，以及该候选识别结果与标注文本未对齐部分的词所改变的依存关系，确定该候选识别结果对应的句法范畴偏离度。
[0134]
具体的，步骤c2的具体实现过程包括：根据该候选识别结果与标注文本未对齐部
分的词所改变的依存关系的权重，确定该候选识别结果相对于训练语音的标注文本的依存关系偏离权重；确定训练语音的标注文本中各个词对应的依存关系的权重的和，得到依存关系权重和；根据依存关系权重和以及该候选识别结果相对于训练语音的标注文本的依存关系偏离权重，确定该候选识别结果对应的句法范畴偏离度，具体的，可计算该候选识别结果相对于训练语音的标注文本的依存关系偏离权重与依存关系权重和的比值，作为该候选识别结果对应的句法范畴偏离度。其中，依存关系的权重能够表征依存关系的重要程度。
[0135]
本实施例中的句法范畴偏离度通过强调句式范畴依赖的变化对于语法结构合理性的影响。句法范畴偏离度scd的计算式为：
[0136][0137]
其中，sj表示候选识别结果与训练语音的标注文本未对齐部分的词所改变的第j个依存关系的权重，n表示训练语音的标注文本中所包含的词的总数量，si表示训练语音的标注文本中第i个词对应的依存关系的权重。
[0138]
为了实现句法范畴偏离度的确定，本发明预先对各种依存关系的权重进行定义。在对各种依存关系的权重进行定义时，主要依据组合原则(上级语法结构由若干次级语法结构依照一定层级组合而成，句子整体流畅度为局部流畅度的总和)、句法层级原则(层级越低的范畴组合语法关系越紧密，对语法结构的可接受度影响越大)和述谓中心原则(范畴依存对象的述谓功能越强，范畴间关系对语法结构可接受度的影响越大)等，对各种依存关系的重要性进行定义：
[0139]
[0140][0141]
下面结合一具体的例子对句法范畴偏离度的确定方式进行说明：
[0142]
示例性的，训练语音的标注文本为“：骂我的都被他们淹下去”，训练语音的一候选识别结果为“骂我的都被他们烟下去”，其中，训练语音的标注文本中各个词对应的依存关系如下所示：
[0143]
骂(1,7,'fob')我(2,1,'vob')的(3,1,'rad')都(4,7,'adv')被(5,7,'adv')他们(6,5,'pob')淹(7,0,'hed')下去(8,7,'cmp')
[0144]
其中，(i，j，依存关系标签)中i表示对应词在句子中的排位，j表示对应词的依存对象的排位，依存关系标签表征依存关系类型。
[0145]
对比训练语音的候选识别结果与训练语音的标注文本发现，训练语音的候选识别结果与训练语音的标注文本未对齐部分的词为“淹-烟”，其所涉及的依存关系的改变包括“hed
–
》root”与“cmp
–
》hed”，可见，标注文本包含的各个词分别对应的依存关系中，“hed”和“cmp”被改变了，因此，式(6)中的分子为“hed”的权重“2”与“cmp”的权重“6”的和，分母为训练语音的标注文本包含的各个词对应的依存关系“fob”、“vob”、“rad”、“adv”、“adv”、“pob”、“hed”、“cmp”的权重和(5 9 6 7 7 6 2 11)，即候选识别结果对应的句法范畴偏离度scd＝(2 11)/(5 9 6 7 7 6 2 11)≈0.245。
[0146]
本实施例中的词性偏离度和句法范畴偏离度从词性以及句式范畴依赖强调了训练语音的候选识别结果相对于训练语音的标注文本的语义变化。
[0147]
本发明实施例还提供了一种语音识别装置，下面对本发明实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。
[0148]
请参阅图3，示出了本发明实施例提供的语音识别装置的结构示意图，可以包括：
语音获取模块301和语音识别模块302。
[0149]
语音获取模块301，用于获取待识别语音。
[0150]
语音识别模块302，用于基于预先训练得到的语音识别模型对所述待识别语音进行识别。
[0151]
其中，所述语音识别模型通过两个阶段的训练得到，第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练，第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练。
[0152]
可选的，本实施例提供的语音识别装置还可以包括：模型训练模块。
[0153]
模型训练模块包括：第一训练子模块和第二训练子模块。
[0154]
第一训练子模块，用于以使训练语音的识别结果与训练语音标注的文本一致为目标训练得到语音识别基线模型。
[0155]
第二训练子模块，用于以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标对语音识别基线模型进行训练，以得到最终的语音识别模型。
[0156]
可选的，第二训练子模块在以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标对语音识别基线模型进行训练时，具体用于：
[0157]
基于所述语音识别基线模型对训练语音进行识别，得到训练语音的若干候选识别结果；
[0158]
确定每个候选识别结果对应的文本单元错误率和语义变化评估指标，其中，所述语义变化评估指标能够反映对应的候选识别结果相对于训练语音的标注文本的语义变化；
[0159]
结合每个候选识别结果对应的文本单元错误率和语义变化评估指标，确定所述语音识别基线模型在每个候选识别结果上的预测损失；
[0160]
根据确定出的预测损失对所述语音识别基线模型进行参数更新。
[0161]
可选的，第二训练子模块在结合每个候选识别结果对应的文本单元错误率和语义变化评估指标，确定所述语音识别基线模型在每个候选识别结果上的预测损失时，具体用于：
[0162]
针对每个候选识别结果：
[0163]
根据该候选识别结果对应的文本单元错误率和语义变化评估指标，确定该候选识别结果对应的权重；
[0164]
根据该候选识别结果对应的权重和该候选识别结果对应的预测概率，确定所述语音识别基线模型在该候选识别结果上的预测损失。
[0165]
可选的，第二训练子模块在所述语义变化评估指标包括：词性偏离度和/或句法范畴偏离度。
[0166]
其中，所述词性偏离度能够反映对应候选识别结果在词性上相对于训练语音的标注文本的偏离程度，所述句法范畴偏离度能够反映对应候选识别结果在句法范畴上相对于训练语音的标注文本的偏离程度。
[0167]
可选的，第二训练子模块在根据该候选识别结果对应的文本单元错误率和语义变化评估指标，确定该候选识别结果对应的权重时，具体用于：
[0168]
计算该候选识别结果对应的文本单元错误率与平均文本单元错误率的差值、该候选识别结果对应的词性偏离度与平均词性偏离度的差值、该候选识别结果对应的句法范畴
偏离度与平均句法范畴偏离度的差值，其中，所述平均字错误率为所述若干候选识别结果分别对应的文本单元错误率的平均值，所述平均词性偏离度为所述若干候选识别结果分别对应的词性偏离度的平均值，所述平均句法范畴偏离度为所述若干候选识别结果分别对应的句法范畴偏离度的平均值；
[0169]
将计算得到的各个差值融合，融合结果作为该候选识别结果对应的权重。
[0170]
可选的，第二训练子模块在确定一条候选识别结果对应的词性偏离度时，具体用于：
[0171]
确定训练语音的标注文本包含的各个词的词性，并确定该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性；
[0172]
根据训练语音的标注文本包含的各个词的词性以及该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性，确定该条候选识别结果对应的词性偏离度。
[0173]
可选的，第二训练子模块在根据训练语音的标注文本包含的各个词的词性以及该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性，确定该条候选识别结果对应的词性偏离度时，具体用于：
[0174]
根据该候选识别结果与训练语音的标注文本未对齐部分所包含词的词性的权重，确定该候选识别结果相对于训练语音的标注文本的词性偏离权重，其中，一词的词性的权重能够表征该词的词性的重要程度；
[0175]
对训练语音的标注文本包含的各个词的词性的权重求和，得到词性权重和；
[0176]
根据所述词性权重和以及该候选识别结果相对于训练语音的标注文本的词性偏离权重，确定该候选识别结果对应的词性偏离度。
[0177]
可选的，第二训练子模块在确定一候选识别结果对应的句法范畴偏离度时，具体用于：
[0178]
确定训练语音的标注文本中各个词对应的依存关系，并确定该候选识别结果与标注文本未对齐部分的词所改变的依存关系；
[0179]
根据训练语音的标注文本中各个词对应的依存关系，以及该候选识别结果与标注文本未对齐部分的词所改变的依存关系，确定该候选识别结果对应的句法范畴偏离度。
[0180]
可选的，第二训练子模块在根据训练语音的标注文本中各个词对应的依存关系，以及该候选识别结果与标注文本未对齐部分的词所改变的依存关系，确定该候选识别结果对应的句法范畴偏离度时，具体用于：
[0181]
根据该候选识别结果与标注文本未对齐部分的词所改变的依存关系的权重，确定该候选识别结果相对于训练语音的标注文本的依存关系偏离权重；
[0182]
确定训练语音的标注文本中各个词对应的依存关系的权重的和，得到依存关系权重和；
[0183]
根据所述依存关系权重和以及该候选识别结果相对于训练语音的标注文本的依存关系偏离权重，确定该候选识别结果对应的句法范畴偏离度。
[0184]
本发明实施例提供的语音识别装置中所采用的语音识别模型通过两个阶段训练得到，即，首先以使训练语音的识别结果与训练语音标注的文本一致为目标训练得到语音识别基线模型，然后以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进一步对语音识别基线模型进行训练，通过上述两个阶段训练得到的语音识别模型具
有较好的性能，采用其对待识别语音进行识别时，能够获得可接受度较高的识别结果，用户体验较好。在以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标对语音识别基线模型进行训练时，本发明实施例在文本单元错误率的基础上，引入能够反映语义变化情况的词性偏离度和句法范畴偏离度，结合文本单元错误率、词性偏离度和句法范畴偏离度对语音识别的解码结果进行区分性训练，能够提升语音识别结果的可接受度。
[0185]
本发明实施例还提供了一种语音识别设备，请参阅图4，示出了该语音识别设备的结构示意图，该语音识别设备可以包括：至少一个处理器401，至少一个通信接口402，至少一个存储器403和至少一个通信总线404；
[0186]
在本发明实施例中，处理器401、通信接口402、存储器403、通信总线404的数量为至少一个，且处理器401、通信接口402、存储器403通过通信总线404完成相互间的通信；
[0187]
处理器401可能是一个中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；
[0188]
存储器403可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；
[0189]
其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：
[0190]
获取待识别语音；
[0191]
基于预先训练得到的语音识别模型对所述待识别语音进行识别；
[0192]
其中，所述语音识别模型通过两个阶段的训练得到，第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练，第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练。
[0193]
可选的，所述程序的细化功能和扩展功能可参照上文描述。
[0194]
本发明实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：
[0195]
获取待识别语音；
[0196]
基于预先训练得到的语音识别模型对所述待识别语音进行识别；
[0197]
其中，所述语音识别模型通过两个阶段的训练得到，第一阶段以使训练语音的识别结果与训练语音标注的文本一致为目标进行训练，第二阶段以平衡训练语音的语音识别结果的文本单元错误率与语义可接受度为目标进行训练。
[0198]
可选的，所述程序的细化功能和扩展功能可参照上文描述。
[0199]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0200]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。
[0201]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于时频域的车辆路噪控制方法及设备、存储介质与流程

一种语音识别方法、装置、设备及存储介质与流程

相关文献

最热文献