基于人机对话的训练数据的生成方法、装置和设备与流程

2022-03-19 22:42:34 来源：中国专利 TAG：

1.本技术涉及语音技术领域，具体而言，涉及一种基于人机对话的训练数据的生成方法、装置和设备。

背景技术：

2.语音识别模型是能够对输入的语音进行识别的模型，例如，将一段音频输入语音识别模型，语音识别模型能够输出这段音频对应的文本。
3.现有的语音识别模型的训练，是首先获取训练音频和该训练音频对应的正确文本，然后将训练音频和该训练音频对应的正确文本输入语音识别模型，从而对该语音识别模型进行训练。
4.在该语音识别模型训练好之后，可以使用该训练好的语音识别模型对语音进行识别，以测试该语音识别模型的识别效果。测试过程中会发现该语音识别模型对某些语音会识别错误，于是，将识别错误的语音作为错误音频，以使用该错误音频继续对语音识别模型进行训练，以提高语音识别模型的识别率。
5.那么，在多轮对话中，如何确定错误音频呢？现有的方式是通过人工去听某个完整音频，确定该完整音频对应的文本，然后人工判断该完整音频对应的文本与语音识别模型输出的文本是否相同，如果相同，则认为语音识别模型识别无误，如果不同，则认为语音识别模型识别有误，于是，人工确定识别错误的文本的音频在完整语音中的开始时间和截止时间，然后根据该开始时间和截止时间从完整语音中提取出该识别错误的文本的音频，最后将该音频作为错误音频。由此可见，由于需要人工去确认错误音频的开始时间和截止时间，存在训练数据生成效率低下的技术问题。

技术实现要素：

6.基于此，有必要针对上述问题，提出一种基于人机对话的训练数据的生成方法、装置和设备。
7.第一方面，提供了一种基于人机对话的训练数据的生成方法，包括：
8.获取错误文本、所述错误文本的标注文本和所述错误文本对应的完整语音，所述错误文本是第一语音识别模型识别出的、被判定为识别错误的语音的识别结果，所述第一语音识别模型是还未训练好的语音识别模型；
9.对所述完整语音进行语音切割，得到多个分段语音；
10.使用第二语音识别模型对每个所述分段语音进行语音识别，得到每个所述分段语音的分段文本，所述第二语音识别模型是已经训练好的语音识别模型；
11.计算所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度，得到最大相似度对应的目标分段文本；
12.将所述标注文本和所述目标分段文本对应的分段语音进行组合，得到训练数据。
13.上述基于人机对话的训练数据的生成方法，由于计算了错误文本或者标注文本和
分段文本之间的相似度，并且得到了最大相似度对应的目标分段文本，并且，预先通过对完整语音进行语音切割得到了目标分段文本对应的分段语音，因此，在得到目标分段文本之后，可以直接获取到目标分段文本对应的分段语音，然后将该分段语音和标注文本作为一组训练数据，以对语音识别模型进行训练。可见，由于不需要人工再去确定错误音频(目标分段文本对应的分段语音)的开始时间和截止时间，从而使得训练数据的生成效率得到了一定的提高。
14.在一个实施例中，在所述将所述标注文本和所述目标分段文本对应的分段语音进行组合，得到训练数据之后，还包括：
15.使用所述训练数据对所述第一语音识别模型进行训练。
16.在一个实施例中，所述对所述完整语音进行语音切割，得到多个分段语音，包括：
17.对所述完整语音进行语音切割，得到多个分割语音；
18.从所述多个分割语音中获取用户的语音，得到多个分段语音。
19.在一个实施例中，所述对所述完整语音进行语音切割，得到多个分段语音，包括：
20.获取所述完整语音对应的信号数据；
21.对所述信号数据进行分帧处理，得到第一数量的信号帧；
22.确定每个所述信号帧的类别，所述类别为有声类别或者无声类别；
23.根据第一数量的信号帧的类别，得到第二数量的分段语音。
24.在一个实施例中，所述计算所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度，包括：
25.获取所述错误文本或所述标注文本的文本特征向量，以及，每个所述分段文本的文本特征向量；
26.计算所述错误文本或所述标注文本的文本特征向量，与，所述分段文本的文本特征向量之间的特征距离，得到所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度。
27.在一个实施例中，所述获取所述错误文本或所述标注文本的文本特征向量，以及，每个所述分段文本的文本特征向量，包括：
28.确定所述错误文本或者所述标注文本或者所述分段文本中的每个字的独热编码；
29.将每个字的独热编码分别与预设的共享矩阵相乘，得到所述字的初步字向量；
30.将所述字的初步字向量与预设的权重矩阵相乘，得到所述字的目标字向量；
31.将所述错误文本或者所述标注文本或者所述分段文本中的每个字的目标字向量求平均，得到所述错误文本或所述标注文本的文本特征向量，以及，每个所述分段文本的文本特征向量。
32.第二方面，提供了一种基于人机对话的训练数据的生成装置，包括：
33.获取模块，用于获取错误文本、所述错误文本的标注文本和所述错误文本对应的完整语音，所述错误文本是第一语音识别模型识别出的、被判定为识别错误的语音的识别结果，所述第一语音识别模型是还未训练好的语音识别模型；
34.切割模块，用于对所述完整语音进行语音切割，得到多个分段语音；
35.识别模块，用于使用第二语音识别模型对每个所述分段语音进行语音识别，得到每个所述分段语音的分段文本，所述第二语音识别模型是已经训练好的语音识别模型；
36.计算模块，用于计算所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度，得到最大相似度对应的目标分段文本；
37.得到模块，用于将所述标注文本和所述目标分段文本对应的分段语音进行组合，得到训练数据。
38.在一个实施例中，基于人机对话的训练数据的生成装置，还包括：
39.训练模块，用于使用所述训练数据对所述第一语音识别模型进行训练。
40.第三方面，提供了一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述基于人机对话的训练数据的生成方法的步骤。
41.第四方面，提供了一种计算机可读存储介质，所述计算机可读取存储介质中存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如上所述基于人机对话的训练数据的生成方法的步骤。
附图说明
42.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
43.图1为本技术实施例中基于人机对话的训练数据的生成方法的实现流程示意图；
44.图2为本技术实施例中独热编码的示意图；
45.图3为本技术实施例中基于人机对话的训练数据的生成装置的组成结构示意图；
46.图4为本技术实施例中计算机设备的内部结构框图。
具体实施方式
47.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
48.在一个实施例中，提供了一种基于人机对话的训练数据的生成方法。本发明实施例所述的基于人机对话的训练数据的生成方法的执行主体为能够实现本发明实施例所述的基于人机对话的训练数据的生成方法的计算机设备，该计算机设备可以包括但不限于终端和服务器。其中，终端包括台式终端和移动终端，台式终端包括但不限于台式电脑和车载电脑；移动终端包括但不限于手机、平板、笔记本电脑和智能手表。服务器包括高性能计算机和高性能计算机集群。
49.在一个实施例中，如图1所示，提供了一种基于人机对话的训练数据的生成方法，包括：
50.步骤100，获取错误文本、所述错误文本的标注文本和所述错误文本对应的完整语音，所述错误文本是第一语音识别模型识别出的、被判定为识别错误的语音的识别结果，所述第一语音识别模型是还未训练好的语音识别模型。
51.错误文本，是人工发现的识别错误的文本；错误文本的标注文本，是人工标注的该错误文本对应的正确文本；错误文本对应的完整语音，是一个时间相对较长的语音，在该完整语音中，可能会涉及到多句话，该完整语音经过第一语音识别模型的识别，可以得到一个包含字数较多的文本，而错误文本只是该包含字数较多的文本中的一部分；第一语音识别模型，是还未训练好的语音识别模型，第一语音识别模型识别虽然经过了训练，但是训练后得到的第一语音识别模型的识别率并不是很高，于是，还需要获取更多的训练数据，以对第一语音识别模型进行再训练。
52.步骤200，对所述完整语音进行语音切割，得到多个分段语音。
53.分段语音，为完整语音中的一段语音。例如，完整语音中总共包含5句话，则对该完整语音进行语音切割，可以得到5个分段语音。在一个示例中，根据预设时长对完整语音进行语音切割，得到多个分段语音。其中，预设时长，为预先设置的一个时长，例如，预设时长为0.5秒。可以理解的是，用户在说两句话的时候，两句话之间难免会有一定的时间间隔，于是，根据这样的时间间隔，实现对完整语音的语音切割。
54.步骤300，使用第二语音识别模型对每个所述分段语音进行语音识别，得到每个所述分段语音的分段文本，所述第二语音识别模型是已经训练好的语音识别模型。
55.第二语音识别模型，是已经训练好的语音识别模型，已经训练好是指该第二语音识别模型能够达到较高的识别率，在实际应用过程中，可以通过购买或者租用等方式从其他企业获取到第二语音识别模型的使用权，从而实现对自己企业的第一语音识别模型的训练，当然，第一语音识别模型和第二语音识别模型也可以均是自己企业的语音识别模型；分段文本，为分段语音经过第二语音识别模型识别后得到的文本。
56.步骤400，计算所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度，得到最大相似度对应的目标分段文本。
57.目标分段文本，为与错误文本或者标注文本最相似的文本。
58.以错误文本与分段文本的计算进行说明。将错误文本分别与每个分段文本进行组合，得到多个组合文本；计算组合文本中的错误文本和分段文本之间的相似度，得到该组合文本对应的相似度；从多个组合文本对应的多个相似度中获取到最大相似度，将最大相似度对应的组合文本中的分段文本作为目标分段文本。
59.步骤500，将所述标注文本和所述目标分段文本对应的分段语音进行组合，得到训练数据。
60.目标分段文本对应的分段语音，认为是错误文本对应的语音，即认为是第一语音识别模型识别出的、被判定为识别错误的语音。将标注文本和目标分段文本对应的分段语音进行组合，得到一组训练数据，后续可以使用该训练数据对第一语音识别模型进行训练。
61.上述基于人机对话的训练数据的生成方法，由于计算了错误文本或者标注文本和分段文本之间的相似度，并且得到了最大相似度对应的目标分段文本，并且，预先通过对完整语音进行语音切割得到了目标分段文本对应的分段语音，因此，在得到目标分段文本之后，可以直接获取到目标分段文本对应的分段语音，然后将该分段语音和标注文本作为一组训练数据，以对语音识别模型进行训练。可见，由于不需要人工再去确定错误音频(目标分段文本对应的分段语音)的开始时间和截止时间，从而使得训练数据的生成效率得到了一定的提高。
62.在一个实施例中，在步骤500所述将所述标注文本和所述目标分段文本对应的分段语音进行组合，得到训练数据之后，还包括：
63.使用所述训练数据对所述第一语音识别模型进行训练。
64.将训练数据中的目标分段文本对应的分段语音输入第一语音识别模型，得到第一语音识别模型输出的预测文本；根据预测文本和训练数据中的标注文本计算模型损失；根据模型损失对第一语音识别模型进行训练。
65.上述实施例，在得到训练数据后，使用训练数据对第一语音识别模型进行训练，以便提高第一语音识别模型的识别率。
66.在一个实施例中，步骤200所述对所述完整语音进行语音切割，得到多个分段语音，包括：
67.步骤201，对所述完整语音进行语音切割，得到多个分割语音。
68.根据预设时长对完整语音进行语音切割，得到多个分割语音。例如，完整语音中总共包含5句话，则对该完整语音进行语音切割，可以得到5个分割语音。
69.步骤202，从所述多个分割语音中获取用户的语音，得到多个分段语音。
70.完整语音可能是用户与机器人对话产生的，因此，完整语音中会包含机器人的语音，于是，从多个分割语音中获取到用户的语音，将获取到的用户的语音作为多个分段语音。继续上述例子，当5句话中有2句话是用户说的时，则将这2句话作为2个分段语音。
71.由于机器人说话相较于人说话，通常语速较慢，而且发音清晰，识别成功的概率比较高，而且，机器人说话与真正的人说话是不同的，语音识别的目的更多的时候是为了识别人说的话，所以，需要获取到用户的语音对语音识别模型进行训练。
72.上述实施例，从多个分割语音中获取用户的语音，以便后续模型训练的时候是基于用户的语音进行的训练。
73.在一个实施例中，步骤200所述对所述完整语音进行语音切割，得到多个分段语音，包括：
74.步骤200a，获取所述完整语音对应的信号数据。
75.信号数据，是根据完整语音的声音波形得到的，完整语音的声音波形可以用一系列离散的数据点来表示，该一系列离散的数据点即为完整语音的信号数据，例如，完整语音对应的信号数据为[1 1 20 30 500 600 900
…
]。例如，完整语音为wav格式的语音文件，在实际应用中，调用函数库中的方法即可得到信号数据。
[0076]
步骤200b，对所述信号数据进行分帧处理，得到第一数量的信号帧。
[0077]
假设信号数据的数据长度为200000，完整语音的时间长度为10秒，第一数量为2000，于是，每个信号帧的数据长度为100，每个信号帧的时间长度为5毫秒。
[0078]
步骤200c，确定每个所述信号帧的类别，所述类别为有声类别或者无声类别。
[0079]
将信号帧输入预先训练好的类别识别模型，得到信号帧的类别。有声类别，指示信号帧有声音信号，大概率是用户在说话；无声类别，指示信号帧没有声音信号，大概率是用户在说话的间隙进行的停顿。需要预先对类别识别模型进行训练，包括：获取类别训练数据，所述类别训练数据包括训练信号帧和训练信号帧的人工标注类别；将训练信号帧输入类别识别模型，得到类别识别模型输出的预测类别；根据训练信号帧的预测类别和训练信号帧的人工标注类别得到损失；根据损失对类别识别模型进行训练，得到训练好的类别识
别模型。
[0080]
步骤200d，根据第一数量的信号帧的类别，得到第二数量的分段语音。
[0081]
例如，2000个信号帧中的第1个到第20个信号帧的类别均为有声类别，将第1个到第20个信号帧进行组合，得到第1组合信号帧，2000个信号帧中的第21个到第25个信号帧的类别均为无声类别，将第21个到第25个信号帧进行组合，得到第2组合信号帧，根据第1组合信号帧、第2组合信号帧和完整语音，得到第1个分段语音；再如，2000个信号帧中的第26个到第100个信号帧的类别均为有声类别，将第26个到第100个信号帧进行组合，得到第3组合信号帧，2000个信号帧中的第101个到第125个信号帧的类别均为无声类别，将第101个到第125个信号帧进行组合，得到第4组合信号帧，根据第3组合信号帧、第4组合信号帧和完整语音，得到第2个分段语音。依次类推，可以得到第二数量的分段语音。
[0082]
上述实施例，提供了一种获取到分段语音的方法，即根据声音间隔，把两段有声音间隔出现的语音划分为两段语音。
[0083]
在一个实施例中，步骤400所述计算所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度，包括：
[0084]
步骤401，获取所述错误文本或所述标注文本的文本特征向量，以及，每个所述分段文本的文本特征向量。
[0085]
文本特征向量，为对文本进行向量表示，以便计算机设备能够识别。例如，文本特征向量为[0.01，0.02，0.05，0.1，0.32，0.08，0.01]。
[0086]
步骤402，计算所述错误文本或所述标注文本的文本特征向量，与，所述分段文本的文本特征向量之间的特征距离，得到所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度。
[0087]
计算错误文本或所述标注文本的文本特征向量与分段文本的文本特征向量之间的欧式距离，得到错误文本或所述标注文本的文本特征向量与分段文本的文本特征向量之间的特征距离。例如，错误文本的文本特征向量为[a1，a2，a3，a4，a5，a6，a7]，分段文本的文本特征向量为[b1，b2，b3，b4，b5，b6，b7],于是，两个文本之间的特征距离为：
[0088]
(a1-b1)2 (a2-b2)2 (a3-b3)2 (a4-b4)2 (a5-b5)2 (a6-b6)2 (a7-b7)2，
[0089]
对计算得到的特征距离进行函数变换，得到错误文本与分段文本之间的相似度。
[0090]
可以理解的是，距离越大，认为两个文本越不相似，距离越小，认为两个文本越相似，所以，在得到特征距离之后，还需要进行函数变换，才能得到两个文本之间的相似度。
[0091]
上述实施例，说明了如何进行错误文本或所述标注文本与分段文本之间的相似度的计算。
[0092]
在一个实施例中，步骤401所述获取所述错误文本或所述标注文本的文本特征向量，以及，每个所述分段文本的文本特征向量，包括：
[0093]
步骤401a，确定所述错误文本或者所述标注文本或者所述分段文本中的每个字的独热编码。
[0094]
字的独热编码，是根据字在词汇库中的顺序得到的，例如，词汇库中总共有7个字，分别为：你，在，开，车，我，喜，欢，错误文本为：我在开车，于是，错误文本中的“我”字、“在”字、“开”字以及“车”字的独热编码分别为：
[0095][0096]
步骤401b，将每个字的独热编码分别与预设的共享矩阵相乘，得到所述字的初步字向量。
[0097]
预设的共享矩阵，为预先设置的一个矩阵，该预设的共享矩阵包含了词汇库的中的每个字的特征。
[0098]
例如，字的独热编码为t表示，t的维度为1
×
n，预设的共享矩阵用w1表示，w1的维度为n
×
m，其中，n表示词汇库中的字的数量，m表示字对应的特征的维度，于是，将字的独热编码与预设的共享矩阵相乘，可以得到这个字的初步字向量，初步字向量的维度为1
×
m。
[0099]
步骤401c，将所述字的初步字向量与预设的权重矩阵相乘，得到所述字的目标字向量。
[0100]
预设的权重矩阵，为预先设置的权重矩阵，通过该预先设置的权重矩阵对字的初步字向量进行处理，可以得到字的目标字向量，例如，预设的权重矩阵的维度为m
×
n，于是，目标字向量的维度为1
×
n。
[0101]
步骤401d，将所述错误文本或者所述标注文本或者所述分段文本中的每个字的目标字向量求平均，得到所述错误文本或所述标注文本的文本特征向量，以及，每个所述分段文本的文本特征向量。
[0102]
继续上述例子，将维度均为1
×
n的“我”字、“在”字、“开”字以及“车”字的目标字向量相加，得到和向量，维度为1
×
n；再将和向量除以错误文本中的字的总数量(在这个例子中，总数量为4)，即可得到错误文本的文本特征向量。得到分段文本、所述标注文本的文本特征向量的方法和得到错误文本的文本特征向量的方法相同，在此不再详述。
[0103]
上述实施例，说明了如何得到错误文本、所述标注文本以及分段文本的文本特征向量。
[0104]
在一个实施例中，基于人机对话的训练数据的生成方法，还包括：
[0105]
获取预设的共享矩阵和预设的权重矩阵。
[0106]
获取词汇库，假设词汇库中总共有7个字，分别为：你，在，开，车，我，喜，欢；获取训练语料，假设训练语料为“你在开车”和“我喜欢开车”；对共享矩阵和权重矩阵进行初始化，得到语音识别模型中的初始化的共享矩阵和初始化的权重矩阵，其中，语音识别模型为第一语音识别模型或者第二语音识别模型；从训练语料(假设为“你在开车”)中得到中心字(中心字为语料所包含的各个字中的一个)，假设中心字为：在；获取中心字的独热编码，以及，“你”、“开”、“车”的独热编码，将中心字的独热编码作为输入，将“你”、“开”、“车”的独热编码进行组合得到的组合编码作为相应的标注输出，如图2所示，对语音识别模型进行训练，得到训练好的参数，训练好的参数包括训练好的共享矩阵和训练好的权重矩阵，将训练好的共享矩阵和训练好的权重矩阵分别作为预设的共享矩阵和预设的权重矩阵。
[0107]
上述实施例，说明了如何得到预设的共享矩阵和预设的权重矩阵。
[0108]
在一个实施例中，提供了一种基于人机对话的训练数据的生成装置300，包括：
[0109]
获取模块301，用于获取错误文本、所述错误文本的标注文本和所述错误文本对应的完整语音，所述错误文本是第一语音识别模型识别出的、被判定为识别错误的语音的识别结果，所述第一语音识别模型是还未训练好的语音识别模型；
[0110]
切割模块302，用于对所述完整语音进行语音切割，得到多个分段语音；
[0111]
识别模块303，用于使用第二语音识别模型对每个所述分段语音进行语音识别，得到每个所述分段语音的分段文本，所述第二语音识别模型是已经训练好的语音识别模型；
[0112]
计算模块304，用于计算所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度，得到最大相似度对应的目标分段文本；
[0113]
得到模块305，用于将所述标注文本和所述目标分段文本对应的分段语音进行组合，得到训练数据。
[0114]
在一个实施例中，基于人机对话的训练数据的生成装置300，还包括：
[0115]
训练模块，用于使用所述训练数据对所述第一语音识别模型进行训练。
[0116]
在一个实施例中，所述切割模块302，具体用于：
[0117]
对所述完整语音进行语音切割，得到多个分割语音；
[0118]
从所述多个分割语音中获取用户的语音，得到多个分段语音。
[0119]
在一个实施例中，所述切割模块302，具体用于：
[0120]
获取所述完整语音对应的信号数据；
[0121]
对所述信号数据进行分帧处理，得到第一数量的信号帧；
[0122]
确定每个所述信号帧的类别，所述类别为有声类别或者无声类别；
[0123]
根据第一数量的信号帧的类别，得到第二数量的分段语音。
[0124]
在一个实施例中，所述计算模块304，具体用于：
[0125]
获取所述错误文本或所述标注文本的文本特征向量，以及，每个所述分段文本的文本特征向量；
[0126]
计算所述错误文本或所述标注文本的文本特征向量，与，所述分段文本的文本特征向量之间的特征距离，得到所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度。
[0127]
在一个实施例中，所述计算模块304，具体用于：
[0128]
确定所述错误文本或者所述标注文本或者所述分段文本中的每个字的独热编码；
[0129]
将每个字的独热编码分别与预设的共享矩阵相乘，得到所述字的初步字向量；
[0130]
将所述字的初步字向量与预设的权重矩阵相乘，得到所述字的目标字向量；
[0131]
将所述错误文本或者所述标注文本或者所述分段文本中的每个字的目标字向量求平均，得到所述错误文本或所述标注文本的文本特征向量，以及，每个所述分段文本的文本特征向量。
[0132]
在一个实施例中，如图4所示，提供了一种计算机设备，该计算机设备具体可以是终端或服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，存储器包括非易失性存储介质和内存储器，该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于人机对话的训练数据的生成方法。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可
编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于人机对话的训练数据的生成方法。本领域技术人员可以理解，图4中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0133]
本技术提供的基于人机对话的训练数据的生成方法可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成基于人机对话的训练数据的生成装置的各个程序模板。比如，获取模块301、切割模块302和识别模块303。
[0134]
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：
[0135]
获取错误文本、所述错误文本的标注文本和所述错误文本对应的完整语音，所述错误文本是第一语音识别模型识别出的、被判定为识别错误的语音的识别结果，所述第一语音识别模型是还未训练好的语音识别模型；
[0136]
对所述完整语音进行语音切割，得到多个分段语音；
[0137]
使用第二语音识别模型对每个所述分段语音进行语音识别，得到每个所述分段语音的分段文本，所述第二语音识别模型是已经训练好的语音识别模型；
[0138]
计算所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度，得到最大相似度对应的目标分段文本；
[0139]
将所述标注文本和所述目标分段文本对应的分段语音进行组合，得到训练数据。
[0140]
在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：
[0141]
获取错误文本、所述错误文本的标注文本和所述错误文本对应的完整语音，所述错误文本是第一语音识别模型识别出的、被判定为识别错误的语音的识别结果，所述第一语音识别模型是还未训练好的语音识别模型；
[0142]
对所述完整语音进行语音切割，得到多个分段语音；
[0143]
使用第二语音识别模型对每个所述分段语音进行语音识别，得到每个所述分段语音的分段文本，所述第二语音识别模型是已经训练好的语音识别模型；
[0144]
计算所述错误文本或所述标注文本，与，每个所述分段文本之间的相似度，得到最大相似度对应的目标分段文本；
[0145]
将所述标注文本和所述目标分段文本对应的分段语音进行组合，得到训练数据。
[0146]
需要说明的是，上述基于人机对话的训练数据的生成方法、基于人机对话的训练数据的生成装置、计算机设备及计算机可读存储介质属于一个总的发明构思，基于人机对话的训练数据的生成方法、基于人机对话的训练数据的生成装置、计算机设备及计算机可
读存储介质实施例中的内容可相互适用。
[0147]
在本技术所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0148]
另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0149]
再者，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0150]
在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0151]
以上所述仅为本技术的实施例而已，并不用于限制本技术的保护范围，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于MFCC系数的猪只叫声识别系统及方法与流程

基于人机对话的训练数据的生成方法、装置和设备与流程

相关文献

最热文献