一种语音识别模型的训练方法、装置及设备与流程

2021-10-09 13:46:00 来源：中国专利 TAG：

1.本技术涉及数据处理领域，具体涉及一种语音识别模型的训练方法、装置及设备。
背景技术：
：：2.语音识别技术是指对语音数据进行识别，将语音数据所对应的内容转换为计算机可读的输入。例如，通过语音识别技术，能够将语音数据中所包含的内容转换为对应的文本，便于对语音数据所包含的内容进行后续处理。3.目前，可以利用语音识别模型实现对语音数据的语音识别。语音识别模型用于对输入的语音数据进行处理，得到语音数据对应的文本数据。但是，语音识别模型得到的语音识别结果不够准确，难以满足语音识别的需要。技术实现要素：4.有鉴于此，本技术实施例提供一种语音识别模型的训练方法、装置及设备，能够提高语音识别模型输出的识别结果的准确性，满足语音识别的需要。5.基于此，本技术实施例提供的技术方案如下：6.第一方面，本技术实施例提供一种语音识别模型的训练方法，所述方法包括：7.将训练数据输入至待训练模型中，得到第一字预测结果和第二字预测结果；所述训练数据包括语音数据和与所述语音数据对应的字标签，所述待训练模型由编码器、连续整合发放cif模块、第一解码器和第二解码器构成；8.根据所述第一字预测结果和所述训练数据，计算最小字错误率损失；所述最小字错误率损失用于衡量所述第一字预测结果与所述字标签之间的差距；9.根据所述第二字预测结果和所述字标签，计算交叉熵损失；所述交叉熵损失用于衡量所述第二字预测结果与所述字标签之间的差距；10.利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，以得到训练生成的语音识别模型。11.第二方面，本技术实施例提供一种语音识别模型的训练装置，所述装置包括：12.输入单元，用于将训练数据输入至待训练模型中，得到第一字预测结果和第二字预测结果；所述训练数据包括语音数据和与所述语音数据对应的字标签，所述待训练模型由编码器、连续整合发放cif模块、第一解码器和第二解码器构成；13.第一计算单元，用于根据所述第一字预测结果和所述训练数据，计算最小字错误率损失；所述最小字错误率损失用于衡量所述第一字预测结果与所述字标签之间的差距；14.第二计算单元，用于根据所述第二字预测结果和所述字标签，计算交叉熵损失；所述交叉熵损失用于衡量所述第二字预测结果与所述字标签之间的差距；15.调整单元，用于利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，以得到训练生成的语音识别模型。16.第三方面，本技术实施例提供一种电子设备，包括：17.一个或多个处理器；18.存储装置，其上存储有一个或多个程序，19.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例中任一所述的方法。20.第四方面，本技术实施例提供一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述实施例中任一所述的方法。21.由此可见，本技术实施例具有如下有益效果：22.本技术实施例提供的一种语音识别模型的训练方法、装置及设备，通过将训练数据输入至由编码器、cif模块、第一解码器和第二解码器组成的待训练模型中，得到第一字预测结果和第二字预测结果；再利用第一字预测结果和训练数据计算最小字错误率损失，最小字错误率损失能够对第一字预测结果和字标签之间的差距进行衡量。利用第二字预测结果和字标签计算交叉熵损失；最后，利用最小字错误率损失和交叉熵损失共同调整待训练模型中的模型参数，得到训练生成的语音识别模型。通过利用最小字错误率损失调整模型参数，能够使得训练得到的语音识别模型输出的语音识别结果更为准确，语音识别结果的字错误率较低，满足语音识别字错误率较低的需要。附图说明23.图1本技术实施例提供的示例性应用场景的框架示意图；24.图2为本技术实施例提供的一种语音识别模型的训练方法的流程图；25.图3为本技术实施例提供的一种语音识别模型的结构示意图；26.图4为本技术实施例提供的另一种语音识别模型的训练方法的流程图；27.图5为本技术实施例提供的又一种语音识别模型的训练方法的示意图；28.图6为本技术实施例提供的再一种语音识别模型的训练方法的示意图；29.图7为本技术实施例提供的一种语音识别模型的训练装置的结构示意图；30.图8为本技术实施例提供的一种电子设备的基本结构的示意图。具体实施方式31.为了便于理解和解释本技术实施例提供的技术方案，下面将先对本技术的
背景技术：
：进行说明。32.在对传统的基于cif(continuousintegrate‑and‑fire，连续整合发放)的语音识别模型的训练过程进行研究后发现，基于cif的语音识别模型的训练方法是基于交叉熵损失对模型参数进行调整。交叉熵损失的目标是提升训练数据的对数似然，与语音识别的降低字错误率的目标不同。因此，基于交叉熵损失训练得到的基于cif的语音识别模型的语音识别结果难以满足语音识别的需要。33.基于此，本技术实施例提供一种语音识别模型的训练方法、装置及设备，通过将训练数据输入至由编码器、cif模块、第一解码器和第二解码器组成的待训练模型中，得到第一字预测结果和第二字预测结果；再利用第一字预测结果和训练数据计算最小字错误率损失，最小字错误率损失能够对第一字预测结果和字标签之间的差距进行衡量。利用第二字预测结果和字标签计算交叉熵损失；最后，利用最小字错误率损失和交叉熵损失共同调整待训练模型中的模型参数，得到训练生成的语音识别模型。通过利用最小字错误率损失调整模型参数，能够使得训练得到的语音识别模型输出的语音识别结果更为准确，语音识别结果的字错误率较低，满足语音识别字错误率较低的需要。34.为了便于理解本技术实施例提供的语音识别模型的训练方法，下面结合图1所示的场景示例进行说明。参见图1所示，该图为本技术实施例提供的示例性应用场景的框架示意图。35.在实际应用中，待训练模型由编码器101、cif模块102、第一解码器103和第二解码器104组成。将包括语音数据和与语音数据对应的字标签的训练数据输入至待训练模型中，得到由输出的第一字预测结果和第二字预测结果。图1以将cif模块102输出的声学特征向量分别输入第一解码器103和第二解码器104为例。得到由第一解码器103输出的第一字预测结果和由第二解码器104输出的第二字预测结果。利用第一字预测结果和训练数据，计算最小字错误率损失。利用第二字预测结果和字标签，计算交叉熵损失。再利用最小字错误率损失和交叉熵损失对待训练模型中的模型参数进行调整。并经过多次训练得到语音识别模型。36.本领域技术人员可以理解，图1所示的框架示意图仅是本技术的实施方式可以在其中得以实现的一个示例。本技术实施方式的适用范围不受到该框架任何方面的限制。37.基于上述说明，下面将结合附图对本技术提供的语音识别模型的训练方法进行详细说明。38.参见图2所示，该图为本技术实施例提供的一种语音识别模型的训练方法的流程图，如图2所示，方法可以包括s201‑s204。39.s201：将训练数据输入至待训练模型中，得到第一字预测结果和第二字预测结果；训练数据包括语音数据和与语音数据对应的字标签，待训练模型由编码器、连续整合发放cif模块、第一解码器和第二解码器构成。40.训练数据是用于训练待训练模型的数据。训练数据中包括语音数据和语音数据对应的字标签。例如，语音数据是对应于“今天”的语音，则语音数据对应的字标签为“今天”。41.待训练模型是由编码器、cif模块、第一解码器和第二解码器构成的需要进行训练的模型。将训练数据输入至待训练模型中，能够得到第一字预测结果和第二字预测结果。第一字预测结果和第二字预测结果分别是由第一解码器和第二解码器输出的。42.在一种可能的实现方式中，第一字预测结果是由第一解码器对cif模块输出的声学特征向量处理得到的，第二字预测结果是由第二解码器对cif模块输出的声学特征向量处理得到的。其中，第一解码器和第二解码器均是对cif模块输出的声学特征向量进行处理。第一解码器是用于生成计算最小字错误率损失的第一字预测结果的解码器。第一字预测结果为对训练数据中的语音数据所对应的字符的预测结果。第二解码器是用于生成计算交叉熵损失的第二字预测结果的解码器。43.第一解码器和第二解码器可以采用不同的算法构建。在一种可能的实现方式中，第一解码器为基于集束搜索算法构建的解码器。第二解码器可以是自回归解码器或者是非自回归解码器。44.基于集束搜索算法构建的第一解码器，能够使得输出的第一字预测结果中的各个字预测结果和输入第一解码器的声学特征向量的维度一致。如此，在后续根据第一字预测结果和训练数据计算最小字错误率损失时，能够得到更为准确的最小字错误率损失。45.在一种可能的实现方式中，cif模块为完成预训练的cif模块。利用完成预训练的cif模块进行待训练模型的训练，能够使得待训练模型的训练过程更为稳定。46.s202：根据第一字预测结果和训练数据，计算最小字错误率损失；最小字错误率损失用于衡量第一字预测结果与字标签之间的差距。47.第一字预测结果中包括对于语音数据所对应的字符的预测序列。字标签中包括对于语音数据所对应的字符的正确的序列。基于第一字预测结果和训练数据，计算最小字错误率损失。48.最小字错误率损失用于衡量第一字预测结果和字标签之间的差距，具体用于衡量第一字预测结果中预测的字符序列和字标签中正确的字符序列之间的差距。最小字错误率损失能够反映待训练模型的字预测结果的正确程度。49.本技术实施例提供一种根据第一字预测结果和训练数据，计算最小字错误率损失的具体实施方式，具体请参见下文。50.s203：根据第二字预测结果和字标签，计算交叉熵损失；交叉熵损失用于衡量第二字预测结果与字标签之间的差距。51.利用第二解码器得到的第二字预测结果和字标签，计算交叉熵损失。其中，交叉熵损失用于衡量第二字预测结果和字标签之间的差距，具体用于衡量第二字预测结果的分布和字标签的分布之间的差距。52.s204：利用最小字错误率损失和交叉熵损失调整待训练模型中的模型参数，以得到训练生成的语音识别模型。53.基于得到的最小字错误率损失和交叉熵损失，对待训练模型中的模型参数进行调整。具体的，可以采用梯度下降算法对模型参数进行调整。54.在一种可能的实现方式中，可以计算最小字错误率损失和交叉熵损失的和，作为总损失。利用得到的总损失对模型参数进行调整。55.在另一种可能的实现方式中，可以计算最小字错误率损失和交叉熵损失的加权和，利用加权和对模型参数进行调整。56.具体的，利用最小字错误率损失和交叉熵损失调整待训练模型中的模型参数，包括：57.计算最小字错误率损失和交叉熵损失的加权和，得到第三损失；58.利用第三损失调整待训练模型中的模型参数；模型参数包括最小字错误率损失和交叉熵损失分别对应的权重。59.第三损失l3的计算公式如公式(1)所示。60.l3＝λcelce λmwerlmwerꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(1)61.其中，lce表示交叉熵损失，λce为交叉熵损失所对应的权重。lmwer表示最小字错误率损失，λmwer为最小字错误率损失所对应的权重。62.利用计算得到的第三损失，对待训练模型中的模型参数进行调整。其中，交叉熵损失对应的权重与最小字错误率损失对应的权重为模型参数。交叉熵损失对应的权重与最小字错误率损失对应的权重，可以通过梯度下降算法调整。63.通过为交叉熵损失和最小字错误率损失分配对应的权重，并且作为模型参数进行调整，能够使得交叉熵损失和最小字错误率损失平衡，提高训练得到的语音识别模型的性能。64.在对待训练模型中的模型参数进行调整后，得到生成的语音识别模型。语音识别模型用于对输入的待识别语音数据进行语音识别，得到语音识别结果。65.参见图3所示，该图为本技术实施例提供的一种语音识别模型的结构示意图。其中，语音识别模型是由编码器、cif模块以及第一解码器构成的。利用得到的第一字预测结果计算最小词错误率损失。利用得到的第二字预测结果计算交叉熵损失。利用最小词错误率损失和交叉熵损失对待训练模型中的模型参数进行调节，得到的语音识别模型比仅使用一个损失训练得到的语音识别模型性能更优，更加符合语音识别的需要。66.基于上述s201‑s204的相关内容可知，利用增加的第一解码器输出的第一字预测结果和字标签，计算最小字错误率损失。如此，能够实现利用最小字错误率损失调整待训练模型中的模型参数，使得训练得到的语音识别模型的字错误率较低，满足语音识别的需要，提高语音识别模型的准确性。67.在一种可能的实现方式中，可以通过多次调整模型参数实现对待训练模型的训练。本技术实施例提供一种语音识别模型的训练方法的流程图。参见图4所示，该图为本技术实施例提供的另一种语音识别模型的训练方法的流程图，如图4所示，方法可以包括s401‑s405。68.其中，s401‑s404与上述s201‑s204相同，具体请参见上文描述，在此不再赘述。69.s405：重复执行将训练数据输入至待训练模型中以及后续步骤，直到达到预设条件，得到训练生成的语音识别模型；语音识别模型由编码器、cif模块和第一解码器构成，语音识别模型用于对输入的待识别语音数据进行语音识别，得到语音识别结果。70.重复执行上述s401‑s404，对待训练模型进行多次模型参数的调整，直到满足预设条件，训练完成后得到语音识别模型。其中，预设条件为待训练模型训练完成的条件。例如，可以为完成待训练模型训练所要满足的收敛程度。71.在本技术实施例中，通过重复执行对模型参数的调整过程，在满足预设条件后得到训练完成的语音识别模型。如此，通过多次调整后得到的语音识别模型性能更佳。72.在一种可能的实现方式中，除计算最小字错误率损失和交叉熵损失以外，还可以计算量化损失，对字预测结果中的字数和正确的字数之间的差距进行衡量。如此，能够进一步提高训练完成后语音识别模型的准确率。73.本技术实施例提供另一种语音识别模型的训练方法。训练数据还包括与语音数据对应的字数标签。语音数据对应的字数标签为语音数据所对应的字符的数量。以上述语音数据是对应于“今天”的语音为例，则语音数据对应的字数标签为“2”。74.参见图5所示，该图为本技术实施例提供的又一种语音识别模型的训练方法的示意图。除上述步骤以外，语音识别模型的训练方法还包括以下两个步骤：75.a1：获取编码器输出的字数预测结果。76.编码器在对输入的训练数据进行处理后，输出字数预测结果。字数预测结果为，待训练模型对训练数据中语音数据所对应的字预测结果中字符的数量。77.a2：利用字数预测结果和字数标签，计算量化损失；量化损失用于衡量字数预测结果与字数标签之间的差距。78.根据字数预测结果和字数标签，计算量化损失。量化损失能够衡量预测结果中包含的字符的数量与正确的语音数据对应的字符的数量之间的差距。79.对应的，利用最小字错误率损失和交叉熵损失调整待训练模型中的模型参数，包括：80.计算量化损失、最小字错误率损失和交叉熵损失的加权和，得到第一损失；81.利用第一损失调整待训练模型中的模型参数；模型参数包括量化损失、最小字错误率损失和交叉熵损失分别对应的权重。82.第一损失l1的计算公式如公式(2)所示。83.l1＝λcelce λmwerlmwer λquelqueꢀꢀꢀꢀꢀꢀ(2)84.其中，lque为量化损失，λque为量化损失对应的权重。85.利用计算得到的第一损失，对待训练模型中的模型参数进行调整。其中，交叉熵损失对应的权重、量化损失对应的权重和最小字错误率损失对应的权重为模型参数。交叉熵损失对应的权重、量化损失对应的权重和最小字错误率损失对应的权重，具体可以通过梯度下降算法调整。86.通过为交叉熵损失、最小字错误率损失和量化损失分配对应的权重，并且作为模型参数进行调整，能够平衡交叉熵损失、最小字错误率损失和量化损失，提高训练得到的语音识别模型的性能。87.基于上述内容可知，在本技术实施例中，通过增加计算量化损失，并利用量化损失、交叉熵损失和最小字错误率损失计算得到第一损失，能够实现通过不同方面衡量待训练模型的预测结果与正确结果之间的差距。再利用第一损失调整模型参数，进一步提高训练得到的语音识别模型的准确性，提高语音识别模型的性能。88.进一步的，除了计算交叉熵损失、最小字错误率损失和量化损失，还可以计算ctc(connectionisttemporalclassification，联结时间分类)损失。ctc损失用于衡量编码器输出的预测的语音数据所对应的字序列，与字标签中正确的字序列之间的差距。ctc损失并不考虑字序列中各个字符所对应的时间点是否相同，也就是说不考虑字序列中各个字符在时间上是否对齐。通过ctc损失衡量字预测结果和字标签之间的差距，可以不用对预测结果和字标签进行对齐处理，提高训练待训练模型的速度。89.参见图6所示，该图为本技术实施例提供的再一种语音识别模型的训练方法的示意图。本技术实施例提供又一种语音识别模型的训练方法，除上述步骤以外，语音识别模型的训练方法还包括以下两个步骤：90.b1：获取编码器输出的第三字预测结果。91.编码器在对输入的训练数据进行处理之后，输出第三字预测结果。第三字预测结果是编码器对训练数据中的语音数据进行处理后，得到的与语音数据对应字预测结果。92.b2：利用第三字预测结果和字标签，计算ctc损失；ctc损失用于衡量第三字预测结果与字标签之间的差距。93.基于第三字预测结果和字标签，计算ctc损失。ctc损失能够衡量编码器输出的第三字预测结果与字标签之间的差距。94.对应的，利用最小字错误率损失和交叉熵损失调整待训练模型中的模型参数，包括：95.计算ctc损失、量化损失、最小字错误率损失和交叉熵损失的加权和，得到第二损失；96.利用第二损失调整待训练模型中的模型参数；模型参数还包括ctc损失对应的权重。97.第二损失l2的计算公式如公式(3)所示。98.l2＝λcelce λmwerlmwer λquelque λctclctcꢀꢀꢀꢀꢀꢀꢀꢀ(3)99.其中，lctc为ctc损失，λctc为ctc损失对应的权重。其中，交叉熵损失对应的权重、量化损失对应的权重、ctc损失对应的权重和最小字错误率损失对应的权重为模型参数。交叉熵损失对应的权重、量化损失对应的权重、ctc损失对应的权重和最小字错误率损失对应的权重，具体可以通过梯度下降算法调整。100.通过为交叉熵损失、量化损失、ctc损失和最小字错误率损失分配对应的权重，并且作为模型参数进行调整，能够平衡交叉熵损失、量化损失、ctc损失和最小字错误率损失这四种损失，得到的第二损失更为准确地反映待训练模型的性能，进而提高训练得到的语音识别模型的性能。101.基于上述内容可知，在本技术实施例中，通过进一步增加ctc损失，并利用交叉熵损失、量化损失、ctc损失和最小字错误率损失计算得到第二损失，能够较为全面的衡量待训练模型的性能。再利用第二损失调整模型参数，使得基于第二损失训练得到的语音识别模型性能较佳，得到的语音识别结果更为准确，满足语音识别的需要。102.在一种可能的实现方式中，第一字预测结果中包括n个最佳字预测结果，n为正整数。其中，n的具体数值可以由第一解码器的网络结构确定。例如，基于集束搜索算法构建的第一解码器，输出的最佳字预测结果的个数和集束宽度有关。集束宽度为集束搜索算法中的参数。103.基于此，本技术实施例提供一种根据第一字预测结果和训练数据，计算最小字错误率损失的具体实施方式，包括以下四个步骤：104.c1：根据目标最佳字预测结果和字标签，计算目标最佳字预测结果对应的字错误率；目标最佳字预测结果为n个最佳字预测结果中的每一个。105.第一字预测结果中包括n个最佳字预测结果，将每个n个最佳字预测结果分别作为目标最佳字预测结果。利用目标最佳字预测结果和字标签，计算目标最佳字预测结果对应的字错误率。106.例如，yi表示第一解码器输出的n个最佳字预测结果中的第i个，i的取值范围为大于等于1，小于等于n，n为正整数。y*表示训练数据中与语音数据对应的字标签。则yi作为目标最佳字预测结果时，所对应的字错误率为w(yi，y*)。w(yi，y*)具体由公式(4)表示。[0107][0108]其中，为了使得目标最佳字预测结果与字标签一致，先需要对目标最佳字预测结果，也就是yi，进行字符的调整。字符的调整具体可以包括替换、删除和插入中的一种或者多种。而公式(4)中，s表示为了使得目标最佳字预测结果与字标签一致，对目标最佳字预测结果中替换的字符的个数。d表示为了使得目标最佳字预测结果与字标签一致，对目标最佳字预测结果中删除的字符的个数。i表示为了使得目标最佳字预测结果与字标签一致，对目标最佳字预测结果中插入的字符的个数。m表示字标签中包括的字符的总数量。[0109]通过对目标最佳字预测结果所对应的字错误率进行计算，得到n个最佳字预测结果中每个最佳字预测结果所对应的字错误率。[0110]c2：根据目标最佳字预测结果对应的字错误率，计算得到n个最佳字预测结果对应的平均字错误率。[0111]在得到目标最佳字预测结果所对应的字错误率之后，计算n个最佳字预测结果对应的平均字错误率。[0112]以第一解码器为由集束搜索算法构成，上述yi作为目标最佳字预测结果时，所对应的字错误率w(yi，y*)为例，则平均字错误率可以由公式(5)表示。[0113][0114]其中，x表示输入待训练模型的训练数据中的语音数据，n为集束搜索算法所设定的集束宽度，与得到的最佳字预测结果的个数数值相等。yi∈beam(x,n)表示yi属于第一解码器输出的第一字预测结果，也就是属于n个最佳字预测结果。[0115]c3：根据目标最佳字预测结果和语音数据，计算目标最佳字预测结果对应于语音数据的后验概率。[0116]后验概率为在得到目标最佳字预测结果后，预测得到目标最佳字预测结果的概率。[0117]c4：利用后验概率、目标最佳字预测结果对应的字错误率和平均字错误率，计算最小字错误率损失。[0118]最小字错误率损失lmwer可以由公式(6)表示：[0119][0120]其中，p(yi,x)表示目标最佳字预测结果yi对应于语音数据x的后验概率。[0121]基于上述方法实施例提供的一种语音识别模型的训练方法，本技术实施例还提供了一种语音识别模型的训练装置，下面将结合附图对语音识别模型的训练装置进行说明。[0122]参见图7所示，该图为本技术实施例提供的一种语音识别模型的训练装置的结构示意图。如图7所示，该语音识别模型的训练装置包括：[0123]输入单元701，用于将训练数据输入至待训练模型中，得到第一字预测结果和第二字预测结果；所述训练数据包括语音数据和与所述语音数据对应的字标签，所述待训练模型由编码器、连续整合发放cif模块、第一解码器和第二解码器构成；[0124]第一计算单元702，用于根据所述第一字预测结果和所述训练数据，计算最小字错误率损失；所述最小字错误率损失用于衡量所述第一字预测结果与所述字标签之间的差距；[0125]第二计算单元703，用于根据所述第二字预测结果和所述字标签，计算交叉熵损失；所述交叉熵损失用于衡量所述第二字预测结果与所述字标签之间的差距；[0126]调整单元704，用于利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，以得到训练生成的语音识别模型。[0127]在一种可能的实现方式中，所述装置还包括：[0128]执行单元，用于重复执行所述将训练数据输入至待训练模型中以及后续步骤，直到达到预设条件，得到训练生成的语音识别模型；所述语音识别模型由所述编码器、所述cif模块和所述第一解码器构成，所述语音识别模型用于对输入的待识别语音数据进行语音识别，得到语音识别结果。[0129]在一种可能的实现方式中，所述训练数据还包括与所述语音数据对应的字数标签，所述装置还包括：[0130]第一获取单元，用于获取所述编码器输出的字数预测结果；[0131]第三计算单元，用于利用所述字数预测结果和所述字数标签，计算量化损失；所述量化损失用于衡量所述字数预测结果与所述字数标签之间的差距；[0132]所述调整单元704，具体用于计算所述量化损失、所述最小字错误率损失和所述交叉熵损失的加权和，得到第一损失；[0133]利用所述第一损失调整所述待训练模型中的模型参数；所述模型参数包括所述量化损失、所述最小字错误率损失和所述交叉熵损失分别对应的权重。[0134]在一种可能的实现方式中，所述装置还包括：[0135]第二获取单元，用于获取所述编码器输出的第三字预测结果；[0136]第四计算单元，用于利用所述第三字预测结果和所述字标签，计算联结时间分类ctc损失；所述ctc损失用于衡量所述第三字预测结果与所述字标签之间的差距；[0137]所述调整单元704，具体用于计算所述ctc损失、所述量化损失、所述最小字错误率损失和所述交叉熵损失的加权和，得到第二损失；[0138]利用所述第二损失调整所述待训练模型中的模型参数；所述模型参数还包括所述ctc损失对应的权重。[0139]在一种可能的实现方式中，所述调整单元704，具体用于计算所述最小字错误率损失和所述交叉熵损失的加权和，得到第三损失；[0140]利用所述第三损失调整所述待训练模型中的模型参数；所述模型参数包括所述最小字错误率损失和所述交叉熵损失分别对应的权重。[0141]在一种可能的实现方式中，所述第一字预测结果包括n个最佳字预测结果，n为正整数，所述第一计算单元702，具体用于根据目标最佳字预测结果和所述字标签，计算所述目标最佳字预测结果对应的字错误率；所述目标最佳字预测结果为所述n个最佳字预测结果中的每一个；[0142]根据所述目标最佳字预测结果对应的字错误率，计算得到所述n个最佳字预测结果对应的平均字错误率；[0143]根据所述目标最佳字预测结果和所述语音数据，计算所述目标最佳字预测结果对应于所述语音数据的后验概率；[0144]利用所述后验概率、所述目标最佳字预测结果对应的字错误率和所述平均字错误率，计算最小字错误率损失。[0145]在一种可能的实现方式中，所述第一字预测结果是由所述第一解码器对所述cif模块输出的声学特征向量处理得到的，所述第二字预测结果是由所述第二解码器对所述cif模块输出的所述声学特征向量处理得到的。[0146]在一种可能的实现方式中，所述第一解码器为基于集束搜索算法构建的解码器。[0147]在一种可能的实现方式中，所述cif模块为完成预训练的cif模块。[0148]基于上述方法实施例提供的一种语音识别模型的训练方法，本技术还提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一实施例所述的语音识别模型的训练方法。[0149]下面参考图8，其示出了适于用来实现本技术实施例的电子设备800的结构示意图。本技术实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(personaldigitalassistant，个人数字助理)、pad(portableandroiddevice，平板电脑)、pmp(portablemediaplayer，便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv(television，电视机)、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。[0150]如图8所示，电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(rom)802中的程序或者从存储装置808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram803中，还存储有电子设备800操作所需的各种程序和数据。处理装置801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。[0151]通常，以下装置可以连接至i/o接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置808；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。[0152]特别地，根据本技术的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从rom802被安装。在该计算机程序被处理装置801执行时，执行本技术实施例的方法中限定的上述功能。[0153]本技术实施例提供的电子设备与上述实施例提供的语音识别模型的训练方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。[0154]基于上述方法实施例提供的一种语音识别模型的训练方法，本技术实施例提供了一种计算机存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述任一实施例所述的语音识别模型的训练方法。[0155]需要说明的是，本技术上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd‑rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。[0156]在一些实施方式中，客户端、服务器可以利用诸如http(hypertexttransferprotocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，adhoc端对端网络)，以及任何当前已知或未来研发的网络。[0157]上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。[0158]上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述语音识别模型的训练方法。[0159]可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。[0160]附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。[0161]描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元/模块的名称在某种情况下并不构成对该单元本身的限定，例如，语音数据采集模块还可以被描述为“数据采集模块”。[0162]本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。[0163]在本技术的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd‑rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0164]根据本技术的一个或多个实施例，【示例一】提供了一种语音识别模型的训练方法，所述方法包括：[0165]将训练数据输入至待训练模型中，得到第一字预测结果和第二字预测结果；所述训练数据包括语音数据和与所述语音数据对应的字标签，所述待训练模型由编码器、连续整合发放cif模块、第一解码器和第二解码器构成；[0166]根据所述第一字预测结果和所述训练数据，计算最小字错误率损失；所述最小字错误率损失用于衡量所述第一字预测结果与所述字标签之间的差距；[0167]根据所述第二字预测结果和所述字标签，计算交叉熵损失；所述交叉熵损失用于衡量所述第二字预测结果与所述字标签之间的差距；[0168]利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，以得到训练生成的语音识别模型。[0169]根据本技术的一个或多个实施例，【示例二】提供了一种语音识别模型的训练方法，所述方法还包括：[0170]重复执行所述将训练数据输入至待训练模型中以及后续步骤，直到达到预设条件，得到训练生成的语音识别模型；所述语音识别模型由所述编码器、所述cif模块和所述第一解码器构成，所述语音识别模型用于对输入的待识别语音数据进行语音识别，得到语音识别结果。[0171]根据本技术的一个或多个实施例，【示例三】提供了一种语音识别模型的训练方法，所述训练数据还包括与所述语音数据对应的字数标签，所述方法还包括：[0172]获取所述编码器输出的字数预测结果；[0173]利用所述字数预测结果和所述字数标签，计算量化损失；所述量化损失用于衡量所述字数预测结果与所述字数标签之间的差距；[0174]所述利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，包括：[0175]计算所述量化损失、所述最小字错误率损失和所述交叉熵损失的加权和，得到第一损失；[0176]利用所述第一损失调整所述待训练模型中的模型参数；所述模型参数包括所述量化损失、所述最小字错误率损失和所述交叉熵损失分别对应的权重。[0177]根据本技术的一个或多个实施例，【示例四】提供了一种语音识别模型的训练方法，所述方法还包括：[0178]获取所述编码器输出的第三字预测结果；[0179]利用所述第三字预测结果和所述字标签，计算联结时间分类ctc损失；所述ctc损失用于衡量所述第三字预测结果与所述字标签之间的差距；[0180]所述利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，包括：[0181]计算所述ctc损失、所述量化损失、所述最小字错误率损失和所述交叉熵损失的加权和，得到第二损失；[0182]利用所述第二损失调整所述待训练模型中的模型参数；所述模型参数还包括所述ctc损失对应的权重。[0183]根据本技术的一个或多个实施例，【示例五】提供了一种语音识别模型的训练方法，所述利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，包括：[0184]计算所述最小字错误率损失和所述交叉熵损失的加权和，得到第三损失；[0185]利用所述第三损失调整所述待训练模型中的模型参数；所述模型参数包括所述最小字错误率损失和所述交叉熵损失分别对应的权重。[0186]根据本技术的一个或多个实施例，【示例六】提供了一种语音识别模型的训练方法，所述第一字预测结果包括n个最佳字预测结果，n为正整数，所述根据所述第一字预测结果和所述训练数据，计算最小字错误率损失，包括：[0187]根据目标最佳字预测结果和所述字标签，计算所述目标最佳字预测结果对应的字错误率；所述目标最佳字预测结果为所述n个最佳字预测结果中的每一个；[0188]根据所述目标最佳字预测结果对应的字错误率，计算得到所述n个最佳字预测结果对应的平均字错误率；[0189]根据所述目标最佳字预测结果和所述语音数据，计算所述目标最佳字预测结果对应于所述语音数据的后验概率；[0190]利用所述后验概率、所述目标最佳字预测结果对应的字错误率和所述平均字错误率，计算最小字错误率损失。[0191]根据本技术的一个或多个实施例，【示例七】提供了一种语音识别模型的训练方法，所述第一字预测结果是由所述第一解码器对所述cif模块输出的声学特征向量处理得到的，所述第二字预测结果是由所述第二解码器对所述cif模块输出的所述声学特征向量处理得到的。[0192]根据本技术的一个或多个实施例，【示例八】提供了一种语音识别模型的训练方法，所述第一解码器为基于集束搜索算法构建的解码器。[0193]根据本技术的一个或多个实施例，【示例九】提供了一种语音识别模型的训练方法，所述cif模块为完成预训练的cif模块。[0194]根据本技术的一个或多个实施例，【示例十】提供了一种语音识别模型的训练装置，所述装置包括：[0195]输入单元，用于将训练数据输入至待训练模型中，得到第一字预测结果和第二字预测结果；所述训练数据包括语音数据和与所述语音数据对应的字标签，所述待训练模型由编码器、连续整合发放cif模块、第一解码器和第二解码器构成；[0196]第一计算单元，用于根据所述第一字预测结果和所述训练数据，计算最小字错误率损失；所述最小字错误率损失用于衡量所述第一字预测结果与所述字标签之间的差距；[0197]第二计算单元，用于根据所述第二字预测结果和所述字标签，计算交叉熵损失；所述交叉熵损失用于衡量所述第二字预测结果与所述字标签之间的差距；[0198]调整单元，用于利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，以得到训练生成的语音识别模型。[0199]根据本技术的一个或多个实施例，【示例十一】提供了一种语音识别模型的训练装置，所述装置还包括：[0200]执行单元，用于重复执行所述将训练数据输入至待训练模型中以及后续步骤，直到达到预设条件，得到训练生成的语音识别模型；所述语音识别模型由所述编码器、所述cif模块和所述第一解码器构成，所述语音识别模型用于对输入的待识别语音数据进行语音识别，得到语音识别结果。[0201]根据本技术的一个或多个实施例，【示例十二】提供了一种语音识别模型的训练装置，所述训练数据还包括与所述语音数据对应的字数标签，所述装置还包括：[0202]第一获取单元，用于获取所述编码器输出的字数预测结果；[0203]第三计算单元，用于利用所述字数预测结果和所述字数标签，计算量化损失；所述量化损失用于衡量所述字数预测结果与所述字数标签之间的差距；[0204]所述调整单元，具体用于计算所述量化损失、所述最小字错误率损失和所述交叉熵损失的加权和，得到第一损失；[0205]利用所述第一损失调整所述待训练模型中的模型参数；所述模型参数包括所述量化损失、所述最小字错误率损失和所述交叉熵损失分别对应的权重。[0206]根据本技术的一个或多个实施例，【示例十三】提供了一种语音识别模型的训练装置，所述装置还包括：[0207]第二获取单元，用于获取所述编码器输出的第三字预测结果；[0208]第四计算单元，用于利用所述第三字预测结果和所述字标签，计算联结时间分类ctc损失；所述ctc损失用于衡量所述第三字预测结果与所述字标签之间的差距；[0209]所述调整单元，具体用于计算所述ctc损失、所述量化损失、所述最小字错误率损失和所述交叉熵损失的加权和，得到第二损失；[0210]利用所述第二损失调整所述待训练模型中的模型参数；所述模型参数还包括所述ctc损失对应的权重。[0211]根据本技术的一个或多个实施例，【示例十四】提供了一种语音识别模型的训练装置，所述调整单元，具体用于计算所述最小字错误率损失和所述交叉熵损失的加权和，得到第三损失；[0212]利用所述第三损失调整所述待训练模型中的模型参数；所述模型参数包括所述最小字错误率损失和所述交叉熵损失分别对应的权重。[0213]根据本技术的一个或多个实施例，【示例十五】提供了一种语音识别模型的训练装置，所述第一字预测结果包括n个最佳字预测结果，n为正整数，所述第一计算单元，具体用于根据目标最佳字预测结果和所述字标签，计算所述目标最佳字预测结果对应的字错误率；所述目标最佳字预测结果为所述n个最佳字预测结果中的每一个；[0214]根据所述目标最佳字预测结果对应的字错误率，计算得到所述n个最佳字预测结果对应的平均字错误率；[0215]根据所述目标最佳字预测结果和所述语音数据，计算所述目标最佳字预测结果对应于所述语音数据的后验概率；[0216]利用所述后验概率、所述目标最佳字预测结果对应的字错误率和所述平均字错误率，计算最小字错误率损失。[0217]根据本技术的一个或多个实施例，【示例十六】提供了一种语音识别模型的训练装置，所述第一字预测结果是由所述第一解码器对所述cif模块输出的声学特征向量处理得到的，所述第二字预测结果是由所述第二解码器对所述cif模块输出的所述声学特征向量处理得到的。[0218]根据本技术的一个或多个实施例，【示例十七】提供了一种语音识别模型的训练装置，所述第一解码器为基于集束搜索算法构建的解码器。[0219]根据本技术的一个或多个实施例，【示例十八】提供了一种语音识别模型的训练装置，所述cif模块为完成预训练的cif模块。[0220]根据本技术的一个或多个实施例，【示例十九】提供了一种电子设备，包括：[0221]一个或多个处理器；[0222]存储装置，其上存储有一个或多个程序，[0223]当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例中任一所述的方法。[0224]根据本技术的一个或多个实施例，【示例二十】提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述实施例中任一所述的方法。[0225]需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。[0226]应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。[0227]还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。[0228]结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd‑rom、或
技术领域：
：内所公知的任意其它形式的存储介质中。[0229]对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：显示设备及调节蓝牙A2DP编码设置的方法与流程

一种语音识别模型的训练方法、装置及设备与流程

相关文章

最热文献