一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音识别模型的训练方法、装置及设备与流程

2021-08-31 17:44:00 来源:中国专利 TAG:
本申请涉及数据处理领域,具体涉及一种语音识别模型的训练方法、装置及设备。
背景技术
::语音识别模型用于对输入的语音数据进行处理,得到语音数据对应的文本数据。在对语音数据进行识别之前,通常先对语音识别模型进行训练,调整语音识别模型中的模型参数,使得语音识别模型的性能满足对语音数据进行识别的需要。目前,语音识别模型的训练速度较慢,性能提升较低。如何提高语音识别模型的训练速度以及语音识别模型的性能是需要解决的问题。技术实现要素:有鉴于此,本申请实施例提供一种语音识别模型的训练方法、装置及设备,能够提高语音识别模型的训练速度,提升语音识别模型的性能。为解决上述问题,本申请实施例提供的技术方案如下:第一方面,本申请提供一种语音识别模型的训练方法,所述方法包括:将第一训练数据输入待训练编码器,所述待训练编码器包括多个依次相连的特征提取模块,所述第一训练数据包括语音数据以及所述语音数据中语音帧对应的音节标签;由所述待训练编码器对所述语音帧的音节预测结果以及所述语音帧对应的音节标签,计算音节级别交叉熵ce损失,根据所述音节级别ce损失,对所述待训练编码器进行训练,得到各个所述特征提取模块的模型参数;将最后一个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;将第二训练数据输入所述待训练编码器,所述第二训练数据包括语音数据以及所述语音数据对应的字标签;由所述待训练编码器对所述语音数据的字预测结果以及所述语音数据对应的字标签,计算字级别联结时间分类ctc损失,根据所述字级别ctc损失,对所述最后一个特征提取模块进行训练,得到训练完成的编码器;利用所述训练完成的编码器对所述语音识别模型进行训练。第二方面,本申请提供一种语音识别模型的训练装置,所述装置包括:第一输入单元,用于将第一训练数据输入待训练编码器,所述待训练编码器包括多个依次相连的特征提取模块,所述第一训练数据包括语音数据以及所述语音数据中语音帧对应的音节标签;第一计算单元,用于由所述待训练编码器对所述语音帧的音节预测结果以及所述语音帧对应的音节标签,计算音节级别交叉熵ce损失,根据所述音节级别ce损失,对所述待训练编码器进行训练,得到各个所述特征提取模块的模型参数;第一初始化单元,用于将最后一个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;第二输入单元,用于将第二训练数据输入所述待训练编码器,所述第二训练数据包括语音数据以及所述语音数据对应的字标签;第二计算单元,用于由所述待训练编码器对所述语音数据的字预测结果以及所述语音数据对应的字标签,计算字级别联结时间分类ctc损失,根据所述字级别ctc损失,对所述最后一个特征提取模块进行训练,得到训练完成的编码器;训练单元,用于利用所述训练完成的编码器对所述语音识别模型进行训练。第三方面,本申请提供一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的方法。第四方面,本申请提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一实施例所述的方法。由此可见,本申请实施例具有如下有益效果:本申请实施例提供的语音识别模型的训练方法、装置及设备,先通过将包括语音数据以及语音数据中语音帧对应的音节标签的第一训练数据输入待训练编码器中。由待训练编码器根据语音帧的音节预测结果和语音帧对应的音节标签,计算音节级别ce(crossentropy,交叉熵)损失。再利用音节级别ce损失对待训练编码器进行训练,得到待训练编码器包括的多个依次相连的特征提取模块中各个特征提取模块的模型参数。利用音节级别ce损失能够对待训练编码器进行训练,能够实现基于音节级别对待训练编码器中的模型参数进行配置。其次,将最后一个特征提取模块的模型参数进行随机初始化,重新得到待训练编码器。再将包括语音数据以及语音数据对应的字标签的第二训练数据输入至待训练编码器中,由待训练编码器对语音数据的字预测结果以及语音数据对应的字标签,计算字级别ctc(connectionisttemporalclassification,联结时间分类)损失。根据字级别ctc损失重新对最后一个特征提取模块进行训练,得到训练完成的编码器,能够实现基于字级别对待训练编码器中的模型参数进行配置。最后,利用训练完成的编码器对语音识别模型进行训练,能够提高对语音识别模型进行训练的速度,使得训练后得到的编码器在对语音识别模型进行训练时能够快速收敛,并且能够提高训练后得到的语音识别模型的性能。附图说明图1a为本申请实施例提供的示例性应用场景的框架示意图;图1b为本申请实施例提供的示例性应用场景的框架示意图;图2为本申请实施例提供的一种语音识别模型的训练方法的流程图;图3为本申请实施例提供的一种待训练编码器的结构示意图;图4为本申请实施例提供的另一种语音识别模型的训练方法的流程图;图5为本申请实施例提供的一种语音识别模型的训练过程的示意图;图6为本申请实施例提供的一种语音识别模型的训练装置的结构示意图;图7为本申请实施例提供的一种电子设备的基本结构的示意图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。为便于理解本申请提供的技术方案,下面将先对本申请涉及的
背景技术
:进行说明。在对传统的语音识别模型的训练方法进行研究后发现,现有的语音识别模型的训练会先基于大规模的语料库对语音识别模型进行预训练,再基于目标数据库对语音识别模型进行微调。在基于大规模的语料库对语音识别模型进行预训练时,训练过程较为复杂,训练速度较低。并且,基于预训练得到的语音识别模型再进行微调后,得到的语音识别模型容易受到预训练的影响,性能难以满足语音识别的需要。基于此,本申请实施例提供了一种语音识别模型的训练方法、装置及设备,先通过将包括语音数据以及语音数据中语音帧对应的音节标签的第一训练数据输入待训练编码器中。由待训练编码器根据语音帧的音节预测结果和语音帧对应的音节标签,计算音节级别ce损失。再利用音节级别ce损失对待训练编码器进行训练,得到待训练编码器包括的多个依次相连的特征提取模块中各个特征提取模块的模型参数。利用音节级别ce损失能够对待训练编码器进行训练,能够实现基于音节级别对待训练编码器中的模型参数进行配置。其次,将最后一个特征提取模块的模型参数进行随机初始化,重新得到待训练编码器。再将包括语音数据以及语音数据对应的字标签的第二训练数据输入至待训练编码器中,由待训练编码器对语音数据的字预测结果以及语音数据对应的字标签,计算字级别ctc损失。根据字级别ctc损失重新对最后一个特征提取模块进行训练,得到训练完成的编码器,能够实现基于字级别对待训练编码器中的模型参数进行配置。最后,利用训练完成的编码器对语音识别模型进行训练,能够提高对语音识别模型进行训练的速度,使得训练后得到的编码器在对语音识别模型进行训练时能够快速收敛,并且能够提高语音识别模型在训练后的性能。为了便于理解本申请实施例提供的语音识别模型的训练方法,下面结合图1a和图1b所示的场景示例进行说明。参见图1a和图1b所示,该图为本申请实施例提供的示例性应用场景的框架示意图。在实际应用中,待训练编码器101包括多个依次相连的特征提取模块。以图1a和图1b为例,待训练编码器101包括三个特征提取模块102-104。第一训练数据105包括语音数据以及语音数据中语音帧对应的音节标签。参见图1a,将第一训练数据105输入到待训练编码器101中,得到待训练编码器101对第一训练数据105中语音帧的音节预测结果。根据得到的语音帧的音节预测结果和语音帧对应的音节标签,计算音节级别ce损失107。并利用得到的音节级别ce损失107对待训练编码器101进行训练,得到特征提取模块102-104的模型参数,并对特征提取模块102-104进行配置。将最后一个特征提取模块104的模型参数进行随机初始化。参见图1b,将包括语音数据以及语音数据对应的字标签的第二训练数据106输入至待训练编码器101中,得到待训练编码器101对语音数据的字预测结果。根据语音数据的字预测结果和语音数据对应的字标签计算得到字级别ctc损失108。再利用字级别ctc损失108对最后一个特征提取模块104进行训练,得到训练完成的编码器。训练完成的编码器用于对语音识别模型进行训练。本领域技术人员可以理解,图1a和图1b所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。基于上述说明,下面将结合附图对本申请提供的语音识别模型的训练方法进行详细说明。参见图2所示,该图为本申请实施例提供的一种语音识别模型的训练方法的流程图,如图2所示,方法可以包括s201-s206。s201:将第一训练数据输入待训练编码器,待训练编码器包括多个依次相连的特征提取模块,第一训练数据包括语音数据以及语音数据中语音帧对应的音节标签。编码器是组成语音识别模型的一个部分。待训练编码器是语音识别模型中未完成训练,需要进行模型参数调节的编码器。待训练编码器由多个依次相连的特征提取模块组成。本申请实施例不限定待训练编码器中所包括的特征提取模块的数量。例如,可选的,待训练编码器中包括两个相连的特征提取模块。又例如,待训练编码器中包括三个相连的特征提取模块。在一种实现中,基于cif(continuousintegrate-and-fire,连续整合发放)的语音识别模型由编码器、cif模块和解码器三个部分组成。在对基于cif的语音识别模型进行训练之前,可以先将编码器作为待训练编码器,对待训练编码器进行预训练。下面对cif模块的原理进行介绍。cif模块按照编码时刻,依次接收编码器输出的声学特征,以及声学特征对应的权重。声学特征的权重表征声学特征所蕴含的信息量。cif模块计算接收到的声学特征对应的权重的和。并根据声学特征对应的权重,对声学特征进行整合。在当声学特征对应的权重的和积累达到阈值时,确定声学边界。cif模块基于声学边界确定集成声学特征向量,将集成声学特征向量发送至解码器,使得解码器基于集成声学特征向量预测对应的字标签。在一种可能的实现方式中,每个特征提取模块包括多个依次相连的san(stackedattentionnetworks,自注意力网络)。可选的,各个特征提取模块中包括的san的层数相同。比如,各个特征提取模块可以包括5层san。特征提取模块中具体包括的san的层数可以根据语音识别的需要进行设置。在另一种可能的实现方式中,参见图3所示,该图为本申请实施例提供的一种待训练编码器的结构示意图。第一个特征提取模块和第二特征提取模块由5个依次相连的自注意力网络以及池化层组成,第三特征提取模块由5个依次相连的自注意力网络组成。除最后一个特征提取模块之外的特征提取模块,包括多个依次相连的自注意力网络以及池化层。通过池化层能够对语音数据的特征进行下采样。最后一个特征提取模块用于提取得到预测结果,可以仅包括多个依次相连的自注意力网络。第一训练数据用于确定各个特征提取模块的模型参数。第一训练数据包括语音数据以及语音数据中每个语音帧对应的音节标签。语音数据中包括多个语音帧,每一个语音帧具有对应的音节标签。其中,音节标签是语音帧对应的具体音节的标签。音节为音素组合发音的最小语音单位。汉语的音节是由声母和韵母组成的语音单位,单个韵母也可自成音节。例如,语音数据中包括100个语音帧。其中,50个语音帧对应于“你”的语音,则50个对应于“你”的语音帧对应的音节标签为“ni”。另50个语音帧对应于“好”的语音,则50个对应于“好”的语音帧对应的音节标签为“hao”。对于英语而言,英语的音节是由一个元音,或者是由元音和一个或几个辅音结合构成的。又例如,语音数据为“table”对应的语音。语音数据中包括100个语音帧。其中,50个语音帧对应于“ta”的语音,则50个对应于“ta”的语音帧对应的音节标签为“tei”。另50个语音帧对应于“ble”的语音,则50个对应于“ble”的语音帧对应的音节标签为“bl”。将第一训练数据输入待训练编码器中,使得待训练编码器对第一训练数据中的语音数据中每个语音帧所对应的音节进行预测。s202:由待训练编码器对语音帧的音节预测结果以及语音帧对应的音节标签,计算音节级别ce损失,根据音节级别ce损失,对待训练编码器进行训练,得到各个特征提取模块的模型参数。在利用待训练编码器对输入的语音数据进行对应的字预测的过程中,先得到特征提取模块输出的语音数据的音节预测结果。在一种可能的实现方式中,待训练编码器包括三个特征提取模块。其中,第一个特征提取模块的输入为语音数据的声学基础特征。语音数据的声学基础特征可以是通过下采样得到的。第一个特征提取模块用于提取语音数据的帧级别音节特征,例如是语音数据的帧级别音节的高维表征。第二个特征提取模块用于提取语音数据的语音路径级别音节特征,例如是语音数据的语音路径级别音节的高维表征。获取第一个特征提取模块输出的语音数据的帧级别音节特征,作为语音帧所对应的音节预测结果。利用待训练编码器得到的语音帧的音节预测结果和第一训练数据中语音帧对应的音节标签,能够得到衡量音节预测结果的准确性的音节级别ce损失。根据得到的音节级别ce损失,对待训练编码器进行训练,得到各个特征提取模块的模型参数。利用得到的各个特征提取模块的模型参数,对各个特征提取模块的模型参数进行设置,实现对特征提取模块的配置。s203:将最后一个特征提取模块的模型参数进行随机初始化,重新得到待训练编码器。仅基于音节级别ce损失训练得到的待训练编码器的准确度不足。进一步的,对基于ce损失确定的最后一个特征提取模块的模型参数进行随机初始化,得到需要重新确定最后一个特征提取模块的模型参数的待训练编码器。如此便于后续基于ctc损失确定最后一个特征提取模块的模型参数。s204:将第二训练数据输入待训练编码器,第二训练数据包括语音数据以及语音数据对应的字标签。第二训练数据是用于确定待训练编码器中最后一个特征提取模块的模型参数的训练数据。第二训练数据中包括语音数据以及语音数据所对应的字标签。语音数据所对应的字标签为语音数据所对应的字的标签。例如,语音数据为对应于“你好”的语音数据,则语音数据所对应的字标签为“你好”。将第二训练数据输入至待训练编码器中,得到待训练编码器输出的预测的语音数据对应的字标签。s205:由待训练编码器对语音数据的字预测结果以及语音数据对应的字标签,计算字级别ctc损失,根据字级别ctc损失,对最后一个特征提取模块进行训练,得到训练完成的编码器。待训练编码器对输入的语音数据进行字预测,得到语音数据的字预测结果。利用待训练编码器得到的语音数据的字预测结果和第二训练数据中语音数据对应的字标签,能够得到衡量字预测结果的准确性的字级别ctc损失。根据得到的字级别ctc损失,对待训练编码器中的最后一个特征提取模块进行训练,得到最后一个特征提取模块的模型参数。利用得到的最后一个特征提取模块的模型参数,对最后一个特征提取模块的模型参数进行设置,得到训练完成的编码器。s206:利用训练完成的编码器对语音识别模型进行训练。将训练完成后得到的编码器作为语音识别模型的组成部分。对包括训练完成的编码器的语音识别模型进行训练。基于由上述包括多个依次相连的自注意力网络的特征提取模块所构成的编码器,本申请实施例提供一种利用训练完成的编码器对语音识别模型进行训练的具体实施方式,请参见下文。基于上述s201-s206的相关内容可知,通过将第一训练数据输入至待训练编码器中,计算音节级别的ce损失,并基于ce损失对待训练编码器进行训练,能够实现基于音节级别对待训练编码器中的模型参数进行配置。再通过将第二训练数据输入至待训练编码器中,计算字级别的ctc损失,并基于ctc损失对待训练编码器中的最后一个特征提取模块进行训练,能够实现基于字级别对待训练编码器中的模型参数进行配置。如此能够提高后续利用训练完成的编码器对语音识别模型进行训练的速度,使得训练后得到的编码器在对语音识别模型进行训练时能够快速收敛,并且能够提高语音识别模型在训练后的性能。在一种可能的实现方式中,当待训练编码器包括两个以上依次相连的特征提取模块时,还可以利用音节级别ctc损失对待训练编码器进行训练。基于此,本申请实施例提供一种语音识别模型的训练方法。参见图4所示,该图为本申请实施例提供的另一种语音识别模型的训练方法的流程图。在s202之后,s203之前,还包括s207-s209。s207:将最后两个特征提取模块的模型参数进行随机初始化,重新得到待训练编码器。在当待训练编码器包括两个以上依次相连的特征提取模块时,能够计算音节级别的ctc损失,并对待训练编码器进行训练。对基于ce损失确定的最后两个特征提取模块的模型参数进行随机初始化,得到需要重新确定最后两个特征提取模块的模型参数的待训练编码器。s208:将第三训练数据输入待训练编码器,第三训练数据包括语音数据以及语音数据对应的音节标签。第三训练数据是用于确定待训练编码器中最后两个特征提取模块的模型参数的训练数据。第三训练数据中包括语音数据以及语音数据所对应的音节标签。语音数据所对应的音节标签为语音数据所对应的音节的标签。例如,语音数据为对应于“你好”的语音数据,则语音数据所对应的音节标签为“nihao”。参见图5所示,该图为本申请实施例提供的一种语音识别模型的训练过程的示意图。其中,有关利用第一训练数据和第二训练数据训练待训练编码器的方法具体请参见上文。将第三训练数据输入至待训练编码器中,得到待训练编码器输出的预测的语音数据所对应的音节预测结果。s209:由待训练编码器对语音数据的音节预测结果以及语音数据对应的音节标签,计算音节级别ctc损失,根据音节级别ctc损失,对最后两个特征提取模块进行训练,得到各个特征提取模块的模型参数。待训练编码器对输入的语音数据进行对应的字预测的过程中,先得到特征提取模块输出的语音数据的音节预测结果。在当特征提取模块的数量大于两个时,特征提取模块输出的音节预测结果具有不同的级别。以图3中包括三个特征提取模块的待训练编码器为例。第一个特征提取模块的输入为语音数据的声学基础特征。第一个特征提取模块用于提取语音数据的帧级别音节特征。第二个特征提取模块用于提取语音数据的语音路径级别音节特征。获取第二个特征提取模块输出的语音路径级别音节特征,作为语音数据的音节预测结果。利用得到的语音数据的音节预测结果和第三训练数据中语音数据对应的音节标签,能够得到衡量音节预测结果的准确性的音节级别ctc损失。根据得到的音节级别ctc损失,对待训练编码器进行训练,得到最后两个特征提取模块的模型参数。利用得到的最后两个特征提取模块的模型参数,对最后两个特征模块进行设置,实现对特征提取模块的配置。在本申请实施例中,通过计算语音数据对应的音节级别ctc损失,能够基于比字级别ctc损失更低粒度的音节级别ctc损失对待训练编码器进行训练,使得训练过程更为稳定,提高后续利用训练完成得到的编码器训练语音识别模型的速度,以及训练得到的语音识别模型的性能。在一种可能的实现方式中,本申请实施例提供一种利用训练完成的编码器对语音识别模型进行训练的具体实施方式,包括以下两个步骤。a1:将训练完成的编码器中最后一个自注意力网络的模型参数进行随机初始化,生成更新后的编码器。在利用字级别ctc损失,对最后一个特征提取模块进行训练后,得到训练完成的编码器。再将训练完成的编码器中最后一个自注意力网络的模型参数进行随机初始化。以图3中的编码器结构为例,将最后一个自注意力网络,也就是第15层的san中的模型参数进行随机初始化。将最后一个自注意力网络随机初始化后得到的编码器作为更新后的编码器。a2:利用更新后的编码器对语音识别模型进行训练。将更新后的编码器作为语音识别模型中的编码器,对语音识别模型进行后续的训练。基于上述内容可知,通过随机化最后一层自注意力网络的模型参数,能够实现后续在对语音识别模型进行训练时,使得语音识别模型快速适应ctc任务的要求,实现语音识别模型的快速收敛。在一种可能的实现方式中,在对待训练编码器或者对特征提取模块进行训练时,容易导致待训练编码器的权重和偏置陷入局部最优。针对上述问题,在对待训练编码器进行训练、对最后一个特征提取模块进行训练和/或对最后两个特征提取模块进行训练的过程中,采取的学习率不随训练迭代次数的增加而改变。可选的,学习率能够采取固定的常量。通过防止学习率随着训练迭代次数而改变,能够防止在对待训练编码器进行训练的过程中,学习率不断改变而导致待训练编码器的权重和偏置陷入局部最优,使得训练完成的编码器性能更优。此外,在对待训练编码器或者对特征提取模块进行训练的过程中,还可以调整权重衰减的取值范围。在一种可能的实现方式中,对待训练编码器进行训练、对最后一个特征提取模块进行训练和/或对最后两个特征提取模块进行训练的过程中,采用的权重衰减大于权重衰减阈值。其中,权重衰减阈值为预先设置的用于调整权重衰减的阈值。通过采用的权重衰减大于权重衰减阈值,能够使得采用的权重衰减的数值较大,使得训练后得到的待训练编码器或者对特征提取模块中的模型参数的变化较小,提高训练过程的稳定性。在一种可能的实现方式中,第一训练数据的数量、第二训练数据的数量以及第三训练数据的数量大于样本数量阈值。样本数量阈值为训练数据的数量的阈值。通过设置第一训练数据的数量、第二训练数据的数量以及第三训练数据的数量大于样本数量阈值,能够利用数量足够的训练数据训练待训练编码器或者特征提取模块。如此能够防止在训练数据数量较少时,待训练编码器的权重和偏置陷入局部最优,提高编码器的鲁棒性。在一种可能的实现方式中,方法还包括:对第一训练数据、第二训练数据和/或第三训练数据中的语音数据随机进行掩码。对语音数据随机进行掩码可以是指随机对输入的语音数据在时域或者频域上设置为全0,或者是设置为语音数据的均值。通过对语音数据随机进行掩码,能够得到更为多样化的第一训练数据、第二训练数据和/或第三训练数据。如此使得利用第一训练数据、第二训练数据和/或第三训练数据训练后得到的编码器的性能更优。基于上述方法实施例提供的一种语音识别模型的训练方法,本申请实施例还提供了一种语音识别模型的训练装置,下面将结合附图对语音识别模型的训练装置进行说明。参见图6所示,该图为本申请实施例提供的一种语音识别模型的训练装置的结构示意图。如图6所示,该语音识别模型的训练装置包括:第一输入单元601,用于将第一训练数据输入待训练编码器,所述待训练编码器包括多个依次相连的特征提取模块,所述第一训练数据包括语音数据以及所述语音数据中语音帧对应的音节标签;第一计算单元602,用于由所述待训练编码器对所述语音帧的音节预测结果以及所述语音帧对应的音节标签,计算音节级别交叉熵ce损失,根据所述音节级别ce损失,对所述待训练编码器进行训练,得到各个所述特征提取模块的模型参数;第一初始化单元603,用于将最后一个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;第二输入单元604,用于将第二训练数据输入所述待训练编码器,所述第二训练数据包括语音数据以及所述语音数据对应的字标签;第二计算单元605,用于由所述待训练编码器对所述语音数据的字预测结果以及所述语音数据对应的字标签,计算字级别联结时间分类ctc损失,根据所述字级别ctc损失,对所述最后一个特征提取模块进行训练,得到训练完成的编码器;训练单元606,用于利用所述训练完成的编码器对所述语音识别模型进行训练。在一种可能的实现方式中,当所述待训练编码器包括两个以上依次相连的特征提取模块,所述装置还包括:第二初始化单元,用于将最后两个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;第三输入单元,用于将所述第三训练数据输入待训练编码器,所述第三训练数据包括语音数据以及所述语音数据对应的音节标签;第三计算单元,用于由所述待训练编码器对所述语音数据的音节预测结果以及所述语音数据对应的音节标签,计算音节级别ctc损失,根据所述音节级别ctc损失,对所述最后两个特征提取模块进行训练,得到各个所述特征提取模块的模型参数。在一种可能的实现方式中,所述待训练编码器包括三个特征提取模块,第一个特征提取模块的输入为所述语音数据的声学基础特征,所述第一个特征提取模块用于提取所述语音数据的帧级别音节特征,第二个特征提取模块用于提取所述语音数据的语音路径级别音节特征。在一种可能的实现方式中,所述特征提取模块包括多个依次相连的自注意力网络;或者,除最后一个特征提取模块之外的特征提取模块包括多个依次相连的自注意力网络以及池化层,所述最后一个特征提取模块包括多个依次相连的自注意力网络。在一种可能的实现方式中,所述训练单元606,具体用于将所述训练完成的编码器中最后一个自注意力网络的模型参数进行随机初始化,生成更新后的编码器;利用所述更新后的编码器对所述语音识别模型进行训练。在一种可能的实现方式中,在对所述待训练编码器进行训练、对所述最后一个特征提取模块进行训练和/或对所述最后两个特征提取模块进行训练的过程中,采用的学习率不随训练迭代次数的增加而改变。在一种可能的实现方式中,在对所述待训练编码器进行训练、对所述最后一个特征提取模块进行训练和/或对所述最后两个特征提取模块进行训练的过程中,采用的权重衰减大于权重衰减阈值。在一种可能的实现方式中,所述第一训练数据的数量、所述第二训练数据的数量以及所述第三训练数据的数量大于样本数量阈值。在一种可能的实现方式中,所述装置还包括:掩码单元,用于对所述第一训练数据、所述第二训练数据和/或所述第三训练数据中的语音数据随机进行掩码。基于上述方法实施例提供的一种语音识别模型的训练方法,本申请还提供一种语音识别模型的训练设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现所述的语音识别模型的训练方法。下面参考图7,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端,也可以包括服务器设备。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。如图7所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(rom)702中的程序或者从存储装置708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。在ram703中,还存储有电子设备操作所需的各种程序和数据。处理装置701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。通常,以下装置可以连接至i/o接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从rom702被安装。在该计算机程序被处理装置701执行时,执行本公开实施例的方法中限定的上述功能。本申请实施例提供的电子设备与上述实施例提供的语音识别模型的训练方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。基于上述方法实施例提供的一种语音识别模型的训练方法,本申请实施例提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语音识别模型的训练方法。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。在一些实施方式中,客户端、服务器可以利用诸如http(hypertexttransferprotocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,adhoc端对端网络),以及任何当前已知或未来研发的网络。上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述语音识别模型的训练方法。可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元/模块的名称在某种情况下并不构成对该单元本身的限定,例如,语音数据采集模块还可以被描述为“数据采集模块”。本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。根据本申请的一个或多个实施例,【示例一】提供了一种语音识别模型的训练方法,所述方法包括:将第一训练数据输入待训练编码器,所述待训练编码器包括多个依次相连的特征提取模块,所述第一训练数据包括语音数据以及所述语音数据中语音帧对应的音节标签;由所述待训练编码器对所述语音帧的音节预测结果以及所述语音帧对应的音节标签,计算音节级别交叉熵ce损失,根据所述音节级别ce损失,对所述待训练编码器进行训练,得到各个所述特征提取模块的模型参数;将最后一个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;将第二训练数据输入所述待训练编码器,所述第二训练数据包括语音数据以及所述语音数据对应的字标签;由所述待训练编码器对所述语音数据的字预测结果以及所述语音数据对应的字标签,计算字级别联结时间分类ctc损失,根据所述字级别ctc损失,对所述最后一个特征提取模块进行训练,得到训练完成的编码器;利用所述训练完成的编码器对所述语音识别模型进行训练。根据本申请的一个或多个实施例,【示例二】提供了一种语音识别模型的训练方法,当所述待训练编码器包括两个以上依次相连的特征提取模块,在根据所述音节级别ce损失,对所述待训练编码器进行训练,得到各个所述特征提取模块的模型参数之后,将最后一个所述特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器之前,所述方法还包括:将最后两个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;将所述第三训练数据输入待训练编码器,所述第三训练数据包括语音数据以及所述语音数据对应的音节标签;由所述待训练编码器对所述语音数据的音节预测结果以及所述语音数据对应的音节标签,计算音节级别ctc损失,根据所述音节级别ctc损失,对所述最后两个特征提取模块进行训练,得到各个所述特征提取模块的模型参数。根据本申请的一个或多个实施例,【示例三】提供了一种语音识别模型的训练方法,所述待训练编码器包括三个特征提取模块,第一个特征提取模块的输入为所述语音数据的声学基础特征,所述第一个特征提取模块用于提取所述语音数据的帧级别音节特征,第二个特征提取模块用于提取所述语音数据的语音路径级别音节特征。根据本申请的一个或多个实施例,【示例四】提供了一种语音识别模型的训练方法,所述特征提取模块包括多个依次相连的自注意力网络;或者,除最后一个特征提取模块之外的特征提取模块包括多个依次相连的自注意力网络以及池化层,所述最后一个特征提取模块包括多个依次相连的自注意力网络。根据本申请的一个或多个实施例,【示例五】提供了一种语音识别模型的训练方法,所述利用所述训练完成的编码器对所述语音识别模型进行训练,包括:将所述训练完成的编码器中最后一个自注意力网络的模型参数进行随机初始化,生成更新后的编码器;利用所述更新后的编码器对所述语音识别模型进行训练。根据本申请的一个或多个实施例,【示例六】提供了一种语音识别模型的训练方法,在对所述待训练编码器进行训练、对所述最后一个特征提取模块进行训练和/或对所述最后两个特征提取模块进行训练的过程中,采用的学习率不随训练迭代次数的增加而改变。根据本申请的一个或多个实施例,【示例七】提供了一种语音识别模型的训练方法,在对所述待训练编码器进行训练、对所述最后一个特征提取模块进行训练和/或对所述最后两个特征提取模块进行训练的过程中,采用的权重衰减大于权重衰减阈值。根据本申请的一个或多个实施例,【示例八】提供了一种语音识别模型的训练方法,所述第一训练数据的数量、所述第二训练数据的数量以及所述第三训练数据的数量大于样本数量阈值。根据本申请的一个或多个实施例,【示例九】提供了一种语音识别模型的训练方法,所述方法还包括:对所述第一训练数据、所述第二训练数据和/或所述第三训练数据中的语音数据随机进行掩码。根据本申请的一个或多个实施例,【示例十】提供了一种语音识别模型的训练装置,所述装置包括:第一输入单元,用于将第一训练数据输入待训练编码器,所述待训练编码器包括多个依次相连的特征提取模块,所述第一训练数据包括语音数据以及所述语音数据中语音帧对应的音节标签;第一计算单元,用于由所述待训练编码器对所述语音帧的音节预测结果以及所述语音帧对应的音节标签,计算音节级别交叉熵ce损失,根据所述音节级别ce损失,对所述待训练编码器进行训练,得到各个所述特征提取模块的模型参数;第一初始化单元,用于将最后一个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;第二输入单元,用于将第二训练数据输入所述待训练编码器,所述第二训练数据包括语音数据以及所述语音数据对应的字标签;第二计算单元,用于由所述待训练编码器对所述语音数据的字预测结果以及所述语音数据对应的字标签,计算字级别联结时间分类ctc损失,根据所述字级别ctc损失,对所述最后一个特征提取模块进行训练,得到训练完成的编码器;训练单元,用于利用所述训练完成的编码器对所述语音识别模型进行训练。根据本申请的一个或多个实施例,【示例十一】提供了一种语音识别模型的训练装置,当所述待训练编码器包括两个以上依次相连的特征提取模块,所述装置还包括:第二初始化单元,用于将最后两个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;第三输入单元,用于将所述第三训练数据输入待训练编码器,所述第三训练数据包括语音数据以及所述语音数据对应的音节标签;第三计算单元,用于由所述待训练编码器对所述语音数据的音节预测结果以及所述语音数据对应的音节标签,计算音节级别ctc损失,根据所述音节级别ctc损失,对所述最后两个特征提取模块进行训练,得到各个所述特征提取模块的模型参数。根据本申请的一个或多个实施例,【示例十二】提供了一种语音识别模型的训练装置,所述待训练编码器包括三个特征提取模块,第一个特征提取模块的输入为所述语音数据的声学基础特征,所述第一个特征提取模块用于提取所述语音数据的帧级别音节特征,第二个特征提取模块用于提取所述语音数据的语音路径级别音节特征。根据本申请的一个或多个实施例,【示例十三】提供了一种语音识别模型的训练装置,所述特征提取模块包括多个依次相连的自注意力网络;或者,除最后一个特征提取模块之外的特征提取模块包括多个依次相连的自注意力网络以及池化层,所述最后一个特征提取模块包括多个依次相连的自注意力网络。根据本申请的一个或多个实施例,【示例十四】提供了一种语音识别模型的训练装置,所述训练单元,具体用于将所述训练完成的编码器中最后一个自注意力网络的模型参数进行随机初始化,生成更新后的编码器;利用所述更新后的编码器对所述语音识别模型进行训练。根据本申请的一个或多个实施例,【示例十五】提供了一种语音识别模型的训练装置,在对所述待训练编码器进行训练、对所述最后一个特征提取模块进行训练和/或对所述最后两个特征提取模块进行训练的过程中,采用的学习率不随训练迭代次数的增加而改变。根据本申请的一个或多个实施例,【示例十六】提供了一种语音识别模型的训练装置,在对所述待训练编码器进行训练、对所述最后一个特征提取模块进行训练和/或对所述最后两个特征提取模块进行训练的过程中,采用的权重衰减大于权重衰减阈值。根据本申请的一个或多个实施例,【示例十七】提供了一种语音识别模型的训练装置,所述第一训练数据的数量、所述第二训练数据的数量以及所述第三训练数据的数量大于样本数量阈值。根据本申请的一个或多个实施例,【示例十八】提供了一种语音识别模型的训练装置,所述装置还包括:掩码单元,用于对所述第一训练数据、所述第二训练数据和/或所述第三训练数据中的语音数据随机进行掩码。根据本申请的一个或多个实施例,【示例十九】提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的方法。根据本申请的一个或多个实施例,【示例二十】提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一实施例所述的方法。需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或
技术领域
:内所公知的任意其它形式的存储介质中。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜