多语言转译模型的训练方法、装置、设备及可读存储介质与流程

2021-08-10 16:37:00 来源：中国专利 TAG：多语言模型训练计算机人工智能

本申请涉及人工智能技术领域，尤其涉及一种多语言转译模型的训练方法、多语言转译模型的训练装置、计算机设备及计算机可读存储介质。

背景技术：

automaticspeechrecognition(asr)自动化语音识别是一种能够将说话人的说话语音转译为文本的语音转译技术，而multilingual-asr则是一种能够处理多种不同语言转译到同一种语言的文本的技术。

传统的多语言asr方法主要有以下缺点，一方面，传统的asr技术方法一般是基于分离的声学模型，词典以及语言模型，这导致了在训练上多阶段分离非端到端的不方便；另一方面，传统的asr方法只能做到在声学模型上的多语言模型，无法做法全流程的多语言统一，因此每一种语言都要配置单独的词典和语言模型，增加了应用上的使用复杂度和存储上的空间复杂度。同时，传统的多语言asr模型没有很好处理多语言中的样本不平衡问题，不同语言的样本收集难度天然不同，因此会有样本量的差异。

因此，现在亟需一种提高模型训练效率和准确性以及模型扩展性的的多语言转译模型的训练方法。

技术实现要素：

本申请提供了一种多语言转译模型的训练方法、装置、计算机设备及存储介质，以提高了模型的训练效率，同时提高了模型的扩展性和稳定性。

第一方面，本申请提供了一种多语言转译模型的训练方法，所述方法包括：

接收输入的训练样本，并对所述训练样本进行预处理，以得到所述训练样本所对应的具有多语言区分度的特征信息；

构建并加载待训练转译模型，其中所述待训练转译模型基于深度神经网络结构所生成；

根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行迭代训练，并确定所述迭代训练是否完成；

当确定所述待训练转译模型迭代训练完成时，存储训练好的转译模型。

第二方面，本申请还提供了一种多语言转译模型的训练装置，所述装置包括：

样本处理模块，用于接收输入的训练样本，并对所述训练样本进行预处理，以得到所述训练样本所对应的具有多语言区分度的特征信息；

模型加载模块，用于构建并加载待训练转译模型，其中所述待训练转译模型基于深度神经网络结构所生成；

模型训练模块，用于根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行迭代训练，并确定所述迭代训练是否完成；

模型存储模块，用于当确定所述待训练转译模型迭代训练完成时，存储训练好的转译模型。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的多语言转译模型的训练方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的多语言转译模型的训练方法。

本申请公开了一种多语言转译模型的训练方法、装置、计算机设备及存储介质，在对多语言转译模型进行训练时，首先获取进行训练的样本数据，并对所得到的样本数据进行特征的增强提取，以根据所得到的特征对待训练的转译模型进行训练，以对待训练的转译模型进行预训练，为了实现对多种语言的适配，在完成预训练之后，为预训练后的转译模型引入多种语言的适配器，然后接着对引入适配器的转译模型进行训练，以得到最终所训练好的转译模型。实现了在对转译模型的训练过程中，通过在模型中引入若干适配层，以使得转译模型可以适用于多种不同的语音，同时在引入适配层时是以进行预训练后的转译模型为基础，简化了模型训练的复杂程度，同时通过引入适配层的方式来适应多种语言的需求，可以更好的提高转译效果和模型的鲁棒性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的一种多语言转译模型的训练方法的流程示意图；

图2为本申请一实施例提供的得到具有多语言区分度的特征信息的步骤的流程示意图；

图3为本申请一个实施例提供的转译模型中编码器的模型结构示意图；

图4为本申请一实施例提供的对转译模型进行迭代训练的步骤的流程示意图；

图5为本申请一实施例提供待训练转译模型预训练的步骤的流程示意图；

图6为本申请一个实施例提供多语言转译模型的结构示意图；

图7为本申请一个实施例提供的一种多语言转译模型的训练装置的示意性框图；

图8为本申请一个实施例提供的计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1为本申请一个实施例提供的一种多语言转译模型的训练方法的流程示意图。

如图1所示，该训练方法包括步骤s101至步骤s104。

步骤s101、接收输入的训练样本，并对所述训练样本进行预处理，以得到所述训练样本所对应的具有多语言区分度的特征信息。

asr(automaticspeechrecognition，自动化语音识别)是一种能够将说话人的说话语音转译为文本的语音转译技术。通过将所接收到的语音信息进行转译，以转化为相应的文本信息进行展示，比如在进行实时新闻播报时，在电视界面上的实时文字显示，通过将语音信息进行转译以将转译得到的文本信息展示在电视或者设备的显示屏幕上。

在一实施例中，在进行模型的训练之前，获取对模型进行训练的样本数据，进而利用所得到的样本数据对模型进行训练。具体地，在获取了训练样本之后，对所得到的训练样本进行相应的预处理，以实现对所接收到的训练样本进行特征提取，得到训练样本所对应的具有多语言区分度的特征信息。其中，所得到的训练样本包含有语音信息以及相对应的文本信息，也就是每一个语音信息都对应着一个文本信息，且具有多种不同的语言种类，可以适应不同的语言需求。

在对训练样本进行预处理时，是对进行训练所需要的数据进行数据增强，进而使用增强后的数据对需要进行训练的模型进行训练。在进行数据增强时，首先对每一个数据进行数据增强，以得到每一个训练样本所对应的声学特征，然后在得到每一个训练样本所对应的声学特征之后，还需要对所得到的声学特征进行进一步的处理，以得到具有更强特征的特征信息。而在进行进一步的处理时，对所得到的声学特征进行处理，以得到具有多语言区分度的特征。

在一实施例中，参照图2，图2为本申请一实施例提供的得到具有多语言区分度的特征信息的步骤的流程示意图。其中该过程包括步骤s201至步骤s202。

步骤s201、对所述训练样本进行特征提取，得到每一训练样本所对应的声学特征；

步骤s202、对所述声学特征中每一声学特征进行特征增强，得到具有多语言区分度的特征信息。

在对训练样本进行处理，对每一个训练样本进行声学特征的提取，然后在得到每一训练样本的声学特征时，引入一个预先训练好的语音特征提取器，进而将所得到的声学特征输入到提取器中进行特征增强，以得到具有多语言区分度的特征信息，其中，多语言区分度的特征信息是具有多维度或者类别的特征信息，通过对所得到的声学特征进行特征增强以及分类处理，以得到具有多种类别或者组别的特征信息，比如利用语言种类进行分类处理。

在对训练样本进行声学特征的提取时，利用mfcc(melfrequencycepstrumcoefficient，mel频率倒谱系数)方法实现对语音信息进行处理，以得到每一个语音信息所对应的声学特征，具体地，在进行处理时将语音物理信息(如频谱包络和细节)进行编码运算，以得到的一组特征向量，也就是在训练样本中的每一语音信息进行声学特征的提取时，都会得到一个对应的特征向量。

在实际应用中，可以根据实际的使用需求对训练样本进行处理，比如在需要所得到的转译模型可以适配x种语言的转译时，可以使得训练样本包含有x种语言，进而在对进行训练的转译模型进行训练时，使得训练完成的转译模型可以适合该x种语言的转译。

而在对训练样本进行处理以得到声学特征之后，还将对所得到的声学特征进行进一步的处理，具体地，在基于mfcc方法进行计算得到训练样本所对应的声学特征之后，对所得都的声学特征进行进一步的处理，以得到可以作为模型训练的输入的数据。而在进行进一步的处理时，具体地处理方式为：引用一个预先所训练好的语音特征预训练提取器，然后基于所引用的提取器对所得到的声学特征进行进一步的特征分类，以得到具有多语言区分度的特征。

实际上，由于所得到的训练样本所包含的语言种类是多样的，而不同的语言之间的转译是相互独立的，比如，在使用中文讲话时，需要在相应的显示界面上显示对应的中文字段，而在使用英文讲话时，需要在相应的显示界面上显示对应的英文字段。因此，在对所得到的特征信息进行处理时，是以语言的类别为一组，对特征信息进行分组处理，以得到不同语言组别的各自的特征信息，即得到具有多语言区分度的特征。

步骤s102、构建并加载待训练转译模型，其中所述待训练转译模型基于深度神经网络结构所生成；

在进行模型的训练时，首先需要构建进行训练的模型，不同结构的模型在使用过程中具有不同的效果。比如通过结构改进使得模型具有更好的扩展性等。

在一实施例中，所构建的待训练转译模型是基于深度神经网络结构所生成的，比如可以是采用bottle-neck结构的dnn网络模型，也可以是其他深度神经网络结构的网络模型。

在构建转译模型时，根据实际的使用需求和模型结构需求，合理和准确的实现对转译模型的构建。实际的，所构建的转译模型的结构包含有编码器、预测器以及联合特征解码器三部分，且三部分都是基于lstm模块实现，同时，在转译模型的构建时，初始将三个不同的子模型的结构构建为相同的结构，但是不同的结构部分所起到的作用也是有所不同的，其中，以编码器为例，此时所构建的子模型的结构可以如图3所示。

对于不同的子模型结构，起着不同的作用，具体地，编码器负责提取不同语音帧的特征之间的联系，预测器负责融合与提取当前已转译结果的信息，联合特征解码器接受解码器与预测器的拼接特征并给出下一个字符的转译结果。

步骤s103、根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行迭代训练，并确定所述迭代训练是否完成。

在完成对转译模型的构建和加载之后，将会利用预先基于训练样本多得到的具有多语言区分度的特征信息，对所加载的待训练的转译模型进行训练，而在对待训练的转译模型进行训练时，还会对待训练的转译模型的模型结构进行相应的调节，并在完成模型结构的调节时候同样会进行模型的训练。对于整个的模型训练的过程，需要确定待训练的转译模型是否完成整个的迭代训练。

基于模型自身的机构特征，在对待训练的转译模型进行训练时，依次对模型中的编码器、预测器以及联合特征解码器等三个部分进行训练和处理，进而使得每一个部分都满足实际的应用需求。

实际上，在对转译模型进行训练时，首先利用所得到的具有多语言区分度的特征信息对转移模型进行第一次训练，然后在训练完成之后对完成第一次训练时所得到的转译模型的模型结构进行相应的调整，进而在此利用预先所得到的具有多语言区分度的特征信息对进行结构调整之后的模型进行第二次训练，并确定模型的第二次训练是否完成。

在一实施例中，参照图4，图4为本申请一实施例提供的对转译模型进行迭代训练的步骤的流程示意图。

其中，具体步骤包括步骤s401至步骤s403。

步骤s401、根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行预训练，并确定训练后的所述待训练转译模型是否收敛；

步骤s402、在确定预训练后的待训练转译模型收敛时，基于预训练后的模型参数得到中间模型，并对所述中间模型的模型结构进行调整；

步骤s403、根据所述具有多语言区分度的特征信息，对进行调整后的中间模型进行训练。

在对所构建和加载的待训练的转译模型进行训练时，以进行预处理所得到的具有区分度的特征信息作为模型训练的输入数据，以对待训练转译模型中的相关模型参数进行调整，当进行调整之后的模型收敛时，将会确定调整完成，此时会根据调整完成之后的模型参数得到中间模型，接着在对中间模型的模型结构进行进一步的调整，并在完成进一步的调整之后，再次利用预处理所得到的具有多语言区分度的特征信息对中间模型进行进一步的训练。

在对模型进行预训练时，首先对所构建的待训练转译模型中的模型参数进行优化，然后在完成优化之后固定优化后的模型参数不变，对优化后的转译模型进行结构的进一步调整，最后在对完成进一步调整之后的转译模型进行最后的训练，并在完成训练时得到训练好的转译模型，以供实际的使用。

在实际应用中，为了实现适配多种不同语言的转译，除了在丰富训练样本，使得训练样本中包含有多种不同语言的样本，还需要对转译模型的结构进行特定的处理和调整，因此在得到待训练转译模型进行训练之后，需要对模型结构进行调整，以适配多种语言的需求。

由上述描述可以知道，在进行模型结构的进一步调整之前，待训练转译模型中的三个部分的结构是相同的，但是在对完成预训练之后的中间模型的模型结构进行调整时，并不是对每一个部分都进行调整，而是对转译模型中的编码器部分的模型结构进行调整，最后在完成对编码器部分的模型结构的调整之后再次进行训练。

在一实施例中，在对待训练转译模型进行训练时，是将所得到的具有多语言区分度的特征信息作为模型训练的输入，此时的具体训练过程如图5所示，图5为本申请一实施例提供待训练转译模型预训练的步骤的流程示意图。

由上述描述可知，待训练转译模型包括编码器、预测器以及联合特征解码器，而对于整个转译模型而言，联合特征解码器的输入端与编码器的输出端以及预测器的输出端连接，模型的具体结构如图6所示。因此，该预训练过程包括：

步骤s501、将所述具有多语言区分度的特征信息输入至所述编码器中，得到第一向量；

步骤s502、将与所述训练样本所对应的标准转译信息输入至所述预测器中，得到第二向量；

步骤s503、将所述第一向量以及所述第二向量进行拼接得到第三向量，并将所述第三向量输入至所述联合特征解码器中，以输出得到预测转译信息。

基于转译模型的结构，在模型的训练和使用过程中，不同的部分所承担的角色以及所进行的数据处理过程和方式也是有所不同的。

具体地，根据所构建的转译模型自身的结构特征，在对待训练的转译模型进行训练时，首先会存在的差异和区别便是每一个部分所输入的数据信息时有所差异的，其中，编码器的输入为：语音帧ei，预测器的输入为：独热编码向量(one-hotembedding向量)r_(i-1)，联合特征编码器的输入为：编码器与预测器的输出结合(ei,r(i-1))，其中，r(i-1)＝embed(y_0,y_1,...,y_i-1)，即使用向量表示前i-1个预测结果；(ei,r_(i-1))为第i个语音帧的编码器输出向量与第i-1语言帧的预测器输出向量的拼接结果，同时输出结果为第i帧的转译结果。

而在对转译模型进行训练时，则是通过对转译模型的三个不同的部分同时进行训练，以实现对整个转译模型的训练。

在一实施例中，在对待训练转译模型进行训练时，将预先所得到的对训练样本进行预处理所得到的具有多语言区分度的特征信息输入至转译模型的编码器中，以输出得到第一向量，同时将与训练样本所对应的标准转译信息输入到转译模型的预测器中，以得到第二向量，接着对所得到的第一向量和第二向量进行拼接处理得到第三向量，最后将所得到的第三向量输入到联合特征解码器中，以输出得到预测转译信息。

预先获取对模型进行训练的训练样本时，每一个训练样本都会对应着各自的标准转译信息，而在进行模型的训练时，模型本身具有转译信息的预测功能，也就是在输入了语音信息之后，通过模型的处理会输出一个预测的转译信息，而无论模型是否被训练。而在实际的训练过程中，通过对模型参数的不断调整，使得模型所预测输出的转译结果与标准的转译结果的相似性更高，当然，模型的预测结果与标准的转译信息完全相同时说明模型的转译效果更好。

在实际的模型训练过程中，训练的过程是一个参数不断调整的过程，通过对模型参数的不断调整，使得模型可以更加准确的完成所需要的转译工作。因此在训练过程中需要确定模型合适训练完成,，具体地可以通过确定模型是否收敛来确定，而收敛的判断依据不做限制，可以是完成一定次数的训练，也可以是模型中的某一或者某些参数达到所设定的阈值。

在一实施例中，在确定预训练后的模型是否收敛时，包括：确定所述标准转译信息与所述预测转译信息之间的相似度值，并将所述相似度值与预设阈值进行比较；若所述相似度值大于或者等于所述预设阈值，则确定收敛；若所述相似度值小于所述预设阈值，则确定不收敛。

在得到模型在训练过程中所输出的预测转译信息之后，通过计算标准转译信息与预测转译信息之间的相似度来确定此时是否训练完成，也就是确定模型训练是否收敛。由于计算相似度值的方法有很多中，在此不做限制，各种相似度值的计算方式均可以使用。

在实际应用中，转译模型的转译效果的好坏体现在预测结果的准确性上，因此在预测转译信息与标准转译信息之间的相似度值越高时，说明在使用时转译模型的转移效果会更好。因此在设定阈值的时候，可以设定一个较高的阈值，然后在计算得到预测转译信息与标准转译信息之间的相似度值之后，通过与预设阈值之间的比较来确定预训练是否完成。

在一实施例中，在完成对待训练的转译模型的预训练之后并不是完成整个的训练，此时将会对预训练之后的模型进行模型结构的进一步调整，以及进一步的训练，而只有在进一步地训练也完成时才确定整个训练完成，也就是此时才会得到可以用来被使用的转译模型。

具体地，在得到中间模型时，根据完成预训练时所得到的模型参数得到中间模型，其中，中间模型与待训练转译模型的区别在于模型参数的不同，然后再对中间模型的模型结构进行调整。

需要说明的是，在对中间模型的模型结构进行调整时，是通过引入适配层adapter以融合到编码器的模型结构中来实现的，而对于预测器以及联合解码器这两个部分来说，并不会进行模型结构的调整。

同时，在将若干适配层嵌入到中间模型的编码器的模型结构中之后，将会完成适配层嵌入的中建模型再次进行训练，以实现对每个语言的不同适配，也就是对适配器进行训练，以适用于各种语言需求。

在完成初始训练后的模型中增加若干适配层adapter之后，将会对具有新的模型结构的模型再次进行训练，以实现对不同语言的适配输出。在对每一适配层进行训练时，训练方式相同，通过初始训练的输入和输出来对适配层中的相关参数进行调节，而在进行训练时，对训练样本进行语言分类，进而根据不同的语言对适配器进行训练，以使得在进行a语言的转译时，可以直接转译得到对应的a语言的文本信息，而在接收到进行b语言的转译时，由于适配了b语言，因此也可以得到b语言对应的文本信息。

在对增加了适配层adapter之后的模型进行训练时，基于训练所使用的原始样本，对原始样本进行分类处理(基于语言类型)，以得到若干组不同类别的训练样本，进而根据不同的训练样本对增加了适配层adapter的模型进行训练。在初始预训练的模型的基础上，对增加了适配层adapter的模型再次进行训练，以实现对不同语言的适配，进而实现对不同语言的端到端的转译。

需要说明的是，对于所引入的适配器的数量是基于实际需求所确定，在需要训练完成之后的模型可以适用于几种语言的转译，就可以在构建编码器的模型结构时，引入多少个适配器。

在一实施例中，在对待训练转译模型进行迭代训练时，将会根据实际的训练状态确定迭代训练是否完成，而只有在确定迭代训练完成的时候，才会将完成迭代训练之后的转译模型作为训练好的转译模型，而在没有训练完成时，将会继续训练至训练完成。

其中，在确定迭代训练是否完成时，包括：确定完成迭代训练后的所述待训练转译模型是否收敛，以根据是否收敛确定所述迭代训练是否完成；其中，若确定收敛，则确定所述迭练训练完成；若确定不收敛，则确定所述迭代训练未完成。

具体地，在整个的训练过程中，模型的训练过程包括预训练过程以及对中间模型进行进一步训练的过程，也就是只有在这两个过程都训练完成之后，才会确定整个的训练完成，同时预训练过程在进一步训练之前，因此在确定是否训练完成时，确定完成迭代训练后的待训练转译模型是否收敛，进而根据实际的收敛状态确定是否训练完成，其中，在确认收敛时确定完成训练，反之则确定未完成训练，需要继续进行训练。

步骤s104、当确定所述待训练转译模型迭代训练完成时，存储训练好的转译模型。

在完成对待训练转译模型的迭代训练之后，将会得到一个训练好的转译模型，此时将会将所得到的训练好的转译模型进行存储，以供后续的使用。此时训练好的转译模型也就是完成参数优化后的模型，而具体的参数优化包括对模型的预训练时的参数优化和对中间模型进行训练的参数优化。

在一实施例中，在完成转译模型的训练和存储之后，在转译模型的使用过程中，也就是需要进行转移时，具体包括：当接收到语音转译指令时，加载所存储的训练好的转译模型；接收输入的待处理语音信息以及转译信息；将所述待处理语音信息以及所述转译信息输入至所述训练好的转译模型中，以输出所述待处理语音信息所对应的文本信息，并将所述文本信息展示在相应的显示界面上。

在需要进行转移操作时，将所训练好且存储的转译模型加载以融合到所使用的转译设备中，然后通过对所接收到的待处理语音信息根据实际的转译信息进行转译处理，以得到对应的转译结果，也就是对应的文本信息，最后将所得到的文本信息进行展示。

在上述描述的转译模型的训练方法中，在对多语言转译模型进行训练时，首先获取进行训练的样本数据，并对所得到的样本数据进行特征的增强提取，以根据所得到的特征对待训练的转译模型进行训练，以对待训练的转译模型进行预训练，为了实现对多种语言的适配，在完成预训练之后，为预训练后的转译模型引入多种语言的适配器，然后接着对引入适配器的转译模型进行训练，以得到最终所训练好的转译模型。实现了在对转译模型的训练过程中，通过在模型中引入若干适配层，以使得转译模型可以适用于多种不同的语音，同时在引入适配层时是以进行预训练后的转译模型为基础，简化了模型训练的复杂程度，同时通过引入适配层的方式来适应多种语言的需求，可以更好的提高转译效果和模型的鲁棒性。

请参阅图7，图7为本申请一个实施例提供的一种多语言转译模型的训练装置的示意性框图，该装置用于执行前述的多语言转译模型的训练方法。

如图7所示，该多语言转译模型的训练装置700包括：

样本处理模块701，用于接收输入的训练样本，并对所述训练样本进行预处理，以得到所述训练样本所对应的具有多语言区分度的特征信息；

模型加载模块702，用于构建并加载待训练转译模型，其中所述待训练转译模型基于深度神经网络结构所生成；

模型训练模块703，用于根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行迭代训练，并确定所述迭代训练是否完成；

模型存储模块704，用于当确定所述待训练转译模型迭代训练完成时，存储训练好的转译模型。

进一步地，在一个实施例中，所述样本处理模块701具体还用于：

对所述训练样本进行特征提取，得到每一训练样本所对应的声学特征；

对所述声学特征中每一声学特征进行特征增强，得到具有多语言区分度的特征信息。

进一步地，在一个实施例中，所述模型训练模块703具体还用于：

根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行预训练，并确定训练后的所述待训练转译模型是否收敛；

在确定预训练后的待训练转译模型收敛时，基于预训练后的模型参数得到中间模型，并对所述中间模型的模型结构进行调整；

根据所述具有多语言区分度的特征信息，对进行调整后的中间模型进行训练。

进一步地，在一个实施例中，所述模型训练模块703具体还用于：

确定完成迭代训练后的所述待训练转译模型是否收敛，以根据是否收敛确定所述迭代训练是否完成；其中

若确定收敛，则确定所述迭练训练完成；

若确定不收敛，则确定所述迭代训练未完成。

进一步地，在一个实施例中，所述待训练转译模型包括编码器、预测器以及联合特征解码器，且所述联合特征解码器的输入端与所述编码器的输出端以及所述预测器的输出端连接，所述模型训练模块703具体还用于：

将所述具有多语言区分度的特征信息输入至所述编码器中，得到第一向量；

将与所述训练样本所对应的标准转译信息输入至所述预测器中，得到第二向量；

将所述第一向量以及所述第二向量进行拼接得到第三向量，并将所述第三向量输入至所述联合特征解码器中，以输出得到预测转译信息。

进一步地，在一个实施例中，所述模型训练模块703具体还用于：

确定所述标准转译信息与所述预测转译信息之间的相似度值，并将所述相似度值与预设阈值进行比较；

若所述相似度值大于或者等于所述预设阈值，则确定收敛；

若所述相似度值小于所述预设阈值，则确定不收敛。

进一步地，在一个实施例中，所述多语言转译模型的训练装置700还包括模型调用模块705，其中所述模型调用模块705具体还用于：

当接收到语音转译指令时，加载所存储的训练好的转译模型；

接收输入的待处理语音信息以及转译信息；

将所述待处理语音信息以及所述转译信息输入至所述训练好的转译模型中，以输出所述待处理语音信息所对应的文本信息，并将所述文本信息展示在相应的显示界面上。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8为本申请一个实施例提供的计算机设备的结构示意性框图。该计算机设备可以是服务器。

参阅图8，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种多语言转译模型的训练方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种多语言转译模型的训练方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(centralprocessingunit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

接收输入的训练样本，并对所述训练样本进行预处理，以得到所述训练样本所对应的具有多语言区分度的特征信息；

构建并加载待训练转译模型，其中所述待训练转译模型基于深度神经网络结构所生成；

根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行迭代训练，并确定所述迭代训练是否完成；

当确定所述待训练转译模型迭代训练完成时，存储训练好的转译模型。

在一个实施例中，所述处理器在实现所述对所述训练样本进行预处理，以得到所述训练样本所对应的具有多语言区分度的特征信息时，还用于实现：

对所述训练样本进行特征提取，得到每一训练样本所对应的声学特征；

对所述声学特征中每一声学特征进行特征增强，得到具有多语言区分度的特征信息。

在一个实施例中，所述处理器在实现所述根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行迭代训练时，还用于实现：

根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行预训练，并确定训练后的所述待训练转译模型是否收敛；

在确定预训练后的待训练转译模型收敛时，基于预训练后的模型参数得到中间模型，并对所述中间模型的模型结构进行调整；

根据所述具有多语言区分度的特征信息，对进行调整后的中间模型进行训练。

在一个实施例中，所述处理器在实现所述确定所述迭代训练是否完成时，还用于实现：

确定完成迭代训练后的所述待训练转译模型是否收敛，以根据是否收敛确定所述迭代训练是否完成；其中

若确定收敛，则确定所述迭练训练完成；

若确定不收敛，则确定所述迭代训练未完成。

在一个实施例中，所述待训练转译模型包括编码器、预测器以及联合特征解码器，且所述联合特征解码器的输入端与所述编码器的输出端以及所述预测器的输出端连接，所述处理器在实现所述根据所述具有多语言区分度的特征信息，对所述待训练转译模型进行预训练时，还用于实现：

将所述具有多语言区分度的特征信息输入至所述编码器中，得到第一向量；

将与所述训练样本所对应的标准转译信息输入至所述预测器中，得到第二向量；

将所述第一向量以及所述第二向量进行拼接得到第三向量，并将所述第三向量输入至所述联合特征解码器中，以输出得到预测转译信息。

在一个实施例中，所述处理器在实现所述确定训练后的所述待训练转译模型是否收敛时，还用于实现：

确定所述标准转译信息与所述预测转译信息之间的相似度值，并将所述相似度值与预设阈值进行比较；

若所述相似度值大于或者等于所述预设阈值，则确定收敛；

若所述相似度值小于所述预设阈值，则确定不收敛。

在一个实施例中，所述处理器在实现所述计算机程序时，还用于实现：

当接收到语音转译指令时，加载所存储的训练好的转译模型；

接收输入的待处理语音信息以及转译信息；

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项多语言转译模型的训练方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

另外，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种多功能儿童音乐声光节拍器的制作方法

多语言转译模型的训练方法、装置、设备及可读存储介质与流程

相关文章

最热文献