翻译模型的训练方法及其翻译方法、装置和电子设备与流程

2021-11-26 22:26:00 来源：中国专利 TAG：

技术特征：
1.一种翻译模型的训练方法，其特征在于，包括：将语料样本在第一翻译模型中进行正向传播，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度；将所述第一置信度低于置信度阈值的第一待预测位置，确定为第二翻译模型的第二待预测位置，并将所述第一置信度不低于所述置信度阈值的第一待预测位置对应的第一预标记目标词，确定为对应所述第二翻译模型的上下文词；将所述上下文词以及所述语料样本在第二翻译模型中进行正向传播，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度；基于在每个第一待预测位置对应的第一预标记目标词的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度，更新所述第一翻译模型以及所述第二翻译模型的参数。2.根据权利要求1所述的方法，其特征在于，所述基于在每个第一待预测位置对应的第一预标记目标词的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度，更新所述第一翻译模型以及所述第二翻译模型的参数，包括：基于所述第一置信度，确定对应所述第一翻译模型的第一损失；基于低于所述置信度阈值的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度，确定对应所述第二翻译模型的第二损失；其中，所述第二损失用于表征所述第二翻译模型对所述第一翻译模型的教导损失；基于分别对应所述第一损失以及所述第二损失的聚合参数，对所述第一损失以及所述第二损失进行聚合处理，得到联合损失；根据所述联合损失更新所述第一翻译模型以及所述第二翻译模型的参数。3.根据权利要求2所述的方法，其特征在于，多个所述第一待预测位置具有一一对应的多个第一预标记目标词，多个所述第二待预测位置具有一一对应的多个第二预标记目标词；所述基于所述第一置信度，确定对应所述第一翻译模型的第一损失，包括：将针对每个所述第一待预测位置获取的第一置信度进行融合处理，得到对应所述第一翻译模型的第一损失；所述基于低于所述置信度阈值的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度，确定对应所述第二翻译模型的第二损失，包括：将低于所述置信度阈值的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度进行融合处理，得到对应所述第二翻译模型的第二损失。4.根据权利要求1所述的方法，其特征在于，所述第一翻译模型包括第一编码网络以及前序解码网络；所述将语料样本在第一翻译模型中进行正向传播，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度，包括：确定所述语料样本的每个原始词以及对应每个所述原始词的原始词向量，将对应每个所述原始词的原始词向量进行组合处理，得到所述语料样本的原始词向量序列；通过所述第一编码网络对所述语料样本的原始词向量序列进行语义编码处理，得到对应所述语料样本的第一源语句表示；
通过所述前序解码网络对所述第一源语句表示进行语料解码处理，得到在每个所述第一待预测位置对应的第一预标记目标词的第一置信度；其中，所述第一置信度是基于对应每个所述第一待预测位置的前序词生成的。5.根据权利要求4所述的方法，其特征在于，所述第一编码网络包括n个级联的第一子编码网络，n为大于或者等于2的整数；所述通过所述第一编码网络对所述语料样本的原始词向量序列进行语义编码处理，得到对应所述语料样本的第一源语句表示，包括：通过所述第一编码网络包括的n个级联的第一子编码网络，对所述语料样本的原始词向量序列进行以下方式的语义编码处理：对所述第一子编码网络的输入进行自注意力处理，得到对应所述第一子编码网络的自注意力处理结果，对所述自注意力处理结果进行隐状态映射处理，得到对应所述第一子编码网络的隐状态向量序列，将所述隐状态向量序列作为所述第一子编码网络的语义编码处理结果；其中，在n个级联的第一子编码网络中，首个所述第一子编码网络的输入包括所述语料样本的原始词向量序列，第n个所述第一子编码网络的语义编码处理结果包括对应所述语料样本的第一源语句表示。6.根据权利要求4所述的方法，其特征在于，所述通过所述前序解码网络对所述第一源语句表示进行语料解码处理，得到在每个所述第一待预测位置对应的第一预标记目标词的第一置信度，包括：针对所述前序解码网络输出的每个第一待预测位置执行以下处理：从语料样本集合中获取与所述语料样本对应的第一预标记目标词序列；从所述第一预标记目标词序列中提取位于所述第一待预测位置之前的第一预标记目标词，将提取的所述第一预标记目标词作为与所述第一待预测位置对应的前序词；通过所述前序解码网络对与所述第一待预测位置对应的前序词以及所述第一源语句表示进行语义解码处理，得到在所述第一待预测位置被解码为对应的第一预标记目标词的第一置信度。7.根据权利要求6所述的方法，其特征在于，所述前序解码网络包括m个级联的子前序解码网络，m为大于或者等于2的整数；所述通过所述前序解码网络对与所述第一待预测位置对应的前序词以及所述第一源语句表示进行语义解码处理，包括：通过每个所述子前序解码网络进行以下方式的语义解码处理：对所述子前序解码网络的输入进行掩码自注意力处理，得到对应所述子前序解码网络的掩码自注意力处理结果，对所述掩码自注意力处理结果进行交叉注意力处理，得到对应所述子前序解码网络的交叉注意力处理结果，对所述交叉注意力处理结果进行隐状态映射处理；其中，在m个级联的子前序解码网络中，首个所述子前序解码网络的输入包括：与所述第一待预测位置对应的前序词以及所述第一源语句表示；第m个所述子前序解码网络的隐状态映射处理结果包括：在所述第一待预测位置被解码为对应的第一预标记目标词的第一置信度。8.根据权利要求7所述的方法，其特征在于，所述对所述掩码自注意力处理结果进行交
叉注意力处理，得到对应所述子前序解码网络的交叉注意力处理结果，包括：对所述掩码自注意力处理结果进行线性变换处理，得到所述掩码自注意力处理结果的查询向量；针对每个所述原始词执行以下处理：对所述原始词的第一源语句表示进行线性变换处理，得到所述第一源语句表示的键向量以及值向量；将所述掩码自注意力处理结果的查询向量与所述第一源语句表示的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到所述第一源语句表示的值向量的权重；基于所述第一源语句表示的值向量的权重对所述第一源语句表示的值向量进行加权处理，得到对应所述子前序解码网络的交叉注意力处理结果。9.根据权利要求1所述的方法，其特征在于，所述第二翻译模型包括第二编码网络以及上下文解码网络；所述将上下文词以及所述语料样本在第二翻译模型中进行正向传播，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度，包括：获取所述语料样本的每个原始词以及对应每个所述原始词的原始词向量，将对应每个所述原始词的原始词向量进行组合处理，得到所述语料样本的原始词向量序列；通过所述第二编码网络对所述语料样本的原始词向量序列进行语义编码处理，得到对应所述语料样本的第二源语句表示；通过所述上下文解码网络对所述第二源语句表示进行语料解码处理，得到在每个所述第二待预测位置对应的第二预标记目标词的第二置信度；其中，所述第二置信度是基于与多个所述第二待预测位置均对应的上下文词生成的。10.根据权利要求9所述的方法，其特征在于，所述通过所述上下文解码网络对所述第二源语句表示进行语料解码处理，得到在每个所述第二待预测位置对应的第二预标记目标词的第二置信度，包括：针对所述上下文解码网络输出的每个第二待预测位置执行以下处理：通过所述上下文解码网络对所述上下文词、以及所述第二源语句表示进行语义解码处理，得到在所述第二待预测位置被解码为对应的第二预标记目标词的第二置信度。11.一种语料翻译方法，其特征在于，包括：响应于针对目标语料的翻译请求，调用第一翻译模型或者第二翻译模型对所述目标语料进行翻译处理，得到针对所述目标语料的翻译结果；其中，所述第一翻译模型和所述第二翻译模型是根据权利要求1
‑
10任一项所述的翻译模型的训练方法进行训练得到的。12.一种翻译模型的训练装置，其特征在于，包括：第一任务模块，用于将语料样本在第一翻译模型中进行正向传播，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度；选择模块，用于将所述第一置信度低于置信度阈值的第一待预测位置，确定为第二翻译模型的第二待预测位置，并将所述第一置信度不低于所述置信度阈值的第一待预测位置对应的第一预标记目标词，确定为对应所述第二翻译模型的上下文词；
第二任务模块，用于将所述上下文词以及所述语料样本在第二翻译模型中进行正向传播，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度；更新模块，用于基于在每个第一待预测位置对应的第一预标记目标词的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度，更新所述第一翻译模型以及所述第二翻译模型的参数。13.一种语料翻译装置，其特征在于，包括：应用模块，用于响应于针对目标语料的翻译请求，调用第一翻译模型或者第二翻译模型对所述目标语料进行翻译处理，得到针对所述目标语料的翻译结果；其中，所述第一翻译模型和所述第二翻译模型是根据权利要求1
‑
10任一项所述的翻译模型的训练方法进行训练得到的。14.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的翻译模型的训练方法或者权利要求11所述的语料翻译方法。15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至10一项所述的翻译模型的训练方法或者权利要求11所述的语料翻译方法。

技术总结
本申请提供了一种翻译模型的训练方法及其语料翻译方法、装置、电子设备和计算机可读存储介质；方法包括：将语料样本在第一翻译模型中进行正向传播，得到对应的第一预标记目标词的第一置信度；将第一置信度低于置信度阈值的第一待预测位置，确定为第二待预测位置，将第一置信度不低于置信度阈值的第一预标记目标词，确定为对应第二翻译模型的上下文词；将上下文词以及语料样本在第二翻译模型中进行正向传播，得到对应的第二预标记目标词的第二置信度；基于对应的第一预标记目标词的第一置信度、对应的第二预标记目标词的第二置信度，更新第一翻译模型以及第二翻译模型的参数。通过本申请，能够提高翻译模型进行语料翻译的准确性。确性。确性。

技术研发人员：周楚伦孟凡东苏劲松
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.03.30
技术公布日：2021/11/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：计算设备及其BIOS更新方法和介质与流程

翻译模型的训练方法及其翻译方法、装置和电子设备与流程

相关文献

最热文献