翻译模型的训练方法及其翻译方法、装置和电子设备与流程

2021-11-26 22:26:00 来源：中国专利 TAG：

1.本技术涉及人工智能技术，尤其涉及一种翻译模型的训练方法及其翻译方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.人工智能(artificial intelligence，ai)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
3.相关技术中应用自然语言处理技术，在各种应用产品中为用户提供语料翻译功能，但是目前自然语言处理技术中训练得到的翻译模型的翻译准确度较低，难以满足用户日益提高的翻译质量需求。
4.申请内容
5.本技术实施例提供一种翻译模型的训练方法及其翻译方法、装置、电子设备及计算机可读存储介质，能够提高翻译模型进行语料翻译的准确性。
6.本技术实施例的技术方案是这样实现的：
7.本技术实施例提供一种翻译模型的训练方法，包括：
8.将语料样本在第一翻译模型中进行正向传播，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度；
9.将所述第一置信度低于置信度阈值的第一待预测位置，确定为第二翻译模型的第二待预测位置，并将所述第一置信度不低于所述置信度阈值的第一待预测位置对应的第一预标记目标词，确定为对应所述第二翻译模型的上下文词；
10.将所述上下文词以及所述语料样本在第二翻译模型中进行正向传播，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度；
11.基于在每个第一待预测位置对应的第一预标记目标词的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度，更新所述第一翻译模型以及所述第二翻译模型的参数。
12.本技术实施例提供一种翻译模型的训练装置，包括：
13.第一任务模块，用于将语料样本在第一翻译模型中进行正向传播，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度；
14.选择模块，用于将所述第一置信度低于置信度阈值的第一待预测位置，确定为第二翻译模型的第二待预测位置，并将所述第一置信度不低于所述置信度阈值的第一待预测位置对应的第一预标记目标词，确定为对应所述第二翻译模型的上下文词；
15.第二任务模块，用于将所述上下文词以及所述语料样本在第二翻译模型中进行正向传播，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度；
16.更新模块，用于基于在每个第一待预测位置对应的第一预标记目标词的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度，更新所述第一翻译模型以及所述第二翻译模型的参数。
17.在上述方案中，所述更新模块，还用于：基于所述第一置信度，确定对应所述第一翻译模型的第一损失；基于低于所述置信度阈值的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度，确定对应所述第二翻译模型的第二损失；其中，所述第二损失用于表征所述第二翻译模型对所述第一翻译模型的教导损失；基于分别对应所述第一损失以及所述第二损失的聚合参数，对所述第一损失以及所述第二损失进行聚合处理，得到联合损失；根据所述联合损失更新所述第一翻译模型以及所述第二翻译模型的参数。
18.在上述方案中，多个所述第一待预测位置具有一一对应的多个第一预标记目标词；所述更新模块，还用于：将针对每个所述第一待预测位置获取的第一置信度进行融合处理，得到对应所述第一翻译模型的第一损失。
19.在上述方案中，多个所述第二待预测位置具有一一对应的多个第二预标记目标词；所述更新模块，还用于：将低于所述置信度阈值的第一置信度、以及在每个所述第二待预测位置对应的第二预标记目标词的第二置信度进行融合处理，得到对应所述第二翻译模型的第二损失。
20.在上述方案中，所述第一翻译模型包括第一编码网络以及前序解码网络；所述第一任务模块，还用于：确定所述语料样本的每个原始词以及对应每个所述原始词的原始词向量，将对应每个所述原始词的原始词向量进行组合处理，得到所述语料样本的原始词向量序列；通过所述第一编码网络对所述语料样本的原始词向量序列进行语义编码处理，得到对应所述语料样本的第一源语句表示；通过所述前序解码网络对所述第一源语句表示进行语料解码处理，得到在每个所述第一待预测位置对应的第一预标记目标词的第一置信度；其中，所述第一置信度是基于对应每个所述第一待预测位置的前序词生成的。
21.在上述方案中，所述编码网络包括n个级联的子编码网络，n为大于或者等于2的整数；所述第一任务模块，还用于：通过所述第一编码网络包括的n个级联的第一子编码网络，对所述语料样本的原始词向量序列进行以下方式的语义编码处理：对所述第一子编码网络的输入进行自注意力处理，得到对应所述第一子编码网络的自注意力处理结果，对所述自注意力处理结果进行隐状态映射处理，得到对应所述第一子编码网络的隐状态向量序列，将所述隐状态向量序列作为所述第一子编码网络的语义编码处理结果；其中，在n个级联的第一子编码网络中，首个所述第一子编码网络的输入包括所述语料样本的原始词向量序列，第n个所述第一子编码网络的语义编码处理结果包括对应所述语料样本的第一源语句表示。
22.在上述方案中，所述第一任务模块，还用于：针对所述语料样本的每个所述原始词执行以下处理：对所述第一子编码网络的输入中与所述原始词对应的第一中间向量进行线性变换处理，得到对应所述原始词的查询向量、键向量以及值向量；将所述原始词的查询向量与每个所述原始词的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到所述原始词的值向量的权重；基于所述原始词的值向量的权重对所述原始词的值向量进行加权处理，得到所述子编码网络对应每个所述原始词的自注意力处理结
果。
23.在上述方案中，所述第一任务模块，还用于：针对所述前序解码网络输出的每个第一待预测位置执行以下处理：从语料样本集合中获取与所述语料样本对应的第一预标记目标词序列；从所述第一预标记目标词序列中提取位于所述第一待预测位置之前的第一预标记目标词，将提取的所述第一预标记目标词作为与所述第一待预测位置对应的前序词；通过所述前序解码网络对与所述第一待预测位置对应的前序词以及所述第一源语句表示进行语义解码处理，得到在所述第一待预测位置被解码为对应的第一预标记目标词的第一置信度。
24.在上述方案中，所述前序解码网络包括m个级联的子前序解码网络，m为大于或者等于2的整数；所述第一任务模块，还用于：通过每个所述子前序解码网络进行以下方式的语义解码处理：对所述子前序解码网络的输入进行掩码自注意力处理，得到对应所述子前序解码网络的掩码自注意力处理结果，对所述掩码自注意力处理结果进行交叉注意力处理，得到对应所述子前序解码网络的交叉注意力处理结果，对所述交叉注意力处理结果进行隐状态映射处理；其中，在m个级联的子前序解码网络中，首个所述子前序解码网络的输入包括：与所述第一待预测位置对应的前序词以及所述第一源语句表示；第m个所述子前序解码网络的隐状态映射处理结果包括：在所述第一待预测位置被解码为对应的第一预标记目标词的第一置信度。
25.在上述方案中，所述第一任务模块，还用于：对所述掩码自注意力处理结果进行线性变换处理，得到所述掩码自注意力处理结果的查询向量；针对每个所述原始词执行以下处理：对所述原始词的第一源语句表示进行线性变换处理，得到所述第一源语句表示的键向量以及值向量；将所述掩码自注意力处理结果的查询向量与所述第一源语句表示的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到所述第一源语句表示的值向量的权重；基于所述第一源语句表示的值向量的权重对所述第一源语句表示的值向量进行加权处理，得到对应所述子前序解码网络的交叉注意力处理结果。
26.在上述方案中，所述第二翻译模型包括第二编码网络以及上下文解码网络；所述第二任务模块，还用于：获取所述语料样本的每个原始词以及对应每个所述原始词的原始词向量，将对应每个所述原始词的原始词向量进行组合处理，得到所述语料样本的原始词向量序列；通过所述第二编码网络对所述语料样本的原始词向量序列进行语义编码处理，得到对应所述语料样本的第二源语句表示；通过所述上下文解码网络对所述第二源语句表示进行语料解码处理，得到在每个所述第二待预测位置对应的第二预标记目标词的第二置信度；其中，所述第二置信度是基于与多个所述第二待预测位置均对应的上下文词生成的。
27.在上述方案中，所述第二任务模块，还用于：针对所述上下文解码网络输出的每个第二待预测位置执行以下处理：通过所述上下文解码网络对所述上下文词、以及所述第二源语句表示进行语义解码处理，得到在所述第二待预测位置被解码为对应的第二预标记目标词的第二置信度。
28.在上述方案中，所述上下文解码网络包括p个级联的子上下文解码网络，p为大于或者等于2的整数；所述第二任务模块，还用于：通过所述p个级联的子上下文解码网络，对与所述第二待预测位置对应的上下文词集合以及所述源语句表示进行以下方式的语义解码处理：对所述子上下文解码网络的输入进行上下文自注意力处理，得到对应所述子上下
文解码网络的上下文自注意力处理结果；对所述上下文自注意力处理结果进行交叉注意力处理，得到对应所述子上下文解码网络的交叉注意力处理结果；将所述交叉注意力处理结果进行隐状态映射处理；其中，在p个级联的子上下文解码网络中，首个所述子上下文解码网络的输入包括：与所述第二待预测位置对应的上下文词集合以及所述第二源语句表示：第p个所述子上下文解码网络的隐状态映射处理结果包括：在所述第二待预测位置被解码为对应的第二预标记目标词的第二置信度。
29.本技术实施例提供一种语料翻译方法，包括：
30.响应于针对目标语料的翻译请求，调用第一翻译模型或者第二翻译模型对所述目标语料进行翻译处理，得到针对所述目标语料的翻译结果；
31.其中，所述第一翻译模型和所述第二翻译模型是根据本技术实施例提供的翻译模型的训练方法进行训练得到的。
32.本技术实施例提供一种语料翻译装置，包括：
33.应用模块，用于响应于针对目标语料的翻译请求，调用第一翻译模型或者第二翻译模型对所述目标语料进行翻译处理，得到针对所述目标语料的翻译结果；其中，所述第一翻译模型和所述第二翻译模型是根据本技术实施例提供的翻译模型的训练方法进行训练得到的。
34.本技术实施例提供一种电子设备，包括：
35.存储器，用于存储可执行指令；
36.处理器，用于执行所述存储器中存储的可执行指令时，实现本技术实施例提供的翻译模型的训练方法或者语料翻译方法。
37.本技术实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本技术实施例提供的翻译模型的训练方法或者语料翻译方法。
38.本技术实施例具有以下有益效果：
39.利用一个神经网络模型的翻译任务的特性以及置信度，来有针对性性地辅助训练另一个神经网络模型，由于第二翻译模型利用上下文词集合进行翻译，因此通过上下文词集合有效引入双向全局上下文信息，并且通过置信度阈值，使得第二翻译模型在目标端对于置信度较低的位置为第一翻译模型有针对性地引入基于上下文词的双向全局上下文信息，从而能够使经过联合训练的第一翻译模型在翻译时不仅利用每个待预测位置对应前序词的局部上下文信息，还能够有针对性地利用全局上下文信息，进而有效提高通过第一翻译模型进行翻译的准确度。
附图说明
40.图1是本技术实施例提供的语料翻译系统的结构示意图；
41.图2是本技术实施例提供的服务器200的结构示意图；
42.图3a
‑
3d是本技术实施例提供的翻译模型的训练方法的流程示意图；
43.图4是本技术实施例提供的翻译模型的训练方法的联合训练模型的结构示意图；
44.图5是本技术实施例提供的第一翻译模型的结构示意图；
45.图6是本技术实施例提供的子编码网络的结构示意图；
46.图7是本技术实施例提供的子前序解码网络的结构示意图；
47.图8是本技术实施例提供的子上下文解码网络的结构示意图；
48.图9是本技术实施例提供的置信度分布图。
具体实施方式
49.为了使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术作进一步地详细描述，所描述的实施例不应视为对本技术的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
50.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
51.在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
52.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
53.对本技术实施例进行进一步详细说明之前，对本技术实施例中涉及的名词和术语进行说明，本技术实施例中涉及的名词和术语适用于如下的解释。
54.1)神经机器翻译：神经网络机器翻译(neural machine translation，nmt)是最近几年提出来的一种机器翻译方法，相比于传统的统计机器翻译而言，nmt能够训练一张能够从一个序列映射到另一个序列的神经网络，输出的可以是一个变长的序列，这在翻译、对话和文字概括方面能够获得非常好的表现。
55.2)词嵌入向量：是自然语言处理技术的重要概念，可以利用词嵌入向量将一个单词转换成固定长度的向量表示，从而便于进行数学处理。
56.相关技术中仅仅依赖前序单词的局部历史上下文以从左至右的方式进行预测，对于如何更有效地利用双向全局上下文信息依然存在不足，相关技术中在翻译模型的目标端引入用于反向解码的反向解码器，反向解码器首先生成从右至左的隐状态向量序列，之后正向解码器利用从右至左的隐状态向量序列进行从左至右的解码处理，从而使得正向解码过程充分考虑到目标端的后续信息，以提高翻译质量，由于相关技术中仅在目标端每个解码时刻通过反向解码器为正向解码器引入额外的反向全局上下文信息，因此这些反向全局上下文信息与前序词的局部上下文信息实际上是互相独立的，翻译模型并不能够有效将反向全局上下文信息与前序词的局部上下文信息进行综合考虑，从而无法有效提高翻译质量，并且相关技术中没有考虑第一翻译模型本身对于第一预标记目标词进行预测的置信度，从而在联合训练过程中不必要引入双向全局上下文信息的解码时刻引入了额外的双向全局上下文信息。
57.本技术实施例提供一种翻译模型的训练方法、装置、电子设备和计算机可读存储介质，能够通过基于置信度的知识蒸馏，为神经机器翻译模型在目标端对于目标答案预测置信度较低的位置有针对性地引入双向全局上下文信息(基于上下文词)，从而使翻译模型
能够在进行每个位置的预测时不仅仅利用对应前序词的局部上下文信息，还能够利用对应上下文词的全局上下文信息，从而提高翻译性能，下面说明本技术实施例提供的电子设备的示例性应用，本技术实施例提供的电子设备可以实施为服务器。下面，将说明电子设备实施为服务器时示例性应用。
58.参见图1，图1是本技术实施例提供的语料翻译系统的结构示意图，语料翻译系统可以用于社交场景，在语料翻译系统中，终端400通过网络300连接服务器200，网络可以是广域网或者局域网，又或者是二者的组合。
59.在一些实施例中，语料翻译系统的功能是基于服务器200中的各个模块实现的，在用户使用终端400的过程中，终端400收集语料样本发送至服务器200，服务器200对翻译模型(第一翻译模型或者第二翻译模型)进行基于多个任务以及置信度的联合训练，将训练完成的第一翻译模型或者第二翻译模型集成在服务器200中，响应于终端400接收到针对社交客户端中的语料信号的翻译操作，终端400将语料信号发送至服务器200，服务器200通过翻译模型确定出语料信号的语料翻译结果，并发送至终端400，以使终端400直接呈现语料翻译结果。
60.在一些实施例中，当语料翻译系统应用于社交场景时，终端400接收到其他终端发送的语料信号，响应于终端400接收到针对语料信号的翻译操作，终端400将语料信号发送至服务器200，服务器200通过翻译模型确定出语料信号的语料翻译结果，并发送至终端400，以使终端400直接呈现语料翻译结果，例如，终端400接收到其他终端发送的语料信号“where are you”，终端400将语料信号发送至服务器200，服务器200通过翻译模型确定出语料信号的语料翻译结果“你在哪里”，并发送至终端400，以使终端400直接呈现语料翻译结果“你在哪里”。
61.在一些实施例中，当语料翻译系统应用于网页浏览场景时，终端400呈现英文网页，响应于终端400接收到针对英文网页中语料信号的翻译操作，终端400将语料信号发送至服务器200，服务器200通过翻译模型确定出语料信号的语料翻译结果，并发送至终端400，以使终端400直接呈现语料翻译结果。
62.在另一些实施例中，服务器200完成翻译模型的训练过程后，将翻译模型发送至终端400，以使终端400运行有经过联合训练的翻译模型，以确定语料信号的语料翻译结果，并呈现语料翻译结果。
63.在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术实施例中不做限制。
64.接下来，说明本技术实施例提供的用于实施翻译模型的训练方法的电子设备的结构，如前，本技术实施例提供的电子设备可以是图1中的服务器200。参见图2，图2是本技术实施例提供的服务器200的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，
还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。
65.处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(dsp，digital signal processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。
66.存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
67.存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom，read only me mory)，易失性存储器可以是随机存取存储器(ram，random access memor y)。本技术实施例描述的存储器250旨在包括任意适合类型的存储器。
68.在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。
69.操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(wifi)、和通用串行总线(usb，universal serial bus)等。
70.在一些实施例中，本技术实施例提供的翻译模型的训练装置可以采用软件方式实现，图2示出了存储在存储器250中的翻译模型的训练装置255，其可以是程序和插件等形式的软件，包括以下软件模块：第一任务模块2551、选择模块2552、第二任务模块2553以及更新模块2554，图2示出了存储在存储器250中的翻译模型的语料翻译装置256，其可以是程序和插件等形式的软件，包括以下软件模块：应用模块2555，应用模块2555还可以安装在终端400中，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。
71.将结合本技术实施例提供的服务器200的示例性应用和实施，说明本技术实施例提供的翻译模型的训练方法。
72.参见图4，图4是本技术实施例提供的语料翻译方法的联合训练模型的结构示意图，首先利用第一翻译模型在给定每个第一待预测位置对应的完全正确前序词的基础上进行预测，得到每个第一预标记目标词在对应第一待预测位置的第一概率分布第一翻译模型的编码网络的输入是原始词向量x，第一翻译模型的前序解码网络的输入是对应各个第一预标记目标词的前序词序列，例如，针对第一预标记目标词y6，前序词序列为bos符号以及第一预标记目标词y1‑
y5，给定一个置信度阈值，将第一预标记目标词中对应第一概率(第一置信度)小于该置信度阈值的第一待预测位置作为后续被输入到第二翻译模型中被遮挡住的子集y
m
，例如，第一预标记目标词y2、y3和y5，被遮挡住的子集y
m
作为第二翻译模型的输入时，以不可见的掩码m的形式出现，其余的第一预标记目标词y1、y4和y6则作为将输入到第二翻译模型的部分可见序列y
o
，通过第一翻译模型确定了第
二翻译模型的部分可见序列y
o
，在给定源语句x和部分可见序列y
o
的情况下，第二翻译模型的编码网络的输入是原始词向量x，经过预训练的第二翻译模型对被遮挡的目标词子集y
m
中每个词y
t
进行预测，得到相应的预测概率分布作为第二置信度(例如，q2、q3和q5)，接下来，针对第二翻译模型的目标端的第二待预测位置，其中，第二待预测位置是第一置信度低于置信度阈值的第一待预测位置，采用知识蒸馏的方式为第一翻译模型有针对性的引入双向全局上下文信息(基于上下文词)，对于其他不属于y
m
的第一预标记目标词，仍然采用第一翻译模型的第一损失函数进行训练。
73.参见图5，图5是本技术实施例提供的第一翻译模型的结构示意图，第一翻译模型包括编码网络以及前序解码网络，编码网络包括多个子编码网络(encoder)，前序解码网络也包括相同数量(与编码器对应)的子前序解码网络(decoder)，编码网络的输入是语料样本的原始词向量，编码网络输出语料样本的源语句表示，前序解码网络的输入是语料样本的源语句表示以及前序词，其中，每个子前序解码网络的输入均是语料样本的源语句表示以及前序词，前序解码网络的输出是语料样本的第一预标记目标词，例如，语料样本是“你在哪里”，第一预标记目标词是“where are you”。
74.参见图6，图6是本技术实施例提供的第一子编码网络的结构示意图，第一子编码网络包括自注意力处理层以及前馈处理层，其中，通过自注意力处理层对该层的输入(例如，x1、x2以及x3)进行自注意力处理，得到对应的自注意力处理结果(例如，z1、z2以及z3)，通过前馈处理层对自注意力处理结果进行隐状态映射处理，得到对应的隐状态向量序列。
75.参见图7，图7是本技术实施例提供的子前序解码网络的结构示意图，子前序解码网络包括掩码自注意力处理层、交叉注意力处理层以及前馈处理层，通过掩码自注意力处理层对该层的输入进行掩码自注意力处理，得到对应的掩码自注意力处理结果，通过交叉注意力处理层对掩码自注意力处理结果进行交叉注意力处理，得到对应的交叉注意力处理结果，通过前馈处理层将交叉注意力处理结果进行隐状态映射处理，前序解码网络的输入是每个第一待预测位置的至少一个前序词，通过并行处理的方式同时输出不同第一待预测位置的第一预标记目标词。
76.参见图8，图8是本技术实施例提供的子上下文解码网络的结构示意图，子上下文解码网络包括上下文自注意力处理层、交叉注意力处理层以及前馈处理层，图8所示的上下文解码网络的结构与前序解码网路的结构类似，区别在于子上下文解码网络包括的上下文自注意力处理层不同于图7中的掩码自注意力处理层，上下文解码网络的输入为随机的上下文词集合，同时输出第二待预测位置的第二预标记目标词。
77.参见图3a，图3a是本技术实施例提供的翻译模型的训练方法的流程示意图，将结合图3a示出的步骤101
‑
104进行说明。
78.在步骤101中，将语料样本在第一翻译模型中进行正向传播，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度。
79.作为示例，将语料样本在第一翻译模型中进行正向传播时，需要先后经过编码网络以及前序解码网络的处理，其中，通过前序解码网络进行解码时，需要以并行的方式对各个第一待预测位置进行第一预标记目标词的置信度预测。
80.在一些实施例中，将语料样本在第一翻译模型中进行正向传播之前，可以将语料样本单独在第一翻译模型中进行正向传播，得到语料样本的第一正向传播结果；将语料样
本的第一正向传播结果在第一翻译模型中进行反向传播，以更新第一翻译模型的参数，并将更新后的第一翻译模型作为处理步骤101中语料样本的第一翻译模型；将语料样本在第二翻译模型中进行正向传播之前，将语料样本在第二翻译模型中进行正向传播，得到语料样本的第二正向传播结果；将语料样本的第二正向传播结果在第二翻译模型中进行反向传播，以更新第二翻译模型的参数，并将更新后的第二翻译模型作为处理步骤101中语料样本的第二翻译模型。
81.参见图3b，图3b是本技术实施例提供的翻译模型的训练方法的流程示意图，第一翻译模型包括第一编码网络以及前序解码网络；步骤101中将语料样本在第一翻译模型中进行正向传播，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度，可以通过图3b示出的步骤1011
‑
1013实现。
82.在步骤1011中，确定语料样本的每个原始词以及对应每个原始词的原始词向量，将对应每个原始词的原始词向量进行组合处理，得到语料样本的原始词向量序列。
83.作为示例，在自然语言处理任务中，需要考虑词如何在计算机中表示，通常有两种表示方式，例如独热编码和分布编码，通过独热编码和分布编码得到每个原始词的原始词向量，例如，针对源语句“你在哪里”，存在四个原始词“你”、“在”、“哪”以及“里”，以及四个原始词向量。
84.在步骤1012中，通过第一编码网络对语料样本的原始词向量序列进行语义编码处理，得到对应语料样本的第一源语句表示。
85.在一些实施例中，第一编码网络包括n个级联的第一子编码网络，n为大于或者等于2的整数，上述通过第一编码网络对语料样本的原始词向量序列进行语义编码处理，得到对应语料样本的第一源语句表示，可以通过以下技术方案实现：通过第一编码网络包括的n个级联的第一子编码网络，对语料样本的原始词向量序列进行以下方式的语义编码处理：对第一子编码网络的输入进行自注意力处理，得到对应第一子编码网络的自注意力处理结果，对自注意力处理结果进行隐状态映射处理，得到对应第一子编码网络的隐状态向量序列，将隐状态向量序列作为第一子编码网络的语义编码处理结果；其中，在n个级联的第一子编码网络中，首个第一子编码网络的输入包括语料样本的原始词向量序列，第n个第一子编码网络的语义编码处理结果包括对应语料样本的第一源语句表示，作为替换的实现方式，可以仅存在一个第一子编码网络对原始词向量序列进行语义编码处理。
86.作为示例，通过n个级联的第一子编码网络中的第n个第一子编码网络，对第n个第一子编码网络的输入进行语义编码处理，并将第n个第一子编码网络输出的第n语义编码处理结果传输到第n 1个第一子编码网络以继续进行语义编码处理，得到第n 1语义编码处理结果；其中，n为取值从1开始递增的整数变量，n的取值范围为1≤n<n，当n取值为1时，第n个第一子编码网络的输入为语料样本的原始词向量序列，当n取值为2≤n<n时，第n个第一子编码网络的输入为第n
‑
1个第一子编码网络输出的第n
‑
1语义编码处理结果，当n取值为n
‑
1时，第n 1个第一子编码网络的输出为语料样本的源语句表示。
87.作为示例，每个所述第一子编码网络包括自注意力处理层以及前馈处理层；所述通过n个级联的第一子编码网络中的第n个第一子编码网络，对第n个第一子编码网络的输入进行语义编码处理，可以通过以下技术方案实现：通过n个级联的第一子编码网络中的第n个第一子编码网络的自注意力处理层，对所述第n个第一子编码网络的输入进行自注意力
处理，得到对应所述第n个第一子编码网络的自注意力处理结果；将对应所述第n个第一子编码网络的自注意力处理结果传输到第n个第一子编码网络的前馈处理层以进行隐状态映射处理，得到对应所述第n个第一子编码网络的隐状态向量序列，作为所述第n个第一子编码网络输出的第n语义编码处理结果。参见图6，第一子编码网络包括自注意力处理层以及前馈处理层，其中，通过自注意力处理层对该层的输入(例如，x1、x2以及x3)进行自注意力处理，得到对应的自注意力处理结果(例如，z1、z2以及z3)，通过前馈处理层对自注意力处理结果进行隐状态映射处理，得到对应的隐状态向量序列。
88.在一些实施例中，上述对第一子编码网络的输入进行自注意力处理，得到对应第一子编码网络的自注意力处理结果，可以通过以下技术方案实现：针对语料样本的每个原始词执行以下处理：对第一子编码网络的输入中与原始词对应的第一中间向量进行线性变换处理，得到对应原始词的查询向量、键向量以及值向量；将原始词的查询向量与每个原始词的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到原始词的值向量的权重；基于原始词的值向量的权重对原始词的值向量进行加权处理，得到子编码网络对应每个原始词的自注意力处理结果。
89.作为示例，当第一子编码网络是多个第一子编码网络中的首个第一子编码网络时，第一中间向量是各个原始词向量，当第一子编码网络不是多个第一子编码网络中的首个第一子编码网络时，第一中间向量是上一个第一子编码网络输出的隐状态向量，第一中间向量与原始词一一对应，线性变换处理实际上是将第一中间向量分别与三个参数矩阵相乘，得到对应第一中间向量的查询向量q、键向量k以及值向量v，这里将查询向量与每个原始词的键向量进行点乘处理，包括与自己的键向量进行点乘处理以及与其他原始词的键向量进行点乘处理，点乘处理结果用于表征相关度，从而所得到的相关度包括自相关度，还包括与其他原始词的相关度，对相关度进行基于最大似然函数的归一化处理之前还可以将其除以键向量长度的平方根，基于最大似然函数的归一化处理即是将相关度或者除以键向量长度的平方根后得到的结果代入softmax函数，从而得到每个原始词对某一个原始词的贡献权重，通过得到的每个原始词对某一个原始词的贡献权重，对某一个原始词的值向量进行加权处理，从而得到某一个原始词对应的上下文关联性，有利于后续翻译模型的翻译准确度，上述三个参数矩阵均是需要通过训练得到的。
90.在步骤1013中，通过前序解码网络对第一源语句表示进行语料解码处理，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度。
91.作为示例，第一置信度是基于对应每个第一待预测位置的前序词生成的，且第一置信度的生成过程是并行过程，以第5个第一待预测位置为例，基于开始符号b、第1个第一待预测位置
‑
第4个第一待预测位置分别对应的第一预标记目标词，预测第5个第一待预测位置被翻译为对应的第一预标记目标词的第一置信度，例如，第一概率或者概率的分布的熵，例如，“你在哪里”应该被翻译为“where are you”，则存在三个第一待预测位置，对于第二个第一待预测位置而言，其应该被翻译为对应的第一预标记目标词“are”，那么基于前序词“b”以及“where”获取第2个第一待预测位置被预测为对应的第一预标记目标词“are”的第一概率，若是第一翻译模型表现良好，则第一概率应该超过概率阈值，表征第一翻译模型具有较大可能性翻译正确。
92.在一些实施例中，上述通过前序解码网络对第一源语句表示进行语料解码处理，
得到在每个第一待预测位置对应的第一预标记目标词的第一置信度，可以通过以下技术方案实现：针对前序解码网络输出的每个第一待预测位置执行以下处理：从语料样本集合中获取与语料样本对应的第一预标记目标词序列；从第一预标记目标词序列中提取位于第一待预测位置之前的第一预标记目标词，将提取的第一预标记目标词作为与第一待预测位置对应的前序词；通过前序解码网络对与第一待预测位置对应的前序词以及第一源语句表示进行语义解码处理，得到在第一待预测位置被解码为对应的第一预标记目标词的第一置信度。
93.作为示例，语料样本为“你在哪里”，获取对应的第一预标记目标词序列，第一预标记目标词序列“where are you”，针对任意一个第一待预测位置，从第一预标记目标词序列中提取位于第一待预测位置之前的第一预标记目标词，“你在哪里”应该被翻译为“b where are you e”，其中，b为开始符号，e为结束符号，存在三个第一待预测位置，对于第2个第一待预测位置而言，位于第2个第一待预测位置之前的第一预标记目标词是“b”和“where”，将提取的第一预标记目标词作为与第2个第一待预测位置对应的前序词；以与第2个第一待预测位置对应的前序词、以及第一源语句表示为前序解码网络的输入进行语义解码处理，得到在第2个第一待预测位置被解码为对应的第一预标记目标词“are”的第一置信度。
94.作为示例，通过n个级联的第一子编码网络中的第n个第一子编码网络的自注意力层，对第n个第一子编码网络的输入进行自注意力处理之前，当n取值为2≤n<n时，将第n
‑
1语义编码处理结果的正则化处理结果与第n
‑
1子编码网络的输入进行拼接处理；将拼接处理结果作为第n子编码网络的自注意力层的输入，以替代将第n
‑
1语义编码处理结果作为第n子编码网络的输入。将对应第n个第一子编码网络的自注意力处理结果传输到第n个第一子编码网络的第一前馈处理层以进行隐状态映射处理之前，将对应第n个第一子编码网络的自注意力处理结果的正则化处理结果与第n个第一子编码网络的输入进行拼接处理；将拼接处理结果作为第n个第一子编码网络的前馈处理层的输入，以替代将对应第n个第一子编码网络的自注意力处理结果作为第n个第一子编码网络的输入。
95.在一些实施例中，前序解码网络包括m个级联的子前序解码网络，m为大于或者等于2的整数；上述通过前序解码网络对与第一待预测位置对应的前序词以及第一源语句表示进行语义解码处理，可以通过以下技术方案实现：通过每个子前序解码网络进行以下方式的语义解码处理：对子前序解码网络的输入进行掩码自注意力处理，得到对应子前序解码网络的掩码自注意力处理结果，对掩码自注意力处理结果进行交叉注意力处理，得到对应子前序解码网络的交叉注意力处理结果，对交叉注意力处理结果进行隐状态映射处理；其中，在m个级联的子前序解码网络中，首个子前序解码网络的输入包括：与第一待预测位置对应的前序词以及第一源语句表示；第m个子前序解码网络的隐状态映射处理结果包括：在第一待预测位置被解码为对应的第一预标记目标词的第一置信度。
96.作为示例，前序解码网络包括m个级联的子前序解码网络组成，m为大于或者等于2的整数；通过m个级联的子前序解码网络中的第m子前序解码网络，对第m子前序解码网络的输入进行语义解码处理，并将第m子前序解码网络输出的第m语义解码处理结果传输到第m 1子前序解码网络以继续进行语义解码处理，得到第m 1语义解码处理结果；其中，m为取值从1开始递增的整数变量，m的取值范围为1≤m<m，当m取值为1时，第m子前序解码网络的输入为编码网络的源语句表示以及前序词序列，当m取值为2≤m<m时，第m子前序解码网络的
输入为第m
‑
1子前序解码网络输出的第m
‑
1语义解码处理结果，当m取值为m
‑
1时，第m 1子前序解码网络的输出为第一置信度，作为替换的实现方式，可以仅存在一个子前序解码网络进行语义解码处理。
97.作为示例，针对语料样本的每个原始词的第二中间向量执行以下处理，其中，当子前序解码网络是首个解码网络时，第二中间向量是每个作为前序词的第一预标记目标词的词向量，当子前序解码网络不是首个解码网络时，第二中间向量是上一个子前序解码网络的输出，第二中间向量与每个作为前序词的第一预标记目标词一一对应，对每个前序词的第二中间向量进行线性变换处理，得到每个原始词的键向量以及值向量；对前序词中排在最后的前序词的第二中间向量进行线性变换处理，得到最后的前序词的查询向量，将查询向量与每个前序词的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到每个前序词的值向量的权重；基于每个前序词的值向量的权重对前序词的值向量进行加权处理，得到子前序解码网络对应最后的前序词的掩码注意力处理结果。
98.在一些实施例中，上述对掩码自注意力处理结果进行交叉注意力处理，得到对应子前序解码网络的交叉注意力处理结果，可以通过以下技术方案实现：对掩码自注意力处理结果进行线性变换处理，得到掩码自注意力处理结果的查询向量；针对每个原始词执行以下处理：对原始词的第一源语句表示进行线性变换处理，得到第一源语句表示的键向量以及值向量；将掩码自注意力处理结果的查询向量与第一源语句表示的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到第一源语句表示的值向量的权重；基于第一源语句表示的值向量的权重对第一源语句表示的值向量进行加权处理，得到对应子前序解码网络的交叉注意力处理结果。
99.作为示例，掩码自注意力处理结果是针对最后一个前序词的向量，例如，在针对第2个第一待预测位置进行解码预测时，以“where”对应的掩码注意力处理结果为基础进行线性变换处理，得到掩码自注意力处理结果的查询向量；针对每个原始词执行以下处理，即将第一源语句表示输入至解码网络中，对原始词的第一源语句表示进行线性变换处理，得到第一源语句表示的键向量以及值向量，第一源语句表示是分别针对“你在哪里”中每个原始词的向量，将掩码自注意力处理结果的查询向量与第一源语句表示中对应每个原始词的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到第一源语句表示中对应每个原始词的值向量的权重；基于第一源语句表示的值向量的权重对第一源语句表示的值向量进行加权处理，得到对应子前序解码网络的交叉注意力处理结果，再将交叉注意力处理结果进行前馈处理，将得到的隐状态向量继续与其他前序词进行上述自注意力处理，其他前序词是除了最后一个前序词之外的前序词，例如，开始符号“b”。
100.在步骤102中，将第一置信度低于置信度阈值的第一待预测位置，确定为第二翻译模型的第二待预测位置，并将第一置信度不低于置信度阈值的第一待预测位置对应的第一预标记目标词，确定为对应第二翻译模型的上下文词。
101.作为示例，对目标词序列“b where are you e”中的三个第一待预测位置而言，针对第1个第一待预测位置而言，前序解码网络输出对应第一预标记目标词“where”的第一置信度为0.4，针对第2个第一待预测位置而言，前序解码网络输出对应第一预标记目标词“are”的第一置信度为0.8，针对第3个第一待预测位置而言，前序解码网络输出对应第一预标记目标词“you”的第一置信度为0.3，若置信度阈值为0.6，则将第1个第一待预测位置以
及第3个第一待预测位置确定为第二翻译模型的第二待预测位置，将对应第2个第一待预测位置的第一预标记目标词“are”为对应第二翻译模型的上下文词，相当于将第2个第一待预测位置的第一预标记目标词“are”作为第二翻译模型的第2个第二待预测位置的可见的第二预标记目标词“are”，即第二翻译模型的任务是以第2个第二待预测位置的可见的第二预标记目标词“are”为已知条件，预测第1个第二待预测位置以及第1个第二待预测位置的翻译结果。
102.在步骤103中，将上下文词以及语料样本在第二翻译模型中进行正向传播，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度。
103.作为示例，将语料样本以及上下文词在第二翻译模型中进行正向传播时，需要先后经过编码网络以及前序解码网络的处理，其中，通过上下文解码网络进行解码时，同时对各个第二待预测位置进行第二预标记目标词的置信度预测。
104.参见图3c，图3c是本技术实施例提供的翻译模型的训练方法的流程示意图，第二翻译模型包括第二编码网络以及上下文解码网络；步骤103中将上下文词以及语料样本在第二翻译模型中进行正向传播，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度，可以通过图3c示出的步骤1031
‑
1033实现。
105.在步骤1031中，获取语料样本的每个原始词以及对应每个原始词的原始词向量，将对应每个原始词的原始词向量进行组合处理，得到语料样本的原始词向量序列。
106.作为示例，在自然语言处理任务中，需要考虑词如何在计算机中表示，通常有两种表示方式，例如独热编码和分布编码，通过独热编码和分布编码得到每个原始词的原始词向量，例如，针对源语句“你在哪里”，存在四个原始词“你”、“在”、“哪”以及“里”，以及四个原始词向量。
107.在步骤1032中，通过第二编码网络对语料样本的原始词向量序列进行语义编码处理，得到对应语料样本的第二源语句表示。
108.作为示例，步骤1032中的编码过程可以参考步骤1012中的具体实施方式，其中，第二编码网络与第一编码网络可以具有相同的参数或者不同的参数。
109.在步骤1033中，通过上下文解码网络对第二源语句表示进行语料解码处理，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度。
110.作为示例，第二置信度是基于与多个第二待预测位置均对应的上下文词生成的，在生成每个第二待预测位置对应的第二预标记目标词的第二置信度时，均是基于相同的上下文词生成的，即均是通过基于第一翻译模型得到的上下文词生成的。
111.在一些实施例中，步骤1033中通过上下文解码网络对第二源语句表示进行语料解码处理，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度，可以通过以下技术方案实现：针对上下文解码网络输出的每个第二待预测位置执行以下处理：通过上下文解码网络对上下文词、以及第二源语句表示进行语义解码处理，得到在第二待预测位置被解码为对应的第二预标记目标词的第二置信度。
112.在一些实施例中，上下文解码网络包括p个级联的子上下文解码网络，p为大于或者等于2的整数；上述通过上下文解码网络对上下文词、以及第二源语句表示进行语义解码处理，可以通过以下技术方案实现：通过p个级联的子上下文解码网络，对与第二待预测位置对应的上下文词集合以及源语句表示进行以下方式的语义解码处理：对子上下文解码网
络的输入进行上下文自注意力处理，得到对应子上下文解码网络的上下文自注意力处理结果；对上下文自注意力处理结果进行交叉注意力处理，得到对应子上下文解码网络的交叉注意力处理结果；将交叉注意力处理结果进行隐状态映射处理；其中，在p个级联的子上下文解码网络中，首个子上下文解码网络的输入包括：与第二待预测位置对应的上下文词集合以及第二源语句表示：第p个子上下文解码网络的隐状态映射处理结果包括：在第二待预测位置被解码为对应的第二预标记目标词的第二置信度，作为替换的实现方式，可以仅存在一个子上下文解码网络对进行语义解码处理。
113.作为示例，通过p个级联的子上下文解码网络中的第p子上下文解码网络，对第p子上下文解码网络的输入进行语义解码处理，并将第p子上下文解码网络输出的第p语义解码处理结果传输到第p 1子上下文解码网络以继续进行语义解码处理，得到第p 1语义解码处理结果；其中，p为取值从1开始递增的整数变量，p的取值范围为1≤p<p，当p取值为1时，第p子上下文解码网络的输入为第二编码网络的第二源语句表示以及上下文词，当p取值为2≤p<p时，第p子上下文解码网络的输入为第p
‑
1子上下文解码网络输出的第p
‑
1语义解码处理结果，当p取值为p
‑
1时，第p 1子上下文解码网络的输出为第二置信度。
114.作为示例，通过p个级联的子上下文解码网络中的第p子上下文解码网络，对第p子上下文解码网络的输入进行语义解码处理时，通过p个级联的子上下文解码网络中的第p子上下文解码网络的上下文自注意力层，对第p子上下文解码网络的输入进行上下文自注意力处理，得到对应第p子上下文解码网络的上下文自注意力处理结果；将对应第p子上下文解码网络的上下文自注意力处理结果传输到第p子上下文解码网络的交叉注意力层以进行交叉注意力处理，得到对应第p子上下文解码网络的交叉注意力处理结果；将对应第p子上下文解码网络的交叉注意力处理结果传输到第p子上下文解码网络的前馈处理层以进行隐状态映射处理，得到对应第p子上下文解码网络的隐状态序列，作为第p子上下文解码网络输出的第p语义解码处理结果。
115.作为示例，针对每个上下文词执行以下处理，当子前序解码网络是首个解码网络时，第三中间向量是每个作为前序词的第二预标记目标词的词向量，当子上下文解码网络不是首个解码网络时，第三中间向量是上一个子上下文解码网络的输出，第三中间向量与每个作为上下文词的第二预标记目标词一一对应，对每个上下文词对应的第三中间向量进行线性变换处理，得到上下文词的键向量以及值向量，对第二待预测位置的符号(由于是未知的，因此用特殊符号标记)的第三中间向量进行线性变换处理，得到符号的查询向量，将查询向量与每个上下文词的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到每个上下文词的值向量的权重；基于每个上下文词的值向量的权重对上下文词的值向量进行加权处理，得到子上下文解码网络对应最后的上下文词的掩码注意力处理结果。
116.作为示例，对上下文自注意力处理结果进行交叉注意力处理，得到对应子上下文解码网络的交叉注意力处理结果的过程与前序解码网络中的处理方式类似。
117.在步骤104中，基于在每个第一待预测位置对应的第一预标记目标词的第一置信度、以及在每个第二待预测位置对应的第二预标记目标词的第二置信度，更新第一翻译模型以及第二翻译模型的参数。
118.参见图3d，图3d是本技术实施例提供的翻译模型的训练方法的流程示意图，步骤
104中基于在每个第一待预测位置对应的第一预标记目标词的第一置信度、以及在每个第二待预测位置对应的第二预标记目标词的第二置信度，更新第一翻译模型以及第二翻译模型的参数，可以通过图3d示出的步骤1041
‑
1044实现。
119.在步骤1041中，基于第一置信度，确定对应第一翻译模型的第一损失。
120.在一些实施例中，多个第一待预测位置具有一一对应的多个第一预标记目标词；步骤1041中基于第一置信度，确定对应第一翻译模型的第一损失，可以通过以下技术方案实现：将针对每个第一待预测位置获取的第一置信度进行融合处理，得到对应第一翻译模型的第一损失。
121.在步骤1042中，基于低于置信度阈值的第一置信度、以及在每个第二待预测位置对应的第二预标记目标词的第二置信度，确定对应第二翻译模型的第二损失。
122.在一些实施例中，第二损失用于表征第二翻译模型对第一翻译模型的教导损失，多个第二待预测位置具有一一对应的多个第二预标记目标词；步骤1042中基于低于置信度阈值的第一置信度、以及在每个第二待预测位置对应的第二预标记目标词的第二置信度，确定对应第二翻译模型的第二损失，可以通过以下技术方案实现：将低于置信度阈值的第一置信度、以及在每个第二待预测位置对应的第二预标记目标词的第二置信度进行融合处理，得到对应第二翻译模型的第二损失。
123.在步骤1043中，基于分别对应第一损失以及第二损失的聚合参数，对第一损失以及第二损失进行聚合处理，得到联合损失。
124.作为示例，通过第一翻译模型确定了第二翻译模型的部分可见序列y
o
，在给定源语句x和部分可见序列y
o
的情况下，经过预训练的第二翻译模型对被遮挡的目标词子集y
m
中每个词y
t
进行预测，得到相应的预测概率分布作为第二置信度，接下来，针对第二翻译模型的目标端的第二待预测位置，其中，第二待预测位置是第一置信度低于置信度阈值的第一待预测位置，采用知识蒸馏的方式为第一翻译模型有针对性的引入双向全局上下文信息(基于上下文词)，采用知识蒸馏的损失函数参见公式(1)：
[0125][0126]
其中，kl(
·
)代表kullback
–
leibler散度，α是一个平衡系数，对于α的取值策略如下，求和即为第二损失，随着训练轮次，α的取值从1线性递减至0，这样可以指导第一翻译模型在早期更多地从具有双向全局上下文信息的第二翻译模型中吸收知识，然后逐渐重新关注第一预标记目标词的预测，从而更好地被训练，对于其他不属于y
m
的第一预标记目标词，仍然采用第一翻译模型的第一损失函数进行训练，因此联合损失函数可以参见公式(2)：
[0127][0128]
其中，y
t
∈y
o
\[m]代表排除了所有特殊符号[m]的目标词可见序列(多个第一预标记目标词中第一置信度高于置信度阈值的第一预标记目标词)，l
cbkd
(θ
ne
,θ
nd
)是联合损失，l
kd
(θ
ne
,θ
nd
)是第二损失，的求和结果与的和即为第一损失，通过基于置信度的知识蒸馏，有针对性地为第一翻译模型在目标端引入了双向全局上下文信息，同时，第二翻译模型只参与训练过程，而不参与第一翻译模型的推理阶段。
[0129]
在步骤1044中，根据联合损失更新第一翻译模型以及第二翻译模型的参数。
[0130]
作为示例，根据联合损失更新两个模型的参数，可以采用梯度下降算法进行更新。
[0131]
将结合本技术实施例提供的服务器200的示例性应用和实施，说明本技术实施例提供的语料翻译的方法。
[0132]
在一些实施例中，响应于针对目标语料的翻译请求，调用第一翻译模型或者第二翻译模型对目标语料进行翻译处理，得到针对目标语料的翻译结果；其中，第一翻译模型和第二翻译模型是本技术实施例提供的翻译模型训练方法进行训练得到的。
[0133]
作为示例，第一翻译模型在应用阶段与训练阶段存在区别，在第一翻译模型进行应用时，通过第一翻译模型的编码网络对语料样本进行编码处理，得到第一源语句表示，接着通过一步一步的方式顺序对每个第一待预测位置进行解码处理，通过前序解码网络对开始符号“b”以及第一源语句表示进行解码处理，得到词表中置信度最高的词“where”作为首个第一待预测位置的翻译结果，接着通过前序解码网络对开始符号“b”、“where”以及第一源语句表示进行解码处理，得到词表中置信度最高的词作为第二个第一待预测位置的翻译结果，以此类推直到输出终止符号“e”为止。第二翻译模型的应用阶段与训练阶段相同，即相当于进行一次正向传播即可。
[0134]
下面，将说明本技术实施例在一个实际的应用场景中的示例性应用。
[0135]
在一些实施例中，在社交客户端中可以提供语言翻译功能，例如，运行在终端a上的社交客户端接收到终端b经由服务器发送的文本信息，文本信息是英文，响应于终端a接收的针对文本信息的语言翻译操作，终端a调用本技术实施例提供的第一翻译模型以对属于第一语种的文本信息进行翻译处理，得到对应第二语种的文本信息，其中，第一翻译模型是借助第二翻译模型的辅助训练得到的，并且，通过第二翻译模型进行辅助训练时仅针对第一置信度较低的第一待预测位置进行联合预测。
[0136]
在一些实施例中，本技术实施例提供了一种基于置信度的融入双向全局上下文信息的联合训练框架，联合训练框架中包括翻译模型(第一翻译模型)以及条件掩码语言模型(第二翻译模型)，在联合训练过程中基于第一翻译模型对第一预标记目标词预测的置信度，并采用知识蒸馏由第二翻译模型为第一翻译模型融入双向全局上下文信息(上下文词)，其中，上下文词为未被遮挡的目标词，联合训练分为两个阶段：(1)预训练第一翻译模型以及第二翻译模型；(2)基于置信度进行知识蒸馏。
[0137]
在一些实施例中，对第一翻译模型进行预训练处理(即进行单独训练)，第一翻译模型与第二翻译模型有相同的编码网络，编码网络的作用是将输入的源语句(相当于语料样本)编码为源语义表示，编码网络可以由l
e
个相同的子编码网络构成，l
e
为大于或者等于1的整数，每层包括有两个子层：(1)自注意力处理层，(2)前馈处理层。在子编码网络中，自注意力处理层将上一层输出的隐状态向量序列作为输入，以自注意力机制对隐状态向量序列进行进一步映射，即进行多头自注意力操作，自注意力处理层可以被形式化为以下公式(3)：
[0138]
c
(l)
＝an(selfatt(h
(l
‑
1)
,h
(l
‑
1)
,h
(l
‑
1)
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)；
[0139]
其中，c
(l)
是经过自注意力子层计算得到的中间向量，an(
·
)表示代表具有残差连接的层正则化操作，selfatt(
·
)表示多头自注意力操作，h
(l)
表示编码网络的第l个层输出的隐状态向量序列，h
(l
‑
1)
表示编码网络的第l
‑
1个层输出的隐状态向量序列，c
(l)
经过前馈
处理层被映射为编码网络的第l个层输出的隐状态向量序列h
(l)
，参见公式(4)：
[0140]
h
(l)
＝an(ffn(h
(l
‑
1)
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)；
[0141]
在一些实施例中，编码网络的h
(0)
即为输入的源语句对应的词嵌入向量序列，即为编码网络最终输出的源语句表示。
[0142]
在一些实施例中，前序解码网络可以由l
d
个相同的子前序解码网络构成，每个子前序解码网络有三个层：(1)掩码自注意力处理层(maskedselfatt)，(2)交叉注意力处理层(crossatt)，(3)前馈处理层(ffn)，为了保证第一翻译模型的自回归属性，maskedselfatt层利用注意力掩模遮挡住每个第一待预测位置的目标词的所有后序词，使第一翻译模型在目标端仅依赖前序词进行预测，因为第一翻译模型测试阶段每个时间步仅能利用之前产生过的词，所以在训练时m askedselfatt层具有注意力掩模以遮挡住每个第一预标记目标词的所有后序词，maskedselfatt层可以被形式化为公式(5)：
[0143]
a
(l)
＝an(maskedselfatt(s
(l
‑
1)
,s
(l
‑
1)
,s
(l
‑
1)
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)；
[0144]
其中，s
(l
‑
1)
表示第l
‑
1个子前序解码网络的隐状态向量序列，a
(l)
为经过ma skedselfatt层映射后的中间表示(掩码注意力处理结果)，an(
·
)表示代表具有残差连接的层正则化操作，ffn(
·
)表示前馈处理层的映射操作。
[0145]
在一些实施例中，crossatt层对a
(l)
和编码网络输出的源语句表示采用交叉注意力机制进行建模，计算过程为抽象为公式(6)：
[0146][0147]
其中，z
(l)
是经过了crossatt层映射后的中间表示(交叉注意力处理结果)，an(
·
)表示代表具有残差连接的层正则化操作，a
(l)
为经过maskedselfatt层映射后的中间表示(掩码注意力处理结果)，是编码网络输出的源语句表示，crossatt(
·
)为交叉注意力处理。
[0148]
在一些实施例中，z
(l)
经过ffn层被映射为子前序解码网络输出的隐状态向量s
(l)
，映射过程抽象为公式(7)：
[0149]
s
(l)
＝an(ffn(z
(l)
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)；
[0150]
其中，s
(l)
表示第l个子前序解码网络的隐状态向量序列，an(
·
)表示代表具有残差连接的层正则化操作，fnn(
·
)为前馈处理，z
(l)
是经过了crossatt层映射后的中间表示(交叉注意力处理结果)。
[0151]
在一些实施例中，在给定源语句x，目标端第t时刻对应的前序词序列y
<t
以及解码网络最高层输出的隐状态向量s的情况下，第一翻译模型以如下公式(8)的形式预测y
t
在词表上的概率分布：
[0152]
p(y
t
|y
<t
,x)＝softmax(ws
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)；
[0153]
其中，时刻可以理解为不同的第一待预测位置，每个第一待预测位置对应不同的时间步，w代表可学习的线性变换矩阵，s
t
是第一翻译模型的解码网络的第t时刻对应的隐状态向量。例如，针对在第5个第一待预测位置上的第一预标记目标词y5，是基于给定源语句x(例如，“你在哪里”)、给定的前序词y1至y4、以及解码网络输出的第t时刻对应的隐状态向量，预测在第5个第一待预测位置上被翻译为第一预标记目标词y5的概率p(y5|y
<5
,x)，其中，解码网络输出的第t时刻对应的隐状态向量也是基于给定的前序词y1至y4得到的。
[0154]
在一些实施例中，第一翻译模型和第二翻译模型可以共享编码网络的参数，也可以具有独立的编码网络，第一翻译模型和第二翻译模型的解码网络可以具有部分相同的参数，并且第一翻译模型额外受到了来自于第二翻译模型的上下文解码网络的监督信号的影响，第二翻译模型的上下文解码网络具有目标端双向全局上下文信息，因此经过联合训练的第一翻译模型具备了捕捉双向全局上下文信息的能力，第一翻译模型的损失函数参见公式(9)：
[0155][0156]
其中，x为源语句,y
t
为目标端的对应第t时刻(第t个第一待预测位置)的第一预标记目标词，p(y
t
|x,y
<t
)是y
t
在词表上的概率分布(第一概率)，第一翻译模型采用标准的老师指导方式进行训练。
[0157]
在一些实施例中，对第二翻译模型进行预训练(即单独进行训练)，在一些实施例中，第二翻译模型的上下文解码网络的解码方式与第一翻译模型的前序解码网络的解码方式不同，在第二翻译模型中，在目标端给定一部分可见的输入词序列y
o
，预测目标端被遮挡住的目标词集合y
m
，第二翻译模型的解码网络由l
d
个相同的子上下文解码网络构成，每个子上下文解码网络包括三个层：(1)自注意力处理层(selfatt)；(2)交叉注意力处理层(crossatt)；(3)前馈处理层(f fn)，第二翻译模型的子上下文解码网络的selfatt层在执行自注意力机制时不具有遮挡每个位置对应后序词的掩模，而是可以关注到目标端输入序列(可见的输入词序列)的所有未遮挡的位置，经过与前序解码网络相同的计算过程，在给定源语句x，目标端部分可见序列y
o
以及上下文解码网络最高层输出的隐状态向量s
′
的情况下，第二翻译模型通过以下公式(10)预测y
t
在词表上的概率分布：
[0158]
p(y
t
|y
o
,x)＝softmax(w
′
s
t
′
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)；
[0159]
其中，w
′
是一个可学习的线性变换矩阵，s
′
t
是上下文解码网络第t时刻对应的隐状态向量，例如，针对在第5个第二待预测位置上的第二预标记目标词y5以及在第3个第二待预测位置上的第二预标记目标词y3，是基于给定源语句x(例如，“你喜欢这朵花吗”)、给定的可见词y1、y2以及y4、以及解码网络输出的第t时刻对应的隐状态向量，预测在第5个第二待预测位置上被翻译为第二预标记目标词y5的概率p(y5|y
1，2，4
，x)以及在第3个第二待预测位置上的第二预标记目标词p(y3|y
1，2，4
，x)，其中，解码网络输出的第t时刻对应的隐状态向量也是基于给定的可见词y1、y2以及y4得到的，可见词组成了上下文词集合，从而形成了全局上下文信息。
[0160]
在一些实施例中，针对第二翻译模型，首先从1到|y|之间随机产生一个整数v，然后再从y个第二预标记目标词中随机选择v个词，这些词被替换为一个特殊字符，这样就将第二预标记目标词序列切分为了可观察的上下文解码网络的输入序列y
o
(由可见的第二预标记目标词组成)和被掩码的序列y
m
(由不可见的第二预标记目标词组成)，第二翻译模型的训练目标可表示为以下公式(11)：
[0161][0162]
其中，x为源语言句,y
t
为目标端的对应第t时刻(第t第二待预测位置)的第二预标记目标词，p(y
t
|x，y
o
)是y
t
在词表上的概率分布(第二概率)。
[0163]
在一些实施例中，第一翻译模型在给定完全正确的前序词情况下依然会对很多的
第一预标记目标词预测出很低的概率，参见图9，图9是本技术实施例提供的置信度分布图，图9的横轴是置信度，图9的纵轴是目标词的占比，对于一个经过充分训练(上述预训练过程)的第一翻译模型，在目标端为每个第一待预测位置给定完全正确的前序词的情况下，预测得到的关于第一预标记目标词的置信度分布，例如，存在有25.67％的第一预标记目标词，在给定完全正确的前序词的情况下，预测得到的置信度只有0.1。
[0164]
在一些实施例中，本技术实施例提供的翻译模型的训练方法通过基于置信度的知识蒸馏，利用预训练得到的第二翻译模型作为教师模型，为第一翻译模型在对第一预标记目标词预测时，对置信度较低的第一预标记目标词引入双向全局上下文信息来改善其训练，整体训练过程参见图4，图4是本技术实施例提供的翻译模型的训练方法的联合训练模型的结构示意图，首先利用第一翻译模型在给定每个第一待预测位置对应的完全正确前序词的基础上进行预测，得到每个第一预标记目标词在对应第一待预测位置的第一概率分布给定一个置信度阈值，第一预标记目标词中对应第一概率(第一置信度)小于该置信度阈值的第一待预测位置作为后续被输入到第二翻译模型中被遮挡住的子集y
m
，其余的第一预标记目标词则作为将输入到第二翻译模型的部分可见序列y
o
，该过程可通过公式(12)进行表示：
[0165][0166]
其中，代表第一翻译模型在第t时刻对于第一预标记目标词的预测概率(第一置信度)，ε为置信度阈值，t为预测时间步，通过预测时间步来区分不同的第一待预测位置，|y|为第一预标记目标词的数目，y
t
是对应第t时刻(对应的第一待预测位置)的第一预标记目标词。
[0167]
通过第一翻译模型确定了第二翻译模型的部分可见序列y
o
，在给定源语句x和部分可见序列y
o
的情况下，经过预训练的第二翻译模型对被遮挡的目标词子集y
m
中每个词y
t
进行预测，得到相应的预测概率分布作为第二置信度，接下来，针对第二翻译模型的目标端的第二待预测位置，其中，第二待预测位置是第一置信度低于置信度阈值的第一待预测位置，采用知识蒸馏的方式为第一翻译模型有针对性的引入双向全局上下文信息(基于上下文词)，采用知识蒸馏的第二损失函数参见公式(13)：
[0168][0169]
其中，kl(
·
)代表kullback
–
leibler散度，α是一个平衡系数，对于α的取值策略如下，随着训练轮次，α的取值从1线性递减至0，这样可以指导第一翻译模型在早期更多地从具有双向全局上下文信息的第二翻译模型中吸收知识，然后逐渐重新关注第一预标记目标词的预测，从而更好地被训练，对于其他不属于y
m
的第一预标记目标词，仍然采用第一翻译模型的第一损失函数进行训练，因此联合损失函数可以参见公式(14)：
[0170][0171]
其中，y
t
∈y
o
\[m]代表排除了所有特殊符号[m]的目标词可见序列(多个第一预标记目标词中第一置信度高于置信度阈值的第一预标记目标词)，l
cbkd
(θ
ne
，θ
nd
)是联合损失，l
kd
(θ
ne
,θ
nd
)是第二损失，通过基于置信度的知识蒸馏，有针对性地为第一翻译模型在目标
端引入了双向全局上下文信息，同时，第二翻译模型只参与训练过程，而不参与第一翻译模型的推理阶段。
[0172]
通过本技术实施例提供的翻译模型的训练方法，进行基于置信度的知识蒸馏，为第一翻译模型在目标端对于第一预标记目标词的第一置信度较低的第一待预测位置有针对性地引入双向全局上下文信息，从而使第一翻译模型能够在进行每个第一待预测位置的预测时不仅仅利用对应前序词的局部上下文信息，还利用了全局上下文信息，从而提高第一翻译模型的翻译性能。
[0173]
下面继续说明本技术实施例提供的翻译模型的训练装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的翻译模型的训练装置255中的软件模块可以包括：第一任务模块2551，用于将语料样本在第一翻译模型中进行正向传播，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度；选择模块2552，用于将第一置信度低于置信度阈值的第一待预测位置，确定为第二翻译模型的第二待预测位置，并将第一置信度不低于置信度阈值的第一待预测位置对应的第一预标记目标词，确定为对应第二翻译模型的上下文词；第二任务模块2553，用于将上下文词以及语料样本在第二翻译模型中进行正向传播，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度；更新模块2554，用于基于在每个第一待预测位置对应的第一预标记目标词的第一置信度、以及在每个第二待预测位置对应的第二预标记目标词的第二置信度，更新第一翻译模型以及第二翻译模型的参数。
[0174]
在一些实施例中，更新模块2554，还用于：基于第一置信度，确定对应第一翻译模型的第一损失；基于低于置信度阈值的第一置信度、以及在每个第二待预测位置对应的第二预标记目标词的第二置信度，确定对应第二翻译模型的第二损失；其中，第二损失用于表征第二翻译模型对第一翻译模型的教导损失；基于分别对应第一损失以及第二损失的聚合参数，对第一损失以及第二损失进行聚合处理，得到联合损失；根据联合损失更新第一翻译模型以及第二翻译模型的参数。
[0175]
在一些实施例中，多个第一待预测位置具有一一对应的多个第一预标记目标词；更新模块2554，还用于：将针对每个第一待预测位置获取的第一置信度进行融合处理，得到对应第一翻译模型的第一损失。
[0176]
在一些实施例中，多个第二待预测位置具有一一对应的多个第二预标记目标词；更新模块2554，还用于：将低于置信度阈值的第一置信度、以及在每个第二待预测位置对应的第二预标记目标词的第二置信度进行融合处理，得到对应第二翻译模型的第二损失。
[0177]
在一些实施例中，第一翻译模型包括第一编码网络以及前序解码网络；第一任务模块2551，还用于：确定语料样本的每个原始词以及对应每个原始词的原始词向量，将对应每个原始词的原始词向量进行组合处理，得到语料样本的原始词向量序列；通过第一编码网络对语料样本的原始词向量序列进行语义编码处理，得到对应语料样本的第一源语句表示；通过前序解码网络对第一源语句表示进行语料解码处理，得到在每个第一待预测位置对应的第一预标记目标词的第一置信度；其中，第一置信度是基于对应每个第一待预测位置的前序词生成的。
[0178]
在一些实施例中，编码网络包括n个级联的子编码网络，n为大于或者等于2的整数；第一任务模块2551，还用于：通过第一编码网络包括的n个级联的第一子编码网络，对语
料样本的原始词向量序列进行以下方式的语义编码处理：对第一子编码网络的输入进行自注意力处理，得到对应第一子编码网络的自注意力处理结果，对自注意力处理结果进行隐状态映射处理，得到对应第一子编码网络的隐状态向量序列，将隐状态向量序列作为第一子编码网络的语义编码处理结果；其中，在n个级联的第一子编码网络中，首个第一子编码网络的输入包括语料样本的原始词向量序列，第n个第一子编码网络的语义编码处理结果包括对应语料样本的第一源语句表示。
[0179]
在一些实施例中，第一任务模块2551，还用于：针对语料样本的每个原始词执行以下处理：对第一子编码网络的输入中与原始词对应的第一中间向量进行线性变换处理，得到对应原始词的查询向量、键向量以及值向量；将原始词的查询向量与每个原始词的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到原始词的值向量的权重；基于原始词的值向量的权重对原始词的值向量进行加权处理，得到子编码网络对应每个原始词的自注意力处理结果。
[0180]
在一些实施例中，第一任务模块2551，还用于：针对前序解码网络输出的每个第一待预测位置执行以下处理：从语料样本集合中获取与语料样本对应的第一预标记目标词序列；从第一预标记目标词序列中提取位于第一待预测位置之前的第一预标记目标词，将提取的第一预标记目标词作为与第一待预测位置对应的前序词；通过前序解码网络对与第一待预测位置对应的前序词以及第一源语句表示进行语义解码处理，得到在第一待预测位置被解码为对应的第一预标记目标词的第一置信度。
[0181]
在一些实施例中，前序解码网络包括m个级联的子前序解码网络，m为大于或者等于2的整数；第一任务模块2551，还用于：通过每个子前序解码网络进行以下方式的语义解码处理：对子前序解码网络的输入进行掩码自注意力处理，得到对应子前序解码网络的掩码自注意力处理结果，对掩码自注意力处理结果进行交叉注意力处理，得到对应子前序解码网络的交叉注意力处理结果，对交叉注意力处理结果进行隐状态映射处理；其中，在m个级联的子前序解码网络中，首个子前序解码网络的输入包括：与第一待预测位置对应的前序词以及第一源语句表示；第m个子前序解码网络的隐状态映射处理结果包括：在第一待预测位置被解码为对应的第一预标记目标词的第一置信度。
[0182]
在一些实施例中，第一任务模块2551，还用于：对掩码自注意力处理结果进行线性变换处理，得到掩码自注意力处理结果的查询向量；针对每个原始词执行以下处理：对原始词的第一源语句表示进行线性变换处理，得到第一源语句表示的键向量以及值向量；将掩码自注意力处理结果的查询向量与第一源语句表示的键向量进行点乘处理，并对点乘处理结果进行基于最大似然函数的归一化处理，得到第一源语句表示的值向量的权重；基于第一源语句表示的值向量的权重对第一源语句表示的值向量进行加权处理，得到对应子前序解码网络的交叉注意力处理结果。
[0183]
在一些实施例中，第二翻译模型包括第二编码网络以及上下文解码网络；第二任务模块2553，还用于：获取语料样本的每个原始词以及对应每个原始词的原始词向量，将对应每个原始词的原始词向量进行组合处理，得到语料样本的原始词向量序列；通过第二编码网络对语料样本的原始词向量序列进行语义编码处理，得到对应语料样本的第二源语句表示；通过上下文解码网络对第二源语句表示进行语料解码处理，得到在每个第二待预测位置对应的第二预标记目标词的第二置信度；其中，第二置信度是基于与多个第二待预测
位置均对应的上下文词生成的。
[0184]
在一些实施例中，第二任务模块2553，还用于：针对上下文解码网络输出的每个第二待预测位置执行以下处理：通过上下文解码网络对上下文词、以及第二源语句表示进行语义解码处理，得到在第二待预测位置被解码为对应的第二预标记目标词的第二置信度。
[0185]
在一些实施例中，上下文解码网络包括p个级联的子上下文解码网络，p为大于或者等于2的整数；第二任务模块2553，还用于：通过p个级联的子上下文解码网络，对与第二待预测位置对应的上下文词集合以及源语句表示进行以下方式的语义解码处理：对子上下文解码网络的输入进行上下文自注意力处理，得到对应子上下文解码网络的上下文自注意力处理结果；对上下文自注意力处理结果进行交叉注意力处理，得到对应子上下文解码网络的交叉注意力处理结果；将交叉注意力处理结果进行隐状态映射处理；其中，在p个级联的子上下文解码网络中，首个子上下文解码网络的输入包括：与第二待预测位置对应的上下文词集合以及第二源语句表示：第p个子上下文解码网络的隐状态映射处理结果包括：在第二待预测位置被解码为对应的第二预标记目标词的第二置信度。
[0186]
本技术实施例提供一种翻译模型的语料翻译装置256，包括：应用模块2555，用于响应于针对目标语料的翻译请求，调用第一翻译模型或者第二翻译模型对目标语料进行翻译处理，得到针对目标语料的翻译结果；其中，第一翻译模型和第二翻译模型是根据本技术实施例提供的翻译模型的训练方法进行训练得到的。
[0187]
本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本技术实施例的翻译模型的训练方法以及语料翻译方法。
[0188]
本技术实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本技术实施例提供的翻译模型的训练方法，例如，如图3a
‑
3d示出的翻译模型的训练方法。
[0189]
在一些实施例中，计算机可读存储介质可以是fram、rom、prom、ep rom、eeprom、闪存、磁表面存储器、光盘、或cd
‑
rom等存储器；也可以是包括上述存储器之一或任意组合的各种设备。
[0190]
在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
[0191]
作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(h tml，hyper text markup language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。
[0192]
作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。
[0193]
综上所述，通过本技术实施例利用一个神经网络模型的翻译任务的特性以及置信
度，来有针对性性地辅助训练另一个神经网络模型，由于第二翻译模型利用上下文词集合进行翻译，因此通过上下文词集合有效引入双向全局上下文信息，并且通过置信度阈值，使得第二翻译模型在目标端对于置信度较低的位置为第一翻译模型有针对性地引入基于上下文词的双向全局上下文信息，从而能够使经过联合训练的第一翻译模型在翻译时不仅利用每个待预测位置对应前序词的局部上下文信息，还能够有针对性地利用全局上下文信息，进而有效提高通过第一翻译模型进行翻译的准确度。
[0194]
以上所述，仅为本技术的实施例而已，并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：计算设备及其BIOS更新方法和介质与流程

翻译模型的训练方法及其翻译方法、装置和电子设备与流程

相关文献

最热文献