一种翻译方法及装置、电子设备、计算机可读存储介质与流程

2022-02-19 00:39:15 来源：中国专利 TAG：

1.本技术涉及神经机器翻译领域，尤其涉及一种翻译方法及装置、电子设备、计算机可读存储介质。

背景技术：

2.在自然语言处理(nlp，natural language processing)的众多研究方向中，机器翻译(mt，machine translation)一直是一项热门的课题。随着神经机器翻译(nmt，neural machine translation)模型的提出和深入研发，机器翻译系统的翻译质量取得了突破性进展，神经机器翻译研究和应用成为机器翻译领域的主流。但是，以句子为单位的神经机器翻译在篇章级翻译中还存在语篇翻译结果中各句子间缺乏衔接性和连贯性的问题。例如，对于源语言语篇中片段“人大代表仍不满意司法系统改革成绩，
……
，虽然昨天人大代表的反应比去年略好”翻译时，目前的基线神经机器翻译系统给出的翻译结果为：“npc deputies not satisfied with judicial system reform，
……
，although the reaction of people's deputies to the people's congress yesterday was more than that of last year”。上述语篇的第二个“人大代表”本应翻译为“npc deputies”或“the deputies”，但在基线系统产生的翻译中却被翻译成了“people's deputies”，降低了源语言语篇翻译的整体衔接性和连贯性。产生类似问题的原因在于基线神经机器翻译模型在对源语言的语篇进行翻译过程中仅利用语篇中语句的句内信息而忽略了语篇中不同语句的句间信息。
3.在一种方案中，在对源语言语篇进行翻译时，通过借助深度表示学习模型生成一个固定维度的全局语义信息，用以表示整个源语言语篇的上下文，并在翻译过程中在句子间进行传递。代表性的工作有训练一个变分自编码(vae,variational auto-encoder)结构对编码器状态和解码器状态进行变分推断(variational inference)，从而得到全局的语义信息；或利用一个记忆网络(memory networks)来学习源语言文本和目标语言文本的上下文信息等。采用此方案可以充分发挥深度学习的表示学习优势，对篇章信息进行更高维度的表征学习。但由于此方式用以表征全局语义的是一个固定的结构，通常由一个固定维度的向量来表示语篇的上下文信息，因而难以有效处理细粒度的信息传递。
4.在另一种方案中，通过引入缓存(cache)记忆目标端语言的解码状态并在句间传递。在对源语言语篇进行翻译的过程中，在一个句子翻译完成后，翻译后的部分信息会被存储在缓存里，后继句子翻译的过程中则可以通过某些机制(读取或检索等)引用缓存的内容并作为源语言语篇的上下文信息引入解码器。采用此实施方式可以保持目标语言中同一个成分的翻译一致，从而提升翻译结果的词汇衔接性。但翻译过程中，若出现错误的解码状态，则错误的解码状态也一样会存储至缓存当中，造成解码过程的错误传播；同时，由于翻译过程中仅记忆目标端的解码状态，当出现漏翻译问题时，丢失的源端信息将无法还原。
5.此外，在一种方案中，通过固定的窗口直接对源端文本进行跨句建模，以一个固定窗口选取当前待翻译句子之前的k个句子或者n个词作为上下文，用某种深度结构直接进行
建模，然后将学习到的上下文语义信息融合至翻译模型当中，典型的工作是借助层次注意力网络(hierarchical attention networks)对待翻译源端句子的前k句进行建模。此实施方式使用固定的窗口来获取源端文本作为上下文，然而在实际语篇中，句子间上下文信息的传递距离往往不固定，有些情况可以跨越非常远的距离(按间隔的句子数计)。因此，采用此实施方式时，窗口的长度很难确定，要么无法有效覆盖所需的上下文，要么引入过多的噪声。
6.综上，现有的几种方案中，由于不能合理地确定出对待翻译语句进行翻译过程中所需利用的上下文信息，导致无法利用合理的上下文信息指导待翻译语句的翻译过程，使得待翻译语句的翻译结果与已翻译的语句的衔接性和连贯性较差，最终影响翻译得到的整篇目标语言文本的整体衔接性和连贯性。

技术实现要素：

7.为解决上述由于不能合理地确定出对待翻译语句进行翻译过程中所需利用的上下文信息，导致无法利用合理的上下文信息指导待翻译语句的翻译过程，使得待翻译语句的翻译结果与已翻译的语句的衔接性和连贯性较差，最终影响翻译得到的整篇目标语言文本的整体衔接性和连贯性的问题，本技术提供了一种翻译方法及装置、电子设备、计算机可读存储介质。
8.本技术提供了一种翻译方法，所述方法应用于神经机器翻译模型，所述模型包括编码器和解码器，所述方法包括：
9.确定第一目标语句的第一解码器状态；所述第一目标语句为源语言语句中待翻译的语句，所述第一解码器状态为利用所述神经机器翻译模型对所述第一目标语句进行翻译得到的解码器状态；
10.从目标区域中获取第一编码器状态；所述第一编码器状态是指源语言语句中已翻译的目标语句集合的编码器状态；其中，所述目标区域用于基于缓存更新机制确定所述目标语句集合，并保存所述目标语句集合的编码器状态；
11.基于所述第一编码器状态以及所述第一解码器状态确定所述第一目标语句的第二解码器状态。
12.在本技术一可选实施方式中，所述确定第一目标语句的第一解码器状态之前，所述方法还包括：
13.确定第二目标语句的编码器状态；所述第二目标语句为所述源语言语句中位于所述第一目标语句之前的语句；
14.若所述目标区域中具有剩余的存储空间，则将所述第二目标语句的编码器状态保存至所述目标区域中，所述目标语句集合至少包括所述第二目标语句；
15.若所述目标区域中无剩余的存储空间，则根据所述第二目标语句的重要性分值确定是否将所述目标区域中存储的其中一个编码器状态替换为所述第二目标语句的编码器状态。
16.在本技术一可选实施方式中，所述根据所述第二目标语句的重要性分值确定是否将所述目标区域中存储的其中一个编码器状态替换为所述第二目标语句的编码器状态，包括：
17.若所述第二目标语句的重要性分值小于所述目标区域中存储的全部编码器状态，则维持所述目标区域中存储的全部编码器状态不变；
18.若所述第二目标语句的重要性分值大于所述目标区域中存储的部分编码器状态，则将所述部分编码器状态中的其中一个编码器状态替换为所述第二目标语句的编码器状态。
19.在本技术一可选实施方式中，所述方法还包括：
20.针对所述源语言语句中的每个语句，基于所述语句的主述结构信息确定该语句的重要性分值。
21.在本技术一可选实施方式中，所述基于所述语句的主述结构信息确定该语句的重要性分值，包括：
22.通过对所述语句的主述结构信息进行线性变换处理以及逻辑斯蒂回归处理，得到该语句的重要性分值。
23.在本技术一可选实施方式中，所述基于所述第一编码器状态以及所述第一解码器状态确定所述第一目标语句的第二解码器状态，包括：
24.确定所述第一解码器状态以及所述第一编码器状态的关联性，基于所述关联性以及所述第一解码器状态确定所述第二解码器状态。
25.在本技术一可选实施方式中，所述确定所述第一解码器状态以及所述第一编码器状态的关联性，基于所述关联性以及所述第一解码器状态确定所述第二解码器状态，包括：
26.将所述第一编码器状态和所述第一解码器状态输入多头注意力模型，通过所述多头注意力模型得到所述第一解码器状态以及所述第一编码器状态的关联度；
27.将所述关联度输入全连接前馈网络，通过所述全连接前馈网络得到目标向量；
28.将所述目标向量与所述第一解码器状态进行加权，得到所述第一目标语句的第二解码器状态。
29.在本技术一可选实施方式中，所述多头注意力模型以及所述全连接前馈网络后均设置有正则化层。
30.本技术还提供了一种翻译装置，所述装置应用于神经机器翻译模型，所述模型包括编码器和解码器，所述装置包括：
31.第一确定单元，用于确定第一目标语句的第一解码器状态；所述第一目标语句为源语言语句中待翻译的语句，所述第一解码器状态为利用所述神经机器翻译模型对所述第一目标语句进行翻译得到的解码器状态；
32.获取单元，用于从目标区域中获取第一编码器状态；所述第一编码器状态是指源语言语句中已翻译的目标语句集合的编码器状态；其中，所述目标区域用于基于缓存更新机制确定所述目标语句集合，并保存所述目标语句集合的编码器状态；
33.第二确定单元，用于基于所述第一编码器状态以及所述第一解码器状态确定所述第一目标语句的第二解码器状态。
34.在本技术一可选实施方式中，所述确定第一目标语句的第一解码器状态之前，所述装置还包括：
35.第三确定单元，用于确定第二目标语句的编码器状态；所述第二目标语句为所述源语言语句中位于所述第一目标语句之前的语句；
36.保存单元，用于若所述目标区域中具有剩余的存储空间，则将所述第二目标语句的编码器状态保存至所述目标区域中，所述目标语句集合至少包括所述第二目标语句；
37.第四确定单元，用于若所述目标区域中无剩余的存储空间，则根据所述第二目标语句的重要性分值确定是否将所述目标区域中存储的其中一个编码器状态替换为所述第二目标语句的编码器状态。
38.在本技术一可选实施方式中，所述第四确定单元具体用于：若所述第二目标语句的重要性分值小于所述目标区域中存储的全部编码器状态，则维持所述目标区域中存储的全部编码器状态不变；若所述第二目标语句的重要性分值大于所述目标区域中存储的部分编码器状态，则将所述部分编码器状态中的其中一个编码器状态替换为所述第二目标语句的编码器状态。
39.在本技术一可选实施方式中，所述装置还包括：
40.第五确定单元，用于针对所述源语言语句中的每个语句，基于所述语句的主述结构信息确定该语句的重要性分值。
41.在本技术一可选实施方式中，所述第五确定单元具体用于：通过对所述语句的主述结构信息进行线性变换处理以及逻辑斯蒂回归处理，得到该语句的重要性分值。
42.在本技术一可选实施方式中，所述第二确定单元具体用于：确定所述第一解码器状态以及所述第一编码器状态的关联性，基于所述关联性以及所述第一解码器状态确定所述第二解码器状态。
43.在本技术一可选实施方式中，所述第二确定单元还具体用于：将所述第一编码器状态和所述第一解码器状态输入多头注意力模型，通过所述多头注意力模型得到所述第一解码器状态以及所述第一编码器状态的关联度；将所述关联度输入全连接前馈网络，通过所述全连接前馈网络得到目标向量；将所述目标向量与所述第一解码器状态进行加权，得到所述第一目标语句的第二解码器状态。
44.在本技术一可选实施方式中，所述多头注意力模型以及所述全连接前馈网络后均设置有正则化层。
45.本技术还提供了一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，执行上述翻译方法。
46.本技术还提供了一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行上述翻译方法。
47.本技术的上述一个或多个技术方案，至少具有如下一种或多种技术效果：
48.1、本技术提供的一种翻译方法和装置，通过确定第一目标语句的第一解码器状态；所述第一目标语句为源语言语句中待翻译的语句，所述第一解码器状态为利用所述神经机器翻译模型对所述第一目标语句进行翻译得到的解码器状态；从目标区域中获取第一编码器状态；所述第一编码器状态是指源语言语句中已翻译的目标语句集合的编码器状态；其中，所述目标区域用于基于缓存更新机制确定所述目标语句集合，并保存所述目标语句集合的编码器状态；基于所述第一编码器状态以及所述第一解码器状态确定所述第一目标语句的第二解码器状态。如此，能够基于目标区域的缓存更新机制确定出已翻译的目标语句集合对应的第一编码器状态，并利用该第一编码器状态影响源语言语句中待翻译的语句的解码器状态，实现源语言语句中的跨句信息的传递，提高源语言整个语篇的整体衔接
性和连贯性。
49.2、本技术提供的一种翻译方法和装置，在确定第一目标语句的第一解码器状态之前，确定第二目标语句的编码器状态；所述第二目标语句为所述源语言语句中位于所述第一目标语句之前的语句；若所述目标区域中具有剩余的存储空间，则将所述第二目标语句的编码器状态保存至所述目标区域中，所述目标语句集合至少包括所述第二目标语句；若所述目标区域中无剩余的存储空间，则根据所述第二目标语句的重要性分值确定是否将所述目标区域中存储的其中一个编码器状态替换为所述第二目标语句的编码器状态。基于此，能够在目标区域的存储空间不足的时候按照语篇中已翻译的语句的重要性分值，将重要性分值较高的已翻译的语句的编码器状态存储于目标区域中，而将已翻译的语句中重要性分值较低的语句的编码器状态从目标区域中替换出来，从而将源语言语句的重要性分值较高的编码器状态信息保存在目标区域中。
50.3、本技术提供的一种翻译方法和装置，若所述第二目标语句的重要性分值小于所述目标区域中存储的全部编码器状态，则维持所述目标区域中存储的全部编码器状态不变；若所述第二目标语句的重要性分值大于所述目标区域中存储的部分编码器状态，则将所述部分编码器状态中的其中一个编码器状态替换为所述第二目标语句的编码器状态。基于此，能够按照语篇中已翻译的语句的重要性分值，将重要性分值较高的已翻译的语句的编码器状态存储于目标区域中，从而将源语言语句的重要性分值较高的编码器状态信息保存在目标区域中。
51.4、本技术提供的一种翻译方法和装置，针对所述源语言语句中的每个语句，基于所述语句的主述结构信息确定该语句的重要性分值。基于此，能够引入主-述结构信息有效地确定出语篇中的重要信息。
52.5、本技术提供的一种翻译方法和装置，通过对语句的主述结构信息进行线性变换处理以及逻辑斯蒂回归处理，得到该语句的重要性分值。基于此，能够将语句的重要性以分值的形式体现。
53.6、本技术提供的一种翻译方法和装置，确定所述第一解码器状态以及所述第一编码器状态的关联性，基于所述关联性以及所述第一解码器状态确定所述第二解码器状态。基于此，能够基于目标区域中保存的重要信息指导生成待翻译语句的第二解码器的状态。
54.7、本技术提供的一种翻译方法和装置，将所述第一编码器状态和所述第一解码器状态输入多头注意力模型，通过所述多头注意力模型得到所述第一解码器状态以及所述第一编码器状态的关联度；将所述关联度输入全连接前馈网络，通过所述全连接前馈网络得到目标向量；将所述目标向量与所述第一解码器状态进行加权，得到所述第一目标语句的第二解码器状态。基于此，能够利用多头注意力模型得到第一解码器状态和第一编码器状态的关联度，并利用全连接前馈网络得到第一目标语句的第二解码器状态。
55.8、本技术提供的一种翻译方法和装置，所述多头注意力模型以及所述全连接前馈网络后均设置有正则化层。基于此，能够解决确定所述第一解码器状态以及第一编码器状态的关联度的过程，以及基于第一解码器状态和第一编码器状态的关联度以及第一解码器状态得到第一目标语句的第二解码器状态的过程中的可能会产生的过拟合的问题。
附图说明
56.图1为本技术实施例提供的翻译方法的流程示意图；
57.图2为本技术实施例提供的神经机器翻译模型的示意图；
58.图3为本技术实施例提供的缓存信息筛选子模块的示意图；
59.图4为本技术实施例提供的确定语句的重要性分值的方法的示意图；
60.图5为本技术实施例提供的缓存信息利用子模块的示意图；
61.图6为本技术实施例提供的翻译装置的结构组成示意图；
62.图7为本技术实施例提供的一种电子设备示意性结构图；
63.图8为本技术实施例提供的芯片的示意性结构图。
具体实施方式
64.为了能够更加详尽地了解本技术的特点与技术内容，下面结合附图对本技术的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本技术。
65.图1为本技术实施例提供的翻译方法的流程示意图，所述方法应用于神经机器翻译模型，所述模型包括编码器和解码器，如图1所示，所述方法包括以下步骤：
66.步骤101：确定第一目标语句的第一解码器状态；所述第一目标语句为源语言语句中待翻译的语句，所述第一解码器状态为利用所述神经机器翻译模型对所述第一目标语句进行翻译得到的解码器状态。
67.本技术实施例的技术方案能够利用神经机器翻译模型将源语言语句翻译成目标语言，其中，神经机器翻译模型具有“编码器-解码器”架构，编码器用于将源语言语句中的源语句转换成“含义”向量，进而通过解码器将该“含义”向量转化为最终翻译的目标语句。在利用神经机器翻译模型将源语言语句中的语句翻译为目标语言的语句的过程中，能够获取翻译该源语言语句时的编码器状态和解码器状态。
68.步骤102：从目标区域中获取第一编码器状态；所述第一编码器状态是指源语言语句中已翻译的目标语句集合的编码器状态；其中，所述目标区域用于基于缓存更新机制确定所述目标语句集合，并保存所述目标语句集合的编码器状态；
69.本技术实施例中，目标区域是一个缓存区域，缓存区域中存储有源语言语句中已翻译的目标语句集合的编码器状态。这里，缓存区域中存储的已翻译的目标语句集合的编码器状态，可以是已翻译的所有语句的编码器状态，也可以是已翻译的部分语句的编码器状态，即目标语句集合可以是已翻译的源语言语句中的所有语句，也可以是已翻译的源语言语句中的部分语句。图2为本技术实施例提供的神经机器翻译模型的示意图，如图2所示，除编码器和解码器外，本技术实施例在传统的神经机器翻译模型的基础上引入了缓存模型形成本技术实施例的神经机器翻译模型，通过所述缓存模型内部的信息存储与更新机制(即缓存更新机制)能够确定缓存中存储的信息。
70.本技术一可选实施方式中，所述确定第一目标语句的第一解码器状态之前，所述方法还包括：
71.确定第二目标语句的编码器状态；所述第二目标语句为所述源语言语句中位于所述第一目标语句之前的语句；
72.若所述目标区域中具有剩余的存储空间，则将所述第二目标语句的编码器状态保
存至所述目标区域中，所述目标语句集合至少包括所述第二目标语句；
73.若所述目标区域中无剩余的存储空间，则根据所述第二目标语句的重要性分值确定是否将所述目标区域中存储的其中一个编码器状态替换为所述第二目标语句的编码器状态。
74.具体的，基于图2所示的神经机器翻译模型，步骤1和步骤2分别是对源语言语篇当中相邻的两个语句的翻译过程，设定步骤1是对语句1(即第二目标语句)的翻译过程，步骤2是对语句2(即第一目标语句)的翻译过程，语句1是在语句2之前翻译的语句。在本技术实施例的神经机器翻译模型运作过程中，语句1的编码器状态会输入到缓存模型当中，通过缓存模型内部的信息存储与更新机制来决定是否将语句1的编码器信息保存至缓存中。其中，若语句1是当前翻译的源语言语篇中的第一句，则语句1的解码器的状态仅受语句1的编码器状态的影响；若语句1是当前翻译的源语言语篇中间的句子(即非源语言语篇中的第一句)，则缓存模型能够在缓存中还具有剩余的存储空间的情况下，将语句1的编码器状态保存至缓存中，而在缓存中无剩余的存储空间的情况下，缓存模型能够根据语句1的重要性分值确定是否将缓存中的已翻译的多个语句中的某一个语句的编码器状态替换为语句1的编码器状态，其中，所述某一个语句是在语句1之前已翻译的语句。
75.本技术一可选实施方式中，所述根据所述第二目标语句的重要性分值确定是否将所述目标区域中存储的其中一个编码器状态替换为所述第二目标语句的编码器状态，包括：
76.若所述第二目标语句的重要性分值小于所述目标区域中存储的全部编码器状态，则维持所述目标区域中存储的全部编码器状态不变；
77.若所述第二目标语句的重要性分值大于所述目标区域中存储的部分编码器状态，则将所述部分编码器状态中的其中一个编码器状态替换为所述第二目标语句的编码器状态。
78.具体的，图3为本技术实施例提供的缓存信息筛选子模块的示意图，该缓存信息筛选子模块属于缓存模型的一部分。如图3所示，本技术实施例的缓存中的每个单元都是形如(score，key，value，id)的四元组，每个单元存储源语言语句中已翻译的一个语句的编码器状态，其中，key和value表示一个语句的编码器状态，id表示该语句在源语言整个语篇中的语句索引，score则表示该语句的重要性分值。
79.在一种实施方式中，缓存的大小是固定的。当缓存中还有剩余空间时，新的缓存条目(即已翻译的语句的编码器状态)将直接记入缓存中；而当缓存中的存储空间已满时，其中的缓存条目就将依据score的值进行替换更新。本技术实施例中，缓存区域中存储的编码器的状态是源语言语句中已经翻译的语句中重要性分值较高的语句的编码器状态。示例性的，基于图2所示的神经机器翻译模型，在缓存中没有剩余空间的情况下，若缓存中存储有语句1、语句2、语句3、语句4、语句5的编码器状态，在对语句6(语句6是在语句1、语句2、语句3、语句4、语句5之后翻译的)进行翻译后，若语句6的分值低于语句1至语句5的任意一个语句的分值，则缓存信息筛选子模块并不会将语句6的编码器状态存入缓存中。若语句6的分值高于语句1至语句5中的语句3(语句3是语句1至语句5中分值最低的)的分值，则缓存信息筛选子模块会将语句3的编码器状态替换为语句6的编码器状态。
80.本技术实施例的缓存信息筛选机制，即缓存更新机制，能够克服传统方案中利用
固定窗口选取上下文信息所导致的窗口的长度难确定、无法有效覆盖所需的上下文或者引入过多的噪声等问题，通过借助缓存使在翻译源语言语篇的某一语句时能够利用到更长的距离信息作为跨句翻译时的参考信息。
81.本技术实施例中，对于score的计算是关键。在本技术一可选实施方式中，针对所述源语言语句中的每个语句，基于所述语句的主述结构信息确定该语句的重要性分值。
82.这里，主位(theme)述位(rheme)是系统功能语言学的概念，系统功能语言学被用作语篇的分析，而包含主位、述位以及二者之间关系的主-述结构信息是系统功能语言学中描述语篇功能的主要方法。
83.在一种实施方式中，所述基于所述语句的主述结构信息确定该语句的重要性分值，包括：
84.通过对所述语句的主述结构信息进行线性变换处理以及逻辑斯蒂回归处理，得到该语句的重要性分值。
85.具体的，图4为本技术实施例提供的确定语句的重要性分值的方法的示意图；如图4所示，对于包含多个语句的源语言，针对源语言语句中的每个语句，能够通过基于双向长短期记忆网络(lstm，long short-term memory)的主-述标注网络对每一个给定的源语言语句中的语句进行主-述结构的自动识别，其中，基于双向lstm的主-述标注网络在人工标注的主-述标注语篇章语料库上训练。之后，对于每一个给定的源语言语句中的语句进行主-述结构的自动识别的结果作为一个主-述向量经由线性变换层后再由逻辑斯蒂回归模型进行处理最终得到每一个给定的源语言语句中的语句的重要性分值，该重要性分值的取值范围在0到1之间。
86.这里，传统的缓存中存储的信息的记忆与遗忘都是基于“先进先出”的原则，简单地来说就是当缓存空间满了之后，新的信息会直接将最早存储的信息进行替代。而本技术实施例的技术方案，通过引入主述结构信息，通过确定源语言语篇中每个语句的主述结构信息，基于主述结构信息确定源语言语篇中每个语句的重要性分值，通过语句的重要性分值有效的筛选缓存中存储的已翻译的源语言语篇中语句的编码器信息，从而在缓存中保留源语言语篇中的重要信息，影响之后语篇中翻译的语句的解码过程。
87.步骤103：基于所述第一编码器状态以及所述第一解码器状态确定所述第一目标语句的第二解码器状态。
88.本技术实施例中，所述基于所述第一编码器状态以及所述第一解码器状态确定所述第一目标语句的第二解码器状态，包括：
89.确定所述第一解码器状态以及所述第一编码器状态的关联性，基于所述关联性以及所述第一解码器状态确定所述第二解码器状态。
90.具体的，作为一种可选的实施方式，所述确定所述第一解码器状态以及所述第一编码器状态的关联性，基于所述关联性以及所述第一解码器状态确定所述第二解码器状态，包括：
91.将所述第一编码器状态和所述第一解码器状态输入多头注意力模型，通过所述多头注意力模型得到所述第一解码器状态以及所述第一编码器状态的关联度；
92.将所述关联度输入全连接前馈网络，通过所述全连接前馈网络得到目标向量；
93.将所述目标向量与所述第一解码器状态进行加权，得到所述第一目标语句的第二
解码器状态。
94.具体的，图5为本技术实施例提供的缓存信息利用子模块的示意图，该缓存信息利用子模块属于缓存模型的一部分，如图5所示，缓存信息利用子模块中的多头注意力模型能够衡量神经机器翻译模型中某一步的解码器状态s
t
和缓存中源语言语句中的上下文信息h
i
之间的关联性。公式如下：
95.d
t
＝ffn(multihead(s
t
,h
i
,h
i
))
ꢀꢀꢀꢀ
(1)
96.具体的，多头注意力模型可计算三个输入q，k，v之间的相关性，其中，q是一个请求，即对应神经机器翻译模型中当前解码器的状态s
t
；而k是用于对q进行约束的矩阵，v是实际上要与q进行相关性计算的状态，在神经机器翻译模型当中，k和v都是缓存当中的源语言语句中的上下文信息h
i
。
97.随后,参照transformer模型的做法，缓存信息利用子模块将其中的多头注意力模型的运算结果输入全连接前馈网络(position-wise feed-forward networks)，进而得到包含缓存中上下文信息的向量d
t
。这里，和transformer模型类似，作为一种优选的实施方式，所述多头注意力模型以及所述全连接前馈网络后均设置有正则化层(normalization layer)。
98.最后，缓存信息利用子模块中的门控结构将包含缓存中上下文信息的向量d
t
与神经机器翻译模型中当前解码器的状态s
t
向量进行加权，从而得到包含了源语言上下文信息的新的解码器状态c
t
，其中，新解码器状态c
t
的计算公式如下：
99.c
t
＝α
×
s
t
(1-α)
×
d
t
ꢀꢀꢀꢀ
(2)
100.这里，通过将已翻译的源语言语篇中的语句的编码器状态引入解码器中，从而影响待翻译的语句的解码器状态，实现了翻译过程中跨句信息的传递。
101.本技术实施例的技术方案，在对源语言语篇进行翻译时，通过引入主述结构信息作为句间缓存筛选的指导，借助源语言语篇的结构信息可更有效地筛选并在缓存中保留源语言语篇中的重要信息，且由于在缓存中记忆的已翻译的语句的编码器信息，能够防止源语言语篇中已翻译的错误的解码器信息的传播问题以及克服漏译时的上下文丢失问题。此外，本技术实施例利用缓存打破了传统技术方案中上下文选取的固定窗口的缺陷，能够使翻译源语言语篇中的某一句时利用到更长距离的信息。
102.图6为本技术实施例提供的翻译装置的结构组成示意图，所述装置应用于神经机器翻译模型，所述模型包括编码器和解码器，如图6所示，所述装置包括：
103.第一确定单元601，用于确定第一目标语句的第一解码器状态；所述第一目标语句为源语言语句中待翻译的语句，所述第一解码器状态为利用所述神经机器翻译模型对所述第一目标语句进行翻译得到的解码器状态；
104.获取单元602，用于从目标区域中获取第一编码器状态；所述第一编码器状态是指源语言语句中已翻译的目标语句集合的编码器状态；其中，所述目标区域用于基于缓存更新机制确定所述目标语句集合，并保存所述目标语句集合的编码器状态；
105.第二确定单元603，用于基于所述第一编码器状态以及所述第一解码器状态确定所述第一目标语句的第二解码器状态。
106.本技术一可选实施方式中，所述确定第一目标语句的第一解码器状态之前，所述装置还包括：
107.第三确定单元604，用于确定第二目标语句的编码器状态；所述第二目标语句为所述源语言语句中位于所述第一目标语句之前的语句；
108.保存单元605，用于若所述目标区域中具有剩余的存储空间，则将所述第二目标语句的编码器状态保存至所述目标区域中，所述目标语句集合至少包括所述第二目标语句；
109.第四确定单元606，用于若所述目标区域中无剩余的存储空间，则根据所述第二目标语句的重要性分值确定是否将所述目标区域中存储的其中一个编码器状态替换为所述第二目标语句的编码器状态。
110.本技术一可选实施方式中，所述第四确定单元606具体用于：若所述第二目标语句的重要性分值小于所述目标区域中存储的全部编码器状态，则维持所述目标区域中存储的全部编码器状态不变；若所述第二目标语句的重要性分值大于所述目标区域中存储的部分编码器状态，则将所述部分编码器状态中的其中一个编码器状态替换为所述第二目标语句的编码器状态。
111.本技术一可选实施方式中，所述装置还包括：
112.第五确定单元607，用于针对所述源语言语句中的每个语句，基于所述语句的主述结构信息确定该语句的重要性分值。
113.本技术一可选实施方式中，所述第五确定单元607具体用于：通过对所述语句的主述结构信息进行线性变换处理以及逻辑斯蒂回归处理，得到该语句的重要性分值。
114.本技术一可选实施方式中，所述第二确定单元603具体用于：确定所述第一解码器状态以及所述第一编码器状态的关联性，基于所述关联性以及所述第一解码器状态确定所述第二解码器状态。
115.本技术一可选实施方式中，所述第二确定单元603还具体用于：将所述第一编码器状态和所述第一解码器状态输入多头注意力模型，通过所述多头注意力模型得到所述第一解码器状态以及所述第一编码器状态的关联度；将所述关联度输入全连接前馈网络，通过所述全连接前馈网络得到目标向量；将所述目标向量与所述第一解码器状态进行加权，得到所述第一目标语句的第二解码器状态。
116.本技术一可选实施方式中，所述多头注意力模型以及所述全连接前馈网络后均设置有正则化层。
117.本领域技术人员应当理解，图6所示的翻译装置中的各单元的实现功能可参照前述翻译方法的相关描述而理解。图6所示的翻译装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。
118.图7是本技术实施例提供的一种电子设备示意性结构图。该电子设备可以是服务器，该电子设备包括图6所示的翻译装置，图7所示的电子设备700包括处理器701，处理器701可以从存储器中调用并运行计算机程序，以实现本技术实施例中的方法。
119.可选地，如图7所示，电子设备700还可以包括存储器702。其中，处理器701可以从存储器702中调用并运行计算机程序，以实现本技术实施例中的方法。
120.其中，存储器702可以是独立于处理器701的一个单独的器件，也可以集成在处理器701中。
121.可选地，如图7所示，电子设备700还可以包括收发器703，处理器701可以控制该收发器703与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备
发送的信息或数据。
122.其中，收发器703可以包括发射机和接收机。收发器703还可以进一步包括天线，天线的数量可以为一个或多个。
123.可选地，该电子设备700具体可为本技术实施例的网络设备，并且该电子设备700可以实现本技术实施例的各个方法中由网络设备实现的相应流程，为了简洁，在此不再赘述。
124.可选地，该电子设备700具体可为本技术实施例的移动终端/终端设备，并且该电子设备700可以实现本技术实施例的各个方法中由移动终端/终端设备实现的相应流程，为了简洁，在此不再赘述。
125.图8是本技术实施例的芯片的示意性结构图。图8所示的芯片800包括处理器801，处理器801可以从存储器中调用并运行计算机程序，以实现本技术实施例中的方法。
126.可选地，如图8所示，芯片800还可以包括存储器802。其中，处理器801可以从存储器802中调用并运行计算机程序，以实现本技术实施例中的方法。
127.其中，存储器802可以是独立于处理器801的一个单独的器件，也可以集成在处理器801中。
128.可选地，该芯片800还可以包括输入接口803。其中，处理器801可以控制该输入接口803与其他设备或芯片进行通信，具体地，可以获取其他设备或芯片发送的信息或数据。
129.可选地，该芯片800还可以包括输出接口804。其中，处理器801可以控制该输出接口804与其他设备或芯片进行通信，具体地，可以向其他设备或芯片输出信息或数据。
130.可选地，该芯片可应用于本技术实施例中的网络设备，并且该芯片可以实现本技术实施例的各个方法中由网络设备实现的相应流程，为了简洁，在此不再赘述。
131.可选地，该芯片可应用于本技术实施例中的移动终端/终端设备，并且该芯片可以实现本技术实施例的各个方法中由移动终端/终端设备实现的相应流程，为了简洁，在此不再赘述。
132.应理解，本技术实施例提到的芯片还可以称为系统级芯片，系统芯片，芯片系统或片上系统芯片等。
133.应理解，本技术实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。
134.可以理解，本技术实施例中的存储器可以是易失性存储器或非易失性存储器，或
可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synchlink dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，dr ram)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
135.应理解，上述存储器为示例性但不是限制性说明，例如，本技术实施例中的存储器还可以是静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)以及直接内存总线随机存取存储器(direct rambus ram，dr ram)等等。也就是说，本技术实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
136.本技术实施例还提供了一种计算机可读存储介质，用于存储计算机程序。
137.可选的，该计算机可读存储介质可应用于本技术实施例中的网络设备，并且该计算机程序使得计算机执行本技术实施例的各个方法中由网络设备实现的相应流程，为了简洁，在此不再赘述。
138.可选地，该计算机可读存储介质可应用于本技术实施例中的移动终端/终端设备，并且该计算机程序使得计算机执行本技术实施例的各个方法中由移动终端/终端设备实现的相应流程，为了简洁，在此不再赘述。
139.本技术实施例还提供了一种计算机程序产品，包括计算机程序指令。
140.可选的，该计算机程序产品可应用于本技术实施例中的网络设备，并且该计算机程序指令使得计算机执行本技术实施例的各个方法中由网络设备实现的相应流程，为了简洁，在此不再赘述。
141.可选地，该计算机程序产品可应用于本技术实施例中的移动终端/终端设备，并且该计算机程序指令使得计算机执行本技术实施例的各个方法中由移动终端/终端设备实现的相应流程，为了简洁，在此不再赘述。
142.本技术实施例还提供了一种计算机程序。
143.可选的，该计算机程序可应用于本技术实施例中的网络设备，当该计算机程序在计算机上运行时，使得计算机执行本技术实施例的各个方法中由网络设备实现的相应流程，为了简洁，在此不再赘述。
144.可选地，该计算机程序可应用于本技术实施例中的移动终端/终端设备，当该计算机程序在计算机上运行时，使得计算机执行本技术实施例的各个方法中由移动终端/终端设备实现的相应流程，为了简洁，在此不再赘述。
145.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
146.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
147.在本技术所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
148.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
149.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
150.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，)rom、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
151.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种在动态不确定因果图中处理分类关系的方法与流程

一种翻译方法及装置、电子设备、计算机可读存储介质与流程

相关文献

最热文献