双语词典推断方法、装置及存储介质与流程

2022-02-22 17:07:49 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及一种双语词典推断方法、装置及存储介质。

背景技术：

2.双语词典推断任务可以在只有少量对齐信号的条件下为机器翻译提供词级别的对齐信息，是低资源或无监督机器翻译系统的重要组成部分。
3.目前常用的双语词典推断方法主要分为两步步骤，第一个步骤是在大规模单语数据上训练两种语言的单语词向量，将每个单词变成一个高维的表示。第二个步骤是训练一个线性映射把源语言的词向量映射到目标语言的词向量空间中。
4.上述的双语词典推断方法在例如英法，英德等距离比较近的语言对上有较好的推断效果。但是对于距离较远的语言对，如中英，中日等而言，双语词典推断效果较差。

技术实现要素：

5.有鉴于此，本公开提出了一种双语词典推断方法、装置及存储介质。所述技术方案包括：
6.根据本公开的一方面，提供了一种双语词典推断方法，所述方法包括：
7.从平行语料中提取目标词典；
8.根据提取出的所述目标词典和预配置的初始词典，训练得到目标双语词典推断模型，所述目标双语词典推断模型是具有将源端单词翻译为目标端单词的神经网络模型；
9.其中，所述目标词典和所述初始词典均包括多个对齐词对，所述对齐词对包括源端单词和目标端单词。
10.在一种可能的实现方式中，所述从平行语料中提取目标词典，包括：
11.根据预配置的单语词向量和所述初始词典训练得到初始双语词典推断模型；
12.根据所述初始双语词典推断模型和所述词对齐模型，从所述平行语料中提取所述目标词典。
13.在另一种可能的实现方式中，所述根据所述初始双语词典推断模型和所述词对齐模型，从所述平行语料中提取所述目标词典，包括：
14.根据所述初始双语词典推断模型得到所述词对齐模型的第一初始化概率；
15.根据所述词对齐模型的所述第一初始化概率，在所述平行语料上进行词对齐的学习得到第一词对齐概率；
16.根据所述第一词对齐概率确定所述目标词典。
17.在另一种可能的实现方式中，所述根据所述初始双语词典推断模型得到所述词对齐模型的第一初始化概率，包括：
18.根据所述初始双语词典推断模型，通过如下公式得到所述词对齐模型的第一初始化概率p
ini
(y|x)：
[0019][0020]
其中，所述x为所述源端单词，所述y为所述目标端单词，所述e
src
(x)为所述初始双语词典推断模型中所述源端单词的词向量，所述e
tgt
(y)为所述初始双语词典推断模型中所述目标端单词的词向量，所述y(x)表示所述词对齐模型的翻译表中所述x的翻译目标，所述τ用于指示初始化分布的尖锐程度，所述y
′
为所述词对齐模型的翻译表中所述x的所述翻译目标中的任意一个。
[0021]
在另一种可能的实现方式中，所述根据所述第一词对齐概率确定所述目标词典，包括：
[0022]
根据所述初始双语词典推断模型得到所述词对齐模型的第二初始化概率，所述第二初始化概率不同于所述第一初始化概率；
[0023]
根据所述词对齐模型的所述第二初始化概率，在所述平行语料上进行词对齐的学习得到第二词对齐概率；
[0024]
根据所述第一词对齐概率和所述第二词对齐概率进行双向过滤得到所述目标词典。
[0025]
在另一种可能的实现方式中，所述方法还包括：
[0026]
根据所述目标双语词典推断模型和所述词对齐模型，从所述平行语料中提取更新后的目标词典；
[0027]
根据所述更新后的目标词典和所述初始词典，训练得到更新后的目标双语词典推断模型。
[0028]
在另一种可能的实现方式中，所述方法还包括：
[0029]
获取输入的源端单词；
[0030]
根据所述源端单词，调用训练得到的所述目标双语词典推断模型，输出得到所述目标端单词。
[0031]
根据本公开的另一方面，提供了一种双语词典推断装置，所述装置包括：
[0032]
提取模块，用于从平行语料中提取目标词典；
[0033]
训练模块，用于根据提取出的所述目标词典和预配置的初始词典，训练得到目标双语词典推断模型，所述目标双语词典推断模型是具有将源端单词翻译为目标端单词的神经网络模型；
[0034]
其中，所述目标词典和所述初始词典均包括多个对齐词对，所述对齐词对包括源端单词和目标端单词。
[0035]
在一种可能的实现方式中，所述提取模块，用于：
[0036]
根据预配置的单语词向量和所述初始词典训练得到初始双语词典推断模型；
[0037]
根据所述初始双语词典推断模型和所述词对齐模型，从所述平行语料中提取所述目标词典。
[0038]
在另一种可能的实现方式中，所述提取模块，还用于：
[0039]
根据所述初始双语词典推断模型得到所述词对齐模型的第一初始化概率；
[0040]
根据所述词对齐模型的所述第一初始化概率，在所述平行语料上进行词对齐的学
习得到第一词对齐概率；
[0041]
根据所述第一词对齐概率确定所述目标词典。
[0042]
在另一种可能的实现方式中，所述提取模块，还用于：
[0043]
根据所述初始双语词典推断模型，通过如下公式得到所述词对齐模型的第一初始化概率p
ini
(y|x)：
[0044][0045]
其中，所述x为所述源端单词，所述y为所述目标端单词，所述e
src
(x)为所述初始双语词典推断模型中所述源端单词的词向量，所述e
tgt
(y)为所述初始双语词典推断模型中所述目标端单词的词向量，所述y(x)表示所述词对齐模型的翻译表中所述x的翻译目标，所述τ用于指示初始化分布的尖锐程度，所述y
′
为所述词对齐模型的翻译表中所述x的所述翻译目标中的任意一个。
[0046]
在另一种可能的实现方式中，所述提取模块，还用于：
[0047]
根据所述初始双语词典推断模型得到所述词对齐模型的第二初始化概率，所述第二初始化概率不同于所述第一初始化概率；
[0048]
根据所述词对齐模型的所述第二初始化概率，在所述平行语料上进行词对齐的学习得到第二词对齐概率；
[0049]
根据所述第一词对齐概率和所述第二词对齐概率进行双向过滤得到所述目标词典。
[0050]
在另一种可能的实现方式中，所述装置还包括：更新模块；所述更新模块，用于：
[0051]
根据所述目标双语词典推断模型和所述词对齐模型，从所述平行语料中提取更新后的目标词典；
[0052]
根据所述更新后的目标词典和所述初始词典，训练得到更新后的目标双语词典推断模型。
[0053]
在另一种可能的实现方式中，所述装置还包括：获取模块和调用模块；
[0054]
所述获取模块，用于获取输入的源端单词；
[0055]
所述调用模块，用于根据所述源端单词，调用训练得到的所述目标双语词典推断模型，输出得到所述目标端单词。
[0056]
根据本公开的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器；用于存储处理器可执行指令的存储器；
[0057]
其中，所述处理器被配置为：
[0058]
从平行语料中提取目标词典；
[0059]
根据提取出的所述目标词典和预配置的初始词典，训练得到目标双语词典推断模型，所述目标双语词典推断模型是具有将源端单词翻译为目标端单词的神经网络模型；
[0060]
其中，所述目标词典和所述初始词典均包括多个对齐词对，所述对齐词对包括源端单词和目标端单词。
[0061]
根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述的方法。
[0062]
本公开实施例通过从平行语料中提取目标词典，根据提取出的目标词典和预配置的初始词典训练得到目标双语词典推断模型，使得在初始字典的基础上引入平行语料，利用从平行语料中提取的目标词典来丰富目标双语词典推断模型的训练信息，提高了后续的双语词典推断效果。
附图说明
[0063]
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。
[0064]
图1是相关技术中词向量空间映射方式的原理示意图；
[0065]
图2示出了本公开一个示例性实施例提供的计算机设备的结构示意图；
[0066]
图3示出了本公开一个示例性实施例提供的双语词典推断方法的流程图；
[0067]
图4示出了本公开另一个示例性实施例提供的双语词典推断方法的流程图；
[0068]
图5示出了本公开一个示例性实施例提供的双语词典推断方法的原理示意图；
[0069]
图6示出了本公开另一个示例性实施例提供的双语词典推断方法的原理示意图；
[0070]
图7示出了本公开另一个示例性实施例提供的双语词典推断方法的流程图；
[0071]
图8示出了本公开一个示例性实施例提供的双语词典推断装置的结构示意图；
[0072]
图9是根据一示例性实施例示出的一种用于执行双语词典推断方法的装置的框图；
[0073]
图10是根据另一示例性实施例示出的一种用于执行双语词典推断方法的装置的框图。
具体实施方式
[0074]
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。
[0075]
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
[0076]
另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。
[0077]
双语词典推断任务可以在只有少量对齐信号的条件下为机器翻译提供词级别的对齐信息，是低资源或无监督机器翻译系统的重要组成部分。
[0078]
双语词典推断任务包括从大规模单语语料和少量双语词典中用数据驱动的方式自动地生成大规模双语词典，其可行性基于：不同语言的词向量空间可以通过线性变换进行转换。单语词向量在同一空间中表示了一种语言单词之间的关系，如图1所示，左侧的词向量空间表示中文的词向量空间，右侧的词向量空间表示英文的词向量空间。如果不同语言的词向量空间结构类似，就可以用一个线性变换，或正交的线性变换，将一种语言的词向量映射到另一种语言的词向量空间，进而得到一个跨语言的词表示空间。图1中仅示意性地示出了通过一个表示旋转的线性变换将中文的词向量映射到英文词向量的空间的方式，比
如，将中文“狗”的词向量映射到英文“dog”词向量的空间，将中文“猫”的词向量映射到英文“cat”词向量的空间，将中文“马”的词向量映射到英文“horse”词向量的空间，将中文“羊”的词向量映射到英文“sheep”词向量的空间。该跨语言词表示空间刻画了语言内部，以及两种语言之间的词关系。之后可以通过近邻搜索的方法完成双语词典的推断，即对于一个待翻译的源端单词，搜索和它距离最近的目标端单词作为译文。
[0079]
目前常用的双语词典推断方法主要分为两步步骤，第一个步骤是在大规模单语数据上训练两种语言的单语词向量，将每个单词变成一个高维的表示。第二个步骤是训练一个线性映射把源语言的词向量映射到目标语言的词向量空间中。
[0080]
上述的双语词典推断方法在例如英法，英德等距离比较近的语言对上有较好的推断效果。但是对于距离较远的语言对，如中英，中日等而言，效果远没有近距离语言对好，特别是在近义词的区分上会有较多的问题。造成这种现象的主要原因之一是远距离语言对的词向量空间差距较大，需要更多的监督信号才能完成词向量空间之间的转换。此外，相关技术中考虑的监督数据只有词典，而在实际的场景下，对齐信号还会以其他的形式出现:比如平行语料。平行语料中也包含对双语词典推断任务有帮助的对齐信息。
[0081]
为了解决上述技术问题，本公开实施例提供了一种双语词典推断方法、装置及存储介质，本公开实施例通过从平行语料中提取目标词典，根据提取出的目标词典和预配置的初始词典训练得到目标双语词典推断模型，使得在初始字典的基础上引入平行语料，利用从平行语料中提取的目标词典来丰富目标双语词典推断模型的训练信息，提高了后续的双语词典推断效果。
[0082]
首先，对本公开涉及的应用场景进行介绍。
[0083]
请参考图2，其示出了本公开一个示例性实施例提供的计算机设备的结构示意图。
[0084]
该计算机设备可以是终端或者服务器。终端包括平板电脑、膝上型便携计算机和台式计算机等等。服务器可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。
[0085]
如图1所示，计算机设备包括处理器10、存储器20以及通信接口30。本领域技术人员可以理解，图1中示出的结构并不构成对该计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
[0086]
处理器10是计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器20内的软件程序和/或模块，以及调用存储在存储器20内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体控制。处理器10可以由cpu实现，也可以由图形处理器(graphics processing unit，gpu)实现。
[0087]
存储器20可用于存储软件程序以及模块。处理器10通过运行存储在存储器20的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统21、虚拟模块和至少一个功能所需的应用程序(比如神经网络模型训练等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。存储器20可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(static random access memory，sram)，电可擦除可编程只读存储器(electrically erasable programmable read-only memory，eeprom)，可擦除可编程只读存储器(erasable programmable read only memory，eprom)，可编程只读存储器
(programmable read-only memory，prom)，只读存储器(read only memory，rom)，磁存储器，快闪存储器，磁盘或光盘。相应地，存储器20还可以包括存储器控制器，以提供处理器10对存储器20的访问。
[0088]
其中，处理器20用于执行以下功能：从平行语料中提取目标词典；根据提取出的所述目标词典和预配置的初始词典，训练得到目标双语词典推断模型，所述目标双语词典推断模型是具有将源端单词翻译为目标端单词的神经网络模型。下面，采用几个示例性实施例对本公开实施例提供的双语词典推断方法进行介绍。
[0089]
请参考图3，其示出了本公开一个示例性实施例提供的双语词典推断方法的流程图。本实施例以该双语词典推断方法应用于图2所示出的计算机设备来举例说明。该双语词典推断方法包括：
[0090]
步骤301，从平行语料中提取目标词典。
[0091]
计算机设备从平行语料中提取目标词典。其中，平行语料包括多个源端单词和多个源端单词各自平行对应的目标端单词。
[0092]
平行语料为包括由源端单词及其平行对应的目标端单词构成的双语或者多语语料，其对齐程度为词级。平行语料用于指示源端单词与目标端单词之间的映射关系。
[0093]
目标词典包括多个对齐词对，对齐词对包括源端单词和目标端单词。
[0094]
其中，源端单词为第一语言类的单词，目标端单词为第二语言类的单词，第二语言不同于第一语言。比如，第一语言为中文，第二语言为英文。本公开实施例对第一语言和第二语言的类型不加以限定。
[0095]
可选的，源端单词也称为原文单词，该源端单词对应的目标端单词也称为该源端单词的译文单词。
[0096]
步骤302，根据提取出的目标词典和预配置的初始词典，训练得到目标双语词典推断模型，目标双语词典推断模型是具有将源端单词翻译为目标端单词的神经网络模型。
[0097]
其中，初始词典为预配置的词典，初始词典包括多个对齐词对，对齐词对包括源端单词和目标端单词。
[0098]
计算机设备在初始词典的基础上引入平行语料，在从平行语料中提取目标词典之后，计算机设备根据提取出的目标词典和预配置的初始词典，训练得到目标双语词典推断模型。
[0099]
目标双语词典推断模型是采用初始词典和目标词典对神经网络进行训练得到的模型。即目标双语词典推断模型是根据初始词典和目标词典所确定的双语词典推断模型。
[0100]
目标双语词典推断模型是具有将源端单词翻译为目标端单词的神经网络模型。
[0101]
目标双语词典推断模型用于将输入的源端单词转化为目标端单词。
[0102]
目标双语词典推断模型用于表示源端单词与目标端单词之间的映射关系。
[0103]
目标双语词典推断模型为预设的数学模型，该目标双语词典推断模型包括源端单词与目标端单词之间的模型系数。模型系数可以是动态修改的值。
[0104]
综上所述，本公开实施例通过从平行语料中提取目标词典，根据提取出的目标词典和预配置的初始词典训练得到目标双语词典推断模型，使得在初始字典的基础上引入平行语料，利用从平行语料中提取的目标词典来丰富目标双语词典推断模型的训练信息，提高了后续的双语词典推断效果。
[0105]
在本公开实施例中，提出从平行语料中提取额外的词典即目标词典来帮助映射的学习的方案，而相关技术中基于统计的词对齐模型在平行语料较少的情况获得的词典噪音较多，低频词的词对齐学习质量不好。为此，本公开实施例还提出结合已有的双语词典推断模型和统计词对齐模型，更好地从平行语料中提取目标词典，能够保证从平行语料中提取出高质量的词对，进一步提高了远距离语言对的双语词典推断效果。请参考图4，其示出了本公开另一个示例性实施例提供的双语词典推断方法的流程图。本实施例以该双语词典推断方法应用于图2所示出的计算机设备来举例说明。该双语词典推断方法包括：
[0106]
步骤401，根据预配置的单语词向量和初始词典训练得到初始双语词典推断模型。
[0107]
计算机设备根据预配置的单语词向量和初始词典训练得到初始双语词典推断模型。
[0108]
其中，单语词向量和初始词典均为预配置的。预配置的单语词向量为预配置的两种语言各自对应的词向量。两种语言包括第一语言和第二语言。初始词典包括多个对齐词对，对齐词对包括源端单词和目标端单词。源端单词为第一语言类的单词，目标端单词为第二语言类的单词，第二语言不同于第一语言。
[0109]
比如，第一语言为中文，第二语言为英文。本公开实施例对第一语言和第二语言的类型不加以限定。
[0110]
目标双语词典推断模型是采用预配置的单语词向量和初始词典对神经网络进行训练得到的模型。即初始双语词典推断模型是根据预配置的单语词向量和初始词典所确定的双语词典推断模型。
[0111]
计算机设备将预配置的两种语言各自对应的单语词向量分别进行归一化，得到初始化的源端词向量和初始化的目标端词向量；对于初始词典中的每个对齐词对，通过最小化源端单词和目标端单词的csls距离(cross-domain similarity local scaling，跨领域局部相似度)，对映射矩阵进行训练。训练完成后，计算机设备根据源端词向量、目标端词向量和训练后的映射矩阵，得到初始双语词典推断模型。
[0112]
其中，初始双语词典推断模型中包括多个源端单词和多个源端单词各自对应的目标端单词。
[0113]
示意性的，计算机设备对预配置的单语词向量分别进行归一化，得到初始化的源端词向量和初始化的目标端词向量。训练阶段，对于初始词典l中的词对(xi,yi)，通过最小化xi与yi的csls距离来优化映射映矩阵w，公式如下：
[0114]esrc
(xi)＝e
init_src
(xi)w、e
tgt
(yi)＝e
init_tgt
(yi)
[0115][0116]
其中，e
init_src
(xi)为初始化的源端词向量，e
init_tgt
(yi)为初始化的源端词向量，esrc
(xi)为，e
tgt
(yi)为源端词向量，e
tgt
(yi)为目标端词向量。
[0117]
训练完成后，取e
src
(xi)＝e
init_src
(xi)w、e
tgt
(yi)＝e
init_tgt
(yi)得到初始双语词典推断模型。
[0118]
其中，ny(x)表示源端单词x在目标端单词中的k近邻参数，n
x
(y)表示目标端单词y在源端单词钟的k近邻参数，k取10。
[0119]
步骤402，根据初始双语词典推断模型和词对齐模型，从平行语料中提取目标词典。
[0120]
计算机设备根据初始双语词典推断模型和词对齐模型，从平行语料中提取目标词典。
[0121]
可选的，初始双语词典推断模型为rcsls双语词典推断模型，词对齐模型为fast-align词对齐模型。本公开实施例对此不加以限定。
[0122]
可选的，计算机设备根据初始双语词典推断模型得到词对齐模型的第一初始化概率；根据词对齐模型的第一初始化概率，在平行语料上进行词对齐的学习得到第一词对齐概率；根据第一词对齐概率确定目标词典。
[0123]
可选的，计算机设备根据初始双语词典推断模型得到词对齐模型的第一初始化概率，包括：根据初始双语词典推断模型，通过如下公式得到词对齐模型的第一初始化概率p
ini
(y|x)：
[0124][0125]
其中，x为源端单词，y为目标端单词，e
src
(x)为初始双语词典推断模型中源端单词的词向量，e
tgt
(y)为初始双语词典推断模型中目标端单词的词向量，y(x)表示词对齐模型的翻译表中x的翻译目标，τ用于指示初始化分布的尖锐程度，y
′
为词对齐模型的翻译表中x的翻译目标中的任意一个。
[0126]
可选的，y(x)表示词对齐模型的翻译表中x可能的翻译目标。
[0127]
通过以上第一初始化概率的方法，将双语词向量，以及少量词典的信息融入了词对齐，即将跨语言词表示和统计词对齐模型进行结合，如果分别用跨语言和统计词对齐模型从平行语料中提取词对后再进行结合，没有本公开实施例提供的这种第一初始化概率的方案效果好。在计算得到词对齐模型的第一初始化概率之后，计算机设备根据词对齐模型在平行语料上进行词对齐的学习，在词对齐模型收敛后得到第一词对齐概率。
[0128]
可选的，计算机设备根据词对齐模型的第一初始化概率，在平行语料上进行词对齐的学习得到第一词对齐概率，包括：计算机设备根据词对齐模型的第一初始化概率，随机初始化位置对齐概率表；根据第一初始化概率表和初始化的位置对齐概率表，在平行语料上采用em(expectation-maximization algorithm,最大期望算法)算法进行迭代学习，得到第一词对齐概率。
[0129]
计算机设备可以根据第一词对齐概率确定目标词典。但是如果只用单一方向的概率表导出目标词典，噪音依然比较大。因此，本公开实施例还提供了一种双向过滤的方法，计算机设备根据初始双语词典推断模型得到词对齐模型的第二初始化概率，第二初始化概率不同于第一初始化概率；根据词对齐模型的第二初始化概率，在平行语料上进行词对齐
的学习得到第二词对齐概率；根据第一词对齐概率和第二词对齐概率进行双向过滤得到目标词典。
[0130]
其中，第二词对齐概率不同于第一词对齐概率。第一词对齐概率和第二词对齐概率为两个方向的概率表。
[0131]
第一词对齐概率为是源端到目标端进行词对齐学习后得到的翻译概率。第二词对齐概率为目标端到源端进行词对齐学习后得到的翻译概率。
[0132]
可选的，计算机设备根据初始双语词典推断模型得到词对齐模型的第二初始化概率，包括：根据初始双语词典推断模型，通过如下公式得到词对齐模型的第二初始化概率p
ini
(x|y)：
[0133][0134]
其中，x为源端单词，y为目标端单词，e
src
(y)为初始双语词典推断模型中目标端单词的词向量，e
tgt
(x)为初始双语词典推断模型中源端单词的词向量，x(y)表示词对齐模型翻译表中y可能的翻译目标，τ用于指示初始化分布的尖锐程度，x
′
为词对齐模型翻译表中y可能的翻译目标中的任意一个。
[0135]
可选的，计算机设备根据第一词对齐概率和第二词对齐概率的交集，确定目标词典。比如，第一词对齐概率为p
s2t
，第二词对齐概率为p
t2s
，计算机设备通过如下公式确定目标词典l2：
[0136]
l2＝{(x,y)|y＝argmax
y∈y(x)
p
s2t
(y|x)∧x＝argmax
x∈x(y)
p
t2s
(x|y)}
[0137]
其中，x为源端单词，y为目标端单词，y(x)表示词对齐模型翻译表中x可能的翻译目标，x(y)表示词对齐模型翻译表中y可能的翻译目标。
[0138]
本公开实施例对计算机设备根据第一词对齐概率确定目标词典的方式不加以限定。
[0139]
步骤403，根据提取出的目标词典和预配置的初始词典，训练得到目标双语词典推断模型。
[0140]
计算机设备根据提取出的目标词典和预配置的初始词典，训练得到目标双语词典推断模型。
[0141]
其中，目标词典和初始词典均包括多个对齐词对，对齐词对包括源端单词和目标端单词。
[0142]
在一个示意性的例子中，如图5所示，计算机设备根据预配置的单语词向量51和初始词典52训练得到初始的双语词典推断模型53；根据初始的双语词典推断模型53和词对齐模型54，从平行语料55中提取目标词典56；根据提取出的目标词典56和预配置的初始词典52，对双语词典推断模型53进行训练。
[0143]
计算机设备从提取出的目标词典和预配置的初始词典中获取多个对齐词对，对多个对齐词中的每个对齐词对进行预处理得到源端词向量和目标端词向量。其中，预处理包括归一化处理。
[0144]
训练阶段，对于目标词典和初始词典中的每个对齐词对，计算机设备通过最小化源端单词和目标端单词之间的csls距离，对映射矩阵进行训练。训练完成后，计算机设备根
据源端词向量、目标端词向量和训练后的映射矩阵，得到目标双语词典推断模型。
[0145]
需要说明的是，训练得到目标双语词典推断模型的过程可类比参考上述初始双语词典推断模型的训练过程，在此不再赘述。
[0146]
可选地，计算机设备根据提取出的目标词典和预配置的初始词典，计算得到损失函数，根据损失函数训练得到目标双语词典推断模型。
[0147]
损失函数为目标双语词典推断模型在初始词典和目标词典上的损失值之和，比如，目标双语词典推断模型的损失函数loss为：
[0148]
loss＝rcsls(l1) rcsls(l2)
[0149]
其中，目标双语词典推断模型在初始词典l1上的rcsls损失值为rcsls(l1)，目标双语词典推断模型在目标词典l2上的rcsls损失值为rcsls(l2)。
[0150]
在训练得到目标双语词典推断模型之后，为了从平行语料中更好地提取目标词典，可以重新执行生成第一初始化概率的步骤，进行迭代，直到模型的性能收敛，得到更新后的目标双语词典推断模型。即计算机设备根据目标双语词典推断模型和词对齐模型，从平行语料中提取更新后的目标词典；根据更新后的目标词典和初始词典，训练得到更新后的目标双语词典推断模型。
[0151]
需要说明的是，计算机设备根据目标双语词典推断模型和词对齐模型，从平行语料中提取更新后的目标词典的过程可以类比参考上述从平行语料中提取目标词典的相关细节，计算机设备根据更新后的目标词典和初始词典，训练得到更新后的目标双语词典推断模型的过程可以类比参考上述训练目标双语词典推断模型的相关细节，在此不再赘述。
[0152]
在一个示意性的例子中，如图6所示，计算机设备根据预配置的单语词向量61和初始词典62训练得到初始的双语词典推断模型63。根据初始的双语词典推断模型63得到s2t初始化概率；根据s2t初始化概率，s2t词对齐模型在平行语料64上进行词对齐的学习得到s2t词对齐概率；根据初始的双语词典推断模型63得到t2s初始化概率；根据t2s初始化概率，t2s词对齐模型在平行语料64上进行词对齐的学习得到t2s词对齐概率；根据s2t词对齐概率和t2s词对齐概率的交集，确定目标词典65。根据目标词典65和预配置的初始词典62，对双语词典推断模型63进行训练。
[0153]
基于上述训练得到的目标双语词典推断模型，模型使用过程包括但不限于如下几个步骤，如图7所示：
[0154]
步骤701，计算机设备获取输入的源端单词。
[0155]
可选的，计算机设备在接收到翻译指令后，获取输入的待翻译的源端单词。源端单词为第一语言类的单词。比如，第一语言为中文。
[0156]
步骤702，计算机设备根据源端单词，调用训练得到的目标双语词典推断模型，输出得到目标端单词。
[0157]
可选的的，该目标双语词典推断模型应用于机器翻译领域中，源端单词为待翻译的第一语言类的单词，目标端单词为翻译后的第二语言类的单词。第二语言不同于第一语言。比如，第二语言为英文。本公开实施例对第一语言和第二语言的类型不加以限定。
[0158]
计算机设备获取训练得到的目标双语词典推断模型，将源端单词输入至目标双语词典推断模型中，输出得到译文单词即目标端单词。其中，该目标双语词典推断模型为上述各个方法实施例中训练得到的目标双语词典推断模型。
[0159]
综上所述，本公开实施例提供了一种双语词典推断方法，在一方面，本公开实施例通过在初始字典的基础上引入平行语料，利用从平行语料中提取的目标词典来丰富目标双语词典推断模型的训练信息，提高了后续的双语词典推断效果；在另一方面，计算机设备根据初始双语词典推断模型和词对齐模型，从平行语料中提取目标词典，即结合了跨语言词表示和基于统计的词对齐模型，利用各自的优势从数据中进行学习；在另一方面，计算机设备根据初始双语词典推断模型得到词对齐模型的第一初始化概率，提高了词对齐模型的性能；在另一方面，计算机设备根据第一词对齐概率和第二词对齐概率进行双向过滤得到目标词典，保证了目标词典的质量，进而帮助目标双语词典推断模型的学习；另一方面，计算机设备根据目标双语词典推断模型和词对齐模型，从平行语料中提取更新后的目标词典；根据更新后的目标词典和初始词典，训练得到更新后的目标双语词典推断模型，迭代地训练词对齐模型和目标双语词典推断模型，充分挖掘平行语料中的信息。
[0160]
从应用层面来说，本公开实施例提供的双语词典推断方法，可以适用于不同的远距离语言对；可以同时利用已有的平行语料和词典数据，适应不同的信息规模；无需训练深度神经网络模型，效率较高；可以兼容其他的词对齐模型或双语词典推断模型；在训练目标双语词典推断模型的同时也训练出了词对齐模型。
[0161]
以下为本公开实施例的装置实施例，对于装置实施例中未详细阐述的部分，可以参考上述方法实施例中公开的技术细节。
[0162]
请参考图8，其示出了本公开一个示例性实施例提供的双语词典推断装置的结构示意图。该双语词典推断装置可以通过软件、硬件以及两者的组合实现成为计算机设备的全部或一部分。该装置包括：提取模块810和训练模块820。
[0163]
提取模块810，用于从平行语料中提取目标词典；
[0164]
训练模块820，用于根据提取出的目标词典和预配置的初始词典，训练得到目标双语词典推断模型，目标双语词典推断模型是具有将源端单词翻译为目标端单词的神经网络模型；
[0165]
其中，目标词典和初始词典均包括多个对齐词对，对齐词对包括源端单词和目标端单词。
[0166]
在一种可能的实现方式中，提取模块810，用于：
[0167]
根据预配置的单语词向量和初始词典训练得到初始双语词典推断模型；
[0168]
根据初始双语词典推断模型和词对齐模型，从平行语料中提取目标词典。
[0169]
在另一种可能的实现方式中，提取模块810，还用于：
[0170]
根据初始双语词典推断模型得到词对齐模型的第一初始化概率；
[0171]
根据词对齐模型的第一初始化概率，在平行语料上进行词对齐的学习得到第一词对齐概率；
[0172]
根据第一词对齐概率确定目标词典。
[0173]
在另一种可能的实现方式中，提取模块810，还用于：
[0174]
根据初始双语词典推断模型，通过如下公式得到词对齐模型的第一初始化概率p
ini
(y|x)：
[0175][0176]
其中，x为源端单词，y为目标端单词，e
src
(x)为初始双语词典推断模型中源端单词的词向量，e
tgt
(y)为初始双语词典推断模型中目标端单词的词向量，y(x)表示词对齐模型的翻译表中x的翻译目标，τ用于指示初始化分布的尖锐程度，y
′
为词对齐模型的翻译表中x的翻译目标中的任意一个。
[0177]
在另一种可能的实现方式中，提取模块810，还用于：
[0178]
根据初始双语词典推断模型得到词对齐模型的第二初始化概率，第二初始化概率不同于第一初始化概率；
[0179]
根据词对齐模型的第二初始化概率，在平行语料上进行词对齐的学习得到第二词对齐概率；
[0180]
根据第一词对齐概率和第二词对齐概率进行双向过滤得到目标词典。
[0181]
在另一种可能的实现方式中，装置还包括：更新模块；更新模块，用于：
[0182]
根据目标双语词典推断模型和词对齐模型，从平行语料中提取更新后的目标词典；
[0183]
根据更新后的目标词典和初始词典，训练得到更新后的目标双语词典推断模型。
[0184]
在另一种可能的实现方式中，装置还包括：获取模块和调用模块；
[0185]
获取模块，用于获取输入的源端单词；
[0186]
调用模块，用于根据源端单词，调用训练得到的目标双语词典推断模型，输出得到目标端单词。
[0187]
需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
[0188]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0189]
本公开实施例还提供了一种计算机设备，计算机设备包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：实现上述各个方法实施例中由计算机设备执行的步骤。
[0190]
本公开实施例还提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述各个方法实施例中的方法。
[0191]
图9是根据一示例性实施例示出的一种用于执行双语词典推断方法的装置900的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
[0192]
参照图9，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(i/o)的接口912，传感器组件914，以及通信组件916。
[0193]
处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相
机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。
[0194]
存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0195]
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。
[0196]
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0197]
音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(mic)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。
[0198]
i/o接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
[0199]
传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到装置900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
[0200]
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(nfc)模块，以促进短程通信。例
如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0201]
在示例性实施例中，装置900可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
[0202]
在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器904，上述计算机程序指令可由装置900的处理器920执行以完成上述方法。
[0203]
图10是根据另一示例性实施例示出的一种用于执行双语词典推断方法的装置1000的框图。例如，装置1000可以被提供为一服务器。参照图10，装置1000包括处理组件1022，其进一步包括一个或多个处理器，以及由存储器1032所代表的存储器资源，用于存储可由处理组件1022的执行的指令，例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1022被配置为执行指令，以执行上述方法。
[0204]
装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理，一个有线或无线网络接口1050被配置为将装置1000连接到网络，和一个输入输出(i/o)接口1058。装置1000可以操作基于存储在存储器1032的操作系统，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm或类似。
[0205]
在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1032，上述计算机程序指令可由装置1000的处理组件1022执行以完成上述方法。
[0206]
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
[0207]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0208]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0209]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c 等，以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。
[0210]
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。
[0211]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0212]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0213]
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0214]
以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：卷积神经网络与证据推理融合的AC/DC变换器故障诊断方法与流程

双语词典推断方法、装置及存储介质与流程

相关文献

最热文献