一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

机器翻译方法、装置、计算机设备和存储介质与流程

2022-09-04 04:58:39 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,特别是涉及一种机器翻译方法、装置、计算机设备和存储介质。


背景技术:

2.随着人工智能技术的发展,出现了基于神经网络的机器翻译技术,机器翻译是指利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。基于神经网络的机器翻译技术的核心是一个拥有海量结点(神经元)的深度神经网络,可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文,实现了“理解语言,生成译文”的翻译方式。
3.传统技术中,机器翻译通常采用编码器-解码器结构,实现对变长输入句子的建模,编码器实现对源语言句子的"理解",形成一个特定维度的浮点数向量,之后解码器根据此向量逐字生成目标语言的翻译结果。
4.然而,传统方法,在应用于存在领域专有名词的专业领域时,存在翻译不准确的问题。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够实现准确翻译的机器翻译方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
6.第一方面,本技术提供了一种机器翻译方法。所述方法包括:
7.获取待翻译源语言数据;
8.对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
9.将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
10.将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
11.在其中一个实施例中,对待翻译源语言数据中单词进行正向最大匹配,确定待翻译源语言数据中的领域专有名词包括:
12.将待翻译源语言数据中单词作为待匹配单词;
13.对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词;
14.根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
15.在其中一个实施例中,对待匹配单词进行正向最大匹配,得到与待匹配单词对应
的领域专有名词包括:
16.当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词;
17.联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组;
18.当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词;
19.联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤;
20.直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
21.在其中一个实施例中,机器翻译方法还包括:
22.获取样本翻译句子对集合以及初始机器翻译模型;
23.计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值;
24.根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合;
25.根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
26.在其中一个实施例中,获取样本翻译句子对集合包括:
27.获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对;
28.对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度;
29.根据分词结果和字符长度,对原始翻译句子对集合进行过滤;
30.将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
31.在其中一个实施例中,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合包括:
32.根据单词数比值进行统计,得到与单词数比值对应的数据分布;
33.根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
34.在其中一个实施例中,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型包括:
35.根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型;
36.获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集;
37.根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合;
38.根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
39.第二方面,本技术还提供了一种机器翻译装置。所述装置包括:
40.获取模块,用于获取待翻译源语言数据;
41.匹配模块,用于对所述待翻译源语言数据进行正向最大匹配,确定所述待翻译源语言数据中的领域专有名词;
42.翻译模块,用于将所述领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将所述待翻译源语言数据输入所述目标机器翻译模型进行翻译,得到翻译目标语言数据,所述目标机器翻译模型通过对样本数据训练得到;
43.替换模块,用于将所述专有名词翻译结果替换所述翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
44.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
45.获取待翻译源语言数据;
46.对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
47.将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
48.将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
49.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
50.获取待翻译源语言数据;
51.对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
52.将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
53.将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
54.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
55.获取待翻译源语言数据;
56.对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
57.将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
58.将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
59.上述机器翻译方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待翻译源语言数据,对待翻译源语言数据进行正向最大匹配,能够确定待翻译源语言数据中的领域专有名词,通过将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,能够提高目标机器翻译模型对领域专有名词翻译的准确性,得到翻译准确的机器翻译结果。
附图说明
60.图1为一个实施例中机器翻译方法的流程示意图;
61.图2为另一个实施例中机器翻译方法的流程示意图;
62.图3为又一个实施例中机器翻译方法的流程示意图;
63.图4为一个实施例中机器翻译装置的结构框图;
64.图5为一个实施例中计算机设备的内部结构图。
具体实施方式
65.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
66.在一个实施例中,如图1所示,提供了一种机器翻译方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
67.步骤102,获取待翻译源语言数据。
68.其中,待翻译源语言数据是指需要翻译的数据。比如,在将中文翻译为英文的机器翻译中,待翻译源语言数据是指中文。又比如,在将英文翻译为中文的机器翻译中,待翻译源语言数据是指英文。
69.具体的,在需要进行机器翻译时,终端会获取到待翻译源语言数据。
70.步骤104,对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词。
71.其中,正向最大匹配是指在待翻译源语言数据中一次类推取出最大的、可以与预设专有名词词典匹配的词组。领域专有名词是指在领域内所特有的名词。比如,在医疗领域,领域专有名词具体可以是指病症名称、药品名称等。
72.具体的,终端会对待翻译源语言数据进行分词,得到待翻译源语言数据中单词,将待翻译源语言数据中单词作为待匹配单词,利用预设专有名词词典对待匹配单词进行正向
最大匹配,得到与待匹配单词对应的领域专有名词,根据所得到的待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。其中,预设专有名词词典是指预先设置的由领域内专有名词组成的词典。比如,在医疗领域,预设专有名词词典是指由医疗领域内病症名词、药品名词等专有名词组成的词典。
73.步骤106,将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到。
74.其中,目标机器翻译模型是指通过对样本数据训练所得到的,可用于机器翻译的模型,能够将待翻译源语言数据翻译为翻译目标语言数据。样本数据具体可以为包括样本翻译句子对的样本翻译句子对集合,样本翻译句子对是指包括样本源语言数据和样本目标语言数据的句子对,样本目标语言数据为样本源语言数据的翻译结果。专有名词翻译结果是指目标机器翻译模型所输出的、对领域专有名词的翻译结果。翻译目标语言数据是指目标机器翻译模型所输出的、对待翻译源语言数据的翻译结果。
75.具体的,终端会在待翻译源语言数据中标注出领域专有名词,得到标注结果,将领域专有名词输入目标机器翻译模型进行翻译,目标机器翻译模型会输出专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据。
76.进一步的,目标机器翻译模型可以包括至少两个子机器翻译模型,即终端可以通过训练多个随机失活率不同的子机器翻译模型来对待翻译源语言数据进行翻译,在对待翻译源语言数据进行翻译时,终端会将待翻译源语言数据输入子机器翻译模型,得到与子机器翻译模型对应的翻译结果,在翻译结果中包括对于待翻译源语言数据中每个单词预测得到对应单词的单词概率,在得到这个单词概率后,终端会对每个子机器翻译模型所输出的翻译结果中相同单词的单词概率做排序,根据排序结果确定与单词对应的最优预测结果,即最优翻译结果,根据与每个单词对应的最优翻译结果,得到对应的翻译目标语言数据。其中,在做排序后,终端会确定针对每个单词的最大单词概率,将该最大单词概率对应的单词作为最优预测结果。
77.步骤108,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
78.具体的,在得到专有名词翻译结果和翻译目标语言数据后,终端会根据对待翻译源语言数据的标注结果,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
79.上述机器翻译方法,通过获取待翻译源语言数据,对待翻译源语言数据进行正向最大匹配,能够确定待翻译源语言数据中的领域专有名词,通过将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,能够提高目标机器翻译模型对领域专有名词翻译的准确性,得到翻译准确的机器翻译结果。
80.在一个实施例中,对待翻译源语言数据中单词进行正向最大匹配,确定待翻译源语言数据中的领域专有名词包括:
81.将待翻译源语言数据中单词作为待匹配单词;
82.对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词;
83.根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
84.具体的,终端会对待翻译源语言数据进行分词,得到待翻译源语言数据中单词,将待翻译源语言数据中单词作为待匹配单词,比对待匹配单词和预设专有名词词典,以确定预设专有名词词典中是否存在与待匹配单词对应的匹配单词,并在预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,继续通过比对待匹配词组和预设专有名词词典进行正向最大匹配,得到与待匹配单词对应的领域专有名词。
85.具体的,由于不同的待匹配单词之间所对应的领域专有名词可能有重复,因此,在得到与待匹配单词对应的领域专有名词后,终端会对与待匹配单词对应的领域专有名词进行去重,以得到待翻译源语言数据中的领域专有名词。
86.本实施例中,通过将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,能够得到与待匹配单词对应的领域专有名词,从而可以根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
87.在一个实施例中,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词包括:
88.当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词;
89.联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组;
90.当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词;
91.联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤;
92.直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
93.具体的,在对待匹配单词进行正向最大匹配时,终端会将待匹配单词与预设专有名词词典进行匹配,当预设专有名词词典中存在与待匹配单词对应的匹配单词时,终端会获取待翻译源语言数据中待匹配单词对应的下一单词,即位置处于待匹配单词之后的下一个单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,继续比对待匹配词组和预设专有名词词典,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,终端会继续获取待翻译源语言数据中待匹配词组对应的下一单词,即位置处于待匹配词组之后的下一个单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
94.本实施例中,通过当预设专有名词词典中存在与待匹配单词对应的匹配单词时,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,继续对待匹配词组和预设专有名词词典继续匹配,能够通过正向最大匹配,得到与待匹配单词对应的领域专有名词。
95.在一个实施例中,机器翻译方法还包括:
96.获取样本翻译句子对集合以及初始机器翻译模型;
97.计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值;
98.根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合;
99.根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
100.其中,初始机器翻译模型是指尚未进行参数训练的机器翻译模型。源语言单词数是指样本翻译句子对中源语言的单词总数,目标语言单词数是指样本翻译句子对中目标语言的单词总数。比如,在中文翻译为英文的样本翻译句子对中,源语言单词数是指样本翻译句子对中中文单词总数,目标语言单词数是指样本翻译句子对中英文单词总数。又比如,在英文翻译为中文的样本翻译句子对中,源语言单词数是指样本翻译句子对中英文单词总数,目标语言单词数是指样本翻译句子对中中文单词总数。需要说明的是,在样本翻译句子对中包括真实翻译句子对以及反翻译句子对,真实翻译句子对是指利用原始源语言数据进行翻译,得出对应的原始目标语言数据后,所得到的翻译句子对。反翻译句子对是指利用原始目标语言数据进行翻译,得出对应的原始源语言数据后,所得到的翻译句子对,通过同时利用真实翻译句子对以及反翻译句子对进行训练,可以提高模型的准确率。
101.具体的,在进行机器翻译之前,需要先训练得到目标机器翻译模型,在进行模型训练时,终端会获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中每个样本翻译句子对的单词数比值,根据单词数比值,得到与单词数比值对应的数据分布,利用数据分布对样本翻译句子对集合中样本翻译句子对进行过滤,得到过滤后样本翻译句子对集合,利用过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
102.本实施例中,通过计算样本翻译句子对集合中样本翻译句子对的单词数比值,能够利用单词数比值对样本翻译句子对集合进行过滤,过滤掉偏离样本提高模型翻译训练的质量,减少无关的数据噪音,利用根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到能够实现支持准确翻译的目标翻译机器模型。
103.在一个实施例中,获取样本翻译句子对集合包括:
104.获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对;
105.对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度;
106.根据分词结果和字符长度,对原始翻译句子对集合进行过滤;
107.将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
108.其中,原始翻译句子对包括真实翻译句子对以及反翻译句子对。
109.具体的,在获取样本翻译句子对集合时,终端会先获取原始翻译句子对集合,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,过滤掉句子长度大于预设句子长度阈值和/或单词数大于预设单词数阈值的原始源语言数据所对应的原始翻译句子对,并过滤掉字符长度大于预设字符长度阈值的原始目标语言数据所对应的原始翻译句子对,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。其中,预设句子长度阈值、预设单词数阈值以及预设字符长度阈值均可按照需要自行设置,本实施例在此处不做具体限定。
110.进一步的,在获取原始翻译句子对集合时,终端需要先获取未整合的真实翻译句子对以及反翻译句子对,通过去重操作对真实翻译句子对以及反翻译句子对进行整合,以得到原始翻译句子对集合。其中,可以采用simhash的算法进行语句的去重,其核心思想为:针对每一个待去重文本进行simhash映射,将simhash值分段建立倒排索引,在每一个分段的hash值中并行化去重操作。
111.本实施例中,通过获取原始翻译句子对集合,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分词结果和字符长度,对原始翻译句子对集合进行过滤,能够过滤掉偏离样本提高模型翻译训练的质量,减少无关的数据噪音。
112.在一个实施例中,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合包括:
113.根据单词数比值进行统计,得到与单词数比值对应的数据分布;
114.根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
115.具体的,终端通过对单词数比值进行统计,能够得到与单词数比值对应的数据分布,从而可以根据数据分布以及预设比例阈值,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。其中,预设比例阈值可按照需要自行设置,本实施例在此处不做具体限定。进一步的,预设比例阈值可以包括第一比例阈值以及第二比例阈值,其中第一比例阈值用于过滤掉单词数比值较小的样本翻译句子对,第二比例阈值用于过滤掉单词数比值较大的样本翻译句子对。
116.本实施例中,通过根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,能够过滤掉偏离样本提高模型翻译训练的质量,减少无关的数据噪音。
117.在一个实施例中,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型包括:
118.根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型;
119.获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集;
120.根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合;
121.根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译
模型进行训练,得到目标机器翻译模型。
122.其中,翻译评估源语言数据集是指用于对翻译模型进行评估的数据集。比如,翻译评估源语言数据集具体可以是指国际机器翻译大赛的评估集。
123.具体的,终端在根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练后,会得到待优化机器翻译模型,还需要通过对待优化机器翻译模型进行优化,才能得到目标机器翻译模型。在进行优化时,终端会先获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,再将翻译评估源语言数据集和翻译评估目标语言数据集作为翻译评估翻译句子对集合,利用过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
124.进一步的,在得到翻译评估翻译句子对集合后,终端会先对翻译评估翻译句子对集合进行过滤,再根据过滤后样本翻译句子对集合和过滤后翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到待更新机器翻译模型,利用待更新机器翻译模型,对过滤后翻译评估翻译句子对集合中翻译评估源语言进行翻译,得到与翻译评估源语言对应的翻译评估目标语言,利用翻译评估目标语言对过滤后翻译评估翻译句子对集合进行更新,即替换翻译评估翻译句子对集合中翻译评估源语言对应的翻译结果,再利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到目标机器翻译模型。
125.进一步的,在对翻译评估翻译句子对集合进行过滤时所采用的方式,与对原始翻译句子对集合和样本翻译句子对集合进行过滤时所采用的方式相同,本实施例在此处不再撰述。在利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到目标机器翻译模型时,终端可通过迭代训练得到目标机器翻译模型,即终端会利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到新的待更新机器翻译模型,再返回利用待更新机器翻译模型,对过滤后翻译评估翻译句子对集合中翻译评估源语言进行翻译的步骤,直到迭代次数达到预先设置的迭代阈值为止,根据最新的待更新机器翻译模型得到目标机器翻译模型。
126.进一步的,在得到最新的待更新机器翻译模型后,终端还会获取领域内专业语料,利用领域内专业语料对最新的待更新机器翻译模型进行训练,得到目标机器翻译模型。
127.本实施例中,通过根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,能够根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行优化训练,得到目标机器翻译模型。
128.在一个实施例中,机器翻译方法还包括:
129.通过预训练专有名词识别模型,对待翻译源语言数据进行专有名词识别,根据识别结果扩充预设专有名词词典。
130.具体的,由于预设专有名词词典中的专有名词数量有限,因此,在进行机器翻译时,终端会通过预训练专有名词识别模型,对待翻译源语言数据进行专有名词识别,以根据
识别结果扩充预设专有名词词典,以便在匹配时能够识别出更多的专有名词。其中,预训练专有名词识别模型通过对携带序列标注的样本专有名词集进行训练得到。
131.具体的,预训练专有名词识别模型具体可以为bert(bidirectional encoder representation from transformers,基于转换器的双向编码表征) crf(conditional random field,条件随机场)模型,在输入待翻译源语言数据时,其会根据序列条件来将翻译的词进行条件概率的打散分布,通过bert模型可实现对待翻译源语言数据的标注,识别出专有名词,在识别出来之后,通过接入crf模型,可判断所识别出的专有名词是否准确。比如,当识别出某名词的标签为biii时,若crf模型可判断该名词的标签是否准确,即是否确实为biii,从而可以实现对专有名词的识别。
132.在一个实施例中,如图2所示,通过一个流程示意图来说明本技术的机器翻译方法,该机器翻译方法具体包括以下步骤:
133.步骤202,获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对;
134.步骤204,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度;
135.步骤206,根据分词结果和字符长度,对原始翻译句子对集合进行过滤;
136.步骤208,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合;
137.步骤210,获取初始机器翻译模型;
138.步骤212,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值;
139.步骤214,根据单词数比值进行统计,得到与单词数比值对应的数据分布;
140.步骤216,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合;
141.步骤218,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型;
142.步骤220,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集;
143.步骤222,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合;
144.步骤224,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型;
145.步骤226,获取待翻译源语言数据;
146.步骤228,将待翻译源语言数据中单词作为待匹配单词;
147.步骤230,当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词;
148.步骤232,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组;
149.步骤234,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词;
150.步骤236,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回步骤234;
151.步骤238,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词;
152.步骤240,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词;
153.步骤242,将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据;
154.步骤244,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
155.在一个实施例中,以上述机器翻译方法应用于医疗领域中英翻译为例,对本技术的机器翻译方法进行说明,如图3所示,该机器翻译方法具体包括以下步骤:
156.首先,终端会获取真实翻译句子对(即中-英句子对),在获取到中-英句子对后,终端会利用预先训练的反翻译模型(即英-中机器翻译模型)对真实翻译句子对进行反翻译,得到反翻译句子对,将真实翻译句子对和反翻译句子对,作为原始翻译句子对集合。其中,终端会将真实翻译句子对中英文数据输入预先训练反翻译模型,以得到与英文数据对应的中文翻译,将英文数据与中文翻译作为真实翻译句子对所对应的反翻译句子对。通过数据反翻译可以一定的提高模型的准确率。其中,在预先训练反翻译模型时,终端可以通过对真实翻译句子对进行数据处理,得到用于训练的反翻译样本对,再利用反翻译样本对训练英-中机器翻译模型。其中,数据处理的方式可以为,将真实翻译句子对中的源语言数据(即中文)作为目标语言数据,将目标语言数据(即英文)作为源语言数据,得到需要过滤的翻译样本,并对需要过滤的翻译样本进行过滤,得到反翻译样本。举例说明,未训练反翻译模型具体可以为基于transformer-big模型,该进行训练时,该未训练反翻译模型会将输入的单词转为词向量,它包括token embedding(标记嵌入)和position embedding(位置嵌入)两层,编码之后的词向量再分别的流向encoder(编码)里面的两层网络,最后通过矩阵转化训练得出文本的关联度,即可得到反翻译模型。需要说明的是,在对需要过滤的翻译样本对进行过滤时,所采用的过滤方式与上述实施例中对原始翻译句子对以及样本翻译句子对的过滤方式一致,本实施例在此处不再撰述。
157.在得到原始翻译句子对集合之后,终端可以利用原始翻译句子对进行模型训练得到待优化机器翻译模型,即中-英机器翻译模型训练。其中,在进行模型训练之前,终端还需要对原始翻译句子对集合中的真实翻译句子对(即中-英句子对)进行数据处理(即过滤),得到用于训练的过滤后样本翻译句子对集合。其中,具体的过滤方式可以为:终端会对原始翻译句子对集合中原始中文数据进行分词处理,过滤掉句子长度大于200或者单词数量大于150个的原始中文数据对应的原始翻译句子对,再统计一次过滤后原始翻译句子对集合中原始英文数据中每个英文单词的字符长度,过滤掉最大字符长度大于40的原始英文数据对应的原始翻译句子对,得到样本翻译句子对集合,计算样本翻译句子对集合中样本翻译句子对的单词数比值,即(源中文单词数/目标英文单词数)的数值,通过高斯分布进行统计分析,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,过滤掉单词数比值小于第一比例阈值和大于第二比例阈值的样本翻译句子对,得到过滤后样本翻译句子对集合,通过多重过滤,可以过滤掉偏离值提高模型翻译训练的质量。减
少无关的数据噪音。
158.在得到过滤后样本翻译句子对集合后,终端会根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,通过调试合适的learning rate(学习率),batch size(批量大小),step(步长)以及相关的一些参数信息,得到待优化机器翻译模型,以此实现中-英机器翻译模型训练。
159.在得到待优化机器翻译模型后,终端会获取过滤过后的国际机器翻译大赛中医疗领域内的评估集(领域内数据),即翻译评估源语言数据集,利用该翻译评估源语言数据集对待优化机器翻译模型进行模型微调,以实现优化。其中,模型微调也就是冻结之前大批量模型训练的相关损失、参数权重等一系列参数,再这些参数基础上进行小批量的模型训练。需要说明的是,对国际机器翻译大赛中医疗领域内的评估集进行过滤的方式与上述实施例中对原始翻译句子对以及样本翻译句子对的过滤方式一致,本实施例在此处不再撰述。
160.在利用该翻译评估源语言数据集对待优化机器翻译模型进行模型微调,以实现优化时,终端会先通过待优化机器翻译模型对翻译评估中文集中翻译评估中文进行翻译(即数据翻译,单语种中文数据),得到翻译评估英文集,根据待翻译评估中文集和待翻译评估英文集,得到翻译评估翻译句子对集合,对翻译评估翻译句子对集合进行过滤,根据过滤后样本翻译句子对集合和过滤后的翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型,其中,对翻译评估翻译句子对集合进行过滤的方式与上述实施例中对原始翻译句子对以及样本翻译句子对的过滤方式一致,本实施例在此处不再撰述。在进行训练时,优选的,训练步长为一百万步,批量大小为三千。
161.进一步的,在对待优化机器翻译模型进行训练,得到目标机器翻译模型时,终端通过对待优化机器翻译模型进行训练,会先得到待更新机器翻译模型,利用待更新机器翻译模型,对过滤后翻译评估翻译句子对集合中翻译评估源语言进行翻译,得到与翻译评估源语言对应的翻译评估目标语言,利用翻译评估目标语言对过滤后翻译评估翻译句子对集合进行更新,即替换翻译评估翻译句子对集合中翻译评估源语言对应的翻译结果,再利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到目标机器翻译模型,即医疗领域机器翻译模型。
162.进一步的,在利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到目标机器翻译模型时,终端可通过迭代训练得到目标机器翻译模型,即终端会利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到新的待更新机器翻译模型,再返回利用待更新机器翻译模型,对过滤后翻译评估翻译句子对集合中翻译评估源语言进行翻译的步骤,直到迭代次数(即图3中的n)达到预先设置的迭代阈值为止,得到最新的待更新机器翻译模型,获取领域内专业语料(即医疗领域数据),利用领域内专业语料对最新的待更新机器翻译模型进行训练(即通过医疗领域数据进行模型微调),得到目标机器翻译模型(即医疗领域机器翻译模型)。
163.在得到目标机器翻译模型后,终端会获取待翻译中文,将待翻译中文中单词作为待匹配单词,利用医疗数据专业词典进行正向最大匹配,得到与待匹配单词对应的领域专有名词。即当预设专有名词词典(即医疗数据专业词典)中存在与待匹配单词对应的匹配单词时,获取待翻译中文中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应
的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译中文中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
164.在得到与待匹配单词对应的领域专有名词后,终端会根据与待匹配单词对应的领域专有名词,确定待翻译中文中的领域专有名词,将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译中文输入目标机器翻译模型进行翻译,得到翻译目标语言数据,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果(即翻译结果输出)。
165.进一步的,终端可以通过实体识别的方式得到医疗数据专业词典,具体的,终端会获取携带序列标注的样本专有名词集,通过对携带序列标注的样本专有名词集进行训练得到预训练专有名词识别模型,从而可以在进行机器翻译时,终端通过预训练专有名词识别模型,对待翻译源语言数据进行专有名词识别,以根据识别结果扩充预设专有名词词典,以便在匹配时能够识别出更多的专有名词。具体的,预训练专有名词识别模型具体可以为bert(bidirectional encoder representation from transformers,基于转换器的双向编码表征) crf(conditional random field,条件随机场)模型,在输入待翻译源语言数据时,其会根据序列条件来将翻译的词进行条件概率的打散分布,通过bert模型可实现对待翻译源语言数据的标注,识别出专有名词,在识别出来之后,通过接入crf模型,可判断所识别出的专有名词是否准确。比如,当识别出某名词的标签为biii时,若crf模型可判断该名词的标签是否准确,即是否确实为biii,从而可以实现对专有名词的识别。
166.进一步的,终端可利用多模型融合得到翻译目标语言数据,此时,目标机器翻译模型可以包括至少两个子机器翻译模型,即终端可以通过训练多个随机失活率不同的子机器翻译模型来对待翻译源语言数据进行翻译,在对待翻译源语言数据进行翻译时,终端会将待翻译源语言数据输入子机器翻译模型,得到与子机器翻译模型对应的翻译结果,在翻译结果中包括对于待翻译源语言数据中每个单词预测得到对应单词的单词概率,在得到这个单词概率后,终端会对每个子机器翻译模型所输出的翻译结果中相同单词的单词概率做排序,根据排序结果确定与单词对应的最优预测结果,即最优翻译结果,根据与每个单词对应的最优翻译结果,得到对应的翻译目标语言数据。其中,在做排序后,终端会确定针对每个单词的最大单词概率,将该最大单词概率对应的单词作为最优预测结果。
167.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
168.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的机器翻
译方法的机器翻译装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个机器翻译装置实施例中的具体限定可以参见上文中对于机器翻译方法的限定,在此不再赘述。
169.在一个实施例中,如图4所示,提供了一种机器翻译装置,包括:获取模块402、匹配模块404、翻译模块406和替换模块408,其中:
170.获取模块402,用于获取待翻译源语言数据;
171.匹配模块404,用于对所述待翻译源语言数据进行正向最大匹配,确定所述待翻译源语言数据中的领域专有名词;
172.翻译模块406,用于将所述领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将所述待翻译源语言数据输入所述目标机器翻译模型进行翻译,得到翻译目标语言数据,所述目标机器翻译模型通过对样本数据训练得到;
173.替换模块408,用于将所述专有名词翻译结果替换所述翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
174.上述机器翻译装置,通过获取待翻译源语言数据,对待翻译源语言数据进行正向最大匹配,能够确定待翻译源语言数据中的领域专有名词,通过将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,能够提高目标机器翻译模型对领域专有名词翻译的准确性,得到翻译准确的机器翻译结果。
175.在一个实施例中,匹配模块还用于将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
176.在一个实施例中,匹配模块还用于当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
177.在一个实施例中,机器翻译装置还包括模型训练模块,模型训练模块用于获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
178.在一个实施例中,模型训练模块还用于获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分
词结果和字符长度,对原始翻译句子对集合进行过滤,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
179.在一个实施例中,模型训练模块还用于根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
180.在一个实施例中,模型训练模块还用于根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
181.上述机器翻译装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
182.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种机器翻译方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
183.本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
184.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
185.获取待翻译源语言数据;
186.对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
187.将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
188.将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结
果。
189.在一个实施例中,处理器执行计算机程序时还实现以下步骤:将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
190.在一个实施例中,处理器执行计算机程序时还实现以下步骤:当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
191.在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
192.在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分词结果和字符长度,对原始翻译句子对集合进行过滤,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
193.在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
194.在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
195.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
196.获取待翻译源语言数据;
197.对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
198.将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将
待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
199.将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
200.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
201.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
202.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
203.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分词结果和字符长度,对原始翻译句子对集合进行过滤,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
204.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
205.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
206.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
207.获取待翻译源语言数据;
208.对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
209.将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
210.将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
211.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
212.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
213.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
214.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分词结果和字符长度,对原始翻译句子对集合进行过滤,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
215.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
216.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
217.需要说明的是,本技术所涉及的数据(包括但不限于用于分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
218.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
219.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
220.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献