一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种相似领域机器翻译引擎自动选择方法与流程

2022-03-23 07:34:56 来源:中国专利 TAG:

1.本发明涉及语言翻译领域,尤其涉及一种相似领域机器翻译引擎自动选择方法。


背景技术:

2.随着机器翻译技术的进步,使用机器翻译引擎辅助翻译已经成为越来越多的翻译领域从业人员的选择。然而,就像不同的翻译专家擅长不同语言、不同领域的翻译内容,机器翻译引擎也可以按照语言和领域进行划分。语种识别作为一种成熟的技术方案,可以自动的判断待翻译的文本所属的语种,从而自动选择相应语种方向的机器翻译引擎。但是,对待翻译文本从多个领域机器翻译引擎中,精准地自动选择最合适的翻译引擎仍然是一个难题。
3.目前,对待翻译文本选择领域机器翻译引擎时,一般是粗略地将文本按照金融、科技、教育等大的领域进行划分,然后选择对应的机器翻译引擎。实际上,在专业地翻译领域,很多时候我们需要选择更加细分的机器翻译引擎,比如对一份工程领域文本,可能有路桥工程机器翻译引擎、港口工程机器翻译引擎、铁路工程机器翻译引擎等多个选择。因此,提出一种针对相似领域的机器翻译引擎自动选择方法。


技术实现要素:

4.本发明的目的在于针对上述现有技术的不足,提供了一种相似领域机器翻译引擎自动选择方法。
5.为实现上述目的,本发明采用了如下技术方案:
6.本发明提供了一种相似领域机器翻译引擎自动选择方法,包括,
7.s1、构建机器翻译引擎的领域表达语料;
8.s2、向量化领域表达语料,并利用聚类方法对向量进行索引存储;
9.s3、将待翻译文本转化为向量表达,对所述向量从检索数据库中检索相似度最大的n个向量;
10.s4、根据相似度和检索到向量所表达的领域指派对应的机器翻译引擎。
11.进一步,所述s1包括以下步骤:
12.s101、获取大领域范围的领域平行语料数据;
13.s102、使用多个子领域机器翻译引擎分别翻译所述s101中的所述平行语料中源语言文本;
14.s103、使用所述平行语料的参考译文对所有机器翻译引擎输出的每一句译文按照bleu值进行打分,获得分数s
i,j
,表示第i个机器翻译引擎对第j句文本的bleu分数;
15.s104、对所述第j句文本,假设有m个机器翻译引擎,则分别有s
1,j
,s
2,j
…sm,j
个分数,然后将这m个分数从高到低排序,得到s
a,j
,s
b,j
,s
c,j
…sm,j

16.s105、在排序好的分数中,选择和分数最大值s
a,j
差值小于1的前几个分数,这里假设为s
b,j
和s
c,j
,则将所述第j句文本归类为a、b、c三个机器翻译引擎的领域表达语料;
17.s106、对所述平行语料中每个句子按照所述s103至s105进行划分,得到每个机器翻译引擎对应的领域表达语料。
18.进一步,所述s2包括:
19.s201、将每个机器翻译引擎对应的领域表达语料中的每个句子,使用bert预训练模型转化为句向量;
20.s202、对每个机器翻译引擎对应的领域表达语料的句向量集合,使用k-means方法进行聚类。
21.进一步,所述s202包括以下步骤:
22.s2021、随机选择k个向量,作为聚类中心;
23.s2022、计算集合中每个向量和这k个中心向量的距离;
24.s2023、对每个向量从k个中心向量中选择最小的一个作为该向量的类别;
25.s2024、对每个类别使用该类中所有向量的均值,作为该类新的中心向量;
26.s2025、迭代所述s2022至s2024直到k个中心向量不再发生大的变化。
27.进一步,所述s3包括以下步骤:
28.s301、将待翻译文本使用bert转化为句向量;
29.s302、对所述句向量分别从m个机器翻译引擎对应的检索数据库中检索相似度最大的n个向量,一共得到m*n个向量;
30.s303、再从这m*n个向量中,选择相似度最大的n个向量。
31.进一步,所述s4包括:
32.s401、所述n个向量对应的相似度为d1,d2

dn;
33.s402、根据n个相似度分数,按照下式计算机器翻译引擎的概率分布:
[0034][0035]
其中,a表示机器翻译引擎a;di表示属于机器翻译引擎a检索库的向量;p(a)表示对待翻译文本应该使用机器翻译引擎a的概率;
[0036]
s403、将概率最大的机器翻译引擎指派为待翻译文本的翻译引擎。
[0037]
本发明的有益效果为:构建机器翻译引擎的领域表达语料;向量化领域表达语料,并利用聚类方法对向量进行索引存储,形成检索数据库;将待翻译文本转化为向量表达,对该向量从检索数据库中检索相似度最大的n个向量;根据相似度和检索到向量所表达的领域指派对应的机器翻译引擎。该方法可以在不知道机器翻译引擎的所属领域时,通过不同机器翻译引擎所擅长的领域数据表达该引擎,可以有效地区分相似领域的不同机器翻译引擎,对待翻译文本的每个句子自动地选择更合适的翻译引擎,从而提升待翻译文本整体的翻译质量。
具体实施方式
[0038]
为了使本发明的目的、技术方案及优点更加清楚明白,下面对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0039]
一种相似领域机器翻译引擎自动选择方法,包括,
[0040]
s1、构建机器翻译引擎的领域表达语料;
[0041]
所述s1包括以下步骤:
[0042]
s101、获取大领域范围的领域平行语料数据;
[0043]
s102、使用多个子领域机器翻译引擎分别翻译所述s101中的所述平行语料中源语言文本;
[0044]
s103、使用所述平行语料的参考译文对所有机器翻译引擎输出的每一句译文按照bleu值进行打分,获得分数s
i,j
,表示第i个机器翻译引擎对第j句文本的bleu分数;
[0045]
s104、对所述第j句文本,假设有m个机器翻译引擎,则分别有s
1,j
,s
2,j
…sm,j
个分数,然后将这m个分数从高到低排序,得到s
a,j
,s
b,j
,s
c,j
…sm,j

[0046]
s105、在排序好的分数中,选择和分数最大值s
a,j
差值小于1的前几个分数,这里假设为s
b,j
和s
c,j
,则将所述第j句文本归类为a、b、c三个机器翻译引擎的领域表达语料;
[0047]
s106、对所述平行语料中每个句子按照所述s103至s105进行划分,得到每个机器翻译引擎对应的领域表达语料。
[0048]
s2、向量化领域表达语料,并利用聚类方法对向量进行索引存储;
[0049]
s201、将每个机器翻译引擎对应的领域表达语料中的每个句子,使用bert预训练模型转化为句向量;
[0050]
s202、对每个机器翻译引擎对应的领域表达语料的句向量集合,使用k-means方法进行聚类。
[0051]
所述s202包括以下步骤:
[0052]
s2021、随机选择k个向量,作为聚类中心;
[0053]
s2022、计算集合中每个向量和这k个中心向量的距离;
[0054]
s2023、对每个向量从k个中心向量中选择最小的一个为该向量的类别;
[0055]
s2024、对每个类别使用该类中所有向量的均值,作为该类新的中心向量;
[0056]
s2025、迭代所述s2022至s2024直到k个中心向量不再发生大的变化。
[0057]
s3、将待翻译文本转化为向量表达,对所述向量从检索数据库中检索相似度最大的n个向量;所述s3包括以下步骤:
[0058]
s301、将待翻译文本使用bert转化为句向量;
[0059]
s302、对所述句向量分别从m个机器翻译引擎对应的检索数据库中检索相似度最大的n个向量,一共得到m*n个向量;
[0060]
s303、再从这m*n个向量中,选择相似度最大的n个向量。
[0061]
s4、根据相似度和检索到向量所表达的领域指派对应的机器翻译引擎。
[0062]
所述s4包括:
[0063]
s401、所述n个向量对应的相似度为d1,d2

dn;
[0064]
s402、根据n个相似度分数,按照下式计算机器翻译引擎的概率分布:
[0065][0066]
其中,a表示机器翻译引擎a;di表示属于机器翻译引擎a检索库的向量;p(a)表示对待翻译文本应该使用机器翻译引擎a的概率;
[0067]
s403、将概率最大的机器翻译引擎指派为待翻译文本的翻译引擎。
[0068]
实施例一
[0069]
这里以通用领域机器翻译引擎、工程领域机器翻译引擎以及行业手册领机器翻译引擎为例。
[0070]
对待翻译句子:“所需的力取决于所用杠杆臂的长度。”[0071]
将通过bert转化成向量为v1,对v1分别从领域机器翻译引擎、工程领域机器翻译引擎以及行业手册领机器翻译引擎的检索数据库s1、s2和s3中进行检索,得到相似度最大的5个向量,分别为(vec1_s1,0.4)、(vec1_s3,0.5)、(vec2_s3,0.5)、(vec1_s2,0.6)、(vec2_s2,0.7)。
[0072]
按照s402公式计算,待翻译句子适合三个引擎的概率分别为:0.148、0.481、0.37。
[0073]
因此对该翻译句子使用工程领域机器翻译引擎进行翻译。
[0074]
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献