一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种相似领域机器翻译引擎自动选择方法与流程

2022-03-23 07:34:56 来源:中国专利 TAG:

技术特征:
1.一种相似领域机器翻译引擎自动选择方法,其特征在于,包括,s1、构建机器翻译引擎的领域表达语料;s2、向量化领域表达语料,并利用聚类方法对向量进行索引存储;s3、将待翻译文本转化为向量表达,对所述向量从检索数据库中检索相似度最大的n个向量;s4、根据相似度和检索到向量所表达的领域指派对应的机器翻译引擎。2.根据权利要求1所述的一种相似领域机器翻译引擎自动选择方法,其特征在于,所述s1包括以下步骤:s101、获取大领域范围的领域平行语料数据;s102、使用多个子领域机器翻译引擎分别翻译所述s101中的所述平行语料中源语言文本;s103、使用所述平行语料的参考译文对所有机器翻译引擎输出的每一句译文按照bleu值进行打分,获得分数s
i,j
,表示第i个机器翻译引擎对第j句文本的bleu分数;s104、对所述第j句文本,假设有m个机器翻译引擎,则分别有s
1,j
,s
2,j

s
m,j
个分数,然后将这m个分数从高到低排序,得到s
a,j
,s
b,j
,s
c,j

s
m,j
;s105、在排序好的分数中,选择和分数最大值s
a,j
差值小于1的前几个分数,这里假设为s
b,j
和s
c,j
,则将所述第j句文本归类为a、b、c三个机器翻译引擎的领域表达语料;s106、对所述平行语料中每个句子按照所述s103至s105进行划分,得到每个机器翻译引擎对应的领域表达语料。3.根据权利要求1所述的一种相似领域机器翻译引擎自动选择方法,其特征在于,所述s2包括:s201、将每个机器翻译引擎对应的领域表达语料中的每个句子,使用bert预训练模型转化为句向量;s202、对每个机器翻译引擎对应的领域表达语料的句向量集合,使用k-means方法进行聚类。4.根据权利要求3所述的一种相似领域机器翻译引擎自动选择方法,其特征在于,所述s202包括以下步骤:s2021、随机选择k个向量,作为聚类中心;s2022、计算集合中每个向量和这k个中心向量的距离;s2023、对每个向量从k个中心向量中选择最小的一个作为该向量的类别;s2024、对每个类别使用该类中所有向量的均值,作为该类新的中心向量;s2025、迭代所述s2022至s2024直到k个中心向量不再发生大的变化。5.根据权利要求1所述的一种相似领域机器翻译引擎自动选择方法,其特征在于,所述s3包括以下步骤:s301、将待翻译文本使用bert转化为句向量;s302、对所述句向量分别从m个机器翻译引擎对应的检索数据库中检索相似度最大的n个向量,一共得到m*n个向量;s303、再从这m*n个向量中,选择相似度最大的n个向量。6.根据权利要求5所述的一种相似领域机器翻译引擎自动选择方法,其特征在于,所述
s4包括:s401、所述n个向量对应的相似度为d1,d2

dn;s402、根据n个相似度分数,按照下式计算机器翻译引擎的概率分布:其中,a表示机器翻译引擎a;di表示属于机器翻译引擎a检索库的向量;p(a)表示对待翻译文本应该使用机器翻译引擎a的概率;s403、将概率最大的机器翻译引擎指派为待翻译文本的翻译引擎。

技术总结
本发明提供一种相似领域机器翻译引擎自动选择方法,包括构建机器翻译引擎的领域表达语料;向量化领域表达语料,并利用聚类方法对向量进行索引存储;将待翻译文本转化为向量表达,对所述向量从检索数据库中检索相似度最大的N个向量;根据相似度和检索到向量所表达的领域指派对应的机器翻译引擎。领域指派对应的机器翻译引擎。


技术研发人员:张文博
受保护的技术使用者:语联网(武汉)信息技术有限公司
技术研发日:2021.12.31
技术公布日:2022/3/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献