一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于平行语料库的术语译文挖掘方法与流程

2022-06-02 11:17:36 来源:中国专利 TAG:


1.本发明属于术语翻译技术领域,具体是一种基于平行语料库的术语译文挖掘方法。


背景技术:

2.术语的翻译是翻译项目中重点关注的问题,由于术语具有专业性甚至可能是新产生的词语,其准确性直接影响整个译文的翻译质量。在现有翻译项目中术语翻译的处理方法是:通过人工译员或术语提取工具的辅助,在译前处理需要对待译稿件进行术语提取;然后将提取的术语预先翻译成译文,随后在翻译环节中遇到含有术语的句子时直接应用术语翻译的结果,从而保证在整个翻译稿件中术语翻译的准确性和一致性。目前在待译稿件进行术语提取过程中,对于术语译文的获取一般采用人工逐个翻译或在术语词典中检索匹配等方法,但是存在人工翻译效率低下或术语词典覆盖范围可能无法满足需要术语翻译的问题。


技术实现要素:

3.为了解决上述存在的技术问题,本发明提供一种基于平行语料库的术语译文挖掘方法,通过检索平行语料库快速获取原文术语的最佳译文,保证术语译文的准确性和一致性,提高翻译效率。
4.本发明所采取的技术方案是:
5.一种基于平行语料库的术语译文挖掘方法,具体包括如下步骤:
6.s1、提取待译稿件中的原文术语s;
7.s2、检索平行语料库m:在平行语料库m中对该原文术语s进行字符串搜索;
8.s3、获得含有相同原文术语s的候选原文和译文句子集合q;
9.s4、分词和词对齐:将候选原文和译文句子集合q中的逐句对分别进行分词和词对齐;
10.s5、提取词对齐结果中原文术语s所对应的术语译文t;
11.s6、生成译文短语集:用短语提取算法或工具提取候选译文句子中每个句子的短语片段,去重后形成译文短语集p;
12.s7、生成嵌入向量并计算距离d:通过跨语言嵌入模型分别生成原文术语s和译文短语集p的嵌入向量,利用距离计算公式得出原文术语嵌入向量和译文短语集中每个短语嵌入向量之间的距离d;
13.s8、融合模型:基于s5中所述的词对齐结果和s7中所述的嵌入向量及距离d设计原文术语对应的译文短语的排序模型,获取原文术语s的最佳译文,具体方法如下:
14.a、设原文术语s对应的词对齐结果中的术语译文集合为{t1,t2,...,t
mu
},对该集合中包含相同术语译文作去重处理,获得唯一术语译文集合{t1,t2,...,t
mu
}及每个术语译文的频次集合{ct1,ct2,...,ct
mu
};
15.b、对术语译文的频次集合{ct1,ct2,...,ct
mu
}作归一化处理,得到集合{nct1,nct2,...,nct
mu
},该集合中每个元素依次作为原文术语s对应的词对齐结果中的术语译文集合{t1,t2,...,t
mu
}中相对应元素的可信度;
16.c、设同一原文术语s的嵌入向量与译文短语集合为{p1,p2,...,pk}及该集合中每个短语的嵌入向量之间的距离为{d1,d2,...,dk};
17.d、将该距离集合中的每个元素取倒数之后再作归一化处理,得到集合{nd1,nd2,...,ndk},该集合每个元素依次作为同一原文术语s的嵌入向量与译文短语集合{p1,p2,...,pk}中相对应元素的可信度;
18.e、对集合{t1,t2,...,t
mu
}和{p1,p2,...,pk}进行合并去重,获得唯一术语译文集合{tp1,tp2,...,tpr},该集合为原文术语s的可选译文集合;该可选译文集合中每个元素tpi依次作为原文术语s的真实译文的可信度,记为{sim-tp1,sim-tp2,...,sim-tpr},其计算方法为:
19.1)若tpi属于集合{t1,t2,...,t
mu
}而不属于集合{p1,p2,...,pk},则tpi的可信度等于集合{t1,t2,...,t
mu
}中对应元素的可信度;
20.2)若tpi不属于集合{t1,t2,...,t
mu
}但属于集合{p1,p2,...,pk},则tpi的可信度等于集合{p1,p2,...,pk}中相对应元素的可信度;
21.3)若tpi属于集合{t1,t2,...,t
mu
}也属于集合{p1,p2,...,pk},则tpi的可信度等于集合{t1,t2,...,t
mu
}和集合{p1,p2,...,pk}中相对应元素的可信度之和;
22.f、获取上述可信度集合中最大的元素所对应的译文作为原文术语s的最佳译文。
23.进一步地,s3中所述的分词具体为:选择每种语言相对应的分词工具,将原文术语s作为自定义词语预置到所述分词工具中。
24.进一步地,s3中所述的词对齐具体为:先选择基于预训练模型的词对齐工具simalign,然后对候选原文和译文句子集合q中的逐句对进行词对齐,即可提取每个句子中原文术语s所对应的词对齐术语译文。
25.进一步地,s7中所述的跨语言嵌入模型包括跨语言词嵌入模型,其生成嵌入向量的具体步骤如下:
26.ss1、将原文术语s分词处理,使用facebook的muse项目中预训练的跨语言词嵌入模型生成该原文术语s中各个词语的嵌入向量,将原文术语s中各个词语的嵌入向量相加获得该原文术语s的嵌入向量;
27.ss2、将译文短语集p中的短语分别进行分词处理,使用facebook的muse项目中预训练的跨语言词嵌入模型生成译文短语集p中各个词语的嵌入向量,将译文短语集p中各词语的嵌入向量相加获得该译文短语集p的嵌入向量。
28.进一步地,s7中所述的跨语言嵌入模型还包括跨语言句嵌入模型,其生成嵌入向量的具体步骤如下:
29.将原文术语s和译文短语集p中的短语均作短句子处理,然后直接使用facebook的laser项目中预训练的跨语言句嵌入模型或ukplab的sentence-transformers跨语言句嵌入模型生成嵌入向量。
30.进一步地,所述距离计算公式采用余弦距离或欧氏距离计算公式。
31.进一步地,s6中所述的工具设置为spacy工具,其包括noun_chunks模块,用以提取
英语句子的名词短语片段。
32.本发明的有益效果是:
33.1)本发明采用的术语译文挖掘方法快速高效,无需人工参与翻译,提高术语翻译的工作效率;
34.2)基于平行语料库获取术语译文保证术语覆盖范围满足术语翻译需求;
35.3)采用词对齐工具simalign,基于相似度的单词对齐器可快速提取每个句子中原文术语对应的词对齐译文;
36.4)采用短语提取算法或工具形成译文短语集,进一步提高术语翻译的准确性和效率;
37.5)采用跨语言嵌入模型及距离计算公式,能够设计出原文术语对应的译文短语的排序模型,进一步保证术语翻译的一致性;
38.6)利用集合中的元素作为术语译文的可信度,直观方便,快速获得最佳术语译文。
附图说明
39.图1是本发明一种基于平行语料库的术语译文挖掘方法的流程示意图。
具体实施方式
40.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
41.需要说明的是,在本发明的描述中,需要说明的是,如出现术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
42.实施例1
43.如图1所示,一种基于平行语料库的术语译文挖掘方法,具体包括以下步骤:
44.s1、提取待译稿件中的原文术语s;
45.s2、检索平行语料库m:在平行语料库m中对该原文术语s进行字符串搜索;
46.s3、获得含有相同原文术语s的候选原文和译文句子集合q;
47.s4、分词和词对齐:将候选原文和译文句子集合q中的逐句对分别进行分词和词对齐;
48.s5、提取词对齐结果中原文术语s所对应的术语译文t;
49.s6、生成译文短语集:用短语提取算法或spacy工具提取候选译文句子中每个句子的短语片段,去重后形成译文短语集p;
50.s7、生成嵌入向量并计算距离d:通过跨语言嵌入模型分别生成原文术语s和译文短语集p的嵌入向量,利用距离计算公式得出原文术语嵌入向量和译文短语集中每个短语嵌入向量之间的距离d;
51.s8、融合模型:基于s5中所述的词对齐结果和s7中所述的嵌入向量及距离d设计原文术语对应的译文短语的排序模型,获取原文术语s的最佳译文,具体方法如下:
52.a、设原文术语s对应的词对齐结果中的术语译文集合为{t1,t2,...,t
mu
},对该集
合中包含相同术语译文作去重处理,获得唯一术语译文集合{t1,t2,...,t
mu
}及每个术语译文的频次集合{ct1,ct2,...,ct
mu
};
53.b、对术语译文的频次集合{ct1,ct2,...,ct
mu
}作归一化处理,得到集合{nct1,nct2,...,nct
mu
},该集合中每个元素依次作为原文术语s对应的词对齐结果中的术语译文集合{t1,t2,...,t
mu
}中相对应元素的可信度;
54.c、设同一原文术语s的嵌入向量与译文短语集合为{p1,p2,...,pk}及该集合中每个短语的嵌入向量之间的距离为{d1,d2,...,dk};
55.d、将该距离集合中的每个元素取倒数之后再作归一化处理,得到集合{nd1,nd2,...,ndk},该集合每个元素依次作为同一原文术语s的嵌入向量与译文短语集合{p1,p2,...,pk}中相对应元素的可信度;
56.e、对集合{t1,t2,...,t
mu
}和{p1,p2,...,pk}进行合并去重,获得唯一术语译文集合{tp1,tp2,...,tpr},该集合为原文术语s的可选译文集合;该可选译文集合中每个元素tpi依次作为原文术语s的真实译文的可信度,记为{sim-tp1,sim-tp2,...,sim-tpr},其计算方法为:
57.1)若tpi属于集合{t1,t2,...,t
mu
}而不属于集合{p1,p2,...,pk},则tpi的可信度等于集合{t1,t2,...,t
mu
}中对应元素的可信度;
58.2)若tpi不属于集合{t1,t2,...,t
mu
}但属于集合{p1,p2,...,pk},则tpi的可信度等于集合{p1,p2,...,pk}中相对应元素的可信度;
59.3)若tpi属于集合{t1,t2,...,t
mu
}也属于集合{p1,p2,...,pk},则tpi的可信度等于集合{t1,t2,...,t
mu
}和集合{p1,p2,...,pk}中相对应元素的可信度之和;
60.f、获取上述可信度集合中最大的元素所对应的译文作为原文术语s的最佳译文。
61.作为本实施例的进一步,s3中所述的分词具体为:选择每种语言相对应的分词工具,将原文术语s作为自定义词语预置到所述分词工具中,保证术语作为一个整体词语呈现在分词结果中,防止术语被错误地分割开。本实施例中,若原文是中文时,可以选择jieba作为分词工具。
62.作为本实施例的进一步,s3中所述的词对齐具体为:先选择基于预训练模型的词对齐工具simalign,然后对候选原文和译文句子集合q中的逐句对进行词对齐,即可提取每个句子中原文术语s所对应的词对齐术语译文。
63.作为本实施例的进一步,s7中所述的跨语言嵌入模型包括跨语言词嵌入模型,其生成嵌入向量的具体步骤如下:
64.ss1、将原文术语s分词处理,使用facebook的muse项目中预训练的跨语言词嵌入模型生成该原文术语s中各个词语的嵌入向量,将原文术语s中各个词语的嵌入向量相加获得该原文术语s的嵌入向量;
65.ss2、将译文短语集p中的短语分别进行分词处理,使用facebook的muse项目中预训练的跨语言词嵌入模型生成译文短语集p中各个词语的嵌入向量,将译文短语集p中各词语的嵌入向量相加获得该译文短语集p的嵌入向量。
66.作为本实施例的进一步,s7中所述的跨语言嵌入模型还包括跨语言句嵌入模型,其生成嵌入向量的具体步骤如下:
67.将原文术语s和译文短语集p中的短语均作短句子处理,然后直接使用facebook的
laser项目中预训练的跨语言句嵌入模型或ukplab的sentence-transformers跨语言句嵌入模型生成嵌入向量。
68.作为本实施例的进一步,所述距离计算公式采用余弦距离或欧氏距离计算公式。
69.作为本实施例的进一步,s6中所述的工具设置为spacy工具,其包括noun_chunks模块,用以提取英语句子的名词短语片段。
70.本发明的工作原理:在平行语料库中对原文术语进行字符串搜索,获得含有相同术语的候选原文和译文句子集合;将候选原文和译文逐句对进行分词和词对齐,并提取词对齐结果中原文术语对应的术语译文;用短语提取算法提取候选译文中每个句子的短语片段,去重后形成译文短语集,再通过跨语言嵌入模型分别生成原文术语和译文短语集的短语嵌入向量,计算原文术语嵌入向量和译文短语集中每个短语嵌入向量之间的距离;最后,结合原文术语的词对齐结果、原文术语的嵌入向量与译文短语嵌入向量距离,按综合加权的形式给出原文术语的最佳译文。
71.以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明原理和实质的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献