语料分类方法、垂直行业机器翻译方法及装置与流程

2022-05-11 10:44:06 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，尤其涉及一种语料分类方法、垂直行业机器翻译方法及装置。

背景技术：

2.随着人工智能、机器学习领域的迅速发展，使机器翻译技术迅速成长，能够满足各行业中时效性要求较高或者海量文本的翻译需求，极大地降低了人力成本。
3.垂直行业，是指在综合的行业领域下，垂直细分出的小领域。在实践领域适应的机器翻译模型中，语料的质量很大程度的影响了模型的翻译质量，通常需要人工标记或者结合神经网络筛选出属于该垂直行业的语料，再进行微调(fine-tuning)生成模型。这种方式需要利用神经网络，对大量的语料样本进行分类，分类结果的可解释性较差，且最终训练出来的模型往往并不是最优解。

技术实现要素：

4.本发明提供一种语料分类方法、垂直行业机器翻译方法及装置，用以解决现有技术中单纯使用垂直行业语料数据训练模型性能差的缺陷，实现通过对其他行业预料数据进行分类，将对应类型的预料数据混入训练集中进行训练，提高模型性能。
5.本发明提供一种语料分类方法，包括：
6.基于目标平行语料库，获取各目标语料的原文分词和译文分词；
7.基于所述原文分词和所述译文分词，获取第一原文句向量和第一译文句向量；
8.将所述第一原文句向量和所述第一译文句向量，分别进行嵌入，获取第二原文句向量和所述第二译文句向量；
9.基于所述第一原文句向量、所述第一译文句向量、所述第二原文句向量和所述第二译文句向量，计算得到目标相似度；
10.在所述目标相似度大于或者等于目标阈值的情况下，所述目标语料的类型为第一目标类型；
11.其中，所述目标阈值是基于所述目标平行语料库设定，所述目标平行语料库的数量可以为一个或者多个，所述目标语料为所述目标平行语料库中的文本数据。
12.根据本发明提供的一种语料分类方法，在所述计算得到目标相似度之后，还包括：在所述目标相似度小于目标阈值的情况下，所述目标语料的类型为第二目标类型；
13.其中，所述第一目标类型与所述第二目标类型互斥。
14.根据本发明提供的一种语料分类方法，所述基于所述第一原文句向量、所述第一译文句向量、所述第二原文句向量和所述第二译文句向量，计算得到目标相似度，包括：
15.基于所述第一原文句向量和所述第二译文句向量，获取第一相似度；
16.基于所述第一译文句向量和所述第二原文句向量，获取第二相似度；
17.基于所述第一相似度和第二相似度，进行加权求和，获取所述目标相似度。
18.根据本发明提供的一种语料分类方法，所述基于所述原文分词和所述译文分词，获取第一原文句向量和第一译文句向量，包括：
19.将所述原文分词和所述译文分词分别进行嵌入，获取原文词向量和译文词向量；
20.将所述原文词向量和所述译文词向量分别进行求和，获取所述第一原文句向量和所述第一译文句向量。
21.本发明还提供一种垂直行业机器翻译方法，包括：
22.获取目标垂直行业的待翻译源语言文本；
23.将所述待翻译源语言文本输入预先建立的目标翻译模型，得到所述待翻译源语言文本对应的目标语言文本；
24.其中，所述目标翻译模型采用所述目标垂直行业的初始训练语料对，以及采用如上任一所述的语料分类方法从所述目标平行语料库中获取的具有目标类型的增强训练语料对，所述目标类型与所述目标垂直行业匹配，所述增强训练语料对与所述初始训练语料对具有目标比例关系。
25.本发明还提供一种语料分类装置，包括：
26.分词模块，用于基于目标平行语料库，获取各目标语料的原文分词和译文分词；
27.第一获取模块，用于基于所述原文分词和所述译文分词，获取第一原文句向量和第一译文句向量；
28.第二获取模块，用于将所述第一原文句向量和所述第一译文句向量，分别进行嵌入，获取第二原文句向量和所述第二译文句向量；
29.相似度计算模块，用于基于所述第一原文句向量、所述第一译文句向量、所述第二原文句向量和所述第二译文句向量，计算得到目标相似度；
30.第一分类模块，用于在所述目标相似度大于或者等于目标阈值的情况下，所述目标语料的类型为第一目标类型；
31.其中，所述目标阈值是基于所述目标平行语料库设定，所述目标平行语料库的数量可以为一个或者多个，所述目标语料为所述目标平行语料库中的文本数据。
32.本发明还提供一种垂直行业机器翻译装置，包括：
33.源文本获取模块，用于获取目标垂直行业的待翻译源语言文本；
34.翻译模块，用于将所述待翻译源语言文本输入预先建立的目标翻译模型，得到所述待翻译源语言文本对应的目标语言文本；
35.其中，所述目标翻译模型采用所述目标垂直行业的初始训练语料对，以及采用如上任一所述的语料分类方法从所述目标平行语料库中获取的具有目标类型的增强训练语料对，所述目标类型与所述目标垂直行业匹配，所述增强训练语料对与所述初始训练语料对具有目标比例关系。
36.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语料分类方法的步骤和如上述任一种所述垂直行业机器翻译方法的步骤。
37.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语料分类方法的步骤和如上述任一种所述垂直行业机器翻译方法的步骤。
38.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语料分类方法的步骤和如上述任一种所述垂直行业机器翻译方法的步骤。
39.本发明提供的语料分类方法、垂直行业机器翻译方法及装置，基于目标语料的原文分词和译文分词分别进行简单组合形成第一原文句向量和第一译文句向量，通过进行句嵌入获取第二原文句向量和第二译文句向量，通过将不同方式获取的句向量交叉组合，计算出向量间的目标相似度，并在目标相似度大于或者等于目标阈值的情况下将目标语料归类为第一目标类型。能够依靠进行简单的向量计算，实现对不同语料的分类，操作简便，可解释性高。
附图说明
40.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
41.图1是本发明提供的语料分类方法的流程示意图；
42.图2是本发明提供的垂直行业机器翻译方法的流程示意图；
43.图3是本发明提供的语料分类装置的结构示意图；
44.图4是本发明提供的垂直行业机器翻译装置的结构示意图；
45.图5是本发明提供的电子设备的结构示意图。
具体实施方式
46.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
47.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。
48.应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
49.术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
50.图1是本发明提供的语料分类方法的流程示意图。如图1所示，本发明实施例提供的语料分类方法，包括：步骤101、基于目标平行语料库，获取各目标语料的原文分词和译文分词。
51.其中，目标平行语料库的数量可以为一个或者多个，目标语料为目标平行语料库中的文本数据。
52.需要说明的是，本发明实施例提供的语料分类方法的执行主体是语料分类装置。
53.本发明实施例提供的语料分类方法的应用场景为，在训练某一领域的机器翻译模型之前，确定其训练集。
54.现有技术中，其训练集通常由该领域的样本原文数据和样本译文数据构成。
55.在本发明实施例中，其训练集除了包括该领域的样本原文数据和样本译文数据，还包括其他相关领域的样本原文数据和样本译文数据，该领域与其相关领域在翻译风格上具有一定共性。
56.故，本发明实施例提供的语料分类方法适用于对全领域的海量样本数据进行分类，筛选出符合该领域的翻译风格的其他相关领域的样本数据，并添加至训练集中。
57.需要说明的是，在步骤101之前，语料分类装置需要根据机器翻译模型的实际训练任务，确定目标平行语料库。
58.目标平行语料库，是语料分类装置的操作对象，包含两个单语种语料库，一个语料库是另一个语料库的翻译。其中，相应的片段(通常是句子或段落)需要匹配，且其所涉及的领域不同于机器翻译模型对应的领域。
59.本发明实施例对目标平行语料库的数量不作具体限定。
60.可选地，在实际的模型训练任务为原文和译文在语种上或者翻译内容上具有一对一的关系的情况下，选取一个目标平行语料库对其关系进行表征即可。
61.可选地，在实际的模型训练任务为原文和译文在语种上或者翻译内容上具有一对n的关系的情况下，选取n个目标平行语料库对原文与任一种译文的关系进行表征即可。其中，n为大于1的正整数。
62.目标语料，是指目标平行语料库中不同语言撰写、相互间具有“翻译关系”的文本对，即包括原文和译文。
63.具体地，在步骤101中，语料分类装置对目标平行语料库中的每一个目标语料所包含的原文和译文分别进行分词，获取对应的原文分词和译文分词。
64.其中，可以根据原文和译文的语种或者译文的翻译任务，预先确定对应的分词方法，本发明实施例对此不作具体限定。
65.示例性地，对于中文文本，所采用的分词器包括但不限于ik分词器、jieba分词器、thulac分词器或北大开源的分词器。
66.对于英文文本，所采用的分词器包括但不限于elasticsearch中的英文分词器、lucene内置的多语种分词器工具包或自然语言处理工具包(natural language toolkit，nltk)。
67.步骤102、基于原文分词和译文分词，获取第一原文句向量和第一译文句向量。
68.具体地，在步骤102中，语料分类装置对步骤101中获取的原文分词利用向量表征后，进行组合相加，得到第一原文句向量。同时，也对步骤101中获取的译文分词利用向量表征后，进行组合相加，得到第一译文句向量。
69.第一原文句向量，是指由原文分词向量之和构成。第一原文句向量用于作为由原文分词简单组合构成的句子的文本表示，可由vs表征。
70.第一译文句向量，是指由译文分词向量之和构成。第一译文句向量用于作为由译文分词简单组合构成的句子的文本表示，可由v
t
表征。
71.步骤103、将第一原文句向量和第一译文句向量，分别进行嵌入，获取第二原文句向量和第二译文句向量。
72.具体地，在步骤103中，语料分类装置对步骤102中获取到第一原文句向量和第一译文句向量，分别利用句嵌入算法，获取第二原文句向量和第二译文句向量。
73.第二原文句向量，是指由第一原文句向量，及其在对应段落中的语义信息构成。第二原文句向量用于作为包含段落上下文语义信息的原文组句的文本表示，可由v
ss
表征。v
ss
相较于vs，具有更丰富的语义信息。
74.第二译文句向量，是指由第一译文句向量，及其在对应段落中的语义信息构成。第二译文句向量用于作为包含段落上下文语义信息的译文组句的文本表示，可由v
st
表征。v
st
相较于v
t
，具有更丰富的语义信息。
75.本发明实施例对句嵌入算法不作具体限定。
76.示例性地，语料分类装置所使用的句嵌入包括但不限于doc2vec、sentencebert、infersent和universal sentence encoder等技术。
77.优选地，语料分类装置使用多语句表达模型对第一原文句向量和第一译文句向量进行嵌入。
78.其中，多语句表达模型包括但不限于百度多语言模型ernie-m、facebook研究者扩展并增强了的laser(language-agnostic sentence representations)工具包等。
79.步骤104、基于第一原文句向量、第一译文句向量、第二原文句向量和第二译文句向量，计算得到目标相似度。
80.具体地，在步骤104中，语料分类装置将步骤102和步骤103生成两类句向量，按照一类原文句向量对应另一类译文句向量的方式，进行交叉组合，计算出每个组合对应的相似度后，将其合并得到目标相似度。
81.本发明实施例对向量间的相似度计算方式不作具体限定。
82.可选地，可以基于计算两个向量之间的距离，两个向量间距离越近，则两个向量越相似。其距离表征方式包括但不限于欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离或者兰氏距离等，对应的目标相似度取值范围可以归一化至[0,1]。
[0083]
可选地，可以基于几何中夹角余弦可用来衡量两个向量方向的差异。其具体实施方式包括但不限于夹角余弦或者tanimoto系数，对应的目标相似度取值范围为[0,1]。
[0084]
步骤105、在目标相似度大于或者等于目标阈值的情况下，目标语料的类型为第一目标类型。
[0085]
其中，目标阈值是基于目标平行语料库设定。
[0086]
需要说明的是，目标阈值，是指与目标平行语料库对应的相似度阈值。目标阈值用于通过与每一目标语料的目标相似度进行比较，从更底层的角度将目标平行语料库中所有的目标语料划分为“广义工程”类和“广义文学”类。
[0087]
其中，“广义工程”类的特点为，在翻译中优先注重翻译的准确性，需要严格正确的表达原文意思，在翻译风格上偏向“直译”。例如，国际工程、汽车制造等。
[0088]“广义文学”类的特点为，在翻译中优先注重阅读性和表达的流畅性，不需要严格表达原文意思，某些情况下甚至会根据上下文自由再创作，翻译风格上偏向“意译”。例如，电影对白、网文小说等。
[0089]
本发明实施例对目标阈值的取值不作具体限定。示例性地，对于不同目标平行语料库，对应的目标阈值可以为[0.5,0.8]中的任一数值。
[0090]
具体地，在步骤105中，语料分类装置将每一个目标语料的目标相似度与对应的目标阈值进行对比。对比结果有两种：满足目标阈值和不满足目标阈值。
[0091]
其中，满足目标阈值，是目标相似度大于或者等于目标阈值的情况，说明词和句向量与嵌入句向量之间的相似性较高，即从字面上就可以解释句子，则判定该目标语料更偏向于“广义工程”类，属于第一目标类型。
[0092]
不满足目标阈值，是目标相似度小于目标阈值的情况，说明词和句向量与嵌入句向量之间的相似性较低，即从字面上不可以解释句子，则判定该目标语料不属于第一目标类型。
[0093]
现有技术，通常需要对不同的平行语料库建立对应样本和对应标签训练分类模型，在实际应用中直接通过使用该模型平行语料库中的语料进行分类，即每改变一次平行语料库，均需要进行重新的训练，其过程繁琐，可解释性差。
[0094]
本发明实施例基于目标语料的原文分词和译文分词分别进行简单组合形成第一原文句向量和第一译文句向量，通过进行句嵌入获取第二原文句向量和第二译文句向量，通过将不同方式获取的句向量交叉组合，计算出向量间的目标相似度，并在目标相似度大于或者等于目标阈值的情况下将目标语料归类为第一目标类型。能够依靠进行简单的向量计算，实现对不同语料的分类，操作简便，可解释性高。
[0095]
在上述任一实施例的基础上，在计算得到目标相似度之后，还包括：在目标相似度小于目标阈值的情况下，目标语料的类型为第二目标类型。
[0096]
其中，第一目标类型与第二目标类型互斥。
[0097]
具体地，在步骤104之后，语料分类装置将每一个目标语料的目标相似度与对应的目标阈值进行对比，在其对比结果为不满足目标阈值的情况下，说明词和句向量与嵌入句向量之间的相似性较低，不能从字面上直接解释句子，则判定该目标语料更偏向于“广义文学”类，属于与第一目标类型完全互斥的第二目标类型。
[0098]
可以理解的是，在目标相似度小于目标阈值，并属于某一预设范围区间的情况下，说明词和句向量与嵌入句向量之间的相似性极低，则判定该目标语料不具有参考价值，即丢弃该数据。本发明实施例对预设范围区间不作具体限定，示例性地，对于不同的目标平行语料库，可以将预设范围区间泛化为[0,0.3]。
[0099]
本发明实施例基于在目标相似度小于目标阈值的情况下将目标语料归类为第二目标类型。能够依靠进行简单的向量计算，实现对不同语料的分类，操作简便，可解释性高。
[0100]
在上述任一实施例的基础上，基于第一原文句向量、第一译文句向量、第二原文句向量和第二译文句向量，计算得到目标相似度，包括：基于第一原文句向量和第二译文句向量，获取第一相似度。
[0101]
具体地，在步骤104中，语料分类装置将第一原文句向量和第二译文句向量作为一个语料对组合，采用向量间的相似度计算方式，获取第一相似度。
[0102]
优选地，语料分类装置将利用欧几里得点积公式，对第一原文句向量和第二译文句向量进行计算，获取的第一相似度的计算公式如下所示：
[0103][0104]
其中，sim1为第一相似度，vs为第一原文句向量，v
st
为第二译文句向量，θ1为vs和v
st
之间的夹角。当sim1为1时，θ1为0
°
，说明向量vs和v
st
相似度为100％(即完全相同)。反之，当sim1为0时，θ1为90
°
，说明向量vs和v
st
相似度为0％(即完全不相同)。
[0105]
基于第一译文句向量和第二原文句向量，获取第二相似度。
[0106]
具体地，语料分类装置将第二原文句向量和第一译文句向量作为一个语料对组合，采用向量间的相似度计算方式，获取第二相似度。
[0107]
优选地，语料分类装置将利用欧几里得点积公式，对第二原文句向量和第一译文句向量进行计算，获取的第二相似度的计算公式如下所示：
[0108][0109]
其中，sim2为第二相似度，v
t
为第一译文句向量，v
ss
为第二原文句向量，θ2为v
t
和v
ss
之间的夹角。
[0110]
基于第一相似度和第二相似度，进行加权求和，获取目标相似度。
[0111]
具体地，语料分类装置将第一相似度和第二相似度对应设置其权重值，并进行加和计算，获取目标相似度。
[0112]
目标相似度的计算公式如下所示：
[0113]
sim＝a
·
sim1 b
·
sim2[0114]
其中，sim为目标相似度，sim1为第一相似度，a为第一相似度对应的权重值，sim2为第二相似度，b为第二相似度对应的权重值，且各权重值之和为1。本发明实施例对权重值a和b的取值不作具体限定。
[0115]
优选地，a和b相等，均取值为0.5。
[0116]
本发明实施例基于对不同方式获取的句向量交叉组合，分别计算出向量间的第一相似度和第二相似度，通过第一相似度和第二相似度进行加权运算获取目标相似度。进而，通过目标相似度进行分类。能够依靠进行简单的向量计算，实现对不同语料的分类，操作简便，可解释性高。
[0117]
在上述任一实施例的基础上，基于原文分词和译文分词，获取第一原文句向量和第一译文句向量，包括：将原文分词和译文分词分别进行嵌入，获取原文词向量和译文词向量。
[0118]
具体地，在步骤102中，语料分类装置分别将步骤101中的原文分词和译文分词进行词嵌入，对应生成原文词向量和译文词向量。
[0119]
本发明实施例对此过程不作具体限定。
[0120]
优选地，语料分类装置使用多语bert将原文分词进行词嵌入，将获取到的原文词向量记作v
si
＝{v
s1
,v
s2
,
…
,v
sn
{，其中，n为原文词向量的维度。同样地，将译文分词嵌入的到的译文词向量记作v
ti
＝{v
t1
,v
t2
,
…
,v
tm
}，其中，m为译文词向量的维度。
[0121]
将原文词向量和译文词向量分别进行求和，获取第一原文句向量和第一译文句向
量。
[0122]
具体地，语料分类装置分别对原文词向量之间进行相加组合，得到第一原文句向量，同时，对译文词向量之间进行相加组合，得到第一译文句向量。
[0123]
本发明实施例对此过程不作具体限定。
[0124]
示例性地，语料分类装置计算各个词向量的和向量，其计算公式如下所示：
[0125][0126][0127]
本发明实施例基于对原文分词和译文分词进行嵌入，获取原文词向量和译文词向量，通过对原文词向量和译文词向量进行简单组合并求和，获取第一原文句向量和第一译文句向量。进而，通过计算出的目标相似度进行分类。能够依靠进行简单的向量计算，实现对不同语料的分类，操作简便，可解释性高。
[0128]
图2是本发明提供的垂直行业机器翻译方法的流程示意图。如图2所示，该垂直行业机器翻译方法，包括：步骤201、获取目标垂直行业的待翻译源语言文本。
[0129]
需要说明的是，垂直行业机器翻译方法的执行主体是垂直行业机器翻译装置。
[0130]
垂直行业机器翻译装置的应用场景为对某一垂直领域使用的机器翻译模型中，在原有的样本中，混入从其他相关领域的平行语料库筛选的某类型样本语料，对模型进行训练。并在应用模型时，使用该垂直领域中的原文翻译出对应的译文。
[0131]
垂直行业机器翻译装置可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、导航装置、智能手环、智能手表等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。下面，假设电子设备是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本技术实施例的构造也能够应用于固定类型的终端。
[0132]
目标垂直行业，是指某一细分行业领域。
[0133]
具体地，在步骤201中，垂直行业机器翻译装置根据对于目标垂直行业的翻译任务，确定待翻译源语言文本。
[0134]
步骤202、将待翻译源语言文本输入预先建立的目标翻译模型，得到待翻译源语言文本对应的目标语言文本。
[0135]
其中，目标翻译模型采用目标垂直行业的初始训练语料对，以及采用如上述实施例的任一的语料分类方法从目标平行语料库中获取的具有目标类型的增强训练语料对，目标类型与目标垂直行业匹配，增强训练语料对与初始训练语料对具有目标比例关系。
[0136]
需要说明的是，目标翻译模型是基于目标垂直行业的初始训练语料对和增强训练语料对中的源文本和译文文本，进行训练后得到。
[0137]
其中，初始训练语料对，是根据目标垂直行业所处领域中选取的源文本-译文文本，作为初始的训练样本。
[0138]
增强训练语料对，是指在初始的训练样本基础上，所增加的样本语料对。其具体实施过程为，对于除目标垂直行业以外的其他行业的平行语料库按照上述实施例中语料分类方法进行分类，获取目标类型的语料对。
[0139]
其中，目标类型由垂直行业对应的类型一致，可以为第一目标类型或者第二目标
类型。
[0140]
对应的训练过程为，垂直行业机器翻译装置对构建好的目标翻译模型各层间的权值系数初始化，再将由初始训练语料对和增强训练语料对以目标比例关系进行混合，构成的训练集。本发明实施例对目标比例关系不作具体限定。
[0141]
优选地，目标比例关系为初始训练语料对和增强训练语料对的比例为1：x，其中，x的取值范围为[0.5,3]。
[0142]
将训练集中的一组训练样本，输入到当前权值系数下的神经网络，依次计算输入层、隐藏层和输出层的各节点的输出。输出层最后的输出结果与其实际连接位置状态类型之间的累积误差，根据梯度下降法，修正输入层与隐藏层各节点间的权值系数。依照上述过程，直至遍历训练集中的所有训练样本，可以得到输入层与隐藏层的权值系数。
[0143]
具体地，在步骤202中，垂直行业机器翻译装置根据神经网络输入层与隐藏层的权值系数，还原步骤202中的目标翻译模型，并将待翻译源语言文本输入到训练好的目标翻译模型，可以得到与待翻译源语言文本具有一定翻译关系的目标语言文本。
[0144]
本发明实施例对此过程不作具体限定。
[0145]
示例性地，若目标翻译模型为一个汽车制造的翻译模型，由于汽车制造领域的翻译风格一般偏向于直译，故使用者可以从其他领域中符合第一目标类型(即广义工程)的语料，选取出与汽车制造的语料数量相等的数据量混入其中，作为增强数据提升模型的性能。
[0146]
本发明实施例基于从语料分类方法筛选出的具有目标类型的增强训练语料对，通过混入至垂直行业的初始训练语料对，以对目标翻译模型进行训练，提高目标翻译模型的性能。进而，在应用时，以待翻译源语言文本作为目标翻译模型的输入，输出的结果为目标语言文本，能够提高目标翻译模型的准确度。
[0147]
图3是本发明提供的语料分类装置的结构示意图。基于上述任一实施例的内容，如图3所示，语料分类装置包括分词模块310、第一获取模块320、第二获取模块330、相似度计算模块340和第一分类模块350，其中：
[0148]
分词模块310，用于基于目标平行语料库，获取各目标语料的原文分词和译文分词。
[0149]
第一获取模块320，用于基于原文分词和译文分词，获取第一原文句向量和第一译文句向量。
[0150]
第二获取模块330，用于将第一原文句向量和第一译文句向量，分别进行嵌入，获取第二原文句向量和第二译文句向量。
[0151]
相似度计算模块340，用于基于第一原文句向量、第一译文句向量、第二原文句向量和第二译文句向量，计算得到目标相似度。
[0152]
第一分类模块350，用于在目标相似度大于或者等于目标阈值的情况下，目标语料的类型为第一目标类型。
[0153]
其中，目标阈值是基于目标平行语料库设定，目标平行语料库的数量可以为一个或者多个，目标语料为目标平行语料库中的文本数据。
[0154]
具体地，分词模块310、第一获取模块320、第二获取模块330、相似度计算模块340和第一分类模块350顺次电连接。
[0155]
分词模块310对目标平行语料库中的每一个目标语料所包含的原文和译文分别进
行分词，获取对应的原文分词和译文分词。
[0156]
第一获取模块320对分词模块310中获取的原文分词利用向量表征后，进行组合相加，得到第一原文句向量。同时，也对分词模块310中获取的译文分词利用向量表征后，进行组合相加，得到第一译文句向量。
[0157]
第二获取模块330对第一获取模块320中获取到第一原文句向量和第一译文句向量，分别利用句嵌入算法，获取第二原文句向量和第二译文句向量。
[0158]
相似度计算模块340将第一获取模块320和第二获取模块330生成两类句向量，按照一类原文句向量对应另一类译文句向量的方式，进行交叉组合，计算出每个组合对应的相似度后，将其合并得到目标相似度。
[0159]
第一分类模块350将每一个目标语料的目标相似度与对应的目标阈值进行对比。对比结果有两种：满足目标阈值和不满足目标阈值。
[0160]
其中，满足目标阈值，是目标相似度大于或者等于目标阈值的情况，说明词和句向量与嵌入句向量之间的相似性较高，即从字面上就可以解释句子，则判定该目标语料更偏向于“广义工程”类，属于第一目标类型。
[0161]
可选地，该装置还包括第二分类模块，其中：
[0162]
第二分类模块，用于在目标相似度小于目标阈值的情况下，目标语料的类型为第二目标类型。
[0163]
其中，第一目标类型与第二目标类型互斥。
[0164]
可选地，相似度计算模块340包括第一计算单元、第一计算单元和总计算单元，其中：
[0165]
第一计算单元，用于基于第一原文句向量和第二译文句向量，获取第一相似度。
[0166]
第二计算单元，用于基于第一译文句向量和第二原文句向量，获取第二相似度。
[0167]
总计算单元，用于基于第一相似度和第二相似度，进行加权求和，获取目标相似度。
[0168]
可选地，第一获取模块320包括词向量单元和句向量单元，其中：
[0169]
词向量单元，用于将原文分词和译文分词分别进行嵌入，获取原文词向量和译文词向量。
[0170]
句向量单元，用于将原文词向量和译文词向量分别进行求和，获取第一原文句向量和第一译文句向量。
[0171]
本发明实施例提供的语料分类装置，用于执行本发明上述语料分类方法，其实施方式与本发明提供的语料分类方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。
[0172]
本发明实施例基于目标语料的原文分词和译文分词分别进行简单组合形成第一原文句向量和第一译文句向量，通过进行句嵌入获取第二原文句向量和第二译文句向量，通过将不同方式获取的句向量交叉组合，计算出向量间的目标相似度，并在目标相似度大于或者等于目标阈值的情况下将目标语料归类为第一目标类型。能够依靠进行简单的向量计算，实现对不同语料的分类，操作简便，可解释性高。
[0173]
图4是本发明提供的垂直行业机器翻译装置的结构示意图。基于上述任一实施例的内容，如图4所示，垂直行业机器翻译装置包括源文本获取模块410和翻译模块420，其中：
[0174]
源文本获取模块410，用于获取目标垂直行业的待翻译源语言文本。
[0175]
翻译模块420，用于将待翻译源语言文本输入预先建立的目标翻译模型，得到待翻译源语言文本对应的目标语言文本。
[0176]
其中，目标翻译模型采用目标垂直行业的初始训练语料对，以及采用任一的语料分类方法从目标平行语料库中获取的具有目标类型的增强训练语料对，目标类型与目标垂直行业匹配，增强训练语料对与初始训练语料对具有目标比例关系。
[0177]
具体地，源文本获取模块410和翻译模块420顺次电连接。
[0178]
源文本获取模块410根据对于目标垂直行业的翻译任务，确定待翻译源语言文本。
[0179]
翻译模块420根据神经网络输入层与隐藏层的权值系数，还原目标翻译模型，并将待翻译源语言文本输入到训练好的目标翻译模型，可以得到与待翻译源语言文本具有一定翻译关系的目标语言文本。
[0180]
本发明实施例提供的垂直行业机器翻译装置，用于执行本发明上述垂直行业机器翻译方法，其实施方式与本发明提供的垂直行业机器翻译方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。
[0181]
本发明实施例基于从语料分类方法筛选出的具有目标类型的增强训练语料对，通过混入至垂直行业的初始训练语料对，以对目标翻译模型进行训练，提高目标翻译模型的性能。进而，在应用时，以待翻译源语言文本作为目标翻译模型的输入，输出的结果为目标语言文本，能够提高目标翻译模型的准确度。
[0182]
图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行语料分类方法，该方法包括：基于目标平行语料库，获取各目标语料的原文分词和译文分词；基于原文分词和译文分词，获取第一原文句向量和第一译文句向量；将第一原文句向量和第一译文句向量，分别进行嵌入，获取第二原文句向量和第二译文句向量；基于第一原文句向量、第一译文句向量、第二原文句向量和第二译文句向量，计算得到目标相似度；在目标相似度大于或者等于目标阈值的情况下，目标语料的类型为第一目标类型；其中，目标阈值是基于目标平行语料库设定，目标平行语料库的数量可以为一个或者多个，目标语料为目标平行语料库中的文本数据。还可以执行垂直行业机器翻译方法，该方法包括：获取目标垂直行业的待翻译源语言文本；将待翻译源语言文本输入预先建立的目标翻译模型，得到待翻译源语言文本对应的目标语言文本；其中，目标翻译模型采用目标垂直行业的初始训练语料对，以及采用如上任一的语料分类方法从目标平行语料库中获取的具有目标类型的增强训练语料对，目标类型与目标垂直行业匹配，增强训练语料对与初始训练语料对具有目标比例关系。
[0183]
此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，
read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0184]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语料分类方法，该方法包括：基于目标平行语料库，获取各目标语料的原文分词和译文分词；基于原文分词和译文分词，获取第一原文句向量和第一译文句向量；将第一原文句向量和第一译文句向量，分别进行嵌入，获取第二原文句向量和第二译文句向量；基于第一原文句向量、第一译文句向量、第二原文句向量和第二译文句向量，计算得到目标相似度；在目标相似度大于或者等于目标阈值的情况下，目标语料的类型为第一目标类型；其中，目标阈值是基于目标平行语料库设定，目标平行语料库的数量可以为一个或者多个，目标语料为目标平行语料库中的文本数据。还可以执行垂直行业机器翻译方法，该方法包括：获取目标垂直行业的待翻译源语言文本；将待翻译源语言文本输入预先建立的目标翻译模型，得到待翻译源语言文本对应的目标语言文本；其中，目标翻译模型采用目标垂直行业的初始训练语料对，以及采用如上任一的语料分类方法从目标平行语料库中获取的具有目标类型的增强训练语料对，目标类型与目标垂直行业匹配，增强训练语料对与初始训练语料对具有目标比例关系。
[0185]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语料分类方法，该方法包括：基于目标平行语料库，获取各目标语料的原文分词和译文分词；基于原文分词和译文分词，获取第一原文句向量和第一译文句向量；将第一原文句向量和第一译文句向量，分别进行嵌入，获取第二原文句向量和第二译文句向量；基于第一原文句向量、第一译文句向量、第二原文句向量和第二译文句向量，计算得到目标相似度；在目标相似度大于或者等于目标阈值的情况下，目标语料的类型为第一目标类型；其中，目标阈值是基于目标平行语料库设定，目标平行语料库的数量可以为一个或者多个，目标语料为目标平行语料库中的文本数据。还可以执行垂直行业机器翻译方法，该方法包括：获取目标垂直行业的待翻译源语言文本；将待翻译源语言文本输入预先建立的目标翻译模型，得到待翻译源语言文本对应的目标语言文本；其中，目标翻译模型采用目标垂直行业的初始训练语料对，以及采用如上任一的语料分类方法从目标平行语料库中获取的具有目标类型的增强训练语料对，目标类型与目标垂直行业匹配，增强训练语料对与初始训练语料对具有目标比例关系。
[0186]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0187]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
[0188]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于实时内容预测与历史资源占用的云计算应用内存管理方法与流程

语料分类方法、垂直行业机器翻译方法及装置与流程

相关文献

最热文献