一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多语种翻译数据质量评估系统、方法、设备及存储介质

2023-03-20 09:03:27 来源:中国专利 TAG:


1.本发明涉及机器翻译领域,尤其涉及一种多语种翻译数据质量评估系统及方法。


背景技术:

2.最近几年,深度学习、迁移学习等技术的阶段性突破以及互联网产生的大量数据,给自然语言处理的发展带来大量机遇,自然语言处理大量任务也取得了突破性进展,比如语言模型的困惑度由上百下降到几十,甚至到十几;机器翻译bleu分数由一二十提升到四五十等。使用机器自动处理文本的可靠性越来越高,使得有更多的工作可以由机器来完成。深度学习通常依赖大量的标签数据,数据的量级和质量直接决定了深度学习模型的质量。深度学习以及大数据的火热,也带动了数据标注行业的发展,从最开始的纯手工数据标注到借助一定的机器能力来辅助数据标注,会使用机器翻译系统的结果来辅助人工标注,并通过质量评估系统来对数据进行筛选。随着大规模平行语料的积累、计算能力的不断提高以及transformer模型的广泛应用,机器翻译在通用领域的翻译水平甚至超过人类,也使得机器翻译成为自然语言处理中技术成熟度比较高的技术,也逐步的应用在人们的日常生活中。
3.随着机器翻译数据量级的累计,数据质量成为制约机器翻译效果的一个因素,尽管得益于跨语言预训练技术,应用于机器翻译任务的质量评估模型取得了初步的进展,尤其在有丰富语料并且传播和应用范围较广和人数较多的中英文场景;然而,多语种翻译场景仍然面临着缺乏高质量双语句对以及质量评分数据进行跨语种语言模型和质量评估的训练,因此多语种数据质量评估模型目前还未达到实际达到好用的程度。
4.现有的多语种翻译数据质量评估系统主要面临以下两大问题:一是质量评估训练缺乏高质量多语种平行数据和评估标注数据,模型评估效果还需提升;二是质检人员与质量评估模型之间的协同效率不高,人工成本较大。因此如何提升多语种质量评估效果,以及提高人工质检的效率和效果是需要解决的问题。
5.有鉴于此,特提出本发明。


技术实现要素:

6.本发明的目的是提供了一种多语种翻译数据质量评估系统、方法、设备及存储介质,能提升多语种质量评估效果,并提高人工质检的效率和效果,进而解决现有技术中存在的上述技术问题。
7.本发明的目的是通过以下技术方案实现的:
8.本发明实施方式提供一种多语种翻译数据质量评估系统,包括:多语种质量评估模型,还包括:
9.基于约束解码的数据增强模块、基于翻译词表的不确定性特征构建模块和质量评估置信度的数据挑选模块;其中,
10.所述基于约束解码的数据增强模块,能从多语种高质量文本句对库中获取多语种
句对数据,基于多语种机器翻译模型对获取的所述句对数据进行局部约束翻译得出伪造句对数据,得出的所述伪造句对数据在训练阶段用于多任务训练框架对多语种质量评估模型的训练中;
11.所述基于翻译词表的不确定性特征构建模块,能从多语种高质量文本句对库中获取句对数据,基于多语种机器翻译模型对获取的所述句对数据用蒙特卡洛采样进行多次前向传播,求出前向传播过程中所述句对数据中的译文的句子级模型不确定性特征和句子级数据不确定性特征,所述句子级模型不确定性特征和句子级数据不确定性特征在训练阶段用于对多语种质量评估模型的质量评估训练中;以及在推理阶段作为翻译过程中的置信度;
12.所述质量评估置信度的数据挑选模块,能接收基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度,以及基于多语种质量评估模型对获取的所述句对数据用蒙特卡洛采样进行多次前向传播得到多维分值列表,计算得出多维分值列表的标准差作为最新多语种质量评估模型质量评估过程中的置信度,根据所述质量评估过程中的置信度和基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度得出综合置信度,根据综合置信度从多语种质量评估模型预测评分数据中筛选出人工复检数据。
13.本发明实施例还提供一种应用本发明所述多语种翻译数据质量评估系统的多语种翻译数据质量评估方法,包括如下步骤:
14.训练阶段:
15.通过所述系统的基于约束解码的数据增强模块从多语种高质量文本句对库中获取多语种句对数据,基于多语种机器翻译模型对获取的所述句对数据进行局部约束翻译得出伪造句对数据,得出的所述伪造句对数据在训练阶段用于多任务训练框架对多语种质量评估模型的训练中;
16.通过所述系统的基于翻译词表的不确定性特征构建模块从多语种高质量文本句对库中获取句对数据,基于多语种机器翻译模型对获取的所述句对数据用蒙特卡洛采样进行多次前向传播,求出前向传播过程中所述句对数据中的译文的句子级模型不确定性特征和句子级数据不确定性特征,所述句子级模型不确定性特征和句子级数据不确定性特征在训练阶段用于对多语种质量评估模型的质量评估训练中;
17.推理阶段:
18.通过所述系统的基于翻译词表的不确定性特征构建模块求出前向传播过程中所述句对数据中的译文的句子级模型不确定性特征和句子级数据不确定性特征作为翻译过程中的置信度;
19.通过所述系统的质量评估置信度的数据挑选模块接收基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度,以及基于多语种质量评估模型对获取的所述句对数据用蒙特卡洛采样进行多次前向传播得到多维分值列表,计算得出多维分值列表的标准差作为最新多语种质量评估模型质量评估过程中的置信度,根据所述质量评估过程中的置信度和基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度得出综合置信度,根据综合置信度从多语种质量评估模型预测评分数据中筛选出人工复检数据。
20.本发明实施例进一步提供一种处理设备,包括:
21.至少一个存储器,用于存储一个或多个程序;
22.至少一个处理器,能执行所述存储器所存储的一个或多个程序,在一个或多个程序被处理器执行时,使得所述处理器能实现本发明所述的方法。
23.本发明实施例提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时能实现本发明所述的方法。
24.与现有技术相比,本发明所提供的多语种翻译数据质量评估系统、方法、设备及存储介质,其有益效果包括:
25.通过利用翻译模型局部约束解码进行数据增强,可以无监督地构建大量人工后编辑前的伪造数据,并基于多任务学习框架与质量评估打分任务进行联合训练,缓解质量评估标注数据稀缺的问题;此外,针对标注数据稀缺,尤其对于一些零样本语种的质量评估问题,本发明基于翻译模型的词表概率分布构建不确定性特征,在估计多语种句对评分的同时,为质检人员提供当前模型评估时的置信度,该置信度同时综合考虑了翻译模型以及质量评估模型对当前句对的不确定性分数估计,为质检人员进行更合理的数据初筛,从而提升质检人员的质检的效率和效果,很好的解决了质检人员与质量评估模型之间的协同效率不高,人工成本较大的问题。
附图说明
26.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
27.图1为本发明实施例提供的多语种翻译数据质量评估系统的构成示意图。
28.图2为本发明实施例提供的多语种翻译数据质量评估系统的基于约束解码的数据增强模块的构成示意图。
29.图3为本发明实施例提供的多语种翻译数据质量评估系统的基于翻译词表的不确定性特征构建模块的构成示意图。
30.图4为本发明实施例提供的多语种翻译数据质量评估系统的基于翻译和质量评估置信度的数据挑选模块的构成示意图。
31.图5为本发明实施例提供的多语种翻译数据质量评估方法的流程图。
具体实施方式
32.下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
33.首先对本文中可能使用的术语进行如下说明:
34.术语“和/或”是表示两者任一或两者同时均可实现,例如,x和/或y表示既包括“x”或“y”的情况也包括“x和y”的三种情况。
35.术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部
件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
36.术语“由
……
组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
37.除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
38.当浓度、温度、压力、尺寸或者其它参数以数值范围形式表示时,该数值范围应被理解为具体公开了该数值范围内任何上限值、下限值、优选值的配对所形成的所有范围,而不论该范围是否被明确记载;例如,如果记载了数值范围“2~8”时,那么该数值范围应被解释为包括“2~7”、“2~6”、“5~7”、“3~4和6~7”、“3~5和7”、“2和5~7”等范围。除另有说明外,本文中记载的数值范围既包括其端值也包括在该数值范围内的所有整数和分数。
39.术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本文的限制。
40.下面对本发明所提供的多语种翻译数据质量评估系统及方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
41.如图1所示,本发明实施例提供一种多语种翻译数据质量评估系统,包括:多语种质量评估模型,还包括:
42.基于约束解码的数据增强模块、基于翻译词表的不确定性特征构建模块和质量评估置信度的数据挑选模块;其中,
43.所述基于约束解码的数据增强模块,能从多语种高质量文本句对库中获取句对数据,基于多语种机器翻译模型对获取的所述句对数据进行局部约束翻译得出伪造句对数据,得出的所述伪造句对数据在训练阶段用于多任务训练框架对多语种质量评估模型的训练中;
44.所述基于翻译词表的不确定性特征构建模块,能从多语种高质量文本句对库中获取句对数据,基于多语种机器翻译模型对获取的所述句对数据用蒙特卡洛采样进行多次前向传播,求出前向传播过程中所述多语种句对数据中的译文的句子级模型不确定性特征和句子级数据不确定性特征,所述句子级模型不确定性特征和句子级数据不确定性特征在训
练阶段用于对多语种质量评估模型的质量评估训练中;以及在推理阶段作为翻译过程中的置信度;
45.所述质量评估置信度的数据挑选模块,能接收基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度,以及基于多语种质量评估模型对获取的所述句对数据用蒙特卡洛采样进行多次前向传播得到多维分值列表,计算得出多维分值列表的标准差作为多语种质量评估模型质量评估过程中的置信度,根据所述质量评估过程中的置信度和基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度得出综合置信度,根据综合置信度从多语种质量评估模型预测评分数据中筛选出人工复检数据。
46.具体地,上述通过多任务训练框架对多语种质量评估模型的训练中,多任务学习主要包括两个方面:一是基于(源文,真实译文数据)与(源文,局部伪造译文数据)数据利用分类任务学习对可能存在漏译和错译的伪造译文的辨别;二是基于(源文,标注译文)数据训练的回归任务,即打分模型,两个任务所用的神经网络参数共享,同时进行训练。
47.如图2所示,上述系统中,所述基于约束解码的数据增强模块包括:
48.第一多语种机器翻译模型和局部约束解码子模块;其中;
49.所述第一多语种机器翻译模型,其输入端连接多语种高质量文本句对库,输出端连接局部约束解码子模块的输入端,能在训练阶段从所述多语种高质量文本句对库获取句对数据;
50.所述局部约束解码子模块,分别设有约束解码输出端和伪造数据输出端,所述约束解码输出端能从所述句对数据的译文中随机选取前面预设百分比范围的文本作为约束部分,与句对数据的源文一起通过所述第一多语种机器翻译模型进行约束解码得出第一伪造数据;以及从所述句对数据的源文中随机选取前面预设百分比范围的文本作为约束部分,与句对数据的译文一起通过所述第一多语种翻译模型进行反向翻译得出第二伪造数据,将得出的第一伪造数据和第二伪造数据共同作为伪造数据经所述伪造数据输出端输出。
51.上述系统中,所述局部约束解码子模块从所述第一多语种机器翻译模型输出句对数据的译文中随机选取前面30%~70%的文本作为约束部分;
52.所述局部约束解码子模块从句对数据的源文中随机选取前面30%~70%的文本作为约束部分。
53.如图3所示,上述系统中,所述基于翻译词表的不确定性特征构建模块包括:
54.第二多语种机器翻译模型、蒙特卡洛采样子模块和词表概率分布计算子模块;其中,
55.所述第二多语种机器翻译模型,其输入端连接多语种高质量文本句对库,输出端连接蒙特卡洛采样子模块的输入端,能在训练阶段从所述多语种高质量文本句对库获取句对数据;
56.所述蒙特卡洛采样子模块,能对所述第二多语种机器翻译模型获取的所述句对数据用蒙特卡洛采样进行多次前向传播,对译文的每一个位置得出多维的单词词表概率分布矩阵;
57.所述词表概率分布计算子模块,与所述蒙特卡洛采样子模块的输出端连接,能根据多维的单词词表概率分布矩阵计算得出前向传播过程中所述句对数据中的译文的句子
级模型不确定性特征和句子级数据不确定性特征作为翻译过程中的置信度。
58.上述系统中,所述词表概率分布计算子模块,按以下方式根据多维的单词词表概率分布矩阵计算得出前向传播过程中所述句对数据中的译文的句子级模型不确定性特征和句子级数据不确定性特征包括:
59.按以下公式计算解码过程中译文的每个位置的模型不确定性特性和句子级模型不确定性特性分别为:
[0060][0061][0062]
其中,i表示译文中第i个位置;j表示第j次前向传播过程;表示n次前向传播过程中第i个位置的预测概率中心;euc_dist表示每次前向传播过程中词的词表概率分布与预测概率中心的欧式距离,作为在该译文的约束下模型对当前解码序列的预测置信度;表示单词词表概率分布矩阵中第j次前向传播过程中的译文中第i个位置的概率分布;t表示译文端句子的长度;t表示译文端句子中的每个单词;表示解码过程中译文的每个单词的所有位置的模型不确定性特性的平均值;表示解码过程中译文的所有单词的所有位置的模型不确定性特性的平均值,即句子级模型不确定性特性;
[0063]
按以下公式计算解码过程中译文的每个位置的数据不确定性特性和句子级数据不确定性特性分别为:
[0064][0065][0066]
其中,各符号含义为:i表示译文中第i个位置;j表示第j次前向传播过程;n表示前向传播的次数;entropy()表示信息熵函数;表示单词词表概率分布矩阵中第j次前向传播过程中的译文中第i个位置的概率分布;t表示译文端句子的长度;t表示译文端句子中的每个单词;表示解码过程中译文的每个单词的所有位置的数据不确定性特性的平均值;表示解码过程中译文的所有单词的所有位置的数据不确定性特性的平均值,即句子级数据不确定性特性。
[0067]
如图4所示,上述系统中,所述基于翻译和质量评估不确定性的数据挑选模块包括:
[0068]
多语种质量评估模型、置信度计算子模块和数据筛选子模块;其中,
[0069]
所述多语种质量评估模型,能从多语种质量评估的语料库中获取句对数据,并对获取的所述句对数据用蒙特卡洛采样进行多次前向传播得到多维分值列表;
[0070]
所述置信度计算子模块,与所述多语种质量评估模型的输出端连接,能计算得出多维分值列表的标准差作为最新多语种质量评估模型质量评估过程中的置信度,并根据所述质量评估过程中的置信度和基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度得出综合置信度;
[0071]
所述数据筛选子模块,与所述置信度计算子模块的输出端连接,能根据综合置信度从最新多语种质量评估模型预测评分数据中筛选出人工复检数据。
[0072]
如图5所示,本发明实施例还提供一种应用上述多语种翻译数据质量评估系统的多语种翻译数据质量评估方法,包括如下步骤:
[0073]
训练阶段:
[0074]
通过所述系统的基于约束解码的数据增强模块从多语种高质量文本句对库中获取多语种句对数据,基于多语种机器翻译模型对获取的所述句对数据进行局部约束翻译得出伪造句对数据,得出的所述伪造句对数据在训练阶段用于多任务训练框架对多语种质量评估模型的训练中;
[0075]
通过所述系统的基于翻译词表的不确定性特征构建模块从多语种高质量文本句对库中获取句对数据,基于多语种机器翻译模型对获取的所述句对数据用蒙特卡洛采样进行多次前向传播,求出前向传播过程中所述句对数据中的译文的句子级模型不确定性特征和句子级数据不确定性特征,所述句子级模型不确定性特征和句子级数据不确定性特征在训练阶段用于对多语种质量评估模型的质量评估训练中;
[0076]
推理阶段:
[0077]
通过所述系统的基于翻译词表的不确定性特征构建模块求出前向传播过程中所述句对数据中的译文的句子级模型不确定性特征和句子级数据不确定性特征作为翻译过程中的置信度;
[0078]
通过所述系统的质量评估置信度的数据挑选模块接收基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度,以及基于多语种质量评估模型对获取的所述句对数据用蒙特卡洛采样进行多次前向传播得到多维分值列表,计算得出多维分值列表的标准差作为最新多语种质量评估模型质量评估过程中的置信度,根据所述质量评估过程中的置信度和基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度得出综合置信度,根据综合置信度从多语种质量评估模型预测评分数据中筛选出人工复检数据。
[0079]
上述方法中,基于多语种机器翻译模型按以下方式对获取的所述句对数据进行局部约束翻译得出伪造句对数据,包括:从基于多语种机器翻译模型的第一多语种机器翻译模型输出句对数据的译文中随机选取前面预设百分比范围的文本作为约束部分,与句对数据的源文一起通过所述第一多语种机器翻译模型进行约束解码得出第一伪造数据;以及从句对数据的源文中随机选取前面预设百分比范围的文本作为约束部分,与句对数据的译文一起通过所述第一多语种翻译模型进行反向翻译得出第二伪造数据,将得出的第一伪造数据和第二伪造数据共同作为伪造数据输出。
[0080]
上述方法中,按以下方式基于多语种机器翻译模型对获取的所述句对数据用蒙特卡洛采样进行多次前向传播,求出前向传播过程中所述句对数据中的译文的句子级模型不确定性特征和句子级数据不确定性特征,包括:
[0081]
对第二多语种机器翻译模型获取的所述句对数据用蒙特卡洛采样进行多次前向
传播,对解码的每一个位置得出多维的单词词表概率分布矩阵,根据多维的单词词表概率分布矩阵计算得出前向传播过程中所述句对数据中的译文的句子级模型不确定性特征和句子级数据不确定性特征,包括:
[0082]
按以下公式计算解码过程中译文的每个位置的模型不确定性特性和句子级模型不确定性特性分别为:
[0083][0084][0085]
其中,i表示译文中第i个位置;j表示第j次前向传播过程;表示n次前向传播过程中第i个位置的预测概率中心;euc_dist表示每次前向传播过程中词的词表概率分布与预测概率中心的欧式距离,作为在该译文的约束下模型对当前解码序列的预测置信度;表示单词词表概率分布矩阵中第j次前向传播过程中的译文中第i个位置的概率分布;t表示译文端句子的长度;t表示译文端句子中的每个单词;表示解码过程中译文的每个单词的所有位置的模型不确定性特性的平均值;表示解码过程中译文的所有单词的所有位置的模型不确定性特性的平均值,即句子级模型不确定性特性;
[0086]
按以下公式计算解码过程中译文的每个位置的数据不确定性特性和句子级数据不确定性特性分别为:
[0087][0088][0089]
其中,各符号含义为:i表示译文中第i个位置;j表示第j次前向传播过程;n表示前向传播的次数;entropy()表示信息熵函数;w
ji
表示单词词表概率分布矩阵中第j次前向传播过程中的译文中第i个位置的概率分布;t表示译文端句子的长度;t表示译文端句子中的每个单词;表示解码过程中译文的每个单词的所有位置的数据不确定性特性的平均值;表示解码过程中译文的所有单词的所有位置的数据不确定性特性的平均值,即句子级数据不确定性特性。
[0090]
上述方法中,质量评估置信度的数据挑选模块按以下方式根据所述质量评估过程中的置信度和基于翻译词表的不确定性特征构建模块输出的翻译过程中的置信度得出综合置信度u,包括:
[0091][0092]
其中,各参数含义为:w1表示句子级的模型不确定性特征所占比例,初始值为1;
表示句子级的模型不确定性特征;w2表示句子级的数据不确定性特征所占比例,初始值为1;表示句子级的数据不确定性特征;w3表示最新多语种质量评估模型质量评估过程中的置信度所占比例,初始值为1;σ表示多维分值列表的标准差,其作为最新多语种质量评估模型质量评估过程中的置信度。
[0093]
本发明实施例还提供一种处理设备,包括:
[0094]
至少一个存储器,用于存储一个或多个程序;
[0095]
至少一个处理器,能执行所述存储器所存储的一个或多个程序,在一个或多个程序被处理器执行时,使得所述处理器能实现上述的方法。
[0096]
本发明实施例进一步提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时能实现上述的方法。
[0097]
综上可见,本发明实施例的多语种翻译数据质量评估系统及方法,一方面利用翻译模型局部约束解码进行数据增强,从而可以无监督地构建大量人工后编辑前的伪造数据,并基于多任务学习框架与质量评估打分任务进行联合训练,缓解质量评估标注数据稀缺的问题;另一方面,基于翻译模型的词表概率分布构建不确定性特征,缓解标注数据稀缺,尤其对于一些零样本语种的质量评估问题;在估计多语种句对评分的同时,为质检人员提供当前模型评估时的置信度,该置信度同时综合考虑了翻译模型以及质量评估模型对当前句对的不确定性分数估计,为质检人员进行更合理的数据初筛,从而提升质检人员的质检的效率和效果,很好的解决了质检人员与质量评估模型之间的协同效率不高,人工成本较大的问题。
[0098]
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的多语种翻译数据质量评估系统及方法进行详细描述。
[0099]
实施例1
[0100]
本发明实施例提供一种多语种翻译数据质量评估系统,是基于多任务学习框架和不确定性估计方法同时出发,在多语种高质量平行句对和评分标注数据稀缺的情况下,进行多语种句对效果评估的系统,能解决当前多语种质量评估系统中缺乏质量评分所需要的标注数据的问题。如图1所示,该系统包括:多语种质量评估模型、基于约束解码的数据增强模块、基于翻译词表的不确定性特征构建模块和基于翻译和质量评估置信度的数据挑选模块;其中,
[0101]
(一)基于局部约束解码的数据增强模块的构成如图2所示,包括:第一多语种机器翻译模型和局部约束解码子模块;优选的,第一多语种机器翻译模型采用最新多语种机器翻译模型;
[0102]
该数据增强模块的具体处理方式如下:
[0103]
(11)假设存在多语种高质量文本句对库,记作《x,y》;
[0104]
(12)第一多语种机器翻译模型从《x,y》中随机选取句对《x
l
,y
l
》,局部约束解码子模块针对高质量句对《x
l
,y
l
》,从译文y
l
中随机选取前30%到70%之间的文本作为约束部分,与源文x
l
一起送入第一多语种机器翻译模型进行约束解码,得到伪造数据《x
l
,yd》;类似的,从源文x
l
中随机选取前30%到70%之间的文本作为约束部分,利用多语种翻译模型反向翻译,得到伪造数据《xd,y
l
》;
[0105]
(12)重复上述过程,直到将多语种高质量语料库《x,y》遍历完全,得出全部的伪造
数据。
[0106]
上述的基于局部约束解码的数据增强模块通过联合训练的任务为对高质量译文和机翻质量不稳定如多译漏译的译文之间进行分类,实现局部约束解码的数据增强,由于两个任务之间具有较强的关联性,对于模型底部特征可以进行有效的共享,同时能够缓解由于数据稀缺导致的过拟合问题,提高了训练后模型的泛化能力,避免了单纯的使用完全的机翻译文会由于译文的风格不可控(相同源文会有多种译文的表达),导致该分类任务目标与多语种质量评估目标之间的相关性降低,从而减弱数据增强效果的问题,解决了多语种质量评估评分数据较为稀缺,数据来源少,标注代价昂贵的问题。
[0107]
(二)基于翻译词表概率分布不确定性特征构建模块的构成如图3所示,包括:第二多语种机器翻译模型、蒙特卡洛采样子模块和词表概率分布计算子模块;优选的,第二多语种机器翻译模型采用最新多语种机器翻译模型;
[0108]
该不确定性特征构建模块的具体处理方式如下:
[0109]
(21)假设存在多语种高质量文本句对库,记作《x,y》,第二多语种机器翻译模型θ,词表大小为v;
[0110]
(22)第二多语种机器翻译模型从语料库中顺序抽取句对《xi,yi》,假设译文yi的长度为t,基于该第二多语种机器翻译模型θ,使用蒙特卡洛采样进行前向传播n次,对于解码的每一个位置来说,能得到一个n
×
v维的单词词表概率分布矩阵,记作{w}
t=1..t

[0111]
(23)词表概率分布计算子模块对于译文的每个位置来说,分别按定义模型不确定性特征和数据不确定性特征的公式计算得出与公式如下:
[0112][0113][0114]
其中,i表示译文中第i个位置;j表示第j次前向传播过程;表示n次前向传播过程中第i个位置的预测概率中心;euc_dist表示每次前向过程中词的词表概率分布与概率中心的欧式距离,该距离越小,说明模型不确定性越低,表明在该译文的约束下模型对当前解码序列的预测有更大的置信度;为句子级的模型不确定性特征;
[0115]
数据不确定性特征的公式如下:
[0116][0117][0118]
其中,表示句子级的数据不确定性特征;数据不确定性衡量了预测过程中由于数据噪音引起的不确定性,本发明利用平均熵来建模预测概率分布集合中的数据不确定性,对于每个位置预测而言,如果词表上各词的分布概率越离散,那么熵值越小,说明数据
不确定性更小;
[0119]
(24)将上述每个位置的模型不确定性特征和数据不确定性特征引入接下来的质量评估训练中,可以有效缓解少样本下的质量评估效果。
[0120]
本发明基于词表概率分布的翻译模型不确定性特征构建方式,利用最新的多语种翻译模型在不同的数据和模型扰动下对当前多语种质检数据进行分数建模,提升质量评估效果;避免了现有方案中,往往基于蒙特卡洛dropout计算预测序列中每个译文词的概率期望、方差或文本相似度特征,忽略了翻译过程中每帧的词表概率分布信息;例如,当在翻译第yi个单词的时候,假设该单词处在词表的第一位,词表概率最高的处于第二位,那么词表概率可能存在以下两种情况:a:[0.4,0.3,

]和b:[0.4,0.01,

],如果仅考虑第一个词的概率,则模型会认为a和b一样好,但从词表概率分布来看,相比于a来说模型对于b的选择更有自信。很好的解决了由于多语种质量评估标注数据稀缺,尤其对于一些零样本语种的质量评估,如何引入一些glass-box的人工构建的翻译特征辅助训练的问题。
[0121]
(三)基于翻译和质量评估不确定性的数据挑选模块的构成如图4所示,包括:多语种质量评估模型、置信度计算子模块和数据筛选子模块;优选的,多语种质量评估模型采用最新多语种质量评估模型;
[0122]
该数据挑选模块的处理方式如下:
[0123]
(31)假设需要进行多语种质量评估的语料库记作《x,y》,多语种质量评估模型θ;
[0124]
(32)多语种质量评估模型从语料库中顺序抽取句对《xi,yi》,基于该多语种质量评估模型θ,使用蒙特卡洛采样进行前向传播n次,能得到一个n维的分值列表,记作{s}
t=1..n

[0125]
(33)置信度计算子模块计算分值列表{s}
t=1..n
的标准差σ作为质量评估过程中的置信度,标准差分数越小,说明质量评估模型对该次预测的置信度越高;
[0126]
(34)本实施例综合利用翻译过程中的置信度和和质量评估过程中的置信度σ进行人工复检数据的筛选,能避免由于单纯利用质量评估或者翻译模型的置信度去衡量当前数据是否需要人工质检造成过于片面的问题,置信度计算子模块按如下综合置信度的计算公式计算出综合置信度u:
[0127][0128]
(35)数据筛选子模块根据综合置信度u对模型预测评分数据进行排序,选取预定比例p(该比例可根据需要自由设定)进行人工质检;上述参数w1,w2,w3初期可以按1进行初始化,后续可以根据人工质检后的数据对上述参数进行训练,通过主动学习的方式提升质检人员的效率和效果。如可利用人工质检后的数据作为标签,上述参数作为变量,简单训练一个全连接神经网络,确定上述参数。在推理阶段利用随机的dropout机制,从而制造扰动,检验多语种质量评估模型对当前预测的置信度。
[0129]
本发明的数据挑选模块基于翻译和质量评估模型置信度对人工质检数据进行初步筛选,通过对质量评估模型进行置信度估计,结合翻译置信度和质量评估置信度挑选出模型无法确定的数据交予质检人员进行人为评估,从而实现整个系统的效率和效果提高,避免了由于现有质量评估模型只能给出模型对当前评分估计的具体分值,但并没有为质检人员提供当前模型评估时的置信度,例如假设评分的范围为0-5分,质量评估模型为某条多语种句对的评分为5,质检人员无法得知模型打分时的确信程度,因此往往质检时采取的都是随机采样,或者对低分数据和高分数据进行有差别的随机采样,然而这种方式对于机器
评分有误的数据召回率和效率都很低的问题。
[0130]
综上可见,本发明实施例系统及方法以最新机器翻译系统为基础,通过基于多任务学习框架的约束翻译数据增强和在翻译和质量评估中引入不确定性特征等方法来提高整个系统的运行效率和可靠性。相比现有技术优点如下:
[0131]
优点1,利用翻译模型局部约束解码技术进行数据增强,从而可以无监督地构建大量人工后编辑前的伪造数据,并基于多任务学习框架与质量评估打分任务进行联合训练,由于两个任务之间的相关性,该方法能够缓解由于数据稀缺导致的过拟合问题,提高了模型的泛化能力。
[0132]
优点2,在多语种翻译和质量评估过程中同时引入不确定性估计,一方面利用多语种翻译模型构建基于词表概率分布的不确定性特征,从而提高稀缺数据下多语种质量评估模型的效果;另一方面综合考虑翻译模型和质量评估模型对当前句对的置信度得分,从而基于置信度挑选出模型无法确定的数据交予质检人员进行人为评估,从而实现整个系统的效率和效果提高。
[0133]
本领域普通技术人员可以理解:实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0134]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献