一种翻译数据标注辅助系统、方法、设备及存储介质

2023-03-20 09:08:51 来源：中国专利 TAG：

1.本发明涉及机器翻译领域，尤其涉及一种翻译数据标注辅助系统及方法。

背景技术：

2.机器翻译技术的发展依赖大量标注数据，现有数据标注，通常采用众包的方式来进行数据标注。通过分布式众包的方法来使更多的标注人员参与数据标注，从而提高标注效率。机器翻译数据是源语言和目标语言句对组成的，因此要求译员需要精通两种语言，这对机器翻译数据标注人员要求较高。此外，对于翻译的效果评估而言，存在信、达、雅等评价指标，导致翻译效果的评估存在主观性，就给标注数据的质检带来困难。现在的机器翻译数据标注系统，存在着标注效率较低、质检困难的问题，随着机器翻译技术以及质量评估技术的发展，机器辅组翻译以及机器辅组质检给数据标注带来新的机遇，从而提高机器翻译数据标注的效率。
3.现有翻译数据标注主要以人工为主，机器为辅，效率低下，重复工作比较多，译员积极性不高，整个系统还是粗放式管理。现代基于深度学习的机器翻译技术和质量评估技术越来越成熟，并且走向实用，但如何把这些技术合理的应用到翻译数据标注系统中仍是需解决的问题。
4.有鉴于此，特提出本发明。

技术实现要素：

5.本发明的目的是提供了一种翻译数据标注辅助系统、方法、设备及存储介质，能高效对翻译数据进行机器标注，进而解决现有技术中存在的上述技术问题。
6.本发明的目的是通过以下技术方案实现的：
7.本发明实施方式提供一种翻译数据标注辅助系统，包括：
8.机器翻译候选结果挑选模块、译员翻译能力自适应任务分配模块、译员水平动态质检模块和多策略主动学习迭代更新模块；其中，
9.所述机器翻译候选结果挑选模块，能对接收的待翻译句子通过多个机器翻译模型进行不同的翻译得出多个候选翻译结果，并通过近似检索方式从历史标注库里检索出与待翻译句子最接近句子的标注结果，再通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文；
10.所述译员翻译能力自适应任务分配模块，与所述机器翻译候选结果挑选模块的输出端连接，能根据预先评估得出的各译员的翻译能力值，将所述机器翻译候选结果挑选模块输出的最佳候选译文分配给翻译能力值匹配的译员进行修改，并接收各译员修改后的译文作为最终人工翻译数据；
11.所述译员水平动态质检模块，与所述译员翻译能力自适应任务分配模块的输出端连接，能接收所述译员翻译能力自适应任务分配模块输出的各译员的最终人工翻译数据，并基于各译员的翻译能力值动态抽选不同量级的最终人工翻译数据来对标注数据进行质
检得出质检完的翻译结果数据；
12.所述多策略主动学习迭代更新模块，将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习。
13.本发明实施方式还提供一种应用本发明所述的翻译数据标注辅助系统的翻译数据标注辅助方法，包括如下步骤：
14.步骤1，通过所述系统的机器翻译候选结果挑选模块对接收的待翻译句对用多个机器翻译模型进行不同的翻译得出多个候选翻译结果，并通过近似检索方式从历史标注库里检索出与多个候选翻译结果最接近的标注结果，再通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文；
15.步骤2，通过所述系统的译员翻译能力自适应任务分配模块根据预先评估得出的各译员的翻译能力值，将所述机器翻译候选结果挑选模块输出的最佳候选译文分配给翻译水平匹配的译员进行修改，并接收各译员修改后的译文作为最终人工翻译数据；
16.步骤3，通过所述系统的译员水平动态质检模块接收所述译员翻译能力自适应任务分配模块输出的各人工修改结果数据，各译员的最终人工翻译数据，并基于各译员的翻译能力值动态抽选不同量级的最终人工翻译数据来对标注数据进行质检得出质检完的翻译结果数据；
17.步骤4，通过所述系统的多策略主动学习迭代更新模块，将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习。
18.本发明实施方式又提供一种处理设备，包括：
19.至少一个存储器，用于存储一个或多个程序；
20.至少一个处理器，能执行所述存储器所存储的一个或多个程序，在一个或多个程序被处理器执行时，使得所述处理器能实现本发明所述的方法。
21.本发明实施方式进一步提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时能实现本发明所述的方法。
22.与现有技术相比，本发明所提供的翻译数据标注辅助系统、方法、设备及存储介质，其有益效果包括：
23.通过设置的机器翻译候选结果挑选模块、译员翻译能力自适应任务分配模块、译员水平动态质检模块和多策略主动学习迭代更新模块相互配合，通过机器翻译候选结果挑选模块对整个标注链条进行精细化管理，对不同标注质量的译员进行动态数据抽样，从而使得系统对弱点更加关注，很好的解决了系统质检依赖随机挑选数据，对差译员的标注结果缺少额外的关注的问题；利用译员翻译能力自适应任务分配模块的译员翻译能力自适应的任务分配策略，提高了整个系统的效率，解决了现有机器翻译数据标注系统，不同译员的能力未能正确评估，未能依据不同能力人员水平给予不同难度的任务的问题；通过多策略主动学习迭代更新模块已多策略主动学习的系统迭代更新来利用标注系统提供的大量人工标注数据，迭代提高效率，很好的解决了现有组标注系统更新慢，不及时的问题。
附图说明
24.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本
领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。
25.图1为本发明实施例提供的翻译数据标注辅助系统的构成示意图。
26.图2为本发明实施例提供的翻译数据标注辅助系统的译员翻译能力自适应任务分配模块的构成示意图。
27.图3为本发明实施例提供的翻译数据标注辅助方法的流程图。
具体实施方式
28.下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。
29.首先对本文中可能使用的术语进行如下说明：
30.术语“和/或”是表示两者任一或两者同时均可实现，例如，x和/或y表示既包括“x”或“y”的情况也包括“x和y”的三种情况。
31.术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。
32.术语“由
……
组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。
33.除另有明确的规定或限定外，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如：可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本文中的具体含义。
34.当浓度、温度、压力、尺寸或者其它参数以数值范围形式表示时，该数值范围应被理解为具体公开了该数值范围内任何上限值、下限值、优选值的配对所形成的所有范围，而不论该范围是否被明确记载；例如，如果记载了数值范围“2～8”时，那么该数值范围应被解释为包括“2～7”、“2～6”、“5～7”、“3～4和6～7”、“3～5和7”、“2和5～7”等范围。除另有说明外，本文中记载的数值范围既包括其端值也包括在该数值范围内的所有整数和分数。
35.术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化描述，而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为
对本文的限制。
36.下面对本发明所提供的翻译数据标注辅助系统及方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。
37.如图1所示，本发明实施例提供一种翻译数据标注辅助系统，包括：
38.机器翻译候选结果挑选模块、译员翻译能力自适应任务分配模块、译员水平动态质检模块和多策略主动学习迭代更新模块；其中，
39.所述机器翻译候选结果挑选模块，能对接收的待翻译句子通过多个机器翻译模型进行不同的翻译得出多个候选翻译结果，并通过近似检索方式从历史标注库里检索出与待翻译句子最接近句子的标注结果，再通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文；
40.所述译员翻译能力自适应任务分配模块，与所述机器翻译候选结果挑选模块的输出端连接，能根据预先评估得出的各译员的翻译能力值，将所述机器翻译候选结果挑选模块输出的最佳候选译文分配给翻译能力值匹配的译员进行修改，并接收各译员修改后的译文作为最终人工翻译数据；
41.所述译员水平动态质检模块，与所述译员翻译能力自适应任务分配模块的输出端连接，能接收所述译员翻译能力自适应任务分配模块输出的各译员的最终人工翻译数据，并基于各译员的翻译能力值动态抽选不同量级的最终人工翻译数据来对标注数据进行质检得出质检完的翻译结果数据；
42.所述多策略主动学习迭代更新模块，将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习。
43.上述系统中，所述机器翻译候选结果挑选模块包括：
44.多个机器翻译模型、近似检索子模块和自对比子模块；其中，
45.多个机器翻译模型并列设置，能对接收的同一个待翻译句子进行不同的翻译得出多个候选翻译结果；
46.所述近似检索子模块，分别与各机器翻译模型的输出端连接，能通过近似检索方式从历史标注库里检索出与各机器翻译模型输出的多个候选翻译结果最接近句子的标注结果；
47.所述自对比子模块，与所述近似检索子模块的输出端连接，能通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文。
48.上述机器翻译候选结果挑选模块中，
49.所述近似检索子模块对给定需要标注的文本x，从标注库的标注数据《xl,yl》检索出与需要标注文本最接近的标注结果xl，将待标注文本结果xl对应的译文yl作为检索候选翻译结果；
50.多个机器翻译模型，预先训练好后分别对待标注文本以beam5进行翻译得出多个候选翻译结果；
51.所述自对比子模块计算出多个候选翻译结果中的每一个候选翻译结果的beam约束对比指标dev_join，并将beam约束对比指标dev_join最高的那个解码结果作为最佳候选
译文。
52.上述多个机器翻译模型所用的beam5通过以下方式计算得出，包括：
53.beam间差异度指标dev_beam为:
[0054][0055]
其中，m指beamsize取值为1-5，即beam5；表示第i个机器翻译模型的第j个解码结果；
[0056]
beam间解码结果差异性dev_outer为:
[0057][0058]
其中，m指beamsize取值为1-25；bleu-score为两个解码结果之间的bleu分数；edit-distence为两个解码结果之间的编辑距离；
[0059]
所述beam约束对比指标dev_join＝dev_outer
–
dev_beam；其中，dev_outer为beam间解码结果差异性；dev_beam为beam间差异度指标。
[0060]
如图2所示，上述系统中，所述译员翻译能力自适应任务分配模块包括：
[0061]
译员能力评估子模块、翻译任务难度评估子模块和翻译任务分配子模块；其中，
[0062]
所述译员能力评估子模块，与所述翻译任务分配子模块连接，能根据译员的翻译年限和翻译等级确定译员初始的能力值，根据译员初始的能力值为译员随机分配不同难度值的翻译任务，对译员完成的翻译任务进行人工质检得出翻译合格率，若合格率大于98％则加大后续翻译任务难度值，若合格率小于92％则减小后续翻译任务难度值，根据后续得出的质检合格率更新译员的能力值；
[0063]
所述翻译任务难度评估子模块，与所述翻译任务分配子模块连接，能计算出当前翻译任务的当前解码结果翻译质量分，根据当前解码结果翻译质量分确定对应翻译任务的难度值；
[0064]
所述翻译任务分配子模块，根据当前翻译任务难度值和译员能力值，计算得出该翻译任务预估能力值，将该翻译任务分配给能力值与该翻译任务预估译员能力值最接近的译员。
[0065]
上述译员翻译能力自适应任务分配模块中，所述译员能力评估子模块按以下方式根据译员的翻译年限和翻译等级确定译员初始的能力值tp为：
[0066][0067]
其中，t_year为译员的翻译年限；t_grade为译员的翻译等级；
[0068]
所述译员能力评估子模块按以下方式更新译员能力值tp为:
[0069][0070]
其中，task_diff为翻译任务难度系数，计算方式与前面相同；p_corect为质检合格率，右边的tp为更新前的tp，左边的tp为更新后tp；
[0071]
通过上述方式能对对译员的能力评估，定期进行自动评估，以动态的衡量译员水平的变化；
[0072]
所述翻译任务难度评估子模块按以下方式计算得出当前解码结果翻译质量分sj，
包括：
[0073]
sj＝qe
forward
qe
backward
t_mean-t
var
0.7(dropout_mean-dropout_var)
[0074]
其中，各参数含义为：qe_forward为使用正向机器翻译质量评估模型对翻译结果进行质量评估值；qe_backward为使用反向机器翻译质量评估模型对解码结果进行打分的分值；t_mean为对每个翻译任务随机挑选按数量计10％的输入文本使用机器翻译模型进行解码，对每个翻译解码结果使用多个机器翻译模型进行打分，再对打分求平均得出的均值；t_var为对每个翻译任务随机挑选按数量计10％的输入文本使用机器翻译模型进行解码，对每个翻译解码结果使用多个机器翻译模型进行打分，再对打分求方差得出的方差；dropout_mean为基于同一机器翻译模型，使用不同的dropout比例对翻译解码结果进行打分，再对打分求平均得出的均值；dropout_var为基于同一机器翻译模型，使用不同的dropout比例对翻译解码结果进行打分，再对打分求方差得出的方差；
[0075]
所述翻译任务分配子模块按以下方式计算得出该翻译任务预估能力值，包括：
[0076][0077]
其中，tp_predi为第i个翻译任务预估能力值；task_diffi为第i个翻译任务难度值；tp
min
为译员的最小能力值，tp
max
为译员的最大能力值，random()为产生0到1之间随机数的随机数生成函数。
[0078]
上述系统中，所述译员水平动态质检模块按以下方式基于各译员的翻译水平动态抽选不同量级的最终人工翻译数据来进行人工质检，包括：
[0079]
依据下面公式计算需要抽检的样本数量samplei：
[0080]
samplei＝200 100*(1-sigmoid(tpi)) 50*random()；
[0081]
其中，tpi为第i个译员的能力值；sigmoid()为激活函数；random()为产生0到1之间随机数的随机数生成函数；
[0082]
上述系统中，所述多策略主动学习迭代更新模块按以下方式将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习，包括：
[0083]
筛选出候选翻译结果的机器翻译模型得分最差的10％数据的人工标注结果放入待训练候选数据集中；
[0084]
对候选翻译结果的使用不同dropout比例机器翻译模型得分取方差，选取方差最大的10％数据的人工标注结果放入待训练候选数据集中；
[0085]
基于翻译质量评估模型对候选翻译结果选取得分最低的10％数据的人工标注结果放入待训练候选数据集中；
[0086]
通过上述得出的待训练候选集合对机器翻译模型和质量评估模型进行训练。
[0087]
如图3所示，本发明实施例还提供一种应用上述系统的翻译数据标注辅助方法，包括如下步骤：
[0088]
步骤1，通过所述系统的机器翻译候选结果挑选模块对接收的待翻译句对用多个机器翻译模型进行不同的翻译得出多个候选翻译结果，并通过近似检索方式从历史标注库里检索出与多个候选翻译结果最接近的标注结果，再通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文；
[0089]
步骤2，通过所述系统的译员翻译能力自适应任务分配模块根据预先评估得出的
各译员的翻译能力值，将所述机器翻译候选结果挑选模块输出的最佳候选译文分配给翻译水平匹配的译员进行修改，并接收各译员修改后的译文作为最终人工翻译数据；
[0090]
步骤3，通过所述系统的译员水平动态质检模块接收所述译员翻译能力自适应任务分配模块输出的各人工修改结果数据作为各译员的最终人工翻译数据，并基于各译员的翻译能力值动态抽选不同量级的最终人工翻译数据来对标注数据进行质检得出质检完的翻译结果数据；
[0091]
步骤4，通过所述系统的多策略主动学习迭代更新模块，将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习。
[0092]
上述方法的步骤1中，所述机器翻译候选结果挑选模块按以下方式通过近似检索方式从历史标注库里检索出与多个候选翻译结果最接近的标注结果，包括：
[0093]
对给定需要标注的文本x，从标注库的标注数据《x
l
,y
l
》检索出与需要标注文本最接近的标注结果x
l
，将该标注结果x
l
对应的译文y
l
作为检索候选翻译结果；
[0094]
所述步骤1中，所述机器翻译候选结果挑选模块按以下方式通过多个机器翻译模型进行不同的翻译得出多个候选翻译结果，包括：
[0095]
通过预先训练好的分别多个机器翻译模型对待标注文本以beam5进行翻译得出多个候选翻译结果；
[0096]
所述步骤1中，所述机器翻译候选结果挑选模块按以下方式通过自对比方式从多个候选翻译结果中挑选出翻译最好的候选翻译结果作为最佳候选译文，包括：
[0097]
计算出多个候选翻译结果中的每一个候选翻译结果的beam约束对比指标dev_join，并将beam约束对比指标dev_join最高的那个解码结果作为最佳候选译文；
[0098]
所述beam约束对比指标dev_join的计算公式为：dev_join＝dev_outer
–
dev_beam；其中，dev_outer为beam间解码结果差异性，该beam间解码结果差异性的计算公式为：其中，各参数与符号的含义为：bleu-score为两个解码结果之间的bleu分数，edit-distence为两个解码结果之间的编辑距离；dev_beam为beam间差异度指标，该beam间差异度指标的计算公式为：dev_beam＝其中，各参数与符号含义为，表示第i个机器翻译模型的第j个解码结果；
[0099]
上述方法的步骤2中，所述译员翻译能力自适应任务分配模块按以下方式评估得出的各译员的翻译能力值，包括：
[0100]
根据译员的翻译年限和翻译等级确定译员初始的能力值，根据译员初始的能力值为译员随机分配不同难度值的翻译任务，对译员完成的翻译任务进行人工质检得出翻译合格率，若合格率大于98％则加大后续翻译任务难度值，若合格率小于92％则减小后续翻译任务难度值，根据后续得出的质检合格率更新译员的能力值；
[0101]
所述步骤2中，所述译员翻译能力自适应任务分配模块按以下方式确定当前翻译任务的难度值，包括：
[0102]
计算出当前翻译任务的当前解码结果翻译质量分sj，当前解码结果翻译质量分sj的计算公式为：
[0103]
sj＝qe
forward
qe
backward
t_mean-t
var
0.7(dropout_mean-dropout_var)；
[0104]
其中，各参数含义为：qe_forward为使用正向机器翻译质量评估模型对翻译结果进行质量评估值；qe_backward为使用反向机器翻译质量评估模型对解码结果进行打分的分值；t_mean为对每个翻译任务随机挑选按数量10％的输入文本使用机器翻译模型进行解码，对每个翻译解码结果使用多个机器翻译模型进行打分，再对打分求平均得出的均值；t_var为对每个翻译任务随机挑选按数量10％的输入文本使用机器翻译模型进行解码，对每个翻译解码结果使用多个机器翻译模型进行打分，再对打分求方差得出的方差；dropout_mean为基于同一机器翻译模型，使用不同的dropout比例对翻译解码结果进行打分，再对打分求平均得出的均值；dropout_var为基于同一机器翻译模型，使用不同的dropout比例对翻译解码结果进行打分，再对打分求方差得出的方差；
[0105]
根据当前解码结果翻译质量分确定对应翻译任务的难度值；
[0106]
上述方法的步骤2中，所述译员翻译能力自适应任务分配模块按以下方式根据当前翻译任务难度值和译员能力值，计算得出该翻译任务预估能力值，包括：
[0107][0108]
其中，tp_predi为第i个翻译任务预估能力值；task_diffi为第i个翻译任务难度值；tp
min
为译员的最小能力值，tp
max
为译员的最大能力值，random()为产生0到1之间随机数的随机数生成函数。
[0109]
将所述机器翻译候选结果挑选模块输出的最佳候选译文分配给翻译能力值匹配的译员。
[0110]
上述方法的步骤3中，所述译员水平动态质检模块按以下方式基于各译员的翻译水平动态抽选不同量级的最终人工翻译数据来进行人工质检，包括：
[0111]
依据下面公式计算需要抽检的样本数量samplei：
[0112]
samplei＝200 100*(1-sigmoid(tpi)) 50*random()；
[0113]
其中，tpi为第i个译员的能力值；sigmoid()为激活函数；random()为产生0到1之间随机数的随机数生成函数。
[0114]
上述方法的步骤4中，所述多策略主动学习迭代更新模块按以下方式将质检完的翻译结果数据依次回流到机器翻译模型和质量评估模型中进行主动学习，包括：
[0115]
筛选出候选翻译结果的机器翻译模型得分最差的10％数据的人工标注结果放入待训练候选数据集中；
[0116]
对候选翻译结果的使用不同dropout比例机器翻译模型得分取方差，选取方差最大的10％数据的人工标注结果放入待训练候选数据集中；
[0117]
基于翻译质量评估模型对候选翻译结果选取得分最低的10％数据的人工标注结果放入待训练候选数据集中；
[0118]
通过上述得出的待训练候选集合对机器翻译模型和质量评估模型进行训练。
[0119]
本发明实施例进一步提供一种处理设备，包括：
[0120]
至少一个存储器，用于存储一个或多个程序；
[0121]
至少一个处理器，能执行所述存储器所存储的一个或多个程序，在一个或多个程序被处理器执行时，使得所述处理器能实现上述的方法。
[0122]
本发明实施例还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时能实现上述的方法。
[0123]
综上可见，本发明实施例的系统及方法，通过设置机器翻译候选结果挑选模块基于自对比的机器翻译候选结果挑选方式，来提升机翻翻译结果的准确度，其通过结合历史标注库内容以及多个机器翻译模型结果的集成，通过自对比的方法自发选取最优的辅助译文，提高了辅助译文正确性，从而减轻译员改动难度，很好的解决了现有机器翻译数据标注系统使用机器翻译系统来辅助标注，但是现有机器翻译的准确率仍然没法保障的问题。
[0124]
通过设置译员翻译能力自适应任务分配模块基于译员翻译能力自适应的任务分配策略，经译员能力评估、翻译任务难度评估、翻译任务分配策略、动态质检机制等处理使得不同的任务实现按能力分配，按难度分配，从而实现整个系统的效率和效果提高，解决了现有机器翻译数据标注系统，不同译员的能力未能正确评估，未能依据不同能力人员水平给予不同难度的任务，影响效率的问题；
[0125]
通过设置译员水平动态质检模块对整个标注链条进行精细化管理，对不同标注质量的译员进行动态数据抽样，从而使得系统对弱点更加关注，解决了现有系统质检依赖随机挑选数据，对差译员的标注结果缺少额外的关注的问题；
[0126]
通过设置多策略主动学习迭代更新模块基于多策略主动学习的系统迭代更新方案来利用标注系统提供的大量人工标注数据，以迭代提高效率，解决了现有辅组标注系统更新慢，不及时的问题。
[0127]
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的翻译数据标注辅助系统及方法进行详细描述。
[0128]
实施例1
[0129]
如图1所示，本实施例提供一种翻译数据标注辅助系统，是一种能通过合理的机器翻译候选结果挑选、高效的翻译任务分配与质检以及辅组系统的不断更新升级来提高整个数据标注系统效率的系统，该系统包括：
[0130]
机器翻译候选结果挑选模块、译员翻译能力自适应任务分配模块、译员水平动态质检模块和多策略主动学习迭代更新模块；其中，
[0131]
机器翻译候选结果挑选模块对待翻译的句对先进行使用多个机器翻译模型生成辅组候选结果，以及使用近似检索方法从历史标注库里检索相似标注结果，基于上述候选结果，使用自对比方法挑选最好翻译结果作为最佳候选译文，以供译员进行修改；
[0132]
译员翻译能力自适应任务分配模块根据译员翻译能力进行自适应任务分配，将不同的翻译任务分配给对应的译员；
[0133]
译员水平动态质检模块基于不同译员的水平来动态的抽选不同量级的结果来进行质检；
[0134]
多策略主动学习迭代更新模块将质检完的数据使用主动学习方法回流到机器翻译模型和质量评估模型中。
[0135]
下面将分别介绍各个模块。
[0136]
(一)机器翻译候选结果挑选模块的构成包括：多个机器翻译模型并列设置，能对接收的同一个待翻译句对进行不同的翻译得出多个候选翻译结果；
[0137]
(11)首先对给定需要标注的文本x，从标注库里面的结果《x
l
,y
l
》检索出与需要标
注文本最接近的x
l
，其对应的y
l
将作为检索候选翻译结果；
[0138]
(12)基于平行句对《x,y》库，随机从其中选一部分数据训练n(n》5)个机器翻译模型，基于n个机器翻译模型对待标注文本以beam 5进行翻译，生成5n个候选机器翻译结果；
[0139]
(13)定义基于beam约束的对比指标如下：
[0140]
(131)第i个翻译模型第j个解码结果表示为beam间差异度指标dev_beam:
[0141][0142]
(132)beam间解码结果差异性dev_outer:
[0143][0144]
其中，bleu-score为两个解码结果之间的bleu分，edit-distence为两个解码结果之间的编辑距离；
[0145]
(133)最终beam约束对比指标dev_join＝dev_outer
–
dev_beam
[0146]
(14)对5n个候选结果的每一个，计算beam约束对比指标dev_join；
[0147]
(15)取beam约束对比指标dev_join最高的那个解码结果作为最终参考翻译结果提供给译员；
[0148]
上述的机器翻译候选结果挑选模块能实现自对比机器翻译结果挑选，实现高效的筛选出合适的翻译结果给译员，保证译员的翻译效果，通过自动标注系统中给定译员一个大致正确的翻译结果，并基于该结果修改，这种效率比让译员完全人工翻译高得多。
[0149]
(二)译员翻译能力自适应任务分配模块的构成如图2所示，包括：译员能力评估子模块、翻译任务难度评估子模块和翻译任务分配子模块。
[0150]
(21)该译员翻译能力自适应任务分配模块中，译员能力评估子模块的处理方式如下：
[0151]
(211)基于译员翻译年限t_year、翻译等级t_grade等客观条件先对译员进行初步能力划分，具体的初始能力值
[0152]
(212)针对不同能力值的译员随机分配不同难度的翻译任务,任务难度值定义为task_diff；
[0153]
(213)对译员完成的翻译任务进行质检，评估翻译合格率p_correct；
[0154]
(214)对合格率大于98％的译员，加大翻译任务难度，对于合格率小于于92％，降低翻译任务难度；
[0155]
(215)基于质检合格率，按以下公式更新译员能力值tp:
[0156][0157]
(216)对译员的能力评估，定期进行，以动态的衡量译员水平的变化。
[0158]
上述的译员能力评估子模块实现了通过机器自动去评估译员的翻译能力，充分考虑了不同的译员具备不同的翻译水平，不同的译员擅长翻译不同领域的内容的因素。
[0159]
(22)该译员翻译能力自适应任务分配模块中，翻译任务难度评估子模块的处理方式如下：
[0160]
(221)对每个任务随机挑选一定量的输入文本使用机器翻译模型进行解码，对每
个翻译解码结果使用多个翻译模型进行打分(条件概率)，获取均值t_mean与方差t_var；
[0161]
(222)基于同一机器翻译模型，使用不同的dropout比例对翻译解码结果进行打分，获取均值dropout_mean与方差dropout_var；
[0162]
(223)使用正向机器翻译质量评估模型对翻译结果进行质量评估，记得分为qe_foward,反向机器翻译质量评估模型对解码结果进行打分，记得分为qe_backward；
[0163]
(224)当前解码结果翻译质量分sj＝qe
forward
qe
backward
t_mean-t
var
0.7(dropout_mean-dropout_var)；
[0164]
(225)当前任务的机器翻译结果质量分为
[0165]
(226)基于机器翻译质量得分越高，任务越简单的认识，任务难度task_diff＝1
–
log(task_trans_score)。
[0166]
上述的翻译任务难度评估子模块，通过机器自动评估，解决了翻译任务本身数量巨大且任意性高，人工评估任务难度效率低的问题。
[0167]
(23)该译员翻译能力自适应任务分配模块中，翻译任务分配子模块的处理方式如下：
[0168]
(231)给定第i个翻译任务难度水平task_diffi和第j个译员能力水平tpj，需要对任务与译员进行匹配；
[0169]
(232)计算第i个任务预估能力水平tp_predi,其中tp
min
为译员能力的最小值，tp
max
为译员能力的最大值，random()函数产生0到1之间的随机数；
[0170][0171]
(233)基于该任务难度的的预估译员能力值tp_predi，寻找与该能力值最接近的译员来完成该任务。
[0172]
上述翻译任务分配子模块根据评估的译员的能力以及句对的翻译难度，在翻译任务与译员能力之间做匹配，实现了将不同难度的分配任务分配给不同能力的译员，进而实现最大化的利用集体译员的能力。并该子模块考虑到译员能力水平的动态变化以及翻译任务难度衡量具有一定的误差性，在任务难度分配上考虑一定的动态性。
[0173]
(三)译员水平动态质检模块的处理方式如下：
[0174]
(31)对第i个译员能力水平tpi，依据下面公式计算需要抽检的样本数量samplei：
[0175]
samplei＝200 100*(1-sigmoid(tpi)) 50*random()；
[0176]
(32)使用该公式确保能力强的人能够少质检些样本，能力弱的人多质检些样本，为了考虑到人员能力的动态变化，加入随机数以确保鲁棒性；
[0177]
通过上述译员水平动态质检模块的处理，基于译员水平进行动态抽样质检，以使得系统更加能关注到水平差的译员的翻译结果上，从而可以快速发现数据标注过程中可能出现的问题，并及时进行对应的调整；很好的解决了在翻译任务经过上述方法进行标注后，仍然需要对翻译结果进行抽样质检以确保最后翻译结果的可靠性的问题。
[0178]
(四)多策略主动学习迭代更新模块的处理方式如下：
[0179]
(41)筛选出候选翻译结果的机器翻译模型得分最差10％数据的人工标注结果放
入待训练候选数据集中；
[0180]
(42)对候选翻译结果的使用不同dropout比例机器翻译模型得分取方差，选取方差最大的10％数据的人工标注结果放入待训练候选数据集中；
[0181]
(43)基于翻译质量评估模型对候选翻译结果选取得分最低的10％数据的人工标注结果放入带训练候选数据集中；
[0182]
由于整个数据标注辅助系统比较依赖自动化能力，比如机器翻译模型以及质量评估模型等的效果。因此，机器翻译模型集以质量评估模型的效果将显得比较关键，通过上述模块处理获取的待训练样本，用于更新机器翻译模型，质量评估模型也可以采取类似的方式去更新，保证机器翻译模型以及质量评估模型的效果，本发明的翻译数据标注辅助系统的效果迭代更新频率可以依据具体任务而定。
[0183]
本发明使用最先进的机器翻译技术和质量评估技术来辅组数据标注系统，采用自对比候选挑选、译员能力评估、翻译任务难度评估、任务分配、质检策略、系统效果循环更新策略来提高整个系统的运行效率和可靠性。相比现有技术，至少具有如下优点：
[0184]
优点1，提出一种基于自对比的机翻候选结果挑选方式，能够同时利用历史标注数据库和多个机器翻译模型的翻译结果，进行效果比对集成，从而取得更加可靠的翻译结果。
[0185]
优点2，提出一种译员翻译能力自适应的任务分配策略，通过译员能力评估、翻译任务难度自动评估，进行能力与难度的匹配，为了增加系统动态性和容错性，任务分配考虑一定随机性，从而提高系统整体可靠性，该方法能做到翻译任务的合理分配，从而提高标注效率。
[0186]
优点3，提出一种多策略主动学习的系统迭代更新机制，该机制能通过选取合适的样本及时的更新到标注系统的算法模型中，从而提高标注辅组系统的能力，进而提升标注效率。
[0187]
综上可见，本发明实施例的辅助系统及方法，以机器翻译以及质量评估为基础，通过自对比数据挑选、译员能力自适应任务分配、主动学习等方法，使得整个翻译数据标注系统能够合理的利用译员的水平进行最大化标注，从而提升整个系统的标注效率，提升标注系统容错性。
[0188]
本领域普通技术人员可以理解：实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0189]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：Halbach阵列偏心式谐波磁力齿轮气隙磁场解析方法

一种翻译数据标注辅助系统、方法、设备及存储介质

相关文献

最热文献