一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种融合流畅度提升学习的译文改进方法与流程

2022-12-31 17:01:35 来源:中国专利 TAG:


1.本发明涉及译文改进领域,特别涉及一种融合流畅度提升学习的译文改进方法。


背景技术:

2.流畅度提升学习是一种利用语法改错迭代改善数据质量的学习策略,它所依赖的语法改错模型通常作为初级外语学习者的辅助学习工具,能够帮助学习者纠正语法错误,从而提高学习效率。通过改错,原始句子中的拼写错误、单复数错误和时态错误等都有可能被纠正,使表达更加流畅和准确。
3.在目前的机器翻译领域,有大量通过反向翻译产生的伪平行语料。这些语料具有数量大、质量低、多样性不足的特点。针对反向翻译产生的译文质量低、多样性不足的问题,现在已有几份工作致力于在解码时产生更多样化的翻译结果,总体的思路可以分为两类,一类是在解码阶段改进束搜索算法,例如li,monroe等人和vijayakumar在束搜索阶段添加正则项;第二类方法是引入一个额外的隐变量,例如norouzi和shen通过引入隐变量来控制生成,不过这种方式会增加训练难度和不可解释性。此外,zewei sun等学者发现多头注意力中的不同头关注的信息不同,于是提出可以通过操纵解码器最后一层的注意力头,使其关注到不同的候选词,来提高生成结果的多样性,并结合反向翻译提升数据增广的能力,但这种方法仅适用于transformer模型,因此可扩展性有待加强。此外,还有学者提出了一种镜像生成神经机器翻译方法,该方法在训练时将源端、目标端的单语和对应的语言模型有机结合在一起,从而更加有效地利用单语语料。与上述不同的是,本发明引入了一种迭代提升句子流畅度的方法,并结合反向翻译,利用单语语料增加数据量的同时改进语料质量,这一方法采用一种管道式结构,对反向翻译生成样本进行多轮改错,改错过程一方面可以提升语料质量,另一方面也可以使多样性相对较差的伪语料提升到真实语料相当的水平。


技术实现要素:

4.本发明的主要目的在于提供一种融合流畅度提升学习的译文改进方法,将流畅度提升学习与反向翻译相结合,用于生成更加多样的候选译文并改善伪平行语料的数据质量。
5.为实现上述目的,本发明采取的技术方案为:一种融合流畅度提升学习的译文改进方法,主要包括以下步骤:
6.步骤一,单轮改错模型的训练过程:先利用双语语料训练nmta-b系统和nmtb-a系统,然后利用nmtb-a对b语言进行解码,得到a语言译文此时就可以将译文与原始双语中的a语言构成流畅度提升句对最后再利用训练初始改错模型geca;
7.步骤二,流畅度提升过程:假设目前已经训练得到了第一轮改错模型geca,按照流畅度提升策略,在第二轮迭代时,可以利用geca对上一轮进行提升,对每条输入序列,
按照机器翻译输出的累计概率排序取第一个候选作为最流畅的改错序列,最终得到的新一轮改错后的语料然后用于训练新一轮的改错模型;
8.步骤三,融合流畅度提升学习的神经网络机器翻译训练流程:第一步nmtb-a负责把b语言单语转换为伪a语言,第二步geca负责更正伪a语言中的错误;
9.其中,假设目标是训练a语言到b语言的翻译,为了方便说明,不妨用nmta-b表示a语言到b语言的翻译系统,nmtb-a表示b语言到a语言的翻译系统,gec表示语法改错模型,pd
a-b
表示英德平行语料,md表示单语语料,用上角标表明语料来源,“m”表示来自单语,“p”表示来自双语,下角标表示语种,此外,为了区分数据是真实样本还是经过改错或翻译得到的样本,特意在语种字符的上方做了标记,其中“*”表示改错模型输出的数据,用“#”表示机器翻译译文,例如表示该语料是取自双语语料中的a语言单语语料,并且用改错模型对其进行了改错。
10.进一步的,训练初始改错模型的数据来源于双语平行语料pd
a-b

11.进一步的,有了改错模型之后,便可以将其融入到神经机器翻译训练过程中了,为了充分发挥反向翻译的优势,本文准备了b语言单语语料利用nmtb-a将b语言单语语料翻译成a语言紧接着,包含各种错误的样本会被geca模型进行一轮修正,得到质量更高的a语言语料最后高质量的改错语料与b语言真实样本构成平行语料,用于训练翻译系统。
12.进一步的,在步骤三中,实际的应用中,我们可以在第二步可以进行多次迭代,通过多轮改错逐步提升语料质量,同时也让改错模型关注到句子中不同的错误,理论上,越往后的改错模型关注的错误也越细微,而初始改错模型则更聚焦于更显而易见的错误。
13.进一步的,本文从低资源神经机器翻译错误分析入手,发现双语平行语料较少时,神经机器翻译容易发生词错误和漏翻译等错误,于是本文将反向翻译模型看作是学习外语的新手,引入流畅度提升学习策略来生成更多样的数据并纠正部分译文错误,提高数据质量。在训练过程中,将机器翻译训练语料视为种子集,利用反向翻译生成原始双语语料目标端的译文,然后构造流畅提升句对来训练改错模型,好处是联合反向翻译增加平行语料数据量同时提升语料质量。最终,本发明提出的流畅度提升学习策略在提升翻译性能的同时还能改善译文质量。
14.与现有技术相比,本发明的有益效果是:
15.1、将流畅度提升学习引入机器翻译的训练过程中,增强反向翻译得到的译文质量,进而提升机器翻译模型的训练效果;
16.2、本发明提出的流畅度学习方案可以与目前主流的生成式机器翻译架构融合,实现简单。
17.本发明中未涉及部分均与现有技术相同或可采用现有技术加以实现。
附图说明
18.图1是本发明的单轮改错模型的训练过程。
19.图2是本发明的融合流畅度提升学习的神经网络机器翻译训练流程。
具体实施方式
20.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.实施例一
22.请参阅图1-图2,是接下来将详细描述流畅度提升学习的训练过程以及如何与神经机器翻译相结合。假设目标是训练英语到德语的翻译,为了方便说明,不妨用nmten-de表示英语到德语的翻译系统,nmtde-en表示德语到英语的翻译系统,gec表示语法改错模型,pd
en-de
表示英德平行语料,md表示单语语料,用上角标表明语料来源,“m”表示来自单语,“p”表示来自双语,下角标表示语种,此外,为了区分数据是真实样本还是经过改错或翻译得到的样本,特意在语种字符的上方做了标记,其中“*”表示改错模型输出的数据,用“#”表示机器翻译译文,例如表示该语料是取自双语语料中的英文单语语料,并且用改错模型对其进行了改错。
23.一种融合流畅度提升学习的译文改进方法,主要包括以下步骤:
24.步骤一,单轮改错模型的训练过程:先利用双语语料训练nmten-de系统和nmtde-en系统,然后利用nmtde-en对德语进行解码,得到英文译文此时就可以将译文与原始双语中的英文构成流畅度提升句对最后再利用训练初始改错模型gecen;
25.步骤二,流畅度提升过程就是多轮迭代改错过程,假设目前已经训练得到了第一轮改错模型gecen,按照流畅度提升策略,在第二轮迭代时,可以利用gecen对上一轮进行提升,对每条输入序列,按照机器翻译输出的累计概率排序取第一个候选作为最流畅的改错序列,需要注意的是,本文并非用语言模型来衡量流畅度,而是让解码器自己选择它认为与参考语料库最相近的分布,最终得到的新一轮改错后的语料然后用于训练新一轮的改错模型;
26.步骤三,融合流畅度提升学习的神经网络机器翻译训练流程:利用nmtde-en将德语单语语料翻译成英文紧接着,包含各种错误的样本会被gecen模型进行一轮修正,得到质量更高的英文语料最后高质量的改错语料与德语真实样本构成平行语料,用于训练翻译系统。
27.具体来说,在流畅度提升学习(fluency boost learning)中,训练生成式改错模型需要平行语料(parallel corpus),这种句对称为流畅度提升句对(fluency boost sentence pairs),其源端是带有语法错误的句子,目标端是修正后的标准句子。在语法改错研究当中,高质量的改错句对往往十分匮乏,因为需要收集初学某种语言的学者所书写
的带有各种语法错误的句子,还要精通该语言的学者进行精心的修正,所以通常在实验过程中,只有少数改错句对作为种子集,通过后续的迭代来伪造训练数据。而在本研究中,机器翻译(machine translation,mt)恰好可以充当初学者的身份,因为神经机器翻译(neural machine translation,nmt)总是犯各种各样的错误,假设目标端用于参考的真实样本(ground truth)流畅度是最好的,如果译文和参考来构造流畅度提升句对,那么恰好可以训练出针对神经机器翻译错误类型的改错模型。
28.明确训练语法改错所需数据之后,接下来将详细描述流畅度提升学习的训练过程以及如何与神经机器翻译相结合。假设目标是训练英语到德语的翻译,为了方便说明,不妨用nmten-de表示英语到德语的翻译系统,nmtde-en表示德语到英语的翻译系统,gec表示语法改错模型,pd
en-de
表示英德平行语料,md表示单语语料,用上角标表明语料来源,“m”表示来自单语,“p”表示来自双语,下角标表示语种,此外,为了区分数据是真实样本还是经过改错或翻译得到的样本,特意在语种字符的上方做了标记,其中“*”表示改错模型输出的数据,用“#”表示机器翻译译文,例如表示该语料是取自双语语料中的英文单语语料,并且用改错模型对其进行了改错,有了上述约定,训练单轮改错模型的整体流程如图1所示。
29.从图1中可以看到,训练初始改错模型的数据来源于双语平行语料pd
en-de
,具体操作是先利用双语语料训练nmten-de系统和nmtde-en系统,然后利用nmtde-en对德语进行解码,得到英文译文此时就可以将译文与原始双语中的英文构成流畅度提升句对最后再利用训练初始改错模型gecen。
30.流畅度提升过程就是多轮迭代改错过程,假设目前已经训练得到了第一轮改错模型gecen,按照流畅度提升策略,在第二轮迭代时,可以利用gecen对上一轮进行提升,对每条输入序列,按照机器翻译输出的累计概率排序取第一个候选作为最流畅的改错序列,需要注意的是,本文并非用语言模型来衡量流畅度,而是让解码器自己选择它认为与参考语料库最相近的分布,最终得到的新一轮改错后的语料然后用于训练新一轮的改错模型。
31.有了改错模型之后,便可以将其融入到神经机器翻译训练过程中了,为了充分发挥反向翻译的优势,本文准备了德语单语语料利用nmtde-en将德语单语语料翻译成英文紧接着,包含各种错误的样本会被gecen模型进行一轮修正,得到质量更高的英文语料最后高质量的改错语料与德语真实样本构成平行语料,用于训练翻译系统。具体过程参考图2。
32.如图2所示,第一步nmtde-en负责把德语单语转换为伪英语,第二步gecen负责更正伪英语中的错误。在实际的应用中,我们可以在第二步可以进行多次迭代,通过多轮改错逐步提升语料质量,同时也让改错模型关注到句子中不同的错误,理论上,越往后的改错模型关注的错误也越细微,而初始改错模型则更聚焦于更显而易见的错误。
33.综上所述,本文从低资源神经机器翻译错误分析入手,发现双语平行语料较少时,
神经机器翻译容易发生词错误和漏翻译等错误,于是本文将反向翻译模型看作是学习外语的新手,引入流畅度提升学习策略来生成更多样的数据并纠正部分译文错误,提高数据质量。在训练过程中,将机器翻译训练语料视为种子集,利用反向翻译生成原始双语语料目标端的译文,然后构造流畅提升句对来训练改错模型,好处是联合反向翻译增加平行语料数据量同时提升语料质量。最终,本发明提出的流畅度提升学习策略在提升翻译性能的同时还能改善译文质量。
34.以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献