语料数据增强方法、装置、计算机设备及介质与流程

2022-10-12 23:34:06 来源：中国专利 TAG：

1.本发明涉及自然语言处理领域，尤其涉及一种语料数据增强方法、装置、计算机设备及介质。

背景技术：

2.随着人工智能化技术的飞速发展，自然语言处理技术也应用于越来越多的场景，机器翻译是自然语言处理技术中一种广泛应用的技术，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，现阶段以基于人工神经网络的神经机器翻译为主，但是，在机器翻译低资源场景中，如生命科学垂直领域，由于垂直领域的专业性、门槛高等天然特性，使得平行语料相对稀缺且难以获取，往往会出现低资源的场景，其中，低资源是指所处的任务场景中训练数据相对稀少的情况。
3.目前，在低资源场景中，数据增强技术已被广泛视为一种有效扩充训练数据集规模及提升机器学习性能的高性价比方法。在机器翻译垂直领域低资源场景中，即平行训练语料相对较少的垂直领域场景中，往往会采用数据增强技术来增加训练数据集的数量。现有方式中，主要包括基于模板的数据增强方法和基于反向翻译的数据增强方法。
4.发明人在实现本发明的过程中，意识到现有技术至少存在如下技术问题：现有方式中，主要采用基于模板的数据增强方法，该方法本身是基于原有数据集所做的数据增强，不具备泛化能力，容易出现句式生硬或词不达意的情况，尤其是在垂直领域，特别是同义词不够准确时，容易出现语义大幅度漂移的现象，即句意发生了变化，进行了错误的表达，导致得到的增强数据质量不佳；现有方式中，也有采用反向翻译的数据增强方法，但是，在低资源场景中，由于平行语料不足，使得基于低资源平行语料训练的反向翻译模型性能不高，而反向翻译本身存在一定的错误率，该特性在反向翻译模型训练数据不足的情况下会被进一步放大，可能产生质量较低的数据。基于这些数据进行翻译模型训练，甚至可能会对模型性能产生负面影响，同时，垂直领域中反向翻译模型的生成内容的领域相关性较差，反向翻译模型往往未对输入数据进行严格把控，通用型的单语数据对于垂直领域的翻译而言，甚至可能会出现常识引导错误，例如，针对金融领域“bank”会翻译为“银行”，而如果是通用型的数据，那么“bank”则有可能被翻译为“堤岸”。
5.综上，现有方式进行低资源场景的数据增强，存在增强得到的数据质量不高的问题。

技术实现要素：

6.本发明实施例提供一种语料数据增强方法、装置、计算机设备和存储介质，以提高数据增强得到的语料数据的质量。
7.为了解决上述技术问题，本技术实施例提供一种语料数据增强方法，包括：构建垂直领域术语库；基于所述垂直领域术语库进行数据筛选，得到包含术语关键字的单语语句，将所
述包含术语关键字的单语语句作为初始语料；采用所述初始语料对初始预训练模型进行训练，得到所述平行语料分类器，所述平行语料分类器包括语料生成器和语料判别器；采用所述语料生成器生成单语数据，得到第一源语言数据；通过反向翻译模型对所述第一源语言数据进行翻译，得到垂直领域的第一目标语言数据；将所述第一源语言数据和所述第一目标语言数据作为平行语料对输入到所述平行语料分类器进行分类，并将分类结果中符合预设条件的平行语料对作为目标平行语料对。
8.可选地，所述初始预训练模型包括第一预训练模型和第二预训练模型，所述采用所述初始语料对初始预训练模型进行训练，得到所述平行语料分类器包括：采用所述初始语料对第一预训练模型进行训练，得到第二预训练模型，并将所述第二预训练模型作为垂直领域的语料生成器，所述第一预训练模型为generative pre-training模型；采用所述初始语料对第三预训练模型进行训练，得到第四预训练模型，并将所述第四预训练模型作为垂直领域的语料判别器，所述第三预训练模型为bert模型；采用低资源垂直领域平行语料和通用平行语料，对所述语料生成器和所述语料判别器进行生成对抗训练，得到垂直领域的所述平行语料分类器。
9.可选地，所述采用所述初始语料对第一预训练模型进行训练，得到第二预训练模型包括：采用依存句法分析的方式，对所述初始语料进行句法分析，得到依存句法分析结果；将所述依存句法分析结果和所述初始语料进行拼接得到训练语料；采用所述训练语料对所述第一预训练模型进行训练，得到所述第二预训练模型。
10.可选地，所述依存句法分析结果为依存句法分析树，所述将所述依存句法分析结果和所述初始语料进行拼接得到训练语料包括：从所述依存句法分析树中随机获取预设数量的子树，作为候选子树；采用通用占位符对所述候选子树进行替换，得到更新后的依存句法分析树；采用句子连接符对所述更新后的依存句法分析树和所述初始语料进行拼接，得到所述训练语料。
11.可选地，所述反向翻译模型基于通用平行语料和低资源垂直领域平行数据训练得到。
12.为了解决上述技术问题，本技术实施例还提供一种语料数据增强装置，包括：术语库构建模块，用于构建垂直领域术语库；语料筛选模块，用于基于所述垂直领域术语库进行数据筛选，得到包含术语关键字的单语语句，将所述包含术语关键字的单语语句作为初始语料；分类器训练模块，用于采用所述初始语料对初始预训练模型进行训练，得到所述平行语料分类器，所述平行语料分类器包括语料生成器和语料判别器；数据生成模块，用于采用所述语料生成器生成单语数据，得到第一源语言数据；
数据翻译模块，用于通过反向翻译模型对所述第一源语言数据进行翻译，得到垂直领域的第一目标语言数据；语料对选取模块，用于将所述第一源语言数据和所述第一目标语言数据作为平行语料对输入到所述平行语料分类器进行分类，并将分类结果中符合预设条件的平行语料对作为目标平行语料对。
13.可选地，所述分类器训练模块包括：第一训练子模块，用于采用所述初始语料对第一预训练模型进行训练，得到第二预训练模型，并将所述第二预训练模型作为垂直领域的语料生成器，所述第一预训练模型为generative pre-training模型；第二训练子模块，用于采用所述初始语料对第三预训练模型进行训练，得到第四预训练模型，并将所述第四预训练模型作为垂直领域的语料判别器，所述第三预训练模型为bert模型；生成对抗训练子模块，用于采用低资源垂直领域平行语料和通用平行语料，对所述语料生成器和所述语料判别器进行生成对抗训练，得到垂直领域的所述平行语料分类器。
14.可选地，所述第一训练子模块包括：句法分析单元，用于采用依存句法分析的方式，对所述初始语料进行句法分析，得到依存句法分析结果；句子拼接单元，用于将所述依存句法分析结果和所述初始语料进行拼接得到训练语料；训练单元，用于采用所述训练语料对所述第一预训练模型进行训练，得到所述第二预训练模型。
15.可选地，所述依存句法分析结果为依存句法分析树，所述句子拼接单元包括：候选子树选取子单元，用于从所述依存句法分析树中随机获取预设数量的子树，作为候选子树；句法分析树更新子单元，用于采用通用占位符对所述候选子树进行替换，得到更新后的依存句法分析树；句子拼接子单元，用于采用句子连接符对所述更新后的依存句法分析树和所述初始语料进行拼接，得到所述训练语料。
16.为了解决上述技术问题，本技术实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语料数据增强方法的步骤。
17.为了解决上述技术问题，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语料数据增强方法的步骤。
18.本发明实施例提供的语料数据增强方法、装置、计算机设备及存储介质，通过通过构建垂直领域术语库，基于垂直领域术语库进行数据筛选，得到包含术语关键字的单语语句，将包含术语关键字的单语语句作为初始语料，进而采用初始语料对初始预训练模型进行训练，得到平行语料分类器，平行语料分类器包括语料生成器和语料判别器，再采用语料
audio layer iii，动态影像专家压缩标准音频层面3 ) 播放器、mp4( moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
27.服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
28.需要说明的是，本技术实施例所提供的语料数据增强方法由服务器执行，相应地，语料数据增强装置设置于服务器中。
29.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本技术实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
30.首先对本技术实施例中所涉及到的一些技术术语进行介绍。
31.自然语言处理( natural language processing, nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。具体而言，自然语言处理是对自然语言(随文化演进的语言，如普通话、方言、少数民族语言)进行认知、理解或者生成的技术。基于nlp技术的人工智能(artificialintelligence，ai)应用可以应用于不同领域的多种应用场景，例如机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文ocr、词性标注、句法分析、手写体识别和资讯检索等。
32.预训练主要分为两大分支，一支是自编码语言模型（autoencoder language model），自回归语言模型（autoregressive language model）。
33.其中，自回归语言模型（autoregressive language model），是根据上文内容预测下一个可能的单词，就是常说的自左向右的语言模型任务，或者反过来也行，就是根据下文预测前面的单词。gpt（generative pre-training）就是典型的自回归语言模型。
34.其中，自编码语言模型是对输入的句子随机mask其中的单词，然后预训练过程的主要任务之一是根据上下文单词来预测这些被mask掉的单词，那些被mask掉的单词就是在输入侧加入的噪音。bert就是典型的自编码类语言模型。
35.请参阅图2，图2示出本发明实施例提供的一种语料数据增强方法，以该方法应用在图1中的服务端为例进行说明，详述如下：s201：构建垂直领域术语库。
36.其中，垂直领域就是在一个大领域下，垂直细分出的小领域。垂直指纵向延伸，而不是横向扩展，细分则是在垂直行业板块里面，再挑选主要的业务深度发展。本实施例中，具体指某个细分领域，例如其中，术语库以计算机读出的形式将术语及有关资料存在磁介质上形成的一种有序的术语资料集合，相当于一个自动化操作的词典。术语数据库是为满足用户特殊需要而设计的，一般是按专业领域搜集术语，数据库中每条术语记录包括与术语有关的资料单元 (如术语的定义、对应语种的术语、注释、相关术语、广义术语、狭义术语、反义术语、术语的语境、术语出处和输入日期等)。
37.具体地，构建垂直领域术语库具体可以通过从垂直领域对应的专业论坛、词典、学术报告中进行关键词爬取，进而进行语义识别，得到垂直领域的相关内容，继而根据垂直领
域的相关内容进行构建垂直领域术语库。
38.s202：基于垂直领域术语库进行数据筛选，得到包含术语关键字的单语语句，将包含术语关键字的单语语句作为初始语料。
39.s203：采用初始语料对初始预训练模型进行训练，得到平行语料分类器，平行语料分类器包括语料生成器和语料判别器。
40.可选地，初始预训练模型包括第一预训练模型和第二预训练模型，采用初始语料对初始预训练模型进行训练，得到平行语料分类器包括：采用初始语料对第一预训练模型进行训练，得到第二预训练模型，并将第二预训练模型作为垂直领域的语料生成器，第一预训练模型为generative pre-training模型；采用初始语料对第三预训练模型进行训练，得到第四预训练模型，并将第四预训练模型作为垂直领域的语料判别器，第三预训练模型为bert模型；采用低资源垂直领域平行语料和通用平行语料，对语料生成器和语料判别器进行生成对抗训练，得到垂直领域的平行语料分类器。
41.其中，generative pre-training（gpt）是实现对多义词建模的语义模型，在gpt中，采用了两阶段的过程，第一阶段是利用无监督的方式对语言模型进行预训练，第二阶段通过监督的方式在具体语言任务上进行fine-tuning（调整优化）。在gpt中采用的特征提取算法是transformer，且是单向的语言模型，采用初始语料对第一预训练模型进行训练，得到的垂直领域的语料生成器，具备了垂直领域相关的判断识别能力。
42.其中，bert 模型的全称是 bidirectionalencoder representations from transformer，基于transformer的双向编码器表示，是一个预训练的语言表征模型，它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的 masked language model（mlm），以致能生成深度的双向语言表征。bert 模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的 representation，即：文本的语义表示，然后将文本的语义表示在特定nlp任务中作微调，最终应用于该nlp任务。
43.本实施例中，两者基于生成对抗网络进行训练，具体而言随机将原始数据，即筛选过的单语垂直领域数据，或生成器所生成的数据作为判别器的数据，由判别器进行判断，其中原始数据标记为正类，生成数据标记为负类。如果分类正确，则判别器不进行更新，对生成器进行更新，反之则对判别器进行更新。
44.需要说明的是，本实施例中，语料生成器是用于进行垂直领域的语料生成，采用gpt有利于提高生成效率，语料判别器用于对语料是否为垂直领域进行判断分类，需要结合上下文语义进行识别，因而采用bert模型可以有效提高分类的准确性。
45.可选地，采用初始语料对第一预训练模型进行训练，得到第二预训练模型包括：采用依存句法分析的方式，对初始语料进行句法分析，得到依存句法分析结果；将依存句法分析结果和初始语料进行拼接得到训练语料；采用训练语料对第一预训练模型进行训练，得到第二预训练模型。
46.其中，依存句法分析是一种中高级nlp任务，用来分析句子的依存语法。通常根据句子的词语和词性，生成一颗依存句法树。
47.目前常用的依存句法分析方法是：基于转移的依存句法分析。基于转移的依存句
法分析属于监督学习的范畴，其涉及许多组件。我们先定义一台虚拟的机器，这台机器会根据自身的状态和输入的词语预测下一步要执行的转移动作，然后根据转移动作拼装句法树。该类算法中比较经典的是：arc-eager。在依存句法分析中，句子中词与词之间存在一种二元不等价关系：主从关系。在句子中，如果一个词修饰另一个词，则称修饰词为从属词（dependent），被修饰词成为支配词（head），两者之间的语法关系就是依存关系（dependency relation）。
48.可选地，依存句法分析结果为依存句法分析树，将依存句法分析结果和初始语料进行拼接得到训练语料包括：从依存句法分析树中随机获取预设数量的子树，作为候选子树；采用通用占位符对候选子树进行替换，得到更新后的依存句法分析树；采用句子连接符对更新后的依存句法分析树和初始语料进行拼接，得到训练语料。
49.其中，通用占位符可根据实际应用需求进行设定，此处不做具体限定。
50.本实施例中，依存句法分析结果随机隐藏部分子树，即将部分子树使用通用占位符代替，以增加模型的数据鲁棒性和泛化能力。
51.s204：采用语料生成器生成单语数据，得到第一源语言数据。
52.s205：通过反向翻译模型对第一源语言数据进行翻译，得到垂直领域的第一目标语言数据。
53.可选地，反向翻译模型基于通用平行语料和低资源垂直领域平行数据训练得到。
54.s206：将第一源语言数据和第一目标语言数据作为平行语料对输入到平行语料分类器进行分类，并将分类结果中符合预设条件的平行语料对作为目标平行语料对。
55.其中，预设条件具体可以是分类结果为正向。
56.本实施例中，通过构建垂直领域术语库，基于垂直领域术语库进行数据筛选，得到包含术语关键字的单语语句，将包含术语关键字的单语语句作为初始语料，进而采用初始语料对初始预训练模型进行训练，得到平行语料分类器，平行语料分类器包括语料生成器和语料判别器，再采用语料生成器生成单语数据，得到第一源语言数据，通过反向翻译模型对第一源语言数据进行翻译，得到垂直领域的第一目标语言数据，最后将第一源语言数据和第一目标语言数据作为平行语料对输入到平行语料分类器进行分类，并将分类结果中符合预设条件的平行语料对作为目标平行语料对。实现通过提取垂直领域的初始语料对预训练模型进行训练，得到具备垂直领域语料生成和分类的平行语料分类器，进而通过该平行语料分类器和初始语料进行数据增广，提高了增广得到的语料数据对的质量。
57.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
58.图3示出与上述实施例语料数据增强方法一一对应的语料数据增强装置的原理框图。如图3所示，该语料数据增强装置包括术语库构建模块31、语料筛选模块32、分类器训练模块33、数据生成模块34、数据翻译模块35和语料对选取模块36。各功能模块详细说明如下：术语库构建模块31，用于构建垂直领域术语库；
语料筛选模块32，用于基于垂直领域术语库进行数据筛选，得到包含术语关键字的单语语句，将包含术语关键字的单语语句作为初始语料；分类器训练模块33，用于采用初始语料对初始预训练模型进行训练，得到平行语料分类器，平行语料分类器包括语料生成器和语料判别器；数据生成模块34，用于采用语料生成器生成单语数据，得到第一源语言数据；数据翻译模块35，用于通过反向翻译模型对第一源语言数据进行翻译，得到垂直领域的第一目标语言数据；语料对选取模块36，用于将第一源语言数据和第一目标语言数据作为平行语料对输入到平行语料分类器进行分类，并将分类结果中符合预设条件的平行语料对作为目标平行语料对。
59.可选地，分类器训练模块包括：第一训练子模块，用于采用初始语料对第一预训练模型进行训练，得到第二预训练模型，并将第二预训练模型作为垂直领域的语料生成器，第一预训练模型为generative pre-training模型；第二训练子模块，用于采用初始语料对第三预训练模型进行训练，得到第四预训练模型，并将第四预训练模型作为垂直领域的语料判别器，第三预训练模型为bert模型；生成对抗训练子模块，用于采用低资源垂直领域平行语料和通用平行语料，对语料生成器和语料判别器进行生成对抗训练，得到垂直领域的平行语料分类器。
60.可选地，第一训练子模块包括：句法分析单元，用于采用依存句法分析的方式，对初始语料进行句法分析，得到依存句法分析结果；句子拼接单元，用于将依存句法分析结果和初始语料进行拼接得到训练语料；训练单元，用于采用训练语料对第一预训练模型进行训练，得到第二预训练模型。
61.可选地，依存句法分析结果为依存句法分析树，句子拼接单元包括：候选子树选取子单元，用于从依存句法分析树中随机获取预设数量的子树，作为候选子树；句法分析树更新子单元，用于采用通用占位符对候选子树进行替换，得到更新后的依存句法分析树；句子拼接子单元，用于采用句子连接符对更新后的依存句法分析树和初始语料进行拼接，得到训练语料。
62.关于语料数据增强装置的具体限定可以参见上文中对于语料数据增强方法的限定，在此不再赘述。上述语料数据增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
63.为解决上述技术问题，本技术实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。
64.所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机
设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit，asic)、可编程门阵列(field－programmable gate array，fpga)、数字处理器 (digital signal processor，dsp)、嵌入式设备等。
65.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
66.所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，sd或d界面显示存储器等）、随机访问存储器（ram）、静态随机访问存储器（sram）、只读存储器（rom）、电可擦除可编程只读存储器（eeprom）、可编程只读存储器（prom）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡（smart media card, smc），安全数字（secure digital, sd）卡，闪存卡（flash card）等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如电子文件的控制的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
67.所述处理器42在一些实施例中可以是中央处理器（central processing unit，cpu）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行电子文件的控制的程序代码。
68.所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
69.本技术还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的语料数据增强方法的步骤。
70.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如rom/ram、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本技术各个实施例所述的方法。
71.显然，以上所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例，附图中给出了本技术的较佳实施例，但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明，对于本领域的技术人员来而言，其
依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本技术专利保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种L2P表更新方法、系统、装置及可读存储介质与流程

语料数据增强方法、装置、计算机设备及介质与流程

相关文献

最热文献