一种应用于电力文本的数据增强方法及系统与流程

2022-02-22 10:03:18 来源：中国专利 TAG：

1.本发明涉及文本处理技术领域，尤其涉及一种应用于电力文本的数据增强方法及系统。

背景技术：

2.监督学习方法为目前知识图谱的自动化构建和自然语言知识抽取的主要方法，目前针对文本数据的处理任务大多数为分类任务，因此，在使用监督学习进行文本数据处理的任务中，通常需要含有分类标签的数据来训练深度学习模型。
3.在自然语言处理领域中，一个最大的难题就是标注样本数据过少，特别是对于低资源的领域，如电力领域，基本上没有含标签的、公开的且数据量丰富的电力数据集。人工收集和标注额外的数据是一个耗时耗力具有挑战性的工作。
4.现有的文本数据增强方法主要包括同义词的替换、回译、调换文本顺序等方法，如保持增强后句子的原始语义前提下，将父句中的部分词语用来自权威词典的同义词进行替换，但是电力文本大多包含很多专业术语，能够匹配的同义词较少，经常出现无词可换的现象，而回译的增强方法是将父句在源语言和多个目标语言之间翻译多次，最后再翻译回源语言，但是该方法无法保证翻译结果子句的多样性，并且由于电力文本的逻辑性要求很高，调换文本顺序的方法往往会造成前后逻辑差距过大，对后续模型的训练影响较大，由此对搜索的准确度造成了较大的影响。

技术实现要素：

5.本技术提供了一种应用于电力文本的数据增强方法及系统，以解决在供应商接入过程中面临数据标准不一致、状态码不同、接入耗时以及对数据质量无法持续监测、分析、反馈和纠正的问题。
6.本发明通过以下技术方案来实现：
7.一种应用于电力文本的数据增强方法，包括以下步骤：
8.使用标注软件对待增强数据集进行情感态度标注，生成样本数据；
9.bert生成式模型提取样本数据中的词性标签；
10.利用bert生成式模型对样本数据通过选择性遮盖的方式，结合词性标签，对样本数据的语句进行预测，得到一次增强数据集；
11.利用句子的倾向性对一次增强数据集进行分组得到褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集；
12.对褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集进行同义词替换，直至三个数据集的语句数量达到平衡，得到二次增强数据集。
13.进一步地，所述bert生成式模型在提取样本数据中的词性标签前，包括以下步骤，bert生成式模型利用待增强数据集对自身进行微调，直至模型收敛。
14.进一步地，所述得到一次增强数据集的步骤具体包括：
15.从样本数据中随机抽取一个句子；
16.随机遮盖抽取的句子中的一个词语，作为遮盖词语；
17.bert生成式模型判断遮盖词语的替换是否影响词性标签的描述；
18.是则重新选择遮盖词语；
19.否则使用bert生成式模型对遮盖词语进行预测，得到新生成句子；
20.将新生成句子添加到样本数据中；
21.判断得到的现有样本数据规模是否符合要求；
22.是则将现有的样本数据作为一次增强数据集输出；
23.否则重复以上步骤。
24.进一步地，所述获取二次增强数据集的方法具体包括以下步骤：
25.对褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集进行分词，并标记词性，得到二次词组；
26.随机选取二次词组中一个未被替换过的词汇，作为待替换词汇，所述带替换词汇的词性为名词、动词、形容词或副词中的一种；
27.对待替换词汇进行同义词查询，得到同义词列表；
28.对同义词列表中的同义词按照语义相关度进行降序排列，并将相关度最高的词语作为替换词语；
29.使用替换词语对待替换词汇进行替换，然后将得到的语句添加至原褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集；
30.判断褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集的语句数量是否达到平衡；
31.是则将最终的褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集合并作为二次增强数据集进行输出；
32.否则重复以上步骤。
33.进一步地，所述分词过程利用spacy库进行分词。
34.进一步地，所述同义词查询的具体步骤包括：
35.从wordnet中查找待替换词汇的同义词；
36.若查询到，则生成同义词列表；
37.若未查询到则，在电力语料库中查找待替换词汇的同义词；
38.若查询到，则生成同义词列表；
39.若未查询到则，从二次词组中重新选取词组。
40.进一步地，得到一次增强数据集之后，所述方法还包括：
41.将一次增强数据集，随机的以8:2的比例分为训练集与测试集；
42.利用句子的倾向性对训练集进行分组得到褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集；
43.得到所述二次增强数据集之后，所述方法还包括：
44.将二次增强数据集和测试集分别输入到分类模型中进行训练，通过分类结果验证文本数据是否正确；
45.正确则将训练的语句保留在二次增强数据集中；
46.错误则将训练的语句从二次增强数据集删除。
47.本技术第二方面提供了一种应用于电力文本的数据增强系统应用于第一方面所述的一种应用于电力文本的数据增强方法包括：标注模块、bert模块、词性分类模块、褒义处理模块、贬义处理模块、中性处理模块和二次增强数据接收模块；
48.所述标注模块被配置为对情感态度标注，生成样本数据，并传递给bert模块；
49.所述bert模块被配置为通过选择性遮盖的方式，结合词性标签，对样本数据中的语句进行预测，并将得到的一次增强数据集传递给词性分类模块；
50.所述词性分类模块被配置为利用句子的倾向性对一次增强数据集进行分组，并将得到的褒义一次增强数据集传递给褒义处理模块，贬义一次增强数据集传递给贬义处理模块，中性一次增强数据集传递给中性处理模块；
51.所述褒义处理模块被配置为对褒义一次增强数据集中的未被替换过的词性为名词、动词、形容词或副词的词汇进行替换，得到褒义二次增强数据集；
52.所述贬义处理模块被配置为对贬义一次增强数据集中的未被替换过的词性为名词、动词、形容词或副词的词汇进行替换，得到贬义二次增强数据集；
53.所述中性处理模块被配置为对中性一次增强数据集中的未被替换过的词性为名词、动词、形容词或副词的词汇进行替换，得到中性二次增强数据集；
54.所述二次增强数据接收模块被配置为接收褒义二次增强数据集、贬义二次增强数据集、中性二次增强数据集，并对三个数据集的语句数量进行比较，并输出最终的二次增强数据集。
55.进一步地，所述bert模块被配置为在提取样本标签前，利用待增强数据集对自身进行微调，直至模型收敛。
56.进一步地，所述应用于电力文本的数据增强设备还包含一个检验系统；
57.所述检查系统被配置为将一次增强数据集，随机的以8:2的比例分为训练集与测试集；并将训练集传递至词性分类模块；
58.所述词性分类模块利用句子的倾向性对训练集进行分组得到褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集；
59.所述检查系统还被配置为将二次增强数据集和测试集进行对比验证，判断结果的准确性。
60.本发明具有以下有益效果：
61.一、本发明通过对bert生成式模型增加词性标签辨析的方法，有效的提高了电力文本增强过程中，获得文本的准确性和有效性。
62.二、本发明保证原电力文本语句的语义和逻辑不会有较大改变的情况下，增强了句子表达方式的多样性。
63.三、本发明避免了同义词表对电力领域词汇的限制，以及解决了回译方法无法保证句子多样性这一问题。
附图说明
64.为了更清楚地说明本技术的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，
还可以根据这些附图获得其他的附图。
65.图1为本技术一种应用于电力文本的数据增强方法的步骤示意图；
66.图2为本技术一次增强数据集获取步骤的示意图；
67.图3为本技术获取二次增强数据集获取步骤的示意图；
68.图4为本技术同义词查询步骤的示意图；
69.图5为本技术数据集验证步骤的示意图；
70.图6为本技术一种应用于电力文本的数据增强装置的示意图。
具体实施方式
71.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
72.监督学习方法为目前知识图谱的自动化构建和自然语言知识抽取的主要方法，目前针对文本数据的处理任务大多数为分类任务，因此，在使用监督学习进行文本数据处理的任务中，通常需要含有分类标签的数据来训练深度学习模型。在自然语言处理领域中，一个最大的难题就是标注样本数据过少，特别是对于低资源的领域，如电力领域，基本上没有含标签的、公开的且数据量丰富的电力数据集。人工收集和标注额外的数据是一个耗时耗力具有挑战性的工作。
73.现有的文本数据增强方法主要包括同义词的替换、回译、调换文本顺序等方法，如保持增强后句子的原始语义前提下，将父句中的部分词语用来自权威词典的同义词进行替换，但是电力文本大多包含很多专业术语，能够匹配的同义词较少，经常出现无词可换的现象，而回译的增强方法是将父句在源语言和多个目标语言之间翻译多次，最后再翻译回源语言，但是该方法无法保证翻译结果子句的多样性，并且由于电力文本的逻辑性要求很高，调换文本顺序的方法往往会造成前后逻辑差距过大，对后续模型的训练影响较大，由此对搜索的准确度造成了较大的影响。
74.一种应用于电力文本的数据增强方法，参考图1，包括以下步骤：
75.s101、使用标注软件对待增强数据集进行情感态度标注，生成样本数据。
76.需要说明的是，标注软件能够对语句的情感态度，如褒义、贬义、中性，进行标记，同时，标注语句中的各词汇的词性等，并将标注标签及原语句共同作为样本数据。
77.s102、bert生成式模型提取样本数据中的词性标签；
78.需要说明的是，所述bert生成式模型基于原有的训练模型bert，提供mlm(遮盖语言模型)任务机制，可以通过mlm随机遮盖原句中的一部分词汇，然后根据其上下文预测遮盖位置的新单词，从而生成了新句子，最终增加样本数量。
79.原mlm所遮盖的词很可能是含有情感态度的词，比如“近年来，电力终端设备的性能非常好...”，mlm机制可能遮盖的词为“好”，那么此时预测结果的准确率会很低，预测的结果有可能为“差，坏”等等，那么这就会对句子增强带来负面影响。
80.因此，本发明对原bert的mlm机制的输入内容及处理方式进行改动，在原输入中新加入一个新的限定因素：词性标签，bert生成式模型根据词性标签判断该词是否为情感态
度类的形容词或副词，若是，则不对该词进行遮盖操作，通过这种方式，有效的降低了原有训练模型bert预测结果准确率较低的情况。
81.s103、利用bert生成式模型对样本数据通过选择性遮盖的方式，结合词性标签，对样本数据的语句进行预测，得到一次增强数据集；
82.需要说明的是，所述一次增强数据集，为一个在预测行为进行中不断扩大的集合，所传递给后续对数据分组步骤的一次增强数据集，为所有预测结果的总集合。
83.s104、利用句子的倾向性对一次增强数据集进行分组得到褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集；
84.需要说明的是，所述分组的同时，还会对褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集每个集合的数量进行统计。
85.s105、对褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集进行同义词替换，直至三个数据集的语句数量达到平衡，得到二次增强数据集。
86.需要说明的是，所述三个数据集的语句数量达到平衡，是指进行同义词替换后得到的新句子数量为原数据所在集合(褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集)的三分之一即算满足需求。
87.所述褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集均为在替换过程中不断阔大的集合，所述的二次增强数据集为以上三个数据集在语句数量达到平衡后，最终得到的褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据的总和。
88.根据权利要求1所述一种应用于电力文本的数据增强方法，所述bert生成式模型在提取样本数据中的词性标签前，包括以下步骤，bert生成式模型利用待增强数据集对自身进行微调，直至模型收敛。
89.实施例1
90.待增强数据集中含有“电力终端设备得到非常好的发展”语句，以本句为例介绍本发明的一种应用于电力文本的数据增强方法：
91.s101`、对语句进行标注；
92.褒义；电力终端设备
→
名词；得到
→
动词；非常好
→
形容词；的
→
介词；发展
→
名词。
93.s102`、bert生成式模型对“褒义；电力终端设备
→
名词；得到
→
动词；非常好
→
形容词；的
→
介词；发展
→
名词”、“电力终端设备得到非常好的发展”两个信息进行提取。
94.s103`、bert生成式模型对词语进行遮盖和预测。
95.以括号“()”表示被遮盖的词。
96.电力终端设备得到()的发展，分析被遮盖的词为形容词，且会对情感态度产生影响，于是不进行预测。
97.电力终端设备()非常好的发展，分析被遮盖的词为动词，且不会对情感态度产生影响，于是进行预测，预测结果为有着，并将语句“电力终端设备有着非常好的发展”、添加到一次增强数据集中。
98.所规定的一次增强数据集含两个语句即可，于是将含有，“电力终端设备有着非常好的发展”、“电力终端设备得到非常好的发展”作为一次增强数据集输出。
99.s104`、对一次增强数据进行分组；
100.褒义：“电力终端设备有着非常好的发展”、“电力终端设备得到非常好的发展”；
101.贬义：无；
102.中性：无；
103.s105`、进行替换；
104.非常好替换为较差，非常好替换为一些，得到以下语句。
105.褒义：“电力终端设备有着非常好的发展”、“电力终端设备得到非常好的发展”106.贬义：“电力终端设备有着较差的发展”、“电力终端设备得到较差的发展”107.中性：“电力终端设备有着一些的发展”、“电力终端设备得到一些的发展”108.以上语句数量已经达到平衡，将以上所有语句作为二次增强数据集进行输出。
109.根据图2，所述得到一次增强数据集的步骤具体包括：
110.s301、从样本数据中随机抽取一个句子；
111.s302、随机遮盖抽取的句子中的一个词语，作为遮盖词语；
112.s303、bert生成式模型判断遮盖词语的替换是否影响词性标签的描述，是则执行步骤s302，重新选择一个词进行遮盖，否则执行步骤s304；
113.s304、使用bert生成式模型对遮盖词语进行预测，得到新生成句子；
114.s305、将新生成句子添加到样本数据中；
115.s306、判断得到的现有样本数据规模是否符合要求，是则执行步骤s307，否则重复步骤s301；
116.s307、将现有的样本数据作为一次增强数据集输出；
117.通过以上内容的限定，保证了一次增强数据集的较高准确度，有效的避免了因为语义不对所造成的预测不准确的情况。
118.根据图3，所述获取二次增强数据集的方法具体包括以下步骤：
119.s501、对褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集进行分词，并标记词性，得到二次词组；
120.需要说明的是，所述的二次词组包括褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据三个部分。
121.s502、随机选取二次词组中一个未被替换过的词汇，作为待替换词汇，所述带替换词汇的词性为名词、动词、形容词或副词中的一种；
122.s503、对待替换词汇进行同义词查询，得到同义词列表；
123.s504、对同义词列表中的同义词按照语义相关度进行降序排列，并将相关度最高的词语作为替换词语；
124.s505、使用替换词语对待替换词汇进行替换，然后将得到的语句添加至原褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集；
125.s506、判断褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集的语句数量是否达到平衡，是则执行步骤s507，否则重复步骤s502；
126.s507、将最终的褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集合并作为二次增强数据集进行输出。
127.步骤s104中所述分词过程利用spacy库进行分词。
128.步骤s503所述同义词查询的具体步骤包括：
129.从wordnet中查找待替换词汇的同义词；若查询到，则生成同义词列表；
130.若未查询到则，在电力语料库中查找待替换词汇的同义词；若查询到，则生成同义词列表；若未查询到则，从二次词组中重新选取词组。
131.根据图4，所述得到一次增强数据集之后，所述方法还包括：
132.s201、将一次增强数据集，随机的以8:2的比例分为训练集与测试集；
133.s202、利用句子的倾向性对训练集进行分组得到褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集；
134.需要说明的是，所述训练集在拆分为褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集后，按照步骤s502至步骤s507的方法，进行词语的替换。
135.需要说明的是，如果不需要进行验证，则不用对以此增强数据集进行拆分，直接将所有一次增强数据集中包含的数据进行增强，如果需要进行验证过程，则将一次增强数据集按照8:2的比例分为训练集与测试集，然后仅对训练集进行增强。
136.得到所述二次增强数据集之后，所述方法还包括：
137.s203、将二次增强数据集和测试集分别输入到分类模型中进行训练，通过分类结果验证文本数据是否正确，正确则执行步骤s204，否则执行步骤s205；
138.s204、将训练的语句保留在二次增强数据集中；
139.s205、将训练的语句从二次增强数据集删除。
140.通过以上步骤的加入，进一步提高了二次增强数据的准确性。
141.以上为本技术实施例提供的一种应用于电力文本的数据增强方法的实施例及原理分析，以下为本技术实施例提供的一种应用于电力文本的数据增强系统的实施例。
142.一种应用于电力文本的数据增强系统，包括：标注模块、bert模块、词性分类模块、褒义处理模块、贬义处理模块、中性处理模块和二次增强数据接收模块；
143.所述标注模块被配置为对情感态度标注，生成样本数据，并传递给bert模块；
144.所述bert模块被配置为通过选择性遮盖的方式，结合词性标签，对样本数据中的语句进行预测，并将得到的一次增强数据集传递给词性分类模块；
145.所述词性分类模块被配置为利用句子的倾向性对一次增强数据集进行分组，并将得到的褒义一次增强数据集传递给褒义处理模块，贬义一次增强数据集传递给贬义处理模块，中性一次增强数据集传递给中性处理模块；
146.所述褒义处理模块被配置为对褒义一次增强数据集中的未被替换过的词性为名词、动词、形容词或副词的词汇进行替换，得到褒义二次增强数据集；
147.所述贬义处理模块被配置为对贬义一次增强数据集中的未被替换过的词性为名词、动词、形容词或副词的词汇进行替换，得到贬义二次增强数据集；
148.所述中性处理模块被配置为对中性一次增强数据集中的未被替换过的词性为名词、动词、形容词或副词的词汇进行替换，得到中性二次增强数据集；
149.所述二次增强数据接收模块被配置为接收褒义二次增强数据集、贬义二次增强数据集、中性二次增强数据集，并对三个数据集的语句数量进行比较，并输出最终的二次增强数据集。
150.同时，所述bert模块被配置为在提取样本标签前，利用待增强数据集对自身进行微调，直至模型收敛。
151.同时，所述应用于电力文本的数据增强设备还包含一个检验系统；
152.所述检查系统被配置为将一次增强数据集，随机的以8:2的比例分为训练集与测试集；并将训练集传递至词性分类模块；所述8:2的比例，为本实施例中的应用方案，在实际验证过程中，训练集和测试集的比例不限于上述表述内容。
153.所述词性分类模块利用句子的倾向性对训练集进行分组得到褒义一次增强数据集、贬义一次增强数据集和中性一次增强数据集；
154.检查系统还被配置为将二次增强数据集和测试集进行对比验证，判断结果的准确性。
155.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的方法的具体工作过程，可以参考前述装置实施例中的对应过程，在此不再赘述。
156.本发明通过对bert生成式模型增加词性标签辨析的方法，有效的提高了电力文本增强过程中，获得文本的准确性和有效性。同时，结合二次对电力文本的分类和替换，进一步提高了电力文本的容量，在保证原电力文本语句的语义和逻辑不会有较大改变的情况下，增强了句子表达方式的多样性，且不用担心同义词表对电力领域词汇的限制，以及解决了回译方法无法保证句子多样性这一问题。
157.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由本技术的权利要求指出。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种卷积神经网络硬件加速平台的制作方法

一种应用于电力文本的数据增强方法及系统与流程

相关文献

最热文献