一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

电力调度操作票实体信息抽取方法及装置与流程

2022-07-13 18:24:28 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,具体地,涉及一种电力调度操作票实体信息抽取方法及装置。


背景技术:

2.在电网公司的电力调度部门,调度员下达的调度操作指令票除了要以电话的形式通知给下级调度机构,还要发送给调度自动化系统。调度自动化系统无法读取操作票信息,需要借助其他手段识别操作票文本中的“电网设备、调度机构、检修票号”等实体信息,这些实体信息会进一步参与调度自动化系统的运行。因此,基于调度操作票文本识别其中的实体信息具有重要的生产实际意义。
3.实体抽取的主要算法有rnn、cnn和transformer等,但是rnn算法存在训练速度慢的致命问题;cnn只能将模型添加到2至3层,无法获取更多全局信息,模型准确率有限;transformer虽然相比于cnn可以加深网络深度,但是需要先预训练语言模型然后把预训练模型适配给下游任务,操作环节多且较为繁琐。
4.目前基于规则或者基于字典的实体识别方法中需要被识别的文本是结构化文本(文字的写法存在某种特定的规则)或带有某种编号的字典,处理不了较为复杂的文本实体信息。也有采用bigru网络处理文本实体信息抽取方面的方案,但是bigru属于rnn网络的一种,存在训练速度慢的问题。而且bigru网络训练过程中的超参数也缺乏及时调整更新,使得训练过程需要花更多的时间达到理想的水平。


技术实现要素:

5.本发明实施例的主要目的在于提供一种电力调度操作票实体信息抽取方法及装置,以快速转确地抽取电力调度操作票实体信息。
6.为了实现上述目的,本发明实施例提供一种电力调度操作票实体信息抽取方法,包括:
7.获取电力调度操作票文本,将电力调度操作票文本转换为文本向量;
8.将文本向量依次输入预先创建的线性网络模型和预先创建的实体信息抽取模型中得到对应的字符标签;
9.根据字符标签从电力调度操作票文本抽取实体信息。
10.在其中一种实施例中,还包括:
11.执行如下迭代处理:
12.根据预先获取的历史文本向量和线性网络模型参数得到历史文本线性变换结果;
13.根据历史文本线性变换结果和实体信息抽取模型参数得到预测字符标签向量;
14.将历史文本向量对应的实际字符标签转换为实际字符标签向量,根据实际字符标签向量和预测字符标签向量确定损失函数;
15.当当前迭代次数达到迭代阈值时,根据线性网络模型参数创建线性网络模型,根
据实体信息抽取模型参数创建实体信息抽取模型,否则根据损失函数更新线性网络模型参数和实体信息抽取模型参数。
16.在其中一种实施例中,根据损失函数更新线性网络模型参数和实体信息抽取模型参数包括:
17.根据损失函数和批处理数据确定目标损失函数;
18.根据目标损失函数和学习率更新线性网络模型参数和实体信息抽取模型参数。
19.在其中一种实施例中,还包括:
20.根据实际字符标签向量和预测字符标签向量确定正确率数据;
21.根据正确率数据和损失函数更新迭代阈值、批处理数据和学习率。
22.本发明实施例还提供一种电力调度操作票实体信息抽取装置,包括:
23.文本向量转换模块,用于获取电力调度操作票文本,将电力调度操作票文本转换为文本向量;
24.字符标签模块,用于将文本向量依次输入预先创建的线性网络模型和预先创建的实体信息抽取模型中得到对应的字符标签;
25.实体信息抽取模块,用于根据字符标签从电力调度操作票文本抽取实体信息。
26.在其中一种实施例中,还包括:
27.历史文本线性变换结果模块,用于根据预先获取的历史文本向量和线性网络模型参数得到历史文本线性变换结果;
28.预测字符标签向量模块,用于根据历史文本线性变换结果和实体信息抽取模型参数得到预测字符标签向量;
29.损失函数模块,用于将历史文本向量对应的实际字符标签转换为实际字符标签向量,根据实际字符标签向量和预测字符标签向量确定损失函数;
30.迭代模块,用于当当前迭代次数达到迭代阈值时,根据线性网络模型参数创建线性网络模型,根据实体信息抽取模型参数创建实体信息抽取模型,否则根据损失函数更新线性网络模型参数和实体信息抽取模型参数。
31.在其中一种实施例中,迭代模块包括:
32.目标损失函数单元,用于根据损失函数和批处理数据确定目标损失函数;
33.更新单元,用于根据目标损失函数和学习率更新线性网络模型参数和实体信息抽取模型参数。
34.在其中一种实施例中,还包括:
35.正确率数据模块,用于根据实际字符标签向量和预测字符标签向量确定正确率数据;
36.更新模块,用于根据正确率数据和损失函数更新迭代阈值、批处理数据和学习率。
37.本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现所述的电力调度操作票实体信息抽取方法的步骤。
38.本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现所述的电力调度操作票实体信息抽取方法的步骤。
39.本发明实施例的电力调度操作票实体信息抽取方法及装置先将电力调度操作票
文本转换为文本向量,然后将文本向量依次输入线性网络模型和实体信息抽取模型中得到对应的字符标签,最后根据字符标签从电力调度操作票文本中快速转确地抽取实体信息。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本发明实施例中电力调度操作票实体信息抽取方法的流程图;
42.图2是本发明实施例中创建线性网络模型和实体信息抽取模型的流程图;
43.图3是本发明实施例中电力调度操作票实体信息抽取装置的结构框图;
44.图4是本发明实施例中计算机设备的结构框图。
具体实施方式
45.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
47.本发明涉及的缩略语和关键术语定义如下:
48.rnn:recurrent neural networks,循环神经网络;
49.cnn:convolutional neural networks,卷积神经网络;
50.transformer:变换网络;
51.bigru:bi gated recurrent unit,双向门控循环单元,双向rnn网络的一种;
52.crf:conditional random field,条件随机场算法。
53.鉴于现有技术的实体抽取缓慢且准确度不高,本发明实施例提供了一种电力调度操作票实体信息抽取方法及装置,采取bigru crf算法对电力调度操作票文本进行快速转确的实体识别和信息抽取。
54.图1是本发明实施例中电力调度操作票实体信息抽取方法的流程图。如图1所示,电力调度操作票实体信息抽取方法包括:
55.s101:获取电力调度操作票文本,将电力调度操作票文本转换为文本向量。
56.s102:将文本向量依次输入预先创建的线性网络模型和预先创建的实体信息抽取模型中得到对应的字符标签。
57.具体实施时,先将文本向量依次输入预先创建的线性网络模型和预先创建的实体信息抽取模型中得到对应的字符标签向量,然后调用内置crf函数并做状态转换解码,将字符标签向量转换成字符标签。
58.图2是本发明实施例中创建线性网络模型和实体信息抽取模型的流程图。如图2所
示,创建线性网络模型和实体信息抽取模型包括:
59.执行如下迭代处理:
60.s201:根据预先获取的历史文本向量和线性网络模型参数得到历史文本线性变换结果。
61.本发明基于电力调度操作票本身固有的结构化特点构建4层或者8层的线性网络层。加入线性网络层的目的是将主要字段筛选出来,增加主要字段在变换过程中特殊性。经过线性网络的处理可以提高后一步bigru网络的分类速度和分类准确性。
62.在执行s201之前,需要将历史文本转换为历史文本向量。其中,历史文本分为训练集train.txt(包含100条数据)和测试集test.txt(包含100条数据)。
63.具体实施时,历史文本和对应的实际字符标签如下:
64.历史文本text:告配调:龙天变、潘县变4号主变已送电,方式可恢复;
65.实际字符标签label:o eq_b eq_i o eq_b eq_i eq_i o eq_b eq_i eq_i eq_i eq_i eq_i eq_i o o o o o o o o o;
66.历史文本text:核对歌水变水溧线7m e线路在冷备用状态,溧桥线、溧高线方式已调整完毕;
67.实际字符标签label:o o eq_b eq_i eq_i eq_i eq_i eq_i eq_i eq_i eq_i eq_i eq_i o oo o o o o eq_b eq_i eq_i o eq_b eq_i eq_i o o o o o o o。
68.如上所示,标签字典tag.dic包括三类标签:eq_b、eq_i和o,对应的编码值分别为0,1,2。o代表动词、属性名词和标点符号的每一个字符,中文单字字符和英文单字字符都按照一个字符来算;eq_b代表主体名词的第一个字符,eq_i代表主体名词的其余字符。
69.将历史文本转换为历史文本向量包括:
70.将历史文本(text)通过分词器(tokenizer)转化成含有单个字段的列表,再通过数据处理大字典得到文本的编码。其中,数据处理大字典包括常用英文大小写字符、常用的2万个中文单字、0-9数字、中英文标点符号和其他字符。其他字符包括:“'[pad]'占位,'[unk]'未知,'[cls]'省略,'[sep]间断'和'[mask]'掩饰”。每个字符都有唯一的数字与之对应,这个唯一的数字被称为“字向量”。
[0071]
例如:tokens='拉开2号主变7 0 2开关',经过分词器分词以后,得到单字段的列表[

拉”开”2”号”主”变”7”0”2”开”关’],该列表对应的历史文本向量如下:[1,630,88,249,500,57,282,589,540,249,88,129,2]。编码统一以1为开头,以2为结尾。
[0072]
s202:根据历史文本线性变换结果和实体信息抽取模型参数得到预测字符标签向量。
[0073]
具体实施时,实体信息抽取模型采用bigru网络构建分类器模型。bigru网络的层数等于num_classes的种类数,即label_vocab字典的长度,为3。因为该字典包括eq_b、eq_i和o三种元素。
[0074]
s203:将历史文本向量对应的实际字符标签转换为实际字符标签向量,根据实际字符标签向量和预测字符标签向量确定损失函数。
[0075]
例如,'拉开2号主变7 0 2开关'对应的实际字符标签为[o,o,eq_b,eq_i,eq_i,eq_i,eq_i,eq_i,eq_i,eq_i,eq_i],实际字符标签向量为[2,2,0,1,1,1,1,1,1,1,1]。
[0076]
s204:判断当前迭代次数是否达到迭代阈值。
[0077]
其中,迭代阈值epochs=20。
[0078]
s205:当当前迭代次数达到迭代阈值时,根据线性网络模型参数创建线性网络模型,根据实体信息抽取模型参数创建实体信息抽取模型。
[0079]
s206:当当前迭代次数未达到迭代阈值时,根据损失函数更新线性网络模型参数和实体信息抽取模型参数。
[0080]
一实施例中,根据损失函数更新线性网络模型参数和实体信息抽取模型参数包括:
[0081]
根据损失函数和批处理数据确定目标损失函数;根据目标损失函数和学习率更新线性网络模型参数和实体信息抽取模型参数。
[0082]
其中,批处理数据batch_size=16,学习率learning_rate=2e-5。
[0083]
具体实施时,将预测字符标签向量与实际字符标签向量[2,2,0,1,1,1,1,1,1,1,1]进行对比,以两者的差异度组成损失函数。因为每次训练批处理数据量batch_size=16,所以是对16条调度操作票文本同时进行训练,将每组的差异度除以16得到目标损失函数。
[0084]
一实施例中,还包括:根据实际字符标签向量和预测字符标签向量确定正确率数据;根据正确率数据和损失函数更新迭代阈值、批处理数据和学习率。
[0085]
具体实施时,当当前迭代次数达到迭代阈值时,根据实际字符标签向量和预测字符标签向量确定采用当前线性网络模型和实体信息抽取模型完成实体识别任务时的正确率。当正确率不高时,根据损失函数对迭代阈值、批处理数据和学习率进行优化,寻找当前循环中更加合适的超参数(包括迭代阈值、批处理数据和学习率)。
[0086]
通过训练集对模型训练完成后,可以对测试集的调度文本进行预测,将测试集的实际字符标签向量和采用模型预测得到的预测字符标签向量进行对比以确定测试集的预测准确性。
[0087]
s103:根据字符标签从电力调度操作票文本抽取实体信息。
[0088]
具体实施时,抽取字符标签中的主体名词标签对应的字符作为实体信息。
[0089]
例如,当电力调度操作票文本为:告配调:龙凤变、潘庄变1号主变已送电,方式可恢复时,字符标签为:('告','o')('配调','eq')(':','o')('龙凤变','eq')('、','o')('潘庄变1号主变','eq')('已','o')('送','o')('电','o')(',','o')('方','o')('式','o')('可','o')('恢','o')('复','o')。
[0090]
此时能识别为实体信息的包括以下几组:('配调','eq')、('龙凤变','eq')和('潘庄变1号主变','eq'),主体名词标签'eq'表示识别成功。
[0091]
当电力调度操作票文本为:核对溧水变歌溧线7me线路在冷备用状态,溧十线、溧花线方式已调整完毕时,字符标签为:('核','o')('对','o')('溧水变歌溧线7me线路','eq')('在','o')('冷','o')('备','o')('用','o')('状','o')('态','o')(',','o')('溧十线','eq')('、','o')('溧花线','eq')('方','o')('式','o')('已','o')('调','o')('整','o')('完','o')('毕','o')。
[0092]
此时能识别为实体信息的包括以下几组:('溧水变歌溧线7me线路','eq')、('溧十线','eq')和('溧花线','eq')。
[0093]
当电力调度操作票文本为:联系溧水调度:1、幸龙变1号、2号主变负荷移出,101开关改为热备用,102开关改为热备用;2、南门变2号主变负荷移出,102a、102b开关改为热备
用时,字符标签为:('联','o')('系','o')('溧水调度','eq')(':','o')('1','o')('、','o')('幸龙变1号','eq')('、2号主变负','o')('荷','o')('移','o')('出','o')(',','o')('101开关','eq')('改','o')('为','o')('热','o')('备','o')('用','o')(',','o')('102开关','eq')('改','o')('为','o')('热','o')('备','o')('用','o')(';','o')('2','o')('、','o')('南门变2号主变负荷','eq')('移','o')('出','o')(',','o')('102a','eq')('、','o')('102b开关','eq')('改','o')('为','o')('热','o')('备','o')('用','o')。
[0094]
此时能识别为实体信息的包括以下几组:('溧水调度','eq')、('幸龙变1号','eq')、('2号主变','eq')、('101开关','eq')、('102开关','eq')、('南门变2号主变负荷','eq')、('102a','eq')和('102b开关','eq')。
[0095]
图1所示的电力调度操作票实体信息抽取方法的执行主体可以为计算机。由图1所示的流程可知,本发明实施例的电力调度操作票实体信息抽取方法及装置先将电力调度操作票文本转换为文本向量,然后将文本向量依次输入线性网络模型和实体信息抽取模型中得到对应的字符标签,最后根据字符标签从电力调度操作票文本中快速转确地抽取实体信息。
[0096]
基于同一发明构思,本发明实施例还提供了一种电力调度操作票实体信息抽取装置,由于该装置解决问题的原理与电力调度操作票实体信息抽取方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
[0097]
图3是本发明实施例中电力调度操作票实体信息抽取装置的结构框图。如图3所示,电力调度操作票实体信息抽取装置包括:
[0098]
文本向量转换模块,用于获取电力调度操作票文本,将电力调度操作票文本转换为文本向量;
[0099]
字符标签模块,用于将文本向量依次输入预先创建的线性网络模型和预先创建的实体信息抽取模型中得到对应的字符标签;
[0100]
实体信息抽取模块,用于根据字符标签从电力调度操作票文本抽取实体信息。
[0101]
在其中一种实施例中,还包括:
[0102]
历史文本线性变换结果模块,用于根据预先获取的历史文本向量和线性网络模型参数得到历史文本线性变换结果;
[0103]
预测字符标签向量模块,用于根据历史文本线性变换结果和实体信息抽取模型参数得到预测字符标签向量;
[0104]
损失函数模块,用于将历史文本向量对应的实际字符标签转换为实际字符标签向量,根据实际字符标签向量和预测字符标签向量确定损失函数;
[0105]
迭代模块,用于当当前迭代次数达到迭代阈值时,根据线性网络模型参数创建线性网络模型,根据实体信息抽取模型参数创建实体信息抽取模型,否则根据损失函数更新线性网络模型参数和实体信息抽取模型参数。
[0106]
在其中一种实施例中,迭代模块包括:
[0107]
目标损失函数单元,用于根据损失函数和批处理数据确定目标损失函数;
[0108]
更新单元,用于根据目标损失函数和学习率更新线性网络模型参数和实体信息抽取模型参数。
[0109]
在其中一种实施例中,还包括:
[0110]
正确率数据模块,用于根据实际字符标签向量和预测字符标签向量确定正确率数据;
[0111]
更新模块,用于根据正确率数据和损失函数更新迭代阈值、批处理数据和学习率。
[0112]
综上,本发明实施例的电力调度操作票实体信息抽取装置先将电力调度操作票文本转换为文本向量,然后将文本向量依次输入线性网络模型和实体信息抽取模型中得到对应的字符标签,最后根据字符标签从电力调度操作票文本中快速转确地抽取实体信息。
[0113]
本发明实施例还提供能够实现上述实施例中的电力调度操作票实体信息抽取方法中全部步骤的一种计算机设备的具体实施方式。图4是本发明实施例中计算机设备的结构框图,参见图4,所述计算机设备具体包括如下内容:
[0114]
处理器(processor)401和存储器(memory)402。
[0115]
所述处理器401用于调用所述存储器402中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的电力调度操作票实体信息抽取方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
[0116]
获取电力调度操作票文本,将电力调度操作票文本转换为文本向量;
[0117]
将文本向量依次输入预先创建的线性网络模型和预先创建的实体信息抽取模型中得到对应的字符标签;
[0118]
根据字符标签从电力调度操作票文本抽取实体信息。
[0119]
综上,本发明实施例的计算机设备先将电力调度操作票文本转换为文本向量,然后将文本向量依次输入线性网络模型和实体信息抽取模型中得到对应的字符标签,最后根据字符标签从电力调度操作票文本中快速转确地抽取实体信息。
[0120]
本发明实施例还提供能够实现上述实施例中的电力调度操作票实体信息抽取方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的电力调度操作票实体信息抽取方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
[0121]
获取电力调度操作票文本,将电力调度操作票文本转换为文本向量;
[0122]
将文本向量依次输入预先创建的线性网络模型和预先创建的实体信息抽取模型中得到对应的字符标签;
[0123]
根据字符标签从电力调度操作票文本抽取实体信息。
[0124]
综上,本发明实施例的计算机可读存储介质先将电力调度操作票文本转换为文本向量,然后将文本向量依次输入线性网络模型和实体信息抽取模型中得到对应的字符标签,最后根据字符标签从电力调度操作票文本中快速转确地抽取实体信息。
[0125]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0126]
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明
性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
[0127]
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(asic),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
[0128]
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中,asic可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
[0129]
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献