一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于神经化正则表达式的电网故障处置预案解析方法与流程

2022-09-03 21:27:43 来源:中国专利 TAG:


1.本发明属于自然语言处理与电网故障处置预案解析技术领域,具体涉及一种基于神经化正则表达式的电网故障处置预案解析方法。


背景技术:

2.随着特高压交直流混联电网的迅速发展,电网规模不断扩大,运行方式日益复杂,这对调控业务的自动化、智能化提出了更高的要求。电网发生故障时,需要迅速处置,保证供电稳定性,而依赖调度人员翻阅电网故障处置预案进行故障处置时,不仅消耗时长,而且增加了人工处置的风险,对调控人员经验要求极高。对电网故障处置预案进行解析,能够从预案文本中提取到对象化的控制动作、设备名称、操作限值等实体成分,基于提取到实体成分构建故障处置知识图谱,完成预案的电子化过程,进而可以通过图谱检索及推荐,实现电网故障快速处置。电网故障处置预案解析作为构建故障处置知识图谱的前置步骤也是核心步骤,有必要进一步深入研究。
3.现有技术中,电网故障处置预案解析主要有两种实现方式,一种是基于规则模板的语义识别解析方法,该方法需要人为总结电网故障处置预案中关键成分信息并构建规则模板,通过规则模板对预案中关键成分进行提取。第二种是基于深度学习的实体识别方法,通过对故障处置预案文本中每个文字进行标记,在使用深度学习模型训练标记文本,进而识别出关键成分信息,完成预案解析工作。
4.使用规则模板进行电网故障处置预案解析完全依赖于模板制定,无法自动从数据中学习,对于小样本数据,该方法效果较好,但随着预案数据量的增长,采用规则模板难度也将随之提升。
5.使用基于深度学习的实体识别方法进行电网故障处置预案解析需要有大规模训练数据的支撑才能达到较高的识别效果,当预案文本数量较少时,使用该方法识别效果欠佳。


技术实现要素:

6.本发明的目的就是为了解决上述背景技术存在的不足,提供一种基于神经化正则表达式的电网故障处置预案解析方法,将正则表达式直接转化成一个对应的神经网络,使得该神经网络不需要训练就有着和正则表达式系统相似的效果,在进行小样本电网故障处置预案实体成分识别时,效果表现突出,转化后的神经网络又可以通过标注数据进行训练以达到更好的识别性能,对各数量级样本的电网故障处置预案都能进行提取,进而提升电网故障处置预案解析效率。
7.本发明采用的技术方案是:一种基于神经化正则表达式的电网故障处置预案解析方法,包括以下步骤:
8.编写每个电网故障处置预案文本实体成分识别的正则表达式;其中所述正则表达式用于从预先构建的电网故障处置预案语料库的电网故障处置预案文本中识别出其实体
成分;
9.将所述正则表达式转换为电网故障处置预案成分识别的有限状态自动机,使正则表达式的规则文本表示转变为矩阵形式表示;
10.将所述有限状态自动机转换为具有独立表示能力的有限状态自动机,并通过矩阵秩分解和加入词向量,构建有限状态自动机双向循环神经网络;
11.使用电网故障处置预案语料库数据对有限状态自动机双向循环神经网络进行训练;采用训练后的有限状态自动机双向循环神经网络识别输入的电网故障处置预案文本的实体成分,并提取识别结果。
12.上述技术方案中,所述电网故障处置预案语料库的构建过程包括:整理电网故障处置预案中全部文本的实体成分信息,所述实体成分包含设备类、动作类、区域类、限值类4个类型;基于电网故障处置预案中动作类词语,将电网故障处置预案中的长文本分割为多个短句,每个短句中包含一个动作类词语,在进行文本分割时,以文本中的标点符号为划分点,判断每个划分的短句中是否包含动作类词语,如果包含,则确定为一个短句,如果不包含,则将当前短句与前一个短句进行合并处理,将一个短句作为一个电网故障处置预案文本;将电网故障处置预案中全部文本分割成多个电网故障处置预案文本后,形成电网故障处置预案语料库。
13.上述技术方案中,编写每个电网故障处置预案文本实体成分识别的正则表达式的过程包括:将电网故障处置预案语料库中的电网故障处置预案文本按照句式结构进行归类,相同的句式结构表示电网故障处置预案文本表述形式及操作意图相同;总结每种句式结构涉及的关键词、实体成分及其所属类型;通过关键词定位捕获组,通过捕获组表示实体成分及其所属类型;编写正则表达式,所述正则表达式通过特定字符、关键词和捕获组的组合,表达从电网故障处置预案文本中提取其对应的实体成分的过滤逻辑。
14.上述技术方案中,电网故障处置预案成分识别的有限状态自动机包括输入字符表、输出标签、有限状态集,起始状态集、终止状态集以及有限状态自动机状态转移矩阵;
15.所述输入字符表由电网故障处置预案语料中包含的不重复的字符构成;所述输入字符表通过对电网故障处置预案语料库的遍历,筛选出的不重复的字符形成;
16.所述输出标签由自定义的不重复的标签组成,采用不同符号作为捕获组内起始字符标签、捕获组内剩余内容标签和非捕获组内容的通配符标签;并按照区域、设备、限值、动作对不同的捕获组内起始字符标签、捕获组内剩余内容标签进行分类标记;
17.所述有限状态集的状态数由电网故障处置预案正则表达式中关键词及捕获组的数量决定;
18.所述起始状态集表示对于不同的输入语料,电网故障处置预案有限状态自动机的起始状态;
19.所述终止状态集表示对于不同的输入语料,电网故障处置预案有限状态自动机的终止状态;
20.所述有限状态自动机状态转移矩阵用于判断有限状态自动机针对每个输入的电网故障处置预案文本产生的状态转移情况;有限状态自动机状态转移矩阵包含四个维度,其中,一个维度表示输入字符表大小,两个维度表示有限状态集的状态数大小,一个维度表示输出标签大小。
21.上述技术方案中,将电网故障处置预案文本实体成分识别的正则表达式转换为电网故障处置预案成分识别的有限状态自动机的过程包括:
22.有限状态自动机首先进入起始状态,输入多个电网故障处置预案文本实体成分识别的正则表达式;有限状态自动机依次读取每个正则表达式;有限状态自动机每次读取完单个正则表达式均回到起始状态;
23.有限状态自动机读取单个正则表达式的过程包括:有限状态自动机每个时刻读取正则表达式中的一个字符,当读取到关键词或捕获组内容时,有限状态自动机状态发生改变,读取到其它内容时,有限状态自动机的状态不发生改变,当读取完正则表达中所有字符,有限状态自动机到达终止状态;对于每个读入的字符,有限状态自动机对应关联一个输出标签;
24.有限状态自动机读取所有的正则表达式后生成有限状态自动机状态转移矩阵;有限状态自动机状态转移矩阵结合输入字符表和输出标签,生成电网故障处置预案成分识别的有限状态自动机。
25.上述技术方案中,所述具有独立表示能力的有限状态自动机用于减小电网故障处置预案成分识别的有限状态自动机状态转移矩阵的维度,通过引入格外的状态数,使得电网故障处置成分识别的有限状态自动机识别捕获组内容时,从捕获组内首个字符到捕获组内其它字符之间,发生一个状态转移;在任一时刻通过状态转移矩阵的到达状态确定其输出标签。
26.上述技术方案中,通过矩阵秩分解和加入词向量,构建有限状态自动机双向循环神经网络的过程包括:将具有独立表示能力的有限状态自动机使用一个状态转移三维矩阵和一个表示到达状态到输出状态的二维矩阵表示电网故障处置预案成分识别的有限状态自动机中状态转移矩阵;
27.用张量秩分解技术将状态转移三维矩阵分解为三个二维矩阵,分别为输入字符表的词向量矩阵、当前状态矩阵d1和到达状态矩阵d2;
28.将带有词信息的预训练词向量与输入字符表的词向量矩阵进行拼接处理,使输入字符表的词向量矩阵获得词的语义信息;
29.所述带有词信息的预训练词向量使用电网故障处置预案语料库对word2vec语言模型训练后获得的word2vec语言模型权重参数作为输入字符表中字符的向量化表示;
30.令预训练词向量矩阵为w,设置超参数θ,用超参数来决定预训练词向量w和经矩阵秩分解后得到的词向量矩阵e拼接时所占权重大小;
31.每个时刻t输入字符对应的输出标签的得分的计算公式为:
32.v
t
=θ
·
e[x
t
] (1-θ)w[x
t
]
[0033][0034][0035][0036]
β
t-1
=(f
t-1
·
d1)
[0037][0038]
其中,x
t
表示t时刻输入字符表中的字符,e[x
t
]表示x
t
在词向量矩阵e中对应的词
向量,w[x
t
]表示x
t
在预训练词向量矩阵w 中对应的词向量,v
t
表示拼接后的词向量,g
t
记录t时刻前向计算状态转移信息,g
t-1
记录t-1时刻前向计算状态转移信息,h
t
表示t时刻输入变量前向计算得到对应输出标签的得分向量,f
t
记录t时刻后向计算状态转移信息,β
t
表示t时刻输入变量后向计算得到对应输出标签的得分向量,f
t-1
记录t-1时刻后向计算状态转移信息,β
t-1
表示t-1时刻输入变量后向计算得到对应输出标签的得分向量c
t
表示t时刻每个输出标签对应的得分;o’表示到达状态与输出标签对应关系矩阵,表示矩阵元素对应位置相乘;
[0039]
每一次前向计算和每一次后向计算完成后分别加入非线性 tanh激活函数,作为前向传播计算过程;在前向传播计算完成后接入softmax函数;将输出的每个输出标签对应的得分转换为概率大小,选取概率最大值对应的输出标签作为电网故障处置预案文本的实体成分。
[0040]
上述技术方案中,使用电网故障处置预案语料库数据对有限状态自动机双向循环神经网络进行训练的过程包括:
[0041]
采用输出标签的定义方式对电网故障处置预案语料库中语料进行标记,生成电网故障处置预案文本中每个字符及所属标签对,构成训练数据集;
[0042]
训练数据集中的字符使用输入字符表的词向量矩阵进行转换,得到字符向量;然后将每个字符向量及所属标签对输入至有限状态自动机双向循环神经网络进行训练。
[0043]
上述技术方案中,提取识别结果的过程包括:
[0044]
将输入的电网故障处置预案文本内容与有限状态自动机双向循环神经网络模型的输出结果进行比对,根据输出标签结果将电网故障处置预案文本中对应位置的实体成分及其所属类型提取出来。
[0045]
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有基于神经化正则表达式的电网故障处置预案解析方法程序,所述基于神经化正则表达式的电网故障处置预案解析方法程序被处理器执行时实现如上述技术方案所述的方法的步骤。
[0046]
本发明的有益效果是:通过构建正则表达式并转换成双向循环神经网络,在电网故障处置预案解析任务上,该双向循环神经网络在未经训练的情况下具备一定的实体识别性能,同时转换后的双向循环神经网络兼备深度学习方法的可训练、可泛化的优点,并且支持将新的正则表达式集成到训练后的网络模型中。本发明能够对各数量级样本的电网故障处置预案文本实体成分进行有效提取,提升了电网故障处置预案解析整体性能,使用上述解析过程得到的对象化实体知识构建电网故障处置知识图谱,使得图谱准确性得到提升,降低了由于图谱构建准确性问题给电网故障处置过程带来的风险。
附图说明
[0047]
图1为本发明的方法流程示意图;
[0048]
图2为具体实施例的有限状态自动机的转换过程示意图;
[0049]
图3为具体实施例的具有独立表示能力的有限状态自动机的转换过程示意图。
具体实施方式
[0050]
下面结合附图和具体实施例对本发明作进一步的详细说明,便于清楚地了解本发
明,但它们不对本发明构成限定。
[0051]
如图1所示,本发明提供了一种基于神经化正则表达式的电网故障处置预案解析系统,包括:电网故障处理预案语料库构建模块、电网故障处置预案正则表达式构建模块、电网故障处置预案有限状态自动机生成模块、有限状态自动机双向循环神经网络构建模块、有限状态自动机双向循环神经网络模型训练模块、有限状态自动机双向循环神经网络模型成分识别模块;
[0052]
其中,电网故障处理预案语料库构建模块用于采集电网故障处置预案数据,整理电网故障处置预案中包含关键实体信息,将预案长文本分割成预案短句,构建电网故障处置预案语料库;
[0053]
电网故障处置预案正则表达式构建模块用于编写每个电网故障处置预案文本实体成分识别的正则表达式;其中所述正则表达式用于从预先构建的电网故障处置预案语料库的电网故障处置预案文本中识别出其实体成分;
[0054]
电网故障处置预案有限状态自动机生成模块用于将所述正则表达式转换为电网故障处置预案成分识别的有限状态自动机,使正则表达式的规则文本表示转变为矩阵形式表示;
[0055]
有限状态自动机双向循环神经网络构建模块用于将所述有限状态自动机转换为具有独立表示能力的有限状态自动机,并通过矩阵秩分解和加入词向量,构建有限状态自动机双向循环神经网络;
[0056]
有限状态自动机双向循环神经网络模型训练模块用于使用电网故障处置预案语料库数据对有限状态自动机双向循环神经网络进行训练;
[0057]
有限状态自动机双向循环神经网络模型成分识别模块使用训练后的有限状态自动机双向循环神经网络识别输入的电网故障处置预案文本的实体成分,并提取识别结果。
[0058]
本发明还提供了一种基于神经化正则表达式的电网故障处置预案解析方法,包括以下步骤:
[0059]
第一步,采集电网故障处置预案数据,整理电网故障处置预案中包含关键实体信息,将预案长文本分割成预案短句,构建电网故障处置预案语料库。
[0060]
根据电网故障处置预案解析需求,整理电网故障处置预案中全部文本的实体信息,包含设备类、动作类、区域类、限值类,4 个类型的实体信息。基于预案中动作类词语,将电网故障处置预案长文本分割为多个短句,每个短句中包含一个动作类词语,在进行文本分割时,以文本中的标点符号为划分点,判断每个划分的短句中是否包含动作类词语,如果包含,则确定为一个短句,如果不包含,则将当前短句与前一个短句进行合并处理。将全部文本进行分割后,形成电网故障处置预案语料集。
[0061]
以下为电网故障处置预案数据案例:
[0062]“通知湖北省调,增加鄂东机组出力,减小鄂西机组出力,控制斗山斗孝断面不超过100万千瓦,控制兴咸断面不超过200 万千瓦。”[0063]
将其进行短句分割,使一条故障处置预案长文本变为多条故障处置预案短句,划分后形成5个电网故障处置预案文本结果为:
[0064]
1.“通知湖北省调”;
[0065]
2.“增加鄂东机组出力”;
[0066]
3.“减小鄂西机组出力”;
[0067]
4.“控制斗山斗孝断面不超过100万千瓦”;
[0068]
5.“控制兴咸断面不超过200万千瓦”。
[0069]
第二步,编写每个电网故障处置预案文本实体成分识别的正则表达式;其中所述正则表达式用于从预先构建的电网故障处置预案语料库的预案文本中识别出电网故障处置预案文本的实体成分。
[0070]
具体地,将电网故障处置预案语料库中的语料按照句式结构进行归类,按照句式结构进行分类的过程是依次判断电网故障处置预案语料库中的每条电网故障处置预案文本,将电网故障处置预案文本表述形式及操作意图相同的文本归结为同一句式结构类别。总结每种句式结构涉及的关键词、实体成分及其所属类型。通过关键词定位捕获组,通过捕获组表示实体成分及其所属类型。所述关键词指的是捕获组对应的前后内容,当一条预案中包含关键词时,才能定位到捕获组,捕获组中的内容是解析任务想要获取的实体信息。
[0071]
通过特定字符、关键词和捕获组的组合,编写能够识别出电网故障处置预案实体信息的正则表达式。该正则表达式是对字符串操作的一种逻辑公式,用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对故障处置预案文本的一种过滤逻辑。
[0072]
捕获组是正则表达式的组成部分,它可以捕获故障处置预案中待识别的实体成分,并根据其所属类型进行命名,便于引用。总结电网故障处置预案文本的实体成分与电网故障处置预案文本内容之间的关系并编写正则表达式;所述正则表达式通过特定字符、关键词和捕获组的组合,表达从电网故障处置预案文本中提取其对应的实体成分的过滤逻辑。
[0073]
所属正则表示式中,“$”表示通配符,可以匹配任意字符,“*”表示可以出现任意次数,“[$*]《名称》”表示一个捕获组,“[$*]”表示待匹配实体成分的内容,“《名称》”表示待匹配字符所属类型,其中“《area》”表示待匹配内容为区域类,“《eqiup》”表示待匹配内容为设备类,“《range》”表示待匹配内容为限值类,“《action》”表示待匹配内容为动作类。
[0074]
第一步中所述案例对应的正则表达式如下所示:
[0075]
正则表达式1:$*通知[$*]《area》(省调/区域/电网)$*
[0076]
匹配文本:“通知湖北省调”;
[0077]
正则表达式2:$*(增加/减少)[$*]《equip》(出力)$*
[0078]
匹配文本:“增加鄂东机组出力”;“减小鄂西机组出力”;
[0079]
正则表达式3:$*控制[$*]《equip》不超过[$*]《range》万千瓦$*
[0080]
匹配文本:“控制斗山斗孝断面不超过100万千瓦”;“控制兴咸断面不超过200万千瓦”。
[0081]
第三步,将所述正则表达式转换为电网故障处置预案成分识别的有限状态自动机,使正则表达式的规则文本表示转变为矩阵形式表示。
[0082]
电网故障处置预案成分识别有限状态自动机包含输入字符表 v、输出标签标o、有限状态集s,起始状态集si、终止状态集sf以及状态转移矩阵m。
[0083]
上述输入字符表v由电网故障处置预案语料中包含的不重复的字符构成,通过对电网故障处置预案语料的遍历,筛选出的不重复的字符。
[0084]
所述输出标签o由自定义的不重复的标签组成,采用bil标记方法来标记输出结果,“b”表示捕获组内起始字符标签,“i”表示捕获组内剩余内容标签,“l”表示非实体信息内容的通配符标签。对于区域类捕获组,使用“b-area”表示捕获组内首个字符标签,使用“i-area”表示捕获组内其余字符标签;对于设备类捕获组,使用“b-equip”表示捕获组内首个字符标签,使用“i-equip”表示捕获组内其余字符标签;对于限值类捕获组,使用“b-range”表示捕获组内首个字符标签,使用“i-range”表示捕获组内其余字符标签。对于动作类实体信息,使用“b-action”表示首个字符标签,使用“i-action”表示动作的剩余字符标签。故障处置预案解析主要是对需要进行处置的动作、区域、设备、限制进行解析并提取,采用上述标记方式,避免了基于字符内容进行标记,更有利于故障处置预案解析。
[0085]
上述有限状态集s的状态数由电网故障处置预案正则表达式中关键词及捕获组的数量决定。
[0086]
上述起始状态集si表示对于不同的输入语料,电网故障处置预案有限状态自动机的起始状态。
[0087]
上述终止状态集sf表示对于不同的输入语料,电网故障处置预案有限状态自动机的终止状态。
[0088]
上述状态转移矩阵m用于判断有限状态自动机针对每个输入的电网处置预案语料产生的状态转移情况,该状态转移矩阵包含四个维度,其中,一个维度表示输入字符表大小,两个维度表示有限状态集的状态数大小,一个维度表示输出标签大小。
[0089]
在生成有限状态自动机的过程中,有限状态自动机首先进入起始状态,输入内容为电网故障处置预案成分识别正则表达式。有限状态自动机每个时刻读取正则表达式中的一个字符,当读取到关键词或捕获组内容时,有限状态自动机状态发生改变,读取到其它内容时,有限状态自动机的状态不发生改变,当读取完正则表达中所有字符,有限状态自动机到达终止状态,对于每个读入的字符,有限状态自动机对应关联一个输出标签。当读取完所有的正则表达式后,生成上述状态转移矩阵。
[0090]
对于第二步中的正则表达式:
[0091]“$*控制[$*]《equip》不超过[$*]《range》万千瓦$*”[0092]
该正则表达式匹配案例:
[0093]“控制兴咸断面不超过200万千瓦”[0094]
其有限状态自动机在使用过程中状态变化如下:
[0095]
有限状态自动机的起始状态设为α0,α0∈si;
[0096]
输入“控”时,关键词,状态由α0转变为α1,输出标签“b-action”;
[0097]
输入“制”时,关键词,状态由α1转变为α2,输出标签“l-action”;
[0098]
输入“兴”时,捕获组首个字符,状态由α2转变为α3,输出标签“b-equip”;
[0099]
输入“咸”时,捕获组其它字符,状态不发生改变为α3,输出标签“i-equip”;
[0100]
输入“断”时,捕获组其它字符,状态不发生改变为α3,输出标签“i-equip”;
[0101]
输入“面”时,捕获组其它字符,状态不发生改变为α3,输出标签“i-equip”;
[0102]
输入“不”时,关键词,状态由α3转变为α4,输出标签“l”;
[0103]
输入“超”时,关键词,状态由α4转变为α5,输出标签“l”;
[0104]
输入“过”时,关键词,状态由α5转变为α6,输出标签“l”;
[0105]
输入“2”时,捕获组首个字符,状态由α6转变为α7,输出标签“b-range”;
[0106]
输入“0”时,捕获组其它字符,状态不发生改变为α7,输出标签“i-equip”;
[0107]
输入“0”时,捕获组其它字符,状态不发生改变为α7,输出标签“i-equip”;
[0108]
输入“万”时,关键词,状态由α7转变为α8,输出标签“l”;
[0109]
输入“千”时,关键词,状态由α8转变为α9,输出标签“l”;
[0110]
输入“瓦”时,关键词,状态由α9转变为α
10
,输出标签“l”。
[0111]
第四步,将所述有限状态自动机转换为具有独立表示能力的有限状态自动机,并通过矩阵秩分解和加入词向量,构建有限状态自动机双向循环神经网络。
[0112]
上述具有独立表示能力的有限状态自动机主要用于减小有限状态自动机状态转移矩阵的维度,它通过引入格外的状态数,使得电网故障处置成分识别有限状态自动机识别捕获组内容时,从捕获组内首个字符到捕获组内其它字符之间,发生一个状态转移,因此,在某一时刻只需要知道状态转移矩阵的到达状态,就能确定其输出标签。此时使用一个三维状态转移矩阵t’和一个表示到达状态到输出状态的二维矩阵o’就能够表示原有限状态自动机中状态转移矩阵的四维矩阵t,进而减小矩阵的计算量。
[0113]
将第三步中有限状态自动机转换为具有独立表示能力的有限状态自动机如图3所示。
[0114]
通过上述转换后,对于一个电网故障处置预案文本x,其每个时刻t读入的字符x
t
对应的输出标签的得分数可以通过以下公式计算:
[0115][0116][0117][0118]
其中,x
t
表示第t时刻输入的字符,t’[x
t
]表示读取到x
t
字符时对应的状态转移矩阵,o’表示到达状态与输出标签对应关系矩阵,表示矩阵元素对应位置相乘,h
t
表示t时刻的前向计算输出标签的分数,β
t
表示t时刻的后向计算输出标签的分数,c
t
表示t时刻输出每个标签对应的得分数。
[0119]
进一步采用张量秩分解技术将状态转移三维矩阵t’,分解为三个二维矩阵减少计算量,分别为输入字符表v的词向量矩阵e 和两个状态矩阵d1和d2,d1和d2则表示当前状态矩阵和到达状态矩阵。
[0120]
上述得到的词向量矩阵e只包含规则信息,将带有词信息的预训练词向量w与词向量矩阵e进行拼接处理,使输入字符表的词向量矩阵获得词的语义信息。
[0121]
所述预训练词向量w是通过对word2vec语言模型建模过程获得,使用电网故障处置预案语料库作为训练集,在word2vec语言模型建模时,通过不断自学习调整word2vec语言模型权重参数,使得word2vec语言模型能够较好地适应电网故障处置预案语料,使用训练好的word2vec语言模型权重参数作为电网调度语料字符表中字符的向量化表示。
[0122]
设置超参数θ,用该参数来决定预训练词向量w和经矩阵秩分解后得到的词向量矩阵e拼接时所占权重大小,θ越大表示预训练词向量w所占权重越小,当θ接近0时,将更多的语义信息融入到词向量矩阵e中,使得每个时刻t输入字符对应的输出标签的得分计算公式变为:
[0123]vt
=θ
·
e[x
t
] (1-θ)w[x
t
]
[0124][0125][0126][0127]
β
t-1
=(f
t-1
·
d1)
[0128][0129]
其中,x
t
表示t时刻输入的故障处置预案字符表中的字符, e[x
t
]表示x
t
在词向量矩阵e中对应的词向量,w[x
t
]表示x
t
在预训练词向量矩阵w中对应的词向量,v
t
表示拼接后的词向量,g
t
记录t时刻前向计算状态转移信息,h
t
表示t时刻输入变量前向计算得到对应输出标签的得分向量,f
t
记录t时刻后向计算状态转移信息,β
t
表示t时刻输入变量后向计算得到对应输出标签的得分向量,c
t
表示t时刻每个输出标签对应的得分。
[0130]
上述计算过程在每一次前向计算和每一次后向计算完成后分别加入非线性tanh激活函数,可以视为双向循环神经网络的前向传播计算过程,从输入到输出的传播过程引入非线性机制。在前向传播完成后接入softmax函数,将每个时刻的输出标签分数转换为概率大小,选取概率最大值对应的输出标签作为输出结果。
[0131]
通过上述过程得到了有限状态自动机双向循环神经网络,由于是先经过正则表达式转换有限状态自动机,在通过有限状态自动机变换得到,所以在不经过训练的情况下,直接用该网络进行电网故障处置文本实体识别,具备一定的识别能力。进而可以通过神经网络进行训练,进一步提升故障处置预案成分识别的准确率。
[0132]
第五步使用电网故障处置预案语料库数据对有限状态自动机双向循环神经网络进行训练。
[0133]
具体地,构建有限状态自动机双向循环神经网络训练数据集,对电网故障处置预案语料库中语料进行标记,采用bil标记方式直接对电网故障处置预案文本进行标记,此时,“b”表示预案文本中实体名词的首字符,“i”表示预案文本中实体名词的剩余部分,“l”表示非实体成分。对于不同实体类型,“b-action”和“i-action”表示动作类实体名词的首字符和剩余字符;“b-area”和“i-area”表示区域类实体名词的首字符和剩余字符;“b-equip”和“i-equip”表示设备类实体名词的首字符和剩余字符;“b-range”和“i-range”表示限值类实体名词的首字符和剩余字符。采用该标记法对电网故障处置预案文本标记,生成电网故障处置预案文本中每个字符及所属标签对,构成模型训练数据集。
[0134]
在有限状态自动机双向循环神经网络训练时,将训练集中电网故障处置预案中字符使用词向量矩阵e和预训练词向量矩阵w 拼接后形成的词向量矩阵进行转换,得到字符向量,然后将字符向量及其对应的标签对输入至有限状态自动机双向循环神经网络模型进行训练。
[0135]
由于有限状态自动机双向循环神经网络参数是通过正则表达式转化后得到的矩阵参数,在训练过程中网络可以快速收敛,经过训练后有限状态自动机双向循环神经网络模型能够对电网故障处置预案实体成分进行识别。
[0136]
上述模型在训练样本较少的情况下,由于有限状态自动机双向循环神经网络本身
蕴含了规则知识,所以依然能够有效较好的识别效果,在样本量充足的情况下,该网络有着和其它机器学习或深度学习模型相近的识别效果,进而从整体上提升了电网故障处置预案实体成分识别效果,提升了电网故障处置预案文本解析能力。
[0137]
第六步,使用训练后的有限状态自动机双向循环神经网络识别输入的电网故障处置预案文本的实体成分,并提取识别结果。
[0138]
对于预案文本:“控制长南一线功率不超过200万千瓦。”[0139]
有限状态自动机双向循环神经网络的输出结果为:
[0140]
[“b-action”,“i-action”,“b-equip”“i-equip”,“i-equip”,
ꢀ“
i-equip”,“l”,“l”,“l”,“l”,“l”,“b-range”,“i-range”,
ꢀ“
i-range”,“l”,“l”,“l”,“l”]。
[0141]
将预案文本内容与有限状态自动机双向循环神经网络模型的输出结果进行比对,根据标签结果将预案文本中对应位置的实体及其所属类型提取出来。对于上述案例可形成如下结果:
[0142]
{“action”:“控制”,“equipment”:“长南一线”,“range”:“200”}
[0143]
上述过程实现了在电网故障处置预案文本中将实体信息提取出来。采用上述方式将每条电网故障处置预案处置文本进行解析提取,可以将每个电网故障处置预案处置文本对应的处置措施关联形成一个故障处置知识图谱,在故障发生时,可以通过综合智能告警系统将故障源推送至知识图谱,通过匹配故障名称获取故障处置方式,并将故障处置方式反馈给调控人员,获取调控人员授权后,可进一步执行处置操作,实现故障快速处置,同时可以对推送的故障处置方式中所有设备进行实时监视,反馈设备状态,确保设备稳定与可控。
[0144]
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有基于神经化正则表达式的电网故障处置预案解析方法程序,所述基于神经化正则表达式的电网故障处置预案解析方法程序被处理器执行时实现如上述技术方案所述的方法的步骤。
[0145]
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献