一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于事件抽取的低压用户故障报修合并处理方法与流程

2022-04-02 09:07:21 来源:中国专利 TAG:


1.本发明涉及一种基于事件抽取的低压用户故障报修合并处理方法,属于故障报修技术领域。


背景技术:

2.随着经济快速发展,社会对电能的需求不断增长,电力用户数量也不断增多,对电网可靠性提出了更高要求。低压用户故障报修是电网企业面向用户的重要业务,同时也是后续配抢工单建立的重要来源。目前低压用户故障报修主要通过在pc端/移动端填报故障或通过服务热线进行报修,其报修数量较多,且故障描述内容与形式多样化,现有故障报修业务主要依赖人工进行逐条处理,还需对同一故障点引起的用户重复报修进行工单合并,工作量较大且效率不高。由于用户故障报修内容描述多样化以及同一故障点多用户报修导致人工处理效率局限。
3.目前对用户故障报修处理优化的研究主要在流程优化和统计分析方面,现有技术研究或从文本角度进行分析,或从配网运行状态角度进行分析,对低压用户故障事件识别针对性不强。


技术实现要素:

4.本发明所要解决的技术问题是克服现有技术的缺陷,提供一种基于事件抽取的低压用户故障报修合并处理方法。
5.为达到上述目的,本发明提供一种基于事件抽取的低压用户故障报修合并处理方法,待识别的故障报修文本批量输入构建的故障分类器,故障分类器判定所有待识别的故障报修文本是否是同一故障类型,若是则将所有待识别的故障报修文本合并处理。
6.优先地,步骤1,待识别的故障报修文本按照台区进行分组,分组共计有l组,l为正整数;赋值a=1;
7.步骤2,判断a是否小于等于l,如果是则进入步骤3,如果不是则结束运行;
8.步骤3,判断同一台区内是否存在3个以上用户上报的待识别的故障报修文本,若是则进入步骤4,若不是则进入步骤2且a的数值增加1;
9.步骤4,判断步骤3中的所有用户上报的待识别的故障报修文本是否是同种故障类型,若是则合并处理,若不是则进入步骤2且a的数值增加1,若不是同种故障类型则进入步骤2且a的数值增加1。
10.优先地,构建故障分类器,包括:
11.构建故障事件抽取模型;
12.基于故障事件抽取模型,抽取故障事件要素;
13.基于故障事件要素对已有故障报修记录中的故障报修文本进行特征选择,提取报修用户所属的配变和线路在故障时间之前一段时间内的实时运行状态,获得特征集合;
14.将特征集合输入朴素贝叶斯算法,训练获得故障分类器。
15.优先地,构建故障事件抽取模型,包括:
16.将已有故障报修记录中的故障报修文本按照特征模板进行标注,得到训练语料库;
17.将训练语料库输入crf模型进行训练,构建训练语料库和故障事件要素之间的映射关系,获得故障事件抽取模型。
18.优先地,基于故障事件抽取模型,抽取故障事件要素,包括:
19.从已有故障报修记录中的故障报修文本中筛选故障事件触发词,利用故障事件触发词定位故障报修文本中故障描述语句,将故障描述语句带入故障事件抽取模型中,识别获得故障事件要素。
20.优先地,获得特征集合,包括:
21.基于改进的tf-dfi算法对已有故障报修记录中的故障报修文本中的故障动作以及已有故障报修记录中的故障报修文本中的故障设备进行特征选择;
22.提取报修用户所属的配变和线路在故障时间之前一段时间内的实时运行状态,获得包括故障动作、故障设备和实时运行状态的特征集合。
23.优先地,基于改进的tf-dfi算法对已有故障报修记录中的故障报修文本中的故障动作以及已有故障报修记录中的故障报修文本中的故障设备进行特征选择,包括:
24.选取已有故障报修记录中的历史故障文本作为训练样本;
25.采用tf-idf算法计算各个故障动作在每个故障类型的权重;
26.采用改进tf-idf算法计算各个故障设备在每个故障类型中的权重;
27.按照权重从大到小排序,选取每个故障类型中部分故障动作,获得故障动作特征集合{v};
28.按照权重从大到小排序,选取每个故障类型中部分故障设备,获得故障设备特征集合{d};
29.其中,采用tf-idf算法计算各个故障动作在每个故障类型的权重,包括:
30.计算单个故障动作在故障类型中词频:
[0031][0032]
式中,vi为第i个故障动作,ck为训练样本所属第k个故障类型,历史故障文本是已有故障报修记录中的故障报修文本;
[0033]
计算单个故障动作的逆向频率:
[0034][0035]
计算单个故障动作的权重并进行归一化处理:
[0036][0037]
优先地,采用改进tf-idf算法计算各个故障设备在每个故障类型中的权重,包括:
[0038]
计算单个故障设备在故障类型中词频:
[0039][0040]
式中,di为第i个故障设备,vj是第j个故障动作,j∈[1,m],m为正整数,j=i,wtfv
jck
为上一步中归一化处理后单个故障动作的权重wtfv
ick

[0041][0042]
计算单个故障设备的权重:
[0043]
tifd
ick
=tfd
ick
×
idfdi。
[0044]
优先地,将特征集合输入朴素贝叶斯算法,训练获得故障分类器,包括:
[0045]
使用朴素贝叶斯算法构造故障分类器,计算特征集合中的每个特征项在各故障类型中出现的概率:
[0046][0047]
式中,特征集合中所有特征项总数为n,wi为特征集合{w}中的第i特征项;
[0048]
若第t个训练样本包含m个特征项,则wi属于故障类型ck的概率为:
[0049][0050]
基于p(t|ck)的最大值确认第t个训练样本所属故障类型。
[0051]
优先地,将所有待识别的故障报修文本合并处理,包括:
[0052]
删减所有待识别的故障报修文本直到待识别的故障报修文本的数量为一。
[0053]
本发明所达到的有益效果:
[0054]
本发明提供了一种基于事件抽取的低压用户故障报修合并处理方法,充分利用现有电网系统的有效信息,采用针对故障报修文本的事件抽取方法,对用户的故障报修文本进行故障事件要素抽取和故障类型识别,对同一台区多用户同类型重复报障进行合并处理,从而实现减少人工处理流程和工作量,提高故障抢修响应速率,进一步提高供电可靠性以及用户满意度。
附图说明
[0055]
图1是本发明的流程图;
[0056]
图2是本发明构建故障分类器的流程图;
[0057]
图3是本发明故障分类实现的逻辑图。
具体实施方式
[0058]
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0059]
一种基于事件抽取的低压用户故障报修合并处理方法,包括如下步骤,如图1:
[0060]
步骤ss1:构建故障抽取模型
[0061]
根据已有业务知识积累,将用户上报的故障报修文本梳理为设备故障、电能质量问题、安全隐患和其他停电问题四种故障类型,其次定义包含上下文特征、词性特征、设备特征、时间特征和故障动作特征的特征模板,将特征模板输入crf模型训练,形成故障事件抽取模型,故障事件抽取模型输出故障事件要素。
[0062]
故障事件要素包括故障时间、故障动作、故障设备和故障类型。
[0063]
步骤ss2:故障事件要素抽取
[0064]
从历史故障报修文本中筛选故障事件触发词,利用故障事件触发词定位故障报修文本中故障描述语句,将故障描述语句带入故障事件抽取模型识别故障事件要素。
[0065]
步骤ss3:故障类型识别
[0066]
选取历史故障报修文本,利用故障事件要素对故障报修文本进行特征选择;
[0067]
特征选择包括,基于改进的tf-dfi算法对故障报修文本中的故障动作和故障设备进行特征选择,同时提取报修用户所属的配变和线路在故障时间之前1小时内的实时运行状态,形成包含故障动作、故障设备和实时运行状态的特征集合,将该特征集合输入朴素贝叶斯算法训练出故障分类器,进而实现故障类型识别。
[0068]
实时运行状态包括线路开关分位、线路重载、配变运行状态停止、配变三相不平衡率超标、配变电压合格率超标和配变重载。
[0069]
步骤ss4:故障事件合并
[0070]
如图3所示,步骤1,待识别的故障报修文本按照台区进行分组,分组共计有l组,l为正整数;
[0071]
赋值a=1;
[0072]
步骤2,判断a是否小于等于l,如果是则进入步骤3,如果不是则结束运行;
[0073]
步骤3,判断同一台区内是否存在3个以上用户上报的待识别的故障报修文本,若是则进入步骤4,若不是则进入步骤2且a的数值增加1;
[0074]
步骤4,判断步骤3中的所有用户上报的待识别的故障报修文本是否是同种故障类型,若是则合并处理(所有用户上报的待识别的故障报修文本合并为一个故障报修文本),若不是则进入步骤2且a的数值增加1,若不是同种故障类型则进入步骤2且a的数值增加1。
[0075]
批量输入故障分类器,判定故障报修文本是否属于同一类型的故障类型,若是则对同类故障类型进行合并处理。
[0076]
故障类型分为设备故障、电能质量问题、安全隐患和其他停电问题,每个类型都有相关典型故障报修文本,见表1。
[0077]
表1
[0078][0079]
特征模板包括上下文特征、词性特征、故障设备特征、故障时间特征和故障动作特征;特征模板是crf结合所需识别的故障报修文本的长度,将前后字的信息及特征信息作为组合概率的信息集合。采用crf特征模板通用的上下文特征和crf特征模板通用的词性特征,结合故障报修文本特有的故障设备特征、故障时间特征和故障动作特征,构建特征模板。
[0080]
构建故障设备特征,包括:
[0081]
为降低识别复杂度,提高识别正确率,构建了配网通用设备字典,并对故障文本中的设备进行标注。调用thulac中文词法分析工具包从已有故障报修记录中的故障报修文本中获得名词列表,筛选得出配网通用设备字典。配网通用设备字典中,将电表、变压器、电线和开关等词性单独标注为device,对家用电器等维修范围外的设备标注为outofdevice,获得故障设备特征。
[0082]
构建故障动作特征,包括:
[0083]
调用thulac中文词法分析工具包从已有故障报修记录中的故障报修文本中获得动词列表与形容词列表,筛选标注与故障相关的常用描述动词,如停电、跳闸、冒火、冒烟、异常和不稳定等,将这些常用描述动词进行归纳与整理,从而构建触发词集合,获得故障动作特征。
[0084]
构建故障时间特征,包括:
[0085]
故障时间一般为即时上报,采用正则表达式对常用时间表述词进行抽取和标注,抽取范围包括星期表达词(如周一和上周一)、日期表达词(如今日、昨日、上午、下午和晚上)、时间表达式(如7:45和十分钟前),标注词为time,获得故障时间特征。
[0086]
进行crf模型训练
[0087]
将已有故障报修记录中的故障报修文本按照前述特征模板进行标注,得到训练语料库,将训练语料库输入crf进行模型训练。本实施例中crf模型训练过程是遵循经典算法,且有crf 和tensorflow等开源软件支撑,本发明采用crf 训练,这里不再详细介绍。
[0088]
基于故障事件抽取模型,抽取故障事件要素,具体包括:
[0089]
针对已有故障报修记录中的故障报修文本,将其中待抽取目标句区分出来,从而便于更精确地进行故障事件要素识别。定位方法采用故障事件触发词定位,即将步骤ss1中特征模板中的故障动作特征作为故障事件触发词,见表2,将故障报修文本中包含特定故障事件触发词的语句,作为待抽取的故障事件要素的目标句,故障事件要素包括故障时间、故障动作、故障设备和故障类型。
[0090]
表2
[0091][0092]
使用训练好的故障事件抽取模型对历史故障报修文本进行故障事件要素识别,预先去除常见停用词,并对故障时间进行统一时间标准转换,抽取结果使用json格式描述,示例如下:晚上八点2#分支线断路器跳闸。
[0093]
{"trigger":["跳闸"],"argument":{"device":"2#分支线断路器","time","2020-3-2 20:00"}选取历史故障文本集合
[0094]
选取已有故障报修记录中的历史故障文本作为训练样本,并根据4个故障类型标注为ck(k=1,2,3,4),利用步骤ss2进行包括故障时间、故障动作、故障设备和故障类型的故障事件要素抽取。
[0095]
采用tf-idf算法计算各个故障动作在每个故障类型的权重
[0096]
使用vi代表第i个故障动作,计算单个故障动作在故障类型中词频:
[0097][0098]
计算单个故障动作的逆向频率:
[0099][0100]
计算单个故障动作的权重并进行归一化处理:
[0101][0102]
采用改进tf-idf算法计算各个故障设备在每个故障类型中的权重,
[0103]
使用dj代表第j个故障设备,ck代表第k个故障类型。
[0104]
计算单个故障设备在故障设备类型中词频:
[0105][0106]di
为第i个故障设备,vj是第j个故障动作,j∈[1,m],m为正整数,j=i,wtfv
jck
为上一步中归一化处理后单个故障动作的权重wtfv
ick

[0107]
计算单个故障设备的逆向频率:
[0108][0109]
计算单个故障设备特征权重:
[0110]
tifd
ick
=tfd
ick
×
idfdi。
[0111]
获取特征集合:按照权重从大到小排序,分别获取每个故障类型前70%故障动作特征集合{v}以及故障设备特征集合{d}。
[0112]
以电网营销系统和负荷控制系统中的台区-配变-用户号映射关系为基础数据,获得上报该故障的用户所属的配变与线路,同时获取配变和线路在故障发生前1小时内的实时运行状态作为设备状态特征集合{et},实时运行状态包括线路开关分位et1、线路重载et2、配变运行状态停止et3、配变三相不平衡率超标et4、配变电压合格率超标et5和配变重载et6,若故障时间之前存在异常的实时运行状态,则对故障报修文本进行对应特征标注。将故障动作特征集合{v}、故障设备特征集合{d}以及设备状态特征集合{et}合并获得完整特征集合{w}。构造故障分类器:
[0113]
以上一步特征集合作为输入,使用朴素贝叶斯算法构造故障分类器,定义特征总数为n,计算特征集合中每个特征项在各故障类型中出现的概率。
[0114][0115]
若第t个训练样本包含m个特征项,则wi属于故障类型ck的概率为:
[0116][0117]
计算p(t|ck)最大值即可确认该故障文本t所属故障类型类别。
[0118]
本发明具体故障分类执行过程,抽取故障设备和故障动作,根据故障时间获取1小时前用户所属配变及线路的异常特征,进而确认该条故障报修文本的特征集合,向故障分类器输入特征集合,得出故障类型所属分类。
[0119]
针对同一台区多用户重复进行故障上报的,采用如下步骤进行合并处理:
[0120]
流程图见图3,以1小时为时间窗口,循环读取故障时间在1小时内的故障报修文本。以电网营销系统和负荷控制系统中的台区-配变-用户号映射关系为基础数据,对获取到的1小时内数据按台区进行分组,若同一台区内存在3个以上故障报修文本且经过故障分类器判别的所属故障类型相同,则将故障报修文本合并为同一故障。
[0121]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献