一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于文本分词和统计校验的封面自动生成系统及方法与流程

2021-12-15 03:06:00 来源:中国专利 TAG:


1.本发明属于电力系统调度自动化技术领域,特别是涉及一种基于文本分词和统计校验的封面自动生成系统及方法。


背景技术:

2.对于同时有多个现场的检修工作,使用检修申请票封面是调度生产管理中一种防止误操作的有效安全措施,随着电网规模的增大和综合检修程度的提高,检修申请票封面使用频次日益增加。一般地,同时有多个现场的检修工作较为复杂,检修申请票封面通常由有经验的调度人员和运行方式人员编制和层层校核。这种依靠人工编制的方法工作量较大,且易出现漏票现象,存在一定安全隐患。


技术实现要素:

3.技术方案,为了解决上述背景技术中的技术问题:提供一种基于文本分词和统计校验的封面自动生成系统及方法,应用计算机技术,采用最大匹配的文本分词方法,对检修内容和停电范围进行提取和模型关联,同时,通过统计规则进行校验,确保分词结果符合调度规范,然后申请票系统调用专家库根据模型化的检修设备信息自动生成检修申请票封面。
4.本发明的第一目的是提供一种基于文本分词和统计校验的封面自动生成方法,包括:
5.s1:获取检修申请票文本文件;
6.s2:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;
7.s3:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回s2调整分词算法;
8.s4:调用封面专家库将解析结果自动汇总生成检修申请票封面。
9.优选地,所述s2具体为:
10.s201、根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;
11.s202、对检修申请票文本进行数据清洗;
12.s203、采用最大匹配算法结合字典进行文本切分,并存储分词结果;
13.s204、基于统计规则对分词结果进行统计校验:首先设分词字段为m1,m2,

,m
m
,通过s种切分方法将字段切分为词s
1,1
,s
1,2
,s
l,k1
,

,s
s,1
,s
s,2
,s
s,ks
,定义每种分词概率式中p(s
i,j
)为s
i,j
在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
14.优选地,所述s3包括四个步骤:
15.s301、操作字提取;
16.s302、厂站标识;
17.s303、电压等级判断;
18.s304、设备类型判断。
19.本专利的第二发明目的是提供一种基于文本分词和统计校验的封面自动生成系统,包括:
20.数据获取模块:获取检修申请票文本文件;
21.分词保存模块:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;
22.解析模块:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回s2调整分词算法;
23.生成模块:调用封面专家库将解析结果自动汇总生成检修申请票封面。
24.优选地,所述分词保存模块包括:
25.词典定义模块:根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;
26.数据清洗模块:对检修申请票文本进行数据清洗;
27.切分模块:采用最大匹配算法结合字典进行文本切分,并存储分词结果;
28.校验模块:基于统计规则对分词结果进行统计校验:首先设分词字段为m1,m2,

,m
m
,通过s种切分方法将字段切分为词s
1,1
,s
1,2
,s
l,k1
,

,s
s,1
,s
s,2
,s
s,ks
,定义每种分词概率式中p(s
i,j
)为s
i,j
在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
29.优选地,所述解析模块包括:
30.提取模块:操作字提取;
31.标识模块:厂站标识;
32.电压判断模块:电压等级判断;
33.设备判断模块:设备类型判断。
34.本专利的第三发明目的是提供一种实现上述基于文本分词和统计校验的封面自动生成方法的计算机程序。
35.本专利的第四发明目的是提供一种实现上述基于文本分词和统计校验的封面自动生成方法的信息数据处理终端。
36.本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于文本分词和统计校验的封面自动生成方法。
37.本发明的优点及积极效果为:
38.采用本发明的技术方案,能够对检修申请票的工作内容和停电范围进行提取和模型关联后自动生成检修申请票封面,省去了人工手动编制,提高了效率;同时能够减少人工编制过程中的漏票现象,确保了调度生产安全。
附图说明
39.图1为本发明优选实例的流程图;
40.图2为本发明优选实例的生成结果;
具体实施方式
41.为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
42.请参阅图1至图2,具体方案为:
43.一种基于文本分词和统计校验的封面自动生成方法,包含下列步骤:
44.步骤1:获取检修申请票文本文件;
45.步骤2:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;具体包括如下四个环节:
46.(1)根据检修申请票工作内容和停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;(2)对检修申请票文本进行数据清洗;(3)采用最大匹配算法结合词典进行文本切分并存储分词结果;(4)基于统计规则对分词结果进行统计校验:首先设分词字段为m1,m2,

,m
m
,通过s种切分方法将字段切分为词s
1,1
,s1,2,s
l,k1
,

,s
s,1
,s
s,2
,s
s,ks
,定义每种分词概率式中p(s
i,j
)为s
i,j
在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
47.步骤3:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回步骤2调整分词算法;步骤3是将文本分词结果解析为“厂站 电压 设备 操作”结构,包括四个步骤:(1)操作字提取;(2)厂站标识;(3)电压等级判断;(4)设备类型判断。
48.步骤4:检修申请票系统调用封面专家库将解析结果自动汇总生成检修申请票封面。
49.下面以“杨北路110kv北袁122开关及线路检修”和“110kv北袁线检修”两张检修申请票作进一步的示例说明。
50.步骤1:获取检修申请票文本:“杨北路110kv北袁122开关及线路检修”和“110kv北袁线检修”。
51.步骤2:自定义字典有厂站字典d1{杨北路,袁家河,...,航空};操作字典d2{检修,备用,

,退重合闸};设备字典d3{开关,线路,

,开关及线路};电压等级字典d4{10kv,35kv,

,220kv};
52.步骤3:采用最大匹配算法结合自定义词典将申请票文本分词为{杨北路、北袁122,、开关及线路、检修}和{110kv、北袁线、检修};
53.步骤4:对分词结果解析结构化为“杨北路/110kv/北袁122开关及线路/检修”和“110kv/北袁线/检修”。
54.步骤5:检修申请票系统调用封面专家库将解析结果判定为同一停电范围多个检修现场类型,自动汇总生成检修申请票封面。
55.一种基于用采数据的配电网故障处理系统,包括:
56.数据获取模块:获取检修申请票文本文件;
57.分词保存模块:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;所述分词保存模块包括:
58.词典定义模块:根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令
术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;
59.数据清洗模块:对检修申请票文本进行数据清洗;
60.切分模块:采用最大匹配算法结合字典进行文本切分,并存储分词结果;
61.校验模块:基于统计规则对分词结果进行统计校验:首先设分词字段为m1,m2,

,m
m
,通过s种切分方法将字段切分为词s
1,1
,s
1,2
,s
l,k1
,

,s
s,1
,s
s,2
,s
s,ks
,定义每种分词概率式中p(s
i,j
)为s
i,j
在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。
62.解析模块:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回s2调整分词算法;所述解析模块包括:提取模块:操作字提取;标识模块:厂站标识;电压判断模块:电压等级判断;设备判断模块:设备类型判断。
63.生成模块:调用封面专家库将解析结果自动汇总生成检修申请票封面。
64.一种实现上述基于文本分词和统计校验的封面自动生成方法的信息数据处理终端。
65.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于文本分词和统计校验的封面自动生成方法。
66.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
67.以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献