一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于文本分词和统计校验的封面自动生成系统及方法与流程

2021-12-15 03:06:00 来源:中国专利 TAG:

技术特征:
1.一种基于文本分词和统计校验的封面自动生成方法,其特征在于,包括如下步骤:s1:获取检修申请票文本文件;s2:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;s3:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回s2调整分词算法;s4:调用封面专家库将解析结果自动汇总生成检修申请票封面。2.根据权利要求1所述的基于文本分词和统计校验的封面自动生成方法,其特征在于,所述s2具体为:s201、根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;s202、对检修申请票文本进行数据清洗;s203、采用最大匹配算法结合字典进行文本切分,并存储分词结果;s204、基于统计规则对分词结果进行统计校验:首先设分词字段为m1,m2,

,m
m
,通过s种切分方法将字段切分为词s
1,1
,s
1,2
,s
l,k1
,

,s
s,1
,s
s,2
,s
s,ks
,定义每种分词概率式中p(s
i,j
)为s
i,j
在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。3.根据权利要求1所述的基于文本分词和统计校验的封面自动生成方法,其特征在于,所述s3包括四个步骤:s301、操作字提取;s302、厂站标识;s303、电压等级判断;s304、设备类型判断。4.一种基于文本分词和统计校验的封面自动生成系统,其特征在于,包括:数据获取模块:获取检修申请票文本文件;分词保存模块:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;解析模块:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回s2调整分词算法;生成模块:调用封面专家库将解析结果自动汇总生成检修申请票封面。5.根据权利要求4所述的基于文本分词和统计校验的封面自动生成系统,其特征在于,所述分词保存模块包括:词典定义模块:根据检修申请票工作内容、停电设备的业务逻辑和调度综合命令术语,进行检修票文本的词典定义,形成厂站、电压、设备、操作字典;数据清洗模块:对检修申请票文本进行数据清洗;切分模块:采用最大匹配算法结合字典进行文本切分,并存储分词结果;校验模块:基于统计规则对分词结果进行统计校验:首先设分词字段为m1,m2,

,m
m
,通过s种切分方法将字段切分为词s
1,1
,s
1,2
,s
l,k1
,

,s
s,1
,s
s,2
,s
s,ks
,定义每种分词概率
式中p(s
i,j
)为s
i,j
在申请票文本中出现的概率,从s种切分方法中返回切分频率最大的切分结果,其中m,s,ks,i,j均为自然数。6.根据权利要求4所述的基于文本分词和统计校验的封面自动生成系统,其特征在于,所述解析模块包括:提取模块:操作字提取;标识模块:厂站标识;电压判断模块:电压等级判断;设备判断模块:设备类型判断。7.一种实现权利要求1

3任一项所述基于文本分词和统计校验的封面自动生成方法的信息数据处理终端。8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1

3任一项所述的基于文本分词和统计校验的封面自动生成方法。

技术总结
本发明公开了一种基于文本分词和统计校验的封面自动生成系统及方法,属于电力系统调度自动化技术领域,其特征在于,包括如下步骤:S1:获取检修申请票文本文件;S2:对检修申请票文本进行分词,保存检修内容和停电范围分词结果;S3:对分词结果进行解析和模型关联,获得结构化对象;当解析不成功时,返回S2调整分词算法;S4:调用封面专家库将解析结果自动汇总生成检修申请票封面。本发明应用计算机技术,采用最大匹配的文本分词方法,对检修内容和停电范围进行提取和模型关联,通过统计规则进行校验,确保分词结果符合调度规范,然后申请票系统调用专家库根据模型化的检修设备信息自动生成检修申请票封面。生成检修申请票封面。生成检修申请票封面。


技术研发人员:李海科 梁刚 梁程 杨要中 王钰 白天予 徐坤 尚梦楠 张威 王群 虎挺昊 党旭鑫 张少伟 匙博恒 孙华凯 马浩然 何志轩 张发 马占军 田圳
受保护的技术使用者:国家电网有限公司
技术研发日:2021.08.30
技术公布日:2021/12/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献