一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于改进Jieba分词的配电网检修文本信息提取方法与流程

2022-02-22 02:59:55 来源:中国专利 TAG:

基于改进jieba分词的配电网检修文本信息提取方法
技术领域
1.本发明属于自然语言处理在电力系统应用技术领域,涉及配电网运维检修文本信息提取方法,尤其是一种基于改进jieba分词的配电网检修文本信息提取方法。


背景技术:

2.随着信息化的快速发展,电网企业各业务积累的数据量越来越大。在配电网的检修环节,积累了大量的原始数据,以文本的形式保存,包含检修记录、试验记录,巡检记录等信息,蕴含着丰富的电力信息,对指导运维检修工作有着重要的意义。文本处理是文本分析理解的基础,处理结果可以直接影响到文本分析的准确率。词是构成语句的基本单元,分析语句前需要先分词,将文本中词切分出来作为特征值。对于英文而言,分词相对比较简单,因为英文语句中词与词之间有明显的分隔符。中文语句结构复杂,词语之间没有分隔符,而且同一个词在不同的语句和不同的文本中意义不同。配电网巡检文本语句结构复杂,词语之间没有明显的分隔标记,需要进行分词来理解语句。分词是文本处理的基础,词的切分准确性影响文本处理结果,然而,由于中文文本半结构化数据的复杂性,大量的电力文本无法直接用于智能分析的学习过程。
3.jieba中文分词是一款广泛使用的分词工具,基于python的第三方分词库。由于电力领域的特定性,直接使用jieba分词电力词汇得到的结果无法满足电力文本分词的需要,极易出现关键词被拆分或部分词汇合并的情况,影响了文本预处理的精确度。
4.因此,如何当前结合电力文本特点,对jieba分词工具进行改进,实现配电网巡检记录文本的信息挖掘技术研究十分重要和迫切。


技术实现要素:

5.本发明的目的在于克服现有技术的不足,提出一种基于改进jieba分词的配电网检修文本信息提取方法,能够根据配电网检修记录文本数据特点,利用tf-idf算法识别电力领域专有词汇,完善jieba词库,进而实现配电网巡检记录的文本有效分词。
6.本发明解决其现实问题是采取以下技术方案实现的:
7.一种基于改进jieba分词的配电网检修文本信息提取方法,括以下步骤:
8.步骤1、分析配电网巡检文本特征;
9.步骤2、根据步骤1的配电网巡检文本特征,对配电网巡检文本进行清洗;
10.步骤3、基于所述步骤2数据清洗之后的配电网巡检文本,利用jieba分词工具进行一次分词,统计词频并形成电力巡检文本关键词表。
11.步骤4、针对配电网巡检文本,利用tf-idf算法对步骤3所形成的电力巡检文本关键词表进行完善;
12.步骤5、将步骤4中利用tf-idf算法获得完善后的电力巡检文本关键词表加载至jieba词典,完成jieba词典中关键词表与停用词表的更新。
13.而且,所述步骤1的配电网巡检文本特征包括:
14.(1)巡检文本结构不一致;
15.(2)巡检文本长度有差别;
16.(3)巡检文本包含特殊意义字符;
17.(4)巡检文本部分词汇重复度高。
18.而且,所述步骤2的具体步骤包括:
19.(1)删除重复记录,减少不同人员书写习惯不同造成的差异;
20.(2)删除空白记录,缩小部分文本的无效长度;
21.(3)删除文本中含有的标点符号;
22.(4)删除无意义词汇;
23.而且,所述步骤3的具体步骤包括:
24.(1)通过jieba一次分词,抽样出部分原始文本与其分词数据,观察识别分词结果;
25.(2)对比原始的文本,提取出错分的词,构造成关键词表;
26.(3)对分词文本进行数值上的统计;
27.(4)最后,将统计得到的高频词加入到关键词表中,通过jieba分词,建立电力巡检文本关键词表。
28.而且,所述步骤4的具体步骤包括:
29.(1)计算tf
30.tf表示某个电力词汇在整篇文章中出现的概率,其计算公式为:
[0031][0032]
其中,n
ij
为配电网巡检特征词在文中出现的次数,∑kn
kj
则是文本中所有特征词的个数;tf
ij
计算的结果即为某个电力特征词的词频;
[0033]
(2)计算idf
[0034]
idf表示逆向文本频率,其计算公式为:
[0035][0036]
其中,n表示语料库中全部文章的数量,1 n
power
表示文章中具有明显特征的词语power的数量,为防止该词语在语料库中不存在,即分母为0,使用1 n
power
作为分母,idf
ij
表示逆向文本频率。
[0037]
(3)计算tf-idf
[0038]
其计算公式为:
[0039]
tf-idf
ij
=tf
ij
·
idf
ij (3)
[0040]
tf-idf的值是由词频tf
ij
和逆向文本词频idf
ij
的乘积得到的,tf-idf的值越大,表示该电力特征词对这个文本的重要性越大。
[0041]
(4)利用tf-idf算法进行关键词提取后,形成完善后的电力巡检文本关键词表,并完善jieba词库,提高jieba词典在电力领域的分词能力。
[0042]
而且,所述步骤5的具体步骤包括:
[0043]
(1)jieba分词基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词
情况所构成的有向无环图;
[0044]
(2)采用动态规划查找语料库与关键词表的最大概率路径,找出基于词频的最大切分组合。
[0045]
(3)通过更新后的词表,重新使用jieba进行分词,保证词表中的词都能被正确分类,提高针对电力词汇的识别切分准确率。
[0046]
而且,在所述步骤5之后还包括如下步骤:
[0047]
在完成步骤5的关键词表与停用词表的更新后,重新使用jieba进行分词,加入关键词表,保证词表中的词都能被正确分类,并不断迭代,进行2~3次关键词表与停用词表的更新。
[0048]
本发明的优点和有益效果:
[0049]
本发明基于jieba分词工具,对配电网检修记录文本预处理技术进行研究,提出利用tf-idf算法,进行电力特定领域词语识别,并将识别到的电力词语加入jieba词库,改进jieba分词工具,使用了领域的停用词表和关键词表,更多重要的词被保留,在构造文本特征的时候,与直接分词相比保留了更多的特征,实现配电网巡检记录的文本有效分词。
附图说明
[0050]
图1为本发明的处理流程图。
具体实施方式
[0051]
以下结合附图对本发明实施例作进一步详述:
[0052]
一种基于改进jieba分词的配电网检修文本信息提取方法,如图1所示,包括以下步骤:
[0053]
步骤1、分析配电网巡检文本特征;
[0054]
所述步骤1的配电网巡检文本特征包括:
[0055]
(1)巡检文本结构不一致
[0056]
配电网巡检记录文本涉及的内容一般包括书写人员及电力公司信息、站房的相关内容、检修人员信息及建议对策等,且由于书写人员习惯不同导致文本的标题、段落格式、与文本结构的不一致。
[0057]
(2)巡检文本长度有差别
[0058]
由于各种隐患问题和检修方法的复杂性不同,以及书写人员记录详细程度的差异,各个故障文本长度差别很大。
[0059]
(3)巡检文本包含特殊意义字符。
[0060]
大部分的巡检文本语句中夹杂着有特殊意义的字符、量化单位和数字,如“so2质量分数为1.41
×
10-6,h2s质量分数为0.5
×
10-6”,这些包含量化信息和类型信息的字段很有意义,但是它所包含的信息在文本处理过程中容易丢失。
[0061]
(4)巡检文本部分词汇重复度高。
[0062]
巡检文本的描述方式基本都是记录时间、地点、设备对象、设备状态等信息。
[0063]
在本实施例中,与一般的中文文本相比,配电网巡检记录文本面向电力设备和环境,记录巡检过程中的设备信息和环境状况,具有不同于一般文本的特点,需要对记录文本
进行分析。
[0064]
步骤2、根据步骤1的配电网巡检文本特征,对配电网巡检文本进行清洗;
[0065]
所述步骤2的具体步骤包括:
[0066]
(1)删除重复记录,减少不同人员书写习惯不同造成的差异;
[0067]
(2)删除空白记录,缩小部分文本的无效长度;
[0068]
(3)删除文本中含有的标点符号;
[0069]
(4)删除无意义词汇,例如介词、语气词等。这些词对理解文本没有实际意义,应去除。
[0070]
在本实施例中,配电网巡检记录文本处理之前,需要对语料文本进行一些预处理,包括删除重复记录、空白记录等无意义记录。文本中含有标点符号、介词、语气词等,这些词对理解文本没有实际意义,应从分词结果中去除,这些词称之为停用词。从而提高对语句的理解和文本的处理效率、准确率。
[0071]
步骤3、基于所述步骤2数据清洗之后的配电网巡检文本,利用jieba分词工具进行一次分词,统计词频并形成电力巡检文本关键词表。
[0072]
所述步骤3的具体步骤包括:
[0073]
(1)通过jieba一次分词,抽样出部分原始文本与其分词数据,观察识别分词结果;
[0074]
jieba分词工具基于前缀词典dict.txt,应用中不能切分的未登录新词,可以修改或增加词典。自定义词典格式和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,词频省略时使用自动计算能保证分出该词的词频。利用jieba指定维基百科通用领域词典,切分词语。
[0075]
(2)对比原始的文本,提取出错分的词,构造成关键词表;
[0076]
虽然jieba有新词识别能力,具备识别错分词语的功能,但是自行对比提取错分词语可以保证更高的正确率。
[0077]
(3)对分词文本进行数值上的统计;
[0078]
由于电力数据具有领域特性,所以对于高频词,需要额外的关注。
[0079]
(4)最后,将统计得到的高频词加入到关键词表中,通过jieba分词,建立电力巡检文本关键词表。
[0080]
在本实施例中,jieba分词工具基于前缀词典dict.txt,应用中不能切分的未登录新词需要修改或增加词典,同时用户也可以自定义词典。开发者可以指定自定义的词典,切分jieba词典中未登陆词。虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率。自定义词典格式和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,词频省略时使用自动计算能保证分出该词的词频。
[0081]
jieba一次分词后抽样出部分原始文本与其分词数据,观察识别分词结果,对比原始的文本,提取出错分的词,构造成关键词表。然后对分词文本进行数值上的统计,由于电力数据具有领域特性,所以对于高频词,需要进行识别,并将其加入到关键词表中。
[0082]
本发明通过jieba一次分词后,抽样出部分原始文本与其分词数据,观察识别分词结果。对比原始的文本,提取出错分的词,构造成关键词表。然后对分词文本进行数值上的统计,由于电力数据具有领域特性,所以对于高频词,需要额外的关注。最后,对于高频词,将其加入到关键词表中。
[0083]
步骤4、针对配电网巡检文本,利用tf-idf算法对步骤3所形成的电力巡检文本关键词表进行完善;
[0084]
所述步骤4的具体步骤包括:
[0085]
(1)计算tf
[0086]
tf表示某个电力词汇在整篇文章中出现的概率,其计算公式为:
[0087][0088]
其中,n
ij
为配电网巡检特征词在文中出现的次数,∑kn
kj
则是文本中所有特征词的个数。tf
ij
计算的结果即为某个电力特征词的词频。
[0089]
(2)计算idf
[0090]
idf表示逆向文本频率,用来衡量某个电力词在整个语料库中的频率,为剔除掉文档中一些经常遇到但却不重要的词语同时也能够保留一些特征明显的词语,其计算公式为:
[0091][0092]
其中,n表示语料库中全部文章的数量,1 n
power
表示文章中具有明显特征的词语power的数量,为防止该词语在语料库中不存在,即分母为0,使用1 n
power
作为分母,idf
ij
表示逆向文本频率。
[0093]
(3)计算tf-idf
[0094]
tf-idf算法的主要目的在于如果某个字或词在巡检文本中出现的次数很高,而在其它文本中出现的次数很低,则说明该字或者词具有明显的特征,那么该字或者词就能够作为电力巡检关键词,其计算公式为:
[0095]
tf-idf
ij
=tf
ij
·
idf
ij (3)
[0096]
tf-idf的值是由词频tf
ij
和逆向文本词频idf
ij
的乘积得到的,tf-idf的值越大,表示该电力特征词对这个文本的重要性越大。
[0097]
(4)利用tf-idf算法进行关键词提取后,形成完善后的电力巡检文本关键词表,并完善jieba词库,提高jieba词典在电力领域的分词能力。
[0098]
在本实施例中,利用tf-idf算法对所述步骤3建立的词表进行完善。tf-idf是一种用于信息检索与文本挖掘的常用加权技术,tf-idf是一种统计方法,用以评估一个字词对于一个文件集或者一个语料库的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。利用tf-idf可以进行关键词提取,完善jieba词库,提高系统的分词准确率。
[0099]
步骤5、将步骤4中利用tf-idf算法获得完善后的电力巡检文本关键词表加载至jieba词典,完成jieba词典中关键词表与停用词表的更新;
[0100]
所述步骤5的具体步骤包括:
[0101]
(1)jieba分词基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;
[0102]
(2)采用动态规划查找语料库与关键词表的最大概率路径,找出基于词频的最大
切分组合。
[0103]
(3)通过更新后的词表,重新使用jieba进行分词,保证词表中的词都能被正确分类,提高针对电力词汇的识别切分准确率。
[0104]
在本实施例中,利用tf-idf算法从电力巡检文本中提取关键词后,将关键词表加载至jieba词典中,提高jieba词典在电力领域的分词能力。基于完善词典之后的jieba分词具有更好的分词效果。jieba分词首先基于前缀词典实现高效的词图扫描,然后生成句子中汉字所有可能成词情况所构成的有向无环图,并且采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。通过更新后的词表,提高针对电力词汇的识别切分准确率。
[0105]
步骤6、在完成步骤5的关键词表与停用词表的更新后,重新使用jieba进行分词,加入关键词表,保证词表中的词都能被正确分类,并不断迭代,进行2~3次关键词表与停用词表的更新。
[0106]
需要强调的是,本发明所述实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献