一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种融合文本结构信息和语义信息的文本关键词抽取方法与流程

2021-11-15 18:28:00 来源:中国专利 TAG:


1.本发明涉及一种融合文本结构信息和语义信息的文本关键词抽取方法,具体是涉及将文本标题作为文本首段,按照自然段重要性调整文本结构,并采用分段叠加候选关键词的结构权重和语义权重的方法进行关键词抽取。


背景技术:

2.文本特征抽取是自然语言处理领域最基础也是最重要的问题之一,主要方法包括基于统计的文本特征抽取和基于神经网络的文本特征抽取。基于统计的方法有tf

idf,textrank和rake等。
3.tf

idf利用词频tf(term frequency)与逆文档频率idf(inverse document frequency)的乘积计算词权重。这种方法简单有效,但需要依赖文本集,无法只对单篇文本进行计算,并而文本集的质量是决定关键词抽取准确程度的关键因素。
4.textrank是由网页重要性排序算法pagerank改进的图排序算法。通过把文本划分成词的连接图,用词的相似度作为边的权重,通过迭代词的textrank值,最后抽取词的权重排名。该方法需循环迭代进行收敛,复杂性较高。
5.rake算法的特色是设计独特的停用词表抽取英文词组而非单词,计算词频和词共现次数的比值作为权重,因此应用在英文文本中的准确度比在中文文本中更高。
6.基于神经网络的文本特征抽取主要思路是利用神经网络训练后的词向量表示文本词语,而后通过聚类算法对词向量进行聚类,选择top

n个聚类中心作为文本关键词。词向量模型的训练需要海量的语料才能达到较好的效果,因此复杂性较高。


技术实现要素:

7.本发明的目的在于针对现有的tfidf,textrank以及rake的不足,提出一种融合文本结构信息和语义信息的文本关键词抽取方法,具体是涉及将文本标题作为文本首段,按照自然段重要性调整文本结构,并采用分段叠加候选关键词的结构权重和语义权重的方法进行关键词抽取。该方法可以只针对单篇文本进行计算,不涉及领域文本集辅助计算,无需循环迭代过程,也无需大规模训练集。
8.为达到上述目的,本发明采用下述技术方案:
9.一种融合文本结构信息和语义信息的文本关键词抽取方法,具体步骤如下:
10.1)对单篇文本的段落进行重新组合,构成新文本;
11.2)对新文本进行预处理,包括分词、词性标注和去除停用词,保留名词和动词作为候选关键词;
12.3)计算每个候选关键词的结构权重;
13.4)计算每个候选关键词的语义权重;
14.5)根据步骤3)所得的结构权重和步骤4)所得的语义权重,计算每个候选关键词的权重,并选择权重最高的k个候选关键词作为文本的关键词。
15.所述步骤1)中对文本的段落进行重新组合的方法如下:原文本的题目作为新文本的第一段;原文本首尾两段分别作为新文本的第二段和第三段;原文本的其他段按照原顺序排列在后面,新文本共计n段。
16.所述步骤3)中计算每个候选关键词的结构权重;对于一个候选关键词v
i
,其结构权重str(v
i
,k)计算公式如下:
[0017][0018]
其中,i≤m,m为该文本中候选关键词的个数;k表示文本的第k段(k=1

n),freq(v
i
,k)表示候选关键词v
i
在第k段的词频。
[0019]
所述步骤4)中计算每个候选关键词的语义权重;对于一个候选关键词v
i
,其语义权重sem(v
i
,k)表示在第k段中,候选关键词v
i
与其他候选关键词v
j
共现的次数,其中i≤m,j≤m。
[0020]
所述步骤5),计算每个候选关键词的权重;对于一个候选关键词v
i
,其权重计算公式如下:
[0021][0022]
本发明的文本关键词权重计算方法与现有的技术相比较,具有如下突出优点:
[0023]
本发明方法无需领域文本集,仅需对单篇文本进行关键词的抽取;无需词权重的循环迭代收敛过程及大规模训练集的训练过程。因此该方法操作简单且效果好。
附图说明
[0024]
图1是本发明的一种融合文本结构信息和语义信息的文本关键词抽取方法的流程图。
具体实施方式
[0025]
以下结合附图对本发明的实施例作进一步的说明。
[0026]
本发明的实施例,从知网(https://www.cnki.net/)搜索下载10个领域的共计1000篇文章,每个领域100篇。10个领域为:机器学习,计算机视觉,系统结构,天文学,物理,音乐,电力,经济,公共卫生和地理。每篇下载的论文均有文章自带的关键词作为评价指标。
[0027]
如图1所示,一种融合文本结构信息和语义信息的文本关键词抽取方法,具体步骤如下:
[0028]
1)对单篇文本的段落进行重新组合,构成新文本;将原文本的题目作为新文本的第一段;原文本首尾两段分别作为新文本的第二段和第三段;原文本的其他段按照原顺序排列在后面,新文本共计n段。
[0029]
2)对新文本进行预处理,包括分词、词性标注和去除停用词,保留名词和动词作为候选关键词;
[0030]
3)计算每个候选关键词的结构权重;对于一个候选关键词v
i
,其结构权重str(v
i
,k)计算公式如下:
[0031][0032]
其中,i≤m,m为该文本中候选关键词的个数;k表示文本的第k段(k=1

n),freq(v
i
,k)表示候选关键词v
i
在第k段的词频。
[0033]
4)计算每个候选关键词的语义权重;对于一个候选关键词v
i
,其语义权重sem(v
i
,k)表示在第k段中,候选关键词v
i
与其他候选关键词v
j
共现的次数,其中i≤m,j≤m。
[0034]
5)根据步骤3)所得的结构权重和步骤4)所得的语义权重,计算每个候选关键词的权重,对于一个候选关键词v
i
,其权重计算公式如下:
[0035][0036]
选择权重最高的k个候选关键词作为文本的关键词。
[0037]
以每篇论文自带的关键词作为标准集。由于每篇论文自带的关键词数量不是固定的,因此将准确度指标定义为:tf

idf,rake,textrank和本发明抽取的top

k个关键词全部属于关键词标准集的百分比。分别计算10个领域的准确度。表1表示四种方法抽取的top

5个关键词的准确度。表2表示四种方法抽取的top

10个关键词的准确度。
[0038]
表1.四种方法的top

5关键词的准确度
[0039][0040]
表2.四种方法的top

10关键词的准确度
[0041][0042]
由表1和表2可见:tf

idf会受领域文本集中其他文本的影响。本次实验在知网中搜索的是具有较大范围的领域,领域文本集内文本相似度不够高,所以导致idf计算不够准确。rake方法抽取关键词在中文文本中效果欠佳。textrank效果较好,但循环迭代计算较为复杂。本发明的方法准确度最高,并且随着抽取的关键词数量增加,准确度也逐步提高。
[0043]
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献