一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

新闻关键词的抽取方法、装置、设备及存储介质与流程

2021-10-24 13:02:00 来源:中国专利 TAG:抽取 装置 决策 关键词 智能


1.本发明涉及智能决策领域,尤其涉及一种新闻关键词的抽取方法、装置、设备及存储介质。


背景技术:

2.对于文章内容的理解,经常需要进行新闻关键词抽取,新闻关键词抽取也广泛用于信息流(新闻)推荐系统。新闻关键词抽取是指抽取能够描述新闻核心内容的词汇,用少量词汇表示新闻的核心内容。目前,一般是采用通过命名实体识别模型进行实体识别的方法来实现关键词提取,或者通过词频统计的方法来实现关键词提取。
3.但是,由于新闻具有较强的实时性,上述方法不能有效地覆盖新增关键词,且统计的分数是静态的,不会根据不同的文章发生改变,因而,导致了新闻关键词抽取的准确性低。


技术实现要素:

4.本发明提供一种新闻关键词的抽取方法、装置、设备及存储介质,用于提高新闻关键词抽取的准确性。
5.本发明第一方面提供了一种新闻关键词的抽取方法,包括:
6.获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词;
7.通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;
8.获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;
9.按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。
10.可选的,在本发明第一方面的第一种实现方式中,所述通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表,包括:
11.对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,所述目标分词用户字典包括添加新词后的新闻关键词词表;
12.通过所述最长公共子串,对所述多个文章关键词进行筛选,得到多个已筛选关键词;
13.对所述多个已筛选关键词进行验证,得到多个初始新闻关键词。
14.可选的,在本发明第一方面的第二种实现方式中,所述获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据
确定目标关键词分值数据,包括:
15.通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;
16.按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;
17.计算所述新闻类别分值数据和所述文章分值数据的乘积,得到目标关键词分值数据。
18.可选的,在本发明第一方面的第三种实现方式中,所述获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词,包括:
19.获取待处理文章数据,对所述待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与所述目标语种对应的语种分词模型,以及与所述目标领域对应的领域关键词字典;
20.通过所述语种分词模型和所述领域关键词字典,对所述待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。
21.可选的,在本发明第一方面的第四种实现方式中,所述获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词,包括:
22.获取待分析新闻数据,对所述待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;
23.通过预置的定时任务,对所述存储后的候选新词进行新词识别,得到目标新词,根据所述目标新词生成新闻关键词词表;
24.将所述新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
25.可选的,在本发明第一方面的第五种实现方式中,所述按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列之后,还包括:
26.获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集。
27.可选的,在本发明第一方面的第六种实现方式中,所述获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集,包括:
28.调用预置的分类模型基于所述目标新闻关键词序列进行多级分类,得到分类信息,所述分类信息包括文本分类标签信息和二级分类标签信息;
29.对所述目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取所述目标新闻关键词集对应的拓展新闻关键词集;
30.将所述分类信息、所述目标新闻关键词集和所述拓展新闻关键词集确定为目标信息,并按照预设展示策略,将所述待处理文章数据和所述目标信息渲染至预设显示界面。
31.本发明第二方面提供了一种新闻关键词的抽取装置,包括:
32.提取模块,用于获取待处理文章数据,对所述待处理文章数据进行分词和关键词
提取,得到多个文章关键词;
33.匹配模块,用于通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;
34.确定模块,用于获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;
35.排序模块,用于按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。
36.可选的,在本发明第二方面的第一种实现方式中,所述匹配模块具体用于:
37.对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,所述目标分词用户字典包括添加新词后的新闻关键词词表;
38.通过所述最长公共子串,对所述多个文章关键词进行筛选,得到多个已筛选关键词;
39.对所述多个已筛选关键词进行验证,得到多个初始新闻关键词。
40.可选的,在本发明第二方面的第二种实现方式中,所述确定模块具体用于:
41.通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;
42.按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;
43.计算所述新闻类别分值数据和所述文章分值数据的乘积,得到目标关键词分值数据。
44.可选的,在本发明第二方面的第三种实现方式中,所述提取模块具体用于:
45.获取待处理文章数据,对所述待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与所述目标语种对应的语种分词模型,以及与所述目标领域对应的领域关键词字典;
46.通过所述语种分词模型和所述领域关键词字典,对所述待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。
47.可选的,在本发明第二方面的第四种实现方式中,所述新闻关键词的抽取装置,还包括:
48.存储模块,用于获取待分析新闻数据,对所述待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;
49.识别模块,用于通过预置的定时任务,对所述存储后的候选新词进行新词识别,得到目标新词,根据所述目标新词生成新闻关键词词表;
50.添加模块,用于将所述新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
51.可选的,在本发明第二方面的第五种实现方式中,所述新闻关键词的抽取装置,还包括:
52.渲染模块,用于获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关
键词集和拓展新闻关键词集。
53.可选的,在本发明第二方面的第六种实现方式中,所述渲染模块具体用于:
54.调用预置的分类模型基于所述目标新闻关键词序列进行多级分类,得到分类信息,所述分类信息包括文本分类标签信息和二级分类标签信息;
55.对所述目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取所述目标新闻关键词集对应的拓展新闻关键词集;
56.将所述分类信息、所述目标新闻关键词集和所述拓展新闻关键词集确定为目标信息,并按照预设展示策略,将所述待处理文章数据和所述目标信息渲染至预设显示界面。
57.本发明第三方面提供了一种新闻关键词的抽取设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述新闻关键词的抽取设备执行上述的新闻关键词的抽取方法。
58.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的新闻关键词的抽取方法。
59.本发明提供的技术方案中,获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词;通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。本发明实施例中,结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性。
附图说明
60.图1为本发明实施例中新闻关键词的抽取方法的一个实施例示意图;
61.图2为本发明实施例中新闻关键词的抽取方法的另一个实施例示意图;
62.图3为本发明实施例中新闻关键词的抽取装置的一个实施例示意图;
63.图4为本发明实施例中新闻关键词的抽取装置的另一个实施例示意图;
64.图5为本发明实施例中新闻关键词的抽取设备的一个实施例示意图。
具体实施方式
65.本发明实施例提供了一种新闻关键词的抽取方法、装置、设备及存储介质,提高了新闻关键词抽取的准确性。
66.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不
排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
67.为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中新闻关键词的抽取方法的一个实施例包括:
68.101、获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词。
69.可以理解的是,本发明的执行主体可以为新闻关键词的抽取装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
70.当服务器接收到输入界面(前端)或输入端发送的初始文章数据,且初始文章数据为语音数据时,调用预置的语音识别模型,对初始文章数据进行语音识别和文本转换,得到第一候选文章数据;当服务器输入界面(前端)或输入端发送的初始文章数据,且初始文章数据为图像数据时,调用预置的图像处理模型,对初始文章数据进行目标框识别、目标框分割和目标框文本识别,得到第二候选文章数据;当服务器输入界面(前端)或输入端发送的初始文章数据,且初始文章数据为文本数据时,对初始文章数据进行空格符号处理和敏感数据处理,得到待处理文章数据,具体地,服务器通过对初始文章数据依次进行断句处理、空格符号识别和空格符号删除,以实现对初始文章数据的空格符号处理,服务器通过对初始文章数据进行敏感字词识别和敏感字词替换,以实现对初始文章数据的敏感数据处理;对第一候选文章数据或第二候选文章数据进行空格符号处理和敏感数据处理,得到待处理文章数据。
71.服务器调用与待处理文章数据对应的分词工具(模型),基于预置的分词数据集,对待处理文章数据进行分词,得到多个初始分词,调用预置的分词字典,基于预置的前向最大匹配算法,对多个初始分词分别进行基于上下文信息的匹配和关键词抽取,得到多个文章关键词。
72.102、通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表。
73.其中,预置的目标分词用户字典包括添加新词后的新闻关键词词表;预置的目标分词用户字典的结构可为词典树或知识图谱;目标分词用户字典可为根据用户各领域的兴趣词语进行聚类分析而得到的新闻分词,以及用户文本分类的关键词对应的各领域数据的新闻分词进行构建的字典。
74.服务器通过预置的编辑距离算法,对预置的目标分词用户字典和多个文章关键词进行两两之间的编辑距离计算,得到字典分词(为目标分词用户字典中的分词)与各文章关键词之间的编辑距离,判断编辑距离是否小于预设距离阈值,若是,则将对应的文章关键词确定为初始新闻关键词,从而得到多个初始新闻关键词,若否,则将对应的文章关键词剔除,并继续对下一个文章关键词进行匹配,直到所有文章关键词完成匹配,从而得到多个初始新闻关键词。
75.103、获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据。
76.服务器通过计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的
新闻类别分值数据,计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据,并将新闻类别分值数据和文章分值数据进行融合,从而得到目标关键词分值数据。其中,新闻类别分值数据(卡方值)用于指示各初始新闻关键词在新闻类别下的信息量,文章分值数据用于指示各初始新闻关键词在预置新闻数据中的位置,文章分值数据包括各初始新闻关键词在待处理文章数据的位置信息和出现次数。
77.104、按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列。
78.服务器获得目标关键词分值数据后,根据目标关键词分值数据的值大小,对多个初始新闻关键词进行基于倒序的排序,从而得到目标新闻关键词序列,其中,目标新闻关键词序列包括按照顺序排序后的多个目标新闻关键词,以及以预设表示形式的各目标新闻关键词对应的目标关键词分值数据。
79.本发明实施例中,结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性。
80.请参阅图2,本发明实施例中新闻关键词的抽取方法的另一个实施例包括:
81.201、获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词。
82.具体地,服务器获取待处理文章数据,对待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与目标语种对应的语种分词模型,以及与目标领域对应的领域关键词字典;通过语种分词模型和领域关键词字典,对待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。
83.服务器获得待处理文章数据后,调用预置的语种识别算法,对待处理文章数据进行语谱图转换和多类别逻辑回归,得到目标语种,该目标语种包括一个或一个以上语种;服务器调用预置的分类算法,对待处理文章数据进行领域分类,得到目标领域。服务器创建目标语种的键值,得到语种键值,通过语种键值对预置的分词模型树进行遍历,得到与目标语种对应的语种分词模型;服务器创建目标领域的领域索引,通过领域索引对预置数据库中的字典进行检索,得到对应的领域关键词字典。
84.服务器调用语种分词模型,对待处理文章数据进行符号识别,得到目标符号,该目标符号包括空格符号、特殊符号和标点符号,将待处理文章数据中的空格符号进行删除,得到符号处理后的待处理文章数据,根据特征符号和标点符号,对符号处理后的待处理文章数据进行基于模板匹配的字符分割或基于聚类分析的字符分割,得到待处理的字词;按照预设重组数量,对待处理的字词进行基于上下文的重组,得到重组字词,预设重组数量为用于字词中心组合的字词数量,例如:待处理的字词为“假/戏/真/做”,以“戏”的重组为例进行说明,预设重组数量为2,则对“戏”进行基于上下文的重组,得到重组字词“假戏”和“戏真”;通过预置的语义规则,对重组字词进行语义分析和过滤,得到语义规则字词和非语义规则字词,其中,语义规则字词为符合语义规则的字词,非语义规则字词为不符合语义规则的字词,并对非语义规则字词进行错别字识别和正确字替换,得到目标字词,将语义规则字
词和目标字词进行合并,得到多个文章关键词,以实现对待处理文章数据的字词检测。提高了对待处理文章数据进行初步关键词抽取的准确性。
85.具体地,服务器获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词之前,获取待分析新闻数据,对待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;通过预置的定时任务,对存储后的候选新词进行新词识别,得到目标新词,根据目标新词生成新闻关键词词表;将新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
86.服务器获得用户授权或网络平台授权后,调用预置的爬虫,爬取待分析新闻数据,从而得到待分析新闻数据;对待分析新闻数据进行基于新词的识别、提取和过滤,得到初始新词,初始新词包括时间词和数量词,命名实体和普通新词中的至少一种,初始新词包括新造词语、旧词新用的词语、方言词汇、外来词和修辞用法稳定下来构成的新词语;通过预置的计算公式,基于分析新闻数据,对初始新词进行点互信息计算,得初始新词的新词概率,其中,该计算公式具体如下:pmi(x,y)表示新词概率,x表示初始新词中的其中一个单字(词),y表示初始新词中的另外一个单字(词),p(x,y)表示初始新词中单字(词)x与另外一个单字(词)y连在一起出现的概率,p(x)表示初始新词中单字(词)x在待分析新闻数据对应的文章中出现的概率,p(y)表示初始新词中单字(词)y在待分析新闻数据对应的文章中出现的概率;服务器根据新词概率对初始新词进行筛选,得到候选新词,具体地,服务器判断新词概率是否大于预设概率阈值,若是,则将初始新词确定为候选新词,若否,则将初始新词删除;将候选新词分布式存储至预置数据库中,得到存储后的候选新词。
87.服务器执行预置的定时任务,当在预设时段或者计时到预设时刻时,从预置数据库中提取存储后的候选新词,对存储后的候选新词进行基于规则的新词识别或基于统计的新词识别,得到目标新词,并将目标新词生成新闻关键词词表,其中,基于规则的新词识别为通过预置新词模板对存储后的候选新词进行新词匹配,预置新词模板为语言专家根据构词学原理、配合语义信息或词性信息构造的符合定时任务时段的模板,基于统计的新词识别为对存储后的候选新词进行候选字符串抽取、规则过滤和统计量确定。
88.服务器将新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典,其中,初始分词用户字典可包括但不限于根据用户各领域的兴趣词语进行聚类分析而得到的新闻分词,以及用户文本分类的关键词对应的各领域数据的新闻分词。实现了新增关键词的实时覆盖。
89.202、通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表。
90.具体地,服务器对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,目标分词用户字典包括添加新词后的新闻关键词词表;通过最长公共子串,对多个文章关键词进行筛选,得到多个已筛选关键词;对多个已筛选关键词进行验证,得到多个初始新闻关键词。
91.其中,预置的目标分词用户字典的结构为知识图谱,服务器通过预置的随机游走算法,对预置的目标分词用户字典进行随机游走,得到多个分词字符串(即多个分词序列);
调用预置的基于最长公共子串的文本比较算法(needleman/wunsch算法),对多个文章关键词中各文章关键词与各分词字符串进行矩阵初始化、矩阵行计算、矩阵路径回溯和字串匹配,得到各文章关键词与各分词字符串之间的最长公共子串;获取各文章关键词与多个分词字符串之间的多个最长公共子串中最长公共子串最长的目标分词字符串,并判断目标分词字符串的最长公共子串是否大于预设子串长度,若是,则将对应的文章关键词确定为已筛选关键词,从而得到多个已筛选关键词,若否,则将对应的文章关键词过滤掉,并继续对下一个文章关键词进行目标分词字符串的最长公共子串与预设子串长度的对比分析,直至所有文章关键词完成对比分析,从而得到多个已筛选关键词。
92.服务器调用预置的新闻分词字典,对多个文章关键词进行匹配,得到待验证关键词集,其中,该新闻分词字典包括根据收集的新闻材料进行分词和专家经验过滤的历史关键词,以及对上述历史关键词进行聚类和衍生得到的新闻关键词,判断各已筛选关键词是否存在待验证关键词集中,若是,则将对应的已筛选关键词确定为初始新闻关键词,从而得到多个初始新闻关键词,若否,则将不存在的已筛选关键词剔除,并将剔除后的已筛选关键词确定为初始新闻关键词,从而得到多个初始新闻关键词,以实现对多个已筛选关键词的验证。提高了多个初始新闻关键词的准确性。
93.203、获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据。
94.具体地,服务器通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;计算新闻类别分值数据和文章分值数据的乘积,得到目标关键词分值数据。
95.服务器获得各新闻网络平台的授权后,从各新闻网络平台中爬取预设数量的新闻信息(如:200万篇新闻),或者服务器从预置数据库中提取预设数量的新闻信息(如:200万篇新闻);对该新闻信息进行数据预处理和基于新闻类别的分类,得到预置新闻数据和预置新闻数据对应的新闻类别;获取每个初始新闻关键词的实际分布信息和期望分布信息,实际分布信息用于指示在各新闻类别下各初始新闻关键词基于预置新闻数据中的实际分布,期望分布信息用于指示在各新闻类别下各初始新闻关键词基于预置新闻数据中的期望分布;通过预置的卡方值计算公式,基于每个初始新闻关键词的实际分布信息和期望分布信息,计算每个初始新闻关键词的卡方值,从而得到每个初始新闻关键词对应的新闻类别分值数据,卡方值计算公式具体如下:其中,kafangscore表示每个初始新闻关键词对应的新闻类别分值数据,i表示新闻类别,x
i
表示实际分布信息,e
i
表示期望分布信息。
96.服务器按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据,其中,预置的计算策略用于根据各初始新闻关键词在待处理文章数据的位置信息和出现次数进行分值计算的方案,计算策略例如:若初始新闻关键词在预置新闻数据的标题中出现一次,则加1分;若初始新闻关键词在预置新闻数据的正文的首段(前20%)位置出现,则加0.15分,若初始新闻关键词在预置新闻数据的正文的其余位置出现一次,则加0.1分。
97.服务器调用预置的关键词权重计算公式,对新闻类别分值数据和文章分值数据进行乘积计算,得到目标关键词分值数据,关键词权重计算公式具体如下:finalscore=positionscore*log(kafangscore),其中,finalscore表示目标关键词分值数据,positionscore表示文章分值数据,kafangscore表示新闻类别分值数据。
98.204、按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列。
99.服务器获得目标关键词分值数据后,根据目标关键词分值数据的值大小,对多个初始新闻关键词进行倒序排序,从而得到目标新闻关键词序列,其中,目标新闻关键词序列包括按照顺序排序后的多个目标新闻关键词,以及以预设表示形式的各目标新闻关键词对应的目标关键词分值数据。
100.205、获取基于目标新闻关键词序列的目标信息,并将待处理文章数据和目标信息渲染至预设显示界面,目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集。
101.具体地,服务器调用预置的分类模型基于目标新闻关键词序列进行多级分类,得到分类信息,分类信息包括文本分类标签信息和二级分类标签信息;对目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取目标新闻关键词集对应的拓展新闻关键词集;将分类信息、目标新闻关键词集和拓展新闻关键词集确定为目标信息,并按照预设展示策略,将待处理文章数据和目标信息渲染至预设显示界面。
102.例如,服务器调用预置的分类模型,对目标新闻关键词序列进行文本分类和二级分类,从而得到分类信息,文本分类标签信息包括文化、动漫、体育、娱乐、时尚和美食等,二级分类标签信息为明星;判断目标新闻关键词序列中目标新闻关键词的数量是否大于预设词量,若是,则生成预设词数量的滑动窗口,通过该滑动窗口对目标新闻关键词序列进行滑动和依序读取,从而得到目标新闻关键词集;根据目标新闻关键词集对预设拓展关键词库进行检索,得到对应的拓展新闻关键词集;将分类信息、目标新闻关键词集和拓展新闻关键词集确定为目标信息,并按照预设展示策略,该预设展示策略包括待处理文章数据、目标新闻关键词序列和目标信息分别对应的展示位置和展示方式,将待处理文章数据和目标信息在预设显示界面上展示,以目标新闻关键词集为例说明,将目标新闻关键词集部署成展示demo,按照不同的显示颜色和显示大小,将部署成展示demo的目标新闻关键词集显示在预设显示界面的中下方,显示大小由目标新闻关键词分值数据的值确定,若目标新闻关键词分值数据的值越大,则对应的目标新闻关键词显示得越大。保证了目标新闻关键词集的多角度可视化。
103.本发明实施例中,不仅结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性,还通过按照预设展示策略将待处理文章数据和目标信息渲染至预设显示界面,保证了新闻关键词的多角度可视化。
104.上面对本发明实施例中新闻关键词的抽取方法进行了描述,下面对本发明实施例中新闻关键词的抽取装置进行描述,请参阅图3,本发明实施例中新闻关键词的抽取装置一
个实施例包括:
105.提取模块301,用于获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词;
106.匹配模块302,用于通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表;
107.确定模块303,用于获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据;
108.排序模块304,用于按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列。
109.上述新闻关键词的抽取装置中各个模块的功能实现与上述新闻关键词的抽取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
110.本发明实施例中,结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性。
111.请参阅图4,本发明实施例中新闻关键词的抽取装置的另一个实施例包括:
112.提取模块301,用于获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词;
113.匹配模块302,用于通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表;
114.确定模块303,用于获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据;
115.排序模块304,用于按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列;
116.渲染模块305,用于获取基于目标新闻关键词序列的目标信息,并将待处理文章数据和目标信息渲染至预设显示界面,目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集。
117.可选的,匹配模块302还可以具体用于:
118.对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,目标分词用户字典包括添加新词后的新闻关键词词表;
119.通过最长公共子串,对多个文章关键词进行筛选,得到多个已筛选关键词;
120.对多个已筛选关键词进行验证,得到多个初始新闻关键词。
121.可选的,确定模块303还可以具体用于:
122.通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;
123.按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;
124.计算新闻类别分值数据和文章分值数据的乘积,得到目标关键词分值数据。
125.可选的,提取模块301还可以具体用于:
126.获取待处理文章数据,对待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与目标语种对应的语种分词模型,以及与目标领域对应的领域关键词字典;
127.通过语种分词模型和领域关键词字典,对待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。
128.可选的,新闻关键词的抽取装置,还包括:
129.存储模块306,用于获取待分析新闻数据,对待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;
130.识别模块307,用于通过预置的定时任务,对存储后的候选新词进行新词识别,得到目标新词,根据目标新词生成新闻关键词词表;
131.添加模块308,用于将新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
132.可选的,渲染模块305还可以具体用于:
133.调用预置的分类模型基于目标新闻关键词序列进行多级分类,得到分类信息,分类信息包括文本分类标签信息和二级分类标签信息;
134.对目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取目标新闻关键词集对应的拓展新闻关键词集;
135.将分类信息、目标新闻关键词集和拓展新闻关键词集确定为目标信息,并按照预设展示策略,将待处理文章数据和目标信息渲染至预设显示界面。
136.上述新闻关键词的抽取装置中各模块和各单元的功能实现与上述新闻关键词的抽取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
137.本发明实施例中,不仅结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性,还通过按照预设展示策略将待处理文章数据和目标信息渲染至预设显示界面,保证了新闻关键词的多角度可视化。
138.上面图3和图4从模块化功能实体的角度对本发明实施例中的新闻关键词的抽取装置进行详细描述,下面从硬件处理的角度对本发明实施例中新闻关键词的抽取设备进行详细描述。
139.图5是本发明实施例提供的一种新闻关键词的抽取设备的结构示意图,该新闻关键词的抽取设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对新闻关键词的抽取设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530
通信,在新闻关键词的抽取设备500上执行存储介质530中的一系列指令操作。
140.新闻关键词的抽取设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windows serve,mac os x,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的新闻关键词的抽取设备结构并不构成对新闻关键词的抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
141.本技术还提供一种新闻关键词的抽取设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述新闻关键词的抽取设备执行上述新闻关键词的抽取方法中的步骤。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行新闻关键词的抽取方法的步骤。
142.进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
143.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
144.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
145.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
146.以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜