一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

新闻关键词的抽取方法、装置、设备及存储介质与流程

2021-10-24 13:02:00 来源:中国专利 TAG:抽取 装置 决策 关键词 智能

技术特征:
1.一种新闻关键词的抽取方法,其特征在于,所述新闻关键词的抽取方法包括:获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词;通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。2.根据权利要求1所述的新闻关键词的抽取方法,其特征在于,所述通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表,包括:对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,所述目标分词用户字典包括添加新词后的新闻关键词词表;通过所述最长公共子串,对所述多个文章关键词进行筛选,得到多个已筛选关键词;对所述多个已筛选关键词进行验证,得到多个初始新闻关键词。3.根据权利要求1所述的新闻关键词的抽取方法,其特征在于,所述获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据,包括:通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;计算所述新闻类别分值数据和所述文章分值数据的乘积,得到目标关键词分值数据。4.根据权利要求1所述的新闻关键词的抽取方法,其特征在于,所述获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词,包括:获取待处理文章数据,对所述待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与所述目标语种对应的语种分词模型,以及与所述目标领域对应的领域关键词字典;通过所述语种分词模型和所述领域关键词字典,对所述待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。5.根据权利要求1所述的新闻关键词的抽取方法,其特征在于,所述获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词之前,还包括:获取待分析新闻数据,对所述待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;通过预置的定时任务,对所述存储后的候选新词进行新词识别,得到目标新词,根据所述目标新词生成新闻关键词词表;将所述新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
6.根据权利要求1

5中任一项所述的新闻关键词的抽取方法,其特征在于,所述按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列之后,还包括:获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集。7.根据权利要求6所述的新闻关键词的抽取方法,其特征在于,所述获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集,包括:调用预置的分类模型基于所述目标新闻关键词序列进行多级分类,得到分类信息,所述分类信息包括文本分类标签信息和二级分类标签信息;对所述目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取所述目标新闻关键词集对应的拓展新闻关键词集;将所述分类信息、所述目标新闻关键词集和所述拓展新闻关键词集确定为目标信息,并按照预设展示策略,将所述待处理文章数据和所述目标信息渲染至预设显示界面。8.一种新闻关键词的抽取装置,其特征在于,所述新闻关键词的抽取装置包括:提取模块,用于获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词;匹配模块,用于通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;确定模块,用于获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;排序模块,用于按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。9.一种新闻关键词的抽取设备,其特征在于,所述新闻关键词的抽取设备包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述新闻关键词的抽取设备执行如权利要求1

7中任意一项所述的新闻关键词的抽取方法。10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1

7中任一项所述新闻关键词的抽取方法。

技术总结
本发明涉及人工智能领域,提供一种新闻关键词的抽取方法、装置、设备及存储介质,用于提高新闻关键词抽取的准确性。新闻关键词的抽取方法包括:对待处理文章数据进行分词和关键词提取,得到多个文章关键词;通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表;获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据;按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列。此外,本发明还涉及区块链技术,待处理文章数据可存储于区块链中。待处理文章数据可存储于区块链中。待处理文章数据可存储于区块链中。


技术研发人员:车天博
受保护的技术使用者:深圳豹耳科技有限公司
技术研发日:2021.07.30
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜