一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

热点事件挖掘方法及装置、设备和介质与流程

2022-06-01 08:43:34 来源:中国专利 TAG:

技术特征:
1.一种热点事件挖掘方法,包括:获取多个原始文档;针对每一个原始文档,获取该原始文档所包括的至少一个关键词;基于所述多个原始文档各自所包括的多个关键词,获取至少一个关键词频繁项集;基于至少一个关键词频繁项集,从所述多个原始文档中确定多个初筛文档;至少基于所述多个初筛文档各自所包括的多个关键词,构造事件图;基于所述事件图,获取至少一个事件簇;以及基于所述至少一个事件簇,确定热点事件列表。2.根据权利要求1所述的方法,还包括:针对每一个原始文档所包括的每一个关键词,基于该关键词在该原始文档中的位置和/或该关键词的词性,确定该关键词相应的权重系数,并且其中,基于所述多个原始文档各自所包括的多个关键词以及每一个关键词相应的权重系数,获取至少一个关键词频繁项集。3.根据权利要求1或2所述的方法,其中,所述构造事件图包括:针对所述多个初筛文档中的任意两个初筛文档,响应于所述任意两个初筛文档各自所包括的多个关键词满足第一预设条件,以所述两个初筛文档为顶点建立事件图的边。4.根据权利要求3所述的方法,其中,所述响应于所述任意两个初筛文档各自所包括的多个关键词满足第一预设条件,以所述两个初筛文档为顶点建立事件图的边包括:响应于所述任意两个初筛文档各自所包括的多个关键词的交集满足第二预设条件,以所述任意两个初筛文档为顶点建立事件图的边。5.根据权利要求4所述的方法,当每一个初筛文档所包括的每一个关键词具有相应的权重系数时,所述响应于所述任意两个初筛文档各自所包括的多个关键词的交集满足第二预设条件,以所述两个初筛文档为顶点建立事件图的边包括:针对所述任意两个初筛文档所包括的多个关键词的交集,计算其中所包括的每个关键词相应的权重系数的总和;以及响应于所述任意两个初筛文档所包括的多个关键词的交集中所包括的每个关键词相应的权重系数的总和大于预设阈值,以所述两个初筛文档为顶点建立事件图的边。6.根据权利要求1-5中任一项所述的方法,其中,所述构造事件图包括:针对所述多个初筛文档中的任意两个初筛文档,响应于所述任意两个初筛文档包含同一个关键词频繁项集,以所述两个初筛文档为顶点建立事件图的边。7.根据权利要求1-6中任一项所述的方法,其中,所述初筛文档包括发布时间信息,并且其中,所述构造事件图还包括:响应于所述事件图中所包括的初筛文档的发布时间满足第三预设条件,从所述事件图中删除该初筛文档相应的顶点和边。8.根据权利要求1-7中任一项所述的方法,其中,所述原始文档包括至少一个内容模块,并且其中,所述针对每一个原始文档,获取该原始文档所包括的至少一个关键词包括:针对所述原始文档中的每一个内容模块,基于该内容模块的位置,确定目标获取策略;以及利用所述目标获取策略,获取该内容模块中所包括的至少一个关键词。
9.根据权利要求8所述的方法,其中,所述至少一个内容模块包括文档标题和文档正文,并且其中,所述针对每一个原始文档,获取该原始文档所包括的至少一个关键词包括:针对所述原始文档所包括的文档标题,确定第一获取策略为目标获取策略,并利用所述第一获取策略获取其中所包括的至少一个标题关键词;针对所述原始文档所包括的文档正文,确定不同于所述第一获取策略的第二获取策略为目标获取策略,并利用所述第二获取策略获取其中所包括的至少一个正文关键词;以及基于所述至少一个标题关键词和所述至少一个正文关键词,确定该原始文档所包括的至少一个关键词。10.根据权利要求1-9中任一项所述的方法,其中,所述基于所述事件图,获取至少一个事件簇包括:基于社区发现算法,获取所述事件图所包括的至少一个事件簇。11.根据权利要求1-10中任一项所述的方法,其中,所述基于所述至少一个事件簇,确定热点事件列表包括:针对所述至少一个事件簇中的每一个事件簇,获取该事件簇所包括的至少一个顶点相应的初筛文档;以及基于所述至少一个事件簇中的每一个事件簇相应的至少一个初筛文档,确定热点事件列表。12.根据权利要求11中所述的方法,其中,所述初筛文档包括文档热度信息,并且其中,基于所述至少一个事件簇中的每一个事件簇相应的至少一个初筛文档的文档热度信息,确定热点事件列表。13.根据权利要求11或12所述的方法,当所述初筛文档包括文档热度信息时,所述方法还包括:基于所述至少一个事件簇中的每一个事件簇相应的至少一个初筛文档的文档热度信息,对所述至少一个初筛文档进行排序;以及基于所述至少一个初筛文档的排序结果,展示所述热点事件列表。14.根据权利要求11或12所述的方法,当所述初筛文档包括发布时间信息时,所述方法还包括:基于所述至少一个事件簇中的每一个事件簇相应的至少一个初筛文档的发布时间信息,对所述至少一个初筛文档进行排序;以及基于所述至少一个初筛文档的排序结果,展示所述热点事件列表。15.一种热点事件挖掘装置,包括:第一获取单元,被配置用于获取多个原始文档;第二获取单元,被配置用于针对每一个原始文档,获取该原始文档所包括的至少一个关键词;第三获取单元,被配置用于基于所述多个原始文档各自所包括的多个关键词,获取至少一个关键词频繁项集;第一确定单元,被配置用于基于至少一个关键词频繁项集,从所述多个原始文档中确定多个初筛文档;构造单元,被配置用于基于所述多个初筛文档各自所包括的多个关键词,构造事件图;
第四获取单元,被配置用于基于所述事件图,获取至少一个事件簇;以及第二确定单元,被配置用于基于所述至少一个事件簇,确定热点事件列表。16.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。17.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-14中任一项所述的方法。18.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据权利要求1-14中任一项所述的方法。

技术总结
本公开提供了一种热点事件挖掘方法及装置、设备和介质,涉及数据处理技术领域,尤其涉及大数据、人工智能技术领域。实现方案为:获取多个原始文档;针对每一个原始文档,获取该原始文档所包括的至少一个关键词;基于所述多个原始文档各自所包括的多个关键词,获取至少一个关键词频繁项集;基于至少一个关键词频繁项集,从所述多个原始文档中确定多个初筛文档;至少基于所述多个初筛文档各自所包括的多个关键词,构造事件图;基于所述事件图,获取至少一个事件簇;以及基于所述至少一个事件簇,确定热点事件列表。定热点事件列表。定热点事件列表。


技术研发人员:刘伟乐
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2022.02.25
技术公布日:2022/5/31
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献