一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图节点选取和优化的主体事件去重方法

2022-07-20 17:33:29 来源:中国专利 TAG:

技术特征:
1.一种基于图节点选取和优化的主体事件去重方法,其特征在于,包括如下步骤:获取金融领域的主体事件文本数据,通过专业词库以及词库评级和标签提取所述主体事件文本数据中的主体事件,生成待检测主体事件;构建主体事件连通子图,得到每个连接子图的每个节点的节点聚类系数,根据所述节点聚类系数,得到top-k个领导节点;对每一个所述主体事件连通子图中的所述领导节点分别与所述待检测主体事件进行相似度计算,以及基于所述专业词库进行属性相关度计算;判断相似度的计算结果与属性相关度的计算结果是否属于预设阈值区间内,若是,则确定所述待检测主体事件为疑似重复事件,若否,则建立新的连通子图并得到非重复标签;计算所述疑似重复事件与所连接节点之间的发展的时空距离和重要性变化程度;对所述时空距离和所述重要性变化程度分别进行预设阈值判断,确定所述疑似重复事件与所连接节点是否为明确重复事件。2.根据权利要求1所述的基于图节点选取和优化的主体事件去重方法,其特征在于,所述主体事件包括与金融领域相关的特征词集、特征词的句子集、主体事件的实体、主体事件的剩余实体和时间。3.根据权利要求2所述的基于图节点选取和优化的主体事件去重方法,其特征在于,所述专业词库中的词语分为正面词、负面词和中性词,当词语无法确定为正面词还是负面词时,将其归类于中性词;所述专业词库包含三个部分,第一部分是标签,表示特征词的最大相关信息,第二部分是特征词,表示为特证句的特征词,第三部分是等级,表示各个特征词本身的程度。4.根据权利要求1所述的基于图节点选取和优化的主体事件去重方法,其特征在于,利用构建好的所述主体事件连通子图,统计图内各个节点的度,以及与其邻居节点形成的稳定三角形结构数量,计算各个节点的所述节点聚类系数;根据所述节点聚类系数,通过排序算法选择top-k个所述领导节点。5.根据权利要求1所述的基于图节点选取和优化的主体事件去重方法,其特征在于,通过tf-iwf计算得到所述待检测主体事件和所述领导节点主体事件的向量表示,利用余弦相似度来表示两者的相似程度;根据所述专业词库中的标签映射关系,得到所述待检测主体事件的特征词映射标签和所述领导节点的特征词映射标签之间的交集和并集,基于所述交集和所述并集,得到属性相关度。6.根据权利要求1所述的基于图节点选取和优化的主体事件去重方法,其特征在于,当两个所述待检测主体事件的相似度计算结果和属性相关度计算结果均大于预设阈值时,判定所述待检测主体事件为疑似重复事件;当两个所述待检测主体事件的相似度计算结果和属性相关度计算结果中的任意一个不大于预设阈值时,判定所述待检测主体事件为非重复事件。7.根据权利要求1所述的基于图节点选取和优化的主体事件去重方法,其特征在于,根据所述疑似重复事件和所述领导节点的发布时间计算其时间差,当两事件的时间存在时间差时,计算得出所述时空距离。8.根据权利要求1所述的基于图节点选取和优化的主体事件去重方法,其特征在于,
提取事件发展重要性程度,根据特征词的等级对事件重要性程度打分,计算所述疑似重复事件的各个特征词的重要性程度分数,以及所述领导节点的各个特征词的重要性程度分数,并进一步计算得到所述重要性变化程度。

技术总结
本申请公开了一种基于图节点选取和优化的主体事件去重方法,包括:获取主体事件文本数据,提取主体事件,生成待检测主体事件;构建主体事件连通子图,得到TOP-K个领导节点;对每一个主体事件连通子图中的领导节点分别与待检测主体事件进行相似度计算和属性相关度计算;根据相似度与属性相关度是否属于预设阈值区间内,判断是否为疑似重复事件;计算疑似重复事件与所连接节点之间的发展的时空距离和重要性变化程度;进一步确定疑似重复事件与所连接节点是否为明确重复事件。本申请通过图的结构实现实时去重检测,实现实时去重分析,并在后续计算中添加金融主体事件相关特征,以达到提高去重准确率的目标。到提高去重准确率的目标。到提高去重准确率的目标。


技术研发人员:艾玮 许佳 孟涛
受保护的技术使用者:中南林业科技大学
技术研发日:2022.04.15
技术公布日:2022/7/19
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献