一种基于图节点选取和优化的主体事件去重方法

2022-07-20 17:33:29 来源：中国专利 TAG：

1.本技术属于金融大数据技术领域，具体涉及一种基于图节点选取和优化的主体事件去重方法。

背景技术：

2.在互联网和信息化高度发达的今天，web日益成为人们获取信息的重要来源，而以文本形式出现、以目标实体为核心的事件信息，为人们从web上获得大量有价值的信息提供了重要途径。这些描述“企业”、“人物”、“产品”等实体的事件信息在市场情报分析、舆情分析、电子商务、商业智能等领域具有十分重要的意义，对人们的工作和社会生产也具有举足轻重的作用。这些描述实体的事件，我们称之为主体事件。
3.web是一个自由和开放的空间，描述实体的事件信息具有形式多样、发布随意、表述自由等特点，对同一主体事件采用不同的表述方式是一种及其常见的现象。与此同时，随着互联网的不断发展，web上的主体事件信息量也呈现爆炸式增长(informationexplosion)，这些都给主体事件的高效去重工作带来了极大的困难。因此，如何精准、高效的将表述不同、表意相同的主体事件判别出来，是一个亟待解决的问题。
4.但是目前的主体事件去重方法不能实现实时文本去重，以及不能精准的获取主体事件。金融新闻本身的特征以及事件发展的特征对去重方法至关重要，于是我们通过对金融新闻提取出相关特征，并结合相似度一起计算主体事件重复标签，提高去重方法的准确率。而采取图的结构，能减少大量的重复计算，以达到实现实时检测的目的。

技术实现要素：

5.本技术提出了一种基于图节点选取和优化的主体事件去重方法，在新闻主体事件中进行去重操作的方法，提高去重的效率和准确率。
6.为实现上述目的，本技术提供了如下方案：
7.一种基于图节点选取和优化的主体事件去重方法，包括如下步骤：
8.获取进入领域的主体事件文本数据，通过专业词库以及词库评级和标签提取所述主体事件文本数据中的主体事件，生成待检测主体事件；
9.构建主体事件连通子图，得到每个连接子图的每个节点的节点聚类系数，根据所述节点聚类系数，得到top-k个领导节点；
10.对每一个所述主体事件连通子图中的所述领导节点分别与所述待检测主体事件进行相似度计算，以及基于所述专业词库进行属性相关度计算；
11.判断相似度的计算结果与属性相关度的计算结果是否属于预设阈值区间内，若是，则确定所述待检测主体事件为疑似重复事件，若否，则建立新的连通子图并得到非重复标签；
12.计算所述疑似重复事件与所连接节点之间的发展的时空距离和重要性变化程度；
13.对所述时空距离和所述重要性变化程度分别进行预设阈值判断，确定所述疑似重
复事件与所连接节点是否为明确重复事件。
14.优选的，所述主体事件包括与金融领域相关的特征词集、特征词的句子集、主体事件的实体、主体事件的剩余实体和时间。
15.优选的，所述专业词库中的词语分为正面词、负面词和中性词，当词语无法确定为正面词还是负面词时，将其归类于中性词；
16.所述专业词库包含三个部分，第一部分是标签，表示特征词的最大相关信息，第二部分是特征词，表示为特证句的特征词，第三部分是等级，表示各个特征词本身的程度。
17.优选的，利用构建好的所述主体事件连通子图，统计图内各个节点的度，以及与其邻居节点形成的稳定三角形结构数量，计算各个节点的所述节点聚类系数；
18.根据所述节点聚类系数，通过排序算法选择top-k个所述领导节点。
19.优选的，通过tf-iwf计算得到所述待检测主体事件和所述领导节点主体事件的向量表示，利用余弦相似度来表示两者的相似程度；
20.根据所述专业词库中的标签映射关系，得到所述待检测主体事件的特征词映射标签和所述领导节点的特征词映射标签之间的交集和并集，基于所述交集和所述并集，得到属性相关度。
21.优选的，当两个所述待检测主体事件的相似度计算结果和属性相关度计算结果均大于预设阈值时，判定所述待检测主体事件为疑似重复事件；
22.当两个所述待检测主体事件的相似度计算结果和属性相关度计算结果中的任意一个不大于预设阈值时，判定所述待检测主体事件为非重复事件。
23.优选的，根据所述疑似重复事件和所述领导节点的发布时间计算其时间差，当两事件的时间存在时间差时，计算得出所述时空距离。
24.优选的，提取事件发展重要性程度，根据特征词的等级对事件重要性程度打分，计算所述疑似重复事件的各个特征词的重要性程度分数，以及所述领导节点的各个特征词的重要性程度分数，并进一步计算得到所述重压下变化程度。
25.本技术的有益效果为：
26.本技术公开了一种基于图节点选取和优化的主体事件去重方法，采用基于语句的事件表示方法和基于属性的事件相结合的表示方法对主体事件进行表示。通过图的结构实现实时去重检测，实现实时去重分析，并在后续计算中添加金融主体事件相关特征，以达到提高去重准确率的目标。
附图说明
27.为了更清楚地说明本技术的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
28.图1为本技术实施例一的基于图节点选取和优化的主体事件去重方法流程示意图；
29.图2为本技术实施例一中的步骤1的数据预处理流程示意图；
30.图3为本技术实施例一中的步骤2主体事件连通子图建立的流程示意图；
31.图4为本技术实施例一中的主体事件连通子图示意图；
32.图5为本技术实施例一的第一阶段整体流程示意图；
33.图6为本技术实施例一的第二阶段整体流程示意图；
34.图7为本技术实施例二的针对宁德时代的主体事件去重方法流程示意图；
35.图8为本技术实施例二的连通子图的节点聚类系数示意图。
具体实施方式
36.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
37.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术作进一步详细的说明。
38.实施例一
39.本技术实施例提出的基于图节点选取和优化的主体事件去重方法，在新闻主体事件中进行去重操作的方法，提高去重的效率和准确率，如图1所示，主要包以下步骤：
40.步骤1：准备主体事件数据集，爬取主要金融信息网站，对数据进行处理，提取主体事件并通过专业数据人员确定数据的标签，得到最终待检测主体事件；通过专业的数据分析师，得到金融领域的专业词库，词库中包含对应的标签以及等级。
41.在本实施例中，对爬取好的金融数据进行处理，需要提取数据中公司实体，确定其特征词以及能够准确描述该条数据的特征句，根据数据的发布时间或爬取时间为该条数据贴上去重标签。金融领域专业词库需要该领域专业数据分析师有针对性的去构建内部各等级标签以及标签评分。
42.具体的，从各大新闻媒体网站爬取新闻，筛选出与金融相关的新闻。爬取的数据属性包括新闻id、新闻发布时间、新闻爬取时间、新闻文本，每条数据可以对应一条或者多条主体事件。
43.构建金融领域的专业词库le，词库的类型分为正面词、负面词和中性词，当词语无法确定为正面还是负面时将其归类于中性词。在词库le中每个类型包含三个部分，第一部分是标签，表示特征词的最大相关信息，第二部分是特征词，表示为特证句的特征词，第三部分是等级，表示各个特征词本身的程度。这三部分均由专业的数据分析人员确定。
44.数据准备完成以及构建专业的金融领域词库le后，提取主体事件。在本实施例中，主体事件用符号e表示，其表达式如公式(1)所示。
45.e＝(w,s,c,o,t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
46.其中，w表示特征词集，s表示包含特征词的句子集，c表示主体事件的实体，o表示事件的剩余实体，而t表示事件的所有时间戳。
47.根据主体事件的表示，可以从新闻文本中抽取出全部的主体事件，识别新闻文本中的实体，提取出实体与特征词共同存在的句子作为事件句，将新闻文本中提取的事件句进行拼接作为主体事件。整体流程如图2所示
48.步骤2：基于图的计算方式中，首先计算图的节点聚类稀疏，根据各个节点的节点聚类稀疏，得到该主体下各个连通子图的top-k个领导节点。
49.在本实施例中，去重检测方式是基于主体事件连通子图的，需要对主体的历史数据进行构图处理，并记录重复数据的id和重复数据组，根据重复信息和分组构建连通子图(两条数据之间重复则存在边，不存在连通路径的两条数据分布在不同的连通子图中)，利用构建好的连通子图，统计图内各个节点的度以及与其邻居节点形成的稳定三角形结构数量去计算各个节点的聚集系数，选出top-k个节点作为连通子图的领导节点。
50.具体的，连通子图构建流程如图3所示。主体事件连通子图用gc表示，其表达式如公式(2)所示。
51.gc＝(v，a)(e∈v&e(c)＝c)
ꢀꢀ
(2)
52.其中，v是连通子图中的主体事件集，a是主体事件集之间存在的边关系，gc表示的是当前主体c下的一个连通子图。
53.而在一个主体c下存在多个连通子图，示意图如图4。因此，在本实施例中，将主体c下的全部连通子图表示为集合dc，其表达式如公式(3)所示。
[0054][0055]
利用节点聚类系数来选择连通子图的领导性质节点集。节点聚类系数主要表示节点与邻居节点的紧密程度，系数值越大，表示该节点与邻居节点的联系越紧密，反之亦然。在连通子图gc＝(v，a)中，v表示所有节点的集合，a表示所有边的集合，边a(u,v)∈a代表了节点u和节点v彼此互连。节点u的邻集n(u)是一组节点，可用公式(4)表示。
[0056]
n(u)＝{v∈v|(u，v)∈a}
ꢀꢀ
(4)
[0057]
基于节点的邻居集合，节点的聚集系数用nc(u)进行表示，具体表示形式公式(5)所示：
[0058][0059]
上式中，z
u,x
表示边a(u，x)与邻居节点实际构成三角形的数量，deg(x)表示节点x的度。nc(u)代表节点u对邻居节点的影响力，nc(u)值越高，节点u对邻居的领导力更强。
[0060]
由本步骤2可得到每个连接子图的每个节点的节点聚类系数。根据节点聚类系数，通过排序算法选择top-k领导节点。每个节点中的领导节点集子图如公式(6)所示。
[0061][0062]
其中，c表示实体，代表实体c下第n个连通子图的前k个领导节点集。
[0063]
步骤3：将待检测的主体事件和该主体的图历史数据的领导节点进行一一计算，得到当前两主体事件的相似度fs值；利用金融领域词库le的标签，计算待检测的主体事件和该主体的图历史数据的领导节点的属性相关度fw值。
[0064]
在本实施例中，将主体事件与领导节点通过tf-iwf进行向量化表示，计算其余弦相似度来表示两者的相似程度。由领域数据分析师构建的金融领域特征词库存在三个级别标签以及一个标签重要程度分数。将主体事件的特征词以及领导节点的特征词映射到一级标签，统计两者相同一级标签的的数量以及两者一级标签的并集数量。然后计算得出主体
事件与领导节点的重要性程度变化值。
[0065]
具体的，将待检测的主体事件的表示为表示主体c下第p个主体事件，将该主体对比计算的图历史数据的领导节点表示为表示主体c下的第q个主体事件连通子图的第k个领导节点，它属于集合通过tf-iwf计算得到待检测主体事件和领导节点主体事件的向量表示分别如式7、式8所示：
[0066][0067][0068]
利用余弦相似度对两主体事件展开第一阶段的相似度计算，相似度计算公式如公式(9)所示
[0069][0070]
在上述公式中，代表向量化的待检测主体事件，代表向量化的领导节点。
[0071]
待检测用的主体事件的特征词是叙词表的一种类型。叙词表中存在着拼写差异(比如词序、表达形式不同、词性等)、语法差异(比如同形异义)和词义差异(异形同义词)。因此在特征词表中依然存在这些差异。而这些差异在传统的计算中并不能进行鉴别。因此需对特征词表进行等价映射和等级映射。将特征词之间的差异更加的细致表示，使得算法的重复检测更加精准。
[0072]
本实施例在金融领域专业词库le中，明确了特征词之间的映射，能够通过特征词库，计算出主体事件属性之间的相关度。在金融新闻中，若相比较的两个主体事件的特征词都属于同一类别，则认为描述的是同一主体事件。若相比较的两个主体事件的特征词不属于同一类别，则认为描述的不是同一类别。待检测主体事件得特征词为w
x
，通过映射规则可在金融领域专业库le中映射到ly标签。其标签映射函数为f,具体关系如式10所示：
[0073]
f：w
x
→
lyꢀꢀ
(10)
[0074]
计算待检测主体事件的特征词映射标签和领导节点的特征词映射标签的交集,当前两主体事件的映射类别标签交集集合lg的表达式如式11所示：
[0075][0076]
计算待检测主体事件的特征词映射标签和领导节点的特征词映射标签的并集，当前两主体事件的映射类别标签并集集合lh的表达式如式12所示：
[0077][0078]
对金融新闻进行分析，通过对特征词进行分类以及将特征词分类标签进行归类，能够更加准确的对特征词的差异进行区分。因此，本实施例对主体事件的特征词属性进行分析，得出主体事件属性相关度计算公式如公式13所示
[0079][0080]
在上式中，分子代表两主体事件存在相同类别的特征系数之和，分母代表两主体事件的全部类别特征系数之和。
[0081]
在本步骤四中，特征词相关度越高，类别越相同，fw的值越接近1，反之则越接近0。因此，选取一个特征词相关度阈值z，用来确定在某个范围内的相关度是需要的高特征词相关度，即当fw属于(0，z)，则特征词相关度低，fw属于(z，1)，则特征词相关度高。通过第一阶段计算出的fs和fw，对待检测主体事件和图历史数据进行判断，根据以下阈值区分，确定是否连接到已有连通子图还是构建新的连通子图。
[0082]
步骤4：判断相似度fs值和属性相关度fw值是否在设定的阈值区间内，若在区间内，则输出重复标签，否则构建新的连通子图并给予非重复标签。
[0083]
在本实施例中，针对fs和fw设有相应的阙值，在比较主体事件与领导节点的文本相似度和属性相关度与阙值的关系后，来为主体事件贴上去重标签并更新连通子图。
[0084]
具体的，如果两个主体事件的fs和fw都大于阈值，则这两个主体事件为重复事件，如式14所示。
[0085]
fs＞α and fw＞β y
→
true
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0086]
如果两个主体事件的fs和fw任意一个值不大于该值，则这两个主体事件是非重复的事件，如式15所示。
[0087]
fs≤ α or fw≤β y
→
false
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0088]
根据得到的标签更新该主体下的连通子图，第一阶段具体流程图如图5所示。
[0089]
步骤5：利用主体事件的发展，并提取时间相关特征，计算已连接的主体事件和它所连接的图节点的时空距离sp值；根据主体事件的重要性程度改变，计算已连接的主体事件和它所连接的图节点的重要性程度变化si值。
[0090]
由上述可知，同一连通子图是相似的主体事件。但是，当事件发展了但特征词近似且映射为同一类别时，仅仅通过计算相似度和特征词相关度是无法准确判别。而这主要引起的原因是事件是发展的，事件是具有演变的过程，而这一特征并没有在第一阶段中被选择。上述得到的判重结果，暂定位疑似重复事件。下一步，需要提取事件是演变的、发展的这一特征，通过该特征对节点进行优化判别。
[0091]
在本实施例中，提取时间相关特征，在步骤1中爬取的数据会记录数据发布时间以及数据爬取时间。在计算时间相关特征时，若不存在数据发布时间，则将数据爬取时间作为其数据发布时间。计算主体事件与领导节点事件的时间差，利用时间差结果计算两条数据的时空距离。根据历史数据的选取范围，其时空距离公式中的两个参数在以下几个参数对中选取：(7，0.7)、(14，0.3)、(21，0.1)。计算主体事件与领导节点的重要性程度变化值，需要将主体事件与领导节点的特征词的重要程度分数相加得到事件的重要程度分数。最后取两者的比值作为重要性程度变化值。
[0092]
具体的，根据待检测数据和领导节点数据的发布时间计算其时间差。两主体事件之间的时间差d(ti,tj)表示如式16所示：
[0093][0094]
在做重复数据对比时，根据读取历史数据的时间区间值t设置有其对应的时间衰减系数γ。在本实施例中，t和γ的取值是成对变化的，目的是控制时间差过大而引起的误差，设置的参数对分别为(7，0.7)，(14，0.4)，(21，0.1)。
[0095]
在第二阶段中，本实施例提取主体事件发展的时空距离特征。时空距离用于确定主事件的空间是否发生了变化和变化程度。主体事件的时空距离为sp的计算公式如公式(17)所示。
[0096][0097]
上式中，ti,tj分别代表的发生时间。
[0098]
当两事件的时间存在时间差时，计算得出两主体事件之间的时空距离。而我们通过设置的时空距离阈值u，确定当两个主体事件的时空距离值属于某个范围内时，此时的主体事件发展了，即当时空距离sp属于(0，u)之间，则两主体事件产生时空距离，则待检测主体事件是发展的，如果sp属于(u，1)，则两主体事件未产生时空距离，则待检测主体事件未产生发展；当两事件不存在时间差时，时空距离sp值为1。
[0099]
仅主体事件的时空距离还无法准确判断事件发展，因此本实施例提取事件发展重要性程度特征，根据特征词的等级对事件重要性程度打分，按照打分值划分主体事件的重要性程度。在金融领域特征库le中可以找到各个特征词对应的重要性程度分数score。其事件属性的重要性程度公式r表达如式18所示：
[0100][0101]
根据统计待检测数据和领导节点各个特征词的重要性程度分数，并计算其比值来表达两者的重要性变化程度si。si的计算公式如公式(19)所示。
[0102][0103]
如果si大于或小于1，这两个主体事件的重要性会发生变化；否则，这两个主体事件的重要性就不会改变。
[0104]
通过第二阶段计算出的sp和si，对已连接的主体事件和图历史数据的主体事件进行判断。
[0105]
步骤6：判断时空距离sp值和重要性程度变化si值是否在设定的阈值区间内，若在区间内，则修改为非重复标签并断裂该连接，否则保持原本的节点连接。
[0106]
在本实施例中，针对sp和si设有相应的阙值，在第二阶段，根据主体事件与领导节点的时空距离和重要性程度变化值来更新主体事件的去重标签和连通子图。
[0107]
具体的，这两个主体事件的sp属于(0、u]，且si不等于1，则这两个主体事件为重复事件，如式20所示：
[0108]
0＜sp≤u and si≠1 y
→
true
ꢀꢀ
(20)
[0109]
这两个主体事件的sp属于(u、1]和si不等于1，则这两个主体事件为非重复事件，如式21所示；
[0110]
u＜sp≤1 and si≠1 y
→
false
ꢀꢀ
(21)
[0111]
通过计算若发现标签发生变化，则认为该事件是随着事件而变化发展的，根据新的标签更新连通子图。第二阶段的具体流程如图6所示。
[0112]
进一步的，在本实施例中，通过将该方法得到的标签与原始数据中领域数据分析师得出的标签作对比，得出该方法的准确率、召回率和f1-score值。
[0113]
经过验证本技术技术方案能够实现实时去重检测，并在后续计算中添加金融主体事件相关特征，以达到提高去重准确率的目标。
[0114]
实施例二
[0115]
在本实施例二中，以主体宁德时代新能源科技股份有限公司进行去重为例展开介绍，整体流程如图7所示：
[0116]
1.针对宁德时代，通过主体属性匹配的方法提取出1898条数据进行测试。爬取的新闻格式以及提取的测试数据如表1和表2所示。
[0117]
表1
[0118][0119]
表2
[0120][0121]
根据上面的数据，具体实施包括以下步骤：
[0122]
2.根据输入数据以及已经去重的历史数据构建连通子图g，其中一个连通子图如图8为例。其算法代码输入表示为邻接矩阵a，通过历史数据中各个数据之间的去重关系来得出a。
[0123]
a2＝[...]，...，a
max_group
＝[...]
ꢀꢀ
(22)
[0124]
例：
[0125]
a2＝[...]，...，a
max_group
＝[...]
ꢀꢀ
(23)
[0126]
使用上述得出的邻接矩阵计算各个连通子图中各个节点的聚类系数，再通过排序算法找到各个连通子图的领导节点。以其中一个连通子图为例，计算出其领导节点集，其余连通子图的领导节点选取方式相同。
[0127]
节点u的邻集n(u)是一组节点，可用以下公式表示：
[0128]
n(u)＝{v∈v|(u，v)∈a}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)
[0129]
例：n(id1)＝{id2，id4，id5，id6，id7，id8，id9，id
10
，id
17
}
[0130]
z(u，x)表示节点u和节点x与相邻节点构成的三角形个数。
[0131]
例：
[0132]
x＝id2，z(id1，id2)＝1
[0133]
x＝id4，z(id1，id4)＝3
[0134]
...
[0135]
x＝id
17
，z(id1，id
17
)＝1
[0136]
deg(x)表示节点x的度。
[0137]
例：deg(id2)＝3，deg(id4)＝5，...，deg(id
17
)＝3
[0138]
生成节点u的聚类系数，其值与其邻居节点和邻居节点的度有关联，由上述计算的出的稳定三角形结构数量和邻居节点度得出聚类系数。
[0139][0140]
例：
[0141]
通过上述步骤计算得出连通子图中每个节点的聚类系数用字典进行存储。
[0142]
例：{id1：4.02，id2：0.77，id4：1.87，id5：1.33，id6：2.43，...，id
17
：0.75}
[0143]
使用冒泡排序算法得出聚类系数值大小在前k名的节点作为领导节点作为后续的比较对象。
[0144]
例：前2名领导节点{id1，id6}
[0145]
计算出一个连通子图的领导节点之后反复通过步骤2计算出该主题下所有连通子图的领导节点，以字典的形式进行存储。
[0146]
例：{group1：{id1，id6}，group2：{...}，...，group
max
：{...}}
[0147]
遍历各个连通子图的领导节点，将未检测数据与领导节点做对比，输出去重标签。
[0148]
3.新数据与领导节点进行相似度计算的步骤如下：
[0149]
利用tf-idf方法对新数据以及历史数据的全文内容和事件特征句进行关键字提取和相关语义信息的提取。以混淆矩阵形式进行存储。
[0150]
例：
[0151]
[0152][0153]
将得到的混淆矩阵转化为向量表示
[0154]
例：
[0155][0156][0157]
通过向量化的主体事件计算待检测数据与领导节点的余弦相似度。
[0158][0159]
例：
[0160]
fs{[0，0.038848657002，...，0.0466913581897，...，0.089370787890，...，0.1369495173304，...，0.094115528654，...，0]，[0，0.2013813042871，...，0.1427978469519，...，0.25144172143，...，0.139658726358，...，0.1928200194744，...，0]}＝0.85
[0161]
将特征词映射到专家生成特征词库的一级标签，其映射规则如下：
[0162]
f：w
x
→
lyꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(27)
[0163]
wx为主体事件特征词集中的单个特征词，每个wx都对应于专家特征词库中的一个一级标签，即类别标签。
[0164]
例：f(股价走强)
→
股价利好
[0165]
新数据和领导节点作比较时，取两者特征词的交集进行标签映射，计算映射标签的总数。再取两者的特征词并集进行标签映射，计算并集标签映射总数。
[0166][0167]
例：
[0168]
lg＝[
′
股价利好
′
，
′
生产优势
′
，
′
资金流动良好
′
，
′
宏观利好
′
]∩[
′
生产优势
′
，
′
宏观利好
′
，
′
资金流动良好
′
]＝[
′
生产优势
′
，
′
资金流动良好
′
，
′
宏观利好
′
]
[0169]
lh＝[
′
股价利好
′
，
′
生产优势
′
，
′
资金流动良好
′
，
′
宏观利好
′
]∪[
′
生产优势
′
，
′
宏观利好
′
，
′
资金流动良好
′
]＝[股价利好
′
，
′
生产优势
′
，
′
宏观利好
′
，
′
资金流动良好
′
]
[0170]
fw＝len([
′
生产优势
′
，
′
资金流动良好
′
，
′
宏观利好
′
])/len(
′
股价利好
′
，
′
生产优势
′
，
′
宏观利好
′
，
′
资金流动良好
′
)＝0.75
[0171]
4.上步得到的相似度值fs和特征词关联程度fw与初始阙值进行对比，若两者的fs和fw值都大于阙值，则认为两者相似，为新数据贴上重复标签y＝true。
[0172]
例：fs＝0.85＞0.7 or fw＝0.75＞0.7
→
true
[0173]
在第一阶段构建完成连通子图，选取领导节点，并利用文本相似度和特征词相关程度来获得去重标签，更新连通子图。接下来对更新的边进行优化。
[0174]
5.取新闻事件的发布时间，计算新数据与对比领导节点数据的时间差。若新数据发布时间ti大于等于领导节点数据tj，则两者时间差d(ti，tj)的值为ti-tj。反之取恒值0。
[0175][0176]
例：d(2021-01-05 11:00:00，2021-01-05 16:46:00)＝286
[0177]
新闻事件的发布时间会导致两条新闻数据之间存在时空差，其值与两者的发布时间差有一定的关系，取调节参数t，γ来计算时间差。
[0178][0179]
选取历史数据的时间区间t和参数γ存在配对关系，该方法中选取(7，0.7)，(14，0.4)，(21，0.1)为两者的关系值。
[0180]
例：
[0181]
sp(2021-01-05 11:00:00，2021-01-05 16:46:00)＝3.794703235298559e-13
[0182]
从金融领域词库中读取各个特征词标签的重要性程度分数，分别将待检测数据与领导节点主体事件特征重要性程度分数相加，取两个值的比值来作为重要性程度变化
[0183][0184]
例：
[0185]
si([
′
生产优势
′
，
′
资金流动良好
′
，
′
宏观利好
′
]，[
′
股价利好
′
，
′
生产优势
′
，资金流动良好
″′
宏观利好
′
])＝0.43
[0186]
本步骤得到的时空距离sp和重要性程度变化si与初始阙值进行对比，若两者的sp大于阙值，si不等于1，则认为两者不相似，y＝false。
[0187]
例：
[0188]
sp＝3.794703235298559e-13
＜0.7 and si(
′
股价利好
′
，
′
生产优势
′
，
′
宏观利好
′
，
′
资金流动良好
′
]，[
′
生产优势，
′
宏观利好
′
，
′
资金流动良好
′
])＝0.43≠1y
→
true
[0189]
6.根据上述步骤得出的重复标签来更新连通子图。若y＝true则将新数据与领导节点之间构建边。反之去跟其他连通子图里面的领导节点作比较，直到最后该数据与任何一条领导节点都不相似，将该数据放入新的连通子图内。
[0190]
7.选取经过数据预处理的宁德时代新能源科技股份有限公司的有效金融新闻数据1898条。将该数据集分为四个部分small、midlle、big、lager，金融新闻数据选取为7天内的数据集为small数据集，在14天内的数据集为middle数据集，在21天内的数据集为big数
据集，全部数据为lager数据集。通过本技术方法为这批数据预测一个重复标签，通过比较专业数据人员确定的重复标签和该方法预测的标签来计算方法的准确率(acc)、召回率(recall)和f1-score值，如表3所示。通过与原始标签做对比，得出该方法的准确率、召回率和f1-score值。
[0191]
表3
[0192][0193]
以上所述的实施例仅是对本技术优选方式进行的描述，并非对本技术的范围进行限定，在不脱离本技术设计精神的前提下，本领域普通技术人员对本技术的技术方案做出的各种变形和改进，均应落入本技术权利要求书确定的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种新能源场站运维质量评价方法、系统、设备及介质与流程

一种基于图节点选取和优化的主体事件去重方法

相关文献

最热文献