1.本发明涉及数据安全技术领域,尤其涉及一种威胁情报有效性评估方法、装置、系统及计算机存储介质。
背景技术:
2.威胁情报是某种基于证据的知识,包括上下文、机制、标示、含义和能够执行的建议,这些知识与资产所面临已有的或酝酿中的威胁或危害相关,可用于资产相关主体对威胁或危害的响应或处理决策提供信息支持。
3.现有技术中,使用情报数据时并无统一的威胁情报信誉值评估机制和老化机制对情报数据进行评价,造成威胁情报数据存在有效性低、准确性低的问题。专利cn111212049a提供了一种威胁情报ioc信誉度分析方法,基于分析结果建立网络威胁行为活动和社区,对威胁情报进行信誉度分析,并间隔预设时间对建立的模型进行动态调优,此专利方法解决了目前市场中存在大量威胁情报源数据不准确、威胁情报缺乏失效机制,使得无论是收集第三方开源数据源,还是对自有设备中流量分析都能进行信誉度评价,体系可以随时间动态调整模型结构,确保数据失效机制。但是该方法未对情报数据的老化机制进行详细定义,未彻底解决情报数据不准确的问题。该问题不解决,则客户在使用威胁情报进行安全威胁检测时容易造成数据误报。
4.针对上述威胁情报的有效性确定准确度不高的问题,目前还没有出现一种有效的解决方法。
技术实现要素:
5.为解决上述问题,本发明提供一种威胁情报有效性评估方法、装置、系统及计算机存储介质,综合各信誉值影响因素确定威胁情报的信誉值,再根据威胁情报的信誉值与情报特征预测威胁情报的有效性,以解决现有技术中威胁情报的有效性确定准确度不高的问题。
6.为达到上述目的,一方面,本发明提供了一种威胁情报有效性评估方法,包括:获取威胁情报以及其信誉值影响因素,所述信誉值影响因素包括情报源以及其它信誉值影响因素;根据所述情报源确定所述威胁情报的基础信誉值,并根据所述其它信誉值影响因素确定所述威胁情报的修正信誉值;根据所述基础信誉值以及所述修正信誉值确定所述威胁情报的信誉值;将所述威胁情报的特征向量输入到有效性预测模型中,以对所述威胁情报进行老化预测,得到所述威胁情报的有效性;其中,所述特征向量包括:威胁情报的信誉值、情报命中次数、情报准确性信息、情报发布次数、情报相关事件次数以及情报最后发布时间和当前时间的时间差。
7.进一步可选的,所述将所述威胁情报的特征向量输入到有效性预测模型中之前,包括:获取威胁情报训练集以及威胁情报测试集;提取所述威胁情报训练集中每个威胁情报的特征向量与有效性标签;提取所述威胁情报测试集中每个威胁情报的特征向量与有效
性标签; 将所述威胁情报训练集中每个威胁情报的特征向量以及有效性标签输入至xgboost模型进行训练,得到初始有效性预测模型;将所述威胁情报测试集中每个威胁情报的特征向量以及有效性标签输入至所述初始有效性预测模型中,并根据预测结果修正所述初始有效性预测模型,得到所述有效性预测模型。
8.进一步可选的,所述其它信誉值影响因素包括威胁情报的时效性、威胁情报的内容完整性或威胁情报涉及的情报源数量中的一种或多种;所述根据所述其它信誉值影响因素确定所述威胁情报的修正信誉值包括:分别设置与所述威胁情报的时效性、威胁情报的内容完整性或威胁情报涉及的情报源数量相对应的初始信誉值;当所述威胁情报的时效性低于预设时效性阈值时,降低与所述威胁情报的时效性相对应的初始信誉值,得到第一修正信誉值;当所述威胁情报的内容完整性低于预设完整性阈值时,降低与所述威胁情报的内容完整性相对应的初始信誉值,得到第二修正信誉值;当所述威胁情报涉及的情报源数量低于预设情报源数量阈值时,降低与所述威胁情报涉及的情报源数量相对应的初始信誉值;当所述威胁情报涉及的情报源数量高于预设情报源数量阈值时,增加与所述威胁情报涉及的情报源数量相对应的初始信誉值,得到第三修正信誉值。
9.进一步可选的,所述获取威胁情报,包括:获取多个初始威胁情报;将所述多个初始威胁情报的情报数据进行标准化;将所述多个初始威胁情报进行相似度计算,将相似度大于相似度阈值的多个初始威胁情报的情报数据进行数据归并,得到所述威胁情报。
10.另一方面,本发明实施例还提供了一种威胁情报有效性评估装置,包括:影响因素获取模块,用于获取威胁情报以及其信誉值影响因素,所述信誉值影响因素包括情报源以及其它信誉值影响因素;信誉值确定模块,用于根据所述情报源确定所述威胁情报的基础信誉值;并根据所述其它信誉值影响因素确定所述威胁情报的修正信誉值;计算模块,用于根据所述基础信誉值以及各所述修正信誉值确定所述威胁情报的信誉值;老化预测模块,用于将所述威胁情报的特征向量输入到有效性预测模型中,以对所述威胁情报进行老化预测,得到所述威胁情报的有效性;其中,所述特征向量包括:威胁情报的信誉值、情报命中次数、情报准确性信息、情报发布次数、情报相关事件次数以及情报最后发布时间和当前时间的时间差。
11.进一步可选的,该装置还包括:威胁情报集获取模块,用于获取威胁情报训练集以及威胁情报测试集;第一特征提取模块,用于提取所述威胁情报训练集中每个威胁情报的特征向量与有效性标签;第二特征提取模块,用于提取所述威胁情报测试集中每个威胁情报的特征向量与有效性标签;初始有效性预测模型确定模块,用于将所述威胁情报训练集中每个威胁情报的特征向量以及有效性标签输入至xgboost模型进行训练,得到初始有效性预测模型;有效性预测模型确定模块,用于将所述威胁情报测试集中每个威胁情报的特征向量以及有效性标签输入至所述初始有效性预测模型中,并根据预测结果修正所述初始有效性预测模型,得到所述有效性预测模型。
12.进一步可选的,所述其它信誉值影响因素包括威胁情报的时效性、威胁情报的内容完整性或威胁情报涉及的情报源数量中的一种或多种;所述信誉值确定模块包括:初始信誉值确定子模块,用于分别设置与所述威胁情报的时效性、威胁情报的内容完整性或威胁情报涉及的情报源数量相对应的初始信誉值;第一修正子模块,用于当所述威胁情报的时效性低于预设时效性阈值时,降低与所述威胁情报的时效性相对应的初始信誉值,得到
第一修正信誉值;第二修正子模块,用于当所述威胁情报的内容完整性低于预设完整性阈值时,降低与所述威胁情报的内容完整性相对应的初始信誉值,得到第二修正信誉值;第三修正子模块,用于当所述威胁情报涉及的情报源数量低于预设情报源数量阈值时,降低与所述威胁情报涉及的情报源数量相对应的初始信誉值;当所述威胁情报涉及的情报源数量高于预设情报源数量阈值时,增加与所述威胁情报涉及的情报源数量相对应的初始信誉值,得到第三修正信誉值。
13.进一步可选的,所述影响因素获取模块包括:初始威胁情报获取子模块,用于获取多个初始威胁情报;标准化子模块,用于将所述多个初始威胁情报的情报数据进行标准化;数据归并子模块,用于将所述多个初始威胁情报进行相似度计算,将相似度大于相似度阈值的多个初始威胁情报的情报数据进行数据归并,得到所述威胁情报。
14.另一方面,本发明还提供了一种威胁情报有效性评估系统,包括上述的威胁情报有效性评估装置。
15.另一方面,本发明还提供了一种计算机存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的威胁情报有效性评估方法。
16.上述技术方案具有如下有益效果:确定威胁情报的各信誉值影响因素,并综合各影响因素计算威胁情报的信誉值,将信誉值以及该威胁情报的情报特征判断该威胁情报的有效性;本技术的方法、装置、系统或计算机存储介质中设置了有效的信誉值判断机制以及有效性评估机制,使得到的信誉值的准确度更高,最终得到的威胁情报有效性的准确性更高,减少误报率。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本发明实施例提供的一种威胁情报有效性评估方法的流程图;图2是本发明实施例提供的确定有效性预测模型方法的流程图;图3是本发明实施例提供的确定威胁情报修正信誉值方法的流程图;图4是本发明实施例提供的获取威胁情报方法的流程图;图5是本发明实施例提供的一种威胁情报有效性评估装置的结构框图;图6是本发明实施例提供的威胁情报集获取模块、第一特征提取模块、第二特征提取、初始有效性预测模型确定模块以及有效性预测模型确定模块的结构框图;图7是本发明实施例提供的信誉值确定模块的结构框图;图8是本发明实施例提供的影响因素获取模块的结构框图。
19.附图标记:100
‑
影响因素获取模块 1001
‑
初始威胁情报获取子模块 1002
‑
标准化子模块 1003
‑
数据归并子模块 200
‑
信誉值确定模块 2001
‑
初始信誉值确定子模块 2002
‑
第一修正子模块 2003
‑
第二修正子模块 2004
‑
第三修正子模块 300
‑
计算模块 400
‑
老化预测模块 500
‑
威胁情报集获取模块 600
‑
第一特征提取模块 700
‑
第二特征提取模块 800
‑
初始有效性预测模型确定模块 900
‑
有效性预测模型确定模块。
具体实施方式
20.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.现有技术中对于威胁情报进行评估时,只是建立一个信誉值评估模型,以评估威胁情报的信誉值,但现有技术无法准确根据信誉值判断威胁情报的有效性,容易造成误报的问题。
22.本发明提供了一种威胁情报有效性评估方法,图1是本发明实施例提供的一种威胁情报有效性评估方法流程图,如图1所示,包括:s101、获取威胁情报以及其信誉值影响因素,所述信誉值影响因素包括情报源以及其它信誉值影响因素;威胁情报是某种基于证据的知识,包括上下文、机制、标示、含义和能够执行的建议,这些知识与资产所面临已有的或酝酿中的威胁或危害相关,可用于资产相关主体对威胁或危害的响应或处理决策提供信息支持。威胁情报的信誉值越高代表该条威胁情报越可信,对威胁情报的信誉值进行评估时需要综合考虑多种信誉值影响因素,以保证对威胁情报信誉值评估的准确性。
23.s102、根据所述情报源确定所述威胁情报的基础信誉值;并根据所述其它信誉值影响因素确定所述威胁情报的修正信誉值;威胁情报的情报源可分为三种,分别为自产情报,商业情报以及第三方开源情报。
24.自产情报通过自主研发的检测系统生成,检测系统中包含av杀软、静态检测、动态检测、机器学习检测等多种检测方法,自产情报会通过人工确认后才会发布,通过对自产情报准确性信息的统计发现,自产情报具有很高的质量。
25.商业情报来自于国内排名前三的威胁情报公司,其情报数据经过严格的质量控制,情报数据具有完整的上下文,且在实际使用过程中通过对商业情报准确性信息的统计发现,商业情报也具有很高的质量。
26.第三方开源情报存在威胁情报数据不准确、情报数据上下文不完整、存在大量混淆和失效的错误情报等问题,在实际使用过程中,通过对第三方开源情报准确性信息的统计发现,开源情报通常没有商业情报和自产情报的质量高。
27.威胁情报的基础信誉值根据情报源的不同而不同,由于自产情报与商业情报的质量更高,因此威胁情报的情报源为自产情报或商业情报时的基础信誉值,相比于为第三方开源情报时的基础信誉值更高。
28.威胁情报的信誉值不仅受情报源的影响,还受除情报源外的其它信誉值影响因素的影响,为获得准确的威胁情报的信誉值,还要获得根据其它信誉值影响因素确定的威胁情报的修正信誉值。
29.s103、根据所述基础信誉值以及各所述修正信誉值确定所述威胁情报的信誉值;综合考虑威胁情报的所有信誉值影响因素以得到威胁情报的信誉值。
30.s104、将所述威胁情报的特征向量输入到有效性预测模型中,以对所述威胁情报进行老化预测,得到所述威胁情报的有效性;其中,所述特征向量包括:威胁情报的信誉值、
情报命中次数、情报准确性信息、情报发布次数、情报相关事件次数以及情报最后发布时间和当前时间的时间差。
31.获得威胁情报的信誉值后,再结合威胁情报的特征向量对威胁情报的有效性进行预测,判断该威胁情报是有效还是无效。威胁情报有效或无效可以作为告警的依据,从而提高了威胁情报有效性评估的准确性,降低使用威胁情报进行安全威胁检测时的误报率。
32.其中,特征向量包括:情报信誉值,情报信誉值直接影响情报的老化,当情报信誉值高时,情报可信度高;当情报信誉值低时,情报可信度低,情报信誉值很低时说明该情报已经不可信,情报无法再继续被使用,需要进行老化处理。
33.情报命中次数,情报命中次数代表情报的活跃程度。如果一个情报长期没有被安全设备或用户查询和使用,说明情报活跃度低,长期不活跃的情报说明该情报已经不可信,情报已经无法再继续被使用,需要进行老化处理。
34.情报准确性信息,情报的准确性非常重要,一个准确率很低的情报说明该情报已经不可信,情报已经无法继续再被使用,需要做老化处理。需要统计每个情报的预测值,统计比较第三方商业情报的预测值和安全专家预测值,以计算情报准确性信息。情报准确性信息包含:1.情报预测为真且第三方商业情报预测值和安全专家预测为真,2.情报预测为真而第三方商业情报预测和安全专家预测为假,3.情报预测为假且第三方商业情报预测和安全专家预测为真,4.情报预测为假且第三方商业情报预测和安全专家预测为假。
35.情报发布次数,情报发布次数代表情报的活跃次数,如果情报发布次数少说明情报活跃程度低,如果一个情报长期没有被各大情报源引用,说明情报活跃度低,不活跃的情报说明该情报已经不可信,情报无法继续再被使用,需要进行老化处理。
36.情报相关事件次数,与情报相关联的安全事件。安全事件作为实际发生的攻击行为,可以与情报进行关联分析并溯源,安全事件可以作为情报的上下文证据。安全事件的发生证明了情报可信度。如果一个情报没有与发生的攻击事件关联起来,说明情报活跃度低,不活跃的情报说明该情报已经不可信,情报无法继续再被使用,需要进行老化处理。
37.情报最后发布时间和当前时间的时间差,其代表情报的新鲜程度。随着情报最后发布过去时间的逐步变大,情报新鲜程度越来越低。如果情报的最后发布已经过去很久,说明情报没有再被各种情报数据源引用或使用,不新鲜的情报已经无法再被使用,需要进行老化处理。
38.威胁情报经老化处理后会被标记为有效或无效。
39.将威胁情报的特征向量输入到一个有效性预测模型,对威胁情报进行老化预测,得到该威胁情报的有效性。
40.在上述方案的基础上,作为一种具体的实施方式,图2是本发明实施例提供的确定有效性预测模型方法的流程图,如图2所示,在步骤s104、将所述威胁情报的特征向量输入到有效性预测模型中之前,包括:s105、获取威胁情报训练集以及威胁情报测试集;从威胁情报的数据源中获取样本数据集,选用的样本数据集中威胁情报的总量至少为10万条。其中,样本数据集中的威胁情报包括有效威胁情报和失效威胁情报,且二者的数量在样本数据集中均衡分布。
41.获得样本数据集之后将样本数据集分为威胁情报训练集以及威胁情报测试集,二者数量均衡分布。
42.s106、提取所述威胁情报训练集中每个威胁情报的特征向量与有效性标签;s107、提取所述威胁情报测试集中每个威胁情报的特征向量与有效性标签;对于威胁情报训练集中的每一个威胁情报以及威胁情报测试集中的每一个威胁情报均进行特征提取,得到特征向量与有效性标签。其中特征向量包括:威胁情报的信誉值、情报命中次数、情报准确性信息、情报发布次数、情报相关事件次数以及情报最后发布时间和当前时间的时间差。有效性标签为人工设置,1代表有效,0代表无效。
43.s108、将所述威胁情报训练集中每个威胁情报的特征向量以及有效性标签输入至xgboost模型进行训练,得到初始有效性预测模型;xgboost模型的训练目标是学习多棵回归树,使得目标函数最小(其中n为训练集样本数,yi为训练样本i的预测类别,0表示预测错误,1表示预测成功,为模型对样本i的预测值,为损失函数,
ω
(f
t
)为每t棵回归树的复杂度);采用迭代的方法训练每一棵回归树,每训练一棵回归树,更新当前整个分类模型对样本总的预测值,回归树的生成采用逐层分裂的方法,不断地扩展回归树的深度,在完成回归树的生成后,需要进行减枝以减小回归树的复杂度,经过减枝后,计算各个叶子结点的对落入其中样本的当前预测值,输出训练完成后的模型,该模型即为初始有效性预测模型。
44.s109、将所述威胁情报测试集中每个威胁情报的特征向量以及有效性标签输入至所述初始有效性预测模型中,并根据预测结果修正所述初始有效性预测模型,得到所述有效性预测模型。
45.进一步的需要对初始有效性预测模型进行优化,以提高预测模型的预测准确度。为达到该目的,本技术将威胁情报测试集中每个威胁情报的特征向量以及有效性标签输入至初始有效性预测模型,输出一个预测结果概率值p
i
,概率值p
i
为0
‑
1范围内的任一数值,当该概率值p
i
>0.5时,认定该样本威胁情报为有效情报,p
i
≤0.5时,认定该样本威胁情报为无效情报。之后,根据预测结果和有效性标签的对比,确定初始有效性预测模型的预测准确性,若该预测准确性小于准确性阈值,则对初始预测模型的参数或威胁情报训练集中的威胁情报进行调整,得到准确度更高的有效性预测模型。
46.作为一种可选的实施方式,所述其它信誉值影响因素包括威胁情报的时效性、威胁情报的内容完整性或威胁情报涉及的情报源数量中的一种或多种;威胁情报的时效性会对其信誉值造成影响,即威胁情报发布时间越久,其时效性越低,则其信誉值也就越低;反之,威胁情报发布时间越短,其时效性越高,则其信誉值也就越高。相应地,威胁情报的内容也会对其信誉值造成影响,也就是说威胁情报的内容并不一定是全面的,当威胁情报中缺失的内容越多,其信誉值也就越低;除此之外,威胁情报涉及的情报源数量也会对威胁情报的信誉值造成影响,威胁情报在越多的情报源中获取到,证明该威胁情报越可信,那么该条威胁情报的信誉值也会更高。
47.图3是本发明实施例提供的确定威胁情报修正信誉值方法流程图,如图3所示,所述s102、根据所述其它信誉值影响因素确定所述威胁情报的修正信誉值包括:
s1021、分别设置与所述威胁情报的时效性、威胁情报的内容完整性或威胁情报涉及的情报源数量相对应的初始信誉值;设置好基础信誉值后,需要考虑其它信誉值影响因素对威胁情报信誉值的影响情况,因此要为每个信誉值影响因素设置一个初始信誉值,来初步定义其它信誉值影响因素对信誉值的影响情况。
48.s1022、当所述威胁情报的时效性低于预设时效性阈值时,降低与所述威胁情报的时效性相对应的初始信誉值,得到第一修正信誉值;当威胁情报的时效性低于预设时效性阈值时,说明该威胁情报的可信度低,则需要在初始信誉值的基础上定义衰减值,以减少初始信誉值。作为一种优选的实施方式,初始信誉值设置为1,当威胁情报的时效性低于预设时效性阈值时,计算威胁情报的发布时间与当前时间的时间差值,当前时间与威胁情报发布时间每差一天,初始信誉值衰减1%,初始信誉值衰减后即为第一修正信誉值。
49.s1023、当所述威胁情报的内容完整性低于预设完整性阈值时,降低与所述威胁情报的内容完整性相对应的初始信誉值,得到第二修正信誉值;当威胁情报的内容完整性低于预设完整性阈值时,说明该威胁情报的可信度低,则需要在初始信誉值的基础上定义衰减值,以减少初始信誉值。作为一种优选的实施方式,初始信誉值设置为1,预设完整性阈值为威胁情报的全部内容数量,若威胁情报的实际内容数量相对于完整内容数量减少一项,则初始信誉值衰减5%,初始信誉值衰减后即为第二修正信誉值。
50.作为一种可选的实施方式,所述威胁情报的内容至少包括:情报标签、关联ip、关联域名、关联url、关联文件、情报上下文中的ip是否在黑名单中、情报上下文中的ip是否在白名单中、情报上下文中的域名是否在黑名单中、情报上下文中的域名是否在白名单中、情报上下文中的url是否在黑名单中、情报上下文中的url是否在白名单中、情报上下文中的恶意文件是否在白名单中、情报上下文中的恶意文件是否在黑名单中、威胁情报相关事件。
51.s1024、当所述威胁情报涉及的情报源数量低于预设情报源数量阈值时,降低与所述威胁情报涉及的情报源数量相对应的初始信誉值;当所述威胁情报涉及的情报源数量高于预设情报源数量阈值时,增加与所述威胁情报涉及的情报源数量相对应初始信誉值,得到第三修正信誉值。
52.判断威胁情报是否在多个情报源中出现,越多情报源包含该威胁情报,则证明该威胁情报越可信。作为一种优选的实施方式,初始信誉值设置为1,预设情报源数量阈值为2个,若威胁情报涉及的情报源数量大于2个,则每增加一个情报源,初始信誉值增加5%,反之,若威胁情报涉及的情报源数量小于2个,则每减少一个情报源,初始信誉值减少5%,衰减或增加后的初始信誉值即为第三修正信誉值。
53.需要说明的是,以上关于初始信誉值的修改方式或修正数据,仅为举例说明,其并不应限制本技术的保护范围。另外,以上步骤s1022、s1023和s1024的执行顺序并不以前述的描述顺序为限,当然这三个步骤也可同时执行,本技术对此不做限制。
54.除此之外,为增加信誉值准确性,需排除不稳定数据对威胁情报信誉值造成的影响。在对信誉值影响因素相应的初始信誉值进行修正后,获取该信誉值影响因素对应的历史信誉值范围,判断对应的修正信誉值是否在预设信誉值范围内,若在,则证明该修正信誉
值的波动不大,将该修正信誉值作为确定的修正信誉值;若不在,则证明该修正信誉值的波动过大,将历史信誉值的均值作为确定的修正信誉值,进行后续的数据处理。
55.作为一种可选的实施方式,图4是本发明实施例提供的获取威胁情报的方法流程图,如图4所示,所述s101、获取威胁情报,包括:s1011、获取多个初始威胁情报;由于威胁情报可能会从多个数据源获取,而从不同的数据源获取的针对同一威胁的威胁情报的情报数据完整性不尽相同,因此需要尽可能多的获取到每一个威胁情报的情报数据,以增加威胁情报的可信度。
56.s1012、将所述多个初始威胁情报的情报数据进行标准化;通常来说,从不同情报源获取的威胁情报的情报数据格式可能不同,需要将不同格式的情报数据转化为统一的格式,以便后续的数据处理。目前主要标准有cybox、stix、taxii 3种。 cybox (cyberobservables expression)提供了一个标准化的威胁情报表达方法,主要用于规范描述在通信和网络操作中观察到事件的状态属性。stix (structured threat information expression)设计了一套结构化威胁信息表达式,通过威胁源、攻击动机、攻击手段、防御措施等特征表达威胁攻击细节,是目前最普遍使用的威胁情报数据格式。taxii(trusted automated exchange of indicator information) 则定义了数据传输共享的规范,在实施时可以跨组织、产品和服务边界共享网络威胁情报。目前主要基于cybox进行情报描述,基于stix进行格式定义,基于taxii进行情报共享。
57.s1013、将所述多个初始威胁情报进行相似度计算,将相似度大于相似度阈值的多个初始威胁情报的情报数据进行数据归并,得到所述威胁情报。
58.通过比较威胁情报的有效时间、攻击组织、情报标签等关键指标的相似程度,进而对相似的情报进行数据归并。
59.有效时间相似度计算方法,其将两条威胁情报的有效时间差映射到[0,1]空间中。当两条威胁情报有效时间一致时,其时间相似度为1,间隔时间越长,情报相似度越小。
60.攻击组织是否相同是两条威胁情报是否相似的最基本特征。从两条情报数据中是否有完全相同的攻击组织进行比较。当两条威胁情报攻击组织完全相同时,相似度为1,否则为0。
61.情报标签是情报的关键资源,标签是否相同是两条威胁情报是否相似的基本特征。当两条威胁情报有完全的情报标签时,相似度为1,否则为0。
62.为上述有效时间、攻击组织、情报标签中的每一项相似度设定一个权重,综合三项相似度得到两条威胁情报的相似度,判断该相似度是否大于预设相似度阈值,若大于则将两条威胁情报的情报数据进行归并,得到一个更为完整的威胁情报。
63.具体实施例一,获取威胁情报,判断该威胁情报的情报源为自产情报,将该威胁情报的基础信誉值设置为80。将威胁情报的完整性相应的初始信誉值设为1,缺少一项内容将相应初始信誉值减少5%,判断情报内容中缺少5项内容,则威胁情报的完整性相应的初始信誉值衰减为1
‑
25%,即第一修正信誉值为0.75;将威胁情报的时效性相应的初始信誉值设为1,判断该威胁情报的时效性低于预设时效性阈值,计算发布时间与当前时间的差值,每相差一天将初始信誉值减少1%,判断该威胁情报为30天前发布,则相应的初始信誉值衰减为1
‑
30%,即第二修正信誉值为0.7;将威胁情报涉及的情报源数量对应的初始信誉值设置为
1,预设情报源数量阈值设为2,判断该威胁情报涉及3个数据源,则相应的初始信誉值增加为1 5%,即第三修正信誉值为1.05。
64.综合基础信誉值与修正信誉值,得到该威胁情报的信誉值为80*0.75*0.7*1.05=80*(1
‑
25%) *(1
‑
30%)*(1 5%)=44.1。
65.将上述信誉值以及威胁情报的情报特征输入情报老化模型,得到其有效性为无效,判断该威胁情报无需进行报告。
66.本发明实施例还提供了一种威胁情报有效性评估装置,图5是本发明实施例提供的一种威胁情报有效性评估装置结构框图,如图5所示,包括:影响因素获取模块100,用于获取威胁情报以及其信誉值影响因素,所述信誉值影响因素包括情报源以及其它信誉值影响因素;威胁情报是某种基于证据的知识,包括上下文、机制、标示、含义和能够执行的建议,这些知识与资产所面临已有的或酝酿中的威胁或危害相关,可用于资产相关主体对威胁或危害的响应或处理决策提供信息支持。威胁情报的信誉值越高代表该条威胁情报越可信,对威胁情报的信誉值进行评估时需要综合考虑多种信誉值影响因素,以保证对威胁情报信誉值评估的准确性。
67.信誉值确定模块200,用于根据所述情报源确定所述威胁情报的基础信誉值,并根据所述其它信誉值影响因素确定所述威胁情报的修正信誉值;威胁情报的情报源可分为三种,分别为自产情报,商业情报以及第三方开源情报。
68.自产情报通过自主研发的检测系统生成,检测系统中包含av杀软、静态检测、动态检测、机器学习检测等多种检测方法,自产情报会通过人工确认后才会发布,通过对自产情报准确性信息的统计发现,自产情报具有很高的质量。
69.商业情报来自于国内排名前三的威胁情报公司,其情报数据经过严格的质量控制,情报数据具有完整的上下文,且在实际使用过程中通过对商业情报准确性信息的统计发现,商业情报也具有很高的质量。
70.第三方开源情报存在威胁情报数据不准确、情报数据上下文不完整,存在大量混淆和失效的错误情报等问题,在实际使用过程中,通过对第三方开源情报准确性信息的统计发现,开源情报通常没有商业情报和自产情报的质量高。
71.威胁情报的基础信誉值根据情报源的不同而不同,由于自产情报与商业情报的质量更高,因此威胁情报的情报源为自产情报或商业情报时的基础信誉值,相比于为第三方开源情报时的基础信誉值更高。
72.威胁情报的信誉值不仅受情报源的影响,还受除情报源外的其它信誉值影响因素的影响,为获得准确的威胁情报的信誉值,还要获得根据其它信誉值影响因素确定的威胁情报的修正信誉值。
73.计算模块300,用于根据所述基础信誉值以及各所述修正信誉值确定所述威胁情报的信誉值;综合考虑威胁情报的所有信誉值影响因素以得到威胁情报的信誉值。
74.老化预测模块400,用于将所述威胁情报的特征向量输入到有效性预测模型中,以对所述威胁情报进行老化预测,得到所述威胁情报的有效性;其中,所述特征向量包括:威胁情报的信誉值、情报命中次数、情报准确性信息、情报发布次数、情报相关事件次数以及
情报最后发布时间和当前时间的时间差。
75.获得威胁情报的信誉值后,再结合威胁情报的特征向量对威胁情报的有效性进行预测,判断该威胁情报是有效还是无效。威胁情报有效或无效可以作为告警的依据,从而提高了威胁情报有效性评估的准确性,降低使用威胁情报进行安全威胁检测时的误报率。
76.获得威胁情报的信誉值后,再结合威胁情报其它特征向量对威胁情报的有效性进行预测,判断该威胁情报是有效还是无效。威胁情报有效或无效可以作为告警的依据,从而提高了威胁情报有效性评估的准确性,降低使用威胁情报进行安全威胁检测时的误报率。
77.其中,特征向量包括:情报信誉值,情报信誉值直接影响情报的老化,当情报信誉值高时,情报可信度高;当情报信誉值低时,情报可信度低,情报信誉值很低时说明该情报已经不可信,情报无法再继续被使用,需要进行老化处理。
78.情报命中次数,情报命中次数代表情报的活跃程度。如果一个情报长期没有被安全设备或用户查询和使用,说明情报活跃度低,长期不活跃的情报说明该情报已经不可信,情报已经无法再继续被使用,需要进行老化处理。
79.情报准确性信息,情报的准确性非常重要,一个准确率很低的情报说明该情报已经不可信,情报已经无法继续再被使用,需要做老化处理。需要统计每个情报的预测值,统计比较第三方商业情报的预测值和安全专家预测值,以计算情报准确性信息。情报准确性信息包含:1.情报预测为真且第三方商业情报预测值和安全专家预测为真,2.情报预测为真而第三方商业情报预测和安全专家预测为假,3.情报预测为假且第三方商业情报预测和安全专家预测为真,4.情报预测为假且第三方商业情报预测和安全专家预测为假。
80.情报发布次数,情报发布次数代表情报的活跃次数,如果情报发布次数少说明情报活跃程度低,如果一个情报长期没有被各大情报源引用,说明情报活跃度低,不活跃的情报说明该情报已经不可信,情报无法继续再被使用,需要进行老化处理。
81.情报相关事件次数,与情报相关联的安全事件。安全事件作为实际发生的攻击行为,可以与情报进行关联分析并溯源,安全事件可以作为情报的上下文证据。安全事件的发生证明了情报可信度。如果一个情报没有与发生的攻击事件关联起来,说明情报活跃度低,不活跃的情报说明该情报已经不可信,情报无法继续再被使用,需要进行老化处理。
82.情报最后发布时间和当前时间的时间差,其代表情报的新鲜程度。随着情报最后发布过去时间的逐步变大,情报新鲜程度越来越低。如果情报的最后发布已经过去很久,说明情报没有再被各种情报数据源引用或使用,不新鲜的情报已经无法再被使用,需要进行老化处理。
83.威胁情报经老化处理后会被标记为有效或无效。
84.将威胁情报的特征向量输入到一个有效性预测模型,对威胁情报进行老化预测,得到该威胁情报的有效性。
85.在上述方案的基础上,作为一种具体的实施方式,图6是本发明实施例提供的威胁情报集获取模块、第一特征提取模块、第二特征提取、初始有效性预测模型确定模块以及有效性预测模型确定模块的结构框图,如图6所示,该装置还包括:威胁情报集获取模块500,用于获取威胁情报训练集以及威胁情报测试集;从威胁情报的数据源中获取样本数据集,选用的样本数据集中威胁情报的总量至
少为10万条。其中,样本数据集中的威胁情报包括有效威胁情报和失效威胁情报,且二者的数量在样本数据集中均衡分布。
86.获得样本数据集之后将样本数据集分为威胁情报训练集以及威胁情报测试集,二者数量均衡分布。
87.第一特征提取模块600,用于提取所述威胁情报训练集中每个威胁情报的特征向量与有效性标签;第二特征提取模块700,用于提取所述威胁情报测试集中每个威胁情报的特征向量与有效性标签;对于威胁情报训练集中的每一个威胁情报以及威胁情报测试集中的每一个威胁情报均进行特征提取,得到特征向量与有效性标签。其中特征向量包括:威胁情报的信誉值、情报命中次数、情报准确性信息、情报发布次数、情报相关事件次数以及情报最后发布时间和当前时间的时间差。有效性标签为人工设置,1代表有效,0代表无效。
88.初始有效性预测模型确定模块800,用于将所述威胁情报训练集中每个威胁情报的特征向量以及有效性标签输入至xgboost模型进行训练,得到初始有效性预测模型;xgboost模型的训练目标是学习多棵回归树,使得目标函数最小(其中n为训练集样本数,yi为训练样本i的预测类别,0表示预测错误,1表示预测成功,为模型对样本i的预测值,为损失函数,
ω
(f
t
)为每t棵回归树的复杂度);采用迭代的方法训练每一棵回归树,每训练一棵回归树,更新当前整个分类模型对样本总的预测值,回归树的生成采用逐层分裂的方法,不断地扩展回归树的深度,在完成回归树的生成后,需要进行减枝以减小回归树的复杂度,经过减枝后,计算各个叶子结点的对落入其中样本的当前预测值,输出训练完成后的模型,该模型即为初始有效性预测模型。
89.有效性预测模型确定模块900,用于将所述威胁情报测试集中每个威胁情报的特征向量以及有效性标签输入至所述初始有效性预测模型中,并根据预测结果修正所述初始有效性预测模型,得到所述有效性预测模型。
90.进一步的需要对初始有效性预测模型进行优化,以提高预测模型的预测准确度。为达到该目的,本技术将威胁情报测试集中每个威胁情报的特征向量以及有效性标签输入至初始有效性预测模型,输出一个预测结果概率值p
i
,概率值p
i
为0
‑
1范围内的任一数值,当该概率值p
i
>0.5时,认定该样本威胁情报为有效情报,p
i
≤0.5时,认定该样本威胁情报为无效情报。之后,根据预测结果和有效性标签的对比,确定初始有效性预测模型的预测准确性,若该预测准确性小于准确性阈值,则对初始预测模型的参数或威胁情报训练集中的威胁情报进行调整,得到准确度更高的有效性预测模型。
91.作为一种可选的实施方式,所述其它信誉值影响因素包括威胁情报的时效性、威胁情报的内容完整性或威胁情报涉及的情报源数量中的一种或多种;威胁情报的时效性会对其信誉值造成影响,即威胁情报发布时间越久,其时效性越低,则其信誉值也就越低;反之,威胁情报发布时间越短,其时效性越高,则其信誉值也就越高。相应地,威胁情报的内容也会对其信誉值造成影响,也就是说威胁情报的内容并不一定是全面的,当威胁情报中缺失的内容越多,其信誉值也就越低;除此之外,威胁情报涉及
的情报源数量也会对威胁情报的信誉值造成影响,威胁情报在越多的情报源中获取到,证明该威胁情报越可信,那么该条威胁情报的信誉值也会更高。
92.图7是本发明实施例提供的信誉值确定模块的结构框图,如图7所示,所述信誉值确定模块200包括:初始信誉值确定子模块2001,用于分别设置与所述威胁情报的时效性、威胁情报的内容完整性或威胁情报涉及的情报源数量相对应的初始信誉值;设置好基础信誉值后,需要考虑其它信誉值影响因素对威胁情报信誉值的影响情况,因此要为每个信誉值影响因素设置一个初始信誉值,来初步定义其它信誉值影响因素对信誉值的影响情况。
93.第一修正子模块2002,用于当所述威胁情报的时效性低于预设时效性阈值时,降低与所述威胁情报的时效性相对应的初始信誉值,得到第一修正信誉值;当威胁情报的时效性低于预设时效性阈值时,说明该威胁情报的可信度低,则需要在初始信誉值的基础上定义衰减值,以减少初始信誉值。作为一种优选的实施方式,初始信誉值设置为1,当威胁情报的时效性低于预设时效性阈值时,计算威胁情报的发布时间与当前时间的时间差值,当前时间与威胁情报发布时间每差一天,初始信誉值衰减1%。
94.第二修正子模块2003,用于当所述威胁情报的内容完整性低于预设完整性阈值时,降低与所述威胁情报的内容完整性相对应的初始信誉值,得到第二修正信誉值;当威胁情报的内容完整性低于预设完整性阈值时,说明该威胁情报的可信度低,则需要在初始信誉值的基础上定义衰减值,以减少初始信誉值。作为一种优选的实施方式,初始信誉值设置为1,预设完整性阈值为威胁情报的全部内容数量,若威胁情报的实际内容数量相对于完整内容数量减少一项,则初始信誉值衰减5%,初始信誉值衰减后即为第二修正信誉值。
95.作为一种可选的实施方式,所述威胁情报的内容至少包括:情报标签、关联ip、关联域名、关联url、关联文件、情报上下文中的ip是否在黑名单中、情报上下文中的ip是否在白名单中、情报上下文中的域名是否在黑名单中、情报上下文中的域名是否在白名单中、情报上下文中的url是否在黑名单中、情报上下文中的url是否在白名单中、情报上下文中的恶意文件是否在白名单中、情报上下文中的恶意文件是否在黑名单中、威胁情报相关事件。
96.第三修正子模块2004,用于当所述威胁情报涉及的情报源数量低于预设情报源数量阈值时,降低与所述威胁情报涉及的情报源数量相对应的初始信誉值;当所述威胁情报涉及的情报源数量高于预设情报源数量阈值时,增加与所述威胁情报涉及的情报源数量相对应初始信誉值,得到第三修正信誉值。
97.判断威胁情报是否在多个情报源中出现,越多情报源包含该威胁情报,则证明该威胁情报越可信。作为一种优选的实施方式,初始信誉值设置为1,预设情报源数量阈值为2个,若威胁情报涉及的情报源数量大于2个,则每增加一个情报源,初始信誉值增加5%,反之,若威胁情报涉及的情报源数量小于2个,则每减少一个情报源,初始信誉值减少5%,衰减或增加后的初始信誉值即为第三修正信誉值。需要说明的是,以上关于初始信誉值的修改方式或修正数据,仅为举例说明,其并不应限制本技术的保护范围。
98.除此之外,为增加信誉值准确性,需排除不稳定数据对威胁情报信誉值造成的影响。在对信誉值影响因素相应的初始信誉值进行修正后,获取该信誉值影响因素对应的历
史信誉值范围,判断对应的修正信誉值是否在预设信誉值范围内,若在,则证明该修正信誉值的波动不大,将该修正信誉值作为确定的修正信誉值;若不在,则证明该修正信誉值的波动过大,将历史信誉值的均值作为确定的修正信誉值,进行后续的数据处理。
99.作为一种可选的实施方式,图8是本发明实施例提供的影响因素获取模块的结构框图,如图8所示,所述影响因素获取模块100包括:初始威胁情报获取子模块1001,用于获取多个初始威胁情报;由于威胁情报可能会从多个数据源获取,而从不同的数据源获取的针对同一威胁的威胁情报的情报数据完整性不尽相同,因此需要尽可能多的获取到每一个威胁情报的情报数据,以增加威胁情报的可信度。
100.标准化子模块1002,用于将所述多个初始威胁情报的情报数据进行标准化;通常来说,从不同情报源获取的威胁情报的情报数据格式可能不同,需要将不同格式的情报数据转化为统一的格式,以便后续的数据处理。目前主要标准有cybox、stix、taxii 3种。 cybox (cyberobservables expression)提供了一个标准化的威胁情报表达方法,主要用于规范描述在通信和网络操作中观察到事件的状态属性。stix (structured threat information expression)设计了一套结构化威胁信息表达式,通过威胁源、攻击动机、攻击手段、防御措施等特征表达威胁攻击细节,是目前最普遍使用的威胁情报数据格式。taxii(trusted automated exchange of indicator information) 则定义了数据传输共享的规范,在实施时可以跨组织、产品和服务边界共享网络威胁情报。目前主要基于cybox进行情报描述,基于stix进行格式定义,基于taxii进行情报共享。
101.数据归并子模块1003,用于将所述多个初始威胁情报进行相似度计算,将相似度大于相似度阈值的多个初始威胁情报的情报数据进行数据归并,得到所述威胁情报。
102.通过比较威胁情报的有效时间、攻击组织、情报标签等关键指标的相似程度,进而对相似的情报进行数据归并。
103.有效时间相似度计算方法,其将两条威胁情报的有效时间差映射到[0,1]空间中。当两条威胁情报有效时间一致时,其时间相似度为1,间隔时间越长,情报相似度越小。
104.攻击组织是否相同是两条威胁情报是否相似的最基本特征。从两条情报数据中是否有完全相同的攻击组织进行比较。当两条威胁情报攻击组织完全相同时,相似度为1,否则为0。
105.情报标签是情报的关键资源,标签是否相同是两条威胁情报是否相似的基本特征。当两条威胁情报有完全的情报标签时,相似度为1,否则为0。
106.为上述有效时间、攻击组织、情报标签中的每一项相似度设定一个权重,综合三项相似度得到两条威胁情报的相似度,判断该相似度是否大于预设相似度阈值,若大于则将两条威胁情报的情报数据进行归并,得到一个更为完整的威胁情报。
107.本发明还提供了一种威胁情报有效性评估系统,包括上述的威胁情报有效性评估装置。
108.本发明还提供了一种计算机存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的威胁情报有效性评估方法。
109.上述存储介质中存储有上述软件,该存储介质包括但不限于:光盘、软盘、硬盘、可擦写存储器等。
110.上述技术方案具有如下有益效果:确定威胁情报的各信誉值影响因素,并综合各影响因素计算威胁情报的信誉值,将信誉值以及该威胁情报的情报特征判断该威胁情报的有效性。本技术的方法、装置、系统或计算机存储介质中设置了有效的信誉值判断机制以及有效性评估机制,使得到的信誉值的准确度更高,最终得到的威胁情报有效性的准确性更高,减少误报率。
111.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。