一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

样本威胁度评估方法、装置、电子设备及存储介质与流程

2022-02-20 01:16:15 来源:中国专利 TAG:


1.本技术涉及安全技术领域,具体而言,涉及一种样本威胁度评估方法、装置、电子设备及存储介质。


背景技术:

2.随着网络安全形式愈发严峻,对数据进行安全分析也随之越来越重要。现有的分析样本的威胁程度的方式大多是针对某类检测结果,根据单一数据源进行判定的,导致样本的威胁程度的评估取决于数据源的质量,当数据源不完整时,样本的威胁程度的评估效果较差,准确率较低,比如容易发生漏检或错检。


技术实现要素:

3.本技术实施例的目的在于提供一种样本威胁度评估方法、装置、电子设备及存储介质,用以改善现有技术中样本的威胁程度评估效果差、准确率低的问题。
4.第一方面,本技术实施例提供了一种样本威胁度评估方法,所述方法包括:获取来自多个数据源的多个数据样本;确定用于评估每个数据样本的威胁程度的多个指标;对每个指标进行量化评分,获得每个数据样本对应的各个指标的评分结果;基于每个数据样本对应的各个指标的评分结果判断每个数据样本的威胁程度。
5.在上述实现过程中,通过对用于评估数据样本的威胁程度的多个指标进行量化评分,然后根据数据样本对应的各指标的评分结果判断数据样本的威胁程度,如此可针对多个数据源的数据样本按照统一指标进行威胁程度分析,从而可以衡量来自不同数据源的数据样本的威胁程度,评估效果更好,且准确率更高。
6.可选地,所述对每个指标进行量化评分,获得每个数据样本对应的各个指标的评分结果,包括:
7.获取每个指标的权重以及每个数据样本对应的各个指标的评价分数,其中,所述权重表征指标对于评价数据样本的威胁程度的重要性,所述评价分数表征指标对于评价数据样本的威胁程度的影响程度;
8.根据所述权重以及所述评价分数获取每个数据样本对应的各个指标的评分结果。
9.在上述实现过程中,通过权重和评价分数这两个维度来确定各个指标的评分结果,可以更合理、更准确地获取指标的评分结果。
10.可选地,所述获取每个指标的权重,包括:
11.基于所述多个指标构建层次结构模型,所述层次结构模型包括目标层、准则层和指标层,所述目标层为对各个指标进行量化,所述准则层包括所述多个数据源,所述指标层包括所述多个指标;
12.利用层次分析法,分别获取所述层次结构模型中每个指标的权重。
13.在上述实现过程中,由于层次分析法能够将定量分析与定性分析结合起来,用于决策者的经验判断衡量各个指标之间的相对重要性,所以可以通过层次分析法更合理地获
取各个指标的权重。
14.可选地,所述利用层次分析法,分别获取所述层次结构模型中每个指标的权重,包括:
15.根据所述层次结构模型中各层次中各元素的重要性标度,构造所述准则层和所述指标层分别对应的判断矩阵;
16.根据所述判断矩阵获取每个指标的权重。
17.在上述实现过程中,通过构造判断矩阵来获取指标的权重,可以更加准确地衡量各个指标相对于目标的重要性,进而获得的权重更准确。
18.可选地,所述重要性标度为多个专家用户对各元素进行打分后的平均分,这样可以平衡多个专家用户的不同打分结果,使得打分更合理。
19.可选地,获取每个数据样本对应的各个指标的评价分数,包括:
20.获取每个数据样本的样本特征数据;
21.根据每个数据样本的样本特征数据获取该数据样本对应的各个指标的评价分数。
22.在上述实现过程中,根据样本特征数据来确定指标的评价分数,这样可以结合具体的业务场景来确定评价分数,从而在具体的业务场景下,对数据样本的威胁程度的评估效果更好。
23.可选地,所述样本特征数据包括:是否命中恶意软件家族、是否命中apt团伙、访问数量、日志协议类型、邮件协议类型、链接内容、是否存在异常主机行为、是否存在异常网络行为、是否为恶意释放文件中的至少两种。
24.可选地,所述根据所述权重以及所述评价分数获取每个数据样本对应的各个指标的评分结果,包括:
25.将对应的指标的权重与评价分数相乘,获得的乘积作为每个数据样本对应的指标的评分结果。这样获得的评分结果能更好地评估每个数据样本对应的指标对于威胁程度评估的影响程度。
26.可选地,所述基于每个数据样本对应的各个指标的评分结果判断每个数据样本的威胁程度,包括:
27.获取高威胁标准样本以及所述高威胁标准样本对应的各个指标的评分结果;
28.根据每个数据样本对应的各个指标的评分结果与所述高威胁标准样本对应的各个指标的评分结果,获取每个数据样本与所述高威胁标准样本的相似度;
29.根据所述相似度判断每个数据样本的威胁程度。
30.在上述实现过程中,将数据样本与高威胁标准样本进行相似度判断,如此可以更加准确地评估数据样本的威胁程度。
31.可选地,所述根据所述相似度判断每个数据样本的威胁程度,包括:
32.在所述相似度大于或等于设定阈值时,则确定对应的数据样本的威胁程度大于或等于设定威胁程度,这样可以从多个数据样本中筛选出高威胁样本。
33.可选地,所述设定阈值为根据所述多个指标中的指定指标的评分结果取最大评价分数以及其他指标的评分结果取最小评价分数、与所述高威胁标准样本对应的各指标的评分结果确定的,如此可更为合理地设置设定阈值。
34.可选地,所述方法还包括:
35.确定所述多个数据样本中大于或等于所述设定威胁程度的第一样本数量以及小于所述设定威胁程度的第二样本数量;
36.基于所述第一样本数量和所述第二样本数量生成k-s曲线;
37.利用所述k-s曲线对所述设定阈值进行调整。
38.在上述实现过程中,利用k-s曲线对设定阈值进行调整,以此可实现对设定阈值的灵活调整,进而可以进一步提高对数据样本的威胁程度的评估准确性。
39.可选地,所述多个指标包括恶意软件家族、apt团伙、ip五元组、协议类型、邮件信息、链接、主机行为、网络行为、释放文件中的至少两种。这样可以将多个数据样本以统一的指标来进行衡量其威胁程度,使得威胁程度的评估效果更好。
40.可选地,所述基于每个数据样本对应的各个指标的评分结果判断每个数据样本的威胁程度之后,还包括:
41.筛选获得威胁程度大于或等于设定威胁程度的目标数据样本,所述目标数据样本用于作为威胁行为分析的样本。这样不是针对全部的数据样本进行分析,可有效提高分析效率,并且更有针对性,使得后续部署的安全防御措施能够更准确,从而确保网络更安全。
42.第二方面,本技术实施例提供了一种样本威胁度评估装置,所述装置包括:
43.样本获取模块,用于获取来自多个数据源的多个数据样本;
44.指标确定模块,用于确定用于评估每个数据样本的威胁程度的多个指标;
45.量化评分模块,用于对每个指标进行量化评分,获得每个数据样本对应的各个指标的评分结果;
46.威胁度评估模块,用于基于每个数据样本对应的各个指标的评分结果判断每个数据样本的威胁程度。
47.可选地,所述量化评分模块,用于获取每个指标的权重以及每个数据样本对应的各个指标的评价分数,其中,所述权重表征指标对于评价数据样本的威胁程度的重要性,所述评价分数表征指标对于评价数据样本的威胁程度的影响程度;根据所述权重以及所述评价分数获取每个数据样本对应的各个指标的评分结果。
48.可选地,所述量化评分模块,用于基于所述多个指标构建层次结构模型,所述层次结构模型包括目标层、准则层和指标层,所述目标层为对各个指标进行量化,所述准则层包括所述多个数据源,所述指标层包括所述多个指标;利用层次分析法,分别获取所述层次结构模型中每个指标的权重。
49.可选地,所述量化评分模块,用于根据所述层次结构模型中各层次中各元素的重要性标度,构造所述准则层和所述指标层分别对应的判断矩阵;根据所述判断矩阵获取每个指标的权重。
50.可选地,所述重要性标度为多个专家用户对各元素进行打分后的平均分。
51.可选地,所述量化评分模块,用于获取每个数据样本的样本特征数据;根据每个数据样本的样本特征数据获取该数据样本对应的各个指标的评价分数。
52.可选地,所述样本特征数据包括:是否命中恶意软件家族、是否命中apt团伙、访问数量、日志协议类型、邮件协议类型、链接内容、是否存在异常主机行为、是否存在异常网络行为、是否为恶意释放文件中的至少两种。
53.可选地,所述量化评分模块,用于将对应的指标的权重与评价分数相乘,获得的乘
积作为每个数据样本对应的指标的评分结果。
54.可选地,所述威胁度评估模块,用于获取高威胁标准样本以及所述高威胁标准样本对应的各个指标的评分结果;根据每个数据样本对应的各个指标的评分结果与所述高威胁标准样本对应的各个指标的评分结果,获取每个数据样本与所述高威胁标准样本的相似度;根据所述相似度判断每个数据样本的威胁程度。
55.可选地,所述威胁度评估模块,用于在所述相似度大于或等于设定阈值时,则确定对应的数据样本的威胁程度大于或等于设定威胁程度。
56.可选地,所述设定阈值为根据所述多个指标中的指定指标的评分结果取最大评价分数以及其他指标的评分结果取最小评价分数、与所述高威胁标准样本对应的各指标的评分结果确定的。
57.可选地,所述装置还包括:
58.阈值调整模块,用于确定所述多个数据样本中大于或等于所述设定威胁程度的第一样本数量以及小于所述设定威胁程度的第二样本数量;基于所述第一样本数量和所述第二样本数量生成k-s曲线;利用所述k-s曲线对所述设定阈值进行调整。
59.可选地,所述多个指标包括恶意软件家族、apt团伙、ip五元组、协议类型、邮件信息、链接、主机行为、网络行为、释放文件中的至少两种。
60.可选地,所述装置还包括:
61.筛选模块,用于筛选获得威胁程度大于或等于设定威胁程度的目标数据样本,所述目标数据样本用于作为威胁行为分析的样本。
62.第三方面,本技术实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
63.第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
64.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
65.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
66.图1为本技术实施例提供的一种样本威胁度评估方法的流程图;
67.图2为本技术实施例提供的一种多个数据源对应的多个指标的示意图;
68.图3为本技术实施例提供的一种层次结构模型的结构示意图;
69.图4为本技术实施例提供的一种k-s曲线的示意图;
70.图5为本技术实施例提供的一种样本威胁度评估装置的结构框图;
71.图6为本技术实施例提供的一种用于执行样本威胁度评估方法的电子设备的结构
示意图。
具体实施方式
72.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述。
73.需要说明的是,本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上,鉴于此,本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
74.本技术实施例提供一种样本威胁度评估方法,该方法通过对用于评估数据样本的威胁程度的多个指标进行量化评分,然后根据数据样本对应的各指标的评分结果判断数据样本的威胁程度,如此可针对多个数据源的数据样本按照统一指标进行威胁程度分析,从而可以衡量来自不同数据源的数据样本的威胁程度,评估效果更好,且准确率更高。
75.请参照图1,图1为本技术实施例提供的一种样本威胁度评估方法的流程图,该方法包括如下步骤:
76.步骤s110:获取来自多个数据源的多个数据样本。
77.其中,多个数据源可以理解为是指具有安全威胁的数据源,在本技术实施例中,多个数据源可以包括但不限于:样本同源性分析结果、样本传播日志、样本动态行为日志等,通过选择合理的数据源来对数据样本进行威胁度评估,可以有效解决单一数据源不完整而导致评估效果差的问题。可以理解地,本技术实施例中以这三个数据源中的数据样本为例进行威胁度评估,实际应用中,还可以获取更多不同的数据源的数据样本来进行威胁度评估。
78.步骤s120:确定用于评估每个数据样本的威胁程度的多个指标。
79.以上述三个数据源为例,每个数据源可以分为不同的指标,如针对样本同源性分析结果,其可包括两个指标:恶意软件家族、高级持续性威胁(advanced persistent threat,apt)团伙,针对样本传播日志,其可以包括四个指标:ip五元组、协议类型、邮件信息、链接等,针对样本动态行为分析结果,其可以包括三个指标:主机行为、网络行为、释放文件。如此,可获得一共九个指标,如图2所示。这样可以将多个数据样本以统一的指标来衡量其威胁程度,使得威胁程度的评估效果更好。
80.可以理解的是,在具体应用中,用于评估数据样本的威胁程度的多个指标可以包括这九个指标中的至少两个指标,当然,具体的指标数量可以根据实际业务需求灵活选择,具体的指标内容也可以根据实际业务需求灵活设置,也就是说,可以根据数据源的不同来确定相应的指标,指标的设置可以跟实际业务相关。
81.步骤s130:对每个指标进行量化评分,获得每个数据样本对应的各个指标的评分结果。
82.由于多个指标是根据各个数据源来确定的,所以为了对多个数据源的数据样本按照统一的标准来评估其威胁程度,本技术中是对每个指标进行量化评分,然后按照评分结果来对数据样本进行威胁程度评估。
83.其中,量化评分是指对每个指标按照其重要性和对于评价数据样本的影响程度进行量化,从而可通过量化后的评分结果来评估数据样本的威胁程度。
84.步骤s140:基于每个数据样本对应的各个指标的评分结果判断每个数据样本的威胁程度。
85.每个数据源可包含有大量的数据样本,针对每个数据样本,可获取每个数据样本对应的多个指标中各个指标的评分结果。其中,每个数据样本中针对同一指标的评分结果可能并不相同,例如,针对指标“主机行为”,在数据样本1中,该指标的评分结果为5分(假如满分为10分),而在数据样本2中,该指标的评分结果为3分,其评分结果是根据每个指标的重要性和在各个数据样本中的影响程度来确定的,所以相同的指标在不同的数据样本中其评分结果可能不同。
86.本技术实施例中,对于每个数据样本,其均对应有9个指标的评分结果,最后在进行威胁程度评估时,一种方式是可以将一个数据样本各自对应的9个指标的评分结果相加或取9个评分结果的平均分,以总评分结果或平均分来评估数据样本的威胁程度。在一些实施方式中,总评分结果或平均分越高,其数据样本的威胁程度也越高,反之,总评分结果或平均分越低,其数据样本的威胁程度也越低。可以将总评分结果或平均分大于或等于设定分数的数据样本筛选出来,这些数据样本可以认为是威胁程度较高的高威胁样本,后续可针对这些高威胁样本进行分析,以为安全防御措施部署提供数据依据。
87.在上述实现过程中,通过对用于评估数据样本的威胁程度的多个指标进行量化评分,然后根据数据样本对应的各指标的评分结果判断数据样本的威胁程度,如此可针对多个数据源的数据样本按照统一指标进行威胁程度分析,从而可以衡量来自不同数据源的数据样本的威胁程度,评估效果更好,且准确率更高。
88.在上述实施例的基础上,在对每个指标进行量化评分的方式中,可以获取每个指标的权重以及每个数据样本对应的各个指标的评价分数,其中,权重表征指标对于评价数据样本的威胁程度的重要性,评价分数表征指标对于评价数据样本的威胁程度的影响程度,然后可根据权重以及评价分数获取每个数据样本对应的各个指标的评分结果。
89.其中,对于指标的权重的获取方式可以采用信息浓缩法(如因子分析法、主成分分析法)、数字相对大小(如层次分析法(analytic hierarchy process,ahp)、优序图法)、信息量(如熵值法)、数据波动性或相关性(如独立性权重、信息量权重法)等,通过这些方法都可以获得每个指标的权重,权重越大表明指标对于评价数据样本的威胁程度越重要,反之,权重越小表明指标对于评价数据样本的威胁程度越不重要。
90.评价分数可以理解为是每个数据样本所对应的9个指标中,各个指标对于评价该数据样本的威胁程度的影响程度,比如,评价分数越高,则对于评价数据样本的威胁程度影响越大,反之,评价分数越低,则对于评价数据样本的威胁程度影响越小。
91.在上述实现过程中,通过权重和评价分数这两个维度来确定各个指标的评分结果,可以更合理、更准确地获取指标的评分结果。
92.在上述实施例的基础上,由于9个指标的重要性与业务息息相关,所以在对指标进行量化评分过程中,可以采用层次分析法ahp获取各个指标的权重,层次分析法ahp可以理解为是将与决策有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法,其可以根据问题的性质和所要达成的总目标,将问题分解为不同层次凝
聚组合,形成一个多层次结构模型,并合理地给出每个决策方案的权重。
93.采用ahp获取各个指标的权重的过程中,首先可以基于多个指标构建层次结构模型,如图3所示,该层次结构模型包括目标层、准则层和指标层,目标层为对各个指标进行量化,准则层包括多个数据源,指标层包括多个指标,然后利用层次分析法,分别获取层次结构模型中每个指标的权重。
94.其中,层次结构模型中的目标层是指需要解决的目标,准则层是指影响目标的主要因素,指标层是指具体方案,在本技术实施例中,需要解决的目标即为对各个指标进行量化,影响目标的主要因素为多个数据源,具体方案是指各个指标。
95.在建立层次结构模型时,可以将有关的各个因素按照不同属性自上而下地分解成若干层次,同一层的诸因素从属于上一层的因素或对上层因素有影响,同时又支配下一层的因素或受到下层因素的作用。如此按照该思想可结合本技术的应用场景来构建相应的层次结构模型。
96.在上述实现过程中,由于层次分析法能够将定量分析与定性分析结合起来,用于决策者的经验判断衡量各个指标之间的相对重要性,所以可以通过层次分析法更合理地获取各个指标的权重。
97.在上述实施例的基础上,利用层次分析法获取指标的权重,是指对元素进行优劣比较并排序,获得层次总排序,层次总排序可以理解为计算确定出的某一层次所有因素对于最高层,即对于目标相对重要性的权值,并将其进行排序的过程。例如,具体实现方式可以是:先根据层次结构模型中各层次中各元素的重要性标度,构造准则层和指标层分别对应的判断矩阵,然后可根据判断矩阵获取每个指标的权重。
98.其中,各元素的重要性标度可以是通过专家进行打分确定的,专家打分遵循一定的规则,如采用santy的1-9标度法或三标度法等,或者也可以由专家制定标度值。
99.在一些实施方式中,为了避免一个专家打分造成打分结果有一定的误差,上述的重要性标度还可以为多个专家用户对各元素进行打分后的平均分,由于不同的专家对每个指标考虑的重要性不同,所以打分结果可能不一致,所以考虑到最后的评分效果,可以取多个专家用户对各元素进行打分后的平均分作为重要性标度,如采用n个专家用户进行打分,打分结果记为xi,则最终取多个专家用户打分的均值作为重要性标度,即
100.所以,本技术实施例中,将多专家用户打分和ahp结合,可以使得权重设计更符合实际应用场景,易于操作、结果更合理。
101.在构建判断矩阵时,如可将各元素之间进行两两比较确定合适的标度,具体过程为将不同元素(如元素i和元素j)两两作比获得的值x
ij
(表示元素i相对于元素j的比较结果)填入到判断矩阵的第i行第j列的位置,例如,若x
ij
=1,则表示元素i与元素j对上一层次元素的重要性相同,若x
ij
=3,表示元素i比元素j略重要。
102.在本技术实施例中,准则层包括:样本同源性分析结果、样本传播日志和样本动态行为分析结果,此时打分结果x
ij
可用b
ij
表示,构造na阶正互反矩阵(即判断矩阵)其中,i,j=1,2,3,即:
[0103][0104]
按照同样的方式可构造指标层的判断矩阵,如样本同源性分析结果对应的指标之间的阶正互反矩阵其中,i,j=1,2;该判断矩阵可表示两个指标之间对样本同源性分析结果的重要性;
[0105]
样本传播日志对应的指标之间的阶正互反矩阵其中,i,j=3,4,5,6;该判断矩阵可表示两个指标之间对样本传播日志的重要性;
[0106]
样本动态行为分析结果对应的指标之间的阶正互反矩阵其中,i,j=7,8,9;该判断矩阵可表示两个指标之间对样本动态行为分析结果的重要性。
[0107]
所以,按照上述的方式,一共可获得4个判断矩阵,为了验证判断矩阵的准确性,还可以对判断矩阵进行一致性校验,其校验的过程可以如下所示:
[0108]
定义getw(m)

(w,λ
max
):表示获取判断矩阵m(n行n列)的最大特征值λ
max
和特征向量w,判断矩阵m为上述的4个判断矩阵,进行如下过程计算:(1)、对判断矩阵的每一列进行归一化,即(2)、按行相加得到和向量,即(3)、将得到的和向量wi正规化,即得到特征向量w=(w1,...,wi)
t
;(4)、利用和积法计算最大特征值然后输出w和λ
max
,此时w为最大特征值λ
max
对应的特征向量,特征向量中的各分量可表示各个元素的相对重要性。
[0109]
定义isconsitst(m,λ
max
)

true or false:表示判断n阶正互反矩阵m的一致性。如输入为m和λ
max
,进行如下过程计算:(1)、计算一致性指标(2)、计算检验系数其中,ri称为平均随机一致性指标,跟矩阵阶数n有关,可以通过查ri指标表获得。
[0110]
可以当cr《0.10时,认为m的一致性校验通过,输出true,反之输出false。所以可以按照上述过程分别计算矩阵a,b1,b2,b3这四个矩阵的特征向量和最大特征值,然后分别进行一致性校验。
[0111]
如首先对矩阵a调用getw(a),得到a的特征向量wa和最大特征值λ
amax
,然后调用
isconsitst(a,λ
amax
),若返回值为true,则说明a的特征向量wa合理;对于矩阵b1,先调用getw(b1),得到b1的特征向量和最大特征值然后调用若返回值为true,则说明b1的特征向量合理;对于矩阵b2,先调用getw(b2),得到b2的特征向量和最大特征值然后调用若返回值为true,则说明b2的特征向量合理;对于矩阵b3,先调用getw(b3),得到b3的特征向量和最大特征值然后调用若返回值为true,则说明b3的特征向量合理。
[0112]
例如,对于准则层对应的特征向量其中,表示样本同源性分析结果相对于目标层的重要性,表示样本传播日志相对于目标层的重要性,表示样本动态行为分析结果相对于目标层的重要性。
[0113]
对于指标层中恶意软件家族和apt团伙之间的判断矩阵对应的特征向量其中,表示恶意软件家族相对于样本同源性分析结果的重要性,表示apt团伙相对于样本同源性分析结果的重要性;对于ip五元组、协议类型、邮件信息和链接之间的判断矩阵对应的特征向量其中,表示ip五元组相对于样本传播日志的重要性,表示协议类型相对于样本传播日志的重要性,表示邮件信息相对于样本传播日志的重要性,表示链接相对于样本传播日志的重要性;对于主机行为、网络行为和释放文件之间的判断矩阵对应的特征向量其中,表示主机行为相对于样本动态行为分析结果的重要性,w
c8
表示网络行为相对于样本动态行为分析结果的重要性,表示释放文件相对于样本动态行为分析结果的重要性。
[0114]
上述过程中获得各个矩阵的特征向量后,对于每个指标的权重,其可以为指标层权重与准则层权重的乘积,如:
[0115][0116][0117][0118]
根据上式,在计算每个指标的权重时,可以通过以下公式获得各个指标的权重,如:
[0119][0120][0121][0122]
[0123][0124][0125][0126][0127][0128]
如此可获得上述9个指标各自的权重,且9个指标的权重之和等于1。需要说明的是,在量化时,其各个指标的种类和数量可以根据业务的不同而有所差异,所以可将指标层作为单独模板设计,与主类量化互不影响,这样不管是何种指标,都可以采用上述方式对指标进行量化,有利于适用于不同的应用场景。
[0129]
在上述实现过程中,通过构造判断矩阵来获取指标的权重,可以更加准确地衡量各个指标相对于目标的重要性,进而获得的权重更准确。
[0130]
在上述实施例的基础上,在获取每个指标样本对应的各个指标的评价分数的方式中,可以获取每个数据样本的样本特征数据,然后根据每个数据样本的样本特征数据获取该数据样本对应的各个指标的评价分数。
[0131]
其中,在本技术实施例中,数据样本的样本特征数据可以包括:是否命中恶意软件家族、是否命中apt团伙、访问数量、日志协议类型、邮件协议类型、链接内容、是否存在异常主机行为、是否存在异常网络行为、是否为恶意释放文件中的至少两种。
[0132]
例如,每个指标的最大分值设置一致,如均为10分,当然最大分值可以根据实际需求灵活设置。则对于某个数据样本对应的9个指标的评价分数可按照下述方式获得,如对于数据样本1:
[0133]
(1)指标:恶意软件家族。判断该数据样本1的同源性分析结果是否命中恶意软件家族,如果命中,则输出评价分数为10,反之,如果不命中,则输出评价分数为0。另外,若可以对恶意软件家族进行分类,如果分为多类,则可判断数据样本1命中哪一类,从而可对评价分数按照命中结果来进行分级,如命中第一类,评价分数为2,命中第二类,评价分数为3等。
[0134]
(2)指标:apt团伙。判断数据样本1的同源性分析结果是否命中apt团伙,若命中,则输出评价分数为10,反之,若不命中,则输出评价分数为0。
[0135]
(3)指标:ip五元组。获取数据样本1的ip五元组,统计样本传播日志中该ip五元组的访问数量,根据访问数量确定评价分数。如访问数量小于第一阈值,可认为是攻击行为,则输出评价分数为10分,若访问数量大于第二阈值,可认为是普通访问行为,则输出评价分数为3分,若访问数量处于第一阈值和第二阈值之间,输出评价分数为5分。当然不同的访问数量对应输出的评价分数也可以根据实际需求灵活设置。
[0136]
(4)指标:协议类型。获取数据样本1的日志协议类型,若日志协议类型为普通的web协议(如http协议),则认为该数据样本1的威胁程度不大,则输出的评价分数可以较低,反之,若日志协议类型为邮箱类协议(如smtp协议等),则认为该数据样本1的威胁程度较大,则输出的评价分数较高。可以理解地,具体输出的评价分数可以根据实际需求灵活设置。
[0137]
(5)指标:邮件信息。若数据样本1的协议为邮件协议类型,则获取具体的邮件信息,若根据邮件信息判断为恶意邮件,则输出的评价分数较高,反之,则输出的评价分数较低。另外,还可以获取邮件发送方邮箱和发送方ip地址、接收方邮箱和接收方ip地址,判断这些信息是否来源于重点单位,即判断这些重点单位是否在黑名单内,或者还可以判断邮件附件的后缀是否在黑名单内,如果是,则输出的评价分数则较高,反之,则输出的评价分数较低。可以理解地,具体输出的评价分数可以根据实际需求灵活设置。
[0138]
(6)指标:链接。对数据样本1的链接进行解析,若数据样本1的协议类型为web协议类型,则根据链接的解析内容(即链接内容)进行判断,解析内容可以包括ip地址或域名以及文件后缀名,若ip地址来源于重点单位(即黑名单)和/或文件后缀名来自于黑名单,则输出的评价分数较高,反之,则输出的评价分数较低。可以理解地,具体输出的评价分数可以根据实际需求灵活设置。
[0139]
(7)指标:主机行为。获取数据样本1的动态行为分析结果的主机行为,判断是否存在异常的主机行为(如禁用代理可能用于流量劫持),若是,则输出的评价分数较高,反之,则输出的评价分数较低。或者,还可以获取异常的主机行为的数量,如果数量越多,则评价分数越高,数量越低,评价分数越低。可以理解地,具体输出的评价分数可以根据实际需求灵活设置。
[0140]
(8)指标:网络行为。获取数据样本1的动态行为分析结果的网络行为,若存在异常的网络行为(比如解析域名得到的ip地址来自于黑名单),则输出的评价分数较高,反之,则输出的评价分数较低。可以理解地,具体输出的评价分数可以根据实际需求灵活设置。
[0141]
(9)指标:释放文件。根据数据样本1的动态行为分析结果的释放文件,判断释放文件是否为恶意释放文件,若是,则输出的评价分数较高,反之,则输出的评价分数较低。可以理解地,具体输出的评价分数可以根据实际需求灵活设置。
[0142]
所以,按照上述的方式可获得每个数据样本对应的9个指标各自的评价分数,如评价分数v=(v1,v2,...,v9),其中,vi表示第i个指标对应的评价分数。
[0143]
需要说明的是,邮件信息和链接这两个指标是一种互斥关系(因为一个数据样本要么是web协议类型,要么是邮件协议类型),若邮件信息对应的评价分数大于0,则链接对应的评价分数则等于0。
[0144]
在上述实现过程中,根据样本特征数据来确定指标的评价分数,这样可以结合具体的业务场景来确定评价分数,从而在具体的业务场景下,对数据样本的威胁程度的评估效果更好。
[0145]
在上述实施例的基础上,在获得每个指标的权重和评价分数后,对于每个指标的评分结果,可以将对应的指标的权重与评价分数相乘,获得的层级作为每个数据样本对应的指标的评分结果。这样获得的评分结果能更好地评估每个数据样本对应的指标对于威胁程度评估的影响程度。
[0146]
如评分结果=权重*评价分数=dwi×vi
,其中,dwi为第i个指标的权重,vi为第i个指标的评价分数。当然,评分结果还可以采用权重与评价分数的其他计算方式获得,只需要遵循权重越大,评分结果越大,评价分数越大,评分结果越大的原则即可,即评分结果与权重、评价分数为正相关关系。
[0147]
在上述实施例的基础上,在判断每个数据样本的威胁程度的方式中,除了将评分
结果进行加和或求平均来判断数据样本的威胁程度外,还可以预先设置一个高威胁标准样本,该高威胁标准样本对应的各个指标的评价分数均可以是满分,如评价结果为本,该高威胁标准样本对应的各个指标的评价分数均可以是满分,如评价结果为表示第i个指标的评价结果,dwi可以为上述根据层次分析法ahp获得的权重,表示最大分值,如为10。
[0148]
高威胁标准样本可以是预先建立好存储起来的,在进行威胁程度判断时,可以先获取高威胁标准样本以及高威胁标准样本对应的各个指标的评分结果,然后根据每个数据样本对应的各个指标的评分结果与高威胁标准样本对应的各个指标的评分结果,获取每个数据样本与高威胁标准样本的相似度,根据相似度判断每个数据样本的威胁程度。
[0149]
例如,高威胁标准样本对应的各指标的评分结果对应的向量为每个数据样本对应的各指标的评分结果对应的向量为x(scored1,scored2,...,scored9),在计算相似度时,可以采用欧式距离法、余弦相似度法等来获取两个向量的相似度。在实际应用中,可以根基实际业务的不同,可选择不同的方法进行计算。比如,欧式距离实际上是从距离的角度判断数据样本与高威胁标准样本之间的相似度,若距离越小,则相似度越高,而余弦相似度是从夹角的角度来进行判断的,若余弦值越大,则相似度越高。
[0150]
如可以选择欧式距离来确定两个样本的相似度,可以根据每个数据样本对应的各个指标的评分结果与高威胁标准样本对应的各指标的评分结果,计算获得欧式距离,欧式距离即可用于表征每个数据样本与高威胁标准样本的相似度。
[0151]
欧式距离的计算公式如下:
[0152][0153]
由于欧式距离的取值范围较大,一般会进行归一化处理,即其中,simdis(x,y)∈[0,1],该值越大,说明该数据样本的威胁程度越大。
[0154]
还可以选择余弦相似度来确定两个样本的相似度,其实现方式是将每个数据样本的评分结果与高威胁标准样本的评分结果计算余弦相似度,计算方式如下:
[0155]
该值的取值范围为(0,1),该值越大,说明该数据样本的威胁程度越大。
[0156]
所以,在判断数据样本的威胁程度时,可以在确定相似度大于或等于设定阈值时,则确定对应的数据样本的威胁程度大于或等于设定威胁程度。比如在欧式距离或余弦相似度大于或等于设定阈值时,则数据样本的威胁程度大于或等于设定威胁程度。
[0157]
在上述实施例的基础上,设定阈值可以根据实际情况灵活设定,跟实际业务相关,如通过关联指标(如制定原则)、专家征询打分(如ahp中的专家打分)等方式来确定设定阈
值。以关联指标为例,可以根据多个指标中的指定指标的评分结果取最大评价分数以及其他指标的评分结果取最小评价分数、与高威胁标准样本对应的各指标的评分结果确定的。
[0158]
例如,设定阈值的设计原则可以包括:原则1、若数据样本来源于apt团伙,则该数据样本的威胁程度较高,是高威胁样本;原则2、若数据样本的样本动态行为检测结果存在异常,则该数据样本的威胁程度较高,可能是高威胁样本。因此,在确定设定阈值时,应该保证原则1和原则2是满足的,即针对指标(apt团伙)的评价分数取最高分,其余指标的评价分数取最低分,获得的评价结果为根据该原则1,设定的初始阈值recomscore1=sim(x1,y),即表示与高威胁标准样本的相似度(如欧式距离或余弦距离),其中,y表示高威胁标准样本的评分结果。
[0159]
基于原则2,对于指标:主机行为、网络行为、释放文件,这三个指标中至少两个指标对应的评价分数可取满分,组合的评价结果情况有7种,最终可以将这7种取平均值,初始阈值
[0160]
根据上述两个原则设定初始阈值,如此最终确定的设定阈值可以为threshold=recomscore2<recomscore1,如此可更为合理地设置设定阈值。
[0161]
可以理解地,上述的设定阈值可以是根据上述的两个原则人为设置的,而随着系统的运行,上述的设定阈值也可以根据数据样本的评估情况进行灵活调整,为了对设定阈值实现更准确地调整,可以采用机器学习算法来调整。
[0162]
例如,假如需要对1000个数据样本进行威胁程度评估,在通过上述的评估方法对这1000个数据样本进行威胁程度评估后,可以确定多个数据样本中大于或等于设定威胁程度的第一样本数量以及小于设定威胁程度的第二样本数量,如将大于或等于设定威胁程度的这部分数据样本认为是预测正样本,将小于设定威胁程度的剩余样本认为是预测负样本。然后可基于第一样本数量和第二样本数量生成k-s曲线,如可通过人工对这1000个数据样本进行正负样本的标注,即通过人工来确认每个数据样本是否为正样本或负样本,然后根据这些数据可建立k-s曲线。
[0163]
为了构建k-s曲线,可先计算真正类率(true positive rate,tpr),tpr=tp/(tp fn),可表示评估方法所识别出的正样本占所有正样本的比例(即正样本累计比例),以及计算假正类率(false positive rate,fpr),fpr=fp/(fp tn),可表示评估方法错认为正样本的负样本占所有负样本的比例(即负样本累计比例)。其中,tp表示人工确认为正样本且评估方法预测为正样本的数量(即第一样本数量),fn表示人工确认为正样本但是评估方法预测为负样本的数量(即第二样本数量),fp表示人工确认为负样本且评估方法预测为正样本的数量,tn表示人工确认为负样本且评估方法预测为负样本的数量。所以,根据上述的计算公式可计算出tpr和fpr,根据tpr和fpr可绘制k-s曲线,如图4所示,k-s曲线的横轴可以理解为是阈值,tpr与fpr之间的最大差值表示评估方法能够将正负样本区分开的程度越大,即预测准确率越大,所以可以将差值最大对应的阈值作为调整后的设定阈值。
[0164]
可以理解地,后续也可以随着系统的运行,通过不断对数据样本的评估情况来生成k-s曲线,然后找到tpr与fpr之间的最大差值对应的阈值来更新当前的设定阈值,即每次对设定阈值进行调整时,则将tpr与fpr之间的最大差值对应的阈值作为调整后的设定阈
值,以此可实现对设定阈值的灵活调整,进而可以进一步提高对数据样本的威胁程度的评估准确性。
[0165]
在上述实施例的基础上,为了后续便于部署安全防御措施,还可以获得每个数据样本的威胁程度之后,筛选获得威胁程度大于或等于设定威胁程度的目标数据样本,目标数据样本可用于作为威胁行为分析的样本,如分析这些样本的来源,或者分析这些样本存在的安全风险(如分析这些样本的源ip地址、目的ip地址、主要攻击行为等),通过对这些目标数据样本进行分析,可便于为后续部署相关的安全防御措施提供数据依据。
[0166]
而且通过筛选出目标数据样本来进行分析,而不是针对全部的数据样本进行分析,可有效提高分析效率,并且更有针对性,使得后续部署的安全防御措施能够更准确,从而确保网络更安全。
[0167]
或者,还可以输出目标数据样本对应的威胁程度,其威胁程度即为上述的相似度,这样通过将数据样本与高威胁标准样本进行比较,可以确保推荐分值(即大于或等于设定威胁程度的样本则推荐为高威胁样本)的有效性,有利于将高威胁样本与其他样本区分开,提高高威胁样本筛选的准确性。
[0168]
请参照图5,图5为本技术实施例提供的一种样本威胁度评估装置200的结构框图,该装置200可以是电子设备上的模块、程序段或代码。应理解,该装置200与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
[0169]
可选地,所述装置200包括:
[0170]
样本获取模块210,用于获取来自多个数据源的多个数据样本;
[0171]
指标确定模块220,用于确定用于评估每个数据样本的威胁程度的多个指标;
[0172]
量化评分模块230,用于对每个指标进行量化评分,获得每个数据样本对应的各个指标的评分结果;
[0173]
威胁度评估模块240,用于基于每个数据样本对应的各个指标的评分结果判断每个数据样本的威胁程度。
[0174]
可选地,所述量化评分模块230,用于获取每个指标的权重以及每个数据样本对应的各个指标的评价分数,其中,所述权重表征指标对于评价数据样本的威胁程度的重要性,所述评价分数表征指标对于评价数据样本的威胁程度的影响程度;根据所述权重以及所述评价分数获取每个数据样本对应的各个指标的评分结果。
[0175]
可选地,所述量化评分模块230,用于基于所述多个指标构建层次结构模型,所述层次结构模型包括目标层、准则层和指标层,所述目标层为对各个指标进行量化,所述准则层包括所述多个数据源,所述指标层包括所述多个指标;利用层次分析法,分别获取所述层次结构模型中每个指标的权重。
[0176]
可选地,所述量化评分模块230,用于根据所述层次结构模型中各层次中各元素的重要性标度,构造所述准则层和所述指标层分别对应的判断矩阵;根据所述判断矩阵获取每个指标的权重。
[0177]
可选地,所述重要性标度为多个专家用户对各元素进行打分后的平均分。
[0178]
可选地,所述量化评分模块230,用于获取每个数据样本的样本特征数据;根据每个数据样本的样本特征数据获取该数据样本对应的各个指标的评价分数。
[0179]
可选地,所述样本特征数据包括:是否命中恶意软件家族、是否命中apt团伙、访问数量、日志协议类型、邮件协议类型、链接内容、是否存在异常主机行为、是否存在异常网络行为、是否为恶意释放文件中的至少两种。
[0180]
可选地,所述量化评分模块230,用于将对应的指标的权重与评价分数相乘,获得的乘积作为每个数据样本对应的指标的评分结果。
[0181]
可选地,所述威胁度评估模块240,用于获取高威胁标准样本以及所述高威胁标准样本对应的各个指标的评分结果;根据每个数据样本对应的各个指标的评分结果与所述高威胁标准样本对应的各个指标的评分结果,获取每个数据样本与所述高威胁标准样本的相似度;根据所述相似度判断每个数据样本的威胁程度。
[0182]
可选地,所述威胁度评估模块240,用于在所述相似度大于或等于设定阈值时,则确定对应的数据样本的威胁程度大于或等于设定威胁程度。
[0183]
可选地,所述设定阈值为根据所述多个指标中的指定指标的评分结果取最大评价分数以及其他指标的评分结果取最小评价分数、与所述高威胁标准样本对应的各指标的评分结果确定的。
[0184]
可选地,所述装置200还包括:
[0185]
阈值调整模块,用于确定所述多个数据样本中大于或等于所述设定威胁程度的第一样本数量以及小于所述设定威胁程度的第二样本数量;基于所述第一样本数量和所述第二样本数量生成k-s曲线;利用所述k-s曲线对所述设定阈值进行调整。
[0186]
可选地,所述多个指标包括恶意软件家族、apt团伙、ip五元组、协议类型、邮件信息、链接、主机行为、网络行为、释放文件中的至少两种。
[0187]
可选地,所述装置200还包括:
[0188]
筛选模块,用于筛选获得威胁程度大于或等于设定威胁程度的目标数据样本,所述目标数据样本用于作为威胁行为分析的样本。
[0189]
需要说明的是,本领域技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再重复描述。
[0190]
请参照图6,图6为本技术实施例提供的一种用于执行样本威胁度评估方法的电子设备的结构示意图,所述电子设备可以包括:至少一个处理器310,例如cpu,至少一个通信接口320,至少一个存储器330和至少一个通信总线340。其中,通信总线340用于实现这些组件直接的连接通信。其中,本技术实施例中设备的通信接口320用于与其他节点设备进行信令或数据的通信。存储器330可以是高速ram存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器330可选的还可以是至少一个位于远离前述处理器的存储装置。存储器330中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器310执行时,电子设备执行上述图1所示方法过程。
[0191]
可以理解,图6所示的结构仅为示意,所述电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。
[0192]
本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
[0193]
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算
机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,包括:获取来自多个数据源的多个数据样本;确定用于评估每个数据样本的威胁程度的多个指标;对每个指标进行量化评分,获得每个数据样本对应的各个指标的评分结果;基于每个数据样本对应的各个指标的评分结果判断每个数据样本的威胁程度。
[0194]
综上所述,本技术实施例提供一种样本威胁度评估方法、装置、电子设备及存储介质,通过对用于评估数据样本的威胁程度的多个指标进行量化评分,然后根据数据样本对应的各指标的评分结果判断数据样本的威胁程度,如此可针对多个数据源的数据样本按照统一指标进行威胁程度分析,从而可以衡量来自不同数据源的数据样本的威胁程度,评估效果更好,且准确率更高。
[0195]
在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0196]
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0197]
再者,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0198]
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0199]
以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献