一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多特征的APT攻击事件关联方法与流程

2022-07-27 18:38:24 来源:中国专利 TAG:
一种基于多特征的apt攻击事件关联方法
技术领域
:1.本发明涉及威胁情报共享平台
技术领域
:,具体为一种基于多特征的apt攻击事件关联方法。
背景技术
::2.高级可持续性威胁(advancedpersistentthreat,apt),威胁企业网络数据安全。这种攻击活动具有极强的隐蔽性和针对性,通常是以窃取用户资料为目的,利用受感染的各种介质、供应链和社会工程学等多种手段绕过传统的安全防护系统,实施先进的、持久的且有效的威胁和攻击。目前主流的关联方法主要如下:3.1.基于关键词匹配的方法:一些总结性的报告中会提到组织名称,同时也会带出组织别名,只需要构建apt组织库,接着利用关键词匹配的方法将相似攻击的apt组织相关联。4.2.利用tf-idf算法提取报告中的关键词,通过对比一种基于多特征的apt攻击事件关联方法词汇库,得出关联事件。第一个(tf)值是单个出现的次数在所有恶意软件中总数中的比。第二个值(idf)是这些术语在所有组中出现的频率的对数。5.对于第一种关联方法,有很大的局限性,单单利用报告中的关联组织名称无法准确、全面地将攻击事件关联起来;对于第二种关联方法,只有两篇报告中所用到文本内容相差无几,才能够通过tf-idf准确识别,简而言之就是能判断出两篇相似文章,但是很多攻击事件地报告并不完整,攻击手段分析也并不完善,因而无法建立可靠地关联关系。6.基于此,本发明设计了一种基于多特征的apt攻击事件关联方法,以解决上述问题。技术实现要素:7.本发明的目的在于提供一种基于多特征的apt攻击事件关联方法,以解决上述
背景技术
:中提出的单单利用报告中的关联组织名称无法准确、全面地将攻击事件关联起来;很多攻击事件地报告并不完整,攻击手段分析也并不完善,因而无法建立可靠地关联关系的问题。8.为实现上述目的,本发明提供如下技术方案:9.一种基于多特征的apt攻击事件关联方法,包括以下步骤:10.s1:获取攻击事件报告特征,事件报告特征包括攻击手段、恶意工具、攻击目标、使用语言、漏洞利用、指示器、tf-idf值和恶意ioc;11.s2:通过计算tf-idf的值得出报告文本相似度;12.s3:通过计算攻击手段、恶意工具、攻击目标、使用语言、漏洞利用、指示器的jaccard系数得出攻击事件ttp相似度;13.s4:调用在线沙箱技术对恶意ioc进行行为分析,提取攻击链路;14.s5:设计链路相似度计算方法得到攻击链路相似度;15.s6:将得到的文本相似度、ttp相似度和攻击链路相似度进行权重的分配得到综合相似度。16.优选的,s2中,所述文本相似度的计算步骤具体如下:17.s21:设置分词器;18.s22:设置词频统计装置;19.s23:设置相似度计算方法,相似系数为词汇列表交集个数除以词汇列表总个数。20.优选的,s21中,所述设置分词器具体为针对中文使用jieba分词算法,英文则使用nltk.tokenize模块进行分词,同时设置停用词汇和专有词汇生成词汇列表。21.优选的,s22中,所述设置词频统计装置具体为利用tf-idf算法得到步骤一中生成的词汇列表中tf值和idf值。22.优选的,s3中,所述ttp相似度计算步骤具体如下:23.s31:设置专有标签提取装置,通过关键词匹配的方法,从报告文本中提取攻击手段和恶意工具;24.s32:设置漏洞匹配装置,通过正则匹配的方法提取利用的漏洞信息;25.s33:设置实体提取装置,对提取出来的句子进一步地用关键词匹配的方法提取攻击目标和使用语言;26.s34:设置相似度计算方法,将上述步骤得到的特征的值合并成一个集合,计算jaccard系数,根据jaccard系数判断相似度。27.优选的,s31中,所述攻击手段词汇为主要从att&ck官网获取攻击方法专业词汇,所述恶意工具包括漏洞攻击工具、信息收集工具、密码破解工具、远程访问工具、漏洞扫描工具等,恶意工具的词汇分别从安全网站公开整理的工具列表中获取,以及平时在威胁分析时整理得到。28.优选的,s5中,所述攻击链路相似度计算步骤如下:29.s51:设置ioc匹配装置;30.s52:设置攻击链路分析装置;31.s53:针对攻击链路设置相似度计算方法,通过jaccard系数或莱文斯坦(levenshtein)距离做攻击链路相似度计算。32.优选的,s51中,所述设置ioc匹配装置具体为采用正则匹配和html解析的方法提取ioc,分别对应文本中随机引用和固定位置罗列,利用正则表达式对不同类型ioc:ip、域名、hash、url等进行正则提取,同时针对固定位置的ioc则采用html解析筛选获取。33.优选的,s52中,所述攻击链路分析主要是针对恶意的pe(portableexecutable)文件,搭建沙箱环境,将恶意文件在沙箱环境中执行,然后得出该文件的执行日志。34.优选的,s53中,所述攻击链路为通过沙箱得到运行日志,进一步地对日志进行解析得出关键链路,提取shell文件的文件名、访问链接的链接地址、下载文件的文件名、配置目录等信息而生成。35.与现有技术相比,本发明的有益效果是:36.本发明针对攻击事件报告的不同特征,采用不同的相似度计算方法,进而能够从多方面关联攻击事件,便于整合攻击情报、溯源攻击手段、反馈应对方案,大大提高了主动防御能力,在第一时间对恶意攻击事件能够提出响应参考措施。同时,正因为与历史攻击组织施行的攻击事件相关联也有助于对整个攻击组织的生命周期进行全面的监控,真正做到知己知彼。附图说明37.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。38.图1为本发明apt攻击事件报告特征图;39.图2为本发明总体关联模型流程示意图。具体实施方式40.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。41.请参阅图1-2,本发明提供一种技术方案:42.一种基于多特征的apt攻击事件关联方法,包括s1:获取攻击事件报告特征,事件报告特征包括攻击手段、恶意工具、攻击目标、使用语言、漏洞利用、指示器、tf-idf值和恶意ioc;43.s2:通过计算tf-idf的值得出报告文本相似度;44.s3:通过计算攻击手段、恶意工具、攻击目标、使用语言、漏洞利用、指示器的jaccard系数得出攻击事件ttp相似度;45.s4:调用在线沙箱技术对恶意ioc进行行为分析,提取攻击链路;46.s5:设计链路相似度计算方法得到攻击链路相似度。47.s6:将得到的文本相似度、ttp相似度和攻击链路相似度进行权重的分配得到综合相似度。48.本发明主要是针对apt组织的攻击事件进行分析,挖掘攻击事件报告中的多种特征,将相似的攻击事件关联起来,完善整个攻击事件响应机制。49.本发明提出的基于多特征的apt报告聚类方法是通过挖掘攻击事件的特征,建立apt组织的聚类模型,将apt组织的攻击事件关联起来。50.攻击事件报告的特征主要如图1所示,包括51.1.攻击手段:该攻击事件主要使用的攻击手段,如:勒索、恶意邮件、远控、木马等手段;52.2.恶意工具:该攻击事件使用到的恶意工具,如:bxrat、ghostrat、exploitkit、nmap等工具;53.3.漏洞利用:该攻击事件使用的漏洞编号,如:cve-2021-1732、cve-2021-25296、cve-2021-26411等;54.4.攻击目标:攻击事件针对的国家地区、目标资产、目标行业等,如:针对中国高校的考试系统等;55.5.恶意ioc:攻击事件使用到的恶意指示器,包括指示器名称和恶意行为分析结果;56.6.使用语言:恶意代码中使用的语言特征,主要用于区分汉语和中东国家的apt组织;57.7.tf-idf值:攻击事件报告的tf-idf值,对于两篇相似度较高的报告可以采用tf-idf作为特征,包括中英文转译报告、转载报告等。58.文本相似度计算步骤如下:59.步骤一:设置分词器:针对中英文报告分别设置不同的分词算法,中文使用的是jieba分词算法,英文则使用nltk.tokenize模块进行分词,同时设置停用词汇和专有词汇生成词汇列表。60.步骤二:设置词频统计装置:利用tf-idf算法得到步骤一中生成的词汇列表中tf值和idf值。61.步骤三:设置相似度计算方法:首先对比两篇报告tf-idf值排名前15的词汇,相似度计算方法为:[0062][0063]其中,报告文本的相似度计算方法并不只是针对apt攻击事件的报告,还可以是其他文本内容。[0064]ttp相似度计算步骤如下:[0065]步骤一:设置专有标签提取装置:攻击手段和恶意工具的提取主要是基于关键词匹配的方法,攻击手段词汇主要从att&ck官网获取攻击方法专业词汇,恶意工具包括漏洞攻击工具、信息收集工具、密码破解工具、远程访问工具、漏洞扫描工具等,恶意工具的词汇分别从安全网站公开整理的工具列表中获取,以及平时在威胁分析时整理得到。然后通过关键词匹配的方法,从报告文本中提取攻击手段和恶意工具。[0066]步骤二:设置漏洞匹配装置:提取利用的漏洞信息主要通过正则匹配的方法,根据漏洞的命名规则可以设置规则为“cve-[0-9]{4}-[0-9]{4,6}”,cve是(commonvulnerabilities&exposures)首字母,中间四位是发现年份,后面4/6位是漏洞的编号。[0067]步骤三:设置实体提取装置:攻击目标和使用语言的提取方法首先基于正则表达式进行断句,攻击目标的正则断句可以写为“.*?攻击了.*?[国家]?.*?[行业]?”或者“(.*?)受到了*?的攻击”,而使用语言则可以写成“该组织代码中使用了(.*?)语言”,对提取出来的句子进一步地用关键词匹配的方法提取攻击目标和使用语言。[0068]步骤四:设置相似度计算方法:对于前面得到的一系列特征的值合并成一个集合,例如:[木马,ghost_rat,cve-2021-1984,印度,银行],然后计算jaccard系数:[0069][0070]根据jaccard系数来判断a事件和b事件的相似度,经过研究,该系数大于0.6时相似度较高。[0071]ttp相似度计算方法实际上是提取关键实体,然后进行相似度计算的方法,并不只是局限于ttp的相似度计算,数据源可以是多种文本数据。[0072]攻击链路相似度计算步骤如下:[0073]步骤一:设置ioc匹配装置:提取ioc的方法主要采用正则匹配和html解析的方法,分别对应文本中随机引用和固定位置罗列。利用正则表达式对不同类型ioc:ip、域名、hash、url等进行正则提取,同时针对固定位置的ioc则采用html解析筛选获取。[0074]步骤二:设置攻击链路分析装置:攻击链路分析主要是针对恶意的pe(portableexecutable)文件,搭建沙箱环境,将恶意文件在沙箱环境中执行,然后得出该文件的执行日志。[0075]步骤三:设置相似度计算方法:ioc的相似度计算方法主要有两种,一种是针对ioc集合的相似度,同ttp相似度计算中的步骤四基于jaccard系数的相似度计算方法,这里主要介绍另一种的针对攻击链路的相似度计算方法,由于文件hash非常容易发生变化,只要稍微修改或者移动了文件的某个字符,hash就会变得面目全非,但是其攻击链路是大致相同的,通过沙箱得到运行日志。进一步地对日志进行解析得出关键链路,例如:执行shell语句、访问链接、下载文件、设置后门、访问配置目录等,然后提取shell文件的文件名(**.sh)、访问链接的链接地址、下载文件的文件名、配置目录等信息,生成攻击链路。本发明使用莱文斯坦(levenshtein)距离来做攻击链路相似度计算:[0076][0077]其中a事件和b事件是两个数组(攻击链路),i/j是数组下标。莱文斯坦距离的含义,是求将a事件的攻击链路变成b事件的攻击链路(或将b事件的攻击链路变成a事件的攻击链路),所需要做的最少次数的变换。这个次数越少代表攻击链路越相似。攻击链路的相似度计算方法也可用于各种流程相似度计算。[0078]前面三种相似度判定方法得到的结果都具有一定的片面性,而且每个特征对结果的影响程度也不相同,因此需要进行权重的分配得到综合相似度判定方法。数据来源是google整理的apt组织在线文档,其中比较权威地将当前的关联事件的报告进行罗列,将其作为训练集进行线性回归训练得到合适的权重分配。[0079]由于攻击事件的来源繁杂,包含了传统安全厂商、安全防护组织、安全研究员等,因而攻击事件之间的关联也不能偏于一隅。本发明针对攻击事件报告的不同特征,采用不同的相似度计算方法,进而能够从多方面关联攻击事件,便于整合攻击情报、溯源攻击手段、反馈应对方案,大大提高了主动防御能力,在第一时间对恶意攻击事件能够提出响应参考措施。同时,正因为与历史攻击组织施行的攻击事件相关联也有助于对整个攻击组织的生命周期进行全面的监控,真正做到知己知彼。[0080]在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。[0081]以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属
技术领域
:技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献