一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于HTTP协议的网络流量的漏洞特征提取系统及其方法与流程

2023-03-15 15:30:35 来源:中国专利 TAG:

技术特征:
1.一种基于http协议的网络流量的漏洞特征提取系统,其特征在于,包括采集模块、聚类模块、特征提取模块以及转换模块;所述采集模块用于进行数据采集,获取到http协议的网络流量中的payload数据;所述聚类模块用于对所述payload数据进行聚类,得到属于同一漏洞的payload数据集合;所述特征提取模块用于在属于同一漏洞的payload数据集合中提取到所述漏洞的有效特征字符串;所述转换模块用于将所述有效特征字符串及其相关信息转换成对应的yara规则。2.一种使用如权利要求1所述的基于http协议的网络流量的漏洞特征提取系统的提取方法,其步骤包括:步骤s10,获取到http协议的网络流量中的payload数据;步骤s20,对获取到的payload数据进行聚类,得到属于同一漏洞的payload数据集合;步骤s30,在同一漏洞的payload数据集合中提取到有效特征字符串;步骤s40,获得有效特征字符串的相关信息,将所述有效特征字符串及其相关信息转换成对应的yara规则。3.如权利要求2所述的基于http协议的网络流量的漏洞特征提取系统的提取方法,其中,在步骤s10中,通过蜜罐进行http协议的网络流量的数据采集,从得到的蜜罐日志文件中获得payload数据。4.如权利要求2所述的基于http协议的网络流量的漏洞特征提取系统的提取方法,其中,在步骤s20中,通过计算类编辑距离ed
ab
和相似度similarity的方法进行聚类,具体方法为:选取payload中两个字符串a和字符串b,设长度分别为l
a
和l
b
,其中,a和b的类编辑距离ed
ab
是指把字符串a转换成字符串b所需要的最少操作数;其中,插入操作代表操作一次,删除操作代表操作一次,替换一次代表操作两次;字符串a和字符串b的相似度similarity=1-ed
ab
/max(l
a
,l
b
);其中,max(l
a
,l
b
)是指两个字符串中长度的较大者;设置相似度阈值q,当相似度similarity≥q时,字符串a和字符串b视为属于同一漏洞的payload数据。5.如权利要求2所述的基于http协议的网络流量的漏洞特征提取系统的提取方法,其中,在步骤s30中,提取有效特征字符串的方法包括规则式提取方法和启发式提取方法。6.如权利要求5所述的基于http协议的网络流量的漏洞特征提取系统的提取方法,其中,所述规则式提取方法的步骤包括:s301,将所述payload数据划分为url、header和body三部分数据集;s302,逐次从url数据集中提取出最长公共字符串,直至不存在公共字符串为止,将提取出的字符串作为候选串;逐次从body数据集中提取出最长公共字符串,直至不存在公共字符串为止,将提取出的字符串作为候选串;当所述候选串属于linux命令时,判断为有效特征字符串;当所述候选串不属于linux命令时,转到步骤s3021;
s3021,选取字符串长度大于检索阈值p(p>4)的候选串,使用谷歌搜索提供的官方api对所述候选串进行搜索,得到排名前n的网页;通过威胁情报和网页内容解析过滤掉与网络安全无关的f个网页,得到个n-f(0≤f<n)个有效网页;若所述n-f个有效网页中,有k(n-f)个包括了所述候选串,则将所述候选串判定为有效特征字符串,其中,k为阈值系数,且1/2<k≤1。7.如权利要求6所述的基于http协议的网络流量的漏洞特征提取系统的提取方法,其中,使用谷歌搜索提供的官方api进行搜索时,若需要对完整的关键词进行精确搜索,需要在关键词两侧加上双引号。8.如权利要求5所述的基于http协议的网络流量的漏洞特征提取系统的提取方法,其中,所述启发式提取方法的步骤包括:s311,将网页上的文章内容划分成若干个部分,通过关键词搜索得到与所述漏洞相关的字符,通过使用bert bilstm crf的神经网络模型进行命名实体识别,得到候选串;s312,将得到的候选串在多个payload中进行反查,如果均存在所述候选串,则判断为有效特征字符串。9.如权利要求8所述的基于http协议的网络流量的漏洞特征提取系统的提取方法,其中,在步骤s311中,使用bert bilstm crf的神经网络模型进行命名实体识别的方法为:s3111,将所述字符输入到bert模型得到词向量,将所述词向量作为双向lstm的输入,从前向lstm和后向lstm两个方向抓取上下文信息;s3112,使用条件随机场crf,得到所述字符的类别,得到ner实体。10.如权利要求9所述的基于http协议的网络流量的漏洞特征提取系统的提取方法,其中,其中bert使用的是多语言版本的,数据格式为bio格式,其中b、i包含若干个种类,分别为url、cmd或para类别。

技术总结
本申请提供了一种基于HTTP协议的网络流量的漏洞特征提取系统,其特征在于,包括采集模块、聚类模块、特征提取模块以及转换模块;所述采集模块用于获取到payload数据;所述聚类模块用于得到属于同一漏洞的payload数据集合;所述特征提取模块用于提取到所述漏洞的有效特征字符串;所述转换模块用于将所述有效特征字符串及其相关信息转换成对应的Yara规则。本申请还提供一种基于HTTP协议的网络流量的漏洞特征提取系统的提取方法,其步骤为:获取到payload数据,进行聚类,得到属于同一漏洞的payload数据集合;提取到有效特征字符串;获得有效特征字符串的相关信息,将所述有效特征字符串及其相关信息转换成对应的Yara规则。本申请提高了提取效率。请提高了提取效率。请提高了提取效率。


技术研发人员:何清林 邢燕祯 罗冰 张翀 刘洋 陈亘 陈曦 方太辉
受保护的技术使用者:北京启明星辰信息安全技术有限公司
技术研发日:2021.07.14
技术公布日:2023/2/6
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献