一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

异常流量检测的方法、装置、电子设备及可读存储介质与流程

2022-09-14 23:53:10 来源:中国专利 TAG:


1.本技术涉及网络安全技术领域,尤其是涉及一种异常流量检测的方法、装置、电子设备 及可读存储介质。


背景技术:

2.目前随着互联网技术的快速发展,web应用在信息化服务中的基础性作用日益增强,针 对web应用的网络安全攻击是攻击团伙常用且主要的威胁手段,恶意的网页访问请求将与 正常用户的访问流量共同被记录在web日志中,因此针对web日志的异常流量检测方法, 是保障企业信息安全的重要手段,成为维护企业安全的重要组成部分,在实际的异常流量检 测中,通过将web日志的字段解析为表格型数据,该数据包括web日志的字段内容,基于 web日志字段的内容获取数据特征,对数据特征进行异常流量检测。
3.发明人在研究过程中发现:仅对web日志字段的内容进行解析,从而导致用于异常检 测的数据特征不全面,进而导致难以发现web日志的异常。


技术实现要素:

4.本技术目的是提供一种异常流量检测的方法、装置、电子设备及可读存储介质,用于解 决以上至少一项技术问题。
5.本技术的上述发明目的是通过以下技术方案得以实现的:
6.第一方面,提供了一种异常流量检测的方法,该方法包括:
7.获取基于web日志构建的知识图谱;
8.基于所述知识图谱获取实体和实体之间的关系以及各个实体分别对应的属性信息,所述 实体和实体之间的关系包括:ip实体和uri实体之间的关系,所述各个实体分别对应的属 性信息包括:ip实体的属性信息和uri实体的属性信息;
9.基于所述实体和实体之间的关系以及所述各个实体分别对应的属性信息确定web日志 数据特征集合;
10.对所述web日志数据特征集合进行异常流量检测。
11.在一种可能的实现方式中,所述各个实体分别对应的属性信息还包括:uri抽象实体的 属性信息、服务实体的属性信息以及服务器实体的属性信息;
12.所述基于所述实体和实体之间的关系以及所述各个实体分别对应的属性信息确定web 日志数据特征集合,包括:
13.基于所述ip实体的属性信息、所述uri实体的属性信息、所述uri抽象实体的属性信 息、所述服务实体的属性信息、所述服务器实体的属性信息以及所述各实体与实体之间的关 系,计算节点中心度特征以及uri网页排名特征,所述节点中心度特征包括:ip节点的度 中心性、uri抽象节点的度中心性、服务节点的度中心性以及服务器节点的紧密中心性中的 至少一项,所述uri网页排名特征用于表征各个uri网页被访问的次数;
14.基于所述ip实体的属性信息、所述uri实体的属性信息、所述uri抽象实体的属性
信 息以及所述各实体与实体之间的关系进行向量化处理,得到向量化处理后的信息;
15.基于所述节点中心度特征、所述uri网页排名特征以及所述向量化处理后的信息,确 定所述web日志数据特征集合。
16.在另一种可能的实现方式中,所述向量化处理后的信息包括:uri类型特征、ip特征、 状态码特征、请求类型特征、协议特征、每个ip单位时间http请求数特征、每个ip单位 时间请求类型特征、每个ip单位时间请求的uri类型特征和uri抽象特征中的至少一项;
17.所述ip实体与uri实体之间的关系包括:ip实体与uri实体之间的关系属性,所述ip 实体与uri实体之间的关系属性包括:ip与uri之间的请求类型;
18.其中,基于uri实体的属性信息进行向量化处理,得到uri类型特征,包括:
19.对uri实体的属性信息进行语句表示学习,得到uri嵌入表示;
20.对所述uri嵌入表示进行聚类处理,得到uri类型特征;
21.其中,所述基于所述ip实体的属性信息、所述uri实体的属性信息、所述uri抽象实 体的属性信息以及所述各实体和实体之间的关系进行向量化处理,得到向量化处理后的信息, 包括:
22.基于所述ip与uri之间请求类型以及所述uri类型特征进行统计处理,得到统计后的 数据,所述统计后的数据包括:所述每个ip单位时间http请求数特征、所述每个ip单位 时间请求类型特征以及所述每个ip单位时间请求的uri类型特征中的至少一项;
23.将所述ip实体的属性信息、所述ip实体与uri实体之间的关系属性以及所述uri抽象 实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息,所述数值转换后的 信息包括:所述ip特征、所述状态码特征、所述请求类型特征、所述协议特征、所述uri 层级特征、所述uri参数个数特征、所述uri根目录词嵌入特征和所述uri资源文件类型 词嵌入特征中的至少一项。
24.在另一种可能的实现方式中,所述ip实体与uri实体之间的关系属性还包括:ip与 uri之间的状态码和ip与uri之间的协议;
25.所述将ip实体的属性信息、ip实体与uri实体之间的关系属性以及uri抽象实体的属 性信息由非数值数据转换为数值数据,得到数值转换后的信息,包括:
26.对所述ip实体的属性信息、所述ip与uri之间的状态码、所述ip与uri之间的请求 类型以及所述ip与uri之间的协议进行编码,得到编码处理后的特征,所述编码处理后的 特征包括:ip特征、状态码特征、请求类型特征以及协议特征;
27.基于所述uri抽象实体的属性信息,确定根目录文本、资源文件类型、所述uri层级 特征和所述uri参数个数特征;
28.基于所述根目录文本和所述资源文件类型,生成所述uri根目录词嵌入特征和所述 uri资源文件类型词嵌入特征。
29.在另一种可能的实现方式中,所述基于所述根目录文本和所述资源文件类型,生成所述 uri根目录词嵌入特征和所述uri资源文件类型词嵌入特征,之后还包括:
30.对所述uri根目录词嵌入特征和所述uri资源文件类型词嵌入特征池化处理,得到池 化处理后的uri根目录词嵌入特征和池化后的uri资源文件类型词嵌入特征;
31.将池化处理后的uri根目录词嵌入特征、池化后的uri资源文件类型词嵌入特征、所 述uri层级特征和所述uri参数个数特征确定为四维特征。
32.其中,所述基于所述节点中心度特征、所述uri网页排名特征以及所述向量化处理后 的信息,确定所述web日志数据特征集合,包括:
33.基于所述节点中心度特征、所述uri网页排名特征、所述uri类型特征、所述统计后 的数据以及所述四维特征,确定所述web日志数据特征集合。
34.在另一种可能的实现方式中,所述数据特征集合还包括:请求字节数特征;所述请求字 节数特征是基于所述ip实体与uri实体之间的关系确定的;
35.所述方法还包括:
36.对所述请求字节数特征进行等频分箱处理;
37.对所述每个ip单位时间http请求数特征、所述每个ip单位时间请求类型特征和所述 每个ip单位时间请求的uri类型特征进行等距分箱处理。
38.在另一种可能的实现方式中,所述方法还包括:
39.对所述web日志特征集合中的各个特征进行归一化处理;或者,
40.确定待进行归一化的特征集合,并对所述待进行归一化的特征集合中的各个特征进行归 一化处理,所述待进行归一化的特征集合属于所述web日志数据特征集合,且不包含所述 每个ip单位时间http请求数特征、所述每个ip单位时间请求类型特征、所述每个ip单位 时间请求的uri类型特征以及所述请求字节数特征。
41.在另一种可能的实现方式中,所述对所述web日志数据特征集合进行异常流量检测, 包括以下任一项:
42.基于归一化处理后的所述web日志特征集合进行异常流量检测;
43.基于等频分箱处理结果、等距分箱处理结果以及归一化处理后的待进行归一化的特征集 合进行异常流量检测。
44.第二方面,提供了一种异常流量检测的装置,该装置包括:
45.第一获取模块,用于获取基于web日志构建的知识图谱;
46.第二获取模块,用于基于所述知识图谱获取实体和实体之间的关系以及各个实体分别对 应的属性信息,所述实体和实体之间的关系包括:ip实体和uri实体之间的关系,所述各 个实体分别对应的属性信息包括:ip实体的属性信息和uri实体的属性信息;
47.第一确定模块,用于基于所述实体和实体之间的关系以及所述各个实体分别对应的属性 信息确定web日志数据特征集合;
48.检测模块,用于对所述web日志数据特征集合进行异常流量检测。
49.在一种可能的实现方式中,所述各个实体分别对应的属性信息还包括:uri抽象实体的 属性信息、服务实体的属性信息以及服务器实体的属性信息;
50.所述第一确定模块在基于所述实体和实体之间的关系以及所述各个实体分别对应的属性 信息确定web日志数据特征集合时,具体用于:
51.基于所述ip实体的属性信息、所述uri实体的属性信息、所述uri抽象实体的属性信 息、所述服务实体的属性信息、所述服务器实体的属性信息以及所述各实体与实体之间的关 系,计算节点中心度特征以及uri网页排名特征,所述节点中心度特征包括:ip节点的度 中心性、uri抽象节点的度中心性、服务节点的度中心性以及服务器节点的紧密中心性中的 至少一项,所述uri网页排名特征用于表征各个uri网页被访问的次数;
52.基于所述ip实体的属性信息、所述uri实体的属性信息、所述uri抽象实体的属性
信 息以及所述各实体与实体之间的关系进行向量化处理,得到向量化处理后的信息;
53.基于所述节点中心度特征、所述uri网页排名特征以及所述向量化处理后的信息,确 定所述web日志数据特征集合。
54.在另一种可能的实现方式中,所述向量化处理后的信息包括:uri类型特征、ip特征、 状态码特征、请求类型特征、协议特征、每个ip单位时间http请求数特征、每个ip单位 时间请求类型特征、每个ip单位时间请求的uri类型特征和uri抽象特征中的至少一项;
55.所述ip实体与uri实体之间的关系包括:ip实体与uri实体之间的关系属性,所述ip 实体与uri实体之间的关系属性包括:ip与uri之间的请求类型;
56.其中,所述第一确定模块在基于uri实体的属性信息进行向量化处理,得到uri类型 特征时,具体用于:
57.对uri实体的属性信息进行语句表示学习,得到uri嵌入表示;
58.对所述uri嵌入表示进行聚类处理,得到uri类型特征;
59.其中,所述第一确定模块在基于所述ip实体的属性信息、所述uri实体的属性信息、 所述uri抽象实体的属性信息以及所述各实体和实体之间的关系进行向量化处理,得到向 量化处理后的信息时,具体用于:
60.基于所述ip与uri之间请求类型以及所述uri类型特征进行统计处理,得到统计后的 数据,所述统计后的数据包括:所述每个ip单位时间http请求数、所述每个ip单位时间 请求类型特征以及所述每个ip单位时间请求的uri类型特征中的至少一项;
61.将所述ip实体的属性信息、所述ip实体与uri实体之间的关系属性以及所述uri抽象 实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息,所述数值转换后的 信息包括:所述ip特征、所述状态码特征、所述请求类型特征、所述协议特征、所述uri 层级特征、所述uri参数个数特征、所述uri根目录词嵌入特征和所述uri资源文件类型 词嵌入特征中的至少一项。
62.在另一种可能的实现方式中,所述ip实体与uri实体之间的关系属性还包括:ip与 uri之间的状态码和ip与uri之间的协议;
63.所述第一确定模块在将ip实体的属性信息、ip实体与uri实体之间的关系属性以及 uri抽象实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息时,具体用 于:
64.对所述ip实体的属性信息、所述ip与uri之间的状态码、所述ip与uri之间的请求 类型以及所述ip与uri之间的协议进行编码,得到编码处理后的特征,所述编码处理后的 特征包括:ip特征、状态码特征、请求类型特征以及协议特征;
65.基于所述uri抽象实体的属性信息,确定根目录文本、资源文件类型、所述uri层级 特征和所述uri参数个数特征;
66.基于所述根目录文本和所述资源文件类型,生成所述uri根目录词嵌入特征和所述 uri资源文件类型词嵌入特征。
67.在另一种可能的实现方式中,所述装置还包括:池化处理模块和第二确定模块,其中,
68.池化处理模块,用于对所述uri根目录词嵌入特征和所述uri资源文件类型词嵌入特 征池化处理,得到池化处理后的uri根目录词嵌入特征和池化后的uri资源文件类型词
嵌 入特征;
69.第二确定模块,用于将池化处理后的uri根目录词嵌入特征、池化后的uri资源文件 类型词嵌入特征、所述uri层级特征和所述uri参数个数特征确定为四维特征。
70.其中,所述第一确定模块在基于所述节点中心度特征、所述uri网页排名特征以及所 述向量化处理后的信息,确定所述web日志数据特征集合时,具体用于:
71.基于所述节点中心度特征、所述uri网页排名特征、所述uri类型特征、所述统计后 的数据以及所述四维特征,确定所述web日志数据特征集合。
72.在另一种可能的实现方式中,所述数据特征集合还包括:请求字节数特征;所述请求字 节数特征是基于所述ip实体与uri实体之间的关系确定的;
73.所述装置还包括:等频分箱处理模块和等距分箱处理,其中,
74.等频分箱处理模块,用于对所述请求字节数特征进行等频分箱处理;
75.等距分箱处理模块,用于对所述单位时间http请求数特征、所述单位时间请求类型特 征和所述单位时间请求的uri类型特征进行等距分箱处理。
76.在另一种可能的实现方式中,所述装置还包括:第一归一化处理模块或者第二归一化处 理模块,其中,
77.第一归一化处理模块,用于对所述web日志特征集合中的各个特征进行归一化处理;
78.第二归一化处理模块,用于确定待进行归一化的特征集合,并对所述待进行归一化的特 征集合中的各个特征进行归一化处理,所述待进行归一化的特征集合属于所述web日志数 据特征集合,且不包含所述每个ip单位时间http请求数特征、所述每个ip单位时间请求 类型特征、所述每个ip单位时间请求的uri类型特征以及所述请求字节数特征。
79.在另一种可能的实现方式中,所述检测模块在对所述web日志数据特征集合进行异常 流量检测时,具体用于:
80.基于归一化处理后的所述web日志特征集合进行异常流量检测;或者,
81.基于等频分箱处理结果、等距分箱处理结果以及归一化处理后的待进行归一化的特征集 合进行异常流量检测。
82.第三方面,提供了一种电子设备,包括:
83.一个或者多个处理器;
84.存储器;
85.一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为 由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行根据第一方面中任 一可能的实现方式所示的一种异常流量检测的方法对应的操作。
86.第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,存储介质存储有 至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或 指令集由处理器加载并执行以实现如第一方面中任一可能的实现方式所示的异常流量检测的 方法。
87.综上所述,本技术包括以下至少一种有益技术效果:
88.本技术提供了一种异常流量检测的方法、装置、电子设备及可读存储介质,与相关技术 中基于web日志字段内容进行异常流量检测相比,本技术中进行流量异常检测的数据
特征 集合是通过基于web日志构建的知识图谱得到的各实体分别对应的属性信息以及各实体之 间的关系确定的,其中,各实体分别对应的属性信息包括:ip实体的属性以及uri实体的 属性,各实体之间的关系包括ip实体与uri实体之间的关系;也即在本技术中得到的数据 特征更为全面,从而在基于这些数据特征进行异常流量检测时可以提升异常流量检测的准确 度,进而可以更容易发现web日志的异常。
附图说明
89.图1是本技术实施例提供的一种异常流量检测的方法流程示意图。
90.图2是本技术实施例提供的一种知识图谱本体设计示意图。
91.图3是本技术实施例提供的一种异常流量检测的装置结构示意图。
92.图4是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
93.以下结合附图对本技术作进一步详细说明。
94.本具体实施例仅仅是对本技术的解释,其并不是对本技术的限制,本领域技术人员在阅 读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本技术的权 利要求范围内都受到专利法的保护。
95.随着互联网技术的快速发展,web应用在信息化服务中的基础性作用日益增强。在普遍 的网段隔离以及web应用成为外网访问企业资产资源的有限入口的背景下,针对web应用 的网络安全攻击是攻击团伙常用且主要的威胁手段。恶意的网页访问请求将与正常用户的访 问流量共同被记录在web日志中,因此针对web日志的异常流量检测方法,是保障企业信 息安全的重要手段,成为维护企业安全生成的重要组成部分。
96.目前许多企业在对外部接入系统的流量进行异常检测中采用了多个厂商的安防告警设备, 这些检测设备支持的流量类型、原理与效果有明显差别。基于规则的异常流量检测方法,缺 少对正常的用户访问与异常的威胁流量综合的建模与分析,只能检测已知的有限几种异常情 况,无法有效适应日益变化网络攻击技术,因此需要使用机器学习技术完成自动化的异常检 测。在实际的异常流量检测中主要通过旁路pcap包采集等手段收集流量数据,但缺少对网 页应用的web日志的关注。相比于全流量采集方法,web日志仅记录ip对企业web uri资 源的访问等信息,使用较小的存储开销,也能用于发现异常的访问请求,可作为异常流量检 测方法的一个有效应用目标,基于web日志的异常流量检测方法能够对多种类型的web应 用的日志进行异常流量的检测,利用web日志可减少对全流量采集的需求,本技术实施例 适用于企业外部环境中部署的web应用所记录的web日志的异常流量检测。
97.为了解决以上技术问题,本技术实施例利用web应用运行时记录的web日志与企业提 供的资产拓扑信息和web服务应用文档,在发生外部威胁行为攻击企业web应用时,在 web日志记录的访问请求中检测出异常的流量,定位攻击的入口点并聚类分析流量对应的行 为。
98.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附 图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本技术 一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
99.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种 关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情 况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
100.下面结合说明书附图对本技术实施例作进一步详细描述。
101.本技术实施例提供一种异常流量检测的方法,由电子设备执行,该电子设备可以为服务 器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器 构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是 智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此,该终端设备以及服务 器可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例在此不做限制,其中, 如图1所示,该方法可以包括:
102.步骤s1、获取基于web日志构建的知识图谱。
103.知识图谱(knowledge graph)本质上是一种叫做语义网络(semantic network)的知识 库,即具有有向图结构的一个知识库。通俗一点说:知识图谱是由实体、关系和属性组成的 一种数据结构。
104.对于本技术实施例,基于web日志构建的知识图谱是预先构建的,在本技术实施例中, 基于web日志构建的知识图谱可以从本地存储中进行获取,还可以从其他设备中进行获取, 还可以是由用户输入的,在本技术实施例中不做限定。
105.对于本技术实施例,获取不同web服务器的web日志作为输入,包括apache与nginx 等常见web服务器,相同web服务器可按需求配置不同格式的web日志,通过不同格式的 web日志的解析器对不同的web日志类型进行解析,将每一个日志行解析为后续检测所需 要的字段表,基于对web日志知识图谱的本体设计,构建知识图谱。
106.步骤s2、基于知识图谱获取实体和实体之间的关系以及各个实体分别对应的属性信息。
107.其中,实体和实体之间的关系包括:ip实体和统一资源标识符(uniform resourceidentifier,uri)实体之间的关系,各个实体分别对应的属性信息包括:ip实体的属性信息 和uri实体的属性信息。
108.对于本技术实施例,基于知识图谱获取各个实体分别对应的属性信息,也即基于知识图 谱确定各个实体分别对应的实体类型以及各自对应的属性信息;进一步地,基于知识图谱获 取实体与实体之间的关系,也即基于知识图谱获取实体与实体之间的关系类型以及实体与实 体之间的属性。在本技术实施例中,基于知识图谱获取的实体与实体之间的关系所对应的类 型为ip-发送数据

uri,各实体分别对应的类型以及属性可以包括ip实体,ip实体的属性信 息可以包括:ip地址、是否为公网ip;uri实体的属性信息可以包括:路径以及主机名。
109.步骤s3、基于实体和实体之间的关系以及各个实体分别对应的属性信息确定web日志 数据特征集合。
110.在通过上述实施例获取到实体和实体之间的关系以及各个实体分别对应的属性信息后, 可以基于获取到的这些信息确定用于后续异常检测的数据特征集合。具体地,将
实体和实体 之间的关系以及各个实体分别对应的属性信息中的文本信息转换为数值信息,将实体和实体 之间的关系以及各个实体分别对应的属性信息中的数值信息和转换后的数值信息进行处理, 将所有数值信息或处理后的结果确定为web日志数据特征集合。
111.步骤s4、对web日志数据特征集合进行异常流量检测。
112.在通过上述实施例得到web日志数据特征集合后,基于web日志数据特征集合进行异 常流量检测,具体的异常流量检测方式详见下述实施例。
113.本技术实施例提供了一种异常流量检测的方法,与相关技术中基于web日志字段内容 进行异常流量检测相比,本技术实施例中进行流量异常检测的数据特征集合是通过基于 web日志构建的知识图谱得到的各实体分别对应的属性信息以及各实体之间的关系确定的, 其中,各实体分别对应的属性信息包括:ip实体的属性以及uri实体的属性,各实体之间 的关系包括ip实体与uri实体之间的关系;也即在本技术中得到的数据特征更为全面,从 而在基于这些数据特征进行异常流量检测时可以提升异常流量检测的准确度,进而可以更容 易发现web日志的异常。
114.进一步地,在步骤s1之前还可以包括:输入web日志、web日志的解析器、资产拓扑 信息和web应用服务文档,根据web日志知识图谱的本体设计,完成日志的解析与web图 谱的构建及存储。在本技术实施例中,基于图谱的本体库设计构建知识图谱。
115.具体地,知识图谱的本体库设计如图2所示,本体库设计包括:本体类型和本体间关系, 本体类型包括:ip本体、uri本体、uri抽象本体、web日志本体、行为本体、攻击事件本 体、服务本体和服务器本体,本体间关系包括:ip本体和uri本体之间的关系;
116.进一步地,ip本体和uri本体之间的关系包括:发送数据;uri本体和uri本体的关 系包括:跳转;uri本体和uri抽象本体之间的关系包括:生成;ip本体和uri本体与 web日志本体之间的关系包括:来源;web日志本体和行为本体之间的关系包括:匹配;行 为本体和攻击事件本体之间的关系包括:组成;uri本体和服务本体之间的关系包括:提供; 服务本体和服务器本体之间的关系包括:部署;ip本体和服务本体的关系包括:访问;ip 本体和服务器本体的关系包括:连接,由ip发起的连接、访问两条虚线并不会参与知识图 谱的构建,代表隐式的关系推理过程。
117.进一步地,在基于web日志构建知识图谱时是日志解析的字段表结果以用于构建图谱, 除了通过web日志构建知识图谱外还获取资产拓扑信息和web应用服务文档,并基于资产 拓扑信息和web应用服务文档构建知识图谱。其中,资产拓扑信息和web应用服务文档用 于关联web日志中出现的uri与具体的功能服务,服务通常由端口号做区分,以及服务部 署在的具体服务器,一个web服务器上通常部署多个web服务,完成对web日志的建模。
118.进一步地,该web日志知识图谱中除了上文所涉及的ip和uri之外,还可以包括: uri抽象实体以及对应的属性、服务实体以及对应的属性、服务器实体以及对应的属性,还 可以包括:uri与uri抽象之间的关系、uri与服务之间的关系、服务与服务器之间的关系 以及各自对应的属性信息,具体如表一所示;
119.表一
[0120][0121][0122]
其中ip、uri、uri抽象等实体节点由web日志解析生成,其余由资产拓扑信息和 web应用服务文档生成,统计在web日志中出现的且需要关注的ip列表,ip列表是从web 日志出现的至少一个ip,从web日志知识图谱中抽取与一个ip相关的所有访问请求,实体 和实体之间的关系对应的属性信息还包括:时间戳,将获取的实体和实体之间的关系以及各 个实体分别对应的属性信息按相同的ip由时间戳递增的顺序排列。
[0123]
进一步地,在进行异常流量检测时除了基于上文所涉及的ip实体、uri实体以及两者 之间的关系外,还可以基于uri抽象实体属性、服务实体属性以及服务器实体属性、服务 和服务之间、服务器与服务器之间的关联关系以及uri与服务之间的关系。其中,服务和 服务之间、服务器与服务器之间的关联关系可由资产拓扑信息和web应用服务文档提供, 用于展现uri之间的高阶关联,高阶关联为uri提供的服务之间的关联,反映服务或服务 器在整个资产拓扑中的定位与作用,在知识图谱中,ip实体、uri实体、uri抽象实体由 web日志
解析生成,服务和服务器由资产拓扑信息和web应用服务文档生成,最终建模的 web日志知识图谱将通过图形数据库neo4j等图数据库或文件进行存储,用于后续的异常检 测或多个web日志的融合分析。
[0124]
进一步地,当各个实体分别对应的属性信息还包括:uri抽象实体的属性信息、服务实 体的属性信息以及服务器实体的属性信息时,步骤s3中基于实体和实体之间的关系以及各 个实体分别对应的属性信息确定web日志数据特征集合,具体可以包括:步骤s31(图中未 示出)、步骤s32(图中未示出)和步骤s33(图中未示出),其中,步骤s33在步骤s31和步骤 s32之后执行,步骤s31可以在步骤s32之后执行,步骤s31也可以在步骤s32之前执行, 步骤s31也可以和步骤s32同时执行,在本技术实施例中不做限定。
[0125]
步骤s31、基于ip实体的属性信息、uri实体的属性信息、uri抽象实体的属性信息、 服务实体的属性信息、服务器实体的属性信息以及各实体与实体之间的关系,计算节点中心 度特征以及uri网页排名特征。
[0126]
具体地,在本技术实施例中,基于ip实体的属性信息、uri实体的属性信息、uri抽 象实体的属性信息、服务实体的属性信息、服务器实体的属性信息以及各实体之间的关系, 计算节点中心度特征;基于uri实体的属性信息以及uri实体与其他各实体之间的关系, 计算uri网页排名特征。在本技术实施例中,计算节点中心度特征可以在计算uri网页排 名特征之前执行,也可以在计算uri网页排名特征之后执行,还可以与计算uri网页排名 特征同时执行,在本技术实施例中不做限定。
[0127]
其中,节点中心度特征包括:ip节点的度中心性、uri抽象节点的度中心性、服务节点 的度中心性以及服务器节点的紧密中心性中的至少一项,uri网页排名特征用于表征各个 uri网页被访问的次数。
[0128]
对于本技术实施例,ip实体的属性信息包括:ip地址和是否为公网ip,uri实体的属 性信息包括:路径和主机名,uri抽象实体的属性信息包括:名称,服务实体的属性信息 包括:名称、端口和权限以及服务器实体的属性信息包括:名称、ip地址、级别和功能域/ 位置,如表一所示,对于uri抽象节点,例如,/js/chunk-d6e2869a.abc86ac9.js uri被抽象 为/js/*.*.js)度中心性用于表征节点在知识图谱中的重要性,紧密中心性用于表征服务器与 其他服务器的接近程度,针对低度中心性、低网页排名分数或访问低紧密中心性的请求需要 被关注。
[0129]
步骤s32、基于ip实体的属性信息、uri实体的属性信息、uri抽象实体的属性信息以 及各实体与实体之间的关系进行向量化处理,得到向量化处理后的信息。
[0130]
具体地,在本技术实施例中,向量化处理后的信息包括:uri类型特征、ip特征、状态 码特征、请求类型特征、协议特征、每个ip单位时间http请求数特征、每个ip单位时间 请求类型特征、每个ip单位时间请求的uri类型特征和uri抽象特征中的至少一项;ip实 体与uri实体之间的关系包括:ip实体与uri实体之间的关系属性,ip实体与uri实体之 间的关系属性包括:ip与uri之间的请求类型。
[0131]
对于本技术实施例,将ip实体的属性信息、uri实体的属性信息、uri抽象实体的属 性信息以及各实体与实体之间的关系进行向量化,得到能被异常检测的数据特征。在本技术 实施例中,基于uri实体的属性信息进行向量化处理,得到uri类型特征,具体可以包括: 对uri实体的属性信息进行语句表示学习,得到uri嵌入表示;对uri嵌入表示进行聚类 处
日志数据特征集合的说明也即各个web日志数据特征对应的数据类型。
[0152]
表二
[0153][0154]
进一步地,数据特征集合还可以包括:请求字节数特征;请求字节数特征是基于ip实 体与uri实体之间的关系确定的;为实现数据的离散化,增强数据稳定性,并且为了增强 异常流量检测的效果和泛化性,以使得不会对单一特征数值的变化而特别敏感,因此对请求 字节数特征、每个ip单位时间http请求数特征、每个ip单位时间请求类型特征和每个ip 单位时间请求的uri类型特征进行分箱处理。其中,数据分箱处理,即把一段连续的值切 分成若干段,每一段的值看成一个分类。通常把连续值转换成离散值的过程,我们称之为分 箱处理。具体地分箱处理的过程可以包括:步骤sc(图中未示出)和步骤sd(图中未示出), 其中,步骤sc和步骤sd可以同时执行,步骤sc可以在步骤sd之后执行,步骤sc可以在 步骤sd之前执行,具体的执行顺序在本技术实施例中不做限定。
[0155]
步骤sc、对请求字节数特征进行等频分箱处理。
[0156]
其中,等频分箱处理也即每个分箱区间内包括的请求字节数特征个数一样多。在本技术 实施例中,由于请求字节数特征较为离散且分布均匀,因此适合使用等频分箱方法,可控制 每个区间内的请求字节数特征的数量。
[0157]
步骤sd、对每个ip单位时间http请求数特征、每个ip单位时间请求类型特征和每个 ip单位时间请求的uri类型特征进行等距分箱处理。
[0158]
对于本技术实施例,每个ip单位时间http请求数特征、每个ip单位时间请求类型特 征和每个ip单位时间请求的uri类型特征分别对应的每个分箱区间内之间的距离是一样的, 由于每个ip单位时间http请求数特征、每个ip单位时间请求类型特征和每个ip单位时间 请求的uri类型特征数据分布不均匀,且频率划分点容易有重值,因此对每个ip单位
时间 http请求数特征、每个ip单位时间请求类型特征和每个ip单位时间请求的uri类型特征 无法使用等频分箱(会报错),因此这三个特征更适于进行等距分箱处理,例如,1-5为一个 分箱区间,6-10为一个分箱区间。
[0159]
对于本技术实施例,为实现数据的离散化,增强数据稳定性,增强异常检测的效果与泛 化性,对请求字节数特征、每个ip单位时间http请求数特征、每个ip单位时间请求类型 特征和每个ip单位时间请求的uri类型特征进行分箱处理。
[0160]
进一步地,为了消除数据特征之间的属性影响,提高数据特征的精度,以解决数据特征 之间的可比性,将数据特征集合映射到0至1范围之内的小数,数据特征经过归一化处理后, 各数据特征处于同一数量级,适合进行综合对比评价以进行异常检测。该方法还可以包括: 步骤se(图中未示出)或者步骤sf(图中未示出),其中,在执行步骤sc和步骤sd之后执 行步骤se,步骤sf可以在步骤sc和步骤sd之前执行,步骤sf可以在步骤sc和步骤sd之 后执行,步骤sf可以和步骤sc和步骤sd同时执行,具体的执行顺序在本技术实施例中不 做限定。
[0161]
步骤se、对web日志特征集合中的各个特征进行归一化处理。也即可以对上文中所涉 及到的web日志特征集合中的各个特征均进行归一化处理。
[0162]
步骤sf、确定待进行归一化的特征集合,并对待进行归一化的特征集合中的各个特征 进行归一化处理。
[0163]
其中,待进行归一化的特征集合属于web日志数据特征集合,且不包含每个ip单位时 间http请求数特征、每个ip单位时间请求类型特征、每个ip单位时间请求的uri类型特 征以及请求字节数特征。
[0164]
本技术实施例的另一种可能的实现方式,步骤s4中对web日志数据特征集合进行异常 流量检测,具体可以包括:步骤s41(图中未示出)或者步骤s42(图中未示出),其中,若 上述实施例中执行步骤se,则执行步骤s41,若上述实施例中执行步骤sf,则执行步骤s42, 其中,
[0165]
步骤s41、基于归一化处理后的web日志特征集合进行异常流量检测。
[0166]
步骤s42、基于等频分箱处理结果、等距分箱处理结果以及归一化处理后的待进行归一 化的特征集合进行异常流量检测。
[0167]
对于本技术实施例,聚类分析流量的所有特征数据,标记聚类结果为具体行为语义,使 用k均值算法(k-means clustering algorithm,k-means)与rock算法对web日志数据特 征集合进行聚类分析并可视化,聚类的结果将反映ip访问uri的行为语义,可以有效区分 由不同ip访问uri以及请求方法对应的访问行为,基于聚类之后得到的行为语义进行异常 检测,其中,k-means将侧重于以uri为主体的行为聚类,异常行为流量被聚为一类,同时 拆分正常流量为多个行为,rock侧重于以ip为主体的行为聚类,正常流量被聚类为单一 簇,而异常流量被拆分为多个行为,其中,在对知识图谱中的信息进行异常流量检测时,由 安全专家根据最后的聚类结果进行标注,聚类结果将反映一类流量所表示的行为,比如对于 image/png流量请求的聚类结果,代表了图片访问行为,安全人员通过分析聚类的结果,为 这些流量标注标签,放在本体库设计图中,就是行为本体,攻击事件本体与行为本体类似, 由安全人员对异常检测的结果进行标注,对应上具体的攻击行为,比如暴力破解,将异常流 量生成对应的攻击本体,代表该攻击流量的攻击方式。通过这两个本体,将标注后的
于表征各个uri网页被访问的次数;
[0179]
基于ip实体的属性信息、uri实体的属性信息、uri抽象实体的属性信息以及各实体 与实体之间的关系进行向量化处理,得到向量化处理后的信息;
[0180]
基于节点中心度特征、uri网页排名特征以及向量化处理后的信息,确定web日志数 据特征集合。
[0181]
本技术实施例的另一种可能的实现方式,向量化处理后的信息包括:uri类型特征、ip 特征、状态码特征、请求类型特征、协议特征、每个ip单位时间http请求数特征、每个 ip单位时间请求类型特征、每个ip单位时间请求的uri类型特征和uri抽象特征中的至少 一项;
[0182]
ip实体与uri实体之间的关系包括:ip实体与uri实体之间的关系属性,ip实体与 uri实体之间的关系属性包括:ip与uri之间的请求类型;
[0183]
其中,第一确定模块33在基于uri实体的属性信息进行向量化处理,得到uri类型特 征时,具体用于:
[0184]
对uri实体的属性信息进行语句表示学习,得到uri嵌入表示;
[0185]
对uri嵌入表示进行聚类处理,得到uri类型特征;
[0186]
其中,第一确定模块33在基于ip实体的属性信息、uri实体的属性信息、uri抽象实 体的属性信息以及各实体和实体之间的关系进行向量化处理,得到向量化处理后的信息时, 具体用于:
[0187]
基于ip与uri之间请求类型以及uri类型特征进行统计处理,得到统计后的数据,统 计后的数据包括:每个ip单位时间http请求数特征、每个ip单位时间请求类型特征以及 每个ip单位时间请求的uri类型特征中的至少一项;
[0188]
将ip实体的属性信息、ip实体与uri实体之间的关系属性以及uri抽象实体的属性信 息由非数值数据转换为数值数据,得到数值转换后的信息,数值转换后的信息包括:ip特征、 状态码特征、请求类型特征、协议特征、uri层级特征、uri参数个数特征、uri根目录词 嵌入特征和uri资源文件类型词嵌入特征中的至少一项。
[0189]
本技术实施例的另一种可能的实现方式,ip实体与uri实体之间的关系属性还包括: ip与uri之间的状态码和ip与uri之间的协议;
[0190]
第一确定模块33在将ip实体的属性信息、ip实体与uri实体之间的关系属性以及uri抽象实体的属性信息由非数值数据转换为数值数据,得到数值转换后的信息时,具体用 于:
[0191]
对ip实体的属性信息、ip与uri之间的状态码、ip与uri之间的请求类型以及ip与 uri之间的协议进行编码,得到编码处理后的特征,编码处理后的特征包括:ip特征、状态 码特征、请求类型特征以及协议特征;
[0192]
基于uri抽象实体的属性信息,确定根目录文本、资源文件类型、uri层级特征和 uri参数个数特征;
[0193]
基于根目录文本和资源文件类型,生成uri根目录词嵌入特征和uri资源文件类型词 嵌入特征。
[0194]
本技术实施例的另一种可能的实现方式,装置30还包括:池化处理模块和第二确定模 块,其中,
[0195]
池化处理模块,用于对uri根目录词嵌入特征和uri资源文件类型词嵌入特征池化处 理,得到池化处理后的uri根目录词嵌入特征和池化后的uri资源文件类型词嵌入特征;
[0196]
第二确定模块,用于将池化处理后的uri根目录词嵌入特征、池化后的uri资源文件 类型词嵌入特征、uri层级特征和uri参数个数特征确定为四维特征。
[0197]
其中,第一确定模块33在基于节点中心度特征、uri网页排名特征以及向量化处理后 的信息,确定web日志数据特征集合时,具体用于:
[0198]
基于节点中心度特征、uri网页排名特征、uri类型特征、统计后的数据以及四维特征, 确定web日志数据特征集合。
[0199]
本技术实施例的另一种可能的实现方式,数据特征集合还包括:请求字节数特征;请求 字节数特征是基于ip实体与uri实体之间的关系确定的;
[0200]
装置30还包括:等频分箱处理模块和等距分箱处理模块,其中,
[0201]
等频分箱处理模块,用于对请求字节数特征进行等频分箱处理;
[0202]
等距分箱处理模块,用于对每个ip单位时间http请求数特征、每个ip单位时间请求 类型特征和每个ip单位时间请求的uri类型特征进行等距分箱处理。
[0203]
本技术实施例的另一种可能的实现方式,装置30还包括:第一归一化处理模块或者第 二归一化处理模块,其中,
[0204]
第一归一化处理模块,用于对web日志特征集合中的各个特征进行归一化处理;
[0205]
第二归一化处理模块,用于确定待进行归一化的特征集合,并对待进行归一化的特征集 合中的各个特征进行归一化处理,待进行归一化的特征集合属于web日志数据特征集合, 且不包含每个ip单位时间http请求数特征、每个ip单位时间请求类型特征、每个ip单位 时间请求的uri类型特征以及请求字节数特征。
[0206]
本技术实施例的另一种可能的实现方式,检测模块34在对web日志数据特征集合进行 异常流量检测时,具体用于:
[0207]
基于归一化处理后的web日志特征集合进行异常流量检测;或者,
[0208]
基于等频分箱处理结果、等距分箱处理结果以及归一化处理后的待进行归一化的特征集 合进行异常流量检测。
[0209]
本技术实施例提供了一种异常流量检测的装置,与相关技术中基于web日志字段内容 进行异常流量检测相比,本技术实施例中进行流量异常检测的数据特征集合是通过基于 web日志构建的知识图谱得到的各实体分别对应的属性信息以及各实体之间的关系确定的, 其中,各实体分别对应的属性信息包括:ip实体的属性以及uri实体的属性,各实体之间 的关系包括ip实体与uri实体之间的关系;也即在本技术中得到的数据特征更为全面,从 而在基于这些数据特征进行异常流量检测时可以提升异常流量检测的准确度,进而可以更容 易发现web日志的异常。
[0210]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的一种知识图 谱构建的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0211]
本技术实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理 器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。可选地, 电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个, 该电子
设备40的结构并不构成对本技术实施例的限定。
[0212]
处理器401可以是cpu(central processing unit,中央处理器),通用处理器,dsp (digital signal processor,数据信号处理器),asic(application specific integrated circuit, 专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编 程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公 开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的 组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
[0213]
总线402可包括一通路,在上述组件之间传送信息。总线402可以是pci(peripheralcomponent interconnect,外设部件互连标准)总线或eisa(extended industry standardarchitecture,扩展工业标准结构)总线等。总线402可以分为地址总线、数据总线、控制总 线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一型的总线。
[0214]
存储器403可以是rom(read only memory,只读存储器)或可存储静态信息和指令 的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存 储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasableprogrammable read only memory,电可擦可编程只读存储器)、cd-rom(compact discread only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、 数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存 储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限 于此。
[0215]
存储器403用于存储执行本技术方案的应用程序代码,并由处理器401来控制执行。处 理器401用于执行存储器403中存储的应用程序代码,以实现前述方法实施例所示的内容。
[0216]
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、pda(个人 数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终 端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。还可以为服务器等。 图4示出的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0217]
本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机 程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与相关技 术中基于web日志字段内容进行异常流量检测相比,本技术实施例中进行流量异常检测的 数据特征集合是通过基于web日志构建的知识图谱得到的各实体分别对应的属性信息以及 各实体之间的关系确定的,其中,各实体分别对应的属性信息包括:ip实体的属性以及 uri实体的属性,各实体之间的关系包括ip实体与uri实体之间的关系;也即在本技术中 得到的数据特征更为全面,从而在基于这些数据特征进行异常流量检测时可以提升异常流量 检测的准确度,进而可以更容易发现web日志的异常。
[0218]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步 骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并 没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少
一部分步骤 可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成, 而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其 他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0219]
以上仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在 不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术 的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献