一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向工业物联网的异常流量分级检测方法与流程

2021-12-08 00:34:00 来源:中国专利 TAG:


1.本发明属于异常流量检测技术领域,具体涉及一种面向工业物联网的异常流量分级检测方法。


背景技术:

2.工业物联网技术在工业生产领域的应用越来越广泛,通过网络互联可以实现总控终端上各个设备层的控制装置的信息交互,能够将管理决策与流水线式的生产操作完美融合,同时也带来了一系列全新的挑战,由于接入网络的端口越来越多、种类越来越多样化,导致工业物联网中的总控系统、数据输入、联网设备容易遭受攻击,破坏网络正常运行,甚至中断工业生产,造成经济损失,因此对于工业物联网的流量安全的异常检测研究是非常有必要的。
3.工业物联网中的异常主要是流量异常,流量异常的产生原因有两点,其一是网络技术始终是存在缺陷、不断升级的,在协议、管理、服务中存在的漏洞会被攻击者利用;其二是工业物联网中融合的新技术本身没有经过可靠验证的安全防护措施,给网络带来的潜藏的安全隐患。
4.现阶段关于工业物联网的研究已经在全球展开,研究的切入点主要是围绕网络架构、流量交互等。工业物联网环境下的异常流量检测方法有许多种类,根据检测方法不同可以划分为三个类别,分别是基于特征规则的异常流量检测、基于统计分析的异常流量检测、基于机器学习的异常流量检测。本发明为了实现工业物联网环境下的异常流量检测,并且保证检测的速度快、准确率高,提出统计分析与机器学习混合的异常流量分级检测方法。为了紧跟工业物联网的发展,还需要更进一步的研究。


技术实现要素:

5.基于上述问题,本发明提出一种基于异常流量分级检测方法,分级检测方法包括两次异常检测,第一级是基于统计分析的流量频数检测,检测网络流量的频数异常;第二级是基于聚类算法的流量属性检测,对可疑流量检测属性异常。
6.本发明的技术方案如下:
7.一种面向工业物联网的异常流量分级检测方法,包括两次异常检测。
8.(1)、流量频数检测
9.(1

1)、首先计算流量频数的差分值,进行平滑处理;
10.(1

2)、然后采用指数加权移动平均模型进行数据拟合,使数据符合统计规律,并且对模型进行了偏差修正,降低初始值产生的误差;
11.(1

3)、最后提出双层阈值区间的方法,将流量分为稳态流量、可疑流量、危险流量三种流量;
12.(2)、流量属性检测
13.对于第一级检测中发现的可疑流量进行第二级流量属性检测;采用一种面向复杂
数据属性特征的聚类优化异常检测算法,算法根据流量属性特征的优先级对数据的加权距离和安全系数进行分类,快速选择安全系数较高的数据作为聚类中心,并将围绕该中心的多特征数据匹配成为一个聚类,最终用于属性异常检测。
14.优选地,上述步骤(1

2)中的采用指数加权移动平均模型进行数据拟合的具体步骤如下:
15.(1
‑2‑
1)、生成采集到的t时间内的流量频数的观测值的序列θ;
16.(1
‑2‑
2)、计算网络流量频数的差分序列ω;
17.(1
‑2‑
3)、计算差分序列的均值avg(ω)和方差var(ω);根据差分序列算法得知avg(ω
t
)与avg(ω
t
‑1)的关系,根据指数加权移动平均模型的形式得到表达式如下:
[0018][0019][0020]
(1
‑2‑
4)、计算阈值区间;采用偏差修正的指数加权移动平均模型计算t时刻的差分序列的拟合值v
t
,其中β表示为这一时刻观测值分配的权重;
[0021][0022]
优选地,上述(1

3)中双层阈值区间的方法如下:
[0023]
所述公式(3)是根据前一时刻的拟合值和当前时刻的观测值来对当前数据进行修正的刷新机制;安全区间的上下限设定如下,
[0024][0025]
其中n为流量频数异常检测中的方差倍数,设定安全区间中的n的取值范围为[2,3],min(t)表示t时刻的安全区间的下限,max(t)表示t时刻的安全区间的上限;检测区间为:
[0026][0027]
网络流量频数异常诊断;在t时刻,根据指数加权移动平均模型计算t时刻的拟合值,设置拟合值位于[min(t),max(t)]的流量为安全流量;拟合值位于[min(t),min(t)]∪[max(t),max(t)]的流量为可疑流量;拟合值位于(

∞,min(t))||(max(t), ∞)的流量为危险流量。
[0028]
优选地,上述步骤(2)中对可疑流量进行流量属性检测的数据集用x表示x={x1,x2,...,x
n
},每个数据对象x
i
={x
i1
,x
i2
,...,x
im
}(1≤i≤n)是具有m个属性特征的m维向量;第k个属性特征为f
k
={x
1k
,x
2k
,...,x
nk
},w
k
(1≤k≤m)为第k个特征属性的权重;
[0029]
采用一种基于复杂属性特征的聚类优化异常检测算法,包括如下步骤:
[0030]
(2

1)、数据预处理;在0到1范围内对数据进行归一化;
[0031]
(2

2)、选择聚类中心,生成聚类模型;
[0032]
(2

3)、根据源/目的端口、源/目的ip、服务类型字段、协议类型字段、逻辑输入端口进行属性异常检测;输入到复杂属性特征的聚类优化异常检测算法中,根据数据点在每个聚类中的分布情况,可以将聚类标记为正常或者异常,最终得到检测结果。
[0033]
优选地,上述步骤(2

2)的具体步骤包括:
[0034]
(2
‑2‑
1)、设置安全系数阈值δ和聚类数量k;
[0035]
(2
‑2‑
2)、计算重要属性特征f
k
的加权值w
k
,并计算数据集x中任意两个数据之间的马氏距离d(x
i
,x
j
)以及每个数据点的安全系数s(x
i
,l)和s(l),其中l为聚类中心的邻近点数量;
[0036][0037][0038]
(2
‑2‑
3)、当s(x
i
,l)≥δ时,将x
i
加入到高安全系数节点的集合u,从u中选取安全系数最高的数据点作为第一个聚类中心u1,从数据集u中选择距离u1最远的数据点,用u2表示,即聚类u2的聚类中心,以此方法继续选择聚类中心,最终得到k个具有高度安全系数的初始聚类中心;
[0039]
(2
‑2‑
4)、数据集x中的每个数据x
i
会被加入到相距最近的聚类中心u
i
所在的聚类u
i
;利用聚类的算数平均值和误差平方和σ的最优值,对聚类中心进行调整,最终当聚类中心不再发生变化时,生成k个聚类u1,u2,...,u
k

[0040]
本发明的有益效果是:
[0041]
本发明提出了一种面向工业物联网的异常流量分级检测方法,第一级的基于统计分析的流量频数检测算法,能够快速检测到网络中的流量频数异常,保证了一定的检测率。并且,本发明提出的面向复杂属性特征的聚类优化异常检测算法,能够有效检测出网络流量中包含的恶意属性,可以达到较高的检测率、较低的误检率,保证工业物联网的安全可靠。
附图说明
[0042]
图1为本发明中面向工业物联网的分级检测方法流程图;
[0043]
图2为本发明中cic网络流量数据集合图;
[0044]
图3为本发明中流量频数检测与双层阈值区间图;
[0045]
图4为本发明中流量频数检测图;
[0046]
图5为本发明中检测时间对比分析图;
[0047]
图6为本发明中tp率对比分析图;
[0048]
图7为本发明中fp率对比分析图。
具体实施方式
[0049]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0050]
本发明提出了一种面向工业物联网的异常流量分级检测方法,第一级为基于统计分析的流量频数检测,将流量分为稳态流量、可疑流量、危险流量;对可疑流量进行第二级属性检测,设计了一种基于复杂属性特征的聚类优化异常检测方法,得到值为正常或异常的检测结果,将异常流量进行报警。
[0051]
流量数据采用cic数据集,cic数据集是由通信安全机构(cse)与加拿大网络安全研究所的合作项目如图2,本发明设计的网络流量异常检测采用分级检测的方法,从原始流量中提取出七元组,七元组包括源地址ip、目标地址ip、源端口号、目标端口号、协议类型字段、服务类型字段、逻辑输入接口这七个字段,流量频数异常检测检测的是流量频数是否在正常范围内波动,本发明设置双层阈值区间,将流量根据频数分为三类,流量频数检测与双层阈值区间如图3,当流量为危险流量时,则直接向管理基站报警;当流量为可疑流量时,流量频数检测诊断为异常,接着进行流量属性检测;如果流量为安全流量,则什么都不做。流量属性检测采用聚类算法进行异常字段检测,如果流量频数检测与流量属性检测都诊断为流量异常,则向管理员报警,否则该流量为正常。
[0052]
首先对流量进行第一级的频数异常检测,本发明采用基于指数加权移动平均模型的差分流量频数异常检测算法,为了证实准确性,设置三个集群来模拟工业物联网环境下的设备集群,一共设置了5个正常节点,20个傀儡节点,1个被攻击节点,仿真时间为1600s,实验过程中随机发起5次网络异常,具体步骤如下:
[0053]
步骤1:生成采集到的流量频数的观测值的序列。以t时间内的统计信息作为观测序列,观测序列用θ表示,用θ
t
表示t时刻的观测值,t=1,2,...,t。观测序列的平均值用avg(θ)表示,方差用var(θ)表示;
[0054][0055][0056]
步骤2:计算网络流量频数的差分序列。选取观测序列中每两个相邻数据做差,得到网络流量观测序列的差分序列,用ω表示,ω
t
表示差分序列中t时刻的值,差分序列的平均值用avg(ω)表示;
[0057]
ω
t
=θ
t

θ
t
‑1,t>1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0058][0059]
步骤3:计算差分序列的均值和方差。根据差分序列算法可以得知avg(ω
t
)与avg(ω
t
‑1)的关系,根据指数加权移动平均模型的形式得到表达式如下,
[0060][0061]
由公式(6)
[0062][0063]
可知,当时间t趋近于无穷大时,差分序列ω的均值avg(ω)趋近于0,可以得到t时
刻与t

1时刻的方差的关系如下,
[0064][0065]
步骤4:计算阈值区间。在差分序列算法中,用min(t)表示t时刻的安全区间的下限,max(t)表示t时刻的安全区间的上限。采用偏差修正的指数加权移动平均模型计算t时刻的差分序列的拟合值;
[0066][0067]
v
t
是根据上一时刻计算得到的t时刻的指数加权移动平均值,也就是t时刻的拟合值。表达式(8)是根据前一时刻的拟合值和当前时刻的观测值来对当前数据进行修正的刷新机制。将流量频数异常检测中的方差倍数设置为n,本发明设定安全区间中的n的取值范围为[2,3],检测区间的大小为安全区间的2到4倍。安全区间的上下限设定如下,
[0068][0069]
检测区间为,
[0070][0071]
步骤5:网络流量频数异常诊断。流量频数异常检测采用差分序列与指数加权移动平均模型的统计分析方法,计算不同时刻下网络流量频数的变化趋势。流量频数检测得到的流量频数曲线如图4所示,在实验中共发起了5次网络异常,图4中标记的中间两条水平线为安全区间,安全区间内的流量都在正常的频数范围之内;在边界水平线与中间水平线之间的区域为检测区间,出现在此区间的流量为可疑流量,需要经过第二级的属性检测,只有当两次检测都诊断为异常时,才能最终判断为异常流量。
[0072]
实验证明基于统计分析的流量频数异常检测可以保证一定的准确率。本发明在cic

ids

2018数据集中取一万条流量数据进行时间测试,将本发明提出的流量频数检测方法与基于pso优化的knn的方法、基于pso优化bp算法、基于pso优化的k

means算法这三种算法进行对比,如图5所示。结果显示,本发明算法在多次检测中的平均时间相比另外三种算法都比较少,说明统计分析方法的流量频数异常检测的速度更快。
[0073]
对上述频数异常检测出的可疑流量进行流量属性检测,数据集用x表示x={x1,x2,...,x
n
},每个数据对象x
i
={x
i1
,x
i2
,...,x
im
}(1≤i≤n)是具有m个属性特征的m维向量。第k个属性特征为f
k
={x
1k
,x
2k
,...,x
nk
},w
k
(1≤k≤m)为第k个特征属性的权重。
[0074]
本发明设计了一种基于复杂属性特征的聚类优化异常检测算法,包括:
[0075]
步骤6:数据预处理。有效地提取出数据的特征,并对特征值进行标准化处理,处理
数据集的复杂属性特征时在0到1的范围内对数据进行归一化;
[0076]
步骤7:选择聚类中心,生成聚类模型。
[0077]
步骤8:根据源/目的端口、源/目的ip、服务类型字段、协议类型字段、逻辑输入端口进行属性异常检测。输入到复杂属性特征的聚类优化异常检测算法中,根据数据点在每个聚类中的分布情况,可以将聚类标记为正常或者异常,最终得到检测结果。
[0078]
为了评估异常流量检测的可靠性,使用cic数据集进行实验,选取五个样本构建训练集,作为对比实验设置属性特征的数量从0增加到100,每次增加20,将本文提出的流量属性异常检测算法与基于pso优化的k

means算法、基于pso优化的bp算法进行比较,采用真正例tp、假正例fp来评估聚类效果,结果如图6和图7所示;
[0079]
所述步骤7包括:
[0080]
步骤7.1:设置安全系数阈值δ和聚类数量k;
[0081]
步骤7.2:计算重要属性特征f
k
的加权值w
k
,并计算数据集x中任意两个数据之间的马氏距离d(x
i
,x
j
)
[0082][0083]
其中s为协方差矩阵。当s为单位矩阵时,距离度量约等于马氏距离。并计算每个数据点的安全系数s(x
i
,l)和s(l),其中l为聚类中心的邻近点数量;
[0084][0085][0086]
步骤7.3:当s(x
i
,l)≥δ时,将x
i
加入到高安全系数节点的集合u,从u中选取安全系数最高的数据点作为第一个聚类中心u1,从数据集u中选择距离u1最远的数据点,用u2表示,即聚类u2的聚类中心,以此方法继续选择聚类中心,最终得到k个具有高度安全系数的初始聚类中心;
[0087]
步骤7.4:数据集x中的每个数据x
i
会被加入到相距最近的聚类中心u
i
所在的聚类u
i
。复杂属性特征的聚类算法的迭代结束条件有两种,即算法迭代次数达到了预先设定的最大值或是达到了最佳的聚类效果。通过评价函数计算聚类的最优准则,评价函数在每次迭代之后计算结果。如果算法满足结束条件,那么迭代终止,否则算法继续进行,直到达到最优结果。评价聚类效果的常用方法是计算平方误差σ。
[0088][0089]
表达式中,u
j
是第j个聚类u
j
的聚类中心,σ的值越小,表示每个聚类中的数据点与聚类中心的距离越小,相似度越高,此时的聚类效果越好。因此,当σ的值不再变化时,表示此时的聚类中心是到达当前聚类中所有数据的距离和最小的点,达到最优,此时算法停止,完成聚类。最终当聚类中心不再发生变化时,生成k个聚类u1,u2,...,u
k

[0090]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形
也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献