一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于博弈论的DDoS攻击下CPPS防御策略决策方法

2022-11-16 14:07:54 来源:中国专利 TAG:

一种基于博弈论的ddos攻击下cpps防御策略决策方法
技术领域
1.本发明属于智能电网安全领域,涉及一种基于博弈论的分布式拒绝服务 (ddos)攻击下信息物理电力系统(cpps)防御策略决策方法。


背景技术:

2.随着广域测量系统(wams)和监控与数据采集(scada)系统等信息通信技术(ict)的集成,电网正在演变为复杂的信息物理电力系统(cpps),这在提升系统效率和连接可用性的同时也带来了更多的安全隐患。由于电力设施对时延要求严格,存在继电保护,例如ddos攻击,身份认证攻击,跨站脚本攻击,恶意软件扩散攻击等网络攻击对物理过程产生了巨大影响。
3.ddos攻击之所以非常频繁,正是由于其低廉的价格,这也印证了安全并不意味着绝对不会被攻击,而是攻击获得的收益低于付出的资源的共识。与仅存在网络节点的普通网络不同的是,一个复杂的cpps存在大量物理设备。这些设备计算能力有限、内存和存储容量低,仅承担专项任务,例如感知、测量、制动等,其具体任务的执行与卸载通常通过人机层和信息层决策并传递信息。而电力系统中对时延要求严格、存在继电保护,因此攻击者可以通过ddos等攻击影响或混淆信息的传递,进而导致cps的运行出现故障。继电保护的措施指宁可误动,也不可拒动;当发现某个节点受到攻击时会发出信号,或直接切断、隔离故障部分。因此,攻击者付出较小代价攻击特定节点的通讯信道、延迟设备执行任务的时间、混淆设备状态,就可能造成大规模的系统瘫痪。
4.博弈论作为一个已被证明高效的正式工具,量化了攻防之间交互,并且提供了一个合理的理论框架来指导防御者进行有限资源下的最优分配策略。博弈论主要可以由参与者的关系分为合作博弈和非合作博弈,又由攻防双方的动作次数、了解程度和收益情况分别分为动态博弈或静态博弈,完全信息博弈或不完全信息博弈,零和博弈或非零和博弈,如表1所示。策略的收益值是博弈论每一个参与者做出理性决策的重要依据之一,博弈论能够通过理论上的分析和研究,为参与者筛选出收益最高的决策方案。这种方案的正确性主要表现在所有理性的博弈参与者都会自觉地遵循博弈论推导出的均衡策略,没有参与者会独自偏离该均衡策略。均衡策略下,每个参与者的策略一定是针对其他参与者策略的最优应对。
5.目前,cpps背景中应用博弈论方法对网络攻防策略的研究的思路大致为:用博弈模型对攻防行为进行建模,量化评估攻防资源、后果与行动策略;寻找均衡点,求解最优攻防策略。从防御者视角建模,目标使攻击破坏最小;或从攻击者视角建模,使攻击者造成的破坏最大,最后给出优化博弈策略。研究人员从不同的方面对cpps的防御策略进行了大量的研究,如电网网络攻击影响量化引用,攻击模型引用和基于联合仿真试验台引用的网络-物理相互依赖分析。例如用于详细检查网络和物理层之间的影响和相互依赖关系的联合模拟框架;基于随机博弈模型的风险决策方法;分析软件定义网络安全风险的软件等。然而,现有的工作没有充分考虑攻击的具体表现形式和量化攻防双方在网络物理系统中的交互
所造成的影响。而且对于电力工业系统的网络空间安全策略而言,攻击者和防守者的资源,以及从对手那里获得的信息,都会影响攻击和防御效果和成功机会。


技术实现要素:

6.针对现有技术中的问题,本发明基于博弈论建立了一种动态的ddos攻击下 cpps防御策略决策方法。由于电网设备对时间敏感性要求高,本发明考虑当一个节点的任务延迟大于一定阈值时,判定该节点被损耗;尝试破坏节点正常运行的恶意设备即为攻击者,正常运行的节点即为防御者。攻击者目标为正期望收益下成功攻击使得节点无法正常运行,防御者目标为以有限资源保护更多节点。
7.本发明的技术方案如下:
8.本发明提供了一种基于博弈论的ddos攻击下cpps防御策略决策方法,其包括如下步骤:
9.s1:基于有向无环图理论构建cpps信息域物理域依赖关系模型;
10.s2:引入物理安全和信息安全指标,设定贝叶斯指标,对给定的cpps进行节点价值量化;
11.s3:建立博弈模型,本发明的博弈为贝叶斯博弈,贝叶斯博弈也被称为不完全信息(incomplete information)博弈。利用节点任务延迟时间来量化节点的状态情况作为收益指标,将未攻击、攻击失败和攻击成功三种情况下的资源消耗加入博弈模型并进行纳什均衡的计算,在参与者双方每次动作后更新两者的信念指标以体现两者不完全信息下的知识更新,最终达到纳什均衡,给出纳什均衡时的最佳防御策略决策。
12.作为本发明的优选方案,步骤s1中所述的cpps信息域物理域依赖关系模型包括节点和有向连接线段。
13.对于仅包含信息价值或物理价值的节点,则将其对应地映射为信息价值节点或物理价值节点;
14.对于同时包含了信息价值和物理价值的节点,将其映射为信息价值节点和物理价值节点;对于攻击者而言该类节点分为“或”,“和”两种情况,(a)当“或”时,攻击者只需要攻击信息价值节点和物理价值节点之一;(b)当“与”时攻击者需要同时攻击信息价值节点和物理价值节点才能使得该节点无法正常工作。
15.作为本发明的优选方案,步骤s2中所述的物理安全和信息安全指标包括节点的资产价值/重要等级、攻击复杂度、打击效果、攻击防御强度配置;贝叶斯模型相关指标即所述物理安全和信息安全指标;
16.所述资产价值/重要等级包括节点自身价值和上下级影响;节点自身价值分为物理价值和信息价值两部分,上下级影响通过节点之间的联系程度来表示;
17.攻击复杂度包括串联级别、攻击手段复杂度、攻击隐匿性、攻击潜力;其中串联级别由该节点所处的层决定,攻击手段复杂度、攻击隐匿性、攻击潜力由 cvss指标映射获得;
18.打击效果体现了目标的受损情况,通过cvss中的影响度评价进行数值量化;
19.攻击防御强度配置指攻防双方的总资源配置,受到攻防策略可能性和历史信念指标影响。
20.作为本发明的优选方案,步骤s3中,
21.博弈模型中,参与者为攻击者、防御者;在单次防御中,防御者所需要的资源消耗为:
22.rd=γbb γss γo23.其中γb,γs,和γo分别表示了系统正常运行时单位带宽价格、单台设备价格和其他成本;b和s表示通过扩展硬件带宽和分布式集群防御所需的设备数量等方式所需的带宽量。
24.作为本发明的优选方案,步骤s3中,
25.当节点的任务延迟在时间阈值以下时,认为节点处于正常运行状态,其概率设为:
[0026][0027]
其中tk为任务延迟,t
th
为该任务执行的时间阈值,由历史信息或者经验获得,λ
d,k
是当设备正常运行时的阶段k服务持续时间率;
[0028]
攻击者有两种情况:攻击失败和没有攻击;攻击者攻击但失败的概率为p
af,k
,攻击者未攻击的概率为p
nf,k
;对于防御者而言不知道该节点是攻击失败的还是安全的,因此引入了平衡因子δ来表示这两种情况,衡因子是由防御者和攻击者的能力决定的,为常数;
[0029][0030][0031]
其中λ
af,k
是当设备遭受攻击但攻击失败时的服务持续时间率,λ
nf,k
是当设备不遭受攻击时的服务持续时间率;
[0032]
当一个节点的任务延迟超过时间阈值时,认为该节点被攻击,其概率设为:
[0033][0034]
在任务延迟过高时,防御者节点会改变防御策略,其资源消耗预算和相应的任务持续时间随之改变;因此对于一个节点来讲,它在阶段k所需要消耗的资源 r
d,k
为:
[0035][0036][0037]
相应的,攻击者在阶段k所需要消耗的资源记为r
a,k
。t
d,k
,t
a,k
分别是防御者防御的时间和攻击者攻击的时间,r
′d是防御者在受攻击情况下的资源消耗。
[0038]
作为本发明的优选方案,步骤s3中,
[0039]
节点n阶段k 1的防御者信念指标通过多阶段利用马尔科夫信念更新:
[0040]
[0041][0042]
其中常数α表示“安全”运行状态,常数β表示“危险”状态;当信念指数达到设定阈值ω时,认为防御者获得了足够的先验知识,从而能够采用此种方式以进行防御,即当信念指数达到设定阈值后,将此种防御方式加入可选的防御者策略中。分别是攻击者选择的策略等级和防御者选择的策略等级,δ表示两者策略等级的差值。
[0043]
作为本发明的优选方案,步骤s3中,
[0044]
针对节点n,给定攻击者防御者策略对针对节点n,给定攻击者防御者策略对为攻击者期望收益,为防御者期望收益,表示为:
[0045][0046][0047]
其中,上标n表示对应的参数为节点n的参数,n为节点的数量,k为阶段数;vn是节点n的价值,是攻击者针对节点n发动攻击时所需要的资源,t
nnf,k
是节点n不受攻击的时间,t
naf,k
是节点n受攻击但攻击失败的时间。
[0048]
在博弈模型中,攻击者和防御者都希望最大化其收益,当他们选择出一个双方都不会改变的策略时,就被称之为纳什均衡;假设对于任何防御者策略都存在使得攻击者期望收益最大,同时对于任何攻击者策略都存在使得防御者期望收益最大,那么纳什均衡就达到了,输出纳什均衡时的防御者策略作为最佳防御策略决策。
[0049]
本发明将设备任务延迟时间来量化节点的状态情况,考虑了未攻击、攻击失败和攻击成功三种情况下的资源消耗,并结合信息物理系统信息域与物理域交融的特点,进行贝叶斯模型相关指标的设计,动态更新信念指标以体现不完全信息下两者的交互情况,实现了对cpps的防御策略决策。
附图说明
[0050]
图1是cpps系统结构概述示意图;
[0051]
图2是信息价值节点和物理价值节点映射图;
[0052]
图3是信念指标更新图;
[0053]
图4是本发明的实验结果图。
具体实施方式
[0054]
下面结合具体实施方式对本发明做进一步阐述和说明。所述实施例仅是本公开内
容的示范且不圈定限制范围。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
[0055]
本发明基于不完全信息构建动态博弈模型,构建了一个针对ddos攻击,利用节点任务延迟时间来量化节点的状态情况作为收益指标,将未攻击、攻击失败和攻击成功三种情况下的资源消耗加入博弈矩阵并进行纳什均衡的计算,在每次动作后更新信念指标以体现两者不完全信息下的知识更新,最终达到纳什均衡,并给出最佳防御策略决策。
[0056]
本发明的方案如下:
[0057]
s1:基于有向无环图理论构建cpps信息域物理域依赖关系模型;
[0058]
cpps系统的三层结构如图1所示。一般情况下,命令由人机层决策后传递到信息层,再有通讯层发送指令给物理层并执行。为了对信息域和物理域间的交互联系进行描述,基于有向无环图理论构建cpps信息域物理域依赖关系模型,包括节点和有向连接线段。其中节点连接到网络的有源电子设备,能够通过通信通道发送、接收或转发信息,例如表示一台电脑或其他设备与一个有独立地址和具有传送或接收数据功能的网络相连。有向连接线段是指规定了方向的线段;用于表示节点间的关系。
[0059]
现实中单个节点可能不仅存在物理价值,同时拥有信息上的资产。如图2 所示,对于仅包含信息价值或物理价值的节点,则将其对应地映射为信息价值节点或物理价值节点;对于一个同时包含了信息价值和物理价值的节点,首先将其映射为信息价值节点和物理价值节点;对于攻击者而言该节点可以分为“或”,“和”两种情况,(a)当“或”时攻击者只需要攻击两者之一;(b)当“与”时攻击者需要同时攻击两个节点才能使得该节点无法正常工作。
[0060]
s2:引入物理安全和信息安全指标,设定贝叶斯指标,对给定的cpps进行节点价值量化;
[0061]
所述的物理安全和信息安全指标包括节点的资产价值/重要等级、攻击复杂度、打击效果、攻击防御强度配置;贝叶斯模型相关指标(价值指标)即所述物理安全和信息安全指标;在设定节点n的贝叶斯模型相关指标vn时,本发明从四个角度进行多维度评估:资产价值/重要等级,攻击复杂度,打击效果,攻击防御强度配置。其中资产价值/重要等级包括节点自身价值和上下级影响,自身价值分为物理价值和信息价值两部分,使用关键度等级(criticality level,cl) 对不同资产的重要性进行量化。上下级影响主要通过节点之间的联系程度来表示,当一个节点同时与多个节点相连,其上下级影响较大。攻击复杂度包括串联级别,攻击手段复杂度,攻击隐匿性,攻击潜力。其中串联级别由该节点所处的层决定,由于攻击由上自下传递,层越高,意味着该节点对于整体影响越大,因此串联级别较高。攻击手段复杂度,攻击隐匿性,攻击潜力由cvss指标映射获得。打击效果体现了目标的受损情况,具体影响了设备的服务可用、信息泄露、数据篡改、权限劫持和运行状态,通过cvss中的影响度评价进行数值量化。攻防资源配置指攻防双方的总资源配置,受到攻防策略可能性和历史信念指标影响。
[0062]
s3:建立博弈模型,利用节点任务延迟时间来量化节点的状态情况作为收益指标,将未攻击、攻击失败和攻击成功三种情况下的资源消耗加入博弈模型并进行纳什均衡的计算,在参与者双方每次动作后更新两者的信念指标以体现两者不完全信息下的知识更新,最终达到纳什均衡,给出纳什均衡时的最佳防御策略决策。
[0063]
常规ddos攻防中存在通过过滤不必要的服务和端口及限制特定流量来进行防御的策略,但这需要相应的历史数据并建立相应的黑白名单。因此本发明引入信念指标来假设双方对彼此的了解程度,模拟主动防御下攻防双方的行为,防御者仅在获得足够先验知识的情况下,才可采用此种方式以进行防御;该方式防御效果优异,且消耗资源相对较少。
[0064]
一个基础的博弈模型主要包含:参与者,动作,策略对,收益,奖励。
[0065]
参与者即为攻击者、防御者。在单次防御找那个防御者所需要的资源消耗为:
[0066]
rd=γbb γss γo[0067]
其中γb,γs,和γo分别表示了系统正常运行时单位带宽价格、单台设备价格和其他成本。b和s表示通过扩展硬件带宽和分布式集群防御所需的设备数量等方式所需的带宽量。
[0068]
由于mmk队列理论,在系统为单一系统时,数学模型就是mm1队列。在这个理论基础下,指数分布将简化计算形式,并将任务k等同于阶段k。因此在本发明中考虑一个服务持续时间率λ
*,k
与任务延迟呈指数关系的系统,其中服务持续时间率由任务卸载率和设备服务率所影响,任务持续时间tk取决于服务效率和资源消耗预算。
[0069]
当节点的任务延迟在时间阈值以下时,认为节点处于正常运行状态,其概率设为:
[0070][0071]
其中tk为任务的持续时间,t
th
为该任务执行的时间阈值,可以由历史信息或者经验获得,λ
d,k
是当设备正常运行时的阶段k服务持续时间率。
[0072]
攻击者有两种情况:攻击失败和没有攻击。攻击者攻击但失败的概率为p
af,k
,攻击者未攻击的概率为p
nf,k
。对于防御者而言不知道该节点是攻击失败的还是安全的,因此引入了平衡因子δ来表示这两种情况。
[0073][0074][0075]
其中λ
af,k
是当设备遭受攻击但攻击失败时的服务持续时间率,λ
nf,k
是当设备不遭受攻击时的服务持续时间率。
[0076]
当一个节点的任务延迟超过时间阈值时,可以认为该节点被攻击,其概率设为:
[0077][0078]
在任务延迟过高时,防御者节点会改变防御策略,其资源消耗预算和相应的任务持续时间随之改变。因此对于一个节点来讲,它在阶段k所需要消耗的资源 r
d,k
为:
[0079][0080]
[0081]
相似的,攻击者在阶段k所需要消耗的资源为r
a,k

[0082]
引入信念指数来假设对对方资源配置的理解程度,模拟主动防御下的行为。在防御者获得足够的先验知识的情况下,该方法具有良好的防御效果和相对较低的资源消耗。根据现有的工作,当攻击者执行高速率攻击超过10秒时,它很容易被检测到,而低速率攻击需要更长时间甚至不被检测到。随着攻击者的不断攻击,防御者更新自己的信念指数来表示先验知识的增加,其更新方法如图3所示。信念指标通过多阶段利用马尔科夫信念更新:
[0083][0084][0085]
其中常数α表示“安全”运行状态,常数β表示“危险”状态。当信念指数达到阈值ω时,可以认为防御方获得了足够的先验知识,从而提供更有效的防御策略。这三个常数之间的关系由该节点设备对ddos攻击的检测程度决定。
[0086]
针对节点n,给定攻击者防御者策略对期望收益可以表示为:
[0087][0088][0089]
在博弈问题中,攻击者和防御者都希望最大化其收益,当他们选择出一个双方都不会改变的策略时,就被称之为纳什均衡。假设对于任何防御者策略都存在使得攻击者期望收益最大,同时对于任何攻击者策略都存在使得防御者期望收益最大,那么纳什均衡就达到了,输出纳什均衡时的防御者策略作为最佳防御策略决策。
[0090]
给定攻击者目标为正期望收益下成功攻击使得更多节点无法正常运行,防御者目标为以有限资源保护更多节点。将攻防双方的强度离散为s个等级,s取值越大,双方的强度越趋近于连续,攻防之间的博弈过程也越复杂。k为一个采样区间内的任务总数,假设在该采样区间内对目标节点发出的每个任务消耗时间和资源均相同,但对于不同节点由于节点所连接的设备的不同,任务消耗可能不同。利用本实验提出的方法,可以得到相应的攻防策略结果。攻击者和防御者随着博弈时间的增加获取到更多的历史信息以更新自己的信念指标,但根据攻防双方的能力不同,信念指标的影响会有所变化。例如,当攻击者使用ddos作为窃取机密的掩护而进行时,初始攻击成功时效益是最高的,而随着时间的流逝能窃取到的新信息越来越少,即随着时间流逝,攻击者攻击成功的收益逐渐减小;而如果攻击者是为了阻碍节点正常运行时,攻击时间越长,收益越高。攻防双方在一段时间的博弈过程后,到达纳什均衡,理智的双方都选择不再改变其策略,其期望收益与最终的策略选择如图4所
示。可以看出,当攻击者能力强于防御者时,即使采取了劣势的初始策略,最终也大概率可以攻击成功;而防御者强于攻击者时,除非攻击者能够在长时间的博弈中使得防御者放弃,不然攻击者很难突破防御者的防御。
[0091]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献