一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于重复博弈的中间人攻击应对方法与流程

2022-04-06 21:55:51 来源:中国专利 TAG:


1.本发明涉及网络安全领域,特别是一种基于重复博弈的中间人攻击应对方法,为一种可有效应对中间人攻击并减少信息泄露损失的技术。


背景技术:

2.当前信息时代,大量的信息通过互联网传播,信息的安全性与保密性愈发受到重视。在网络中,计算机相互之间通过端口进行通信,一种名为“中间人攻击”的网络攻击通过截获正常的网络通信数据,并进行数据篡改和嗅探,造成信息泄露。
3.现有的一种应对手段可将原来由某一端口提供的服务分配到若干端口上,即将传输的信息分散开来,由于实际因素的限制,“中间人攻击”只能同时攻击其中的部分端口,因此这可以降低由“中间人攻击”引起的损失。
4.然而,这仍然不能实现最优的结果,中间人攻击依然可以通过攻击一部分端口来窃取信息造成损失。


技术实现要素:

5.本发明技术解决问题:克服现有技术的不足,提供一种基于重复博弈的中间人攻击应对方法,能够进一步降低“中间人攻击”造成信息泄露损失。
6.本发明公开了一种可有效应对“中间人攻击”并减少信息泄露损失的技术。本发明将“中间人攻击”的攻防这一场景构建成重复博弈模型,让一部分端口传输无效信息,其余端口传输有效信息,每隔一定的时间重新分配传输有效和无效信息的端口,目的在于尽可能降低“中间人攻击”造成的损失。另外考虑到重新分配端口会对信息传输造成一定影响,所以还尽可能的减少重新分配的次数。
7.本发明的技术方案为:一种基于重复博弈的中间人攻击的方法,将原来由一个端口传输的信息分配到多个端口上,从中选择固定数量的部分端口传输无效信息,其余端口传输实际要传输的有效信息,将防御中间人攻击的问题建模成重复博弈模型,再依据本发明提出的创新的端口分配策略方法,每隔一定的时间生成新的端口分配策略即重复博弈决定哪些端口传输无效或有效信息,在尽可能降低中间人攻击造成损失的同时尽量减少端口的重新分配次数。
8.所述本发明创新的端口分配策略具体实现如下:
9.步骤1:生成探索策略集合,确保对于任意一个端口,至少存在一个该端口传输无效信息的分配策略;
10.步骤2:为每个端口中都初始化一个累计奖励估计值和一个策略扰动量,每隔固定的时间,执行后续步骤生成该时间段内的端口分配策略;
11.步骤3:在当前时刻,对于每一个端口,从高斯分布中独立采样得到随机量,并累加到该端口的策略扰动量上;
12.步骤4:以一定的概率进行探索,则从探索策略集合中随机选择一个作为本轮分配
策略;或者,采取使得累计奖励估计与策略扰动量的和取得最大值的策略作为分配策略;
13.步骤5:根据分配策略决定端口传输无效信息或有效信息,根据中间人攻击采取的行动,观察到同时被中间人攻击且传输无效信息的端口的收益;
14.步骤6:利用重采样算法进行模拟来估计在本时刻每个端口传输无效信息的概率的倒数;
15.步骤7:根据实际采取的分配策略、观测到的部分奖励和模拟得到的概率倒数来更新累计奖励估计值;
16.步骤8:到下一时刻,返回步骤2继续生成下一回合的分配策略,直到结束。
17.本发明与现有技术相比的优点如下:
18.(1)本发明在网络安全中面对“中间人攻击”时,无需知道对方的任何信息,即该方法具有很好的鲁棒性,可应对各种类型的对手;
19.(2)采用发明的端口分配策略可以在尽量降低中间人攻击造成损失的同时减少端口的重新分配次数,换而言之,既降低了由“中间人攻击”造成的信息泄露损失,又减少了切换端口对有效信息传输造成的不利影响。
附图说明
20.图1为本发明方法的实现流程图。
具体实施方式
[0021]“中间人攻击”是网络攻击中的一种常见攻击方式,中间人攻击通过攻击端口窃取其中传输的信息,从而造成信息泄露损失。现有的一种手段可将原来由某一端口传输的信息分配到若干端口上进行传输,即将传输的信息分散开来,以降低由中间人攻击引起的损失。然而,仅仅这样是不够的,中间人攻击依然可以通过攻击一部分端口来窃取信息造成损失。因此,本发明在现有的此种技术基础上将其构建成重复博弈模型,让一部分端口传输无效信息,其余端口传输有效信息,在每一回合重新分配传输有效和无效信息的端口,在尽可能降低“中间人攻击”造成损失的同时尽量减少端口的重新分配次数。
[0022]
从重复博弈视角对“中间人攻击”这一场景建立的具体的数学模型如下:可传输信息的端口总数为n,防御者每次可选择k(k<n)个端口传输无效信息,可以用n维二值向量v来表示防御者的端口分配策略,如果第i(i=1,

,n)个端口传输无效信息,则对应的策略v的第i个元素为1,否则为0,那么有||v||1=k,同时用v表示所有策略v的集合。相应地,攻击者同一时刻只能攻击m个端口,所以有||a||1=m,同时我们用表示所有策略a的集合。每回合全体端口收益r
t
为n维向量,设置如下:如果端口i被攻击,该端口传输无效信息,则收益r
t
中第i个分量的r
t,i
为[0,0.5]间一个随机值;该端口传输有效信息,则防御者遭受损失为[-0.5,0]间一个随机值。对于未受攻击的端口,无论有没有传输有效信息,防御者的收益均为0。由于每个端口传输的信息的内容和重要程度不同,每个端口的保护价值是不同的,因此在模型中设置的每个端口的收益值也不相同。为更接近实际情况,模型设置上还有两个重要特征:防御者无先验知识和防御者的有限感知能力。前一个特征是指防御者事先不知道博弈收益和攻击者的行为模型;后一个特征是指在每一轮博弈中防御者只能观察到未传输有效信息的端口上的收益。在此模型设定下,可以利用在线学习方法来为防御者生成
策略。策略应追求两个方面的目标:一方面应尽量使得众多端口的有效信息不被窃取,获得更多的收益,即尽可能减小“遗憾度”;另一方面,重新分配端口会对信息传输造成一定影响,所以应尽可能的减少重新分配的次数。
[0023]
在一般的重复安全博弈场景中,为了评价防御者策略算法的优劣,通常采用“遗憾度”的概念,即具有后见之明的最优固定策略与实际已采取策略所获累计收益的差值,遗憾度越低,表明实际策略越优,所获得的收益越大。遗憾度的定义如下:
[0024][0025]
其中v为理论上的最优策略;v
t
为t时刻防御方采取的实际策略,t为攻防场景的总时间。
[0026]
另外在网络防御中,重新分配端口传输有效信息会造成信息传输的延迟或丢失等额外的损失,所以应尽可能的减少重新分配的次数。因此可以使用“重分配次数”来评价策略的优劣,这个指标的值越低,表明策略越好。“重分配次数”的定义如下:
[0027]st
=|{1<t≤t:v
t-1
≠vt}
[0028]
针对网络防御中应对“中间人攻击”这一场景,本发明可生成有效的防卫策略,其中包含重要的超参数:σ为高斯分布的方差,γ为探索概率,具体包括如下步骤:
[0029]
步骤1:生成由n个n维向量组成的探索策略集合ε={ε1,...,εn},其中向量εi的第i个分量一定为1,表示端口i一定传输无效信息,其余分量为0或1,同时向量εi有且只有k个分量为1,表示有k个端口传输无效信息;
[0030]
步骤2:为n个可用来传输信息的端口中的每一个都初始化一个累计奖励估计值步骤2:为n个可用来传输信息的端口中的每一个都初始化一个累计奖励估计值将所有的初始估计值组成一个n维累计奖励估计向量类似的,为每个端口初始化一个扰动量z
0,i
=0,组成n维扰动向量z0=(z
0,1
,z
0,2


,z
0,n
)。每隔固定的时间,即当t=1,2,...,t时,执行后续步骤;
[0031]
步骤3:在t时刻,从服从期望为0方差为σ2(提前设定)的高斯分布和独立采样得到n个随机量组成n维向量x
t
=(x
t,1
,x
t,2


,x
t,n
),将随机向量x
t
累加到扰动向量z
t-1
得到z
t
,即z
t
=z
t-1
x
t

[0032]
步骤4:从0到1间均匀随机采样得到值α,如果α小于提前设定的探索概率γ,则从策略集ε中随机选择一个向量作为本轮分配策略v
t
;否则,采取使得累计奖励估计与随机游走扰动z
t
的和取得最大值的v作为分配策略v
t
,即
[0033]
步骤5:根据分配策略v
t
决定端口分配,其中v
t
的第i个分量为1,则第i个端口传输无效信息,第i个分量为0则传输有效信息。根据“中间人攻击”采取的行动,可观察到实际奖励向量r
t
的部分分量r
t,i
,即同时被中间人攻击且传输无效信息的端口的收益;
[0034]
步骤6:执行步骤7-9(重采样算法)来估计在本时刻端口i传输无效信息的概率的倒数,记做k(t,i);
[0035]
步骤7:对于对所有i=1,2,...,n,初始化k(t,i)=0;对于k=1,2,...,m,重复进行步骤8-9,其中m表示提前设定的模拟的最大次数;
[0036]
步骤8:执行步骤3-4,生成分配策略v
t
的一个模拟
[0037]
步骤9:对于所有i=1,2,...,n,如果k<m,且k(t,i)=0,则将k(t,i)设置为k;否则如果k=m并且k(t,i)=0,则将k(t,i)设置为m;
[0038]
步骤10:根据实际采取的分配策略v
t
、观测到的部分奖励r
t,i
和模拟得到的k(t,i)来更新累计奖励估计值具体更新遵循下式:
[0039][0040]
步骤11:到下一时刻t 1,返回步骤2继续生成下一回合的分配策略,直到t时刻结束。
[0041]
在上述无先验知识和具有有限可观察性限制的“中间人攻击”场景下,使用本发明制定端口分配策略,将“遗憾度”和“重分配次数”的期望上界限制在较低量级,具体如下两式所示:
[0042][0043]

[0044][0045]
(1)特别地,取可得到遗憾度的期望上界为:
[0046][0047]
即在t个回合后遗憾度的期望上界不超过这意味着当t趋向于无穷时,遗憾度趋近于0,实际策略收敛到最优固定策略。
[0048]
(2)利用和重分配次数的期望上界可近似为:
[0049][0050]
一般来地,探索率γ设置地较小(在0至0.1之间),且当不超过k log n的量级时,上式右边第一项的量级不超过第二项,重分配次数可近似为即重分配次数随回合t为次线性增长。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献