一种融合动态资源池调度与响应的方法及系统与流程

2023-01-16 12:41:21 来源：中国专利 TAG：

1.本发明涉及定义与构建、防御资源的调度编排，属于网络空间安全技术领域，具体涉及一种融合动态资源池调度与响应的方法及系统。

背景技术：

2.网络技术的飞速发展使得物联网日渐接近我们的生活。针对当前网络中存在复杂繁多的网络威胁，同时智能装备集群也对多种安全防御资源动态联合抵御威胁提出了需求。由于当前安全设备硬件繁多、位置固化，无法支持安全防御功能动态部署和弹性扩展。针对物联网中存在的复杂多变的威胁，目前一般将物联网中的设备设为攻击者与防御者之间相互争夺的网络资源。进而，对攻防博弈中的网络资源竞争情况进行建模和分析。通过采用博弈论的相关思想解决了参与者的优化问题。博弈论的相关特征与网络空间中的攻防双方目标对抗、战略依赖以及不合作的特征十分相符。通过用博弈论对模拟防御中的博弈过程进行描述，可以解决最优防御策略的选择问题。通过将网络中的不同事件建模为不同的状态，并采用微分方程对网络中不同状态的演变进行描述。通过采用类高斯-赛德尔隐式有限差分方法，实现对连续时间微分方程的离散化，通过迭代获得其中的鞍点策略，实现了网络状态的数值化展示，并得到最优策略选择。
3.然而现有的对物联网攻击防御策略的微分对策方法分析主要面临以下三个问题：1、当前许多防御策略的研究都直接针对虚拟资源进行编排，但在实际应用场景中，由于防御设备存在不同的设计方案，导致接入节点的安全设备硬件繁多、资源实体位置固化，无法支持安全防御功能的动态部署和弹性扩展，同时也对防御策略的部署产生了影响。2、当前研究将网络状态进行了粗略的划分后，直接针对状态间的相互关系进行最优策略的求解，没有对实际场景进行全面的考虑。3、网络中的攻防双方的状态不断变化，且可能出现未知的攻击，防御策略需要实时进行调整优化，现有策略生成采用博弈论的方法，缺乏优化和自适应的过程。

技术实现要素：

4.本专利研究针对融合动态资源池调度与响应方法，将实体的防御资源设备进行容器虚拟化，解决实体资源存在的局限性。同时构建动态资源防御池，根据不同的应用场景，对网络中的设备状态进行定义，结合博弈论的思想，构建微分方程将网络状态进行数值化。在完成初始化的基础上，我们利用纳什均衡对博弈论方程进行求解。同时，针对网络环境以及攻防状态不断变化的情况，选择采用强化学习中的q-learning算法探索安全防御策略自适应匹配策略，进而达到安全防御资源的最优化处理，进而实现防御收益最大化的目标。
5.本发明主要包括：融合动态资源池构建及相应防御策略调度优化模块，具体模块包括安全防御资源池的动态构建模块，防御资源调度策略生成模块和防御策略的自适应匹配优化模块。首先提出安全防御资源池的动态构建方法，包括实体资源的虚拟化，对相应软件的容器化封装。在安全防御资源池动态构建完成的基础上，构建攻防环境空间，采用博弈
论思想，通过求解使防御资源的收益最大化，达到在利用有限资源的条件下的效果最优化，同时，利用q-learning方法在已有策略的基础上，实现防御策略的自适应生成。具体步骤如下：建立安全防御资源池，根据不同防御资源的所具有的特性，进行个性化的资源虚拟化操作，将对应的防御资源添加到资源池中，用于后续策略的生成。
6.建立基于博弈论的防御策略生成方法，根据实际的应用场景，构建对应的设备状态，同时建立攻防双方策略空间以及收益空间，通过利用纳什均衡的解的求解方法，得到针对当前情况下的最优防御策略布置情况。
7.建立防御资源自适应模块，由于攻防环境具有不断变化的特点，因此在前述研究的基础上，我们利用增强学习q-learning算法探索出一套安全防御策略自适应匹配策略，以达到安全防御资源效用最大化。最优安全防御收益的目标通过迭代q值作为反馈模型来实现策略选择的自适应性，通常策略的选择会按照q值最大的方向进行，选择过程经过连续的“安全策略-防御状态-安全策略”的迭代方式进行q表的更新，以达到q值最大化，实现算法收敛。
8.本发明具体的技术方案如下：第一方面，本发明提供了一种融合动态资源池调度与响应的方法，包括以下步骤：s1：根据实体防御资源特性，对实体防御资源进行轻量化处理，并添加到资源池中；s2：根据应用场景，对网络中的设备状态进行定义，并基于攻防策略生成模型建立攻防双方策略空间以及收益空间，并通过纳什均衡生成最优的防御资源调度策略；s3：利用增强学习算法，并根据经过网络威胁后网络中设备的状态，对最优防御策略进行迭代优化。
9.在一些实施例中，所述s1还包括：s11：获取实体防御资源特性；s12：对实体防御资源类别进行判断，若为软件程序，则进行容器化处理；若为非软件程序，则通过虚拟机对物力资源虚拟化；s13：将通过轻量化处理的实体防御资源添加到资源池中。
10.在一些实施例中，所述s2包括：s21：根据应用场景，对网络中的设备状态进行定义，包括防御状态、攻击状态、正常状态、正在遭受攻击以及瘫痪状态；s22：根据设备状态之间的转化关系，建立攻防策略生成模型，并定义为；其中代表攻击者，代表防御者，代表选取不同强度的攻击策略，代表第n种攻击策略，代表选取不同强度的防御策略，代表第n种防御策略，代表选择不同强度攻击策略的概率，代表选择第n种攻击策略的概率，代表选择不同防御策略的概率，代表选择第n种防御策略的概率，代表攻击方的收益函数，代表防御方的收
益函数，代表第i种攻击策略，代表第j种防御策略；s23：根据纳什均衡，并根据防策略生成模型，最小化系统损失为目标，计算最优防御策略。
11.在一些实施例中，所述s3包括：s31：设定多个防御策略，统计经过网络威胁后各个安全防御策略的防御状态，并根据防御状态是否满足防御需求，构建初始防御状态矩阵；s32：设定动作集，对防御不足的策略将进行防御资源的补充或替换，对防御过剩的资源进行防御资源缩减；s33：设定奖励函数，在动作执行后，在初始防御状态矩阵中增加奖励值，直到初始防御状态矩阵达到最大值。
12.第二方面，本发明提供了一种融合动态资源池调度与响应的系统，包括：动态资源池构建模块，用于根据实体防御资源特性，对实体防御资源进行轻量化处理，并添加到资源池中；防御策略生成模块，用于根据应用场景，对网络中的设备状态进行定义，并基于攻防策略生成模型建立攻防双方策略空间以及收益空间，并通过纳什均衡生成最优的防御资源调度策略；防御资源自适应模块，用于利用增强学习算法，并根据经过网络威胁后网络中设备的状态，对最优防御策略进行迭代优化。
13.在一些实施例中，所述动态资源池构建模块包括：防御资源特性获取子模块，用于获取实体防御资源特性；防御资源轻量化子模块，用于对实体防御资源类别进行判断，若为软件程序，则进行容器化处理；若为非软件程序，则通过虚拟机对物力资源虚拟化；防御资源添加子模块，用于将通过轻量化处理的实体防御资源添加到资源池中。
14.在一些实施例中，所述防御策略生成模块包括：设备状态定义子模块，用于根据应用场景，对网络中的设备状态进行定义，包括防御状态、攻击状态、正常状态、正在遭受攻击以及瘫痪状态；攻防策略生成模型建立子模块，用于根据设备状态之间的转化关系，建立攻防策略生成模型，并定义为；其中代表攻击者，代表防御者，代表选取不同强度的攻击策略，代表第n种攻击策略，代表选取不同强度的防御策略，代表第n种防御策略，代表选择不同强度攻击策略的概率，代表选择第n种攻击策略的概率，代表选择不同防御策略的概率，代表选择第n种防御策略的概率，代表攻击方的收益函数，代表防御方的收益函数，代表第i种攻击策略，代表第j种防御策略；最优防御策略生成子模块，用于根据纳什均衡，并根据防策略生成模型，最小化系统损失为目标，计算最优防御策略。
15.在一些实施例中，所述防御资源自适应模块还包括：初始防御状态矩阵构建子模块，用于设定多个防御策略，统计经过网络威胁后各个安全防御策略的防御状态，并根据防御状态是否满足防御需求，构建初始防御状态矩阵；动作集设定子模块，用于设定动作集，对防御不足的策略将进行防御资源的补充或替换，对防御过剩的资源进行防御资源缩减；奖励函数设定子模块，用于设定奖励函数，在动作执行后，在初始防御状态矩阵中增加奖励值，直到初始防御状态矩阵达到最大值。
16.第三方面，本发明提供了一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。
17.第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一项所述的方法。
18.本技术的有益效果是：本技术提供的一种融合动态资源池调度与响应的方法及系统，通过上述技术手段实现了融合动态资源池调度与响应模块的构建。针对直接对虚拟资源分析，进行策略生成而导致的实体资源无法充分利用的问题，进行了资源虚拟化研究，在分析已有资源的设备特点和安全性要求的基础上，对实体资源进行了虚拟化，构建了动态资源池，为防御策略的研究奠定了基础。进而，针对已有状态划分粗略缺乏全面分析的问题，建立了覆盖更加完全的状态空间，为采用博弈论思想进行策略的最优选择提供了便利，减少了分析的复杂性，提升策略生成的速度，在面对owasp top10中不同攻击有更好的应对策略。在已有策略生成的基础上，我们考虑攻防环境的不断变化以及未知攻击的出现，采用强化学习q-learning算法实现防御策略的自适应调整优化，减少出现防御漏洞的可能。
附图说明
19.图1为本技术整体流程示意图；图2为本技术的一种融合动态资源池调度与响应的方法流程图；图3为本技术步骤s1的子流程图；图4为本技术步骤s2的子流程图；图5为本技术步骤s3的子流程图。
具体实施方式
20.以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
21.为了能够更清楚地理解本技术的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本技术的限定。基于所描述的本技术的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本技术保护的范围。
22.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一
个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
23.图1为本技术整体流程示意图。本专利研究针对融合动态资源池调度与响应方法，将实体的防御资源设备进行容器虚拟化，解决实体资源存在的局限性。同时构建动态资源防御池，根据不同的应用场景，对网络中的设备状态进行定义，结合博弈论的思想，构建微分方程将网络状态进行数值化。在完成初始化的基础上，我们利用纳什均衡对博弈论方程进行求解。同时，针对网络环境以及攻防状态不断变化的情况，选择采用强化学习中的q-learning算法探索安全防御策略自适应匹配策略，进而达到安全防御资源的最优化处理，进而实现防御收益最大化的目标。
24.本发明主要包括：融合动态资源池构建及相应防御策略调度优化模块，具体模块包括安全防御资源池的动态构建模块，防御资源调度策略生成模块和防御策略的自适应匹配优化模块。首先提出安全防御资源池的动态构建方法，包括实体资源的虚拟化，对相应软件的容器化封装。在安全防御资源池动态构建完成的基础上，构建攻防环境空间，采用博弈论思想，通过求解使防御资源的收益最大化，达到在利用有限资源的条件下的效果最优化，同时，利用q-learning方法在已有策略的基础上，实现防御策略的自适应生成。具体步骤如下：建立安全防御资源池，根据不同防御资源的所具有的特性，进行个性化的资源虚拟化操作，将对应的防御资源添加到资源池中，用于后续策略的生成。
25.建立基于博弈论的防御策略生成方法，根据实际的应用场景，构建对应的设备状态，同时建立攻防双方策略空间以及收益空间，通过利用纳什均衡的解的求解方法，得到针对当前情况下的最优防御策略布置情况。
26.建立防御资源自适应模块，由于攻防环境具有不断变化的特点，因此在前述研究的基础上，我们利用增强学习q-learning算法探索出一套安全防御策略自适应匹配策略，以达到安全防御资源效用最大化。最优安全防御收益的目标通过迭代q值作为反馈模型来实现策略选择的自适应性，通常策略的选择会按照q值最大的方向进行，选择过程经过连续的“安全策略-防御状态-安全策略”的迭代方式进行q表的更新，以达到q值最大化，实现算法收敛。
27.一种融合动态资源池调度与响应的方法，结合图1，包括以下步骤：s1：根据实体防御资源特性，对实体防御资源进行轻量化处理，并添加到资源池中；在一些实施例中，结合图2即本方案步骤s1的子流程图，所述s1还包括：s11：获取实体防御资源特性；s12：对实体防御资源类别进行判断，若为软件程序，则进行容器化处理；若为非软件程序，则通过虚拟机对物力资源虚拟化；s13：将通过轻量化处理的实体防御资源添加到资源池中。
28.具体的，当前构建防御资源池的核心任务为虚拟化，虚拟化可以被定义为一种技术，通过在硬件上运行的资源来创建逻辑服务。即虚拟化将网络、存储、服务器或应用程序等资源的能力分布在多个用户或环境中。特别地，操作系统级虚拟化技术在公共操作系统内提供称为容器的隔离计算环境。容器是一组与系统其余部分隔离的一个或多个进程。它
包括一个应用程序及其所有库依赖项和配置文件。此外，容器具有可复制的执行环境、轻生命周期管理，并且比传统虚拟机部署更接近金属性能。虚拟化可以选择不同方式执行轻量化的处理，轻量化的处理主要包括虚拟机和容器两种方式，针对设备的不同安全状态要求以及环境配置要求，可以采用不同的虚拟化方式进行。通过虚拟化可以将传统的安全功能从专用的安全硬件中剥离出来，运行在通用的服务器上。
29.其中容器技术主要针对软件应用的虚拟化。容器通过将软件代码和所需环境结合一起，进而避免了适配性的问题，因此通过容器化处理可以使用户和开发人员能够灵活地独立于底层基础设施构建、部署和维护应用程序。同时，利用了隔离的功能降低了资源的消耗，也使部署更加的灵活。在其他虚拟化方面，虚拟机拥有更好的优势性与适用性。虚拟机已经有多年的研究基础，通过虚拟机，可以将实体计算机的cpu、硬件等物理资源虚拟化，方便使用者进行灵活的调度操作，同时也兼具更高的安全性。通过针对不同设备具有的自身特点以及安全等级，我们选择不同的轻量化技术，其中包括虚拟机和容器化的虚拟化技术，通过利用上述技术，我们可以将传统的安全功能从专用的安全硬件中剥离出来，运行在通用的服务器上，从而构造出动态的资源池，为下面的调度策略提供必要的执行条件。
30.在容器的执行过程中，由容器编排器负责大规模管理和组织微服务架构，处理集群中容器和服务的自动化和生命周期管理。容器编排器由五个模块构成。其中调度模块负责确定完成传入任务的最佳位置，资源分配模块按照基于请求的方法保留集群资源，存在静态和动态两种方法。负载平衡模块负责基于公平性、成本能量或优先级等标准跨容器实例分配任务。接纳控制模块负责检查集群中是否有足够的资源来运行用户的作业，并且永远不会超过分配给它的配额。并且，计费模块监控用户的可用资源，同时监控模块跟踪每个节点的实时资源消耗度量，并收集与资源健康相关的度量，以支持容错系统。调度模块是容器编排器的核心模块，也是我们构建动态资源池的核心步骤。
31.同时，需要说明的是，动态资源池包括网络中各类设备资源，该资源为通过虚拟机与容器操作虚拟化的实体资源，其中包括在s2建立攻防策略模型中所提到的处于不同状态下的网络设备，如处于防御状态、攻击状态、正常状态、被攻击而暂未收到影响的中间状态以及瘫痪状态等的设备。s2中网络设备相关状态空间的定义基于s1虚拟化后的资源定义，其中存在相对应的映射关系。s3中的优化，同样基于s2中所定义的策略空间，因此策略中的虚拟资源与动态资源池中的资源存在一一的对应关系，在s3生成所对应的资源编排策略后，将策略交由动态资源池中的控制中心进行相对应的操作。
32.s2：根据应用场景，对网络中的设备状态进行定义，并基于攻防策略生成模型建立攻防双方策略空间以及收益空间，并通过纳什均衡生成最优的防御资源调度策略；在一些实施例中，结合图3即本方案步骤s2的子流程图，所述s2包括：s21：根据应用场景，对网络中的设备状态进行定义，包括防御状态、攻击状态、正常状态、正在遭受攻击以及瘫痪状态；s22：根据设备状态之间的转化关系，建立攻防策略生成模型，并定义为；其中代表攻击者，代表防御者，代表选取不同强度的攻击策略，代表第n种攻击策略，代表选取不同强度的防御策略，代表第n种防御策略，代表选择不同强度攻击策略的概率，代表选择
第n种攻击策略的概率，代表选择不同防御策略的概率，代表选择第n种防御策略的概率，代表攻击方的收益函数，代表防御方的收益函数，代表第i种攻击策略，代表第j种防御策略；s23：根据纳什均衡，并根据防策略生成模型，最小化系统损失为目标，计算最优防御策略。
33.具体的，为了得到最优防御策略，本方案针对当前网络中的攻防双方的状态，进行建模刻画，采用动态博弈论的思想，对网络中攻防双方不同状态创建对应微分方程，同时利用纳什均衡，完成最优防御策略的求解。
34.首先，由于资源池中存在复杂繁多的防御资源，需要合理的防御资源调度策略来对其中资源进行整体的规划。动态博弈论是解决攻防博弈问题的一个典型的方法。步骤s21中，通过定义攻防策略生成模型（adsgm），包含了多种设备状态，如d代表防御状态，即处在防御状态的物联网相关设备，由防御者进行控制可以产生对防御有利的影响；a代表攻击状态，即处在攻击状态的物联网相关设备，已被攻击者控制并可为攻击者带来利益；n代表正常状态，即在物联网中正常工作，存在一定的漏洞，可能遭受攻击的设备；i代表正在遭受攻击，但暂时服务功能未受影响的设备，其存在两种情况，在攻击较强情况下，该设备将瘫痪，无法提供服务，而在防御成功的情况下，可以恢复正常状态，继续提供相应的服务；m代表瘫痪状态，设备遭受攻击后，在无法处理的情况下，会进行关闭操作，减少对其他设备的影响，同时在经过一定时间的等待后，设备可以重新启动，开始继续提供服务。举例来说，防御资源池中存在多种资源，当有资源存在重合时，就产生了资源冗余，在网络攻击较强而造成部分资源瘫痪的情形下，可以利用资源冗余，速切换至其他相近资源，保证任务的进行，增强系统的稳定性。具体切换方式则是通过强化学习在获取相应网络状态后生成对应策略，再将策略传送给资源池的控制中心，进行对应的操作。
35.进一步的，在步骤s22中，将攻防策略生成模型并定义为；其中代表攻击者，代表防御者，代表选取不同强度的攻击策略，代表第n种攻击策略，代表选取不同强度的防御策略，代表第n种防御策略，代表选择不同强度攻击策略的概率，代表选择第n种攻击策略的概率，代表选择不同防御策略的概率，代表选择第n种防御策略的概率，代表攻击方的收益函数，代表防御方的收益函数，代表第i种攻击策略，代表第j种防御策略，其中攻击者的目标是最大化系统的损失函数，防御者的目标是最小化系统损失，这样就达成了一个零和博弈的过程。
36.更进一步的，步骤s23中，定义当设备从正常状态变为受影响状态i时，定义系数k1为攻击造成的损失。当设备从受影响状态i转换到正常状态n时，定义系数k2为防御系统减少的损失。当设备转换为m故障状态时，系数k3为关闭设备造成的损失，当设备从故障状态恢复为正常状态时，系数k4为防御策略带来的收益。此时攻击回报函数为：
防御回报函数为：同时，攻击者和防御者的成本函数分别定义如下：同时，攻击者和防御者的成本函数分别定义如下：则攻击者和防御者以及系统的代价函数如下：其中，ca和cd分别代表攻击成本系数以及防御成本系数；、、、分别表示由正常状态n转换为的正在遭受攻击但未受影响状态i的可能性、由正在遭受攻击但未受影响状态i转换为瘫痪状态m的可能性、由正在遭受攻击但未受影响状态i转换为正常状态n的可能性以及由瘫痪状态m转换为正常状态n的可能性；d（t）、a（t）、n（t）、m（t）和i（t）分别表示时间t时系统中处于防御状态d、攻击状态a、正常状态n、瘫痪状态m和正在遭受攻击但未受影响状态i的节点数；代表第i种攻击策略，代表选择第i种攻击策略的概率，代表选择第i种攻击策略的概率，种防御策略，代表选择第i种防御策略的概率。
37.但由于博弈论研究证实每个有限战略博弈都有一个混合策略纳什均衡。故考虑攻击者和防御者存在混合攻击防御策略。上述定义了攻防策略与概率，可得攻击者和防御者的效用：的效用：由相关研究证实，混合策略具有概率分布的条件时是纳什均衡，即存
在：其中，为满足上述攻击者和防御者效用等式时的一种概率分布；纳什均衡的具体含义为，对于任意一个不同强度的攻击概率,当概率分布满足时的攻击者效用都大于等于概率分布为时的攻击者效用；对于任意一个不同强度的防御概率,当概率分布满足时的防御者效用都大于等于概率分布为时的防御者效用。
38.在对纳什均衡求解的过程中，考虑到零和博弈的过程，采用minimax方法求解。此时计算最优混合策略等同于计算极大极小策略，这使对手可以获得的最大预期效用最小化。
39.其中，k表示攻击者的预期最大效益，m表示不同的攻击策略，n表示不同的防御策略。此时，防御者的目的即为最小化k值，进而，可以将问题转化为线性规划问题进行求解。
40.s3：利用增强学习算法，并根据经过网络威胁后网络中设备的状态，对最优防御策略进行迭代优化。
41.在一些实施例中，结合图4即本方案步骤s3的子流程图，所述s3包括：s31：设定多个防御策略，统计经过网络威胁后各个安全防御策略的防御状态，并根据防御状态是否满足防御需求，构建初始防御状态矩阵；s32：设定动作集，对防御不足的策略将进行防御资源的补充或替换，对防御过剩的资源进行防御资源缩减；s33：设定奖励函数，在动作执行后，在初始防御状态矩阵中增加奖励值，直到初始防御状态矩阵达到最大值。
42.具体的，为了在已经求解出最优策略的基础上，完成防御策略的自适应性研究，需要对到来的已知的和未知的网络威胁进行全面的分析，形成可以分析和量化的数据反馈。而对于已知的和未知的网络威胁可主要分为7类攻击行为也即网络杀伤链的7个步骤，分别为侦察、武器化、投递、漏洞利用、安装、指挥和控制，目标行动。其中，侦察是指攻击者收集有关目标和攻击策略的数据。包括收集电子邮件地址和收集其他信息。入侵者使用自动扫描器来查找系统中的漏洞点。包括扫描防火墙、入侵防御系统等，以获得攻击的入口点；武器化是指攻击者利用安全漏洞开发恶意软件。攻击者根据他们的需求和攻击意图设计恶意软件。此过程还涉及攻击者试图减少被组织现有的安全解决方案检测到的机会；投递是指攻击者通过网络钓鱼电子邮件或其他某种媒介传播武器化的恶意软件，武器化有效载荷最
常见的传送媒介包括网站、可移动磁盘和电子邮件；漏洞利用是指恶意代码被传送到组织的系统中。边界在这里被破坏。攻击者有机会通过安装工具、运行脚本和修改安全证书来利用组织的系统；安装是指恶意软件安装了后门或远程访问木马，提供对入侵者的访问权限；指挥和控制是指攻击者可以控制组织的系统和网络。攻击者获得特权帐户的访问权限并尝试暴力攻击、搜索凭据并更改权限以接管控制权；目标行动是指攻击者最终从系统中提取数据。目标涉及从组织环境中收集、加密和提取机密信息。
43.对于上述7类攻击行为，可分别进行针对性的防御策略相应，对于侦察跟踪阶段，此阶段往往是防守方感知比较少的阶段，在该阶段应关注于异常流量、日志和数据（特别是已经泄露的数据），将其存储备查，并建立和优化分析模型，及时更新相应状态空间情况；对于武器构建阶段，该阶段行为本身对于防守方来说几乎无感知，但又与防守方的“资源”密切相关，武器的构建需要基于“资源”的漏洞或缺陷（包括操作系统、应用软件以及社会工程），所以在该阶段应关注“资产”相关漏洞、补丁、修复流程是否完备；对于投递阶段，在该阶段尤为重要，应及时更新相对应防御策略，根据攻击者的行动及时调整相对应的策略，生成最优的防御策略；对于漏洞利用阶段，需要进行安全检测、安全监测、阻断审计，这就是日常的安全监控工作，也是利用防御策略进行防御的阶段；对于安装植入阶段，最重要的是在最短的时间内发现并隔离，关注终端/服务器安全管理策略、防病毒，及时阻断关闭存在问题的设备，更新相对应的安全策略；命令与控制阶段，该阶段为“防御者阻止攻击的最后机会，如果对手无法发出命令，防御者便可控制影响”，此阶段正是考验响应策略的最后一次尝试，所以更应关注访问控制，及时形成相对应的防御策略；对于目标达成阶段，在该阶段攻击者的目标达成，防御者在此时需要尽可能地减少攻击对整个系统的影响，及时恢复瘫痪的设备，排除危险，同时对策略进行完善。
44.在此基础上，本技术利用强化学习q-learning算法进行防御策略的自适应研究，进而使资源的效用达到最优化。本方案选择采用增强学习q-learning算法，该算法可以通过迭代q值作为反馈模型来实现策略选择的自适应性，通常策略的选择会按照q值最大的方向进行，选择过程经过连续的“策略生成-防御状态-策略生成”的迭代方式进行q表的更新，以达到q值最大化，实现算法收敛，进而寻找到最优的防御策略。对于q-learning算法的实现需要设定状态、策略以及奖励函数。
45.首先，在步骤s31中，进行初始防护状态矩阵的设定。在防御策略自适应匹配优化阶段，系统对网络威胁的实时防护状态是安全防御策略优化的关键，通过制定初始安全防御策略，并统计经过网络威胁后各个安全防御策略的防御状态。如果防御状态满足防御需求，则相应的网络威胁-安全策略的状态值标记为1，如果防御状态不满足防御需求，则相应的网络威胁-安全策略的状态值标记为-1,如果没有相应结果则设定为0，从而对初始防御状态矩阵进行构建。
46.然后，在步骤s32中，进行动作集的设定。动作集的设定需要根据防御状态矩阵进行设定，将安全策略的重构视作为一个动作，包括对安全策略中所包含的虚拟功能集合的增加和减少，所有虚拟功能都在资源池中待选。对防御不足的策略将进行资源的补充或替换，对防御过剩的资源进行资源精简，以达到安全防御资源的效用。
47.最后，在步骤s33中，制定奖励函数。当执行完一个动作后，需要使用奖励函数获取奖励值并且对q表中相应的q值进行更新，q表是防御状态-动作与奖励之间的映射表。该方
法的目标是最大化安全防御资源的使用效用，根据防御状态矩阵以及相应防御状态的分析，系统将会执行动作以优化下一轮安全资源的策略优化。针对防御状态矩阵为1的情况，当动作执行是减少安全防御资源配置或不变时，则在下一轮安全威胁中，如果相应安全策略能维持防御状态矩阵为1，则相应更新后网络威胁-安全策略的奖励值设定为1，反之则设定为-1；针对防御状态矩阵为-1的情况，当动作执行是增加安全防御资源配置时，则在下一轮安全威胁中，如果相应安全策略能维持防御状态矩阵为1，则相应更新后网络威胁-安全策略的奖励值设定为1，反之则设定为-1，在此过程中，奖励值时累计增加的，从而最终获得网络威胁-安全策略的奖励矩阵，即q表，以获得最优安全防御策略。同时，优化后的防御策略将对策略的知识迁移模型进行调整和优化。
48.本发明第二方面还提供了一种融合动态资源池调度与响应的系统，包括：动态资源池构建模块，用于根据实体防御资源特性，对实体防御资源进行轻量化处理，并添加到资源池中；防御策略生成模块，用于根据应用场景，对网络中的设备状态进行定义，并基于攻防策略生成模型建立攻防双方策略空间以及收益空间，并通过纳什均衡生成最优的防御资源调度策略；防御资源自适应模块，用于利用增强学习算法，并根据经过网络威胁后网络中设备的状态，对最优防御策略进行迭代优化。
49.在一些实施例中，所述动态资源池构建模块包括：防御资源特性获取子模块，用于获取实体防御资源特性；防御资源轻量化子模块，用于对实体防御资源类别进行判断，若为软件程序，则进行容器化处理；若为非软件程序，则通过虚拟机对物力资源虚拟化；防御资源添加子模块，用于将通过轻量化处理的实体防御资源添加到资源池中。
50.在一些实施例中，所述防御策略生成模块包括：设备状态定义子模块，用于根据应用场景，对网络中的设备状态进行定义，包括防御状态、攻击状态、正常状态、正在遭受攻击以及瘫痪状态；攻防策略生成模型建立子模块，用于根据设备状态之间的转化关系，建立攻防策略生成模型，并定义为；其中代表攻击者，代表防御者，代表选取不同强度的攻击策略，代表第n种攻击策略，代表选取不同强度的防御策略，代表第n种防御策略，代表选择不同强度攻击策略的概率，代表选择第n种攻击策略的概率，代表选择不同防御策略的概率，代表选择第n种防御策略的概率，代表攻击方的收益函数，代表防御方的收益函数，代表第i种攻击策略，代表第j种防御策略。
51.最优防御策略生成子模块，用于根据纳什均衡，并根据防策略生成模型，最小化系统损失为目标，计算最优防御策略。
52.在一些实施例中，所述防御资源自适应模块还包括：
初始防御状态矩阵构建子模块，用于设定多个防御策略，统计经过网络威胁后各个安全防御策略的防御状态，并根据防御状态是否满足防御需求，构建初始防御状态矩阵；动作集设定子模块，用于设定动作集，对防御不足的策略将进行防御资源的补充或替换，对防御过剩的资源进行防御资源缩减；奖励函数设定子模块，用于设定奖励函数，在动作执行后，在初始防御状态矩阵中增加奖励值，直到初始防御状态矩阵达到最大值。
53.本发明第三方面还提供了一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项所述的方法。
54.本发明第四方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一项所述的方法。
55.本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。
56.本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
57.虽然结合附图描述了本技术的实施方式，但是本领域技术人员可以在不脱离本技术的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。
58.以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种数据缓存方法、装置、设备及存储介质与流程

一种融合动态资源池调度与响应的方法及系统与流程

相关文献

最热文献