一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种网络控制方法、装置、电子设备及存储介质与流程

2022-03-19 22:24:02 来源:中国专利 TAG:


1.本技术涉及计算机网络技术领域,尤其是涉及一种网络控制方法、装置、电子设备及存储介质。


背景技术:

2.强化学习网络(dqn,deep q network)由于网络结构简单而存在着学习和收敛效果差、速度慢等缺点。传统的宽度学习系统模型虽然能够通过增量式的增加节点而实现快速收敛,进而提高训练的准确率,但其本质上仍是通过训练,对输入数据x进行分类结果y的输出,因此仍属于有监督的机器学习方法,其应用范围受限于机理而无法很好地延展到一些非监督学习、弱监督学习的应用场景中。训练效果的收敛性与训练方法的泛用性极大地影响着算法的性能。
3.传统的网络控制器的监控功能与管理下发网络设备规则的功能是分开的,需要网络管理员自行分析,然后下发规则。这将耗费大量时间才能够解决网络突发状况。


技术实现要素:

4.有鉴于此,本技术提供了一种网络控制方法、装置、电子设备及存储介质,解决现有网络控制器耗费大量时间才能够解决网络突发状况的技术问题。
5.第一方面,本技术实施例提供了一种网络控制方法,包括:获取当前时刻的细粒度的数据平面的网络状态;利用存储本地网络环境历史数据的经验库和第二宽度学习网络,对第一宽度学习网络进行在线训练;利用在线训练完成第一宽度学习网络对当前时刻的网络状态进行处理,得到当前时刻的网络状态对应的最优执行动作;将当前时刻的最优执行动作封装为控制规则数据包,然后下发所述控制规则数据包。
6.进一步的,所述经验库存储多个连续时刻的经验,所述经验包括:所在时刻的网络状态,所在时刻的执行动作,所在时刻的奖励和所在下一时刻的网络状态。
7.进一步的,所述获取当前时刻的细粒度的数据平面的网络状态之后包括:对当前时刻的网络状态信息进行归一化的抽取与格式统一。
8.进一步的,所述第二宽度学习网络和所述第一宽度学习网络的结构相同;利用预先建立的经验库和第二宽度学习网络,对第一宽度学习网络进行在线训练;包括:将经验放入经验库中,其中,为预处理后的上一时刻的网络状态,为上一时刻的执行动作,为预处理后的当前时刻的网络状态,为采取执行动作,进入下一时刻的网络状态后,从网络环境中得到的奖励;
从经验库中随机选择p-1个经验,和经验组成p个经验,作为经验样本;将第p个经验样本中的所在时刻的下一网络状态输入第二宽度学习网络,得到最大价值评估值;表示所述第二宽度学习网络的权重参数;为第p个经验中的所在下一时刻的网络状态;表示第二宽度学习网络可能的执行动作,为采取执行动作对应的价值评估值;计算第p个经验样本的所在时刻的网络状态和执行动作对应的目标值:其中,γ为因子,为第p个经验样本的所在时刻的奖励,1≤p≤p;将所有p个经验样本中的所在时刻的网络状态和执行动作作为第一宽度学习网络的输入样本,将目标值作为预期的输出,采用基于岭回归的权值计算方法对所述第一宽度学习网络进行训练。
9.进一步的,所述方法还包括:随机生成第一宽度学习网络的初始权重参数,并将第一宽度学习网络的初始权重参数赋值给第二宽度学习网络。
10.进一步的,利用在线训练完成第一宽度学习网络对预处理后的当前时刻的网络状态进行处理,得到当前状态对应的最优执行动作,包括:在线训练完成的第一宽度学习网络对预处理后的当前时刻的网络状态信息进行处理,输出当前时刻的最优执行动作:其中,θe表示在线训练完成的第一宽度学习网络的权重参数,为动态阈值,随机因子为[0,1]之间的随机数;a表示第二宽度学习网络可能的执行动作,为采取执行动作a对应的价值评估值;是使得取得最大值所对应的执行动作。
[0011]
进一步的,所述方法还包括:周期性地获取第一宽度学习网络的网络参数,更新第二宽度学习网络的网络参数。
[0012]
第二方面,本技术实施例提供了一种网络控制装置,包括:获取单元,用于获取当前时刻的细粒度的数据平面的网络状态;在线训练单元,用于利用存储本地网络环境历史数据的经验库和第二宽度学习网络,对第一宽度学习网络进行在线训练;最优执行动作获取单元,用于利用在线训练完成第一宽度学习网络对当前时刻的网络状态进行处理,得到当前时刻的网络状态对应的最优执行动作;下发单元,用于将当前时刻的最优执行动作封装为控制规则数据包,然后下发所
述控制规则数据包。
[0013]
第三方面,本技术实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本技术实施例的网络控制方法。
[0014]
第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现本技术实施例的网络控制方法。
[0015]
本技术通过在线训练第一宽度学习网络,能够实时响应网络变化,快速地应对网络突发状况。
附图说明
[0016]
为了更清楚地说明本技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]
图1为本技术实施例提供的现有网络控制架构示意图;图2为本技术实施例提供的基于宽度强化学习的网络控制架构示意图。
[0018]
图3为本技术实施例提供的宽度强化学习系统的示意图;图4为本技术实施例提供的网络控制方法的流程图;图5为本技术实施例提供的带内遥测的处理示意图;图6为本技术实施例提供的网络控制装置的功能结构图;图7为本技术实施例提供的电子设备的结构图。
具体实施方式
[0019]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
[0020]
因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0021]
首先对本技术实施例涉及的技术用语进行简单介绍。
[0022]
1、深度强化学习强化学习是机器学习的一个分支,相较于机器学习经典的有监督学习、无监督学习问题,强化学习最大的特点是在交互中学习。智能体在与环境的交互中,根据获得的奖励或惩罚不断的学习知识以更加适应环境。本质上来说,强化学习具有奖励分数导向性,因此可以被视为一种弱监督学习。此处详细给出关于以值为基础的dqn强化学习方法的机理概述。
[0023]
dqn是一种深度学习和强化学习结合的算法,提出的动机是传统的强化学习q-learning算法的存储空间有限,对复杂环境中大量的状态,其无法构建可以存储超大状态空间并表征状态好坏的q表。因此引入神经网络,形成深度q网络。具体而言,dqn将卷积神经网络(cnn)和q-learning结合起来,cnn的输入是原始图像数据(作为状态state),输出则是每个动作(action)对应的价值评估值(q值)。
[0024]
dqn具有两套神经网络结构,其分别称为evalnet和targetnet。这是因为考虑到在实际训练过程中,前后训练经验之间的关联性较大,因此构建了两个结构相同但更新频率不同的神经网络以解决这一问题。具体地,evalnet的输出用来评估当前state-action对的值函数;dqn算法基于这两个神经网络,在每个轮次对evalnet进行神经网络更新,其更新方法为梯度下降法,targetnet则以一定频率进行周期性的更新,其更新方式为直接复制evalnet的神经网络参数。此外,相比传统q-learning,dqn在学习的过程中,还通过智能体将数据存储到一个数据库中,再利用均匀随机采样的方法从数据库中抽取数据,利用抽取的数据训练神经网络,这种方法减轻了训练数据之间的关联性,满足了独立同分布的特征。
[0025]
2、宽度学习网络宽度学习网络(broad learning)是一种新型的神经网络架构,其针对目前深度学习方法计算开销巨大的问题,给出了有效的解决方案。宽度学习网络提供了一种深度学习网络的替代方法,同时,如果网络需要扩展,宽度学习网络可以在原有的网络架构上进行扩增,避免了传统深度学习网络重训练所产生的高开销问题。此外,宽度学习的网络架构可以看做是由随机向量函数的链接神经网络以及相关推演机理所构成的。
[0026]
上述内容给出了最基本的宽度学习网络,当基础的宽度学习网络无法满足一些具体训练的性能要求时,宽度学习网络还可以增量式地延展增强节点或映射节点的个数,从而提高训练精度。注意在增量式地扩展过程中,原有的神经网络架构与权重都不需要被更改,将更新后的新输入矩阵拆解为原输入矩阵和对应新增的部分,并通过伪逆运算得到更新后的神经网络权重即可。因此,不同于深度学习网络的重新训练,宽度学习网络的神经网络结构可以不断通过快速的增量式扩展而进行动态调整,这使得它具备极高的延展性,也极大地减少了训练开销。
[0027]
3、带内遥测(int)方法带内遥测是一种新兴的网络监控技术,其基本思路为通过逐跳地记录、添加数据包所转发经过的网络设备信息到包头部位,并在终点处进行源点-目的点完整路径上的相关信息,以形成细粒度的网络感知能力。
[0028]
常见的传统网络测量方法包括ping协议、ip测量协议(ipmp)、mpls丢包/延迟测量协议等,这些方式主动向网络中发送特殊协议数据包以统计网络信息,这会导致较大的网络开销,同时其也仅能测量丢包率、延迟、ttl等粗粒度网络性能指标。随着软件定义网络的兴起,另外一类网络测量技术出现,其通过控制器从网络外围直接获取网络内部设备的信息,这种方式可以获得全局状态的感知,但是由于其通过大量的数据交换,在控制器与网络设备之间进行网络状态信息的传输,因此会产生更大的开销,同时从控制器直接读取信息也只能做到粗粒度的网络遥测,无法实现包级别的网络状态信息获取。
[0029]
采用带内遥测的方式进行网络信息测量可以充分利用网络中已经在传输的数据包,当其路过一个网络设备时,在数据包上添加此网络设备相关的状态信息。在数据包传输
到目的节点之前,将新增的网络状态信息提取出来。带内遥测方法相当于在保障数据包的基础传输能力的同时,进一步扩展出了网络的感知能力,因此是一种高效低开销的网络管控方法。
[0030]
4、网络控制方法网络控制是指对网络内部的各个设备终端进行细粒度、差异化的管理与控制,常用的网络控制方案大多基于集中式控制器或者集成于网络设备内部的cpu来实现。如图1所示,常见的集中式控制器通过南向接口与网络设备进行交互,它可以做到直接读取网络设备相关信息,同时根据获得的信息进行网络规则的下发,实现集高度感知、快速响应为一体的网络控制模式。然而,传统的网络管控技术停留在网络设备与网络基础资源的粗粒度感知、调控的层面上,当网络出现如网络拥塞、单点故障等突发状况时,集中式的控制单元无法及时、快速地根据底层网络资源与网络设备的信息变化进行及时有效的控制规则适变与下发,甚至需要进行人工调校,即便网络管理员可以迅速的做出反应,网络也会产生极高的突发处理、响应时间,这将会导致网络的传输性能严重下降,以至无法按时按需地完成数据包的传输。本技术通过将宽度强化学习系统部署于集中式控制器中以形成高效、自适应的网络管控方法。
[0031]
在介绍了本技术涉及的技术用语后,接下来,对本技术实施例的设计思想进行简单介绍。
[0032]
传统的集中式控制器的监控功能与管理下发网络设备规则的功能是分开的,需要网络管理员自行分析,然后下发规则。这将耗费大量时间才能够解决网络突发状况。
[0033]
为解决上述技术问题,本技术首先提出了一种宽度强化学习系统,将宽度强化学习系统部署在集中式控制器中,通过带内遥测进行网络状态信息的细粒度获取与采集,将采集的状态信息传输到集中式控制器中,集中式控制器根据网络实时状态进行动作的选择,即下发不同的数据包传输转发规则,形成针对不同网络状态的快速响应与动态调控策略,其具体控制架构如图2所示。
[0034]
首先,为了综合利用dqn方法的智能决策能力以及宽度学习方法的快速收敛能力,并进一步地提高算法的训练准确率,本技术实施例设计的宽度强化学习系统的结构如图3所示。
[0035]
本技术的宽度强化学习系统可以看作是dqn强化学习算法与宽度学习网络的结合,其取长补短地采用了dqn算法中关于evalnet-targetnet、经验库等方法,但是神经网络部分用宽度神经网络进行了代替。具体而言,宽度强化学习系统包括:环境、经验库与训练池、e-bls网络和t-bls网络:环境:智能体(集中式控制器)所交互的网络环境。具体而言,智能体从环境中得到当前状态s
t
,将其传入e-bls网络,得到动作a
t
,即集中式控制器输出的具体网络管控规则,网络环境因此动作改变至新的状态s
t 1
,智能体得到单步奖励r
t

[0036]
经验库与训练池:经验库存储用于训练e-bls网络的数据,但是这些数据是按照时间顺序进行连续存储的。因此在训练时,需要随机从中选择一批经验(数量为p个),记为并将其放入训练池。此外,训练池将输入t-bls网络,来得到最优动作值对应的价值评估q值,以便于后续计算。
[0037]
e-bls网络:采用宽度学习网络表征与之间的关系。通过与环境交互,生成价值评估值,并返回给智能体最优动作。此外,它还定期与t-bls网络进行参数更新同步。
[0038]
t-bls网络:同样采用宽度学习网络,其与e-bls网络结构一致但是更新频率不同,周期性地从e-bls网络处更新神经网络参数。此外,它还负责接收来自训练池的输入,产生最优动作值对应的q值。
[0039]
本技术将宽度强化学习系统应用于网络控制策略的生成,并将其部署在控制器上。收集利用带内遥测技术采集的信息并当作此系统的环境,利用宽度强化学习方法生成网络管控策略,然后下发到网络设备中,形成了集网络状态感知、控制器智能决策和控制规则下发为一体的网络管控机理。具体而言,网络管控闭环由下述三个过程构成:网络状态感知:通过现有的相关带内遥测技术,对网络状态进行细粒度的获取与采集,对数据平面的实时网络信息进行归一化的抽取与格式化的统一,构成神经网络易理解的信息数据,用以输入宽度强化学习系统。
[0040]
控制器智能决策:由于真实场景中的网络存在流量波动性与节点不稳定性的问题,采用在线学习的策略进行实时反馈调整,形成动态的控制决策方案。因此,宽度强化学习系统利用抽取的网络信息数据作为状态值的输入,首先进行e-bls网络的在线训练更新,然后通过e-bls网络根据当前状态s
t
选择最大q值输出对应的最优动作a
t

[0041]
控制规则下发:宽度强化学习系统输出的动作值并非最终下发的规则,将动作值封装为交换机可识别的控制规则数据包,然后再进行下发。
[0042]
本技术针对网内控制场景,将宽度学习与深度强化学习技术进行了改进与结合,采用dqn的架构部署了宽度学习的神经网络系统,改进后该方法兼具了快速训练与收敛效果良好的优势,能够产生较高的奖励值,形成了鲁棒的网内控制策略,能够针对不同的网络环境状态进行动态调控。
[0043]
本技术提出的宽度强化学习网络架构收敛速度快,训练效果鲁棒,且能够被广泛地被应用到各种机器学习问题中,具体而言能够与网络环境下的决策控制方法进行结合,使集中式网络控制器形成智能的网络策略自学习与自适应能力;此外,由于e-bls网络一直进行在线训练更新,可以实时响应网络变化,快速地应对网络突发状况。
[0044]
本技术提出的网络控制方法,通过采用细粒度带内遥测方法来获得实时状态信息,并通过宽度强化学习的实时、快速训练与智能控制来实现网络管控规则的自适应调整和下发,实现高效的网络管控规则的按需调整与适配,最终构建智能鲁棒的网络控制方法。
[0045]
在介绍了本技术实施例的应用场景和设计思想之后,下面对本技术实施例提供的技术方案进行说明。
[0046]
如图4所示,本技术实施例提供了一种网络控制方法,包括:步骤101:获取当前时刻的细粒度的数据平面的网络状态;具体而言,本技术采用的带内遥测的基本处理流程如图5所示,设置发送端按照一定周期速率发送数据包,每经过一个交换机,就在该数据包的包头部位添加遥测信息,在接收端的前一跳中对数据包进行解析,将采集到的遥测信息传到控制器中,同时将数据包恢复为初始状态。
[0047]
作为一种可能的实施方式,获取当前时刻的细粒度的数据平面的网络状态之后包括:对当前时刻的网络状态信息进行归一化的抽取与格式统一。
[0048]
步骤102:利用存储本地网络环境历史数据的经验库和第二宽度学习网络,对第一宽度学习网络进行在线训练;所述经验库存储多个连续时刻的经验,所述经验包括:所在时刻的网络状态,所在时刻的执行动作,所在时刻的奖励和所在下一时刻的网络状态。
[0049]
本实施例中,第一宽度学习网络为e-bls网络,第二宽度学习网络为t-bls网络,e-bls网络和t-bls网络的结构相同。初始时刻,随机生成e-bls网络的初始权重参数θe,并将其赋值给t-bls网络;该步骤具体包括:步骤201:判断所述经验库是否已达到最大容量,若为是,则按照时序顺序,删除经验库中存储的最早的一条经验;否则,进入步骤203;步骤202:将经验放入经验库中,其中,为预处理后的上一时刻的网络状态,为上一时刻的执行动作,为预处理后的当前时刻的网络状态,为智能体执行动作,进入下一时刻的网络状态后,从网络环境中得到的奖励;步骤203:从经验库中随机选择p-1个经验,和经验组成p个经验,作为经验样本;步骤204:将第p个经验样本中的所在时刻的下一网络状态输入t-bls网络,得到最优动作值对应的价值评估值;θ
t
表示所述t-bls网络的权重参数;为第p个经验中的所在下一时刻的网络状态;表示t-bls网络可能的执行动作,为采取执行动作对应的价值评估值;步骤205:计算第p个经验样本的所在时刻的网络状态和执行动作对应的目标值:其中,γ为因子,为第p个经验样本的所在时刻的奖励,1≤p≤p;步骤206:将所有p个经验样本中的所在时刻的网络状态和执行动作作为e-bls网络的输入样本,将目标值作为预期的输出,采用基于岭回归的权值计算方法对所述e-bls网络进行训练。
[0050]
t-bls网络则以k为周期,通过复制e-bls网络的权重完成更新(,)。同样,e-bls网络同样支持特征映射节点和增强节点的增量式扩展。总体而言,e-bls网络的训练复杂度低,且增量式学习也保证了其具备良好的延展性。
[0051]
步骤103:利用在线训练完成第一宽度学习网络对当前时刻的网络状态进行处理,得到当前状态对应的最优执行动作;
当经验库中的经验数量能够实现对第一宽度学习网络进行在线训练,则第一宽度学习网络利用预处理后的当前时刻的网络状态信息计算价值评估值qe,并据此选择最优动作,采用-greedy方法来保证动作在随机探索与最优决策之间权衡;则当前时刻的最优执行动作为:其中,θe表示在线训练完成的第一宽度学习网络的权重参数;为采取执行动作a的价值评估值。为动态阈值,随机因子就是[0,1]之间的随机数,执行动作a的选择是偏向于随机还是偏向于最大qe值主要是根据阈值的变化来确定的。是使得 取得最大值所对应的执行动作。
[0052]
在本实施例中,随着算法不断迭代动态阈值从0.95逐步降低到0.05,这意味着在算法执行初期,动作选择偏向于随机,这有利于算法充分进行解空间中的最优动作探索,同时避免其陷入局部最优解,而随着算法的迭代更新,动作的选择将趋向于基于最大化q值的确定性决策,这使得算法最终能够趋于平稳,且能够进行鲁棒的动作决策。
[0053]
步骤104:将当前时刻的最优执行动作封装为控制规则数据包,然后下发所述控制规则数据包;基于上述实施例,本技术实施例提供了一种网络控制装置,参阅图6所示,本技术实施例提供的网络控制装置300至少包括:获取单元301,用于获取当前时刻的细粒度的数据平面的网络状态;在线训练单元302,用于利用存储本地网络环境历史数据的经验库和第二宽度学习网络,对第一宽度学习网络进行在线训练;最优执行动作获取单元303,用于利用在线训练完成第一宽度学习网络对当前时刻的网络状态进行处理,得到当前状态对应的最优执行动作;下发单元304,用于将当前时刻的最优执行动作封装为控制规则数据包,然后下发所述控制规则数据包。
[0054]
需要说明的是,本技术实施例提供的网络控制装置300解决技术问题的原理与本技术实施例提供的网络控制方法相似,因此,本技术实施例提供的网络控制装置300的实施可以参见本技术实施例提供的网络控制方法的实施,重复之处不再赘述。
[0055]
如图7所示,本技术实施例提供的电子设备400至少包括:处理器401、存储器402和存储在存储器402上并可在处理器401上运行的计算机程序,处理器401执行计算机程序时实现本技术实施例提供的网络控制方法。
[0056]
本技术实施例提供的电子设备400还可以包括连接不同组件(包括处理器401和存储器402)的总线403。其中,总线403表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
[0057]
存储器402可以包括易失性存储器形式的可读介质,例如随机存储器(random access memory,ram)4021和/或高速缓存存储器4022,还可以进一步包括只读存储器(read only memory,rom)4023。
[0058]
存储器402还可以包括具有一组(至少一个)程序模块4025的程序工具4024,程序
模块4025包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0059]
电子设备400也可以与一个或多个外部设备404(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备400交互的设备通信(例如手机、电脑等),和/或,与使得电子设备400与一个或多个其它电子设备400进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(input /output,i/o)接口405进行。并且,电子设备400还可以通过网络适配器406与一个或者多个网络(例如局域网(local area network,lan),广域网(wide area network,wan)和/或公共网络,例如因特网)通信。如图7所示,网络适配器406通过总线403与电子设备400的其它模块通信。应当理解,尽管图7中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(redundant arrays of independent disks,raid)子系统、磁带驱动器以及数据备份存储子系统等。
[0060]
需要说明的是,图7所示的电子设备400仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0061]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本技术实施例提供的网络控制方法。
[0062]
此外,尽管在附图中以特定顺序描述了本技术方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0063]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0064]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献