一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种无线多跳网络中分布式信道分配方法与流程

2022-02-22 18:39:43 来源:中国专利 TAG:


1.本发明涉及无线网络通信领域,具体涉及一种无线多跳网络中分布式信道分配方法。


背景技术:

2.多信道媒体控制接入(multiple media access control,mmac)技术可以使在单信道通信中相互干扰的通信链路能在多个正交信道中实现无干扰的数据传输。mmac可以有效地避免单信道的干扰问题,提升整个网络的吞吐量,因此,被认为是目前缓解无线网络信道资源短缺的一种极具潜力的技术。虽然,多信道通信相对与单信道通信有很多优点,但带来了许多新的问题:
3.信道分配和协商:基于多信道的mac通信技术最基础和最重要的问题是如何合理地分配信道资源,以保证每个节点在正常通信的前提下,最大化整个网络的网络容量。此外,在通信之前,节点之间需要协商解决信道的使用问题,以确保两个通信节点在数据传输期间工作在同一信道上。
4.多信道广播:基于单信道模型的无线网络可以很容易实现广播,因为每一个传感器节点都处于同一个信道;然而在多信道环境中,当某个节点进行广播时,由于节点分布在多个信道上导致某些节点不能接收到广播内容。广播功能在网络应用中有着重要的作用,因此,如何实现广播功能是基于多信道通信面临的又一难题。
5.多跳隐藏终端和暴露终端:如图1所示,多跳隐藏终端是在接收节点的通信范围内而在发送节点的通信范围之外的节点。这些节点由于收不到发送节点的发送数据,而可能向同样的接收节点发送数据,造成数据传输的冲突。在高密度情况下,隐藏终端问题会导致不必要的数据冲突,极大地降低网络性能。多跳暴露终端问题是指是指在发送节点的覆盖范围内而在接收节点的覆盖范围外的节点,暴露终端因听到发送节点的发送而延迟发送。暴露终端的存在会导致不必要的信道资源浪费。


技术实现要素:

6.为了有效降低网络中的干扰和数据冲突,提高信道的利用率和系统吞吐量,保证节点之间数据业务传输的可靠性,本发明提出一种无线多跳网络中分布式信道分配方法,采用至少包括物理设备层、计算层和网络服务层的物理架构,物理设备层由随机部署在网络中的n个无线节点组成一个多跳的无线通信网络,每个节点作为一个自治的智能体agent,通过本地决策模块与不确定的网络环境进行交互;计算层的汇聚节点负责对网络中其他站点所收集的数据进行汇聚、分析和处理,且该节点具有边缘计算功能或采用专用边缘服务器节点,即可卸载节点的计算任务,并可基于节点分布式采集的经验信息训练异步drl模型,将多信道分配问题建模为pomdp问题,利用集中式节点或边缘服务器训练好的异步drl模型进行分布式的信道分配。
7.进一步的,将多信道分配问题建模为pomdp问题,即agent观察当前网络状态s并在
时间周期t执行动作a,并在执行动作a后以状态转移概率p转移到下一个时间周期的网络状态s

,并从环境中获得相应的奖励r,则pomdp问题表示为:
8.m=《s,a,p,r,γ》;
9.其中,m表示pomdp问题模型;s是状态集合表示状态空间;a是动作集合表示动作空间,其中动作a∈a表示节点欲切换的信道编号;r为奖励函数;γ为折扣因子。即在给定环境状态s∈s,agent执行动作a∈a,则环境状态将从s迁移到s

,即s
→s′
,同时从环境获得相应的回报r。
10.进一步的,节点i在第t个时间周期观察到的环境状态表示为:
[0011][0012]
其中,表征了节点i的邻居节点对每个无线信道的占用情况,即各信道潜在的干扰度;k是可用信道数量,n是指节点数量;表示节点i的邻居节点在占第t个时间周期对信道j的占用情况,表示存在节点i的邻居节点使用信道j,表示存在节点i的邻居节点使用信道j;n
i,o
为节点i的邻居节点总数。
[0013]
进一步的,当节点在执行动作a后,并从状态s转移到下一个状态s

时从环境中获得的奖励r可表示为:
[0014][0015]
其中,r(s,a)节点i在第t个数据周期将信道切换为信道k后的奖励r,即r=r(s,a);表示当前周期是否存在节点i的邻居节点使用信道k:若不存在节点i的邻居节点使用信道k,则反之,反之,为在第t个时间周期,节点i的邻成功传输概率。
[0016]
进一步的,部署在计算层的异步drl模型包括当前网络、目标网络、误差计算模块和经验池,以及部署在无线节点本地的决策模块,本地决策模块的网络结构与当前网络相同,本地决策模块的参数定期从边缘节点处获取;其中:
[0017]
目标网络固定网络参数并获取目标值函数,当前网络用于评估策略更新参数,逼近值函数;
[0018]
当前网络的参数θ每一时间周期都更新;目标网络的参数θ-每隔固定多个时间周期更新一次,期间保持不变;
[0019]
经验池中的经验e=《s,a,r,s

》,s,s

∈s,a∈a,由网络中的节点异步地从无线多跳网络环境中采集;
[0020]
误差计算模块通过目标网络和当前网络计算的td偏差来更新当前网络的参数;此外,每隔固定时间间隔将当前网络的参数拷贝到目标网络。
[0021]
进一步的,目标值函数的计算包括:
[0022][0023]
其中,r(s
t
,a
t
)为节点i∈[1,n](n为节点数量),在第t个时间周期状态s
t
∈s执行动作a
t
∈a后在第t个时间周期获得的奖励;q(s
t 1
,a
t 1
;θ-),(s
t 1
∈s,a
t 1
∈a)表示一个网络,即第t 1个时间周期基于目标网络,即参数为θ-,节点i以状态s
t 1
执行动作a
t 1
的网络;s
t 1
为节点i在第t 1个时间周期的状态;a
t 1
为节点i在第t 1个时间周期执行的动作;max
at 1
∈aq(s
t 1
,a
t 1
;θ-)表示节点i基于目标网络(参数为θ-)下,在状态s
t 1
下选择动作a
t 1
以最大化相应的q值。
[0024]
进一步的,误差计算模块计算当前网络q(s
t
,a
t
;θ)和目标值之间的误差:
[0025][0026]
采用梯度下降来更新神经网络参数:
[0027][0028]
其中,l(θ)为模型的td误差函数;表示对所选mini-batch经验数据求期望;θ实时更新的当前网络的参数;α学习率;为相应的梯度;q(s
t
,a
t
;θ)表示一个网络,即第t个时间周期网络参数为θ下节点i以状态s
t
执行动作a
t
的网络。
[0029]
进一步的,将整个系统时间划分为多个连续的超帧时间,一个超帧时间为一个时间周期,每个超帧包括一个信标帧、一个控制周期和一个数据传输周期,控制周期采用一个固定的控制信道来传输相关的控制信息和信道分配决策;数据传输周期采用k个非重叠信道以支持无干扰的并行数据传输;且在控制周期,网络中的所有节点切换到控制信道上以侦听和发送相关的控制信息;数据传输周期有数据要发送的节点切换到其父节点所在的信道上基于信道接入机制进行数据传输。
[0030]
进一步的,节点在执行动作a的过程中,采用基于rts/dcts的信道接入机制,包括:
[0031]
若节点d位于第m跳、其下一跳第m 1跳节点为节点i,即节点d是节点i的父节点;若节点e位于第m跳、其下一跳第m 1跳节点为节点j,即节点e是节点j的父节点;四个节点均工作在相同信道上,且节点i和节点j的退避值为0;
[0032]
当节点i发送一个rts帧给节点d时,节点d等待一个cifs时间,再返回一个cts帧;
[0033]
节点d的子节点在接收到节点i的rts帧或节点d的cts帧后,将基于duration字段中的信息设置相应的nav;
[0034]
当节点e接收到来自节点i的rts帧,等待一个sifs,返回一个cts帧来通知其子节点在节点i传输期间,其子节点延迟数据传输;
[0035]
其中,rts指请求发送;cts指清除发送;cifs为用于目的节点返回cts的帧间间隔;sifs指用来分隔开属于一次对话的各帧,并且cifs略大于sifs。
[0036]
进一步的,若节点j位于节点i的通信范围内,且其父节点没有位于节点i的通信范围,则当节点j收到rts帧后,等待一个rifs后,节点j发送rts帧给父节点e。
[0037]
本发明解决在高密度多跳无线网络中的隐藏终端和暴露终端问题,有效地避免了
数据冲突和信道资源浪费问题,以提高整体的网络性能。此外,基于节点在数据传输周期的信道接入性能和信道占用情况,针对无线多跳多信道网络,提出了一种异步的drl模型来动态优化节点的信道分配策略。提出了一种基于移动边缘计算(mec)的新型无线模式解决了终端节点的计算和存储压力,设计了一个分布式交互(微学习)和集中训练(宏学习)框架来训练异步drl模型。因此,即使在资源受限的终端上也可以实现了本发明所提出的异步drl模型。此外,本发明考虑了多智能体场景(mas)中的非平稳问题,仅利用邻居局部信息在避免了网络剧烈的动态变化的同时,可进一步加速了网络收敛性。
附图说明
[0038]
图1是现有技术中提供的多信道中隐藏和暴露终端示例图;
[0039]
图2是本发明实施例提供的边缘计算赋能的系统架构图;
[0040]
图3是本发明采用的超帧结构图;
[0041]
图4是本发明中基于分布式决策架构的异步drl模型;
[0042]
图5是本发明实施例提供的异步drl模型集中式训练流程。
[0043]
图6是本发明实施例提供的rts/dcts工作原理图之一;
[0044]
图7是本发明实施例提供的rts/dcts工作原理图之二。
具体实施方式
[0045]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046]
本发明提出一种无线多跳网络中分布式信道分配方法,采用至少包括物理设备层、计算层和网络服务层的物理架构,物理设备层由随机部署在网络中的n个无线节点组成一个多跳的无线通信网络,每个节点作为一个自治的智能体agent,通过本地决策模块与不确定的网络环境进行交互;计算层的汇聚节点负责对网络中其他站点所收集的数据进行汇聚、分析和处理,且该节点具有边缘计算功能,即可卸载节点的计算任务,并可基于节点分布式采集的经验信息训练异步drl模型,将多信道分配问题建模为pomdp问题,利用训练好的异步drl模型进行信道分配。
[0047]
实施例1
[0048]
本实施例给出系统架构图,如图2所示,系统架构包括物理设备层、计算层和网络服务层。其中,物理设备层由随机部署在网络中的n个无线节点组成一个多跳的无线通信网络,每个节点作为一个自治的智能体agent,通过本地决策模块与不确定的网络环境进行交互;计算层的汇聚节点负责对网络中其他站点所收集的数据进行汇聚、分析和处理,且该节点具有边缘计算功能可卸载节点的计算任务,可基于节点分布式采集的经验信息训练异步drl模型。
[0049]
在进行数据传输过程中,本实施例选择以超帧结构进行数据传输,超帧结构如图3所示,系统时间划分为多个连续的超帧时间,每个超帧包括一个信标帧,控制周期和数据传输周期。其中,控制周期采用一个固定的控制信道来传相关的控制信息和信道分配决策;数
据传输周期采用k个非重叠信道以支持无干扰的并行数据传输。因此,在控制周期,网络中的所有节点要切换到控制信道上以侦听和发送相关的控制信息(路由、时间同步、信道切换等);数据传输周期有数据要发送的节点切换到其父节点所在的信道上基于信道接入机制进行数据传输。
[0050]
本实施例采用的异步drl模型如图4所示,采用drl来解决多跳无线网络中的动态多通道分配问题。本发明实施例结合了dqn函数逼近能力和a3c异步经验采样架构,提出了异步drl模型,旨在为节点合理分配信道,以最大限度地提高数据传输的可靠性。其中,部署在边缘服务器上的drl模型采用dqn架构,引入dnn从原始数据中提取特征来逼近行为值函数,同时结合a3c的异步训练框架来解决dqn不适合于高维动作空间和mas问题,打破了经验之间的相关性,显著提高了网络的收敛速度,解决了无法在资源受限的无线节点上实现a3c算法的问题。
[0051]
本实施例考虑某些场景下无线节点的计算能力、能量和内存能力有限,导致计算瓶颈和性能低下,限制了对高级应用的支持,并运行计算密集型任务,即训练drl模型。因此,本发明实施例采用基于边缘计算赋能的无线网络架构,将节点训练异步drl模型的计算任务转移给资源丰富的边缘节点(汇聚节点)。如图2所示,部署在计算层的异步drl模型由当前网络(main)、目标网络(target)和经验池(experience replay)组成。因此,边缘计算赋能的汇聚节点完成模型的训练和更新任务。
[0052]
在采用异步drl模型进行信道分配时,本发明结合了dqn的函数逼近能力和a3c的异步交互体系结构,在图4给出的异步drl模型中分布式交互模块(微学习)允许终端节点使用本地观测信息异步选择信道资源。此外,集中训练模块(宏学习)通过调整操作参数来训练异步drl模型,从而引导系统朝着特定于应用程序的全局优化目标(例如,最大化数据传输的可靠性)前进。其中,每个终端节点维护一个drl预测模型来独立地分配信道。具体来说,本发明实施例将多信道分配问题建模为pomdp问题,pomdp问题由五个元组组成:m=《s,a,p,r,γ》,状态s、动作a、状态转移概率p、奖励函数r和折扣因子γ。agent观察当前网络状态s并在每个时间步t的控制周期,执行动作a。然后以状态转移概率转移到下一个状态,从环境中获得奖励r
t 1

[0053]
状态空间,s={s1,s2,...,s
2k n
}。其中,k是可用信道数量,n是指节点数量。对于特定节点i,在第t个周期时,其状态向量,
[0054][0055]
其中,表示节点i的邻居节点对信道j的占用情况,表示存在节点i的邻居信道占用了信道j;反之,s
i,t,j
=0。是节点i的邻居节点总数。
[0056]
动作空间,a={a1,a2...,ak},ak∈a。其中,用于表示节点i在下一数据传输周期欲切换的信道编号,ak=ch
i,t,k
,ch
i,t,k
=k∈[1,k]。
[0057]
奖励函数,r。当节点i在第t个数据周期,局部观测状态执行动作切换到信道ch
i,t,k
时,在该数据传输周期结束后,环境会返回给该节点一个立即奖励值,r=r(s,a),该值可通过下列函数进行求解:
[0058][0059]
其中,在当前数据周期,表示不存在节点i的邻居节点使用信道ch
i,t,k
;反之,;反之,是使用信道ch
i,t,k
=k的节点i的邻居节点数。是节点在ch
i,t,k
上进行数据传输的成功传输概率。
[0060]
边缘计算赋能的汇聚节点基于网络中每个节点分布式异步采集的经验信息集中式地训练drl模型,并把更新后的网络模型参数发送给节点,每个节点可以从其父节点处获取最新的网络参数。
[0061]
drl模型的集中式训练过程如图5所示,异步drl模型中存在两个结构完全相同但是参数却不同的网络,预测q估计的当前值,其使用的是最新的参数;而预测q现实的神经网络目标值参数,其使用之前的旧参数。在本实施例中将节点的状态作为神经网络的输入,并将每个节点执行不同的动作作为节点的的类别,通过神经网络预测节点执行每个动作的概率,将该概率作为神经网络的输出,即q的值,例如q(s,a;θ)表示在神经网络的参数为θ情况下,输入节点状态s,节点执行动作a的概率。
[0062]
模型训练时,随机从经验池中拿出一些(mini-batch)经验来训练,以打破经验之间的相关性。此外,由于本发明中经验池中的经验信息由智能体异步地采样提供,因此可进一步打破经验之间的相关性,并且提供更加丰富的经验。
[0063]
从图5中可以看出《s,a》信息作为当前值网络的输入,以获取q(s,a;θ),用来评估当前状态行为值函数;s

∈s信息用于目标值网络的输入,以获取对应的maxq(s

,a

;θ-);计算出包括:
[0064][0065]
因此,基于值,采用dqn误差函数模块,可以进一步计算出误差值:
[0066][0067]
当前网络基于误差函数梯度来更新当前值网络的参数:
[0068][0069]
其中,s∈s,a∈a。每经过一定次数的迭代,将当前值网络的参数复制给目标值网络;
[0070]
θ-←
θ
[0071]
重复上述过程使网络达到稳定状态。
[0072]
虽然,基于异步drl的信道分配模型通过应用多个并行数据传输来提高网络性能,但是在高密集无线多跳网络场景下,特定信道上的隐藏终端和暴露终端问题将进一步加剧。图1示出了无线多跳网络中的隐藏终端和暴露问题,当节点d正在给节点c传输数据时,由于节点b位于节点d的通信范围外。因此,节点b误认为信道处于空闲状态,故当节点b此时给节点c和a发送数据时,在节点c处发生数据冲突,导致不必要的数据重传,进一步加剧网
络拥塞程度;此外,当节点b1给节点a1传输数据时,由于节点b2处于节点b1的通信范围,且节点b2和a2分别未处于节点a1和b1的通信范围时,节点b2误认为信道处于空闲状态而延迟数据发送,这将导致不必要的信道资源浪费。因此,本发明实施例提出基于rts/dcts机制来解决上述无线多跳网络中的隐藏终端和暴露终端问题。下面通过举例来进一步描述rts/dcts机制。
[0073]
图6为本发明较佳实施例提供的基于rts/dcts解决无线多跳网络中隐藏终端问题的示意图。其中,节点i和j,节点d和e分别位于m和m 1跳(指不同且相邻跳数)且工作在相同信道上时。节点d是节点i的父节点,节点e是节点j的父节点。节点e也是节点i的邻居节点。假设此时节点i和j的退避值都是0。
[0074]
当节点i发送一个rts帧给节点d时,节点d等待一个cifs时间,再返回一个cts帧;
[0075]
节点d的子节点在接收到节点i的rts帧或节点d的cts帧后,将基于duration字段中的信息设置相应的nav;
[0076]
当节点e接收到来自节点i的rts帧,等待一个sifs,返回一个cts帧来通知其子节点在节点i传输期间,其子节点延迟数据传输,以此避免隐藏终端问题。
[0077]
在所述多跳环境下的信道接入机制中,隐藏终端问题不可避免,因此节点i在特定信道k上的成功传输概率,可用下列公式进行计算:
[0078][0079]
其中,τ是在所述信道接入时隙中的传输概率。具体地,(ns是该节点的父节点总的子节点数)。na表示节点i的邻居节点数,而nf表示节点i的父节点的邻居节点数(不包括该父节点的子节点)。
[0080]
针对所述保留终端问题,请参照图7,图7为本发明较佳实施例提供的基于rts/dcts解决无线多跳网络中暴露终端问题的一个实例的示意图。其中,节点i和j,节点d和e分别位于m和m 1跳(指不同且相邻跳数)且工作在相同信道上时。节点d是节点i的父节点,节点e是节点j的父节点。节点j也是节点i的邻居节点。假设此时节点i和j的退避值都是0。
[0081]
当节点i发送rts给节点d时,节点d等待一个cifs时间,再返回一个cts帧;因为节点j位于节点i的通信范围内。因此,节点j也会收到rts帧,但由于该rts帧的目的节点不是节点j的目的节点,因此节点j不会根据该rts的duration字段信息设置nav;
[0082]
当节点j收到rts帧后,等待一个rifs后,判断是否收到cts帧;由于其父节点e不在节点i的通信范围内,所以节点e不会在sifs后返回一个cts;因此,节点j没有在rifs后没有接收到cts帧;节点j发送rts帧给父节点e;
[0083]
网络中的节点执行上述过程,即可有效地解决网络中的隐藏终端和暴露终端导致的数据冲突和信道资源浪费问题;因此,成功传输概率可以重写为:
[0084][0085]
基于所述rts/dcts机制,位于同一信道上的相邻父节点下的数据链路之间的数据冲突可以通过sifs和cts有效地避免;此外,所述信道接入机制,引入rifs帧间间隔解决了网络中的暴力终端问题,从而提升了节点的成功传输概率,即
因此,所述信道接入机制能够提升网络中节点的成功传输概率;
[0086]
此外,从上述公式可以看出ps与参数na和nf直接相关,而参数ns,na和nf可以通过优化信道分配策略进一步优化;因此,本发明实施例将节点在所在信道上的成功传输概率用于信道分配模型奖励函数的一部分,旨在进一步优化网络性能。
[0087]
本发明实施例提出的信道分配和信道接入机制,首先在从不同的层面上优化信道资源,信道分配从频域上,信道接入从时域上优化信道资源。此外,合理的信道分配机制将进一步缓解信道接入过程中的干扰问题,节点的信道接入性能将进一步优化其信道分配策略。
[0088]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献