一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图论和强化学习的车联网通信资源分配方法与流程

2021-11-29 14:04:00 来源:中国专利 TAG:


1.本发明属于车联网优化应用领域,涉及一种基于图论和强化学习的车联网通信资源分配方法。


背景技术:

2.车联网(v2x)指的是由车对车(v2v)、车对基础设施(v2i)、车对行人(v2p)、车对网络(v2n)等通信方式共存的网络。2015年,3gpp发布了release 14(c

v2x)通信标准,通过车辆直连链路服用蜂窝链路的通信资源用以提高智能交通系统(its)的安全性、高效性和舒适度。尽管c

v2x在覆盖能力和系统容量方面有很大的潜力,但它的实施也带来了一些问题,特别是无线资源管理(rrm)问题。为了应对这一问题,许多资源分配方案被提出以提高分配指标(即分配效率和系统容量)。
3.车联网中的通信资源主要包括频谱、功率等。无线网络资源分配旨在通过合理的资源配置来提高资源的使用效率。在车联网中,由于车辆数目的激增以及车辆位置的快速变化,对于资源分配的高效性以及实时性提出了更严格的要求。资源分配方案包括信道分配和功率控制两个阶段。具体来说,通过信道分配来决定哪个v2i链路与v2v链路共享资源块(rb)。同时,通过功率控制来减弱车载用户(v

ue)对可用无线蜂窝信道的干扰。有效的资源分配方案依赖于精确的信道状态信息(csi)。根据csi的利用方式,资源分配方案可以分为集中式(centralized)与分布式(decentralized)两种方式。集中式资源分配由中心节点,如用户设备、基站设备、接入点等,基于某个特定目标(如最大化网络总容量、最大化覆盖面积、最小化中断率)进行资源划分。在该方式中,所有网络节点需要配置一条公共控制信道向中心节点汇报信道信息,中心节点完成资源划分后,还需将决定下达给各网络节点,上述过程必然引入额外的通信开销。集中式资源分配大多基于优化理论。分布式资源分配无需中心节点,每个通信节点自治地选择决定自己的传输形式。该方式可以快速适应环境变化,对信息的依赖性较集中式弱,因此额外通信开销小。但这种方式难以达到全局最优,可能造成资源分配不合理,且全局公平性很难顾及。通常情况下,由于各节点是理性且自私的,分布式资源分配通常基于博弈论。
4.具体而言,车联网中集中式的资源分配方式要求基站收集所有链路(v2i链路与v2v链路)的csi来进行资源管理与分配。但是,由于中心控制节点数据平面与控制平面的分离结构,导致基站无法获取准确的v2v链路csi。因此,集中式方案只能依赖于不准确的csi估计或反馈。例如,l.liang等人使用慢衰落统计下的csi最大化所有v2i链路的容量。为了实现更精确的资源分配方案,j.mei等人利用从车辆传输给基站的延时csi反馈,然而这种方式会导致信令过载从而降低网络的传输效率。为了解决信令过载的问题,j.kim等人提出了一种将csi周期发送到基站的方案。尽管采用周期性csi传输的方法可以有效地提高资源分配的效率,然而集中式方案仍旧存在着实时性以及准确性较差的问题。
5.与集中式方案不同,分布式rrm方案的决策者是每个车辆用户。每个车辆用户能够根据本地csi和其他车辆用户的策略动态调整其资源分配策略。例如,l.liang等人将资源
分配问题建模为一个多智能体深度强化学习(drl)问题,该问题通过深度q网络(dqn)方法来解决。在此基础上,结合深度确定性策略梯度(deep deterministicpolicy gradient,ddpg)算法,y.s.nasir等人进一步提出了解决资源分配问题的分布式学习框架。虽然分布式资源分配方案在动态网络扩展性方面具有良好的性能,但由于车辆之间的竞争关系,导致它们通常无法达到全局最优。
6.考虑到集中式和分布式资源分配方案的局限性,s.maghsudi和s.gyawali等人提出了一种集中式

分布式混合式资源分配方案,有效地结合了上述两种方法的优点。但是,它们都采用离散策略集进行功率控制,导致可行功率集的不完全性。
7.资源分配方案不仅需要考虑资源分配的执行方式,同时需要考虑资源分配问题的优化方法。现阶段的车联网资源分配方法主要集中在利用空域隔离的固定分配方式对频谱与功率资源分配的方法进行优化,这种固定分配的方式一方面缺少对于车联网快速动态拓扑结构的适应性,忽略了车辆的高速移动性的特殊性;另一方面这类方式缺少对于各类场景的普适性。同时,这种频谱、功率联合优化的处理方式忽略了优化问题本身的问题属性,试图用一种方式的暴力求解得到资源分配问题连续变量与离散变量的最优解是不现实的。


技术实现要素:

8.为了进一步提高系统容量和资源分配效率,本发明提供了一种基于图论和强化学习的车联网通信资源分配方法。该方法首先提出了基于混合集中式

分布式的资源分配方法,在此基础上,通过将资源分配问题转化为信道分配问题以及功率控制两个问题的解耦形式,分别利用图论以及深度强化学习的方法解决以上两个子问题,在最大化系统容量的同时保证v2v链路的可靠性,实现了一种更有效的资源分配方案。与随机策略相比,基于无模型的强化学习算法可以获得自适应的资源分配策略。与dqn算法相比,基于ddpg的算法通过探索连续的功率变量,可以达到更高的系统容量。
9.本发明的目的是通过以下技术方案实现的:
10.一种基于图论和强化学习的车联网通信资源分配方法,如图1所示,包括如下步骤:
11.步骤一、问题建模:
12.根据具体场景建模rrm问题:
[0013][0014][0015][0016][0017][0018]
[0019]
其中,为第m条v2i链路的容量;为第n条v2v链路的容量;ρ
n,m
为信道分配变量(0

1优化变量);为v

ues的发射功率变量(连续型优化变量);为v2i链路的sinr;为v

ues允许的最大传输功率;γ
n,min
为建立可靠的v2v链路所需的最小sinr;v2i链路和v2v链路分别由m∈{1,

,m}和被n∈{1,

n}标记;
[0020]
步骤二、问题分解:
[0021]
将rrm问题分解为信道分配ca以及功率控制pc子问题,通过将原目标函数中v2i链路容量利用下界替代的方式,将ca子问题与pc子问题解耦为两个相互独立的子问题;在此基础上,ca与pc子问题得到的局部最优解为rrm最优解的提供了下界,其中:
[0022]
ca问题的表达式为:
[0023][0024][0025][0026]
ρ
n,m
∈{0,1};
[0027]
pc问题的表达式为:
[0028][0029][0030][0031]
其中,为ca问题的局部最优解;
[0032]
v2i链路容量的下界表达式为:
[0033][0034]
其中,w为每个子带的带宽,s为从bs到车辆终端的传输功率;g
b,m
表示bs到第m条v2i链路信道增益;g
n,m
对应第n个v2v链路到m个v2i链路的干扰增益;σ2为噪声功率;
[0035]
rrm最优解的下界表达式为:
[0036][0037]
其中,和为rrm问题的全局最优解;为pc问题的局部最优解;
[0038]
步骤三、集中式的信道分配方案:
[0039]
将ca问题转化为以下二部图上的最大加权匹配(mwm)问题:
[0040]
[0041][0042][0043]
ρ
n,m
∈{0,1};
[0044]
其中,
[0045]
根据上述变换,得到如下二部图匹配模型:
[0046][0047]
其中,w
m,n
为连接m∈μ和n∈ν的边的权重;
[0048]
利用匈牙利算法求解;
[0049]
步骤四、根据问题分解原则,将ca问题获得的信道分配方案带入到pc问题中,具体来讲,将ca问题求解得到的信道分配变量带入到pc问题的表达式中,其他约束条件保持不变,如上面的pc问题表达式所见;
[0050]
步骤五、分布式的功率控制方案:
[0051]
将pc问题转换为mdp模型,利用ddpg算法求解,得到车联网资源分配策略,其中:
[0052]
a、将pc问题转换为mdp模型的方法如下:
[0053]
mdp由一个元组(s,a,r
t
)组成,其中,s表示状态空间,a表示动作空间,r
t
是直接的回报函数,对于问题pc,将元组具体化如下:
[0054]
状态空间:设s
t
∈s表示时间步长t时的当前状态,取值为所有v2v链路的sinr依赖于从环境中获得的csi:
[0055][0056]
其中,为t时刻v2v链路的sinr,n∈{1,2,3

n}
[0057]
动作空间:动作空间根据状态s
t
包含每个车辆的所有可行功率值,对于a
t
∈a的作用定义为:
[0058][0059]
其中,为t时刻v2v链路的传输功率,n∈{1,2,3

n};
[0060]
即时反馈函数:a
t
执行后,代理将t时刻获得t时刻的即时奖励r
t

[0061][0062]
相比于现有技术,本发明具有如下优点:
[0063]
(1)针对于集中式以及分布式资源分配方案的缺点,本发明提出了一种新的混合集中

分布式资源分配方案。该方案由基站进行集中式信道分配,由车辆终端进行分布式功率控制。由于在资源分配方案中信道分配和功率控制具有相互依赖关系,本发明首先通过将两个问题解耦来实现集中

分布式资源分配方案。
[0064]
(2)针对于采用一种方法联合求解资源分配中信道分配和功率控制导致的可行解不完备的问题,本发明在解耦以上两个问题的基础上,通过采用不同的方法来解决这两种不同类型的问题。信道分配是一个纯整数规划问题,通过图匹配解决离散变量的优化问题。同时,功率控制是一个连续变量规划问题,采用基于ddpg的强化学习算法求解。与传统的基于dqn的算法不同,基于ddpg的算法可以从连续空间中选择动作,提高了系统性能,同时便于在实际的车联网环境下实现。
[0065]
(3)由于车辆的高速移动导致网络拓扑结构以及信道环境的迅速变化,资源分配方案应根据环境的变化自主作出决策以适应网络的动态变化。本发明基于强化学习的方式通过线下学习、线上决策的方式使得资源分配方法达到实时决策的效果,解决固定分配方式带来的决策延迟、决策效率低的问题。
附图说明
[0066]
图1为基于图论和强化学习的车联网通信资源分配方法的流程图;
[0067]
图2为v2x单小区场景;
[0068]
图3为功率控制算法流程图;
[0069]
图4为算法运算性能仿真对比图;
[0070]
图5为算法系统容量仿真对比图。
具体实施方式
[0071]
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
[0072]
本发明提供了一种基于图论和强化学习的车联网通信资源分配方法,如图1所示,所述方法包括如下步骤:
[0073]
一、系统模型:
[0074]
考虑图2中的单小区场景,假设有m个v2i链路和n个v2v链路。v2i链路和v2v链路分别由m∈{1,

,m}和被n∈{1,

n}标记。所有的车辆随机分布在基站的覆盖范围内。对于v2v传输模式,关注c

v2x架构中定义的模式4。在模式4中,车辆用户在没有基础设施帮助的情况下自主选择无线资源。
[0075]
在本场景中,假设m条v2i链路被分配到固定的正交信道(即rb)并且接收到的基站发射功率固定,即第m条v2i链路占用第m个rb。这里假设:在一段时间内,只有一个v2v链路与v2i链路共享频谱。因此,信道分配的主要挑战是设计一种有效的v2v链路频谱共享方案。在这里,第m条v2i链路和第n条v2v链路的信干扰加噪声比(sinr)和分别为:
[0076][0077][0078]
其中,s为从bs到车辆终端的传输功率;为第n条v2v链路的传输功率变量;g
b,m

g
b,n
分别表示bs到第m条v2i链路和第n条v2v链路的信道增益;g
n
和g
n,m
分别对应第n个v2v链路的信道增益和第n个v2v链路到m个v2i链路的干扰增益;σ2为噪声功率;ρ
n,m
是一个二进制信道分配变量,如果第n个v2v链路使用第m个v2i链路的频谱,则ρ
n,m
=1,否则ρ
n,m
=0。
[0079]
由sinr推导,第m条v2i链路的容量定义为:
[0080][0081]
其中,w为每个子带的带宽。
[0082]
同样,第n条v2v链路的容量定义如下:
[0083][0084]
二、问题建模:
[0085]
根据上述定义,资源分配问题在数学上可以表述为公式(5)(即rrm)。本发明的目标是最大化系统容量,包括所有v2i链路和v2v链路,同时保证v2v链路的可靠性。
[0086][0087][0088][0089][0090][0091][0092]
其中,为v

ues允许的最大传输功率;γ
n,min
为建立可靠的v2v链路所需的最小sinr。约束(5a)保证了v2v链路唯一的rb分配,(5b)保证了v2i链路之间正交的rb分配,(5c)强制每个v

ue的sinr要求,(5d)限制了每个v

ue的传输功率。
[0093]
资源分配问题rrm是一个混合整形非线性规划问题,没有多项式时间算法来优化解决它。因此,本发明提出了一种集中式

分布式rrm混合方案,包括集中式信道分配和分布式功率控制。为此,本发明首先将rrm问题中的信道分配和功率控制解耦。
[0094]
命题1:问题rrm可以分解为以下两个子问题,这为rrm的目标函数提供了一个下界。
[0095][0096][0097][0098]
ρ
n,m
∈{0,1}
ꢀꢀꢀ
(6c);
[0099][0100][0101][0102]
证明:定义rrm的最优解是和子问题ca和pc的最优解分别是和首先,考虑v2v链路到v2i链路的最大干扰功率能力。这意味着连续幂变量被常数代替。根据rrm约束(5d),因此:
[0103][0104]
上述不等式提供了v2i链路容量的下界,即问题ca(仅关于信道分配变量ρ
n,m
)的目标函数。因此,可以通过求解问题ca得到局部最优同时也实现了ρ
n,m
和的解耦。基于最优解问题rrm被转换为问题pc(只关于功率变量)。这样,有:
[0105][0106]
上述不等式为rrm的最优解提供了一个下界,但与rrm的最优解差距较小。这意味着问题pc的最优解包含在rrm的可行解集中因此,问题rrm可以分解为问题ca和问题pc。
[0107]
问题ca和pc分别对应于信道分配子问题和功率控制子问题。ca问题是关于信道分配变量ρ
n,m
的子问题,其目标函数为v2i链路容量。pc问题是的一个子问题,旨在提高v2i链路和v2v链路的系统容量。问题ca可以转化为最大加权匹配(mwm)问题,问题pc可以建模为马尔可夫决策过程(mdp)。
[0108]
三、混合的集中—分布式资源分配方案:
[0109]
本发明提出了一种混合的集中

分布式rrm方案来解决ca和pc的问题。首先,ca可以转化为二部图上的最大加权匹配(mwm)问题。其次,将pc问题转换为mdp,并采用基于ddpg的算法进行求解。
[0110]
a、集中式的信道分配
[0111]
对于ca问题,二部图是由两组顶点(包括v2i链路m和v2v链路n)以及它们之间的连接关系构成。两组的顶点分别为v2i链路和v2v链路,二部图的边表示匹配关系,这意味着有共享信道的链路(顶点)之间会有一条连接的边。连接m∈μ的边的权值且n∈ν为w
m,n
,即在第m条v2i链路和第n条v2v链路之间的共享信道的sinr。在对二分图进行模型之后,本发明提供了一个命题来证明ca问题如何等价于mwm问题。
[0112]
命题2:问题ca等价于以下优化问题,即mwm问题,
[0113]
[0114][0115][0116]
ρ
n,m
∈{0,1}
ꢀꢀꢀ
(10c)。
[0117]
证明:首先,将约束(10a)代入ca目标函数的分母,得到如下表达式:
[0118][0119]
然后,将式(11)与约束(10b)相乘,将式(11)转化为式(12),即命题2的目标函数。
[0120][0121]
根据上述变换,可以得到一个二部图匹配模型,其中,ρ
n,m
表示是否存在连接边,w
m,n
表示这条边的权值。本发明的目标是在约束(10b)下找到一个合适的顶点匹配方案,使方程(10)最大化,从而确保每个v2v链路的连接边是唯一的。
[0122]
ca很好地适用于二部图的mwm问题。因此,匈牙利算法是在多项式时间内解决这一问题的有效方法。基于命题2,匈牙利算法的复杂度上限为o(max{m,n})3。
[0123]
b、分布式的功率控制
[0124]
本发明在mdp的理论框架的基础上,使用rl(reinforcement learning)方法来解决上述问题pc。根据马尔可夫属性,一个智能体根据当前从环境中获取的状态选择一个动作,并获得即时奖励,作为反馈来调整智能体的下一个动作。在车联网中,信道状态csi和车辆的随机分布均具有马尔可夫性质。因此,问题pc可以表示为具有连续状态和动作空间的mdp模型。每个车辆用户都被认为是一个智能体来获取状态并进行决策功率控制策略。在这个模型中,mdp由一个元组(s,a,r
t
)组成,其中,s表示状态空间,a表示动作空间,r
t
是直接的回报函数。对于问题pc,将元组具体化如下:
[0125]
状态空间:设s
t
∈s表示时间步长t时的当前状态,取值为所有v2v链路的依赖于从环境中获得的csi:
[0126][0127]
动作空间:动作空间根据状态s
t
包含每个车辆的所有可行功率值。因此,对于a
t
∈a的作用可以定义为:
[0128][0129]
即时反馈函数:a
t
执行后,代理将获得即时奖励;本发明将其定义为所有v2v链路的总容量,这正是问题pc中的目标函数:
[0130][0131]
智能体的目标是找到一个行动策略π,使期望的长期累计折扣奖励最大化,可以用行动价值函数q
π
(s,a)表示为:
[0132][0133]
其中,e
π
{}是对在策略π下的长期累计折扣奖励做期望,γ为折扣因子。动作

价值函数也可以写成:
[0134][0135]
这种递归关系称为bellman方程,可以用来寻找最优策略。本发明用这个方程来解决pc问题。
[0136]
rl过程可以包括基于策略、基于值函数以及基于演员评论家的方法。基于策略的方法可以直接处理连续操作空间。然而,它是一种低效的策略评价方法,且具有较大的方差,这意味着它在大多数情况下收敛于局部最优解。与基于策略的方法不同,基于值的方法将行动划分为有限的离散值,并选择状态

行动值最高的行动。然而,它会导致持续行动空间的不完整性量化错误,甚至可能找不到最优策略。
[0137]
针对基于策略和基于值函数的方法的缺点,本发明提出了一种基于演员

评论家方法的功率控制算法(表1),具体使用了ddpg方法。在提出的算法中,智能体由分为两部分:1)演员家和2)评论家。在算法过程中,行动者不断迭代以在每个状态下选择一个动作,同时批评家评估行动者所采取的动作是否合适,并不断迭代以改进批评家的动作值函数。
[0138]
此外,为了适应实际情况,可以使用一个具有代表性的函数(即深度神经网络(dnn)),使得智能体感知更复杂的环境状态和构建更复杂的策略。如图3所示,演员和评论者可定义为dnn参数θ
μ
和θ
φ
。演员家和评论者分别有两个dnn,一个是估计网络,另一个是目标网络。本发明创建一个估计网络的副本作为目标计算目标值,使目标网络中的演员和批评者分别表示为θ
μ
'和θ
φ
'。在这种结构下,被估计网络中的行动者输出特定的行动值,而被估计网络中的批评者输出特定的行动值估计网络输出当前状态

动作的q值。
[0139]
该算法结合了行为者批评框架的优点和目标网络的特点。所提算法中估计网络中的行动者更新如下:
[0140][0141]
其中,定义为目标函数(即k个时间段内长期累计折扣奖励期望);θ
μ
、θ
φ
为演员和评论家估计网络dnn参数;表示求梯度;μ(s|θ
μ
)表示演员估计网络下的状态s下的策略函数;ρ
μ
表示s
t
的状态分布。
[0142]
结合前面提到的bellman方程,通过最小化时间差误差l(θ
φ
)来更新估计网络中的批评家,即:
[0143][0144]
其中,r
t
γq'(s
t 1
,a
t 1

φ
')为目标网络t时刻q值,q(s,a|θ
φ
)为估计网络的q值。
[0145]
表1 基于演员

评论家方法的功率控制算法
[0146][0147][0148]
实施例:
[0149]
1)具体场景:
[0150]
考虑图2中的单小区场景,以场景中有20辆车为例,即有20条v2i链路和20条v2v链路。所有的车辆随机分布在基站的覆盖范围内。对于v2v传输模式,关注c

v2x架构中定义的模式4。在模式4中,车辆用户在没有基础设施帮助的情况下自主选择无线资源。
[0151]
在本场景中,假设20条v2i链路被分配到固定的正交信道(即rb)并且接收到的基站发射功率固定,即第20条v2i链路占用第20个rb。这里假设:在一段时间内,只有一个v2v链路与v2i链路共享频谱。因此,信道分配的主要挑战是设计一种有效的v2v链路频谱共享方案。在这里,第m∈{1,2,3

20}条v2i链路和第n∈{1,2,3

20}条v2v链路的信干扰加噪声比(sinr)分别为:
[0152][0153][0154]
其中,s=23dbm为从bs到车辆终端的传输功率,为第n条v2v链路的传输功率变量。g
b,m
和g
b,n
分别表示bs到第m条v2i链路和第n条v2v链路的信道增益。g
n
和g
n,m
分别对应第n个v2v链路的信道增益和第n个v2v链路到m个v2i链路的干扰增益。σ2=

114dbm为噪声功率。ρ
n,m
是一个二进制信道分配变量,如果第n个v2v链路使用第m个v2i链路的频谱,则ρ
n,m
=1,否则ρ
n,m
=0。
[0155]
由sinr推导,第m条v2i链路的容量定义为:
[0156][0157]
其中,w为每个子带的带宽。
[0158]
同样,第n条v2v链路的容量定义如下:
[0159][0160]
其中,w=4mhz。
[0161]
2)问题建模:
[0162]
根据上述定义,资源分配问题在数学上可以表述为公式(5)(即rrm)。本实施例的目标是最大化系统容量,包括所有v2i链路和v2v链路,同时保证v2v链路的可靠性。
[0163][0164][0165][0166][0167][0168][0169]
其中,为v

ues允许的最大传输功率;γ
n,min
=5db为建立可靠的v2v链路所需的最小sinr。约束(5a)保证了v2v链路唯一的rb分配,约束(5b)保证了v2i链路之间正交的rb分配,约束(5c)强制每个v

ue的sinr要求,约束(5d)限制了每个v

ue的传输功率。
[0170]
资源分配问题rrm是一个混合整形非线性规划问题,没有多项式时间算法来优化解决它。因此,本实施例提出了一种集中式

分布式rrm混合方案,包括集中式信道分配和分布式功率控制。为此,首先将rrm问题中的信道分配和功率控制解耦。
[0171]
根据命题1将rrm问题转化为两个子问题:
[0172][0173][0174][0175]
ρ
n,m
∈{0,1}
ꢀꢀꢀ
(6c);
[0176][0177][0178][0179]
问题ca和pc分别对应于信道分配子问题和功率控制子问题。ca问题是关于信道分配变量ρ
n,m
的子问题,其目标函数为v2i链路容量。pc问题是的一个子问题,旨在提高v2i链路和v2v链路的系统容量。问题ca可以转化为最大加权匹配(mwm)问题,问题pc可以建模为马尔可夫决策过程(mdp)。
[0180]
3)混合的集中—分布式资源分配方案:
[0181]
本实施例提出了一种混合的集中

分布式rrm方案来解决ca和pc的问题。首先,ca可以转化为二部图上的最大加权匹配(mwm)问题。其次,将pc问题转换为mdp,并采用基于ddpg的算法进行求解。
[0182]
a、集中式的信道分配
[0183]
对于ca问题,二部图是由两组顶点(包括v2i链路m和v2v链路n)以及它们之间的连接关系构成。两组的顶点分别为v2i链路和v2v链路,二部图的边表示匹配关系,这意味着有共享信道的链路(顶点)之间会有一条连接的边。连接m∈μ的边的权值且n∈ν为w
m,n
,即在第m条v2i链路和第n条v2v链路之间的共享信道的sinr。在对二分图进行模型之后,通过命题2可知ca问题等价于mwm问题,其中,
[0184]
mwm问题:
[0185][0186][0187][0188]
ρ
n,m
∈{0,1}
ꢀꢀꢀ
(10c)。
[0189]
根据上述变换,可以得到一个二部图匹配模型,其中ρ
n,m
表示是否存在连接边,w
m,n
表示这条边的权值。本实施例的目标是在约束(10b)下找到一个合适的顶点匹配方案,使方程(10)最大化,从而确保每个v2v链路的连接边是唯一的。
[0190]
ca很好地适用于二部图的mwm问题。因此,匈牙利算法是在多项式时间内解决这一
问题的有效方法。基于命题2,匈牙利算法的复杂度上限为o(20)3。
[0191]
b、分布式的功率控制
[0192]
在mdp的理论框架的基础上,使用rl(reinforcement learning)方法来解决上述问题pc。根据马尔可夫属性,一个智能体根据当前从环境中获取的状态选择一个动作,并获得即时奖励,作为反馈来调整智能体的下一个动作。在车联网中,信道状态csi和车辆的随机分布均具有马尔可夫性质。因此,问题pc可以表示为具有连续状态和动作空间的mdp模型。每个车辆用户都被认为是一个智能体来获取状态并进行决策功率控制策略。在这个模型中,mdp由一个元组(s,a,r
t
)组成,其中s表示状态空间,a表示动作空间,r
t
是直接的回报函数。对于问题pc,将元组具体化如下:
[0193]
状态空间:设s
t
∈s表示时间步长t时的当前状态,取值为所有v2v链路的依赖于从环境中获得的csi:
[0194][0195]
动作空间:动作空间根据状态s
t
包含每个车辆的所有可行功率值。因此,对于a
t
∈a的作用可以定义为:
[0196][0197]
即时反馈函数:a
t
执行后,代理将获得即时奖励;将其定义为所有v2v链路的总容量,这正是问题pc中的目标函数:
[0198][0199]
智能体的目标是找到一个行动策略π,使期望的长期累计折扣奖励最大化,可以用行动价值函数表示为:
[0200][0201]
其中,γ=0.96为折现因子。动作

价值函数也可以写成:
[0202][0203]
这种递归关系称为bellman方程,可以用来寻找最优策略。以后用这个方程来解决pc问题。
[0204]
此外,为了适应实际情况,可以使用一个具有代表性的函数(即深度神经网络(dnn)),使得智能体感知更复杂的环境状态和构建更复杂的策略。如图3所示,演员家和评论者可定义为dnn参数θ
μ
和θ
φ
。演员家和评论者分别有两个dnn,一个是估计网络,另一个是目标网络。创建一个估计网络的副本作为目标计算目标值,使目标网络中的行动者和批评者分别表示为θ
μ'
和θ
φ'
。在这种结构下,被估计网络中的行动者输出特定的行动值,而被估计网络中的批评者输出特定的行动值估计网络输出当前状态

动作的q值。
[0205]
该算法结合了行为者批评框架的优点和目标网络的特点。所提算法中估计网络中的行动者更新如下:
[0206]
[0207]
其中,定义为目标函数(即k个时间段内所有v2v链路的总容量)。ρ
μ
表示s
t
的状态分布。
[0208]
结合前面提到的bellman方程,通过最小化时间差误差来更新估计网络中的批评家,即:
[0209][0210]
4)方案效果:
[0211]
为了证明本实施例所提出的rrm方案的性能,将其与基于dqn的方案和随机rrm方案进行比较,后者在每个时间步都采用随机rrm策略(rpsa)。按照3gpp tr 36.885中定义的城市案例的评价方法构建了模拟器,该模拟器详细地描述了车辆分布模型、运动方向和车辆通道等。
[0212]
基于rl的算法的仿真过程可以概括为两个阶段,即学习模型的训练阶段和测试阶段。首先针对所考虑的场景训练dqn和ddpg模型。然后,通过增加车辆数量来测试所学习的模型,以衡量所提出的rrm方案的性能。
[0213]
从训练阶段的角度来看,图4展示了dqn算法与ddpg算法之间的收敛性能。这里,考虑了dqn算法两个量化类型,包括dqn

2、dqn

4和dqn

8。dqn

2和dqn

4的功率量化级别分别为[23,5](dbm)、[23,15,5,

100](dbm)[23,19,10,15,5,0,

50,

100](dbm)。由图4的比较结果可以发现,随着动作空间的细化,收敛速度逐渐减小。同时,当细化量级达到8的时候,dqn

8算法由于空间维度爆炸的问题无法达到收敛的效果。
[0214]
从测试阶段的角度来看,一个有效的rrm方案应该能够在时变环境下尽可能快地制定策略。需要注意的是,本实施例所提方案的初始训练过程是在不同csi条件以及网络拓扑发生变化下线下进行的,然而测试过程是可以在线下实时执行的。训练后的ddpg网络只需要在环境发生重大变化时更新即可,满足v2x对实时决策的要求。
[0215]
图5为基于ddpg的方案、基于dqn的方案和随机rrm方案在不同车辆数量下的系统容量比较。结果表明,与其他方案相比,本实施例提出的方案能获得更高的系统容量。这是因为基于ddpg的方案不像基于dqn的方案那样量化行动空间,它可以在每个时隙中选择更好的行动。此外,随着车辆数量的增加,由于分配给车辆资源的增加,本实施例的方案和其他方案实现的系统容量也随之增加。值得注意的是,与其他方案相比,本实施例所提方案保持了相对较高的上升趋势。这是因为随着车辆数量的增加,量化误差不断累积,导致两者之间的性能差距越来越大。此外,考虑到实际场景中车辆数量较多,行动空间规模较大,由于状态和动作空间维度爆炸的原因,对智能体的每个行动进行量化是不合适的。因此,本发明提出的rrm方案在无需进行动作量化的条件下,实现了优越的系统容量性能的同时满足了v2x实时策略的要求。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献