一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于DDPG算法获得最优资源分配以提升定位精度的方法与流程

2021-10-30 03:01:00 来源:中国专利 TAG:定位 最优 配以 精度 算法

技术特征:
1.一种基于ddpg算法获得最优资源分配以提升定位精度的方法,主要利用ddpg算法来分配带宽和功率,其特征在于,所述方法包括以下步骤:步骤一、获取测距信息,估计代理节点位置:假设无线定位网络中具有n
a
个代理节点和n
b
个锚节点,则整个网络可以使用的总带宽和总功率分别为b
total
,p
total
,无线定位网络中的各个节点根据带宽和功率的分配方案测量自身和其他节点之间的距离,利用toa定位方法来确定代理节点的具体位置;步骤二、获取ddpg网络状态空间:所述ddpg算法的状态空间是指各个节点之间的距离以及信道参数,通过步骤一中的测距操作获得各个节点之间的距离信息,通过信道估计获得信道参数;步骤三、开始网络训练:采用强化学习中的ddpg算法以获得最优的资源分配方案,采用均方误差下界speb来衡量带宽和功率分配方案的优异度,单个代理节点的speb可表示为其中,j
e
(p
i
)是代理节点p
i
的等价费舍尔信息矩阵efim,是p
i
的估计值,协同定位网络的全局efim可表示为代理节点i从所有的n
b
个锚节点处获得的测距信息为个锚节点处获得的测距信息为从代理节点k处获得的测距信息为节点k处获得的测距信息为其中其中表示从节点i到节点k的角度值,λ
ik
是指测距信息密度,表示为其中ξ
ik
是指代理节点i和节点k之间测距信道参数,d
ik
代表的是代理节点i和节点k之间距离,p
k
和b
k
分别表示节点k分配到的功率和带宽资源,当协同定位网络的全局efim中的c
ik
=0便可得到非协同定位网络的efim,再对非协同定位网络的efim求逆取迹便可得到整个网络的speb,整个无线定位网络的speb值可以表达为步骤四、在线阶段位置的预测:在线测试阶段,代理节点通过均匀分配的方案获得代理节点和其他节点之间的距离信息,再通过toa定位方法估算出代理节点的位置信息,根据代理节点的位置信息可以获得步骤二中所述的状态空间,将获得的状态空间输入到步骤三里训练后的网络中,便可得到最
优的资源分配方案,利用输出的资源分配方案再进行测距进而获得最终的位置估计。2.根据权利要求1所述的一种基于ddpg算法获得最优资源分配以提升定位精度的方法,其特征在于,所述步骤一中:无线定位网络中的各个节点初始的分配方案是均匀分配,即每个节点分配到的资源是相同的,节点i分配到的带宽资源节点i分配到的功率资源其中i∈{1,2,

,n
a
n
b
}。3.根据权利要求2所述的一种基于ddpg算法获得最优资源分配以提升定位精度的方法,其特征在于,所述步骤三中:选取代理节点与其他各个节点之间的距离以及信道参数作为ddpg算法的状态空间,带宽和功率的分配方案作为ddpg算法的动作空间,定义一个强化学习的收益设置,表达为其中,speb
now
指的是当时刻下的资源分配方案所对应的speb值,speb
uniform
指的是均匀分配方案所对应的speb值,p
max
指的是功率分配方案中最大的功率值。4.根据权利要求1所述的一种基于ddpg算法获得最优资源分配以提升定位精度的方法,其特征在于,所述ddpg算法由四个网络组成,分别为actor网络、target actor网络、critic网络、target critic网络,其中actor网络和target actor网络的结构相同,critic网络和target critic网络的结构相同。5.根据权利要求4所述的一种基于ddpg算法获得最优资源分配以提升定位精度的方法,其特征在于,所述actor网络和target actor网络均包含有五个隐藏层,每一隐藏层都使用线性整流函数relu作为激活函数;actor网络的输入为所述步骤2中的状态空间,大小为(n
a
n
b
)*2n
a
,从第二个隐藏层起,网络被分为结构相同的上下两半部分,上半部分被训练用于带宽的分配,下半部分被训练用于功率的分配,对它们的输出分别进行softmax操作,最终输出得到归一化的带宽分配和功率分配,大小为n
a
n
b
。6.根据权利要求5所述的一种基于ddpg算法获得最优资源分配以提升定位精度的方法,其特征在于,所述target actor网络用于隔一段时间将actor网络的网络参数按照一定百分比加权到target actor网络中,以实现target actor网络的更新。7.根据权利要求5所述的一种基于ddpg算法获得最优资源分配以提升定位精度的方法,其特征在于,所述critic网络和target critic网络均包含有三个隐藏层,每一隐藏层都使用线性整流函数relu作为激活函数;critic网络的输入为某一时刻的状态s
t
和动作a
t
,输出为对应的q值q(s
t
,a
t
)。8.根据权利要求7所述的一种基于ddpg算法获得最优资源分配以提升定位精度的方法,其特征在于,所述target critic网络用于隔一段时间将critic网络的网络参数按照一定百分比加权到target critic网络中,以实现target critic网络的更新。

技术总结
本发明公开了一种基于DDPG算法获得最优资源分配以提升定位精度的方法,目的是在尽可能短的时间内获得最优的分配方案以提高定位精度,该方法主要包括两个部分:第一部分主要执行的操作是测距,而第二部分又由两个相关的操作组成


技术研发人员:向晨路 张舜卿 徐树公
受保护的技术使用者:苏州云享阁智能科技有限公司
技术研发日:2021.08.16
技术公布日:2021/10/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜