一种使用强化学习获得无人机收集数据轨迹的方法与流程

2021-09-10 22:20:00 来源：中国专利 TAG：无人机移动通信轨迹强化收集

1.本发明属于移动通信技术领域，尤其涉及一种使用强化学习获得无人机收集数据轨迹的方法。

背景技术：

2.随着物联网产业的发展，数据收集成为物联网功能实现的重要基础。虽然许多通信协议和路由算法被提出以实现在物联网和无线传感器网络中的数据收集任务，但是由于传感器节点的移动性以及自然灾害发生时无法保证网络的连通性，这些通信协议和路由算法很难很好地实现既定功能。

技术实现要素：

3.本发明目的在于提供一种使用强化学习获得无人机收集数据轨迹的方法,以解决传感器节点的移动性以及自然灾害发生时无法保证网络的连通性，这些通信协议和路由算法很难很好地实现既定功能的技术问题。
4.为解决上述技术问题，本发明的具体技术方案如下：
5.一种使用强化学习获得无人机收集数据轨迹的方法，输入无人机起始位置，结束位置，地面各节点位置以及各地面节点待传输数据量和能量限制，考虑各地面节点本身待收集数据量不同和各自能量限制，采用actor
‑
critic算法设计以最小化收集数据任务完成时间为目标的无人机收集数据轨迹，包括以下步骤：
6.步骤1、将待仿真区域按步长划分为网格，定义状态空间s，动作空间a以及及时奖励r；
7.步骤2、使用参数为ω的critic神经网络表示状态价值函数q
ω
(s,a),与critic神经网络相同网络结构的目标critic神经网络参数为ω
‑
；使用参数θ为的actor神经网络表示策略π
θ
(a|s)，用来表示在状态s下选择动作a的概率，与actor神经网络相同网络结构的目标actor神经网络参数为θ
‑
；
8.步骤3、随机初始化critic神经网络参数ω和actor神经网络参数θ，
9.初始化critic目标神经网络参数ω
‑
＝ω,actor神经网络参数θ
‑
＝θ；设置经验回放池容量为d，用于存储<s,a,r,s
t 1
>，其中s
t 1
为下一个状态，更新过程取样数量为b；
10.步骤4、初始回合标志为1，进入大循环，递增遍历直至达到最大回合数限制m，初始化状态为起始状态s1：
11.步骤5、对于单个回合内，t从1递增至限制t：
12.步骤6、根据当前actor神经网络策略a
t
＝π
θ
(a|s)选择动作获得即时奖励r
t
以及下一个状态s
t 1
；
13.步骤7、存储状态转移记录<s
t
,a
t
,r
t
,s
t 1
>到经验回放池中；
14.步骤8、从经验回放池中随机选择b条记录(s
i
,a
i
,r
i
,s
i 1
)，分别表示当前状态s
i
，所执行动作a
i
，即时奖励r
i
，下一状态s
i 1
；
15.步骤9、计算actor更新目标其中γ表示折扣率，表示根据当前目标actor神经网络参数θ
‑
执行的策略，表示根据当前目标critic神经网络参数ω
‑
获得的状态价值函数；
16.步骤10、通过最小化损失函数更新critic神经网络参数ω；
17.步骤11、计算策略梯度
18.采用随机梯度下降法更新actor神经网络参数θ；
19.步骤12、每隔一段时间更新目标critic神经网络参数ω
‑
为τω (1
‑
τ)ω
‑
，更新目标actor神经网络参数θ
‑
为τθ (1
‑
τ)θ
‑
，其中τ表示更新系数，取值为0.01。
20.进一步的，基于策略的actor神经网络用来在每一步m选择动作a(m),基于价值的critic神经网络，用来评估在状态s(m)执行动作a(m)的价值函数v(s(m))，actor根据v(s(m))不断调整和优化策略π(a(m)|s(m))。
21.进一步的，actor神经网络和critic神经网络均由多层前馈神经网络组成。
22.进一步的，actor最后一层节点数对应动作数，输出时使用softmax函数将动作选择转换为标准化百分比，critic最后一层为一个节点，代表输入状态的状态估计值。
23.进一步的，actor神经网络接收状态向量并选择动作，critic神经网络接收状态向量并估计状态值，状态值指当前策略的长期累计奖励。
24.进一步的，训练过程中，critic神经网络对状态值的估计被用来通过时序差分方式更新actor对动作的选择策略。
25.本发明的一种使用强化学习获得无人机收集数据轨迹的方法，具有以下优点：该方法在最小化收集数据任务完成时间的目标下充分考虑了各地面节点本身待收集数据量不同和各自能量限制。在解法上通过将连续时间无人机轨迹设计问题转化为离散时间马尔科夫决策过程，基于actor
‑
critic算法获得无人机在每个状态下的最佳收集数据决策和最佳运动决策。本发明所提算法设计的无人机辅助收集地面节点数据轨迹可以在保证收集完所有节点待传输数据量并满足各地面节点能量限制的前提下显著减少收集时间。
具体实施方式
26.为了更好地了解本发明的目的、结构及功能，对本发明一种使用强化学习获得无人机收集数据轨迹的方法做进一步详细的描述。
27.考虑无线通信系统，无人机被用来在飞行过程中收集地面n个节点的数据，地面节点(gu)集合无人机以固定高度h在空中从起点飞向终点飞向终点表示实数。
28.节点n的水平坐标可表示为(表示实数)，n∈n。定义随时间变化的无人机轨迹表示为：
29.u(t)∈r2×1，0≤t≤t；
30.t表示完成任务所需的时间。因此可得起始点限制u(0)和终点限制u(t)，即无人机从起点s飞向终点e：
31.u(0)＝s,u(t)＝e
32.无人机在飞行过程中的最大速度用v
max
表示，飞行过程中的速度限制可表示为：
[0033][0034]
这里，||
·
||表示欧几里德范数，δ表示无限小的时间间隔，||u(t δ)
‑
u(t)||表示无限小时间δ内无人机位置变化量。以下详细介绍本发明中解决无人机收集数据的系统模型：
[0035]
1.传输模型
[0036]
我们考虑一个容忍延迟的应用场景，其中每个地面节点装有一个全向天线，在时刻t通过功率p
n,t
在带宽b下将其数据发送给无人机。每个节点待传输的数据量表示为m
n
,n∈n。
[0037]
地面节点n向无人机传输速率r
n,t
可表示为：
[0038]
r
n,t
＝blog2(1 γ
n,t
)
[0039]
这里，γ
n,t
表示在时刻t从无人机接收到的来自地面节点n的信噪比,计算公式可表示为：
[0040][0041]
其中，σ2表示在接收机无人机受到的高斯白噪声，λ(>1)是实际调制方案与理论高斯信号之间的信噪比差距，l
n,t
表示在时刻t从地面节点n传输到无人机的平均路径损失，具体公式将在下文信道模型部分说明。为了避免地面节点之间的传输干扰，我们假设所有地面节点不同时向无人机传输数据。因此，在设计无人机的收集轨迹时也需要考虑设计所有地面节点的传输调度：
[0042]
c
n
(t)∈{0,1},0≤t≤t
[0043][0044]
这里，c
n
(t)＝1时表示当前无人机正在收集地面节点n数据，每时刻最多只有一个地面节点向无人机传输数据。
[0045]
2.信道模型
[0046]
由于与信道相干时间相比，整个数据收集任务时间相对较长，因此我们将重点放在信道状态的平均统计上，而不是瞬时统计上，即在设计信道增益表达式中只考虑大尺度路径损耗影响。
[0047]
地面节点n在时刻t与位于u(t)位置的无人机之间的平均路径损失可表示为：
[0048][0049]
和分别表示在视距通信和非视距通信场景下从地面节点n到位于u(t)位置的无人机的平均路径损失，可表示为：
[0050][0051][0052]
上述两公式的第一项表示自由空间传播损耗，f
c
表示载波频率，c表示光速；而ξ
los
和ξ
nlos
分别对应在视距通信和非视距通信场景下自由空间传播损耗的平均附加路径损失(ξ
los
＜ξ
nlos
)，d
n,t
表示t时刻地面节点n和无人机之间的距离,可表示为：
[0053]
d
n,t
＝(‖g
n
‑
u(t)‖ h2)
1/2
[0054]
其中g
n
∈r2×1表示地面节点n的位置，h表示无人机飞行高度。地面节点n和无人机之间处于视距通信场景的概率可表示为：
[0055][0056]
3.问题描述
[0057]
本发明提出了一个无人机辅助收集数据的轨迹设计问题。目标是共同优化无人机的轨迹u，地面各节点传输策略c
n
(t),1≤n≤n，地面各节点发射功率p
n
(t),1≤n≤n，在考虑到所有地面节点各自不同待传输数据量和电量限制下，实现从起点到终点以最短时间收集完所有地面节点待传输的数据。关于轨迹、连接策略，发射功率的联合优化来最小化任务完成时间的问题可以表述为:
[0058][0059]
s.t.(1)u(0)＝s
[0060]
(2)u(t)＝e
[0061]
(3)c
n
(t)∈{0,1},0≤t≤t
[0062]
(4)r
n,t
＝blog2(1 γ
n,t
)
[0063]
(5)
[0064]
(6)
[0065]
(7)
[0066]
(8)
[0067]
(9)
[0068]
这里，p
n,t
表示t时刻地面节点n发射功率，r
n,t
表示t时刻地面节点n传输速率；l
n,t
表示地面节点n在时刻t与位于u(t)位置的无人机之间的平均路径损失；式(1)(2)表示无人机起点和终点限制；式(3)(8)表示地面节点传输策略，即所有节点不同时向无人机传输数据以避免干扰；式(6)表示无人机应该与每个地面节点建立足够长时间的连接以收集完其数据；式(7)表示各地面节点自身电量限制；式(9)表示无人机最大速度限制。
[0069]
接下来分别定义了状态空间，动作空间以及价值函数。在强化学习框架下，无人机作为智能体，根据强化学习算法原理学习最优控制策略。即在每个间隔，接收环境的观察和奖励，并对环境执行动作。一个典型的马尔科夫决策过程可表示为：内容如下：
[0070]
(1)状态空间：
[0071]
在第m个时隙结束时无人机的位置在地面上的投影可表示为：s
u
[m]＝[x(m),y(m)]∈l＝{ω1,ω2,
…
,ω
i
}
[0072]
时隙m结束时地面节点n的状态可表示为：
[0073][0074]
m
n
(m)表示时隙m结束时节点n剩余数据量，e
n
(m)表示时隙m结束时节点n剩余电量；总的来说，系统的状态可表示为s(m)＝[s
u
(m),s1(m),
…
,s
n
(m),sim
t
]，sim
t
记录当前无人机已飞行时间。
[0075]
(2)动作空间：
[0076]
时隙m动作可表示为：a(m)＝[a
f
(m),π(m),p1(m),
…
,p
n
(m)],
[0077]
在这里，a
f
(m)＝[v
m
,φ
m
]表示无人机运动方向指示；π(m)∈{0,1,
…
,n}表示地面节点连接策略，用来描述c
π(m)
(t)＝1，即节点π(m)传输数据到无人机；p1(m),
…
,p
n
(m)对应各地面节点在时隙m发射功率。
[0078]
(3)状态更新过程
[0079]
状态更新包括无人机位置以及各地面节点剩余数据量和电量，这里，由于本文将仿真区域以步长x
s
＝y
s
＝10划分，无人机运动方向指示可表示为：
[0080][0081]
在这里，即在每一状态，无人机可以选择悬停或移动到相邻的8个网格点之一。因此，系统状态的更新包括无人机的位置以及根据传输策略π(m)更新各地面节点剩余电量和数据量。可表示为：
[0082]
x(m)＝x(m
‑
1) v
m
cosφ
[0083]
y(m)＝y(m
‑
1) v
m
sinφ
[0084]
m
π(m)
(m)＝m
π(m)
(m
‑
1)
‑
min{r
π(m)
,m
π(m)
(m
‑
1)}
[0085]
e
n
(m)＝e
n
(m
‑
1)
‑
p
n
(m),n∈{1,2,
…
,n}
[0086]
sim
t
＝sim
t
1
[0087]
上述公式前两项用来描述无人机位置坐标变化，包括无人机x轴坐标x(m)和y轴y坐标y(m)；π(m)用来表示当前哪个地面节点正在上传数据(即c
π(m)
(m)＝1：表示m时隙节点π(m)上传数据)；r
π(m)
表示当前正在传输数据地面节点π(m)的传输速率，上述第三项公式用来更新此节点剩余数据量变化，当此地面节点剩余数据量m
π(m)
(m
‑
1)小于传输速率r
π(m)
时，更新此地面节点剩余数据量为0；上述第四项公式用来描述每个地面节点剩余电量；上述最后一项用来更新无人机已飞行时间。
[0088]
(4)奖励函数
[0089]
在强化学习过程中，无人机在时隙m采取动作a并获取奖励，根据动作产生奖励的重要性更新表格中关于该动作的评估。这里，奖励函数r:由以下部分组成：
[0090]
r
m
＝r
data
‑
g
×
r
p
r
end
[0091]
首先计算时隙m收集数据量r
data
＝min{r
π(m)
,m
π(m)
(m
‑
1)}，表示的是当前传输数据节点π(m)与无人机间传输速率与此节点剩余待传输数据量的最小值。假设一旦无人机开始收集地面节点n数据，就会获取存储在传感器中的所有数据；其次，计算约束条件惩罚因子r
p
，当存在无效地面节点电量消耗、地面节点电量耗尽但剩余待传输数据量以及移出界外(考虑无人机只能在固定仿真区域内运动)限制条件时指示函数g值为1，否则为0。这里，无效地面节点电量消耗限制条件指的是出现p
π(m)
表示当前传输数据节点π(m)消耗电量，表示所有节点消耗电量和。地面节点电量耗尽但剩余待传输数据量限制条件指的出现节点n剩余电量e
n
(m)≤0但待传输数据量m
n
(m)＞0。同时，为激励无人机在学习过程中能够识别并尽快移动到目的地，计算考虑sim
t
的收集完所有数据并到达终点的奖励r
end
＝sim
t
×
r
e
，r
e
表示较大的奖励因子。
[0092]
本发明中离散时间马尔科夫决策问题中状态之间的转移概率未知；其次，由于问题中的状态空间和行动空间都比较大，诸如值迭代和策略迭代的传统解决马尔科夫决策问题的方法不适用于本发明的问题模型，因此这里我们采用深度强化学习算法(drl)中的actor
‑
critic算法来解决我们的问题。其使用两种网络来寻找马尔可夫决策过程的最佳策略问题。基于策略的actor网络用来在每一步m选择动作a(m),基于价值的critic网络用来评估在状态s(m)执行动作a(m)的价值函数v(s(m))。actor根据v(s(m))不断调整和优化策略π(a(m)|s(m))。本文actor神经网络和critic神经网络均由多层前馈神经网络组成。actor最后一层节点数对应动作数，输出时使用softmax函数将动作选择转换为标准化百分比，critic最后一层为一个节点(代表输入状态的状态估计值)。actor神经网络模型和critic神经网络模型各自可见图\ref{ac}。actor神经网络接收状态向量并选择动作，critic神经网络同样接收状态向量并估计状态值(当前策略的长期累计奖励)。训练过程中，critic神经网络对状态值的估计被用来通过时序差分方式更新actor对动作的选择策略。
[0093]
本发明一种使用强化学习获得无人机收集数据轨迹的方法，输入无人机起始位置，结束位置，地面各节点位置以及待传输数据量和能量限制，充分考虑了各地面节点本身待收集数据量不同和各自能量限制，采用actor
‑
critic算法设计以最小化收集数据任务完成时间为目标的无人机收集地面节点数据轨迹包含以下步骤：
[0094]
步骤1、将待仿真区域按步长划分为网格，定义状态空间s，动作空间a以及及时奖励r；
[0095]
步骤2、使用参数为ω的critic神经网络表示状态价值函数q
ω
(s,a),与critic神经网络相同网络结构的目标critic神经网络参数为ω
‑
；使用参数θ为的actor神经网络表示策略π
θ
(a|s)，用来表示在状态s下选择动作a的概率，与actor神经网络相同网络结构的目标actor神经网络参数为θ
‑
；
[0096]
步骤3、随机初始化critic神经网络参数ω和actor神经网络参数θ，
[0097]
初始化critic目标神经网络参数ω
‑
＝ω,actor神经网络参数θ
‑
＝θ。设置经验回放池容量为d(用于存储<s,a,r,s
t 1
>)，更新过程取样数量为b；
[0098]
步骤4、初始回合标志为1，进入大循环，递增遍历直至达到最大回合数限制m，初始化状态为起始状态s1：
[0099]
步骤5、对于单个回合内，t从1递增至限制t：
[0100]
步骤6、根据当前actor神经网络策略a
t
＝π
θ
(a|s)选择动作获得即时奖励r
t
以及下一个状态s
t 1
；
[0101]
步骤7、存储状态转移记录<s
t
,a
t
,r
t
,s
t 1
>到经验回放池中；
[0102]
步骤8、从经验回放池中随机选择b条记录(s
i
,a
i
,r
i
,s
i 1
)，分别表示当前状态s
i
，所执行动作a
i
，即时奖励r
i
，下一状态s
i 1
；
[0103]
步骤9、计算actor更新目标这里，γ表示折扣率，表示根据当前目标actor神经网络参数θ
‑
执行的策略，表示根据当前目标critic神经网络参数ω
‑
获得的状态价值函数；
[0104]
步骤10、通过最小化损失函数更新critic神经网络参数ω；
[0105]
步骤11、计算策略梯度
[0106]
采用随机梯度下降法更新actor神经网络参数θ；
[0107]
步骤12、每隔一段时间更新目标critic神经网络参数ω
‑
为τω (1
‑
τ)ω
‑
，更新目标actor神经网络参数θ
‑
为τθ (1
‑
τ)θ
‑
，这里，τ表示更新系数(取值为0.01)。
[0108]
为了比较性能，将本发明基于actor
‑
critic算法获得的无人机收集数据轨迹与以下几种无人机飞行方案比较：
[0109]
1、旅行家问题：无人机只在地面节点正上方悬停时收集数据，基于旅行家问题确定收集地面节点数据的最短路径；
[0110]
2、旅行家问题上优化策略和地面节点发射功率：在旅行家问题获得的无人机收集数据轨迹的基础上优化收集策略和地面节点发射功率：考虑无人机收集过程匀速运动，使用动态规划算法优化每个地面节点开始收集数据位置、结束收集数据位置、收集数据过程地面节点发射功率以及无人机收集过程速度；
[0111]
3、找到有序航路点的最佳集合：给定起点和终点，同样以最小化收集完所有地面节点数据时间为目标，但假设地面节点以固定发射功率p
t
向无人机传输数据，且当无人机进入节点一定范围内便以恒定速率r收集当前数据。
[0112]
比较可以发现，本发明基于actor
‑
critic算法设计的无人机辅助收集地面节点数据轨迹可以在保证收集完所有节点待传输数据量并满足各地面节点能量限制的前提下显著减少收集时间。
[0113]
可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另
外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本技术的权利要求范围内的实施例都属于本发明所保护的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种使用强化学习获得无人机收集数据轨迹的方法与流程

相关文献

最热文献