一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于无人机数据采集系统的联合轨迹优化与带宽分配方法与流程

2022-03-19 21:39:10 来源:中国专利 TAG:


1.本发明属于无线通信技术领域,具体是一种基于强化学习的无人机辅助无线传感器网络中联合轨迹优化和带宽分配的方法。


背景技术:

2.无人机(uav)起源于军事领域,用于侦察、监视、测绘和其他军事目的。近年来,随着飞行控制、导航和通信等关键技术的进步以及成本的降低,无人机在民用领域也得到了广泛的应用,包括货运、工程建设和通信网络。传统固定通信基础设施受到建设成本高,位置固定等因素的影响,在面对地势险峻地区的通信部署、突发灾害时的通信设施破坏以及临时通信环境搭建等需求时往往难以应对。与传统的陆地通信系统相比,无人机辅助通信系统具有灵活性高、易于部署、成本低等优点。把无人机作为空中基站搭载平台,能够增加无线网络的容量,扩大系统的通信覆盖范围,实现低成本、按需部署的通信服务要求。另外,在通信基础设施薄弱或受灾地区中,基于无人机辅助的通信系统能够快速建立通信链路,即无人机通信亦可在应急通信中发挥重要作用。
3.随着物联网(iot)技术的发展,由多个传感器节点(sns)组成的无线传感器网络(wsns)已经能够为环境的连续监测、自动控制、智能决策的数据传输等提供大量的高质量服务。传感器网络中的sns通常能量有限,且数量众多,广泛分布在难以到达的地区。因此,如果没有基站(bss)等基础设施的支持,sns很难收集数据。无人机的低成本和高机动性为无线传感器网络的数据采集提供了一种有效的解决方案,但无人机的控制系统面临挑战。因此本发明提出了一种基于深度强化学习(dqn)的无人机控制方法,以智能地解决传感器网络中的数据采集问题。


技术实现要素:

4.有鉴于此,本发明提供了一种基于深度强化学习的资源分配方法对无人机轨迹和带宽分配进行优化。
5.本发明采用的技术方案如下:
6.基于无人机数据采集系统的联合轨迹优化与带宽分配方法,包括:
7.步骤1,建立无人机辅助传感器网络模型:
8.建立无线传感器网络场景,其中无人机作为移动数据收集器,从地面上的传感器节点获取信息,无人机从固定的起始点出发,定期飞行采集数据,单个周期的飞行时间被限制在t秒以内,并将无人机固定在高度h米处飞行;
9.步骤2,基于无人机辅助传感器网络模型定义传感器节点休眠策略,建立地空信道模型,计算数据传输速率;
10.步骤3,基于数据传输速率定义效用函数,并基于深度强化学习对无人机轨迹控制与带宽分配进行优化。
11.优选的,所述步骤1中,假设整个传感器网络包括k个传感器节点,第k个传感器节
点nk有dk个比特数据被收集;
12.将无人机飞行时间t离散化为m个时隙,即t=mδ
t
,其中δ
t
代表一个充分小的时间步长,无人机的轨迹序列定义为{u[m],1≤m≤m},其中u[m]=u(mδ
t
)表示无人机在第m个时隙处的位置;其中x,y分别代表无人机的x,y坐标。
[0013]
优选的,所述步骤2中传感器节点休眠策略具体为:
[0014]
在无人机飞行期间,传感器节点nk需要发送数据时则唤醒,否则令传感器节点休眠以节省能源;
[0015]
传感器节点nk的唤醒休眠策略用wk[m]表示,其中wk[m]=0表示第m时隙nk在休眠状态,wk[m]=1表示nk以固定的传输功率pk传输速率rk[m]传输数据。
[0016]
优选的,所述步骤2中,假设地空链路信道建模为莱斯信道,将每个时隙的衰落块数记为l;将无人机与传感器节点nk在第m时隙第l个衰落块上的信道系数记为其中ρk[m,l]是小尺度衰落系数,βk[m]是大尺度衰落系数,[m]是大尺度衰落系数,β0表示无人机与传感器节点nk距离为1米时的参考信道功率增益,α为路径损耗系数,h表示无人机飞行高度;
[0017]
当传感器节点nk以固定的传输功率pk传输数据时,第l个衰落块可实现的传输速率为其中σ2为噪声功率,γ为实际调制方案与理论高斯信号的信噪比之差;
[0018]
传感器节点nk与无人机之间的输出概率为与无人机之间的输出概率为
[0019]
其中f(
·
)表示ρk[m,l]的相同累积分布函数cdf,用表示,其中q1(a,b)表示marcum-q函数,kc表示莱斯k因子,z代表f(z)函数中的自变量;
[0020]
假设则数据传输速率rk[m]表示为:
[0021][0022]
其中,β0表示无人机与传感器节点nk距离为1米时的参考信道功率增益,α为路径损耗系数,h表示无人机飞行高度,σ2为噪声功率,γ为实际调制方案与理论高斯信号的信噪比之差,f-1
(∈)表示f(∈)这个函数的倒数,∈为自变量;
[0023]
假设无人机整个带宽资源为b,第m时隙分配给传感器节点nk的带宽记为bk[m],则当∑
mrk
[m]wk[m]bk[m]≥dk时,传感器节点nk的数据被成功接收。
[0024]
优选的,所述步骤3中,定义优化目标为无人机飞行时间t期间更多的接收传感器
节点数据,假设效用函数θ
m,k
表示传感器节点nk的数据是否在第m时隙之前被成功接收,将θ
m,k
定义为定义为将无人机在飞行时间t内的轨迹表示为u={u[m],m=1,

,m},m表示总的时隙数,带宽分配策略表示为k表示第k个传感器节点;将无人机在相邻时间的移动定义为
[0025]
通过联合优化无人机轨迹u和带宽分配策略b以获得多个传感器节点sns数据,优化问题为:
[0026][0027][0028][0029][0030][0031]
u[0]=u0[0032]
其中u0表示无人机的初始位置;δx[m],δy[m]分别表示无人机相邻时间在x轴和y轴移动的距离。
[0033]
优选的,具体优化方法为:
[0034]
建立马尔科夫决策模型:马尔科夫决策模型包含三个元素:状态s、动作a和奖励r,定义在第m时隙的状态为sm={u[m],w,z,d},其中u[m]表示无人机在第m时隙的位置,向量w={w1[m],w2[m],

,wk[m]}表示第m时隙所有的传感器节点sns唤醒休眠策略,向量z={z1,z2,

,zk}表示传感器节点sns的位置,向量d={d1,d2,

,dk}表示每个传感器节点sn的剩余数据量;定义动作空间为am={af[m],ab[m]},其中af[m]∈{[δx,δy],δx,δy∈[-1,0,1]}表示为第m时隙到第m 1时隙无人机的位置变化,ab[m]={b0[m],b1[m],

,bk[m]}表示在第m时隙对传感器节点sns的带宽分配;奖励函数定义为rm=∑kθ
m,k
λ∑ksgn(dis
m-1
(nk)-dism(nk)),其中dism(nk)表示在第m时隙传感器节点nk与无人机之间的距离,将其定义为dism(nk)=||u[m]-zk||,dis
m-1
(nk)表示在第m-1时隙传感器节点nk与无人机之间的距离,将其定义为dis
m-1
(nk)=||u[m-1]-zk||,sgn(
·
)表示阶跃函数,λ表示平衡因子,因此从sm状态转移到s
m 1
状态表示为
[0035]
基于深度强化学习实现轨迹控制和带宽分配的联合优化,智能体即无人机从环境中获取状态信息sm并利用深度强化学习输出动作am使无人机进行下一次移动并分配带宽资源,在执行af[m]与ab[m]后环境将奖励rm返回给无人机,无人机将(sm,am,rm,s
m 1
)存储到经验回放存储器,并利用回放记忆单元中的存储更新深度神经网络。
[0036]
优选的,深度强化学习算法框架如下:基于深度神经网络预测状态和动作组合的q值,最优的q值根据贝尔曼最优方程定义:
[0037][0038]
其中γ为衰减因子,表示从状态sm转移到s
m 1
的概率rm(sm,am)表示在状态sm下执行动作am的情况下状态转移到s
m 1
时获得的即时奖励;
[0039]
深度神经网络由两部分组成,分别对应af[m]和ab[m]两个动作,第一部分利用无人机当前位置u[m]、唤醒休眠策略w和每个传感器节点sn的位置向量z作为输入确定动作af[m],无人机根据af[m]飞行,并且获得下一时隙的位置u[m 1],将u[m 1],w,z和数据向量d作为输入来决定带宽分配动作ab[m],在权重ωi下的损失函数定义为:
[0040][0041]
其中表示采取行动ai的概率,qi表示动作ai的状态-动作价值函数值,q(si,ai;ωi)表示在状态si动作ai权重ωi下的状态-动作价值函数值,利用梯度下降方法更新权值ωi,通过不断更新ωi使深度神经网络模型达到收敛。
[0042]
本发明联合考虑了无人机轨迹与带宽分配策略,克服了现有轨迹控制和带宽分配问题的非凸性问题,显著地节约了传感器节点能耗,提高了无人机数据采集成功率。
附图说明
[0043]
图1是本发明系统模型示意图。
[0044]
图2是本发明系统总体结构示意图。
[0045]
图3是本发明中飞行时间t充裕条件下的无人机飞行轨迹图。
[0046]
图4是本发明中sn的唤醒休眠策略冲突时无人机飞行轨迹图。
[0047]
图5是本发明方法与布谷鸟搜索算法的数据采集成功率对比图。
具体实施方式
[0048]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]
本发明实施例公开了一种基于无人机数据采集系统的联合轨迹优化与带宽分配方法,如图1和2所示,包括:
[0050]
步骤1,建立无人机辅助传感器网络模型,具体为:
[0051]
建立一个无线传感器网络场景,其中无人机作为移动数据收集器,从地面上的传感器节点获取信息,整个无线传感网络包括k个传感器节点,用{nk,1≤k≤k}表示。第k个传感器节点nk的位置记为的位置记为且nk有dk个比特数据被收集。无人机uav从固定的起始点出发,定期飞行采集数据,单个周期的飞行时间被限制在t秒以内,并将uav固定在高度h米处飞行,在本实施例中,h设置为100m,当然本发明并不对h做具体限定,根据实际需求也可以设置其它数值。无人机uav的轨迹映射在地面上表示为其中u(t)表示t时刻uav的水平坐标,表示域;将时间t离散成m个时隙,即t=mδ
t
,其中δ
t
代表一
个充分小的时间步长。无人机轨迹序列可近似定义为{u[m],1≤m≤m},其中u[m]=u(mδ
t
)表示uav在第m时隙处的位置;其中x,y分别代表无人机的x,y坐标。
[0052]
步骤2,基于无人机辅助传感器网络模型定义传感器节点休眠策略,建立地空信道模型,计算数据传输速率;具体为:
[0053]
为降低sns的能量消耗,本发明采用sns的睡眠唤醒机制。在飞行期间,需要发送数据时可以唤醒传感器节点nk,否则令sn休眠以节省能源。nk的唤醒休眠策略用wk[m]表示,其中wk[m]=0表示第m时隙nk在休眠状态,而wk[m]=1表示nk以固定的传输功率rk、传输速率rk[m]传输数据。
[0054]
假设地空链路信道建模为莱斯信道,将每个时隙的衰落块数记为l,通常为远大于1的数;将无人机与nk在第m时隙第l个衰落块上的信道系数记为其中ρk[m,l]是小尺度衰落系数,βk[m]是大尺度衰落系数,可表示为β0表示无人机uav与传感器节点nk距离为1米时的参考信道功率增益,α为路径损耗系数,其中小尺度衰落由多普勒频移引起,大尺度衰落与接收天线和发射天线距离相关的路径损耗、阴影效应等有关。因此,当wk[m]=1时,对于在第m时隙第l个衰落块可实现的传输速率为其中σ2为噪声功率,γ为实际调制方案与理论高斯信号的信噪比之差。nk与uav之间的输出概率为与uav之间的输出概率为其中f(
·
)表示ρk[m,l]的相同累积分布函数(cdf),用表示,其中q1(a,b)表示marcum-q函数,kc表示莱斯k因子;为了确保无人机能够可靠的收集到每个传感器节点sn的目标感知信息量,假设其中∈表示最大可容忍中断概率;因此,数据传输速率rk[m]可表示为
[0055][0056]
其中,β0表示无人机与传感器节点nk距离为1米时的参考信道功率增益,α为路径损耗系数,h表示无人机飞行高度,σ2为噪声功率,γ为实际调制方案与理论高斯信号的信噪比之差;
[0057]
uav整个带宽资源为b hz,第m时隙分配给nk的带宽记为bk[m]hz,故当∑
mrk
[m]wk[m]bk[m]≥dk时,nk的数据被成功接收。
[0058]
步骤3,基于数据传输速率定义效用函数,并对无人机轨迹控制与带宽分配进行优化。具体为:
[0059]
对于无人机轨迹控制与带宽分配问题进行描述如下:
[0060]
优化目标是在无人机飞行时间t期间尽可能多的接收传感器节点数据,假设用θ
m,k
表示nk的数据是否在第m时隙之前被成功接收,将θ
m,k
定义为将uav在飞行时间t内的轨迹表示为u={u[m],m=1,

,m},m表示总的时隙数,带宽分配策略表示为将uav在相邻时间的移动定义为
[0061]
通过联合优化uav轨迹u和带宽分配策略b以获得更多的sns数据,优化问题为:
[0062][0063][0064][0065][0066][0067]
u[0]=u0[0068]
其中u0表示无人机的初始位置;δx[m],δy[m]分别表示无人机相邻时间在x轴和y轴移动的距离。
[0069]
对优化目标模型进行优化,具体优化过程如下:
[0070]
本发明提出一种基于dqn的深度强化学习框架,建立马尔可夫模型,包括通过设置状态、动作空间和奖励函数,确定马尔可夫决策过程;采用深度强化学习方法,实现轨迹控制和带宽分配的联合优化,实现方式如下:
[0071]
建立马尔科夫决策模型:马尔科夫决策模型包含三个元素:状态s、动作a和奖励r;定义在第m时隙的状态为sm={u[m],w,z,d},其中u[m]表示uav在第m时隙的位置,向量w={w1[m],w2[m],

,wk[m]}表示第m时隙所有的sns唤醒休眠策略,向量z={z1,z2,

,zk}表示sns的位置,向量d={d1,d2,

,dk}表示每个传感器节点sn的剩余数据量;定义动作空间为am={af[m],ab[m]},其中af[m]∈{[δx,δy],δx,δy∈[-1,0,1]}表示为第m时隙到第m 1时隙uav的位置变化,ab[m]={b0[m],b1[m],

,bk[m]}表示在第m时隙对sns的带宽分配;奖励函数定义为rm=∑kθ
m,k
λ∑ksgn(dis
m-1
(nk)-dism(nk)),其中dism(nk)表示在第m时隙传感器节点nk与uav之间的距离,将其定义为dism(nk)=||u[m]-zk||;sgn(
·
)表示阶跃函数,λ表示平衡因子,因此从sm状态转移到s
m 1
状态可表示为
[0072]
采用深度学习dqn方法实现轨迹控制和带宽分配的联合优化,智能体即无人机从环境中获取状态信息sm并利用dqn方法输出动作am使uav进行下一次移动并分配带宽资源,在执行af[m]与ab[m]后环境将奖励rm返回给智能体,最后智能体将(sm,am,rm,s
m 1
)存储到经验回放存储器,并利用回放记忆单元中的存储更新dqn。
[0073]
dqn算法框架如下:dqn算法的核心思想是利用深度神经网络(dnn)来预测状态和动作组合的q值。最优的q值根据bellman最优方程定义:
其中,状态-动作价值函数q的定义是给定一个状态,当前状态下的动作已知,求余下状态下的动作集合使动作方程的值最大化,γ为衰减因子,表示从状态sm转移到s
m 1
的概率rm(sm,am)表示在状态sm下执行动作am的情况下状态转移到s
m 1
时获得的即时奖励;
[0074]
深度神经网络dnn由两部分组成,分别对应af[m]和ab[m]两个动作。第一部分利用无人机当前位置u[m]、唤醒休眠策略w和sn的位置向量z作为输入来确定动作af[m],uav根据af[m]飞行,并且获得下一时隙的位置u[m 1],然后将u[m 1],w,z和数据向量d作为输入来决定带宽分配动作ab[m],在权重ωi下的损失函数可定义为其中表示采取行动ai的概率;利用梯度下降方法更新权值ωi,通过不断更新ωi使dnn达到收敛,在此基础上实现轨迹设计和带宽资源的智能分配。
[0075]
基于dqn的联合轨迹和带宽分配的算法具体流程为:首先,引入经验回放技术,利用一个经验回放存储器g来存储智能体在每个时隙的经验值e
t
=(s
t
,a
t
,r
t
,s
t 1
),在内部循环中,智能体根据ε策略(ε是贪心算法ε-greedy中的参数,通常取0.01)周期性的选择和执行一个动作,然后得到下一个状态,并从环境中获得奖励rm,将经验值em=(sm,am,rm,s
m 1
)存储到经验回放存储器g中,最后从g中随机抽取一个小批量样本(sj,aj,rj,s
j 1
),定义损失函数为(q
t-q(sj,aj;ω))2,其中ω为dqn中dnn的参数,并根据损失函数更新dqn。
[0076]
图3和图4是两种不同唤醒机制下的无人机飞行轨迹。图3为无人机飞行时间t足够长的情况,在这种情况下无人机可以通过每一个sn获取所有数据信息。图4为无人机飞行时间t不足时,改变最远的5个sn的唤醒时间,该情况下sn之间的唤醒时间会发生冲突,因此只能从具有3个sn的集群和5个sn的集群中选择一个集群获取数据。结果表明本发明提出的方法以收集更多sn数据为目标,能够避免局部最优决策,即只收集距离最近的集群的数据,通过对比图3和图4可以看出,本方法可以整合全局数据,实现无人机最优路径规划。
[0077]
如图5所示,本发明数据采集成功率明显高于布谷鸟搜索算法。
[0078]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献