一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于MADDPG算法的无人机数据收集方法

2022-09-01 10:47:33 来源:中国专利 TAG:

一种基于maddpg算法的无人机数据收集方法
技术领域
1.本发明属于无线通信技术领域,涉及一种基于maddpg算法的无人机数据收集方法。


背景技术:

2.近年来,由于无人机制造技术的发展和成本的降低,无人机已广泛应用于民用和商业领域。在部分物联网数据收集应用中,无线传感器节点(sensor node,sn)需采集环境数据并传输至汇聚节点,由于sn能量有限且与汇聚节点之间距离较远,难以高效完成数据收集,使用无人机进行数据收集已经受到越来越多的关注,与传统地面通信系统相比,通过对无人机轨迹及关联策略的优化可以有效提升数据收集的效率。相关研究表明,无人机的轨迹及关联策略将对系统性能产生显著的影响。
3.目前已有文献针对无人机数据收集问题进行研究,如提出了一种基于最小化时间年龄的无人机数据收集策略;但现有研究较少联合考虑数据时间限制,节点缓存溢出对网络损失的影响,难以实现高效的数据收集。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种基于maddpg算法的无人机数据收集方法,针对包含多个无人机以及多个传感器节点的无人机辅助的物联网数据收集系统,建模系统代价函数为由于缓冲区溢出和数据包到期而导致的丢包数量的相反数,以最小化网络损失为目标,实现无人机轨迹及用户关联策略的联合优化。
5.为达到上述目的,本发明提供如下技术方案:
6.一种基于maddpg算法的无人机数据收集方法,具体包括以下步骤:
7.s1:构建包含多个无人机以及多个传感器节点的无人机辅助的物联网数据收集系统,具体包括:
8.s11:建模无人机模型;
9.s12:建模传感器节点模型;
10.s13:建模信道模型;
11.s14:建模传感器节点关联变量;
12.s15:建模系统状态、动作和观测值;
13.s2:建模系统代价函数:为由于缓冲区溢出和数据包到期而导致的丢包数量的相反数;
14.s3:建模并训练maddpg算法;
15.s4:基于maddpg算法确定无人机数据收集策略。
16.进一步,步骤s11中,建模无人机模型,具体包括:令表示无人机集合,其中ui表示第i架无人机,1≤i≤i,i为无人机的数量;
17.无人机(uav)飞行时高度固定为h,ui在时隙t的位置为无人机从初始位置出发进行数据收集,能量耗尽前返回初始位置;无人机(uav)的最大速度为v
max
;令表示ui在时隙t的飞行方向,v
i,t
∈[0,v
max
]表示ui在时隙t的飞行速度;ui在时隙t 1的二维位置投影为:其中τ为时隙长度;
[0018]
令bu表示无人机(uav)从初始位置起飞时的可用能量,无人机(uav)需在电量耗尽前返回初始位置;令表示ui在时隙t的电池电量,的更新公式为:其中为ui在时隙t的推进能耗,计算公式为:其中p0和p0′
为常数,u
tip
为转子叶片的叶尖速度,v0为无人机悬停时平均转子诱导速度,ξ
drag
和ξ
rotor
分别为机身阻力比和转子可靠性,ρ
air
和s
rotor
分别为空气密度和转子盘面积。
[0019]
进一步,步骤s12中,建模传感器节点模型,具体包括:令表示传感器节点集合,其中snj表示第j个传感器节点,其位置表示为其中1≤j≤j,j为传感器数量;
[0020]
snj从环境中收集数据,将数据包存放在有限缓存中,snj的缓存容量为snj在时隙t的队列长度为令表示新到达的数据包;每个数据包有其时间期限δj,当超过时间期限后,将被丢弃;令表示snj在时隙t因数据包超时丢弃的数据包的数量;当snj的缓存达到其容量,即后,当有新的数据包到达,将导致缓存溢出,snj将丢弃排在队列前端的相同数量的数据包,令表示因数据溢出丢弃的数据包的数量;令表示snj在时隙t成功上传的数据包数量;snj的数据缓存队列更新公式为:
[0021]
传感器节点收集可再生能源,用于数据收集和数据传输;令表示snj在时隙t的电池电量,表示节点的电池容量,snj的电量更新公式为:其中表示snj在时隙t收集的能量,表示snj在时隙t的能耗;snj在时隙t的能耗建模为:其中表示snj收集数据的能耗,表示snj在时隙t传输数据的能耗,其中p
j,t
表示snj在时隙t的传输功率。
[0022]
进一步,步骤s13中,建模信道模型,具体包括:ui与snj在时隙t的信道增益
其中αe为路径损失系数,建模为高斯随机变量,为高斯变量的方差,e∈{los,nlos}为传播参数。
[0023]
进一步,步骤s14中,建模传感器节点关联变量,具体包括:令δ
i,j,t
∈{0,1}表示传感器节点关联变量,若δ
i,j,t
=1,表示ui在时隙t与snj相关联,反之,若δ
i,j,t
=0;ui在同一时隙最多与一个传感器节点进行关联,即1≤i≤i,1≤t≤t,snj在同一时隙最多与一个无人机进行关联即1≤j≤j,1≤t≤t,其中t为总时隙长度。
[0024]
进一步,步骤s15中,建模系统状态、动作和观测值,具体包括:建模系统在时隙t的状态其中为无人机位置集合,v
t
={v
1,t
,...,v
i,t
,...,v
i,t
}为无人机速度集合,为无人机电池电量集合,表示无人机与传感器节点间相对位置的集合,其中表示ui与所有传感器节点间相对位置的集合,表示ui在时隙t与snj之间的相对位置,q
t
={q
1,t
,...,q
j,t
,...,q
j,t
}表示所有传感器节点缓存队列的集合,h
t
={h
1,t
,...,h
i,t
,...,h
i,t
}表示所有无人机与传感器节点间信道增益的集合,其中h
i,t
={h
i,1,t
,h
i,2,t
,...,h
i,j,t
}表示ui与所有传感器节点间信道增益的集合;
[0025]
建模时隙t无人机的联合动作a
t
={a
1,t
,

,a
i,t
,...,a
i,t
},其中
[0026]
建模时隙t无人机的联合观测值o
t
={o
1,t
,o
2,t
,...,o
i,t
},其中其中为示性函数,当δ
i,j,t
=1时为1。
[0027]
进一步,步骤s2具体包括:建模多无人机数据收集系统中的代价函数r
t
为时隙t由于缓冲区溢出和数据包到期而导致的丢包数量的相反数,即其中,为时隙t由于数据包到期而丢弃的数据包数量,为时隙t由于缓冲区溢出而丢失的数据包数量。
[0028]
进一步,步骤s3中,建模并训练maddpg算法,具体为:初始化无人机的在线策略网络参数θ
μ
、在线q网络参数θq、目标策略网络参数及目标q网络参数初始化经验回放缓冲区;初始化随机过程χ,并对系统状态s
t
进行初始化;对于ui,利用其当前策略网络和随机过程选择动作其中μi为ui的策略网络,为策略网络μi的参数,χ
i,t
为随机噪声,将动作施加于系统环境,得到代价值r
t
和下一时刻的状态s
t 1
,并将其存入
经验回放缓冲区d;从d中抽取一批样本,利用损失函数最小化更新无人机的在线q网络;根据样本数据和在线q网络生成的q值,利用策略梯度更新公式更新其在线策略网络,其中为ui对应q网络的参数,x=(o1,...,oi)为所有无人机观测值的集合;通过软更新算法更新目标策略网络和目标q网络的参数,具体为:法更新目标策略网络和目标q网络的参数,具体为:其中ε<<1为目标网络的软更新参数。
[0029]
进一步,步骤s4中,基于maddpg算法确定无人机数据收集策略,具体为:将环境观测值输入maddpg网络,根据在线策略网络的输出确定无人机数据收集策略。
[0030]
本发明的有益效果在于:本发明在综合考虑无人机能耗限制,节点缓存限制的情况下,联合优化无人机轨迹及传感器节点关联策略,实现网络损失最小化。
[0031]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0032]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0033]
图1为无人机数据收集场景示意图;
[0034]
图2为基于maddpg算法的无人机数据收集方法的流程图。
具体实施方式
[0035]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0036]
请参阅图1~图2,图1为无人机数据收集场景示意图,如图1所示,网络中存在多架无人机,多个传感器节点,传感器节点收集环境信息,通过无人机进行数据收集,同时,无人机根据网络损失最小化联合优化轨迹及节点关联策略。
[0037]
图2为本发明基于maddpg算法的无人机数据收集方法的流程图,如图2所示,该方法具体包括以下步骤:
[0038]
1)建模无人机模型
[0039]
令表示无人机集合,其中ui表示第i架无人机,1≤i≤i,i为无人机的数量;
[0040]
uav飞行时高度固定为h,ui在时隙t的位置为无人机从初始位置出发进行数据收集,能量耗尽前返回初始位置;uav的最大速度为v
max
;令表示ui在时隙t的飞行方向,v
i,t
∈[0,v
max
]表示ui在时隙t的飞行速度;ui在时隙t 1的二维位置投影为:其中τ为时隙长度;
[0041]
令bu表示uav从初始位置起飞时的可用能量,uav需在电量耗尽前返回初始位置;令表示ui在时隙t的电池电量,的更新公式为:其中为ui在时隙t的推进能耗,计算公式为:
[0042]
其中p0和p0′
为常数,u
tip
为转子叶片的叶尖速度,v0为无人机悬停时平均转子诱导速度,ξ
drag
和ξ
rotor
分别为机身阻力比和转子可靠性,ρ
air
和s
rotor
分别为空气密度和转子盘面积。
[0043]
2)建模传感器节点模型
[0044]
令表示传感器节点集合,其中snj表示第j个传感器节点,其位置表示为其中1≤j≤j,j为传感器数量;
[0045]
snj从环境中收集数据,将数据包存放在有限缓存中,snj的缓存容量为snj在时隙t的队列长度为令表示新到达的数据包;每个数据包有其时间期限δj,当超过时间期限后,将被丢弃,令表示snj在时隙t因数据包超时丢弃的数据包的数量;当snj的缓存达到其容量,即后,当有新的数据包到达,将导致缓存溢出,snj将丢弃排在队列前端的相同数量的数据包,令表示因数据溢出丢弃的数据包的数量;令表示snj在时隙t成功上传的数据包数量;snj的数据缓存队列更新公式为:
[0046]
传感器节点收集可再生能源,用于数据收集和数据传输;令表示snj在时隙t的电池电量,表示节点的电池容量,snj的电量更新公式为:其中表示snj在时隙t收集的能量,表示snj在时隙t的能耗;snj在时隙t的能耗建模为:其中表示snj收集数据的能耗,表示snj在时隙t传输数据的能耗,其中p
j,t
表示snj在时隙t的传输功率。
[0047]
3)建模信道模型
[0048]
建模数据收集信道模型,具体为:ui与snj在时隙t的信道增益其
中αe为路径损失系数,建模为高斯随机变量,为高斯变量的方差,e∈{los,nlos}为传播参数。
[0049]
4)建模传感器节点关联变量
[0050]
令δ
i,j,t
∈{0,1}表示传感器节点关联变量,若δ
i,j,t
=1,表示ui在时隙t与snj相关联,反之,若δ
i,j,t
=0;ui在同一时隙最多与一个传感器节点进行关联,即1≤i≤i,1≤t≤t,snj在同一时隙最多与一个无人机进行关联即1≤j≤j,1≤t≤t,其中t为总时隙长度。
[0051]
5)建模系统状态、动作和观测值
[0052]
建模系统在时隙t的状态其中为无人机位置集合,v
t
={v
1,t
,v
2,t
,...,v
i,t
}为无人机速度集合,为无人机电池电量集合,表示无人机与传感器节点间相对位置的集合,其中表示ui与所有传感器节点间相对位置的集合,表示ui在时隙t与snj之间的相对位置,q
t
={q
1,t
,q
2,t
,...,q
j,t
}表示所有传感器节点缓存队列的集合,h
t
={h
1,t
,h
2,t
,...,h
i,t
}表示所有无人机与传感器节点间信道增益的集合,其中h
i,t
={h
i,1,t
,h
i,2,t
,...,h
i,j,t
}表示ui与所有传感器节点间信道增益的集合;建模时隙t无人机的联合动作a
t
={a
1,t
,a
2,t
,...,a
i,t
},其中建模时隙t无人机的联合观测值o
t
={o
1,t
,o
2,t
,

,o
i,t
},其中其中为示性函数,当δ
i,j,t
=1时为1。
[0053]
6)建模系统代价函数
[0054]
建模多无人机数据收集系统中的代价函数r
t
为时隙t由于缓冲区溢出和数据包到期而导致的丢包数量的相反数,即
[0055]
7)建模并训练maddpg网络
[0056]
初始化无人机的在线策略网络参数θ
μ
、在线q网络参数θq、目标策略网络参数及目标q网络参数初始化经验回放缓冲区;初始化随机过程χ,并对系统状态s
t
进行初始化;对于ui,利用其当前策略网络和随机过程选择动作其中μi为ui的策略网络,为策略网络μi的参数,χ
i,t
为随机噪声,将动作施加于系统环境,得到代价值r
t
和下一时刻的状态s
t 1
,并将其存入经验回放缓冲区d;从d中抽取一批样本,利用损失函数最小化更新无人机的在线q网络;根据样本数据和在线q网络生成的q值,利用策略梯度更新
公式更新其在线策略网络,其中为ui对应q网络的参数,x=(o1,...,oi)为所有无人机观测值的集合;通过软更新算法更新目标策略网络和目标q网络的参数,具体为:新算法更新目标策略网络和目标q网络的参数,具体为:其中ε<<1为目标网络的软更新参数。
[0057]
8)基于maddpg算法确定无人机数据收集策略。
[0058]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献