一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的无人机与云台干扰源联合搜索方法与流程

2022-04-06 19:29:40 来源:中国专利 TAG:

技术特征:
1.一种基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,所述联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位;所述联合搜索方法包括以下步骤:s1,将搜索任务的时间平均划分为多个长度相同的时隙,将每个时隙t划分为两个阶段:云台阶段和无人机阶段;s2,在时隙t的云台阶段,通过云台控制方向性天线,根据ε贪心策略执行动作,选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中;s3,根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数,作为q值;其中,当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向;下一时隙云台的状态为估算出的方向上的接收信号强度值的量化;上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值;当前时隙云台的立即回报为m个水平角度上接收信号强度的和;s4,在t时隙的无人机阶段中,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θ
t
,向该飞行方向飞行一个固定的步长到达新的位置;同时决策出下一时隙云台的垂直角度;s5,在下一时隙重复上述步骤s2至步骤s4,直至无人机飞行到干扰源上方。2.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤s2中,通过云台控制方向性天线,选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中的过程包括以下步骤:s21,以无人机初始位置对应地面的点为原点,构建直角坐标系;s22,设天线允许在水平方向θ∈[0,2π]、垂直方向构成的半球形上旋转;将水平角度等间距量化为m个角度{θ1,θ2,...,θ
m
},将垂直角度等间距量化为n个角度{φ1,φ2,...,φ
n
};s23,选择旋转到n个等间距量化的垂直角度集合{φ1,φ2,...,φ
n
}中的某个垂直角度,并水平旋转一圈,测得m个等间隔的水平角度{θ1,θ2,...,θ
m
}上的接收信号强度值。3.根据权利要求2所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤s23中,通过云台转向测得t时刻的接收信号强度向量,即rss向量vr
t
,其满足下述计算公式:vr
t
=mr
t
(k
t
,:)其中k
t
为t时刻云台旋转到的垂直角度的索引,mr
t
为方向性天线在所有角度上可以采集到的接收信号强度值组成的接收信号强度矩阵,即rss矩阵,其满足下述计算公式:
其中,p
ij
=p
r

t-θ
j

t-φ
i
);i=1,2,...,n;j=1,2,...,m;(θ
t

t
)为t时刻干扰源相对于无人机的角度;式中,p
t
为干扰源发射功率,n为噪声的幅度,其为服从均值为0方差为σ2的高斯分布的随机变量;l为自由空间路径损耗;g
r

t-θ
j

t-φ
i
)为接收天线增益值:式中,f(θ
t-θ
j

t-φ
i
)为天线方向性函数值,η为天线效率。4.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤s3中,计算得到当前时隙无人机的状态的过程包括以下步骤:根据已知的天线方向图函数计算m个水平角度{θ1,θ2,...,θ
m
}分别对应的基准向量;将与接收信号强度向量的差的2范数值最小的基准向量对应的方向作为估算出的干扰源方向。5.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤s4中,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θ
t
,向该飞行方向飞行一个固定的步长到达新的位置,同时决策出下一时隙云台的垂直角度的过程包括以下步骤:s41,将无人机的飞行方向的决策建模为一个马尔可夫决策过程,即无人机mdp:设t时刻使得最小的已知,即t时刻的rss向量为t时隙无人机的状态s
u,t
满足下述计算公式:满足下述计算公式:其中vi
j
=[f(θ1,0),f(θ2,0),

,f(θ
m
,0)]
j
,j=1,2,

,m为m个基准向量,[
·
]
j
运算表示对向量进行j位的圆周移位;t时隙无人机的动作a
u,t
定义为选择一个水平的角度θ
t
∈{θ1,θ2,...,θ
m
},并飞行一个固定的步长;回报函数为无人机mdp的目标函数满足下述计算公式:其中策略π
u
为无人机状态空间到动作空间的映射,γ1为折扣因子;s42,将云台垂直方向旋转的决策建模为一个马尔可夫决策过程,即云台mdp:
t时隙云台的动作a
p,t
定义为选择一个垂直的角度φ
kt
∈{φ1,φ2,...,φ
n
}并测得rss向量vr
t
,t时隙云台的状态s
p,t
定义满足下述计算公式:其中,表示t-1时刻的rss向量vr
t-1
中以为索引的rss值;[
·
]运算表示取最接近的整数;t时隙云台的动作a
p,t
定义为选择一个垂直的角度φ
kt
∈{φ1,φ2,...,φ
n
}并测得rss向量vr
t
;云台的回报函数满足下述计算公式:云台mdp的目标函数满足下述计算公式:其中策略π
p
为云台的状态空间到动作空间的映射,γ2为折扣因子;s43,修正无人机mdp,使云台mdp和无人机mdp构成一组互相耦合的马尔可夫决策过程:将t时隙无人机的状态s
u,t
的计算公式改写为满足下述计算公式:的计算公式改写为满足下述计算公式:无人机mdp回报函数改写为r
u,t
=maxvr
t 1
(:)。6.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤s3中,无人机根据ε贪心策略执行动作的过程包括以下步骤:在任一时隙,无人机以概率ε根据q表选取当前无人机状态下,q值最大的动作作为本时隙无人机飞行的方向;在任一时隙,无人机以概率1-ε选择接收信号强度最值对应的角度为本时隙无人机飞行的方向。

技术总结
本发明公开了一种基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,所述联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位。本发明解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题,同时可以实现更远距离、更低初始信噪比的干扰源搜索,更具实用价值。更具实用价值。更具实用价值。


技术研发人员:黄洋 王凌宇 周涛 朱秋明 吴启晖 崔皓禹 毛开 姜俊凯
受保护的技术使用者:南京航空航天大学
技术研发日:2021.12.03
技术公布日:2022/4/5
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献