一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统与流程

2021-11-09 23:02:00 来源:中国专利 TAG:


1.本发明属于指挥控制技术领域,特别涉及一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统。


背景技术:

2.随着“低慢小”无人机的快速发展与应用,对各国的公共安全、国家安全产生了极大的威胁。在民用领域,无人机严重扰乱了空管秩序;在军事领域,无人机更是成为了一种新兴作战武器,在局部地区冲突中取得了较好的打击效果。因此,世界各国正在加快对反无人机技术及手段的研究,其中,指挥决策需协调控制多源探测与多元处置手段来防控目标并评估防控效果,是目前反无人机技术及手段中的核心难点。但目前已有的防控系统存在以下问题:(1)小型无人机防控环境复杂,现有的决策体制和流程难以适应;(2)决策时间较短,人工操作反应慢,且难以应对多目标。
3.alpha go的出现有效促进了深度强化学习的发展,深度强化学习可将具体想定下的作战任务抽象化为序列决策问题。基于深度强化学习的指挥决策方法能够充分扩展传统的防控规则,并能够即时进行防控策略的效能分析。但是,基于深度强化学习的指挥决策也存在部分问题:(1)在小型无人机防控等实际问题场景中,深度强化学习需要大量与环境交互所产生的训练样本;(2)基于深度强化学习的指挥决策模型没有初始经验,首先在庞大的策略空间中随机探索,探索效率低,导致训练周期长,学习速度慢。
4.尽管防控任务等知识庞杂,无法建立一个规则种类齐全、智能化的专家系统。但传统的基于专家规则的指挥决策方法,能够将大量的经验知识有效组织起来,用于实际问题的分析求解。同时,将这些经验知识以一定方式融入到过程来指导智能体的探索,可避免许多无效的探索,并加快防控决策智能体的训练速度,提升最终的效果。例如deepmind提出的alpha star,采用了规则对决策智能体进行预训练,再采用深度强化学习训练,取得了一定效果。
5.基于专家规则与基于深度强化学习的指挥决策方法各有利弊,二者结合是高效求解复杂决策问题的有效手段。专家规则和深度强化学习相结合的方法为小型无人机防控场景中的决策问题提供了一种新思路、新方法。


技术实现要素:

6.本发明提出了一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法,包括:
7.获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型;
8.构建小型无人机防控规则模型,使用小型无人机防控规则模型和三自由度质点运动模型描述小型无人机防控步骤;
9.依据马尔科夫决策过程构建状态空间s,动作空间a,奖励函数r;
10.建立基于dueling结构的d3qn网络,训练及优化防控决策模型;
11.根据防控决策模型,更新小型无人机防控规则模型。
12.进一步地,所述构建小型无人机的三自由度质点运动模型包括:
13.以地面防控中心为原点,将小型无人机视为质点,其三自由度质点模型为:
[0014][0015]
其中(x,y,z)表示小型无人机在以地面为参考系三维空间的坐标;v,θ和ψ分别表示小型无人机的速度、俯仰角和航向角。
[0016]
进一步地,所述依据马尔科夫决策过程构建状态空间s,动作空间a,奖惩函数r包括:
[0017]
状态空间s为:
[0018]
s=[d
t
,v
t
,a
t
,e
t
,h
t
,t
l
,t
j
]
ꢀꢀ
(2)
[0019]
d
t
,v
t
,a
t
,e
t
,h
t
的表达式分别为:
[0020][0021][0022]
a
t
=tan
‑1[(y
a

y
b
)/(x
a

x
b
)],
[0023][0024]
h
t
=(z
b

z
a
),
[0025]
其中,(x
b
,y
b
,z
b
)和(x
b1
,y
b1
,z
b1
)分别表示小型无人机在上一时刻t1和马尔科夫决策过程步进的当前时刻t的位置坐标,(x
a
,y
a
,z
a
)表示探测设备的位置坐标;d
t
表示当前时刻小型无人机相对探测设备的距离;v
t
表示当前时刻小型无人机的飞行速率;t
l
表示出激光时间;t
j
表示开电子干扰的时间;a
t
和e
t
分别表示t时刻无人机相对地面目标的方位角和俯仰角;
[0026]
动作空间a的表达式为:
[0027]
a=[j
s
,j
p
,l
s
,l
p
]
ꢀꢀꢀ
(3)
[0028]
其中,j
s
和l
s
分别表示为干扰和激光设备的开关动作,取值为0或1;j
p
和l
p
分别表示为干扰功率和激光功率,具体取值为

1,0或1;
[0029]
奖励函数r的表达式为:
[0030]
r=μ1·
r
dj
μ2·
r
dl
μ3·
r
v
μ4·
r
a
ꢀꢀꢀ
(5)
[0031]
其中,r
dj
、r
dl
、r
v
、r
a
分别表示干扰距离奖励函数、拦截距离奖励函数、角度奖励函数和速度奖励函数;μ1、μ2、μ3、μ4分别为干扰距离奖励函数、拦截距离奖励函数、速度奖励函数和角度奖励函数对应的权值,其满足约束条件:μ1 μ2 μ3 μ4=1,μ1,μ2,μ3,μ4≥0;
[0032]
r
dj
、r
dl
、r
v
、r
a
表达式为:
[0033][0034]
k为保持干扰和拦截距离奖励函数在最小奖励正值的平滑系数,和分别表示干扰最大作用距离和激光作用最大距离;分别表示小型无人机的速度低于一定速度阈值和高于最大速度阈值时所对应的奖励系数;v
mi
,v
ma
和v
xh
分别表示小型无人机的最小速度、最大速度和巡航速度;q表示探测到的小型无人机径向连线与其速度矢量间的夹角;q
m
表示角度奖励值为最小奖励正值时的角度值;分别表示探测到无人机在范围内及无人机离开探测范围的奖励值。
[0035]
进一步地,所述基于dueling结构的d3qn网络,整个d3qn网络共有3层,包括输入层、隐藏层和输出层;输入层与输出层为全连接层,中间隐藏层为循环神经网络结构,其中,
[0036]
目标价值网络和评估价值网络为循环网络结构。
[0037]
进一步地,所述基于dueling结构的d3qn网络q值输出表达式为:
[0038][0039]
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作;
[0040]
所述优化防控决策模型方式如下:
[0041]
所述评估价值网络输出值为q(φ(s),a|ω),输入为上一步采取的动作a及当前状态s,输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω;目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω

,其最终输出值y
j

目标价值网络输出与奖励r
j
共同构成,其具体表达式为:
[0042][0043][0044]
其中,r
j
表示该第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s

)表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmax
a

(q(φ(s

),a

)|ω)|ω

表示评估价值网络中最大q值对应的动作,l(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,表示状态s

下采取动作a

后,目标价值网络输出的最大值;
[0045]
所述评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程为:
[0046][0047]
其中,表示状态特征φ(s)和动作a对应q值函数对参数ω的梯度,表示损失函数l(ω)对参数ω的梯度。
[0048]
进一步地,所述方法还包括:
[0049]
使用新的小型无人机防控规则模型重新训练防控决策模型。
[0050]
进一步地,使用所述小型无人机防控规则模型与所述防控决策模型迭代提升形成小型无人机防控混合决策模型。
[0051]
本发明还提供一种基于深度强化学习和规则驱动的小型无人机防控混合决策系统,所述系统包括:
[0052]
三自由度质点运动模型生成模块,用于获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型;
[0053]
小型无人机防控规则模型生成模块,用于构建小型无人机防控规则模型;
[0054]
描述模块,用于使用小型无人机防控规则模型和三自由度质点运动模型描述无人机防控步骤;
[0055]
马尔科夫决策模块,用于依据无人机防控步骤,使用马尔科夫决策过程构建状态空间s,动作空间a,奖惩函数r;
[0056]
网络建立模块,用于建立基于dueling结构的d3qn网络;
[0057]
训练优化模块,用于使用状态空间s,动作空间a,奖惩函数r和基于dueling结构的d3qn网络训练及优化防控决策模型;
[0058]
更新模块,用于根据防控决策模型,更新小型无人机防控规则模型。
[0059]
进一步地,所述基于dueling结构的d3qn网络,整个d3qn网络共有3层,包括输入层、隐藏层和输出层;输入层与输出层为全连接层,中间隐藏层为循环神经网络结构,其中,
[0060]
目标价值网络和评估价值网络为循环网络结构。
[0061]
进一步地,所述基于dueling结构的d3qn网络q值输出表达式为:
[0062]
[0063]
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作;
[0064]
所述优化防控决策模型方式如下:
[0065]
所述评估价值网络输出值为q(φ(s),a|ω),输入为上一步采取的动作a及当前状态s,输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω;目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω

,其最终输出值y
j
由目标价值网络输出与奖励r
j
共同构成,其具体表达式为:
[0066][0067][0068]
其中,r
j
表示该第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s

)表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmax
a

(q(φ(s

),a

)|ω)|ω

表示评估价值网络中最大q值对应的动作,l(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,表示状态s

下采取动作a

后,目标价值网络输出的最大值;
[0069]
所述评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程为:
[0070][0071]
其中,表示状态特征φ(s)和动作a对应q值函数对参数ω的梯度,表示损失函数l(ω)对参数ω的梯度。
[0072]
本发明所设计的一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法与系统,构建小型无人机防控混合决策模型,能够有效提升遂行防控任务的小型无人机防控系统自动化水平,解决现有小型无人机防控指挥决策中存在的决策速度慢、难以处理复杂场景等问题,满足防控小型无人机的指挥决策需求。
附图说明
[0073]
图1示出了本发明实施例的一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法组成及工作原理框图;
[0074]
图2示出了本发明实施例的一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法流程图;
[0075]
图3示出了本发明实施例的基于dueling结构d3qn网络的决策模型神经网络结构图;
[0076]
图4示出了本发明实施例的基于dueling结构d3qn网络的防控混合决策参数更新示意图。
具体实施方式
[0077]
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开
的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0078]
本发明中小型无人机包括固定翼和旋翼两种,其起飞重量不超过25千克。如图1所示,本发明从基于规则和基于深度强化学习两方面入手,通过作战场景想定构想模拟小型无人机各种情形,形成仿真环境;使用基于规则的小型无人机防控规则模型给出防控策略;对状态空间、动作空间和奖励函数进行设计;对算法网络结构进行设计,进行训练和优化;同时,设计目标价值网络和评估价值网络,通过动作、策略方式来指导改进。训练形成基于深度强化学习的防控决策模型。当防控决策模型内优于已有策略时,反向优化小型无人机防控规则模型。再利用优化过的小型无人机防控规则模型重新训练,并通过一系列的评估测试,最终得到小型无人机防控混合决策模型。
[0079]
本发明提供了一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法,如图2所示,包括:
[0080]
步骤1、获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型。
[0081]
在小型无人机防控任务中,主要根据探测分系统所获取目标位置、速度等运动信息来进行防控处置,探测分系统可以是雷达等设备。由于当前环境,无法从现实环境中得到足够的敌方小型无人机运动信息,本发明通过作战场景想定构想来模拟若干小型无人机。作战场景想定构想可以设置敌方小型无人机各种情形,相当于获取到小型无人机位置运动信息。
[0082]
因此重点是构建小型无人机的三自由度质点运动模型。
[0083]
以地面防控中心为原点,将小型无人机视为质点,其三自由度质点模型如式(1)所示:
[0084][0085]
其中(x,y,z)表示小型无人机在以地面为参考系三维空间的坐标;v,θ和ψ分别表示小型无人机的速度、俯仰角和航向角。
[0086]
构建小型无人机的三自由度质点运动模型时,需要将小型无人机上一时刻t1和当前时刻t的运动信息全部构建在小型无人机的三自由度质点运动模型中。
[0087]
在具体实施例中,假设地面防控中心所在防护区域外,随机初始化n架执行侦察、打击任务的小型无人机,t1时刻其位置信息为(x
it1
,y
it1
,z
it1
),对应的速度、俯仰角和航向角分别为v
it1
,θ
it1
和ψ
it1
;t时刻其位置信息为(x
it
,y
it
,z
it
),对应的速度、俯仰角和航向角分别为v
it
,θ
it
和ψ
it
;其中,i=1...n。
[0088]
步骤2、构建小型无人机防控规则模型,使用小型无人机防控规则模型和三自由度质点运动模型描述小型无人机防控步骤。
[0089]
小型无人机防控规则模型包括规则集及行为树解析模块。规则集在形式化描述规
则的基础上建立,用于根据场景中获取的观测选定对应的规则;行为树解析模块用于对所选取规则的解析,得到对应的防控动作。防控动作包括:无线电干扰和激光拦截,进一步的,选择相应功率后进行无线电干扰和激光拦截。优选的,小型无人机防控规则模型基于专家规则生成。
[0090]
小型无人机防控规则模型设定了小型无人机的各种情况的各种处置手段,如小型无人机距离当前位置小于n米时如何进行防控。小型无人机防控规则模型中,设定包括小型无人机相关距离、位置、速度、俯仰角、航向角等各项内容,所有在三自由度质点运动模型中的小型无人机均能在小型无人机防控规则模型中找到对应的防控动作。如小型无人机a位置信息为(13000,4000,200),小型无人机的速度为20m/s,俯仰角为

10度、航向角为90度,对应的防控动作为打开激光,使用正常功率激光拦截。
[0091]
步骤3、依据马尔科夫决策过程构建状态空间s,动作空间a,奖励函数r。
[0092]
根据小型无人机防控任务特性及马尔可夫决策(markov decision process,mdp)过程,建立基于深度强化学习的防控决策模型,并设计状态空间和处置决策空间,奖励函数则根据所防控不同目标的意图确定。
[0093]
对任一在三自由度质点运动模型中的小型无人机,其防控步骤均可以用马尔科夫决策过程来构建状态空间s,动作空间a,奖惩函数r。其中,状态空间s为所探测到的防控目标信息,动作空间a是防控系统的处置设备的具体动作内容,奖励函数r是防控系统不同情况下处置设备的评判标准。
[0094]
强化学习中采用马尔科夫决策过程来描述防控决策模型与环境的交互,马尔科夫决策过程主要由状态空间、动作空间、奖励函数、折扣系数及状态转移概率组成,本发明中的防控决策模型采用无模型的强化学习算法建立,因此仅考虑除状态转移概率外的其他要素。
[0095]
状态空间s如式(2)所示。
[0096]
s=[d
t
,v
t
,a
t
,e
t
,h
t
,t
l
,t
j
]
ꢀꢀꢀ
(2)
[0097]
d
t
,v
t
,a
t
,e
t
,h
t
的表达式分别为:
[0098][0099][0100]
a
t
=tan
‑1[(y
a

y
b
)/(x
a

x
b
)],
[0101][0102]
h
t
=(z
b

z
a
),
[0103]
其中,(x
b
,y
b
,z
b
)和(x
b1
,y
b1
,z
b1
)分别表示小型无人机在上一时刻t1和马尔科夫决策过程步进的当前时刻t的位置坐标,(x
a
,y
a
,z
a
)表示探测设备的位置坐标;d
t
表示当前时刻小型无人机相对探测设备的距离;v
t
表示当前时刻小型无人机的飞行速率;t
l
表示出激光时间;t
j
表示开电子干扰的时间;a
t
和e
t
分别表示t时刻无人机相对地面目标的方位角和俯仰角。
[0104]
本发明考虑到探测设备与地面防控中心可能不在同一地点。如两者在同一地点,则(x
a
,y
a
,z
a
)为(0,0,0)。
[0105]
如某小型无人机x,其s=[10000,500,37,18,320,20,30]。
[0106]
动作空间a的表达式如式(3)所示。
[0107]
a=[j
s
,j
p
,l
s
,l
p
]
ꢀꢀꢀ
(3)
[0108]
其中,j
s
和l
s
分别表示为干扰和激光设备的开关动作,取值为0或1;j
p
和l
p
分别表示为干扰功率和激光功率,具体取值为

1,0或1。其中0表示功率保持不变,

1代表功率减小预设值(例如减少0.5w),1代表功率增大预设值(例如增加0.5w)。
[0109]
小型无人机防控任务中的处置手段包括激光拦截和无线电干扰,其中,激光拦截存在2个可控动作:开关机、调整出光功率;无线电干扰存在2个可控动作:开关机、调整干扰功率。处置手段的各类动作采用动作空间a这样的4元组编码。
[0110]
如某小型无人机x,对应的a=[1,

1,0,0]。
[0111]
奖励函数r由r
dj
、r
dl
、r
v
和r
a
综合确定,r
dj
、r
dl
、r
v
和r
a
分别表示干扰距离奖励函数、拦截距离奖励函数、角度奖励函数和速度奖励函数;干扰和拦截距离奖励函数采用距离相关的线性函数表示,k为保持干扰和拦截距离奖励函数在最小奖励正值的平滑系数,和分别表示干扰最大作用距离和激光作用最大距离;分别表示小型无人机的速度低于一定速度阈值和高于最大速度阈值时所对应的奖励系数;v
mi
,v
ma
和v
xh
分别表示小型无人机的最小速度、最大速度和巡航速度;q表示探测到的小型无人机径向连线与其速度矢量间的夹角;q
m
表示角度奖励值为最小奖励正值时的角度值;分别表示探测到无人机在范围内及无人机离开探测范围的奖励值。其表达式如式(4)所示:
[0112][0113]
将r
dj
、r
dl
、r
v
和r
a
加权求和,得到奖励函数r的表达式如式(5)表示:
[0114]
r=μ1·
r
dj
μ2·
r
dl
μ3·
r
v
μ4·
r
a
ꢀꢀꢀ
(5)
[0115]
其中,μ1、μ2、μ3、μ4分别为干扰距离奖励函数、拦截距离奖励函数、速度奖励函数和角度奖励函数对应的权值,可预先设置,根据经验值获得,其满足约束条件:μ1 μ2 μ3 μ4=1,μ1,μ2,μ3,μ4≥0。
[0116]
步骤4、建立基于dueling结构的d3qn网络,训练及优化防控决策模型。
[0117]
本发明所使用基于dueling结构的d3qn网络训练防控决策模型。d3qn,竞争双深度q网络,即dueling double deep q network。训练直至可以生成针对执行不同任务(如打击与侦察)的小型无人机的驱离及毁伤打击的防控策略,当该策略的防御成功率超过一定阈值时,停止训练并保存当前神经网络模型的参数,完成深度强化学习防控决策模型的阶段性训练。
[0118]
本发明中,在d3qn网络算法中引入了dueling结构,改进了价值网络的结构,如图3所示。本发明中,整个d3qn网络共有3层,包括输入层、隐藏层和输出层。输入层与输出层为全连接层,中间隐藏层为循环神经网络结构(rnn)。
[0119]
本发明中,分离并利用状态价值v(s)和固定状态下的动作价值a(s,a),更加准确的估算q值,使得最终q值输出表达式如式(6)所示:
[0120][0121]
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作。
[0122]
两个全连接层网络为图3中a(s,a)与v(s)两个对应的全连接层。
[0123]
本发明优化方式如图4所示,构建了评估价值网络和目标价值网络,评估价值网络输出值表示为q(φ(s),a|ω),其输入为上一步采取的动作a及当前状态s,其输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω,评估价值网络采用最小化评估价值网络的状态动作值与目标价值网络状态动作值之间的均方误差来更新优化网络参数ω,评估价值网络输出的q(φ(s),a|ω)值直接由该网络输出。目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω

,其最终输出值y
j
由目标价值网络输出与奖励r
j
共同构成,其具体表达式如式(7)、式(8)所示:
[0124][0125][0126]
其中,r
j
表示该第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s

)表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmax
a

(q(φ(s

),a

)|ω)|ω

表示评估价值网络中最大q值对应的动作,l(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,此处采用均方误差函数mse(mean square error),表示状态s

下采取动作a

后,目标价值网络输出的最大值。
[0127]
将式(7)代入式(8)得到:
[0128]
[0129]
对于评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程如式(10)所示:
[0130][0131]
其中,表示状态特征φ(s)和动作a对应q值函数对参数ω的梯度,表示损失函数l(ω)对参数ω的梯度。
[0132]
采用固定目标价值网络参数的方法,每达到一定步长,对目标价值网络的参数进行更新,ω


ω。
[0133]
目标价值网络和评估价值网络采用循环网络结构(rnn),由全连接层与循环神经网络层构成的网络架构,共有3层,输入与输出为全连接层,中间隐藏层为循环神经网络层。
[0134]
本发明利用d3qn算法对防控决策模型进行训练,训练数据为每个仿真步长所得到状态空间s,动作空间a,奖惩函数r,下一状态s’,并存储到经验回放池中。通过优先级经验回放的方式,根据每条经验的优先级提取用来训练模型。采用pytorch深度学习框架,目标价值网络和评估价值网络采用循环网络结构,由全连接层与循环神经网络层构成的网络架构,共有3层,输入与输出为全连接层,中间隐藏层为循环神经网络层,分别选取100、50和50个神经元;每次训练的上限设为5000回合,每回合步长设置为104,所述策略的防御成功率超过一定阈值时,具体是指当达到每训练500回合有450及以上回合可防御成功,此时停止训练并保存此时神经网络模型参数。
[0135]
步骤5、根据防控决策模型,更新小型无人机防控规则模型,并重新训练防控决策模型。
[0136]
分析训练得到的防控决策模型,对其中的防控方式等进行整理并总结。对其中与小型无人机防控规则模型不相同的内容使用人工判断等手段进行分析,得到更优化的防控规则。并用更优化的防控规则更新小型无人机防控规则模型。利用新的小型无人机防控规则模型来重新训练防控决策模型。以上方式循环多次,直到达到预设指标。
[0137]
对所述基于深度强化学习的防控决策模型和所述基于规则驱动的小型无人机防控规则模型进行迭代对抗训练,当训练所述深度强化学习决策模型时,固定基于规则驱动的防控决策模型;当训练基于规则驱动的决策模型时,固定所述深度强化学习决策模型,通过反复迭代,完成对基于深度强化学习的防控决策模型和所述基于规则驱动的小型无人机防控规则模型的训练。预设策略评估指标,通过小型无人机防控规则模型来形成防控决策模型的基线,训练防控决策模型;然后扩展小型无人机防控规则模型,再训练防控决策模型,迭代提升,最终得到基于深度强化学习和规则驱动的小型无人机防控混合决策模型。
[0138]
可以使用以下方式验证及评估基于深度强化学习和规则驱动的小型无人机防控混合决策模型。在小型无人机防控任务场景中加载训练所得到的小型无人机防控混合决策模型,并根据从场景中实时获取的状态空间s进行决策,得到实时无人机防控策略,处置动作a作用到场景中,改变环境状态并得到实时奖励反馈。
[0139]
本发明还设计一种小型无人机防控混合决策系统,所述系统包括:
[0140]
三自由度质点运动模型生成模块,用于获取小型无人机位置运动信息,构建小型无人机的三自由度质点运动模型;
[0141]
小型无人机防控规则模型生成模块,用于构建小型无人机防控规则模型;
[0142]
描述模块,用于使用小型无人机防控规则模型和三自由度质点运动模型描述无人机防控步骤;
[0143]
马尔科夫决策模块,用于依据无人机防控步骤,使用马尔科夫决策过程构建状态空间s,动作空间a,奖惩函数r;
[0144]
网络建立模块,用于建立d3qn dueling结构网络;
[0145]
训练优化模块,用于使用状态空间s,动作空间a,奖惩函数r和d3qn dueling结构网络训练及优化防控决策模型;
[0146]
更新模块,用于根据防控决策模型,更新小型无人机防控规则模型。
[0147]
所述基于dueling结构的d3qn网络,整个d3qn网络共有3层,包括输入层、隐藏层和输出层;输入层与输出层为全连接层,中间隐藏层为循环神经网络结构,其中,
[0148]
目标价值网络和评估价值网络为循环网络结构。
[0149]
所述基于dueling结构的d3qn网络q值输出表达式为:
[0150][0151]
其中,ω表示网络结构参数,α,β分别表示两个全连接层网络的参数,s表示状态空间,a表示动作空间;a’表示动作空间的某一动作;
[0152]
所述优化防控决策模型方式如下:
[0153]
所述评估价值网络输出值为q(φ(s),a|ω),输入为上一步采取的动作a及当前状态s,输出为下一时刻采取的处置动作,对应的评估价值网络参数为ω;目标价值网络的输入为上一步采取的动作a及当前状态s,对应的目标价值网络参数为ω

,其最终输出值y
j
由目标价值网络输出与奖励r
j
共同构成,其具体表达式为:
[0154][0155][0156]
其中,r
j
表示该第j个数据对应的奖励,φ(s)表示经验池采集经验数据当前状态对应的特征向量,φ(s

)表示经验池采集经验数据的下一状态的特征向量,γ为奖励折扣系数,argmax
a

(q(φ(s

),a

)|ω)|ω

表示评估价值网络中最大q值对应的动作,l(ω)表示对参数为ω的评估价值网络进行训练时所用的误差函数,表示状态s

下采取动作a

后,目标价值网络输出的最大值。
[0157]
所述评估价值网络,其参数ω朝评估价值网络输出值增大的方向进行更新,该过程为:
[0158][0159]
其中,表示状态特征φ(s)和动作a对应q值函数对参数ω的梯度,表示损失函数l(ω)对参数ω的梯度。
[0160]
本发明所设计的一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法和系统,构建小型无人机防控混合决策模型,能够有效提升遂行防控任务的小型无人机防控系统自动化水平,解决现有小型无人机防控指挥决策中存在的决策速度慢、难以处
理复杂场景等问题,满足防控小型无人机的指挥决策需求。
[0161]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献