一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于人机结合策略学习的目标智能分配方法和系统与流程

2022-04-16 15:23:22 来源:中国专利 TAG:


1.本发明属于目标智能分配技术领域,尤其涉及一种基于人机结合策略学习的目标智能分配方法和系统。


背景技术:

2.随着智能、网络、协同与控制技术和无人平台技术的发展,各类无人集群系统发展迅速。这些集群目标机动能力强、构型灵活,拥有速度优势、协同优势和数量优势。利用以集群对集群的方式,能够实施有效反制。在集群对抗过程中,目标智能分配是其中的难点问题。从技术方法上讲,目标分配具有典型的复杂非线性特征,属于np难问题。
3.常用的目标分配传统算法主要包括分支定界法、隐枚举法、动态规划法和割平面法,这些算法流程较为繁琐,难以处理大规模目标分配问题。启发式优化方法,通过模拟自然现象或过程,为处理复杂问题提供新方法和新思路,包括遗传算法(ga)、粒子群算法(pso)、蚁群算法(aco)、差分进化算法(de)等。
4.具体而言,如:装甲兵工程学院徐克虎提出了一种全局更新和局部更新的人工免疫算法,采用最优抗体抑制技术避免陷入局部最优,具有较宽的收敛速度和精度。空军指挥学院王邑根据从已知决策中推理生成新的决策,减少重复搜索的思路,利用分支界限法得到分配方案的训练样本,通过构造并行运行模糊k近邻分类器的机器学习方法推导目标分配方案,实现快速决策。国防科技大学杨晓凌通过改造原始类电磁算法的种群初始化、局部搜索、合力计算及粒子移动等步骤,使之适应目标问题的整数解空间。通过将种群中个体模拟为带电粒子,吸引和排斥作用引导个体朝最优解方向移动,全局搜索能力强,初步应用于项目调度和函数优化等领域。哈尔滨工业大学王子建对多目标拦截器的拦截器拦截能力预测方法、目标分配决策方法和协同拦截策略决策方法进行了研究,设计了用于决策拦截器拦截策略的模型,最后通过仿真验证了模型对于协同拦截策略决策问题的有效性。美国bae公司针对多目标情况下如何动态地将每个武器分配给目标,采用基于控制的方法对武器进行动态目标分配(dwta)。韩国延世大学团队采用启发式遗传算法进行多目标分配,引入启发式信息,有效加快算法执行效率,避免遗传算法早熟。
5.上述传统方法在解决目标分配问题过程中,主要通过问题建模、模型求解等环节获得最优的决策方案。但由于传统方法的模型构建根据专家经验实现,所考虑的约束条件有限,对态势的理解、目标威胁的分析不足,导致构建的模型不准,并且,建模过程缺少对不同决策时间之间的相互影响的全局性考虑,以静态决策为主,缺乏预判性。而动态分配在静态分配模型的基础上,加入了对过程中可能出现的随机事件的建模,但也增加了问题求解的复杂度。另外,对附加约束的非线性优化模型进行求解时,需要进行多轮次迭代寻优,求解速度较慢,优化过程还可能陷入局部最优值或者发散,而无法获得可用的目标分配结果。


技术实现要素:

6.本发明的技术解决问题:克服现有技术的不足,提供一种基于人机结合策略学习
的目标智能分配方法和系统,能够有效融入人类经验,同时支持目标分配的机器学习与训练,有效发挥人机各自的特长的目标分配方法需要探索,以促进人机结合策略学习,提升决策效果和效率。
7.为了解决上述技术问题,本发明公开了一种基于人机结合策略学习的目标智能分配方法,包括:
8.步骤1,基于人工经验准则策略样本库,建模并训练得到目标分配准则模型;
9.步骤2,基于ahp的量化样本库,建模并训练得到目标特性量化模型;
10.步骤3,根据任务需求和目标态势输入,利用步骤1得到的目标分配准则模型和步骤2得到的目标特性量化模型,进行目标分配建模优化,得到目标分配结果。
11.在上述基于人机结合策略学习的目标智能分配方法中,目标分配准则模型中至少包括如下分配准则:基于最大毁伤概率准则、基于最大威胁准则、基于威胁度随机分配准则、基于最大毁伤概率最少单元准则、基于最大效费比准则、基于逃逸时间与剩余均衡准则和基于最小化总时间准则。
12.在上述基于人机结合策略学习的目标智能分配方法中,基于人工经验准则策略样本库,建模并训练得到目标分配准则模型,包括:
13.建立人工经验准则策略样本库;
14.将人工经验准则策略样本中的各样本输入到基于强化学习的准则策略学习模型中进行训练,同时,由上文的基本准则策略模型提供策略选择结果对应的具体准则,经过强化学习训练,得到准则策略学习模型的网络模型参数,进而构建得到目标分配准则模型。
15.在上述基于人机结合策略学习的目标智能分配方法中,人工经验准则策略样本库中至少包括:多种任务需求、多种态势输入情况,以及对应不同任务需求、态势输入组合条件下的人工策略选择结果。
16.在上述基于人机结合策略学习的目标智能分配方法中,目标特性量化模型,用于确定在对目标威胁进行综合评估时所涉及的定性和定量因素,至少包括:是否为上级指定、发射点位置、预测落点位置、射程、关机点速度、再入速度、毁伤类型、毁伤威力、毁伤影响、毁伤难以程度、生存能力、机动能力、命中精度、剩余飞行时间、最大高度和目标重要度。
17.在上述基于人机结合策略学习的目标智能分配方法中,基于ahp的量化样本库,建模并训练得到目标特性量化模型,包括:
18.建立基于ahp的量化样本库;
19.将基于ahp的量化样本库中的各样本输入到基于强化学习的量化策略学习模型中进行训练,同时,由上文的目标特性量化建模提供相应的要素建模,经过强化学习训练,得到量化策略学习模型的网络模型参数,进而构建得到目标特性量化模型。
20.在上述基于人机结合策略学习的目标智能分配方法中,基于ahp的量化样本库中至少包括:在目标分配任务中的定量评估要素类型、要素间两两相对重要度评分和不同组合条件下的人工量化经验结果。
21.在上述基于人机结合策略学习的目标智能分配方法中,
22.基于最大毁伤概率准则的模型表示如下:
23.[0024][0025]
其中,m表示目标数,n表示火力单元数,i表示火力单元编号,j表示目标编号,i=1,2,

,m,j=1,2,

,m;x
ij
表示分配决策变量,若分配第i个火力单元打击第j个目标,则x
ij
=1,否则x
ij
=0;p
ij
表示第i个火力单元对第j个目标的毁伤概率;wj表示第j个目标的威胁值;
[0026]
基于最大威胁准则的模型表示如下:
[0027][0028]
基于威胁度随机分配准则的模型表示如下:
[0029][0030]
基于最大毁伤概率最少单元准则的模型表示如下:
[0031][0032][0033]
其中,p
dj
表示第j个目标的预设毁伤概率门限,pj表示所分配火力对第j个目标的联合毁伤概率,为pj的均值;
[0034]
基于最大效费比准则的模型表示如下:
[0035]
[0036][0037]
基于逃逸时间与剩余均衡准则的模型表示如下:
[0038][0039][0040]
其中,t
ij
表示第j个目标从第i个火力单元的打击区逃逸时间,p
tj
为第j个目标的预期毁伤概率门限;
[0041]
基于最小化总时间准则的模型表示如下:
[0042][0043][0044]
其中,t
ij
表示第j个目标到达第i个火力单元杀伤区远界的时间,t
mij
表示第j个目标在第i个火力单元杀伤区停留的时间,t
zh
表示转火时间。
[0045]
在上述基于人机结合策略学习的目标智能分配方法中,
[0046]
目标重要度的模型表示如下:
[0047]
w(j)=1-0.1ij,1≤ij≤3
[0048]
其中,ij表示第j个目标的保卫优先级;
[0049]
剩余飞行时间的模型表示如下:
[0050]
[0051]
其中,t
h1
,t
h2
,t
h3
,t
h4
为预先设置的四个大小不同的飞行时间阈值;
[0052]
关机点速度的模型表示如下:
[0053][0054]
其中,t
v1
,t
v2
,t
v3
为预先设置的三个大小不同的飞行速度阈值;
[0055]
最大高度的模型表示如下:
[0056][0057]
其中,t
h1
,t
h2
,t
h3
,t
h4
,t
h5
,t
h6
为预先设置的六个大小不同的飞行高度阈值。
[0058]
相应的,本发明还公开了一种基于人机结合策略学习的目标智能分配系统,包括:
[0059]
准则模型构建模块,用于基于人工经验准则策略样本库,建模并训练得到目标分配准则模型;
[0060]
量化模型构建模块,用于基于ahp的量化样本库,建模并训练得到目标特性量化模型;
[0061]
目标分配模块,用于根据任务需求和目标态势输入,利用准则模型构建模块得到的目标分配准则模型和量化模型构建模块得到的目标特性量化模型,进行目标分配建模优化,得到目标分配结果。
[0062]
本发明具有以下优点:
[0063]
(1)本发明公开了一种基于人机结合策略学习的目标智能分配方法,给出基于人机结合策略学习的分层式的目标智能分配方法流程,能够有效融入人工先验知识规则、人工决策判定等人类经验,提升目标分配的准确性和高效性。
[0064]
(2)本发明公开了一种基于人机结合策略学习的目标智能分配方法,针对大规模集群目标分配过程中目标及环境态势的多维不确定性因素,给出了不少于7类适用的基本准则策略模型和不少于4类适用的目标特性量化模型,为全流程的快速目标分配提供了基础模型。
[0065]
(3)本发明公开了一种基于人机结合策略学习的目标智能分配方法,提出了基于
强化学习的策略学习模型,该模型适用于多种任务需求、多种态势输入情况,以及对应不同任务需求、态势输入组合条件下的人工策略选择的训练和学习,能够快速收敛得到适用的网络模型参数,支持人机结合决策。
附图说明
[0066]
图1是本发明实施例中一种基于人机结合策略学习的目标智能分配方法的流程图;
[0067]
图2是本发明实施例中一种基于强化学习的人工经验准则策略学习模型示意图;
[0068]
图3是本发明实施例中一种目标特性人工量化策略学习模型示意图。
具体实施方式
[0069]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明公开的实施方式作进一步详细描述。
[0070]
本发明针对大规模集群目标分配过程中,目标数量、位置、类别、阵型、速度、时间等运动状态以及环境态势等多维不确定性因素,融入集群博弈对抗推演中累积的人类决策经验,提出一种基于人机结合策略学习的目标智能分配方法,有效发挥人机各自的特长,探索在动态不确定性环境下的目标分配智能快速决策方法,兼顾目标分配问题的完善度与求解复杂度之间的平衡,提升目标分配的准确性和高效性。
[0071]
如图1,在本实施例中,该基于人机结合策略学习的目标智能分配方法,包括:
[0072]
步骤1,基于人工经验准则策略样本库,建模并训练得到目标分配准则模型。
[0073]
在本实施例中,目标分配准则模型中至少包括如下分配准则:基于最大毁伤概率准则、基于最大威胁准则、基于威胁度随机分配准则、基于最大毁伤概率最少单元准则、基于最大效费比准则、基于逃逸时间与剩余均衡准则和基于最小化总时间准则。
[0074]
优选的,如图2,目标分配准则模型的建立过程如下:建立人工经验准则策略样本库。将人工经验准则策略样本中的各样本输入到基于强化学习的准则策略学习模型中进行训练,同时,由上文的基本准则策略模型提供策略选择结果对应的具体准则,经过强化学习训练,得到准则策略学习模型的网络模型参数,进而构建得到目标分配准则模型。可见,本发明将原有的依靠人工经验直接选择某一条特定策略,转变为通过智能学习模型,自动生成最适应的目标分配准则,实现人工经验的有效积累和应用。其中,人工经验准则策略样本库中至少包括:多种任务需求、多种态势输入情况,以及对应不同任务需求、态势输入组合条件下的人工策略选择结果。
[0075]
进一步的,各分配准则的模型表示具体如下:
[0076]
基于最大毁伤概率准则的模型表示如下:
[0077]
[0078][0079]
其中,m表示目标数,n表示火力单元数,i表示火力单元编号,j表示目标编号,i=1,2,

,m,j=1,2,

,m;x
ij
表示分配决策变量,若分配第i个火力单元打击第j个目标,则x
ij
=1,否则x
ij
=0;p
ij
表示第i个火力单元对第j个目标的毁伤概率;wj表示第j个目标的威胁值。
[0080]
基于最大威胁准则的模型表示如下:
[0081][0082]
基于威胁度随机分配准则的模型表示如下:
[0083][0084]
基于最大毁伤概率最少单元准则的模型表示如下:
[0085][0086][0087]
其中,p
dj
表示第j个目标的预设毁伤概率门限,pj表示所分配火力对第j个目标的联合毁伤概率,为pj的均值。
[0088]
基于最大效费比准则的模型表示如下:
[0089]
[0090][0091]
基于逃逸时间与剩余均衡准则的模型表示如下:
[0092][0093][0094]
其中,t
ij
表示第j个目标从第i个火力单元的打击区逃逸时间,为第j个目标的预期毁伤概率门限。
[0095]
基于最小化总时间准则的模型表示如下:
[0096][0097][0098]
其中,t
ij
表示第j个目标到达第i个火力单元杀伤区远界的时间,t
mij
表示第j个目标在第i个火力单元杀伤区停留的时间,t
zh
表示转火时间。
[0099]
步骤2,基于ahp的量化样本库,建模并训练得到目标特性量化模型。
[0100]
在本实施例中,目标特性量化模型,用于确定在对目标威胁进行综合评估时所涉及的定性和定量因素,至少包括:是否为上级指定、发射点位置、预测落点位置、射程、关机点速度、再入速度、毁伤类型、毁伤威力、毁伤影响、毁伤难以程度、生存能力、机动能力、命中精度、剩余飞行时间、最大高度和目标重要度。
[0101]
优选的,如图3,目标特性量化模型的建立过程如下:建立基于ahp的量化样本库。将基于ahp的量化样本库中的各样本输入到基于强化学习的量化策略学习模型中进行训练,同时,由上文的目标特性量化建模提供相应的要素建模,经过强化学习训练,得到量化策略学习模型的网络模型参数,进而构建得到目标特性量化模型。可见,本发明将原有的依靠人工的重要度比较生成量化结果,转变为通过智能学习模型,自动生成最适应的量化策略并得到对应的量化结果,实现人工经验的有效积累和应用。其中,基于ahp的量化样本库中至少包括:在目标分配任务中的定量评估要素类型、要素间两两相对重要度评分和不同组合条件下的人工量化经验结果。
[0102]
进一步的:
[0103]
目标重要度的模型表示如下:
[0104]
w(j)=1-0.1ij,1≤ij≤3
[0105]
其中,ij表示第j个目标的保卫优先级。
[0106]
剩余飞行时间的模型表示如下:
[0107][0108]
其中,t
h1
,t
h2
,t
h3
,t
h4
为预先设置的四个大小不同的飞行时间阈值。
[0109]
关机点速度的模型表示如下:
[0110][0111]
其中,t
v1
,t
v2
,t
v3
为预先设置的三个大小不同的飞行速度阈值。
[0112]
最大高度的模型表示如下:
[0113][0114]
其中,t
h1
,t
h2
,t
h3
,t
h4
,t
h5
,t
h6
为预先设置的六个大小不同的飞行高度阈值。
[0115]
步骤3,根据任务需求和目标态势输入,利用步骤1得到的目标分配准则模型和步骤2得到的目标特性量化模型,进行目标分配建模优化,得到目标分配结果。
[0116]
在本实施例中,按照准则策略、目标特性量化、目标分配三个层级展开,分别对应上述步骤1、步骤2和步骤3。其中,准则策略层,主要是根据任务需求,自动生成相适应的目标分配准则;目标特性量化层,主要是根据目标态势,自动生成相适应的目标特性量化结
果;目标分配层,根据任务需求和态势输入,利用准则策略层和目标特性量化层学习得到的相适应的策略,进行目标分配建模优化,得到目标分配结果。
[0117]
优选的,如前所述,目标分配层主要完成目标分配建模优化任务。由于目标分配任务属于非线性组合优化决策问题,解空间大小随着火力单元数量和目标数量的增加呈指数增加,因此需要利用智能优化方法,提升收敛速度,快速实现较大规模求解的目标分配任务。
[0118]
综上所述,本发明给出了采用深度神经网络对人工经验准则策略函数的近似逼近,定义了网络模型、状态空间、动作空间关系。其次,采用ahp法构建判断矩阵,应用1~5级模糊标度方法对同层因素两两比较量化,形成判断矩阵,将上述依靠人工经验打分获取模糊标度的过程转化为一个策略函数的近似,具体途径可采用权利要求8的深度神经网络。此外,还给出了采用pso为代表的算法进行目标分配优化的方法(包含:1)pso初始化;2)pso编码;3)sa-pso混合),实现求解目标分配任务的目的。
[0119]
在上述实施例的基础上,下面结合一个具体实例进行说明。
[0120]
该基于人机结合策略学习的目标智能分配方法的设计如下:
[0121]
(1)基于人机结合策略学习的目标智能分配方法的流程设计
[0122]
设计一种基于人机结合策略学习的目标智能分配方法的流程,按照准则策略层、目标特性量化层、目标分配层三个层级展开:
[0123]
准则策略层,主要是根据任务需求,自动生成相适应的目标分配准则。将原有的依靠人工经验直接选择某一条特定策略,转变为通过智能学习模型,自动生成最适应的目标分配准则,实现人工经验的有效积累和应用。
[0124]
目标特性量化层,主要是根据目标态势,自动生成相适应的目标特性量化结果。将原有的依靠人工的重要度比较生成量化结果,转变为通过智能学习模型,自动生成最适应的量化策略并得到对应的量化结果,实现人工经验的有效积累和应用。
[0125]
目标分配层,根据任务需求和态势输入,利用准则策略层和目标特性量化层学习得到的相适应的策略,进行目标分配建模优化,得到目标分配结果。
[0126]
(2)准则策略层的建模与学习
[0127]
准则策略层涉及基本准则策略建模、人工经验准则策略学习两个环节:
[0128]
基本准则策略建模:
[0129]
假设在某次任务中,空中m个目标进入了n个火力单元的射程范围。根据问题描述,建立基于不同准则的目标分配模型,可以包括但不限于:根据问题描述,建立基于不同准则的目标分配模型,可以包括但不限于:基于最大毁伤概率准则、基于最大威胁准则、基于威胁度随机分配准则、基于最大毁伤概率最少单元准则、基于最大效费比准则、基于逃逸时间与剩余均衡准则、基于最小化总时间准则等。
[0130]
人工经验准则策略学习:
[0131]
建立人工经验准则策略样本库,该样本库包括:多种任务需求、多种态势输入情况,以及对应不同任务需求、态势输入组合条件下的人工策略选择结果。将上述内容输入到基于强化学习的准则策略学习模型进行训练,同时由上文的基本准则策略模型提供策略选择结果对应的具体准则,经过强化学习训练,产生学习得到的网络模型参数。
[0132]
学习过程可以采用各类通用强化学习方法,仅以深度神经网络为例说明。
[0133]
将样本库连续状态空间s作为网络的输入,连续动作空间a即为网络的输出,由于深层神经网络可以实现对任意连续函数的近似,因此,利用深层神经网络实现对人工经验准则策略函数的近似逼近,将网络模型记为π,则网络模型π与状态空间s和动作空间a之间关系可由下式表示:
[0134]
a=π(s)a∈a,s∈s
[0135]
网络π基本结构中,其输入为某一个连续状态向量s∈s,输出为针对该状态的输出最优的连续动作向量a∈a,再利用“连续——离散动作映射模型”便可以得到学习结果。网络π的设计,可以根据训练过程进行调节,示例中网络包括一个输入层、一个输出层、2个隐层,神经元类型采用relu型。根据上述参数结构,假定网络π第j个隐藏层输出为zj(j=1,2),那么,策略网络π可以输出的动作向量q可由下式计算得到:
[0136][0137]
q=π(s)=relu(w3relu(w2(relu(w1[s 1]
t
))))
[0138]
其中,relu(x)=max(0,x)为修正线性激活函数。
[0139]
则,训练后得到的:
[0140]
基于最大毁伤概率准则的模型表示如下:
[0141][0142][0143]
其中,m表示目标数,n表示火力单元数,i表示火力单元编号,j表示目标编号,i=1,2,

,m,j=1,2,

,m;x
ij
表示分配决策变量,若分配第i个火力单元打击第j个目标,则x
ij
=1,否则x
ij
=0;p
ij
表示第i个火力单元对第j个目标的毁伤概率;wj表示第j个目标的威胁值;
[0144]
基于最大威胁准则的模型表示如下:
[0145][0146]
基于威胁度随机分配准则的模型表示如下:
[0147][0148]
基于最大毁伤概率最少单元准则的模型表示如下:
[0149][0150][0151]
其中,p
dj
表示第j个目标的预设毁伤概率门限,pj表示所分配火力对第j个目标的联合毁伤概率,为pj的均值。当一个火力单元的毁伤概率低于设定的门限时,则认为分配无效;同时越小,则毁伤概率的均值也就越大,从而可以确保用较小的火力资源来打击目标。此外,在火力单元分配数目相同的情况下,通过选择具有较大毁伤概率的火力单元可以确保对目标的毁伤概率最大。
[0152]
基于最大效费比准则的模型表示如下:
[0153][0154][0155]
基于逃逸时间与剩余均衡准则的模型表示如下:
[0156][0157][0158]
其中,t
ij
表示第j个目标从第i个火力单元的打击区逃逸时间,为第j个目标的预期毁伤概率门限。pj约束保证各目标的联合毁伤概率均达到预期毁伤概率门限,如果对
某个目标的联合毁伤概率pj低于毁伤概率门限则认为对目标的分配为无效分配。毁伤概率门限根据态势由指挥员确定。
[0159]
基于最小化总时间准则的模型表示如下:
[0160][0161][0162]
其中,t
ij
表示第j个目标到达第i个火力单元杀伤区远界的时间,t
mij
表示第j个目标在第i个火力单元杀伤区停留的时间,t
zh
表示转火时间。
[0163]
(3)目标特性量化层建模与学习
[0164]
目标特性量化层涉及目标特性量化建模、目标特性人工量化策略学习两个环节:
[0165]
目标特性量化建模:
[0166]
在目标分配任务中,对目标威胁的综合评估涉及众多定性和定量因素,可以包括但不限于:是否为上级指定、发射点位置、预测落点位置、射程、关机点速度、再入速度、毁伤类型、毁伤威力、毁伤影响、毁伤难以程度、生存能力、机动能力、命中精度、剩余飞行时间、最大高度和目标重要度等。
[0167]
目标特性人工量化策略学习:
[0168]
建立基于ahp的量化样本库,该样本库包括:在目标分配任务中的定量评估要素类型、要素间两两相对重要度评分,以及不同组合条件下的人工量化经验结果。将上述内容输入到基于强化学习的量化策略学习模型进行训练,同时由上文的目标特性量化建模提供相应的要素建模,经过强化学习训练,产生学习得到的网络模型参数。
[0169]
以ahp法构建为例进行说明:
[0170]
采用ahp法构建判断矩阵,应用1~5级模糊标度方法对同层因素两两比较量化,形成判断矩阵a=(a
ij
)n×n,其中n为因素的个数,a
ij
表示威胁因子bi对bj的相对重要性,且满足a
ijaji
=1,取值如下:
[0171]
1:表示两个元素相比,具有同样重要性;
[0172]
2:表示两个元素相比,bi比bj稍微重要;
[0173]
3:表示两个元素相比,bi比bj明显重要;
[0174]
4:表示两个元素相比,bi比bj强烈重要;
[0175]
5:表示两个元素相比,bi比bj极端重要。
[0176]
将上述依靠人工经验打分获取模糊标度的过程转化为一个策略函数的近似。近似拟合的过程可以采用线性拟合、多项式拟合等方法,也可以采用上文(2)人工经验准则策略学习部分中采用的深度神经网络,不再展开。
[0177]
优选的,示例中选取目标重要度、剩余飞行时间、关机点速度、最大高度作为要素。
分析和量化如下:
[0178]
目标重要度
[0179]
假设重要度分为k级,一共有m个目标,满足k≤m。其中,1级为最高,2级次之,依次类推。则目标重要度的模型表示如下:
[0180]
w(j)=1-0.1ij,1≤ij≤3
[0181]
其中,ij表示第j个目标的保卫优先级。
[0182]
剩余飞行时间
[0183]
根据目标飞行时间大小变化特点进行线性差值处理,得到的剩余飞行时间模型表示如下:
[0184][0185]
其中,t
h1
,t
h2
,t
h3
,t
h4
为预先设置的四个大小不同的飞行时间阈值,可根据经验调节。
[0186]
关机点速度
[0187]
根据目标关机点速度大小变化特点进行线性差值处理,得到关机点速度的模型表示如下:
[0188][0189]
其中,t
v1
,t
v2
,t
v3
为预先设置的三个大小不同的飞行速度阈值,根据经验调节。
[0190]
最大高度
[0191]
根据飞行高度变化特点进行线性差值处理,得到最大高度的模型表示如下:
[0192][0193]
其中,t
h1
,t
h2
,t
h3
,t
h4
,t
h5
,t
h6
为预先设置的六个大小不同的飞行高度阈值,根据经验调节。
[0194]
(4)目标分配层综合
[0195]
目标分配层主要完成目标分配建模优化任务。由于目标分配任务属于非线性组合优化决策问题,解空间大小随着火力单元数量和目标数量的增加呈指数增加,因此需要利用智能优化方法,提升收敛速度,快速实现较大规模求解的目标分配任务。
[0196]
以采用pso为代表的算法进行目标分配优化进行说明。
[0197]
pso初始化:
[0198]
对一群随机粒子进行初始化,得到初始解。之后通过迭代搜索最优解,在迭代的过程中粒子依据个体极值和全局极值进行更新。其中,粒子自身所找到的最优解为个体极值,当前整个种群的最优解为全局极值。粒子的速度和位置可以根据下式更新
[0199]
v(t 1)=wv(t) c1r1[pbest(t)-x(t)] c2r2[gbest(t)-x(t)]
[0200]
x(t 1)=x(t) v(t 1)
[0201]
式中,v(t)和x(t)代表粒子在t时刻的速度和位置。w代表惯性权重,r1和r2为0到1之间的随机数,c1和c2代表学习因子,在粒子接近最优点的过程中用来衡量粒子向优秀粒子学习的能力。其中,c1对粒子接近个体最优的步长进行调整,c2对粒子靠近种群最优的步长进行调整。当学习因子的值较小时,粒子在离优秀粒子较远的区域运动。当学习因子的值较大时,粒子接近优秀粒子的速度变大,但值过大时会使得粒子再次远离优秀粒子。
[0202]
pso编码:
[0203]
设计一种基于实数的编码方式,用粒子位置代表一种目标分配的候选方案,设粒子位置矢量维度为m(即火力单元数目),粒子总数为r,则第r个粒子的位置矢量为xr=[x
r1 x
r2
ꢀ…ꢀ
xm],其中xn(i=1,2,

,m)为0~n之间的整数。粒子速度矢量为vr=[v
r1 v
r2
ꢀ…ꢀ
vm],其中vn(i=1,2,

,m)为-(n-1)~(n-1)之间的整数。
[0204]
将xr转化为适合0-1整数规划的决策变量形式:
[0205]
x=[x
ij
]m×n(i=1,2,

,m,j=1,2,

,n)
[0206]
具体转化公式如下式所示:
[0207][0208]
第r个粒子在i维子空间中的飞行速度和位置按下式进行更新:
[0209][0210][0211]
式中:c1和c2为学习因子,是正常数;r1和r2为介于(0,1)之间的随机数;w为惯性权重;pr为第r个粒子搜索到的最优位置,又称个体极值;pg为整个种族迄今为止搜索到的最优位置,又称全局极值;表示取整。
[0212]
sa-pso混合
[0213]
step1:初始化pso参数。确定惯性权重w,学习因子c1、c2和种群规模r,设定最大迭代次数k
max

[0214]
step2:随机产生r个粒子的种群,即随机产生r个初始种群和r个初始速度其中r=1,2,

,r。
[0215]
step3:计算各粒子适应度gr并与个体极值pr比较,取优更新为个体极值pr。
[0216]
step4:每个粒子个体极值pr与全局极值pg比较,取优更新为全局极值pg。
[0217]
step5:如果满足终止条件,则结束程序,否则,执行step6。
[0218]
step6:根据特定的粒子更新规则计算每个粒子下一时刻的飞行速度和位置并把速度和位置分别限制在(v
min
,v
max
)和(x
min
,x
max
)内。
[0219]
step7:执行sa算法
[0220]
{
[0221]
步骤

:初始化sa参数,设定初始温度t和每个t值的迭代次数l。
[0222]
步骤

:对k=1,2,

,l,执行步骤

~步骤


[0223]
步骤

:产生新解xr'。
[0224]
步骤

:计算e(r)=g
r-gr',其中gr'为新解的适应度函数。
[0225]
步骤

:若e(r)<0,则接受xr',否则以概率exp(-e(r)/t)接受xr',
[0226]
步骤

:如果满足终止条件,则输出当前解作为最优解,结束程序;否则,进入step8。
[0227]
}
[0228]
step8:以退火温度收敛率α逐步降低温度,即t=αt,如果t≥0则转step3,否则结束程序。
[0229]
在上述实施例的基础上,本发明还公开了一种基于人机结合策略学习的目标智能分配系统,包括:准则模型构建模块,用于基于人工经验准则策略样本库,建模并训练得到目标分配准则模型;量化模型构建模块,用于基于ahp的量化样本库,建模并训练得到目标特性量化模型;目标分配模块,用于根据任务需求和目标态势输入,利用准则模型构建模块得到的目标分配准则模型和量化模型构建模块得到的目标特性量化模型,进行目标分配建模优化,得到目标分配结果。
[0230]
对于系统实施例而言,由于其与方法实施例相对应,所以描述的比较简单,相关之处参见方法实施例部分的说明即可。
[0231]
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
[0232]
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献