一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于大数据的组队循迹规划导航方法与流程

2022-02-19 23:49:36 来源:中国专利 TAG:


1.本发明涉及一种高可靠性、高精度、用时短的基于大数据的组队循迹规划导航方法。


背景技术:

2.对于目前的人工智能运动设备如无人机、无人车、无人船等通过无线传输遥控装置或自主传感控制设备完成相应任务的设备,循迹规划导航是执行任务的有效技术手段,轨迹可靠才能确保设备(节点)完成任务。传统的规划方法有多种,包括人工势场法、dijkstra算法等。这些方法简单有效,但缺点是一旦节点计算数目增加,计算量和内存需求剧增,同时对全局规划的能力也明显不足。随着人工智能设备运行环境日趋复杂,传统规划方法计算复杂度高、实时性差,难以实时控制无人机飞行。此外,目前算法的建模过程并未考虑干扰因素的影响,导致节点运动数据具有偏差,使强化学习算法决策的动作失准,难以满足轨迹规划的可靠性。


技术实现要素:

3.本发明的目的在于提供一种定位精度高、运行时间短、循迹效果好的基于大数据的组队循迹规划导航方法。
4.本发明的目的是这样实现的:
5.一种基于大数据的组队循迹规划导航方法,包括如下步骤:
6.(1)获取组队各节点环境和运动数据;
7.(2)对组队的各节点进行轨迹规划,依据节点运动速度确定节点每一步的步长;根据步长规划出从轨迹起点到终点的n个定位轨迹点;
8.(3)n个定位轨迹点处搜索节点的最优空间位置;
9.(4)获得节点运动最优状态;
10.(5)根据节点运动最优状态,构建节点运动轨迹;
11.(6)通过随机森林回归的运动动作优化形成修正偏置的映射;
12.(7)对各节点包括综合数据的轨迹进行实时规划导航。
13.步骤(1)包括:
14.(1.1)设定最小防碰撞距离:
[0015][0016]
其中:表示t时刻i1、i2两个节点的位置,i1≠i2,s
min
为节点最小防碰撞距离;
[0017]
(1.2)获取路程距离:
[0018][0019]
其中:v
t,m
为t时刻标号为m节点的移动速度,m为节点总数,o为循迹规划终点位置,x
t,m
为t时刻m节点的位置,t1为节点运动的起始时间,t2为节点运动的终止时间,其中i为标号;
[0020]
(1.3)设定最大通信距离:
[0021][0022]
其中:为主节点a
i
在t时刻的位置,为从节点b
i
在t时刻的位置,s
max
为节点最大通信距离;
[0023]
(1.4)获取安全代价:
[0024]
获取t时刻第i个节点到第r个雷达的距离:
[0025][0026]
(x
t,i
,y
t,i
,z
t,i
)为第i个节点在t时刻的位置;为各节点上共r个雷达中第r个雷达探测区域的中心位置坐标;
[0027]
获取t时刻第r个雷达对第i个节点的单位时间威胁代价:
[0028][0029]
s
rmax
为第r部雷达的最远探测半径;s
rmin
为第r部雷达的预警区域半径;
[0030]
获得外部节点威胁代价:
[0031][0032]
获取t时刻第i个节点到第w个禁行区域的距离:
[0033][0034]
为w个禁行区域中第w个禁行区域的中心位置;
[0035]
获取t时刻第w个禁行区域对第i个节点的单位时间威胁代价:
[0036][0037]
s
wmin
为禁行区域的最小威胁半径,s
wmax
为禁行区域的最大威胁半径;
[0038]
获得禁行区域威胁代价:
[0039][0040]
获得节点运动的安全代价:
[0041]
s
th
=s
an
s
pr
[0042]
(1.5)获得节点的姿态参数:
[0043][0044]
其中:v
max
为节点的最大速度、为节点的最大俯仰角、θ
max
为节点的最大方位角、v
t,i
为t时刻i节点的速度、为t时刻i节点的俯仰角、θ
t,i
为t时刻i节点的方位角。
[0045]
步骤(3)包括:
[0046][0047][0048]
其中:k为当前迭代次数,c1和c2为学习因子,rand()为随机函数,pbest
k
为t时刻第i个节点的历史最好位置,gbest
k
为所有节点经历的最好位置,α为惯性系数。
[0049]
步骤(4)包括:
[0050]
(4.1)在t时刻,节点运动的状态向量为:
[0051]
ξ
i
(t)=[q
i
(t),v
i
(t)]
t
[0052]
式中,q
i
(t)=[q
x,i
(t),q
y,i
(t),q
z,i
(t)]
t
表示节点位置信息,q
x,i
(t)、q
y,i
(t)和q
z,i
(t)分别代表笛卡尔坐标系下,第i个节点t时刻在三维空间中x、y和z三个方向的位置坐标点,v
i
(t)=[v
x,i
(t),v
y,i
(t),v
z,i
(t)]
t
表示第i个节点t时刻的速度信息,v
x,i
(t)、v
y,i
(t)和v
z,i
(t)分别代表笛卡尔坐标系下,第i个节点t时刻在三维空间中x、y和z三个方向的速度分量;
[0053]
(4.2)根据t

1时刻节点的运动状态ξ
i
(t

1|t),完成t时刻的状态预测:
[0054][0055]
式中,为任意ω个采样间隔内节点的机动模型,为节点在实际环境中运动的随机扰动或白噪声;
[0056]
(4.3)计算t时刻的量测预测:
[0057]
β
i
(t|t

1)=h
i
(t)δ
i
(t|t

1)
[0058]
线性测量矩阵为:
[0059][0060]
||||表示求模运算;
[0061]
(4.4)节点传感器获得有效量测数据m
i
(t):
[0062][0063]
(4.5)计算每个有效量测数据m
i
(t)的新息:
[0064]
ε
i
(t)=m
i
(t)

β
i
(t|t

1)
[0065]
(4.6)计算t

1时刻节点状态协方差为:
[0066][0067]
cov()表示协方差运算;
[0068]
(4.7)计算t时刻的状态协方差预测p
i
(t|t

1):
[0069][0070]
为随机扰动对应的协方差;
[0071]
(4.8)预测新息的协方差o(t):
[0072][0073]
y(t)为量测噪声协方差:
[0074][0075]
(4.9)计算每个量测数据的关联概率γ
i
(t):
[0076][0077][0078]
(4.10)综合新息:
[0079][0080]
(4.11)更新节点在t时刻的最优状态ξ
i
(t|t),用于t 1时刻的最优运动状态更新:
[0081]
ξ
i
(t|t)=ξ
i
(t|t

1) k(t)ε(t)
[0082]
k(t)=p
i
(t|t

1)h
i
(t)i
‑1(t)为卡尔曼滤波器增益;
[0083]
(4.12)更新节点在t时刻的状态协方差预测p(t|t):
[0084][0085]
(4.13)重复执行步骤(4.2)到(4.12),得到节点的最优运动状态。
[0086]
步骤(5)包括:
[0087]
(5.1)根据节点运动的状态向量ξ
i
(t),确定节点轨迹规划的强化学习状态空间s
i,t
为:
[0088]
s
i,t
=ξ
i
(t|t)
[0089]
(5.2)获取节点轨迹规划的强化学习动作空间a
i,t
为:
[0090][0091]
θ
i,t
=θ
t,i

[0092]
(5.3)设定节点轨迹规划的强化学习奖励函数r
i,t
为:
[0093]
r
i,t
=r
i,1
r
i,2
[0094]
r
i,1
为第i个节点的达正奖励,r
i,2
为负奖励;
[0095][0096][0097]
式中,p
t1
为节点的起始位置,s
max
表示节点能源可提供的最大可运动距离;
[0098]
(5.4)搭建actor网络和critic网络,均为3层全连接网络结构,actor网络的输入层为2个神经元,输出层为6个神经元,critic网络的输入层为8个神经元,输出层为1个神经元;actor网络学习率为2
×
10
‑4,critic网络学习率为4
×
10
‑4,设置训练参数:回合更新次数为15000,每回合时间步数为75,延迟步数为3,记忆池大小为6000,采集经验数据的批量大小为16,折扣因子大小为0.99;
[0099]
(5.5)按照td3算法进行网络训练,得到节点运动轨迹,其中网络为actor网络和critic网络,均为3层全连接网络结构,actor网络的输入层为2个神经元,输出层为6个神经元,critic网络的输入层为8个神经元,输出层为1个神经元;actor网络学习率为2
×
10
‑4,critic网络学习率为4
×
10
‑4,设置训练参数:回合更新次数为15000,每回合时间步数为75,延迟步数为3,记忆池大小为6000,采集经验数据的批量大小为16,折扣因子大小为0.99。
[0100]
步骤(6)包括:
[0101]
(6.1)采集t时刻节点i轨迹连线和节点与终点连线的动作偏置构建任意t时刻节点i的角度数据集,生成回归模型训练的数据集生成回归模型训练的数据集
[0102]
(6.2)按照td3算法训练的actor网络,决策节点每一时刻的强化学习动作空间a
i,t
;节点执行运动动作到下一位置;连接前后两个位置形成标定线;
[0103]
(6.3)设置随机森林回归模型的基本参数:决策树个数100,决策树最大深度10,训练随机森林回归模型,得到运动动作到运动动作修正偏置的映射。
[0104]
步骤(7)包括:
[0105]
(7.1)将节点在t时刻的最优状态ξ
i
(t|t)输入td3算法训练的actor网络,决策动作空间a
i,t

[0106]
(7.2)将步骤动作空间a
i,t
输入已训练的随机森林回归模型,得到对应的动作偏置
[0107]
(7.3)判决运动动作偏置:
[0108]
[0109]
若τ>0.85,则不进行动作优化;若τ≤0.85,则进行动作优化;
[0110]
(7.4)若不优化运动动作,则继续按照动作空间a
i,t
控制输出;若需要优化运动动作,则新的动作空间为a
i,t_new

[0111][0112]
(7.5)在节点运动过程中,循环执行步骤(7.1)—(7.4),形成最终轨迹。
[0113]
本发明的有益效果在于:本发明针对实际环境中,组队节点传感器采集的数据受到噪声干扰影响存在误差,导致深度学习网络决策运动动作不佳的问题,提供了一种基于大数据的组队循迹规划导航方法。采用上述技术方案解算的组队拥有相对于现有方法更优异的循迹导航效果,定位精度高、运行时间短。通过状态优化引入了目标跟踪,最优估计节点的运动状态,极大削弱了环境干扰因素对探测数据的干扰,同时结合了姿态优化,进行个方位角度的修订,解决了节点动作调整的问题,提高了循迹的可靠性和抗干扰能力。在开始时的定位点处拥有非常明显的定位优势,算法速度提升了10倍以上。
附图说明
[0114]
图1为本发明流程图;
[0115]
图2为获取组队各节点环境和运动数据的详细流程图;
[0116]
图3为获得节点运动最优状态的详细流程图;
[0117]
图4为构建节点运动轨迹的详细流程图;
[0118]
图5为通过随机森林回归的运动动作优化形成修正偏置的映射的详细流程图;
[0119]
图6为对各节点包括综合数据的轨迹进行实时规划导航的详细流程图。
具体实施方式
[0120]
下面结合附图对本发明做进一步描述。
[0121]
本发明属于人工智能控制领域,本发明联合状态优化和动作优化,降低了环境干扰因素对智能设备的轨迹的影响。
[0122]
如图所示,本发明是一种基于定位寻优的基于大数据的组队循迹规划导航方法。考虑一组节点如无人机、无人船、无人车或者工业机器人等,在组队运动过程中获取组队各节点环境和运动数据,选择相对位置的方式实现组队控制。对组队的各节点进行轨迹规划,依据节点运动速度确定节点每一步的步长;根据步长规划出从轨迹起点到终点的n个定位轨迹点;对组队的各节点进行轨迹规划,依据节点运动速度确定节点每一步的步长;根据步长规划出从轨迹起点到终点的n个定位轨迹点,在定位轨迹点处采用时差定位方式执行目标定位运算,n个定位轨迹点处搜索节点的最优空间位置;此时,各节点将自身位置以及目标测量数据上传,获得节点运动最优状态,构建节点运动轨迹,通过对节点轨迹的规划实现包括定位精度在内的综合代价最优。最后通过随机森林回归的运动动作优化形成修正偏置的映射,对各节点包括综合数据的轨迹进行实时规划导航。
[0123]
进一步的,包括:
[0124]
(1.1)设定最小防碰撞距离:
[0125][0126]
其中:表示t时刻i1、i2两个节点的位置,i1≠i2,s
min
为节点最小防碰撞距离;
[0127]
(1.2)获取路程距离:
[0128][0129]
其中:v
t,m
为t时刻标号为m节点的移动速度,m为节点总数,o为循迹规划终点位置,x
t,m
为t时刻m节点的位置,t1为节点运动的起始时间,t2为节点运动的终止时间,其中i为标号;
[0130]
(1.3)设定最大通信距离:
[0131][0132]
其中:为主节点a
i
在t时刻的位置,为从节点b
i
在t时刻的位置,s
max
为节点最大通信距离;
[0133]
(1.4)获取安全代价:
[0134]
获取t时刻第i个节点到第r个雷达的距离:
[0135][0136]
(x
t,i
,y
t,i
,z
t,i
)为第i个节点在t时刻的位置;为各节点上共r个雷达中第r个雷达探测区域的中心位置坐标;
[0137]
获取t时刻第r个雷达对第i个节点的单位时间威胁代价:
[0138][0139]
s
rmax
为第r部雷达的最远探测半径;s
rmin
为第r部雷达的预警区域半径;
[0140]
获得外部节点威胁代价:
[0141][0142]
获取t时刻第i个节点到第w个禁行区域的距离:
[0143][0144]
为w个禁行区域中第w个禁行区域的中心位置;
[0145]
获取t时刻第w个禁行区域对第i个节点的单位时间威胁代价:
[0146][0147]
s
wmin
为禁行区域的最小威胁半径,s
wmax
为禁行区域的最大威胁半径;
[0148]
获得禁行区域威胁代价:
[0149][0150]
获得节点运动的安全代价:
[0151]
s
th
=s
an
s
pr
[0152]
(1.5)获得节点的姿态参数:
[0153][0154]
其中:v
max
为节点的最大速度、为节点的最大俯仰角、θ
max
为节点的最大方位角、v
t,i
为t时刻i节点的速度、为t时刻i节点的俯仰角、θ
t,i
为t时刻i节点的方位角。
[0155]
本发明所使用的优化方法,算法流程如图所示,首先初始化随机粒子即随机解,维数根据实际情况设置,每个维度对应一个需要优化的值,根据实际参数使用多个维度的值,作为一个节点的三维坐标以及其他指标的集合;例如在不考虑其他因素的情况下,使用9维粒子对应一个节点的空间位置。通过迭代找到最优解,在每一次的迭代中,粒子通过跟踪t时刻第i个节点的历史最好位置和所有节点经历的最好位置,进行自我更新。区别于单目标粒子群的迭代,多目标粒子群每一代的迭代结果中,都会选择当前的非劣解,对非劣解集进行更新,而群体的最优解则会从非劣解中随机选择。在找到这两个最优值后,粒子更新速度和位置参数,具体包括:
[0156][0157][0158]
其中:k为当前迭代次数,c1和c2为学习因子,rand()为随机函数,pbest
k
为t时刻第i个节点的历史最好位置,gbest
k
为所有节点经历的最好位置,α为惯性系数。
[0159]
进一步的,步骤(4)包括:
[0160]
(4.1)在t时刻,节点运动的状态向量为:
[0161]
ξ
i
(t)=[q
i
(t),v
i
(t)]
t
[0162]
式中,q
i
(t)=[q
x,i
(t),q
y,i
(t),q
z,i
(t)]
t
表示节点位置信息,q
x,i
(t)、q
y,i
(t)和q
z,i
(t)分别代表笛卡尔坐标系下,第i个节点t时刻在三维空间中x、y和z三个方向的位置坐标点,v
i
(t)=[v
x,i
(t),v
y,i
(t),v
z,i
(t)]
t
表示第i个节点t时刻的速度信息,v
x,i
(t)、v
y,i
(t)和v
z,i
(t)分别代表笛卡尔坐标系下,第i个节点t时刻在三维空间中x、y和z三个方向的速度分量;
[0163]
(4.2)根据t

1时刻节点的运动状态ξ
i
(t

1|t),完成t时刻的状态预测:
[0164][0165]
式中,为任意ω个采样间隔内节点的机动模型,为节点在实际环境中运动的随机扰动或白噪声;
[0166]
(4.3)计算t时刻的量测预测:
[0167]
β
i
(t|t

1)=h
i
(t)δ
i
(t|t

1)
[0168]
线性测量矩阵为:
[0169][0170]
||||表示求模运算;
[0171]
(4.4)节点传感器获得有效量测数据m
i
(t):
[0172][0173]
(4.5)计算每个有效量测数据m
i
(t)的新息:
[0174]
ε
i
(t)=m
i
(t)

β
i
(t|t

1)
[0175]
(4.6)计算t

1时刻节点状态协方差为:
[0176][0177]
cov()表示协方差运算;
[0178]
(4.7)计算t时刻的状态协方差预测p
i
(t|t

1):
[0179]
p
i
(t|t

1)=h
i
(t

1)q
i
(t

1|t

1)h
it
(t

1) u
[0180]
为随机扰动对应的协方差;
[0181]
(4.8)预测新息的协方差o(t):
[0182][0183]
y(t)为量测噪声协方差:
[0184][0185]
(4.9)计算每个量测数据的关联概率γ
i
(t):
[0186][0187][0188]
(4.10)综合新息:
[0189][0190]
(4.11)更新节点在t时刻的最优状态ξ
i
(t|t),用于t 1时刻的最优运动状态更新:
[0191]
ξ
i
(t|t)=ξ
i
(t|t

1) k(t)ε(t)
[0192]
k(t)=p
i
(t|t

1)h
i
(t)i
‑1(t)为卡尔曼滤波器增益;
[0193]
(4.12)更新节点在t时刻的状态协方差预测p(t|t):
[0194][0195]
(4.13)重复执行步骤(4.2)到(4.12),得到节点的最优运动状态。
[0196]
所述的td3为twin delayed deep deterministic policy gradient,考虑通过终端得到的最优运动状态,设计节点运动规划的强化学习状态空间,包括节点位置信息、速度信息等。若节点匀速率运动,控制速度方向就可以控制运动的方向,确定节点的方位角和俯仰角,当然在不同的节点设备中,方位角和俯仰角的名称不同,如无人车和无人机通常是方位角和俯仰角、无人船为艏向等。模型的训练应使节点的运动避免能耗并趋向终点,因此奖励函数r
i,t
;搭建td3网络结构,其中actor网络和critic网络,进行网络训练,得到基于td3的轨迹规划模型,包括:
[0197]
(5.1)根据节点运动的状态向量ξ
i
(t),确定节点轨迹规划的强化学习状态空间s
i,t
为:
[0198]
s
i,t
=ξ
i
(t|t)
[0199]
(5.2)获取节点轨迹规划的强化学习动作空间a
i,t
为:
[0200][0201]
θ
i,t
=θ
t,i

[0202]
(5.3)设定节点轨迹规划的强化学习奖励函数r
i,t
为:
[0203]
r
i,t
=r
i,1
r
i,2
[0204]
r
i,1
为第i个节点的达正奖励,r
i,2
为负奖励;
[0205][0206][0207]
式中,p
t1
为节点的起始位置,s
max
表示节点能源可提供的最大可运动距离;
[0208]
(5.4)搭建actor网络和critic网络,均为3层全连接网络结构,actor网络的输入层为2个神经元,输出层为6个神经元,critic网络的输入层为8个神经元,输出层为1个神经元;actor网络学习率为2
×
10
‑4,critic网络学习率为4
×
10
‑4,设置训练参数:回合更新次数为15000,每回合时间步数为75,延迟步数为3,记忆池大小为6000,采集经验数据的批量大小为16,折扣因子大小为0.99;
[0209]
(5.5)按照td3算法进行网络训练,得到节点运动轨迹,其中网络为actor网络和critic网络,均为3层全连接网络结构,actor网络的输入层为2个神经元,输出层为6个神经元,critic网络的输入层为8个神经元,输出层为1个神经元;actor网络学习率为2
×
10
‑4,critic网络学习率为4
×
10
‑4,设置训练参数:回合更新次数为15000,每回合时间步数为75,
延迟步数为3,记忆池大小为6000,采集经验数据的批量大小为16,折扣因子大小为0.99。
[0210]
进一步的,步骤(6)包括:
[0211]
(6.1)采集t时刻节点i轨迹连线和节点与终点连线的动作偏置构建任意t时刻节点i的角度数据集,生成回归模型训练的数据集生成回归模型训练的数据集
[0212]
(6.2)按照td3算法训练的actor网络,决策节点每一时刻的强化学习动作空间a
i,t
;节点执行运动动作到下一位置;连接前后两个位置形成标定线;
[0213]
(6.3)设置随机森林回归模型的基本参数:决策树个数100,决策树最大深度10,训练随机森林回归模型,得到运动动作到运动动作修正偏置的映射。
[0214]
进一步的,步骤(7)包括:
[0215]
(7.1)将节点在t时刻的最优状态ξ
i
(t|t)输入td3算法训练的actor网络,决策动作空间a
i,t

[0216]
(7.2)将步骤动作空间a
i,t
输入已训练的随机森林回归模型,得到对应的动作偏置
[0217]
(7.3)判决运动动作偏置:
[0218][0219]
若τ>0.85,则不进行动作优化;若τ≤0.85,则进行动作优化;
[0220]
(7.4)若不优化运动动作,则继续按照动作空间a
i,t
控制输出;若需要优化运动动作,则新的动作空间为a
i,t_new
,按照新动作空间控制输出:
[0221][0222]
(7.5)在节点运动过程中,循环执行步骤(7.1)—(7.4),形成最终轨迹。
[0223]
本发明主要在以下两个方面做出优化:
[0224]
1.为有效缩减循迹时长,本发明针对现有的多节点的空间位置优化中需要反复判断节点俯仰角、轨迹偏向角,引入节点控制策略。通过设置最大通信距离的限制和最小防碰撞的距离限制,进一步保证了节点的安全运行。通过空间位置排布进行节点空间位置的优化,在这样的策略下,节点不需要进行转角限制的判断和调整就能够进行循迹工作。
[0225]
2.本发明针对现有多节点控制中需要在判断节点间距时运算量较大的技术问题,引入笛卡尔坐标系对节点空间位置进行优化,只需考虑最小间距参数,避免了最大距离的迭代,通过参数调节节点位置,确保控制的要求满足间距控制条件,从而节省了大量运算时间。
[0226]
需要指出的是,本发明中已经对所有符号和特殊定义做出了解释,而其他技术特征以及一些简单参数均为本领域的公知常识。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献