一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种地外星表危险场景脱困策略学习训练系统与方法与流程

2022-02-20 13:31:42 来源:中国专利 TAG:


1.本发明涉及一种地外星表危险场景脱困策略学习训练系统与方法,属于深空探测技术领域。


背景技术:

2.深空探测任务中,着陆后的巡视探测是一种深入开展地外天体科学探测活动的重要方式.然而,地外星表地形环境复杂未知、光照差异大,探测器依靠视觉测量仅能获得目标的几何特征,对于沙地、浮坑等危险地形的感知识别能力弱,一旦发生车轮沉陷等情况,将严重影响巡视器安全。例如美国的勇气号火星车,即因车轮陷入火壤,无法脱困,不得不终止任务。因此,地面应充分识别风险,研究危险场景下脱困控制策略。
3.利用物理试验开展脱困控制策略的学习训练,代价大,风险高,效率低,力触测量信息难以获取,不能满足智能学习算法对大样本、反复试错学习的需求。因此,急需建立数字仿真环境及分布式学习训练平台,以获得有效脱困控制策略样本库,为发生危险情况下的成功脱困提供技术支持和地面试验手段,但目前未见相关报道。


技术实现要素:

4.本发明的目的在于克服上述缺陷,提供一种地外星表危险场景脱困策略学习训练方法及系统,利用高保真数字仿真环境和分布式架构,基于强化学习算法对巡视器进行高效训练,并对控制策略的有效性进行验证,以获得丰富的有效脱困控制策略样本库,为保障探测任务巡视器安全提供技术支持和地面试验手段。
5.为实现上述发明目的,本发明提供如下技术方案:
6.一种地外星表危险场景脱困策略学习训练方法,包括以下步骤:
7.(1)构建地外星表地貌环境数字模型和巡视器数字模型,所述地外星表地貌环境数字模型包括地貌特征和环境参数,巡视器数字模型包括巡视器动力学模型和状态参数;
8.(2)制定训练科目,所述训练科目包括与巡视器脱困场景对应的地外星表地貌环境、巡视器动力学状态、巡视器运行规则和脱困胜负条件;其中运行规则作为训练脱困控制策略神经网络过程中生成控制指令的一些约束条件,胜负条件是指最后对训练结果的评价标准,即是否成功脱困;
9.(3)根据训练科目设置地外星表地貌环境数字模型中环境参数和巡视器数字模型中动力学状态参数的初始值,生成与训练科目对应的仿真试验环境;
10.(4)构建脱困控制决策神经网络模型,并利用仿真试验环境生成的数据,在训练云平台中进行训练,得到训练好的脱困控制决策神经网络模型;
11.(5)将训练好的脱困控制决策神经网络模型转移到外部仿真平台或实际应用平台上,进行脱困控制策略的实时验证和二次优化。
12.进一步的,所述步骤(3)中,根据训练科目设置地外星表地貌环境数字模型中环境参数和巡视器数字模型中动力学状态参数的初始值为n组不同的数值,生成与训练科目对
应的n组仿真试验环境;
13.所述步骤(4)中,构建脱困控制决策神经网络模型,并在n组仿真试验环境中对所述模型进行并行训练,得到训练好的脱困控制决策神经网络模型;
14.所述n>1。
15.进一步的,所述步骤(4)中,在仿真试验环境中对所述模型进行训练的方法包括如下步骤:
16.(41)当前时刻t时,脱困控制决策神经网络模型接收样本,根据样本进行决策并向巡视器输出控制指令,并基于决策结果计算损失函数值,对模型参数进行优化;即,在训练模式下,智能体模型(即巡视器上的控制决策模块)中的决策模块(即脱困控制决策神经网络模型)会分布在多个仿真环境中进行仿真控制和决策。同时,智能体模型中的损失函数模块会对多个仿真环境中产生的损失值(reward)进行统计,并且通过分布式优化器在训练云平台上对决策模块(即脱困控制决策神经网络模型)的相关参数进行优化,优化后的参数被更新到各个仿真环境的决策模块中;
17.所述样本包括仿真试验环境中地外星表地貌环境当前时刻t的环境参数、巡视器当前时刻t的动力学状态参数、上一时刻t-1脱困控制决策神经网络模型向巡视器输出控制指令以及上一时刻脱困控制决策神经网络模型中的损失函数值;
18.所述决策结果根据训练科目中的脱困胜负条件进行判定;
19.所述脱困控制决策神经网络模型根据样本进行决策的约束条件包括根据巡视器运行规则生成的约束条件;
20.(42)下一时刻t 1时,巡视器根据控制指令执行动作;
21.使t 1=t,并返回步骤(41),直至损失函数值收敛到预定值。
22.进一步的,所述步骤(1)中,地外星表地貌环境数字模型中的地貌特征包括地表沙石,基岩或软土中的一种或一种以上的组合,环境参数包括重力,地面硬度系数,加速比中的一种或一种以上的组合。
23.进一步的,所述步骤(1)中,巡视器数字模型中的巡视器动力学状态参数包括巡视器位置,速度,转向,车轮角速度,车轮沉陷量或悬架角度中的一种或一种以上组合。
24.进一步的,所述步骤(4)中,推理决策神经网络模型为单一可扩展网络结构或组合网络结构。
25.进一步的,所述步骤(4)中,所述单一可扩展网络结构包括全链接网络,lstm,fcn或cnn中的一种或一种以上组合,组合网络结构包括transformer,pointernet,resnet,或multilrnn中的一种或一种以上组合。
26.进一步的,所述步骤(4)中,在仿真试验环境中对所述模型进行训练的过程中采用分布式架构对cpu和gpu计算资源进进行统一整合和调度。
27.进一步的,所述步骤(41)中,对模型参数优化的方法包括修改脱困控制决策神经网络模型组件、核心算法或演化方法;所述步骤(41)中,控制指令用于控制巡视器的目标速度、目标位置或电机驱动力矩中的一种或一种以上组合。
28.进一步的,所述步骤(5)中,基于统一的仿真环境通讯接口将训练好的脱困控制决策神经网络模型转移到外部仿真平台或实际应用平台上,保证输入输出变量类型、格式、通信协议,即保证外部仿真平台或实际应用平台与训练过程的框架一致,可以直接迁移。
29.一种地外星表危险场景脱困策略学习训练系统,用于实现上述的一种地外星表危险场景脱困策略学习训练方法,包括数字仿真环境构建模块,训练科目配置模块,脱困控制决策神经网络模型设计模块,资源配置与计算力调度模块及训练云平台;
30.数字仿真环境构建模块用于构建地外星表地貌环境数字模型和巡视器数字模型,根据训练科目设置地外星表地貌环境数字模型中环境参数和巡视器数字模型中动力学状态参数的初始值,生成与训练科目对应的仿真试验环境;
31.训练科目配置模块用于制定训练科目,所述训练科目包括与巡视器脱困场景对应的地外星表地貌环境、巡视器动力学状态、巡视器运行规则和脱困胜负条件;
32.脱困控制决策神经网络模型设计模块用于建立脱困控制决策神经网络模型;
33.训练云平台用于利用仿真试验环境对脱困控制决策神经网络模型进行训练,得到训练好的模型;
34.资源配置与计算力调度模块用于在脱困控制决策神经网络模型训练过程中对cpu和gpu计算资源进进行统一整合和调度。
35.本发明与现有技术相比具有如下有益效果:
36.(1)本发明创新性的提出一种种地外星表危险场景脱困策略学习训练系统与方法,基于高保真数字仿真环境,能够准确模拟巡视器在多种复杂环境下的运动,为学习训练提供有大量效数据样本,降低试验成本和风险,提高训练效率;
37.(2)现有技术中采用单机迭代式进行学习训练,样本量小、效率低,训练结果鲁棒性差;本发明基于分布式架构的训练平台,能够同时启动多个仿真环境,并合理调配异构计算资源,并行开展学习训练,既可以适应细粒度的资源调度需求,也可以满足大规模资源的管理需求,使训练平台真正实现了弹性计算的能力;
38.(3)本发明在神经网络训练过程中可灵活配置模型组件、根据训练效果对核心算法、演化方法等行调整,以保证输出智能水平提升,获得鲁棒、稳定的控制策略;
39.(4)基于统一的仿真环境通讯接口,本方法训练的决策模型能够快速迁移到外部仿真平台或实际应用平台上,提升虚实迁移效率,便于策略的快速验证和二次优化。
附图说明
40.图1为本发明一种地外星表危险场景脱困策略学习训练方法流程框图;
41.图2为本发明脱困控制决策神经网络模型训练仿真流程框图。
具体实施方式
42.下面通过对本发明进行详细说明,本发明的特点和优点将随着这些说明而变得更为清楚、明确。
43.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
44.本发明一种地外星表危险场景脱困策略学习训练方法和系统,构建大规模学习样本,以提升控制策略训练效率,增强巡视器的环境适应性和自主脱困能力,完成在线增强学习训练后,再由数字环境快速迁移到物理环境,进行控制策略二次优化和验证。通过对地外
星表不同危险场景下的学习训练,获得有效脱困控制策略样本库,为发生危险情况下的成功脱困提供技术支持和地面试验手段。
45.如图1,本发明一种地外星表危险场景脱困策略学习训练方法,包括以下步骤:
46.步骤1:建立数字仿真环境:构建地外星表复杂地貌环境以及巡视器数字模型;地外星表复杂地貌环境包括具有地表沙石、基岩、软土等一种或多种特征的外星地表环境,还包括重力、地面硬度系数、加速比等一种或多种环境参数,巡视器数字模型中,包括车体位置、速度、转向、车轮角速度、车轮沉陷量、悬架角度等一种或多种状态参数和巡视器动力学模型;
47.地外星表复杂地貌环境以及巡视器数字模型共同组成地外星表危险场景和巡视器行走与沉陷受困工况,基于刚体/柔性物理引擎模进行动力学解算、碰撞检测以及约束求解,模拟巡视器在火星场景下按照控制指令行进过程中的运动状态与轮土交互,在满足实时性的要求下具备较高的仿真准确度,为智能控制策略学习训练提供仿真模型、验证环境和数据基础;
48.步骤2:配置训练科目:系统集成训练科目库,用于制定适用于巡视器脱困的训练科目;训练科目即根据不同危险状况脱困问题设计模拟仿真场景、明确运行规则和胜负条件,并最终抽象成一个确定性的封闭性问题;
49.根据训练科目设置地外星表地貌环境数字模型中环境参数的初始值和巡视器数字模型中巡视器动力学状态参数的初始值,生成与训练科目对应的仿真试验环境;
50.其中,每个训练科目对应重力、地面硬度系数或加速比等环境参数中的一种或多种,车体位置、速度、转向、车轮角速度、车轮沉陷量、悬架角度等状态参数中的一种或多种;
51.步骤3:构建脱困控制决策神经网络模型,利用脱困控制决策神经网络模型设计模块设计脱困控制决策神经网络模型。脱困控制决策神经网络模型接收来自数字仿真环境的输入数据,在经过对环境信息的抽取表达、推理计算后,输出巡视器的控制指令;
52.脱困控制决策神经网络模型向仿真环境(即巡视器)输出控制指令,包括:巡视器的目标速度、目标位置、电机驱动力矩等控制指令中的一种或多种;
53.参与网络模型构建的主要组件为单一可扩展网络结构或组合网络结构,主要对巡视器接收的图像及其他状态特征做高层的信息提取,为神经网络结构提供足够的推理决策容量,稳定学习效果;其中,单一可扩展网络结构包括:全链接网络、lstm(长短期记忆网络)、fcn(全卷积网络)、cnn(卷积网络)等;组合网络结构包括:transformer(特征转换网络)、pointernet(作战单位选择网络)、resnet(图像分类网络)和multilrnn(多层循环神经网络)等;
54.步骤4:资源配置与计算力调度:利用资源配置与算力调度模块为模型训练任务分配计算力资源,即cpu和gpu计算资源。为提高训练效率,采用分布式架构对计算资源进行统一整合和灵活调度,支持并发运行多个仿真环境;
55.步骤5:脱困模拟训练:如图2,创建模拟训练任务,在训练模式下,通过资源配置与算力调度模块创建多个数字仿真环境,并将脱困控制决策神经网络模型分发在各个数字仿真环境中进行控制和决策,同时,损失函数将对多个数字仿真环境中产生的损失值进行统计,并通过分布式优化器在训练云平台上对神经网络模型的相关参数进行优化,优化后的参数再被更新到各个神经网络模型中。多个数字仿真环境分布式执行既加快了训练数据的
生成速度,提高训练效率,同时增加了一批训练数据的多样性,有助于提高训练的稳定性。训练期间,可以通过修改网络模型组件、核心算法、演化方法等对训练策略进行调整,以保证输出智能水平持续增长的神经网络;
56.步骤6:仿真样本生成:训练过程中,利用样本生成与数据管理模块对步骤5生成的训练样本数据进行管理并用于后续训练,训练样本数据具体包括:仿真环境状态信息(即巡视器动力学状态参数)、地外星表地貌环境的环境参数、巡视器控制指令和损失函数值四类信息;
57.步骤7:智能脱困推理:在保证环境参数一致的条件下,训练完成后的脱困控制决策神经网络模型将从训练平台转移部署到外部仿真平台或实际应用平台上,进行脱困控制策略的实时验证和二次优化。
58.本发明一种地外星表危险场景脱困策略学习训练系统,用于实现上述地外星表危险场景脱困策略学习训练方法,包括数字仿真环境构建模块,训练科目配置模块,脱困控制决策神经网络模型设计模块,资源配置与计算力调度模块,仿真样本生成模块及训练云平台;
59.数字仿真环境构建模块用于构建地外星表地貌环境数字模型和巡视器数字模型,并根据训练科目设置地外星表地貌环境数字模型中环境参数的初始值和巡视器数字模型中巡视器动力学状态参数的初始值,生成与训练科目对应的仿真试验环境;仿真环境设有基于远程调用框架的仿真环境接口,用于根据训练科目设置地外星表地貌环境数字模型中环境参数的数值和巡视器数字模型中巡视器动力学状态参数的初始值,进行仿真环境控制、参数控制,生成与训练科目对应的仿真试验环境,同时用于仿真环境与脱困控制决策神经网络模型之间的数据通讯,使被训练的智能体具有对仿真环境的控制权限;
60.训练科目配置模块用于制定训练科目,所述训练科目包括与巡视器脱困场景对应的地外星表地貌环境、巡视器动力学状态、巡视器运行规则和脱困胜负条件;
61.脱困控制决策神经网络模型设计模块用于建立脱困控制决策神经网络模型;
62.训练云平台用于利用仿真试验环境训练脱困控制决策神经网络模型,得到训练好的模型;
63.资源配置与计算力调度模块用于在脱困控制决策神经网络模型训练过程中对cpu和gpu计算资源进进行统一整合和调度;
64.仿真样本生成模块用于存储输入脱困控制决策神经网络模型的样本,所述样本包括仿真环境状态信息(即巡视器动力学状态参数)、地外星表地貌环境的环境参数、巡视器控制指令和损失函数值。
65.以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。
66.本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献