一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的机器人一体化网络架构优化方法及系统与流程

2022-06-11 11:47:51 来源:中国专利 TAG:


1.本发明涉及机器人自主能力的算法的技术领域,具体地,涉及基于强化学习的机器人一体化网络架构优化方法及系统,尤其涉及一种基于强化学习的移动机器人一体化网络架构设计和优化方法。


背景技术:

2.移动机器人是指能够利用自身驱动机构在三维空间中进行运动的无人系统,其基础功能是具有可靠的移动能力。随着目前对机器人智能化水平越来越高的要求,移动机器人的自主性也受到越来越多的关注。一方面,智能移动机器人需要具备自主移动能力,具体体现在能够依赖自身第一视角传感器进行可靠的自定位、环境建模和路径规划,在更特殊的情况下,还需要对所处环境进行语义分割以辅助自身移动。另一方面,移动机器人还通常携带功能性载荷,常见的载荷包括用于对抗的射击瞄准机构(如robomaster机器人以及某些军用机器人)等,驱动上述机构更进一步依赖于诸如目标识别与跟踪、射击矫正与攻击决策等多种功能。如何将上述多方面的功能,以智能、自主的方式在移动机器人上完整实现,是研究人员和工程师的重点工作。
3.然而,虽然当前的智能移动机器人已经获得越来越广泛的应用,但是现有的实体无人系统大多都在单个功能(如建图、导航、目标检测跟踪等)上进行独立研究,在实际使用时再进行多模块之间的整合。这样极易造成功能模块不兼容、系统运行效率低、训练数据生成困难和虚实迁移保真度差的问题;另外多个功能之间往往具备相互促进和增益的关系(例如建图结果是有利于导航定位的),但是模块化、松耦合、组装式的系统往往难以有效利用不同功能之间的产出信息,造成信息损失,降低了整体无人系统的性能;其次多种功能往往都依赖于相同的传感器输入,分开考虑不同功能还会造成算力的浪费和网络的冗余。
4.深度强化学习方法已经被广泛应用于智能机器人的研究领域中,其基本思想是通过机器人不断试错式地采集环境样本,并利用环境提供的奖励反馈,对各种状态下的策略进行迭代优化。相比于传统基于模型的方法,深度强化学习能够利用其强大的非线性拟合能力,在不依赖于对环境先验建模的前提下,更好应对复杂状态空间、动态变化场景等极端情况。但由于强化学习通过奖励标量信号进行损失计算和迭代,面对本发明涉及的一体化网络多目标输出场景,则难以仅通过一个标量值衡量所有输出的好坏;另外一体化网络由于涉及到分层并联、主干分支等复杂结构,网络规模往往很大,如何有效优化这类大规模网络也是需要解决的问题。
5.强化学习:又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
6.损失函数:在数学优化和决策理论中,损失函数是将一个或多个变量的一个或多个事件映射到真值上,用于表示事件的损失或风险。在机器学习模型训练中,通过降低损失的方法实现优化与决策。
7.在公开号为cn112433525a的专利文献中公开了一种基于模仿学习及深度强化学习的移动机器人导航方法包括如下步骤:步骤1,建立移动机器人的环境模型;步骤2,构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用耦合的导航框架对移动机器人模型进行训练;步骤3,利用训练好的模型实现导航任务。
8.因此,需要提出一种技术方案以改善上述技术问题。


技术实现要素:

9.针对现有技术中的缺陷,本发明的目的是提供一种基于强化学习的机器人一体化网络架构优化方法及系统。
10.根据本发明提供的一种基于强化学习的机器人一体化网络架构优化方法,所述方法包括如下步骤:
11.步骤a:构建由浅入深的主干网络,对多模传感器输入进行自适应融合,并进行不同程度特征抽取;
12.步骤b:根据机器人功能目标及其对传感特征的抽象程度需求,将实现不同功能模块的分支网络紧耦合连接到主干特征抽取网络上;
13.步骤c:采用强化学习损失、辅助任务和自动编解码器三种方法构建多目标的一体化网络优化策略,引入注意力机制对多目标的一体化网络优化进行权重平衡。
14.优选地,所述步骤a包括如下步骤:
15.步骤a1:对rgb相机、深度相机和三维激光雷达所获取的数据分别进行预处理和不同程度的多级特征粗抽象;
16.步骤a2:使用注意力机制对多模传感不同程度的粗抽象特征进行自适应融合,获得不同程度粗融合特征;
17.步骤a3:使用更深网络层对粗融合特征进一步进行精提取,获取不同程度的精提取特征。
18.优选地,所述步骤a1包括如下步骤:
19.步骤a1.1:对rgb图像和深度图像在不同通道上进行多层卷积,并提取不同层级卷积后得到的特征向量,以输入为起点,多层卷积网络输出的图像粗抽象特征依次为其中xi代表图像经神经网络处理后得到的特征向量,上标m为图像粗卷积网络层的编号,m越大表示对应特征向量压缩程度更高、是由更深网络层输出的;
20.步骤a1.2:对三维激光雷达数据使用特定网络进行特征提取,该网络需要具备分段提取的网络结构;以输入为起点,提取激光雷达数据的粗抽象特征依次为其中x
l
代表激光雷达点云经神经网络处理后得到的特征向量,上标n为三维点云粗处理网络层的编号,n越大表示对应特征向量压缩程度更高、是由更深网络层输出的。
21.优选地,所述步骤a1.1和a1.2中提取网络均采用多层串联结构,形成由浅到深架构。
22.优选地,所述步骤a2包括如下步骤:
23.步骤a2.1:对任意两个待融合特征和和表示编号a的图像处理网络层输出的图像特征,表示编号为b的三维点云处理网络层输出的点云特征,1≤a≤m,1≤b≤n,计
算增广特征向量:
[0024][0025]
其中wi和w
l
为可训练增广矩阵,两者行数均为s,增广矩阵列数随输入向量大小变化,计算结果为图像特征增广向量,为点云特征增广向量;
[0026]
步骤a2.2:计算自适应系数:
[0027][0028][0029]
其中为训练的注意力核,exp为以自然常数e为底的指数函数,σ为非线性函数,“||”为向量级联,计算结果αi和α
l
分别表示图像特征和点云特征对应的加权系数;
[0030]
步骤a2.3:通过自适应系数加权求和获取融合后的特征:
[0031][0032]
其中,δ为非线性函数,xf表示输出的融合特征,上标ab表示该融合特征是由图像特征和点云特征生成的;
[0033]
步骤a2.4:对任意一个待融合粗图像特征和任意一个待融合粗三维点云特征其中,的上标表示该特征是由编号为j的图像处理网络层输出的,1≤j≤m,的上标表示该特征是由编号为k的点云处理网络层输出的,1≤k≤n,根据步骤a2.1-步骤a2.3计算融合后特征其中,的上标表示该融合特征是由与融合得到的,根据步骤b中的需求只计算部分融合特征。
[0034]
优选地,所述步骤b包括如下步骤:
[0035]
步骤b1:确定功能输出相对于传感特征的抽象程度,即功能与原始环境特征的相关性,相关性越弱,所需特征抽象程度越强;
[0036]
步骤b2:根据机器人特定输出功能对传感特征抽象程度的需求,将形成特定输出的子网络放置在步骤a所生成的主干网络上,所需特征越抽象,子网络位于主干网络越深的位置;
[0037]
步骤b3:子网络的输出作为另一子网络的部分输入;
[0038]
步骤b4:子网络输出端应提供生成特定功能信息的接口。
[0039]
优选地,所述步骤c包括如下步骤:
[0040]
步骤c1:构建强化学习奖励信号,并由此计算直接损失l1,衡量移动机器人的导航能力;
[0041]
步骤c2:构建辅助任务形成监督信号,通过采集有监督样本,对部分输出子网络进行有监督迭代,得到网络的监督损失其中,l2表示辅助任务通过有监督样本生成的损失信号,上标表示产生对应损失的辅助任务编号,p为一体化网路中辅助任务的总数;
[0042]
步骤c3:构建自动编解码器产生的重构无监督信号,在子网络输出端继续连接增广形态的网络结构,将数据重构成原有形态,比较重构数据与原始数据的相对误差,计算网络的无监督损失其中l3表示自动编解码器产生的重构损失,上标表示产生对应损失的自动编解码器编号,q为一体化网络中构建的自动编解码器的总数;
[0043]
步骤c4:将步骤c1-步骤c3计算得到的各项损失在网络中分别进行反向传播,迭代步骤a和步骤b构建的一体化网络参数,在强化学习过程中重复步骤c中的损失计算和迭代方法,形成优化后的移动机器人一体化网络。
[0044]
优选地,所述步骤c1包括如下步骤:
[0045]
步骤c1.1:到达目标奖励为r
arrive
=pa,当机器人接触到目标点时会立即收到此奖励,其中pa为设定的到达目标奖励值大小;
[0046]
步骤c1.2:接近目标奖励为r
near
=β*(d
last-d
current
),其中β为奖励信号强度参数,d
current
为当前机器人到终点的距离,d
last
为上一时刻机器人到终点的距离;
[0047]
步骤c1.3:碰撞惩罚为r
collision
=-pc,当机器人接触到除目标点外的其余物体时会立即收到此惩罚,其中pc为设定的碰撞惩罚值绝对大小;
[0048]
步骤c1.4:接近障碍物惩罚为r
danger
=η*d
obs
,其中η为惩罚信号强度参数,d
obs
为当前距离机器人最近的障碍物的直线距离;
[0049]
步骤c1.5:导航时间惩罚为r
step
=-ps,机器人每一步都会受到微弱的惩罚,其中ps为设定的导航时间惩罚值绝对大小;
[0050]
步骤c1.6:将步骤c1.1-步骤c1.5所得奖励惩罚值相加,并依照强化学习算法和采样数据计算得到网络直接损失l1。
[0051]
本发明还提供一种基于强化学习的机器人一体化网络架构优化系统,所述系统包括如下模块:
[0052]
模块a:构建由浅入深的主干网络,对多模传感器输入进行自适应融合,并进行不同程度特征抽取;
[0053]
模块b:根据机器人功能目标及其对传感特征的抽象程度需求,将实现不同功能模块的分支网络紧耦合连接到主干特征抽取网络上;
[0054]
模块c:采用强化学习损失、辅助任务和自动编解码器三种系统构建多目标的一体化网络优化策略,引入注意力机制对多目标的一体化网络优化进行权重平衡。
[0055]
优选地,所述模块a包括如下模块:
[0056]
模块a1:对rgb相机、深度相机和三维激光雷达所获取的数据分别进行预处理和不同程度的多级特征粗抽象;
[0057]
模块a2:使用注意力机制对多模传感不同程度的粗抽象特征进行自适应融合,获得不同程度粗融合特征;
[0058]
模块a3:使用更深网络层对粗融合特征进一步进行精提取,获取不同程度的精提取特征其中w为对应和融合后分支的精特征提取网络的层数;
[0059]
所述模块b包括如下模块:
[0060]
模块b1:确定功能输出相对于传感特征的抽象程度,即功能与原始环境特征的相关性,相关性越弱,所需特征抽象程度越强;
[0061]
模块b2:根据机器人特定输出功能对传感特征抽象程度的需求,将形成特定输出的子网络放置在模块a所生成的主干网络上,所需特征越抽象,子网络位于主干网络越深的位置;
[0062]
模块b3:子网络的输出作为另一子网络的部分输入;
[0063]
模块b4:子网络输出端应提供生成特定功能信息的接口;
[0064]
所述模块c包括如下模块:
[0065]
模块c1:构建强化学习奖励信号,并由此计算直接损失,衡量移动机器人的导航能力;
[0066]
模块c2:构建辅助任务形成监督信号,通过采集有监督样本,对部分输出子网络进行有监督迭代,得到网络的监督损失其中,l2表示辅助任务通过有监督样本生成的损失信号,上标表示产生对应损失的辅助任务编号,p为一体化网路中辅助任务的总数;
[0067]
模块c3:构建自动编解码器产生的重构无监督信号,在子网络输出端继续连接增广形态的网络结构,将数据重构成原有形态,比较重构数据与原始数据的相对误差,计算网络的无监督损失其中,l3表示自动编解码器产生的重构损失,上标表示产生对应损失的自动编解码器编号,q为一体化网络中构建的自动编解码器的总数;
[0068]
模块c4:将模块c1-模块c3计算得到的各项损失在网络中分别进行反向传播,迭代模块a和模块b构建的一体化网络参数,在强化学习过程中重复模块c中的损失计算和迭代系统,形成优化后的移动机器人一体化网络。
[0069]
与现有技术相比,本发明具有如下的有益效果:
[0070]
1、本发明能解决当前智能移动机器人架构中各模块之间分别研究、松耦合,以及由此带来的系统冗余、样本利用率低、耦合困难、运行可靠性差等一系列问题;
[0071]
2、本发明设计了一种基于主干-分支的一体化网络结构,能够将智能移动机器人的移动能力及载荷决策融合到同一个紧耦合网络中实现;并针对由此带来的大规模网络优化问题,提出了对应的一体化网络多维优化方法;
[0072]
3、本发明解决了当前智能机器人在研究和实际使用中的问题,有利用减少研究成本、提高系统运行效率,便于迁移到现实环境中加以应用。
附图说明
[0073]
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0074]
图1为本发明的一种基于强化学习的移动机器人一体化网络架构设计和优化方法的系统框架图;
[0075]
图2为本发明设计一体化网络架构设计方法的流程图;
[0076]
图3为本发明设计的一体化网络多维优化方法的结构图;
[0077]
图4为本发明设计的一体化网络结构示意图。
具体实施方式
[0078]
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
[0079]
本发明提出一种基于强化学习的机器人一体化网络架构优化方法及系统,并相应提出了其优化策略,实现了智能移动机器人的紧耦合控制和自主系统的完整实现。能够避免多模块分别研究、松耦合嵌合带来的性能差、冗余多、数据利用率低等问题。
[0080]
针对现有技术中的不足与缺陷,本发明的目的是提供一种基于强化学习的机器人一体化网络架构优化方法及系统,能够在移动机器人的自主移动能力及其载荷所需策略中,实现紧耦合一体化的研究流程,降低实际开发过程中的模块间耦合难度,提升网络运行效率,有利于实际应用。
[0081]
自主系统在复杂环境中既要实现定位建图、感知规划、自主决策和运动控制等多项复杂任务,又要实现一体化的深度耦合,实现高效鲁棒的端对端学习框架,其核心挑战在于如何设计整体网络框架,保证“主干”网络的一体化深度融合,同时实现“分支”网络的多任务输出,兼顾高效性与鲁棒性。基于多输入和多输出的网络的重要工作,本实施例中多输入包括相机和激光雷达,多输出包括感知、建图、避障、目标检测和对抗等子任务。
[0082]
一是搭建合理的一体化网络框架;二是平衡不同网络分支的参数更新方式,使得多模传感器输入能够得到合理利用。
[0083]
根据本发明提供的一种基于强化学习的机器人一体化网络架构优化方法,即瞄准智能机器人研究缺陷和上述研究重点内容,主要包括三个步骤:
[0084]
步骤a:构建主干网络,该主干网络由特征粗提取、多模特征自适应融合、融合特征精提取三个模块组成。特征粗提取对某一特定传感器数据进行专门提取,往往通过采取一些浅层结构,尽可能保留原始传感数据的丰富信息,同时提供单独的抽象特征信息。多模特征自适应融合采用注意力机制对不同传感器的粗特征信息进行融合,使得融合后的特征具备多模传感所互补的信息,同时自适应地调整融合权重。融合特征精提取使用若干深层网络结构进一步提取更抽象特征。
[0085]
步骤b:根据机器人功能目标及其对传感特征的抽象程度需求,将实现不同功能模块的分支网络紧耦合连接到主干特征抽取网络上。依据步骤a和本步骤构建能够实现完整自主功能的一体化网络。
[0086]
步骤a和步骤b的具体流程框图如图2所示。依照步骤a和步骤b构建主干-分支式一体化网络,是具备可行性的。一方面,机器人功能输出的决策依据都是传感器的原始信息。例如,对于目标检测任务,需要使用图像来判断是否存在敌方目标;对于建图和定位任务,需要对原始信息进行特征提取、匹配等操作后才能输出地图结构。另一方面,不同任务对于环境特征的抽象性需求也是不一样的。例如对于环境的结构信息,我们仅需要使用较浅层的环境特征向量即可实现结构特征提取;对于目标检测信息,由于某些目标的纹理特征复杂,需要的拟合网络规模则更为庞大。
[0087]
步骤c:采用强化学习损失、辅助任务、自动编解码器三种方法构建多目标的一体化网络优化策略,引入注意力机制对多目标的一体化网络优化进行权重平衡,加快网络收
敛速度和优化效果。步骤c的具体结构框图如图3所示。
[0088]
步骤a具体包括如下步骤:
[0089]
步骤a1:对rgb相机、深度相机和三维激光雷达所获取的数据分别进行预处理和不同程度的多级特征粗抽象。本步骤所含操作为图4所示的粗特征提取部分,具体而言包括如下步骤:
[0090]
步骤a1.1:对rgb图像和深度图像在不同通道上进行多层卷积,并提取不同层级卷积后得到的特征向量,以输入为起点,多层卷积网络输出的图像粗抽象特征依次为其中xi代表图像经神经网络处理后得到的特征向量,上标m为图像粗卷积网络层的编号,该值越大表示对应特征向量压缩程度更高、是由更深网络层输出的;
[0091]
步骤a1.2:对三维激光雷达数据使用特定网络进行特征提取,该网络需要具备可分段提取的网络结构,便于抽取其中间特征向量用于融合和精提取。例如,可以使用pointnet及其衍生结构等。抽取不同位置的环境特征向量后,以输入为起点,提取激光雷达数据的粗抽象特征依次为其中x
l
代表激光雷达点云经神经网络处理后得到的特征向量,上标n为三维点云粗处理网络层的编号,该值越大表示对应特征向量压缩程度更高、是由更深网络层输出的。此处,粗处理网络单元是指具备输出传感压缩特征能力的网络子模块,并不局限于某一单个网络层;
[0092]
步骤a2:使用注意力机制对多模传感不同程度的粗抽象特征进行自适应融合,获得不同程度粗融合特征。本步骤所含操作为图4所示的注意力融合部分,具体而言包括如下步骤:
[0093]
步骤a2.1:对任意两个待融合特征和前者表示编号a的图像处理网络层输出的图像特征,后者表示编号为b的三维点云处理网络层输出的点云特征,1≤a≤m,1≤b≤n,计算增广特征向量:
[0094][0095]
其中w
l
和w
l
为可训练增广矩阵,其行数(即和的向量长度)为s,增广矩阵列数可随输入向量大小变化,以适应不同特征的融合。计算结果为图像特征增广向量,为点云特征增广向量;
[0096]
步骤a2.2:计算自适应系数:
[0097][0098][0099]
其中为训练的注意力核,exp为以自然常数e为底的指数函数,σ为非线性函数,“||”为向量级联,计算结果αi和α
l
分别表示图像特征和点云特征对应的加权系数;
[0100]
步骤a2.3:通过自适应系数加权求和获取融合后的特征:
[0101][0102]
其中δ为非线性函数,特别地,可以使用relu函数。xf表示输出的融合特征,上式中
上标ab表示该融合特征是由图像特征和点云特征生成的;
[0103]
步骤a2.4:对任意一个待融合粗图像特征(上标表示该特征是由编号为j的图像处理网络层输出的,1≤j≤m)和任意一个待融合粗三维点云特征(上标表示该特征是由编号为k的点云处理网络层输出的,1≤k≤n),根据步骤a2.1-步骤a2.3计算融合后特征(上标表示该融合特征是由与融合得到的),但仍可根据步骤b中的需求只计算部分融合特征以减少计算量。
[0104]
步骤a3:使用更深网络层对粗融合特征进一步进行精提取,获取不同程度的精提取特征其中w为对应和融合后分支的精特征提取网络的层数。本步骤所含操作为图4所示的特征精提取部分。
[0105]
步骤b具体包括如下步骤:
[0106]
步骤b1:确定某一功能输出相对于传感特征的抽象程度,即功能与原始环境特征的相关性,相关性越弱,所需特征抽象程度一般越强;
[0107]
步骤b2:根据机器人特定输出功能对传感特征抽象程度的需求,将形成特定输出的子网络放置在步骤a所生成的主干网络上,所需特征越抽象,子网络位于主干网络越深的位置。子网络既可连接在经步骤a1生成粗特征的网络层后,也可以连接在经步骤a3生成精特征的网络层后;
[0108]
步骤b3:某一子网络的输出可以作为另一子网络的部分输入。此步骤主要考虑到不同子任务之间的信息相互利用,有助于减少网络冗余,某些情况下还可为其它子网络提供更为直接的特征。例如在对抗式移动机器人上,用于目标识别的子网络可将输出(目标位置)直接连接到用于瞄准和攻击决策的移动机器人上,从而为对抗式策略提供直接的目标信息,而不需从原始传感信息重复推理。
[0109]
步骤b4:子网络输出端应提供生成特定功能信息(如移动策略、目标识别、攻击策略等)的接口,同时不排除在输出信息后连接解码器进行信息逆向重构,以为步骤c提供额外损失信号。
[0110]
步骤c具体包括如下步骤:
[0111]
步骤c1:构建强化学习奖励信号,并由此计算直接损失,衡量移动机器人的导航能力。环境会对机器人的每一步动作做出奖励或惩罚,具体包括到达目标奖励、接近目标奖励、碰撞惩罚、接近障碍物惩罚以及导航时间惩罚。具体步骤为:
[0112]
步骤c1.1:到达目标奖励为r
arrive
=pa,当机器人接触到目标点时会立即收到此奖励,其中pa为设定的到达目标奖励值大小;
[0113]
步骤c1.2:接近目标奖励为r
near
=β*(d
last-d
current
),其中β为奖励信号强度参数,d
current
为当前机器人到终点的距离,d
last
为上一时刻机器人到终点的距离;
[0114]
步骤c1.3:碰撞惩罚为r
collision
=-pc,当机器人接触到除目标点外的其余物体时会立即收到此惩罚,其中pc为设定的碰撞惩罚值绝对大小;
[0115]
步骤c1.4:接近障碍物惩罚为r
danger
=η*d
obs
,其中η为惩罚信号强度参数,d
obs
为当前距离机器人最近的障碍物的直线距离,此惩罚项可以在d
obs
大于某一阈值时关闭,从而促
进机器人在较空旷环境下的探索;
[0116]
步骤c1.5:导航时间惩罚为r
step
=-ps,机器人每一步都会受到微弱的惩罚,以促进机器人更快导航到目标点,其中ps为设定的导航时间惩罚值绝对大小;
[0117]
步骤c1.6:将步骤c1.1-步骤c1.5所得奖励惩罚值相加,并依照强化学习算法和采样数据计算得到网络直接损失l1;
[0118]
步骤c2:构建辅助任务形成监督信号,通过采集有监督样本,对部分输出子网络进行有监督迭代,在此过程中得到网络的监督损失l2表示辅助任务通过有监督样本生成的损失信号,上标表示产生对应损失的辅助任务编号,p为一体化网路中辅助任务的总数。辅助任务既可通过既有输出构建,也可额外根据现实可获监督样本构建,原则是能帮助网络迭代;
[0119]
步骤c3:构建自动编解码器产生的重构无监督信号,在子网络输出端继续连接增广形态的网络结构,从而将数据重构成原有形态,并比较重构数据与原始数据的相对误差,计算网络的无监督损失l3表示自动编解码器产生的重构损失,上标表示产生对应损失的自动编解码器编号,q为一体化网络中构建的自动编解码器的总数;
[0120]
步骤c4:将步骤c1-步骤c3计算得到的各项损失在网络中分别进行反向传播,以迭代步骤a和步骤b构建的一体化网络参数。在强化学习过程中不断重复步骤c中的损失计算方法和迭代方法,从而最终形成优化后的移动机器人一体化网络。
[0121]
本发明还提供一种基于强化学习的机器人一体化网络架构优化系统,所述系统包括如下模块:
[0122]
模块a:构建由浅入深的主干网络,对多模传感器输入进行自适应融合,并进行不同程度特征抽取;模块a1:对rgb相机、深度相机和三维激光雷达所获取的数据分别进行预处理和不同程度的多级特征粗抽象;模块a2:使用注意力机制对多模传感不同程度的粗抽象特征进行自适应融合,获得不同程度粗融合特征;模块a3:使用更深网络层对粗融合特征进一步进行精提取,获取不同程度的精提取特征其中w为对应和融合后分支的精特征提取网络的层数。
[0123]
模块b:根据机器人功能目标及其对传感特征的抽象程度需求,将实现不同功能模块的分支网络紧耦合连接到主干特征抽取网络上;模块b1:确定功能输出相对于传感特征的抽象程度,即功能与原始环境特征的相关性,相关性越弱,所需特征抽象程度越强;模块b2:根据机器人特定输出功能对传感特征抽象程度的需求,将形成特定输出的子网络放置在模块a所生成的主干网络上,所需特征越抽象,子网络位于主干网络越深的位置;模块b3:子网络的输出作为另一子网络的部分输入;模块b4:子网络输出端应提供生成特定功能信息的接口。
[0124]
模块c:采用强化学习损失、辅助任务和自动编解码器三种系统构建多目标的一体化网络优化策略,引入注意力机制对多目标的一体化网络优化进行权重平衡;模块c1:构建强化学习奖励信号,并由此计算直接损失,衡量移动机器人的导航能力;模块c2:构建辅助任务形成监督信号,通过采集有监督样本,对部分输出子网络进行有监督迭代,得到网络的监督损失其中,l2表示辅助任务通过有监督样本生成的损失信号,上标表示产生对应损失的辅助任务编号,p为一体化网路中辅助任务的总数;模块c3:构建自动编解码
器产生的重构无监督信号,在子网络输出端继续连接增广形态的网络结构,将数据重构成原有形态,比较重构数据与原始数据的相对误差,计算网络的无监督损失其中,l3表示自动编解码器产生的重构损失,上标表示产生对应损失的自动编解码器编号,q为一体化网络中构建的自动编解码器的总数;模块c4:将模块c1-模块c3计算得到的各项损失在网络中分别进行反向传播,迭代模块a和模块b构建的一体化网络参数,在强化学习过程中重复模块c中的损失计算和迭代系统,形成优化后的移动机器人一体化网络。
[0125]
本发明能解决当前智能移动机器人架构中各模块之间分别研究、松耦合,以及由此带来的系统冗余、样本利用率低、耦合困难、运行可靠性差等一系列问题;本发明设计了一种基于主干-分支的一体化网络结构,能够将智能移动机器人的移动能力及载荷决策融合到同一个紧耦合网络中实现;并针对由此带来的大规模网络优化问题,提出了对应的一体化网络多维优化方法;本发明解决了当前智能机器人在研究和实际使用中的问题,有利用减少研究成本、提高系统运行效率,便于迁移到现实环境中加以应用。
[0126]
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0127]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本技术的实施例和实施例中的特征可以任意相互组合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献