一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多机器人协同避障方法、装置和智能机器人与流程

2021-09-25 01:55:00 来源:中国专利 TAG:协同 机器人 装置 可读 人和


1.本发明涉及机器人领域,具体而言,涉及一种多机器人协同避障方法、装置、智能机器人和可读存储介质。


背景技术:

2.智能机器人一般是具有感知和决策能力的个体,能够基于从环境中接收到的信息来执行相应的动作。而现有的智能机器人,一般只能执行单体的路径任务,对于多智能机器人在相同路径任务下的情况,难以做到协同避障,从而使多个智能机器人执行相同的路径任务的效率较低。


技术实现要素:

3.鉴于上述问题,本发明提供了一种多机器人协同避障方法、装置、智能机器人和可读存储介质,以提高多个智能机器人执行相同的路径任务的效率,提高用户体验度。
4.为了实现上述目的,本发明采用如下的技术方案:一种多机器人协同避障方法,包括:在执行完上一动作后,通过预设回报函数获取反馈回报;获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。
5.优选地,所述的多机器人协同避障方法中,所述自身状态数据和所述协同状态数据包括目标点位置数据以及相应机器人的位置数据、速度数据、对应静态障碍物的位置数据、对应动态障碍物的位置数据。
6.优选地,所述的多机器人协同避障方法中,所述预设强化学习算法为深度确定性策略梯度法,所述协同避障模型包括值函数网络以及策略网络;所述将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作包括:将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至所述值函数网络,获得相应的评估信息;根据所述评估信息对所述策略网络进行更新运算;从更新运算后的所述策略网络获得所述下一动作。
7.优选地,所述的多机器人协同避障方法中,还包括:在执行所述下一动作后,获取机器人相应的新的自身状态数据,将所述下一动作、所述新的自身状态数据、所述上一动作的所述反馈回报以及所述上一动作的所述自身状态数据关联为状态转移数据,并存储至预设的经验回放池。
8.优选地,所述的多机器人协同避障方法中,还包括:
从所述经验回放池中筛选出预设数量的所述反馈回报大于或等于预设回报值的目标状态转移数据;将预设数量的所述目标状态转移数据作为训练样本,对所述协同避障模型进行训练。
9.优选地,所述的多机器人协同避障方法中,所述动态障碍物为基于比例引导法的动态追踪障碍物。
10.优选地,所述的多机器人协同避障方法中,所述预设回报函数的算式包括:
11.式中,为所述反馈回报,为距离回报函数,为协同回报,为绕开障碍物回报,为路径任务成功回报,为路径任务失败回报。
12.本发明还提供一种多机器人协同避障装置,包括:反馈回报获取模块,用于在执行完上一动作后,通过预设回报函数获取反馈回报;状态数据获取模块,用于获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;协同避障动作获取模块,用于将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。
13.本发明还提供一种智能机器人,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行所述的多机器人协同避障方法。
14.本发明还提供一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行所述的多机器人协同避障方法。
15.本发明提供一种多机器人协同避障方法,该多机器人协同避障方法包括:在执行完上一动作后,通过预设回报函数获取反馈回报;获取自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。本发明的多机器人协同避障方法,通过获取自身状态数据以及其它智能机器人的协同状态数据,实现多个智能机器人在执行相同的路径任务时,可以协同路径规划并保持协同关系,使协同避障模型的下一动作避障成功率更高,从而提高多个智能机器人执行相同的路径任务的效率,提高用户体验度。
16.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
17.为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
18.图1是本发明实施例1提供的一种多机器人协同避障方法的流程图;图2是本发明实施例2提供的一种获得下一动作的流程图;图3是本发明实施例3提供的一种多机器人协同避障方法的流程图;
图4是本发明实施例3提供的另一种多机器人协同避障方法的流程图;图5是本发明实施例4提供的一种多机器人协同避障装置的结构示意图。
具体实施方式
19.下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
20.通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
22.此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
23.除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
24.实施例1图1是本发明实施例1提供的一种多机器人协同避障方法的流程图,该方法包括如下步骤:步骤s11:在执行完上一动作后,通过预设回报函数获取反馈回报。
25.本发明实施例中,上述机器人即为拥有运算能力以及可以通过各种传感器获取环境数据的智能机器人,在机器人进行路径规划任务时,通过传感器获取数据,然后通过运算获得执行动作,从而根据执行动作在前往目标地点时避开当前环境中的障碍物。该智能机器人可以应用在物流领域或者工厂运送物料的领域,在一个场景中进行各种静态障碍物以及动态障碍物的避障,以便将物品充触发点运送至目标点。
26.本发明实施例中,所述预设回报函数的算式包括:
27.式中,为所述反馈回报,为距离回报函数,为协同回报,为绕开障碍物回报,为路径任务成功回报,为路径任务失败回报。在强化学习中,回报函数是很重要的一项设计,是智能机器人在执行完学习模型给出的动作后的评估,以反馈至强化学习模型,激励强化学习模型的下一动作。其中,距离回报函数与智能机器人到目标点的距离有关,距离目标点越近,距离回报函数值越高。而协同回报为多个智能机器人之间的距离协
同,或者时间协同。而绕开障碍物回报在智能机器人绕开障碍物时为正回报,而在未绕开时为负回报。在智能机器人成功到达目标点后,可以得到路径任务成功回报,未能在规定时间内到达目标点时,则会得到路径任务失败回报。
28.步骤s12:获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据。
29.本发明实施例中,所述自身状态数据和所述协同状态数据包括目标点位置数据以及相应机器人的位置数据、速度数据、对应静态障碍物的位置数据、对应动态障碍物的位置数据。
30.本发明实施例中,以物流领域作为例子,在一个物流环境中,可以划分出一个矩形区域,例如100m
×
100m的区域中,可以存在至少一个1m
×
1m的目标区域,而多个智能机器人从获得物流包裹的出发点出发,经过静态障碍物以及动态障碍物后前往目标区域,将100m
×
100m的区域以x,y两轴进行表示,也即智能机器人的运动的位置信息同样可以通过x和y来进行表示。也即可以通过智能机器人的角速度积分得到当前的方位角θ,之后利用方位角θ将速度分解到x和y轴上,最后通过积分得到智能机器人的位置信息,也即算式表达为:
31.上式中,为智能机器人x轴方向的分速度,为y轴方向的分速度,为当前x轴坐标,为当前y轴坐标,为角速度。其中,角速度可以通过设置在智能机器人发热角速度传感器来获得,也即,在智能机器人中可以设置有基于上述算式的运算模型,在获取到角速度后输入至该运算模型,从而获得相应的位置数据以及速度数据。
32.本发明实施例中,在智能机器人中还可以设置有距离传感器,以获得与障碍物之间的距离,结合角度即可算出障碍物当前的坐标,也即对应静态障碍物的位置数据、对应动态障碍物的位置数据。
33.本发明实施例中,所述动态障碍物为基于比例引导法的动态追踪障碍物。动态障碍物的位置在环境中是实时变化的,从而要求智能机器人能够在线规划避开动态障碍物的路线,基于比例引导法的动态追踪障碍物相对于按照既定规律运动的动态障碍物,具有更强的不确定性,以使强化学习的协同避障模型在训练时更加接近实际应用,从而提高路线规划的准确度。
34.步骤s13:将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。
35.本发明实施例中,通过获取自身状态数据以及其它智能机器人的协同状态数据,实现多个智能机器人在执行相同的路径任务时,可以协同路径规划并保持协同关系,使协同避障模型的下一动作避障成功率更高,从而提高多个智能机器人执行相同的路径任务的效率,提高用户体验度。
36.实施例2图2是本发明实施例2提供的一种获得下一动作的流程图,该方法包括如下步骤:步骤s21:将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至所述值函数网络,获得相应的评估信息。
37.本发明实施例中,所述预设强化学习算法为深度确定性策略梯度法,所述协同避障模型包括值函数网络以及策略网络。深度确定性策略梯度法用于解决强化学习应用在连续空间上的问题,将智能机器人在执行完动作后获得的反馈回报、自身状态数据以及接收到的协同状态数据输入至值函数网络,即可获得上一执行动作的评估信息。
38.步骤s22:根据所述评估信息对所述策略网络进行更新运算。
39.本发明实施例中,从值函数网络中获取到相应的评估信息后,该协同避障模型将根据评估信息对策略网络进行更新运算,以便策略网络决策出下一个动作。
40.步骤s23:从更新运算后的所述策略网络获得所述下一动作。
41.实施例3图3是本发明实施例3提供的一种多机器人协同避障方法的流程图,该方法包括如下步骤:步骤s31:在执行完上一动作后,通过预设回报函数获取反馈回报。
42.此步骤与上述步骤s11一致,在此不再赘述。
43.步骤s32:获取自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据。
44.此步骤与上述步骤s12一致,在此不再赘述。
45.步骤s33:将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。
46.此步骤与上述步骤s13一致,在此不再赘述。
47.步骤s34:在执行所述下一动作后,获取机器人相应的新的自身状态数据,将所述下一动作、所述新的自身状态数据、所述上一动作的所述反馈回报以及所述上一动作的所述自身状态数据关联为状态转移数据,并存储至预设的经验回放池。
48.本发明实施例中,协同避障模型包括值函数网络以及策略网络,而对协同避障模型的训练优化则是对值函数网络的更新优化过程,因此在智能机器人中可以引入经验回放池,以通过该经验回放池存储执行路径任务过程中状态转移数据,将该状态转移数据作为后续优化训练的样本。
49.本发明实施例中,训练过程中的值函数网络更新时模式利用当前值函数对未来值函数进行拟合,因此两个值函数不会采用同一个网络,以便降低拟合难度,这里可以引进目标网络概念,将目标网络作为未来值函数网络。目标网络也即当前需要更新的值函数网络的拷贝体,并不会实时进行更新,而是当值函数网络更新到一定程度是根据值函数网络进行更新。
50.本发明实施例中,智能机器人每次执行动作后导致转态转移时,都会将下一动作、所述新的自身状态数据、上一动作的所述反馈回报以及上一动作的所述自身状态数据关联为状态转移数据,并存储至经验回放池,在值函数网络进行更新训练时,不会直接实时获取状态转移数据,而是按照预设规则抽取其中较优的状态转移数据,从而使值函数网络的更新训练更优效率。
51.图4是本发明实施例3提供的另一种多机器人协同避障方法的流程图,该方法还包括如下步骤:步骤s35:从所述经验回放池中筛选出预设数量的所述反馈回报大于或等于预设回报值的目标状态转移数据。
52.本发明实施例中,在智能机器人中可以设置有用于判断反馈回报是否大于或等于预设回报值的应用程序,通过该应用程序从经验回访池中筛选出预设数量的状态转移数据。
53.步骤s36:将预设数量的所述目标状态转移数据作为训练样本,对所述协同避障模型进行训练。
54.本发明实施例中,在进行协同避障模型的训练时,首先可以先初始化值函数网络以及策略网络,并同时初始化值函数网络以及策略网络的目标网络。在训练时,智能机器人根据当前的策略网络给出的动作完成其执行,根据接收环境的反馈回报,以及新的自身状态数据,存储至相应的经验回放池。之后再利用在经验回放池中筛选出来的状态转移数据对值函数网络进行更新,具体通过最小化损失函数以及状态转移数据对值函数网络进行更新训练,以及根据目标函数的梯度对策略网络进行更新训练。
55.实施例4图5是本发明实施例4提供的一种多机器人协同避障装置的结构示意图。
56.该多机器人协同避障装置500包括:反馈回报获取模块510,用于在执行完上一动作后,通过预设回报函数获取反馈回报;状态数据获取模块520,用于获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;协同避障动作获取模块530,用于将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。
57.本发明实施例中,上述各个模块更加详细的功能描述可以参考前述实施例中相应部分的内容,在此不再赘述。
58.此外,本发明还提供了一种智能机器人,该智能机器人可以包括智能电话、平板电脑、车载电脑、智能穿戴设备等。该智能机器人包括存储器和处理器,存储器可用于存储计算机程序,处理器通过运行所述计算机程序,从而使智能机器人执行上述方法或者上述多机器人协同避障装置中的各个模块的功能。
59.存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能机器人的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、
或其他易失性固态存储器件。
60.本实施例还提供了一种计算机存储介质,用于储存上述智能机器人中使用的计算机程序。
61.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
62.另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
63.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台智能机器人(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
64.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜