一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

智能体的控制方法、装置、电子设备和存储介质与流程

2023-03-18 02:56:48 来源:中国专利 TAG:

技术特征:
1.一种智能体的控制方法,所述方法包括:获取多个智能体的目标状态数据,其中,所述多个智能体包括属于第一对象的至少一个智能体和属于第二对象的至少一个智能体;根据所述多个智能体的目标状态数据,生成状态序列;将所述状态序列输入智能体策略模型,以根据所述智能体策略模型的输出,确定动作序列;其中,所述动作序列中包括属于所述第一对象的各智能体的目标控制动作;根据所述动作序列中的各目标控制动作,对属于所述第一对象的各智能体进行动作控制。2.根据权利要求1所述的方法,其中,所述获取多个智能体的目标状态数据,包括:针对任一所述智能体,获取所述智能体在当前时刻的第一状态数据;获取所述智能体在所述当前时刻之前的至少一个历史时刻的第二状态数据;根据所述当前时刻的第一状态数据和所述至少一个历史时刻的第二状态数据,生成所述智能体的目标状态数据。3.根据权利要求2所述的方法,其中,所述获取所述智能体在当前时刻的第一状态数据,包括:获取所述智能体在当前时刻的第一子状态数据,其中,所述第一子状态数据用于指示所述智能体在所述当前时刻的位置信息、速度信息和装载的武器信息中的至少一项;获取第一智能体在当前时刻的第二子状态数据;其中,所述第二子状态数据用于指示所述第一智能体在所述当前时刻的位置信息、速度信息和装载的武器信息中的至少一项,所述第一智能体与所述智能体属于同一对象,且所述第一智能体在所述当前时刻与所述智能体之间的距离小于第一距离阈值;获取第二智能体在当前时刻的第三子状态数据,其中,所述第三子状态数据用于指示所述第二智能体在所述当前时刻的位置信息、速度信息和装载的武器信息中的至少一项,所述第二智能体与所述智能体属于不同对象,且所述第二智能体在所述当前时刻与所述智能体之间的距离小于第二距离阈值;根据所述第一子状态数据、所述第二子状态数据和所述第三子状态数据中的至少一项,生成所述智能体的第一状态数据。4.根据权利要求1所述的方法,其中,所述将所述状态序列输入智能体策略模型,以根据所述智能体策略模型的输出,确定动作序列,包括:对所述状态序列进行归一化处理;采用所述智能体策略模型的编码层基于注意力机制对归一化处理后的所述状态序列进行编码,以得到编码特征;采用所述智能体策略模型的解码层对所述编码特征进行解码,以得到动作序列。5.根据权利要求4所述的方法,其中,属于所述第一对象的智能体的个数为n,所述采用所述智能体策略模型的解码层对所述编码特征进行解码,以得到动作序列,包括:采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体的目标控制动作;采用所述解码层基于所述动作序列中第i个属于所述第一对象的智能体的目标控制动作,对所述编码特征进行解码,以得到所述动作序列中的第i 1个属于所述第一对象的智能
体的目标控制动作;其中,i为小于n的正整数。6.根据权利要求5所述的方法,其中,所述采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体的目标控制动作,包括:采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体执行多种控制动作的概率;根据所述首个属于所述第一对象的智能体执行多种控制动作的概率,从所述多种控制动作中确定概率最大的控制动作;将所述概率最大的控制动作,作为所述首个属于所述第一对象的智能体的目标控制动作。7.根据权利要求5所述的方法,其中,所述采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体的目标控制动作,包括:采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体执行多种控制动作的概率;根据所述首个属于所述第一对象的智能体执行多种控制动作的概率,生成概率分布;对所述概率分布进行采样,以得到采样概率;将所述采样概率对应的控制动作,作为所述首个属于所述第一对象的智能体的目标控制动作。8.根据权利要求5-7中任一项所述的方法,其中,所述目标控制动作包括移动控制动作,所述解码层包括第一解码层;所述采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体的目标控制动作,包括:采用所述第一解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体的移动控制动作;其中,所述移动控制动作,用于指示对应智能体的移动速度、移动方向和移动高度中的至少一项。9.根据权利要求8所述的方法,其中,所述目标控制动作还包括攻击控制动作,所述解码层还包括分类层和所述第二解码层;所述采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体的目标控制动作,还包括:采用所述分类层对所述编码特征进行分类,以得到所述首个属于所述第一对象的智能体的分类类别;在所述分类类别指示所述首个属于所述第一对象的智能体的动作意图为攻击的情况下,采用所述第二解码层对所述编码特征进行解码,以得到攻击控制动作;其中,所述攻击控制动作,用于指示待发射的目标武器和待攻击的属于所述第二对象的目标智能体。10.一种智能体的控制装置,所述装置包括:获取模块,用于获取多个智能体的目标状态数据,其中,所述多个智能体包括属于第一对象的至少一个智能体和属于第二对象的至少一个智能体;生成模块,用于根据所述多个智能体的目标状态数据,生成状态序列;确定模块,用于将所述状态序列输入智能体策略模型,以根据所述智能体策略模型的输出,确定动作序列;其中,所述动作序列中包括属于所述第一对象的各智能体的目标控制
动作;控制模块,用于根据所述动作序列中的各目标控制动作,对属于所述第一对象的各智能体进行动作控制。11.根据权利要求10所述的装置,其中,所述获取模块,用于:针对任一所述智能体,获取所述智能体在当前时刻的第一状态数据;获取所述智能体在所述当前时刻之前的至少一个历史时刻的第二状态数据;根据所述当前时刻的第一状态数据和所述至少一个历史时刻的第二状态数据,生成所述智能体的目标状态数据。12.根据权利要求11所述的装置,其中,所述获取模块,用于:获取所述智能体在当前时刻的第一子状态数据,其中,所述第一子状态数据用于指示所述智能体在所述当前时刻的位置信息、速度信息和装载的武器信息中的至少一项;获取第一智能体在当前时刻的第二子状态数据;其中,所述第二子状态数据用于指示所述第一智能体在所述当前时刻的位置信息、速度信息和装载的武器信息中的至少一项,所述第一智能体与所述智能体属于同一对象,且所述第一智能体在所述当前时刻与所述智能体之间的距离小于第一距离阈值;获取第二智能体在当前时刻的第三子状态数据,其中,所述第三子状态数据用于指示所述第二智能体在所述当前时刻的位置信息、速度信息和装载的武器信息中的至少一项,所述第二智能体与所述智能体属于不同对象,且所述第二智能体在所述当前时刻与所述智能体之间的距离小于第二距离阈值;根据所述第一子状态数据、所述第二子状态数据和所述第三子状态数据中的至少一项,生成所述智能体的第一状态数据。13.根据权利要求10所述的装置,其中,所述确定模块,包括:处理单元,用于对所述状态序列进行归一化处理;编码单元,用于采用所述智能体策略模型的编码层基于注意力机制对归一化处理后的所述状态序列进行编码,以得到编码特征;解码单元,用于采用所述智能体策略模型的解码层对所述编码特征进行解码,以得到动作序列。14.根据权利要求13所述的装置,其中,属于所述第一对象的智能体的个数为n,所述解码单元,用于:采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体的目标控制动作;采用所述解码层基于所述动作序列中第i个属于所述第一对象的智能体的目标控制动作,对所述编码特征进行解码,以得到所述动作序列中的第i 1个属于所述第一对象的智能体的目标控制动作;其中,i为小于n的正整数。15.根据权利要求14所述的装置,其中,所述解码单元,用于:采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体执行多种控制动作的概率;根据所述首个属于所述第一对象的智能体执行多种控制动作的概率,从所述多种控制动作中确定概率最大的控制动作;
将所述概率最大的控制动作,作为所述首个属于所述第一对象的智能体的目标控制动作。16.根据权利要求14所述的装置,其中,所述解码单元,用于:采用所述解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体执行多种控制动作的概率;根据所述首个属于所述第一对象的智能体执行多种控制动作的概率,生成概率分布;对所述概率分布进行采样,以得到采样概率;将所述采样概率对应的控制动作,作为所述首个属于所述第一对象的智能体的目标控制动作。17.根据权利要求14-16中任一项所述的装置,其中,所述目标控制动作包括移动控制动作,所述解码层包括第一解码层;所述解码单元,用于:采用所述第一解码层对所述编码特征进行解码,以得到所述动作序列中的首个属于所述第一对象的智能体的移动控制动作;其中,所述移动控制动作,用于指示对应智能体的移动速度、移动方向和移动高度中的至少一项。18.根据权利要求17所述的装置,其中,所述目标控制动作还包括攻击控制动作,所述解码层还包括分类层和所述第二解码层;所述解码单元,还用于:采用所述分类层对所述编码特征进行分类,以得到所述首个属于所述第一对象的智能体的分类类别;在所述分类类别指示所述首个属于所述第一对象的智能体的动作意图为攻击的情况下,采用所述第二解码层对所述编码特征进行解码,以得到攻击控制动作;其中,所述攻击控制动作,用于指示待发射的目标武器和待攻击的属于所述第二对象的目标智能体。19.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的智能体的控制方法。20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的智能体的控制方法。21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述智能体的控制方法的步骤。

技术总结
本公开提供了一种智能体的控制方法、装置、电子设备和存储介质,涉及机器学习和自然语言处理技术领域。具体实现方案为:根据多个智能体的目标状态数据生成状态序列,并将状态序列输入智能体策略模型,以根据智能体策略模型的输出,确定动作序列;其中,动作序列中包括属于第一对象的各智能体的目标控制动作;根据动作序列中的各目标控制动作,对属于第一对象的各智能体进行动作控制。由此,可以实现在多智能对抗场景中,对属于第一对象的各个智能体(比如己方智能体)进行动作控制,从而使得属于第一对象的各个智能体协作完成对抗任务。第一对象的各个智能体协作完成对抗任务。第一对象的各个智能体协作完成对抗任务。


技术研发人员:韩翠云 曾增烽 张记袁
受保护的技术使用者:百度时代网络技术(北京)有限公司
技术研发日:2022.11.17
技术公布日:2023/3/3
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献