一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

移动顺序确定模型的训练方法和确定移动顺序的方法、装置与流程

2022-06-05 07:50:11 来源:中国专利 TAG:

技术特征:
1.一种移动顺序确定模型的训练方法,包括:针对多个第一对象中的未移动对象,确定针对所述未移动对象的环境信息;将所述环境信息输入移动顺序确定模型,获得针对所述多个第一对象的预测概率信息;根据所述预测概率信息,确定针对所述移动顺序确定模型的第一奖励信息;以及根据所述第一奖励信息,训练所述移动顺序确定模型,其中,所述预测概率信息包括所述多个第一对象中的每个第一对象作为目标对象的概率值。2.根据权利要求1所述的方法,还包括:根据多个第二对象移动至第二目标区域的历史移动信息,对所述移动顺序确定模型预训练,其中,所述历史移动信息包括所述多个第二对象的移动顺序,以及在所述多个第二对象中的每个第二对象移动之前所确定的针对未移动对象的环境信息。3.根据权利要求1所述的方法,还包括:根据所述多个第一对象中的未移动对象,确定针对所述多个第一对象的掩膜信息;其中,所述掩膜信息包括针对所述每个第一对象的掩膜值;针对所述多个第一对象中已移动对象的掩膜值为零,针对所述未移动对象的掩膜值为大于零的值;其中,所述将所述环境信息输入移动顺序确定模型,获得针对所述未移动对象的预测概率信息包括:将所述环境信息输入移动顺序确定模型,得到针对所述多个第一对象的初始概率信息;以及根据所述掩膜信息和所述初始概率信息,确定所述预测概率信息。4.根据权利要求1所述的方法,还包括:响应于所述多个第一对象中不存在未移动对象,根据所述多个第一对象分别移动至对应的子区域的移动信息,确定针对所述移动顺序确定模型的第二奖励信息;以及根据所述第二奖励信息,训练所述移动顺序确定模型。5.根据权利要求1所述的方法,其中,所述根据所述预测概率信息,确定针对所述移动顺序确定模型的第一奖励信息包括:根据所述预测概率信息,确定所述未移动对象中的目标对象;以及根据所述目标对象移动至对应的子区域的移动信息与理想移动信息之间的差异,确定针对所述移动顺序确定模型的第一奖励信息。6.根据权利要求1所述的方法,其中,确定针对所述未移动对象的环境信息包括:确定针对所述多个第一对象的第一目标区域的状态信息;其中,所述状态信息指示所述第一目标区域包括的多个子区域中每个子区域的通行状态;所述多个子区域包括对应所述每个第一对象的子区域;以及针对所述每个第一对象,根据所述每个第一对象移动至对应的子区域的最短路径,确定针对所述每个第一对象的属性信息。7.根据权利要求6所述的方法,其中,所述根据所述每个未移动对象移动至对应的子区域的最短路径,确定针对所述每个未移动对象的属性信息包括以下至少之一:
根据所述每个第一对象移动至对应的子区域的最短路径,确定所述每个第一对象移动至对应的子区域的最短耗时;根据所述每个第一对象移动至对应的子区域的最短路径和除所述每个第一对象外的其他未移动对象移动至对应的子区域的最短路径,确定指示最短路径是否存在交叉点的属性信息。8.一种确定移动顺序的方法,包括:针对多个对象中的未移动对象,确定针对所述未移动对象的环境信息;将所述环境信息输入移动顺序确定模型,获得针对所述多个对象的概率信息;以及根据所述概率信息,从所述未移动对象中选择目标对象,以控制所述目标对象移动至所述目标区域中针对所述目标对象的子区域,其中,所述移动顺序确定模型是采用权利要求1~7中任一项所述的方法训练得到的,所述概率信息包括所述多个对象中的每个对象属于所述目标对象的概率值。9.一种移动顺序确定模型的训练装置,包括:信息确定模块,用于针对多个第一对象中的未移动对象,确定针对所述未移动对象的环境信息;概率获得模块,用于将所述环境信息输入移动顺序确定模型,获得针对所述多个第一对象的预测概率信息;第一奖励确定模块,用于根据所述预测概率信息,确定针对所述移动顺序确定模型的第一奖励信息;以及第一训练模块,用于根据所述第一奖励信息,训练所述移动顺序确定模型,其中,所述预测概率信息包括所述多个第一对象中的每个第一对象作为目标对象的概率值。10.根据权利要求9所述的装置,还包括:预训练模块,用于根据多个第二对象移动至第二目标区域的历史移动信息,对所述移动顺序确定模型预训练,其中,所述历史移动信息包括所述多个第二对象的移动顺序,以及在所述多个第二对象中的每个第二对象移动之前所确定的针对未移动对象的环境信息。11.根据权利要求9所述的装置,还包括:掩膜确定模块,用于根据所述多个第一对象中的未移动对象,确定针对所述多个第一对象的掩膜信息;其中,所述掩膜信息包括针对所述每个第一对象的掩膜值;针对所述多个第一对象中已移动对象的掩膜值为零,针对所述未移动对象的掩膜值为大于零的值;其中,所述概率获得模块包括:初始概率获得子模块,用于将所述环境信息输入移动顺序确定模型,得到针对所述多个第一对象的初始概率信息;以及预测概率获得子模块,用于根据所述掩膜信息和所述初始概率信息,确定所述预测概率信息。12.根据权利要求9所述的装置,还包括:第二奖励确定模块,用于响应于所述多个第一对象中不存在未移动对象,根据所述多个第一对象分别移动至对应的子区域的移动信息,确定针对所述移动顺序确定模型的第二
奖励信息;以及第二模型训练模块,用于根据所述第二奖励信息,训练所述移动顺序确定模型。13.根据权利要求9所述的装置,其中,所述第一奖励确定模块包括:目标确定子模块,用于根据所述预测概率信息,确定所述未移动对象中的目标对象;以及奖励确定子模块,用于根据所述目标对象移动至对应的子区域的移动信息与理想移动信息之间的差异,确定针对所述移动顺序确定模型的第一奖励信息。14.根据权利要求9所述的装置,其中,所述信息确定模块包括:状态确定子模块,用于确定针对所述多个第一对象的第一目标区域的状态信息;其中,所述状态信息指示所述第一目标区域包括的多个子区域中每个子区域的通行状态;所述多个子区域包括对应所述每个第一对象的子区域;以及属性确定子模块,用于针对所述每个第一对象,根据所述每个第一对象移动至对应的子区域的最短路径,确定针对所述每个第一对象的属性信息。15.根据权利要求14所述的装置,其中,所述属性确定子模块包括以下单元中的至少之一:耗时确定单元,用于根据所述每个第一对象移动至对应的子区域的最短路径,确定所述每个第一对象移动至对应的子区域的最短耗时;交叉确定单元,用于根据所述每个第一对象移动至对应的子区域的最短路径和除所述每个第一对象外的其他未移动对象移动至对应的子区域的最短路径,确定指示最短路径是否存在交叉点的属性信息。16.一种确定移动顺序的装置,包括:信息确定模块,用于针对多个对象中的未移动对象,确定针对所述未移动对象的环境信息;概率确定模块,用于将所述环境信息输入移动顺序确定模型,获得针对所述多个对象的概率信息;以及目标确定模块,用于根据所述概率信息,从所述未移动对象中选择目标对象,以控制所述目标对象移动至所述目标区域中针对所述目标对象的子区域,其中,所述移动顺序确定模型是采用权利要求9~15中任一项所述的装置训练得到的,所述概率信息包括所述多个对象中的每个对象属于所述目标对象的概率值。17.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~8中任一项所述的方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~8中任一项所述的方法。19.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现根据权利要求1~8中任一项所述方法的步骤。

技术总结
本公开提供了一种移动顺序确定模型的训练方法、确定移动顺序的方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及时空大数据领域和强化学习领域。移动顺序确定模型的训练方法的具体实现方案为:针对多个第一对象中的未移动对象,确定针对未移动对象的环境信息;将环境信息输入移动顺序确定模型,获得针对多个第一对象的预测概率信息;根据预测概率信息,确定针对移动顺序确定模型的第一奖励信息;以及根据第一奖励信息,训练移动顺序确定模型,其中,预测概率信息包括多个第一对象中的每个第一对象作为目标对象的概率值。的每个第一对象作为目标对象的概率值。的每个第一对象作为目标对象的概率值。


技术研发人员:丁建辉 陈珍
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2022.03.04
技术公布日:2022/6/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献