一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

移动顺序确定模型的训练方法和确定移动顺序的方法、装置与流程

2022-06-05 07:50:11 来源:中国专利 TAG:


1.本公开涉及人工智能领域,具体涉及时空大数据领域和深度强化学习领域,尤其涉及一种移动顺序确定模型的训练方法和确定移动顺序的方法、装置、电子设备和存储介质。


背景技术:

2.随着计算机技术和网络技术的发展,深度强化学习(deep reinforcement learning,drl)技术在众多领域得到了广泛应用。例如,可以采用强化学习技术,根据设备状态,预测设备的运行策略等。


技术实现要素:

3.本公开旨在提供一种提高顺序确定精度的移动顺序确定模型的训练方法和确定移动顺序的方法、装置、电子设备和存储介质。
4.根据本公开的一个方面,提供了一种移动顺序确定模型的训练方法,包括:针对多个第一对象中的未移动对象,确定针对未移动对象的环境信息;将环境信息输入移动顺序确定模型,获得针对多个第一对象的预测概率信息;根据预测概率信息,确定针对移动顺序确定模型的第一奖励信息;以及根据第一奖励信息,训练移动顺序确定模型,其中,预测概率信息包括多个第一对象中的每个第一对象作为目标对象的概率值。
5.根据本公开的一个方面,提供了一种确定移动顺序的方法,包括:针对多个对象中的未移动对象,确定针对未移动对象的环境信息;将环境信息输入移动顺序确定模型,获得针对多个对象的概率信息;以及根据概率信息,从未移动对象中选择目标对象,以控制目标对象移动至目标区域中针对目标对象的子区域,其中,移动顺序确定模型是采用本公开提供的移动顺序确定模型的训练方法训练得到的,概率信息包括多个对象中的每个对象属于目标对象的概率值。
6.根据本公开的一个方面,提供了一种移动顺序确定模型的训练装置,包括:信息确定模块,用于针对多个第一对象中的未移动对象,确定针对未移动对象的环境信息;概率获得模块,用于将环境信息输入移动顺序确定模型,获得针对多个第一对象的预测概率信息;第一奖励确定模块,用于根据预测概率信息,确定针对移动顺序确定模型的第一奖励信息;以及第一训练模块,用于根据第一奖励信息,训练移动顺序确定模型,其中,预测概率信息包括多个第一对象中的每个第一对象作为目标对象的概率值。
7.根据本公开的一个方面,提供了一种确定移动顺序的装置,包括:信息确定模块,用于针对多个对象中的未移动对象,确定针对未移动对象的环境信息;概率确定模块,用于将环境信息输入移动顺序确定模型,获得针对多个对象的概率信息;以及目标确定模块,用于根据概率信息,从未移动对象中选择目标对象,以控制目标对象移动至目标区域中针对目标对象的子区域,其中,移动顺序确定模型是采用本公开提供的移动顺序确定模型的训练装置训练得到的,概率信息包括多个对象中的每个对象属于目标对象的概率值。
8.根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的移动顺序确定模型的训练方法和/或确定移动顺序的方法。
9.根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的移动顺序确定模型的训练方法和/或确定移动顺序的方法。
10.根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现本公开提供的移动顺序确定模型的训练方法和/或确定移动顺序的方法。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案,不构成对本公开的限定。其中:
13.图1是根据本公开实施例的移动顺序确定模型的训练方法和确定移动顺序的方法、装置的应用场景示意图;
14.图2是根据本公开实施例的移动顺序确定模型的训练方法的流程示意图;
15.图3是根据本公开实施例的移动顺序确定模型的训练方法的原理示意图;
16.图4是根据本公开实施例的移动顺序确定模型的结构示意图;
17.图5是根据本公开实施例的确定移动顺序的方法的流程示意图;
18.图6是根据本公开实施例的移动顺序确定模型的训练装置的结构框图;
19.图7是根据本公开实施例的确定移动顺序的装置的结构框图;以及
20.图8是用来实施本公开实施例的移动顺序确定模型的训练方法和/或确定移动顺序的方法的电子设备的框图。
具体实施方式
21.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
22.以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
23.图1是根据本公开实施例的移动顺序确定模型的训练方法和确定移动顺序的方法、装置的应用场景示意图。
24.如图1所示,该实施例的应用场景100可以包括多个对象110和针对该多个对象的目标区域120。其中,多个对象例如可以包括m个车辆,具体包括车辆110_1~车辆110_m,目标区域120可以包括n个停车位,该n个停车位的数量可以大于或等于m个车辆的数量,m和n均为大于1的整数。可以理解的是,多个对象包括车辆的描述仅作为示例以利于理解本公开,多个对象还可以包括服务器、货架等任意地需要布局设置的物体。
25.在一实施例中,可以通过求解最优布局问题,从目标区域120中包括的n个停车位中选择出与m个车辆一一匹配的m个停车位,以供m个车辆停放。例如,对于车辆110_1,匹配的停车位为120_1,对于车辆110_2,匹配的停车位为120_n,对于车辆110_m,匹配的停车位为120_2。最优布局问题例如可以以总路径最小为优化目标,或者可以以任意的其他条件为优化目标,本公开对此不做限定。
26.在一实施例中,目标区域120例如可以为机车车辆滚装船的区域、码头上的区域、或者建筑物的地下车库中的区域等,本公开对该目标区域的位置和所处场景不做限定。通过将m个车辆停放至匹配的m个停车为后,即可对m个车辆进行运输。在将m个车辆移动至匹配的m个停车位的过程中,为了避免已驶入至匹配的停车位的车辆对其他车辆驶入停车位的影响,需要对m个车辆驶入停车位的顺序进行调度。
27.如图1所示,该应用场景100还可以包括图像采集设备130和电子设备140。该图像采集设备130可以通过网络与电子设备140通信连接,网络可以为无线或有线通信链路。图像采集设备130可以用于采集目标区域120的环境图像,并将该环境图像经由网络发送给电子设备140。电子设备140例如可以通过分析该环境图像,确定目标区域的实时布局,并根据该实时布局对未驶入匹配的停车位的车辆的移动顺序进行调度。
28.其中,电子设备140例如可以为具有显示屏并且具有处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
29.在一实施例中,电子设备140可以依赖目标区域120中车辆的实时布局和未驶入匹配的停车位的车辆属性等来进行专家调度决策,从而确定车辆的移动顺序。其中,专家调度策略例如可以基于多个业务策略生成多组初始解,随后根据该多组初始解中每个解的质量,对该多组解进行筛选,形成一个初始解。最后根据形成的该初始解来确定m个车辆的移动顺序。
30.在一实施例中,电子设备140还可以采用移动顺序确定模型来确定车辆的移动顺序。其中,移动顺序确定模型例如可以采用强化学习算法进行端到端的训练而得到。
31.在一实施例中,如图1所示,该应用场景100还可以包括服务器150,电子设备140与服务器150可以通过网络连接。该服务器150可以对移动顺序确定模型进行训练,且响应于电子设备140的获取请求,将训练后的移动顺序确定模型发送给电子设备。
32.在一实施例中,电子设备140还可以将图像采集设备所采集的环境图像发送给服务器150,由服务器根据该环境图像,采用移动顺序确定模型来确定车辆的移动顺序。
33.需要说明的是,本公开提供的移动顺序确定模型的训练方法可以由服务器150执行。相应地,本公开提供的移动顺序确定模型的训练装置可以设置在服务器150中。本公开提供的确定移动顺序的方法可以由电子设备140执行,也可以由服务器150执行。相应地,本公开提供的确定移动顺序的装置可以设置在电子设备140中,也可以设置在服务器150中。
34.应该理解,图1中的多个对象、目标区域、图像采集设备、电子设备和服务器的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的多个对象、目标区域、图像采集设备、电子设备和服务器。
35.以下将结合图1,通过以下图2~图4对本公开提供的移动顺序确定模型的训练方法进行详细描述。
36.本公开实施例将确定多个对象的移动顺序的过程抽象为一个马尔科夫决策过程
(markov decision process,mdp),这是由于确定多个对象的移动顺序的过程本质上是一个序贯决策的过程。在多个对象都未移动时,可以根据调度策略从该多个对象中选择一个对象进行移动。当该选择的对象移动至匹配的区域后,停放多个对象的区域的环境会发生改变,从而会影响未移动车辆的移动路径。随后根据该停放多个对象的区域的实时状态,再根据调度策略从未移动的对象中选择一个对象进行移动。通过不断的执行调度策略,可以形成一个完整的移动序列,该移动序列可以表示多个对象的移动顺序。在该过程中,本实施例将调度策略当作智能体,将未移动对象的属性信息和停放多个对象的区域的状态当作环境,从而形成一个标准的mdp。
37.根据本公开的实施例,可以采用强化学习的方式来对前述的dmp进行求解和优化。具体地,该实施例可以为调度策略设置端到端的移动顺序确定模型,该移动顺序确定模型可以基于dqn算法或者柔性致动/评价(soft actor-critic,sac)模型中的致动模块构建。
38.其中,dqn算法用于通过神经网络近似求得值函数。其中,神经网络的输入是一个环境信息(即观察到的状态state,简称为obs),输出是值函数q(s,a)(a是动作action),通过神经网络得到值函数。该dqn算法可以使用ε-greedy策略来输出action。dqn算法的实现步骤是先给出一个obs,智能体根据神经网络求得关于这个obs的所有值函数q(s,a),再根据ε-greedy策略选择action并作出决策。环境接收到此action后会给出一个奖励rew及下一个obs,从而完成一次循环。此时根据rew更新值函数网络的参数,接着进入下一个循环。如此循环下去,直至训练出一个收敛的值函数网络。在得到该收敛的值函数网络后,通过输入实时的环境信息,即可输出得到值函数,根据该值函数可以唯一确定一个action。在确定多个对象的移动顺序的场景下,该action即为从未移动的对象中选择一个对象。
39.其中,sac模型是于最大熵强化学习所开发的,其为一种尝试让预期回报最大化,同时也让决策熵最大化的框架。熵更高的决策具有更高的随机性,即最大熵强化学习更偏向取得高回报策略中随机性最高的策略。
40.以下将结合图2对采用强化学习的方式来对该移动顺序确定模型进行训练的训练方法进行详细描述。
41.图2是根据本公开实施例的移动顺序确定模型的训练方法的流程示意图。
42.如图2所示,该实施例的移动顺序确定模型的训练方法200可以包括操作s210~操作s240。
43.在操作s210,针对多个第一对象中的未移动对象,确定针对未移动对象的环境信息。
44.根据本公开的实施例,针对未移动对象的环境信息可以包括影响未移动对象移动的各种信息,例如可以包括路况信息和/或未移动对象的最短路径等。其中,未移动对象的最短路径可以为多个第一对象均未移动时规划的路径,也可以为实时规划的路径。
45.在一实施例中,环境信息可以包括针对多个第一对象的第一目标区域的状态信息,该状态信息例如可以指示第一目标区域包括的多个子区域中每个子区域的通行状态。例如,可以采用矩阵表示该第一目标区域的状态信息,矩阵中每个元素的取值表示第一目标区域中一个子区域的通行状态。例如,若某个子区域的通行状态为允许通行,则该某个子区域对应的元素的取值可以为1,若该某个子区域的通行状态为不允许通行,则该某个子区域对应的元素的取值可以为0。
46.相应地,该操作s210可以包括确定第一目标区域的状态信息的操作。具体地,可以对第一目标区域中的多个子区域进行目标检测,根据检测结果确定该多个子区域中的每个子区域中是否包括障碍物或已经移入的第一对象。若包括,则可以确定该每个子区域的通行状态为不允许通行。若不包括,则可以确定该每个子区域的通行状态为允许通行。在一实施例中,表示该第一目标区域的状态信息的矩阵中所包括元素的个数可以大于第一目标区域中包括的子区域的个数。对于矩阵中除对应有子区域的元素外的其他元素,可以将该其他元素的取值设置为0。如此,可以使得该矩阵可以表示具有不同子区域的目标区域的状态信息。便于根据不同类型的目标区域的状态信息来对移动顺序确定模型进行训练,从而利于提高移动顺序确定模型的泛化能力。
47.可以理解的是,第一目标区域例如可以是通过仿真器模拟的区域,该模拟的区域中包括多个子区域,该多个子区域包括与模拟的多个第一对象分别对应的子区域。通过该仿真器,例如还可以模拟第一对象移动至子区域的移动过程,并记录第一对象自起始位置移动至对应的子区域所需的时长。
48.在一实施例中,针对未移动对象的环境信息例如可以包括该未移动对象的属性信息,该属性信息例如可以包括可能对对象的移动产生影响的信息,例如可以包括未移动对象的尺寸信息(例如可以包括长、宽、高等)。在一实施例中,还可以考虑每个第一对象的属性信息。具体地,该实施例可以根据每个第一对象移动至第一目标区域中对应的子区域的最短路径,来确定该每个第一对象的属性信息。其中,最短路径是在多个第一对象均未移动之前确定的。例如,针对每个第一对象,可以根据其移动至对应的子区域的最短路径,确定其移动至对应的子区域的最短耗时。或者,针对每个第一对象,可以根据其移动至对应的子区域的最短路径和其他第一对象移动至对应的子区域的最短路径,确定指示最短路径是否存在交叉点的属性信息。若存在交叉点,则可以采用1来表示属性信息,若不存在交叉点,则可以采用0来表示属性信息。如此,针对每个第一对象,指示最短路径是否存在交叉点的属性信息可以采用属性向量表示。该属性向量中的元素个数可以与多个第一对象的个数相等,该属性向量中的多个元素分别表示该每个第一对象的最短路径与多个第一对象的最短路径是否存在交叉点,且该每个第一对象的最短路径与其自身的最短路径之间存在交叉点。
49.可以理解的是,在得到前述的第一目标区域的状态信息和/或针对每个第一对象的属性信息后,可以将该状态信息和/或属性信息进行特征化,将特征化得到的数据作为环境信息。
50.在操作s220,将环境信息输入移动顺序确定模型,获得针对多个第一对象的预测概率信息。
51.根据本公开的实施例,移动顺序确定模型可以为前文描述的基于dqn算法等构建的模型,或者可以为sac模型中的致动(actor)模块。该实施例通过将环境信息输入移动顺序确定模型,可以由该移动顺序确定模型输出概率向量。该概率向量即可作为预测概率信息,概率信息包括多个第一对象中的每个第一对象作为待移动对象的概率值。
52.其中,在对多个第一对象的移动顺序进行调度时,根据策略所执行的动作是从未移动对象中选择一个对象,并通过仿真器模拟该对象移动至模拟的目标区域中匹配的子区域的过程。在将多个第一对象均移动至匹配的子区域后,执行的动作个数与多个第一对象
的个数相等,表示该执行的动作的空间是一个有限离散空间。因此,该实施例在将环境信息输入actor模块后,该actor模块可以输出一个动作的概率分布,该概率分布可以由前述的概率向量表示。
53.在操作s230,根据预测概率信息,确定针对移动顺序确定模型的第一奖励信息。
54.在得到预测概率信息后,该实施例可以将该预测概率信息中的最大概率值所对应的第一对象作为待移动对象,并通过仿真器模拟待移动对象移动至第一目标区域中待移动对象对应的子区域的过程。该实施例可以根据模拟结果来确定针对移动顺序确定模型的第一奖励信息。其中,待移动对象即为移动顺序确定模型从未移动对象中选出的针对确定的环境信息的最佳对象,该最佳对象的移动相对于其他未移动对象的移动可以带来更大的奖励。
55.例如,若模拟结果为待移动对象根据规划的最短路径成功移动至对应的子区域,则可以确定该第一奖励信息为正奖励。否则确定该第一奖励信息为负奖励。可以理解的是,该第一奖励信息可以作为对移动顺序确定模型的即时奖励。
56.在操作s240,根据第一奖励信息,训练移动顺序确定模型。
57.根据本公开的实施例,在第一奖励信息为正奖励时,可以通过调整移动顺序确定模型中的网络参数,以使得移动顺序确定模型能够提高根据预测概率信息选出的对象作为待移动对象的概率值。在第一奖励信息为负奖励时,可以通过调整移动顺序确定模型中的网络参数,以使得移动顺序确定模型能够降低根据预测概率信息选出的对象作为待移动对象的概率值。该实施例可以在根据预测概率信息确定的第一奖励信息收敛时,确定完整移动顺序确定模型的训练。
58.可以理解的是,在该移动顺序确定模型为sac模型中的actor模块时,该实施例可以根据sac模型中评价(critic)模块输出的q值,来对移动顺序确定模型的网络参数的更新提供指导。其中,前文描述的的第一奖励信息可以作为该critic模块的输入,作为critic模块生成q值的参考信息。
59.综上可知,本公开实施例的移动顺序确定模型的训练方法,可以使得移动顺序确定模型能够基于强化学习的方式得到训练,从而可以为该移动顺序确定模型引入长期反馈,可以使得移动顺序确定模型能够学习到更多的场景,利于提高根据该移动顺序确定模型确定的对象移动顺序的精度。
60.在一实施例中,前述的第一奖励信息可以根据从未移动对象中选出的最佳对象的移动信息来确定。具体地,在确定第一奖励信息时,该实施例可以先根据前述的预测概率信息,确定未移动对象中的目标对象。该目标对象即为预测概率信息中最大概率值所对应的未移动对象。随后,通过仿真器模拟确定的目标对象移动至第一目标区域中目标对象对应的子区域的过程。该仿真器通过记录模拟移动的过程,得到目标对象移动至对应的子区域的移动信息。该移动信息可以包括移动结果和/或移动时长。该实施例可以根据该移动信息与理想移动信息之间的差异,来确定针对移动顺序确定模型的第一奖励信息。例如,可以将该移动时长与根据最短路径确定的最短时长之间的差值,作为第一奖励信息。
61.在一实施例中,在采用强化学习的方式对移动顺序确定模型进行训练之前,本公开还可以采用监督训练的方式来对移动顺序确定模型进行预训练。如此,可以使得移动顺序确定模型能够学习到专家的决策能力,利于提高移动顺序确定模型的训练效率和处理效
率。以下将结合图3对该实施例进行详细描述。
62.图3是根据本公开实施例的移动顺序确定模型的训练方法的原理示意图。
63.如图3所示,在实施例300中,移动顺序确定模型的训练方法可以包括模仿学习阶段310(即预训练阶段)和强化学习阶段320。
64.在模仿学习阶段310中,可以先执行操作s311,获取离线数据,该离线数据可以包括多个第二对象的历史调度数据。该历史调度数据可以包括多个第二对象的移动顺序、该多个第二对象各自的移动路径、各自的移动时段及该多个第二对象移动过程中各个时刻的图像信息等。该图像信息可以包括在实际场景中布局的图像采集设备采集的针对多个第二对象的第二目标区域的图像。
65.在得到历史调度信息后,该实施例可以执行操作s312,对该历史调度信息进行分析,并根据分析结果来构建特征,构建的特征可以作为该多个第二对象移动至第二目标区域的历史移动信息。历史移动信息可以包括多个第二对象的移动顺序,及该多个第二对象中的每个第二对象移动之前针对未移动对象的环境信息。该环境信息与前文描述的环境信息类似,在此不再赘述。该实施例可以根据多个第二对象各自的移动时段和图像信息中各图像的时间戳,筛选出多个第二对象中前一对象移动结束且后一对象还未移动时的图像,对筛选出的图像进行识别,可以得到第二目标区域的状态信息。
66.在得到多个第二对象移动至第二目标区域的历史移动信息后,可以执行操作s313,对移动顺序确定模型进行预训练。具体地,该实施例可以将多个第二对象移动之前所确定的针对未移动对象的多个环境信息依次输入移动顺序确定模型,由移动顺序确定模型输出多个概率向量,每个概率向量包括多个第二对象各自作为目标对象的概率值。根据该多个概率向量与多个第二对象的移动顺序,确定移动顺序确定模型的损失值。通过最小化来损失值来对动顺序确定模型进行监督训练。其中,损失值可以采用交叉熵损失函数来计算,本公开对此不做限定。
67.在训练指针网络的过程中,该实施例还可以执行操作s314,评估移动顺序确定模型。具体地,该实施例可以评估移动顺序确定模型的损失值是否小于预定值,若小于预定值,则确定评估通过,执行操作s315,产出预训练模型,即完成对移动顺序确定模型的预训练。
68.在完成移动顺序确定模型的预训练后,即可进入强化学习阶段320。在该强化学习阶段320中,可以先执行操作s321,采集仿真器模拟的实时数据,并根据该实时数据执行操作s322,构建实时特征,该构建实时特征的过程与前文描述的确定针对未移动对象的环境信息的方法类似。在得到环境信息后,可以执行操作s323,训练移动顺序确定模型。最后,可以执行操作s324,评估模型,具体可以确定针对移动顺序确定模型的奖励是否达到收敛条件。若已达到收敛条件,则可以执行操作s325,产出模型。如此,训练得到的移动顺序确定模型即可用于作为决策智能体,由该决策智能体根据实际场景中的实时环境信息,对需要移动至目标区域的多个子区域的多个对象的移动顺序进行预测。
69.以下将结合图4对本公开实施例所采用的移动顺序确定模型的结构进行示例性描述,可以理解的是,图4所示的移动顺序确定模型的结构仅作为示例以利于理解本公开,本公开对此不做限定。
70.图4是根据本公开实施例的移动顺序确定模型的结构示意图。
71.如图4所示,该实施例的移动顺序确定模型400包括第一编码器(encoder1)410、第二编码器(encoder2)420和逻辑回归层(softmax)430。其中,第一编码器410和第二编码器420可以采用循环神经网络,具体例如可以采用长短期记忆网络(long short-term memory,lstm)等,本公开对此不做限定。
72.其中,第一编码器410和第二编码器420可以构成双塔结构。该第一编码器410用于对环境信息中多个第一对象的属性信息进行编码。具体地,设定多个第一对象包括m个对象,则第一编码器的输入可以包括属性信息o_1~属性信息o_m。m个对象的属性信息经由第一编码器410编码后,可以由第一编码器410输出与m个对象分别对应的编码特征v_1~编码特征v_m。第二编码器420用于对环境信息中的指示第一目标区域中每个子区域的实时通行状态的状态信息inf-reg。该状态信息经由第二编码器420编码后,可以由第二编码器420输出对应的状态编码特征v_r。
73.在得到编码特征v_1~编码特征v_m和状态编码特征v_r后,移动顺序确定模型400可以将m个编码特征分别与状态编码特征v_r点乘,得到m个点乘后特征。将m个点乘后特征输入逻辑回归层430,经由该逻辑回归层处理后可以得到分别对应m个对象的m个概率值p_1~p_m。
74.根据本公开的实施例,可以根据多个第一对象的实时状态来对预测概率信息进行调整,以降低多个第一对象中已移动对象作为目标对象的概率。示例性地,可以将移动顺序确定模型的逻辑回归层输出的概率信息作为初始概率信息,并在移动顺序确定模型的逻辑回归层之后添加掩膜层,用于对逻辑回归层输出的概率信息进行处理,将处理后的信息作为预测概率信息。其中,每个对象的实时状态可以表征该每个对象是否移动至对应的子区域。例如,该实施例可以采用掩膜信息来表示多个第一对象的实时状态。通过该方式,可以提高移动顺序确定模型的精度,避免已移动对象再次被选为目标对象的情形。
75.在一实施例中,该移动顺序确定模型的训练方法还可以在得到预测概率信息后,根据多个第一对象中的未移动对象,确定针对多个第一对象的掩膜信息。该掩膜信息例如可以包括针对每个第一对象的掩膜值,掩膜信息包括的掩膜值的个数与多个第一对象的个数相等。其中,针对多个第一对象中已移动对象的掩膜值为零,针对未移动对象的掩膜值为大于零的值。该非零的值可以为1或任意值,本公开对此不做限定。
76.如此,该实施例在得到环境信息后,可以先将环境信息输入移动顺序确定模型,得到针对多个第一对象的初始概率信息。然后根据掩膜信息和初始概率信息,确定预测概率信息。具体地,可以采用掩膜向量表示掩膜信息,该实施例可以将掩膜向量与表示初始概率信息的概率向量点乘,采用点乘后得到的向量来表示预测概率信息。
77.在一实施例中,除了根据第一奖励信息训练移动顺序确定模型外,该实施例还可以根据累计奖励信息来训练移动顺序确定模型。其中,累计奖励信息可以是在采用移动顺序确定模型预测得到多个第一对象中每个第一对象的移动顺序后所累计的奖励。例如,可以统计多个第一对象的移动结果,确定多个第一对象中移动至对应的子区域的对象个数。随后根据该对象个数确定累计奖励信息。通过该实施例,可以进一步提高移动顺序确定模型的精度。
78.例如,该实施例可以响应于多个第一对象中不存在未移动对象,根据多个第一对象分别移动至对应的子区域的移动信息,确定针对移动顺序确定模型的第二奖励信息。该
第二奖励信息即为累计奖励信息,例如该第二奖励信息可以与移动至对应的子区域的对象个数正相关,与未移动至对应的子区域的对象个数负相关。例如,若多个第一对象均移动至对应的子区域,则第二奖励信息可以由多个第一对象的个数与预定正数相乘得到的值来表示。若多个第一对象中存在未移动至对应的子区域的对象,则第二奖励信息可以由未移动至对应的子区域的对象个数与预定负数相乘得到的值来表示。
79.基于本公开提供的移动顺序确定模型的训练方法,本公开还提供了一种确定移动顺序的方法,以下将结合图5对该方法进行详细描述。
80.图5是根据本公开实施例的确定移动顺序的方法的流程示意图。
81.如图5所示,该实施例的确定移动顺序的方法500可以包括操作s510~操作s530。
82.在操作s510,针对多个对象中的未移动对象,确定针对未移动对象的环境信息。
83.根据本公开的实施例,该操作s510与前文描述操作s210类似,区别在于,环境信息中目标区域的状态信息是通过识别图像采集设备所采集的实时图像来确定的。
84.在操作s520,将环境信息输入移动顺序确定模型,获得针对多个对象的概率信息。其中,移动顺序确定模型是采用本公开提供的训练方法训练得到的。该操作s520与前文描述操作s220类似,在此不再赘述。
85.在操作s530,根据概率信息,从未移动对象中选择目标对象,以控制目标对象移动至目标区域中针对目标对象的子区域。其中,概率信息包括多个对象中的每个对象属于目标对象的概率值。该实施例可以将概率信息中最大概率值对应的未移动对象作为目标对象。
86.基于本公开提供的移动顺序确定模型的训练方法,本公开还提供了一种移动顺序确定模型的训练装置,以下将结合图6对该方法进行详细描述。
87.图6是根据本公开实施例的移动顺序确定模型的训练装置的结构框图。
88.如图6所示,该实施例的移动顺序确定模型的训练装置600可以包括信息确定模块610、概率获得模块620、第一奖励确定模块630和第一训练模块640。
89.信息确定模块610用于针对多个第一对象中的未移动对象,确定针对未移动对象的环境信息。在一实施例中,信息确定模块610用于前文描述的操作s210,在此不再赘述。
90.概率获得模块620用于将环境信息输入移动顺序确定模型,获得针对多个第一对象的预测概率信息。其中,预测概率信息包括多个第一对象中的每个第一对象作为目标对象的概率值。在一实施例中,概率获得模块620用于前文描述的操作s220,在此不再赘述。
91.第一奖励确定模块630用于根据预测概率信息,确定针对移动顺序确定模型的第一奖励信息。在一实施例中,第一奖励确定模块630用于前文描述的操作s230,在此不再赘述。
92.第一训练模块640用于根据第一奖励信息,训练移动顺序确定模型。在一实施例中,第一训练模块640用于前文描述的操作s240,在此不再赘述。
93.根据本公开的实施例,移动顺序确定模型的训练装置600还可以包括预训练模块,用于根据多个第二对象移动至第二目标区域的历史移动信息,对移动顺序确定模型预训练。其中,历史移动信息包括多个第二对象的移动顺序,以及在多个第二对象中的每个第二对象移动之前所确定的针对未移动对象的环境信息。
94.根据本公开的实施例,移动顺序确定模型的训练装置600还可以包括掩膜确定模
块,用于根据多个第一对象中的未移动对象,确定针对多个第一对象的掩膜信息;其中,掩膜信息包括针对每个第一对象的掩膜值;针对多个第一对象中已移动对象的掩膜值为零,针对未移动对象的掩膜值为大于零的值。上述概率获得模块620可以包括初始概率获得子模块和预测概率获得子模块。初始概率获得子模块用于将环境信息输入移动顺序确定模型,得到针对多个第一对象的初始概率信息。预测概率获得子模块用于根据掩膜信息和初始概率信息,确定预测概率信息。
95.根据本公开的实施例,移动顺序确定模型的训练装置600还可以包括第二奖励确定模块和第二模型训练模块。第二奖励确定模块用于响应于多个第一对象中不存在未移动对象,根据多个第一对象分别移动至对应的子区域的移动信息,确定针对移动顺序确定模型的第二奖励信息。第二模型训练模块用于根据第二奖励信息,训练移动顺序确定模型。
96.根据本公开的实施例,上述第一奖励确定模块630可以包括目标确定子模块和奖励确定子模块。目标确定子模块用于根据预测概率信息,确定未移动对象中的目标对象。奖励确定子模块用于根据目标对象移动至对应的子区域的移动信息与理想移动信息之间的差异,确定针对移动顺序确定模型的第一奖励信息。
97.根据本公开的实施例,信息确定模块610可以包括状态确定子模块和属性确定子模块。状态确定子模块用于确定针对多个第一对象的第一目标区域的状态信息;其中,状态信息指示第一目标区域包括的多个子区域中每个子区域的通行状态;多个子区域包括对应每个第一对象的子区域。属性确定子模块用于针对每个第一对象,根据每个第一对象移动至对应的子区域的最短路径,确定针对每个第一对象的属性信息。
98.根据本公开的实施例,属性确定子模块包括以下单元中的至少之一:耗时确定单元,用于根据每个第一对象移动至对应的子区域的最短路径,确定每个第一对象移动至对应的子区域的最短耗时;交叉确定单元,用于根据每个第一对象移动至对应的子区域的最短路径和除每个第一对象外的其他未移动对象移动至对应的子区域的最短路径,确定指示最短路径是否存在交叉点的属性信息。
99.基于本公开提供的确定移动顺序的方法,本公开还提供了一种确定移动顺序的装置。以下将结合图7对该装置进行详细描述。
100.图7是根据本公开实施例的确定移动顺序的装置的结构框图。
101.如图7所示,该实施例的确定移动顺序的装置700可以包括信息确定模块710、概率确定模块720和目标确定模块730。
102.信息确定模块710用于针对多个对象中的未移动对象,确定针对未移动对象的环境信息。在一实施例中,信息确定模块710可以用于执行前文描述的操作s510,在此不再赘述。
103.概率确定模块720用于将环境信息输入移动顺序确定模型,获得针对多个对象的概率信息。其中,概率信息包括多个对象中的每个对象属于目标对象的概率值。移动顺序确定模型是采用本公开提供的移动顺序确定模型的训练装置训练得到的。在一实施例中,概率确定模块720可以用于执行前文描述的操作s520,在此不再赘述。
104.目标确定模块730用于根据概率信息,从未移动对象中选择目标对象,以控制目标对象移动至目标区域中针对目标对象的子区域。在一实施例中,目标确定模块730可以用于执行前文描述的操作s530,在此不再赘述。
105.需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
106.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
107.图8示出了可以用来实施本公开实施例的移动顺序确定模型的训练方法和/或确定移动顺序的方法的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
108.如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
109.设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
110.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如移动顺序确定模型的训练方法和/或确定移动顺序的方法。例如,在一些实施例中,移动顺序确定模型的训练方法和/或确定移动顺序的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的移动顺序确定模型的训练方法和/或确定移动顺序的方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行移动顺序确定模型的训练方法和/或确定移动顺序的方法。
111.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器
可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
112.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
113.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
114.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
115.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
116.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(

virtual private server

,或简称

vps

)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
117.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
118.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明
白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献