一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于目标控制的离线强化学习方法、装置和设备与流程

2022-03-16 02:25:17 来源:中国专利 TAG:


1.本发明涉及深度学习技术领域,尤其涉及一种用于目标控制的离线强化学习方法、装置和设备。


背景技术:

2.随着科技的进步和社会的发展,自动驾驶已经开始走入人们的生活。
3.为了实现自动驾驶,需要获取车辆的行驶环境信息和对应的司机的操作信息。之后基于这些信息进行强化学习,得到行为策略和优化策略,通过优化策略支持车辆进行自动驾驶。
4.但是现有的方案中,采用的离线强化学习一般基于采用kl散度对优化策略进行约束,不允许优化策略相较于行为策略出现较大的偏移,限制的十分严格,不利于寻求优化策略以控制车辆自动驾驶。


技术实现要素:

5.本发明提供一种用于目标控制的离线强化学习方法、装置和设备,用以解决现有技术采用kl散度对优化策略进行约束,不允许优化策略相较于行为策略出现较大的偏移,限制的十分严格,不利于寻求优化策略以控制车辆自动驾驶缺陷。
6.第一方面,本发明提供一种用于目标控制的离线强化学习方法,包括:
7.获取历史数据;
8.基于所述历史数据,更新预设的行为策略模拟器,确定行为策略和所述行为策略的奖励期望;
9.基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
10.可选的,还包括:基于所述优化策略对目标进行控制。
11.可选的,所述约束项的构造过程包括:
12.基于最大似然估计的方法,确定用于指示所述行为策略对所述优化策略的支持程度的行列式;
13.将所述行列式作为所述约束项。
14.可选的,所述策略性能提升项的构造过程包括:
15.确定重要性采样系数;
16.基于所述重要性采样系数和所述行为策略奖励期望,确定策略性能提升项。
17.可选的,所述确定重要性采样系数,包括:
18.确定目标平均偏差;所述目标平均偏差为所述重要性采样系数与逆重要性采样系数的最大化平均偏差;
19.通过最小化目标平均偏差的方式,确定所述重要性采样系数。
20.可选的,所述确定目标平均偏差包括:
21.确定核函数;
22.基于所述核函数构造目标平均偏差。
23.可选的,所述策略优化目标函数的构造过程包括:
24.将约束项和策略性能提升项相加,得到多项式;
25.基于最大化所述多项式对应的值的目标,构造策略优化目标函数。
26.可选的,所述历史数据包括:车辆驾驶环境信息和车辆操控行为信息。
27.第二方面,本发明实施例提供一种用于目标控制的离线强化学习装置,包括:
28.获取单元,用于获取历史数据;
29.确定单元,用于基于所述历史数据,更新预设的行为策略模拟器,确定行为策略、和所述行为策略的奖励期望;
30.优化单元,用于基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
31.第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如第一方面所提供所述的用于目标控制的离线强化学习方法的步骤。
32.第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的用于目标控制的离线强化学习方法的步骤。
33.本发明提供的用于目标控制的离线强化学习方法,首先,获取历史数据;之后基于所述历史数据,更新预设的行为策略模拟器,确定行为策略和与所述行为策略对应的奖励期望;之后,基于构造的策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略。具体的,策略优化目标函数中包括:基于最大似然估计的方法构造的约束项和基于所述行为策略奖励期望构造的策略性能提升项。与现有技术中基于kl散度构造约束项相比,基于最大似然估计的方法构造的约束项,约束了优化策略的最大化概率分布为行为策略,允许优化策略在高置信的状态下产生较大偏移,同时,为了确定约束项改变后的优化策略的优化效果,本发明实施例提供的方案中,通过基于所述行为策略奖励期望构造的策略性能提升项反映优化策略的优化效果,如此策略优化目标函数可以允许优化策略在高置信的状态下产生较大偏移,同时基于策略性能提升项,判断优化策略的优化效果,以实现离线强化学习中协同智能体确定优化策略的功能,以得到更好的优化策略,并通过该优化策略控制车辆自动驾驶。
附图说明
34.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一
些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1是本发明提供的用于目标控制的离线强化学习方法的流程示意图之一;
36.图2是本发明提供的用于目标控制的离线强化学习方法的流程示意图之二;
37.图3是本发明提供的用于目标控制的离线强化学习装置的结构示意图;
38.图4是本发明提供的电子设备的结构示意图。
具体实施方式
39.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.首先对本发明实施例的应用场景进行说明,随着科技的进步和社会的发展,自动驾驶已经开始走入人们的生活。为了实现自动驾驶,需要获取车辆的行驶环境信息和对应的司机的操作信息。之后基于这些信息进行强化学习,得到行为策略和优化策略,通过优化策略支持车辆进行自动驾驶。
41.离线强化学习(offline reinforcement learning)和在线强化学习(online reinforcement learning)是强化学习的两大分支。相比于在线强化学习,离线强化学习完全不需要智能体与环境的在线交互,而是通过智能体,从一个记录着“状态-动作-奖励-状态{s,a,r,s'}”转移信息的历史数据集b中学习得到最优策略,使该策略可以获得最大的累积奖励。
42.但是现有的方案采用的离线强化学习中,一般基于kl散度进行对优化策略的约束,不允许优化策略相较于行为策略出现较大的偏移,限制的十分严格,不利于寻求优化策略以控制车辆自动驾驶。本技术针对这一问题提出了对应的解决方案。下面结合图1-图4描述本发明提供的用于目标控制的离线强化学习方法、装置和设备。
43.图1是本发明提供的用于目标控制的离线强化学习方法的流程示意图之一,该方法可以由本发明实施例提供的离线强化学习方法来执行。参考图1,该方法具体可以包括如下步骤:
44.步骤110,获取历史数据。
45.示例性的,当控制的目标为需要进行自动驾驶的车辆时,历史数据可以但不限于为:车辆驾驶环境信息和车辆操控行为信息。需要说明的是,历史数据可以基于控制目标的不同而不同。本发明实施例中,车辆驾驶环境信息为状态;车辆操控行为信息为动作;奖励可以基于预设的规则比较车辆操控行为信息之后确定,或者由相关人员负责添加。当然历史数据中,也可以不包括奖励,奖励由后续步骤更新预设的行为策略模拟器中的模拟器进行确定。
46.步骤120,基于所述历史数据,更新预设的行为策略模拟器,确定行为策略、和所述行为策略的奖励期望。
47.其中,更新后的策略模拟器为对应历史数据中的体现出的行为策略μ的模拟器,当观测到同一个状态s时,策略模拟器会尽可能地去模拟行为策略μ的行为,也就是尽可能地
做出与行为策略相似的动作a。示例性的,行为策略是基于历史数据汇总出来的车辆驾驶环境信息和车辆操控行为信息的对应关系,策略模拟器可以模拟这种行为策略。进一步的,策略模拟器还可以计算行为策略中各种策略对应的奖励期望。
48.步骤130,基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
49.如此设置,与现有技术中基于kl散度构造约束项相比,基于最大似然估计的方法构造的约束项,约束了优化策略的最大化概率分布为行为策略,允许优化策略在高置信的状态下产生较大偏移,同时,为了确定约束项改变后的优化策略的优化效果,本发明实施例提供的方案中,通过基于所述行为策略奖励期望构造的策略性能提升项反映优化策略的优化效果,如此策略优化目标函数可以允许优化策略在高置信的状态下产生较大偏移,同时基于策略性能提升项,判断优化策略的优化效果,以实现离线强化学习中协同智能体确定优化策略的功能,以得到更好的优化策略,并通过该优化策略控制车辆自动驾驶。
50.需要说明的是,所述约束项的构造过程包括:基于最大似然估计的方法,确定用于指示所述行为策略对所述优化策略的支持程度的行列式。
51.具体的,当观测到状态s
t
后,采用优化策略π选择动作a
t
,然后根据预设的行为策略模拟器来确定模拟器观测到状态s
t
时会做出动作a
t
的概率,具体的,此处的概率指的是均值为μ
t
,方差为σ
t2
的高斯分布的条件概率分布,如公式(1)所示:
[0052][0053]
基于公式(1)计算得到约束项αlogμ(a
t
|s
t
),其中α为人工调整的超参数,μ
t
和σ
t2
是行为策略模拟器的可学习参数。当优化策略π选择的动作a
t
与模拟器μ选择的动作相差较大时,αlogμ(a
t
|s
t
)会变小。相反地,当优化策略π选择的动作a
t
与模拟器μ选择的动作相差较小时,αlogμ(a
t
|s
t
)会变大。因此,通过最大化αlogμ(a
t
|s
t
)可以促使优化策略π选择和模拟器μ相似的动作。
[0054]
具体的,参照图2,所述策略性能提升项的构造过程包括如下步骤:
[0055]
步骤210,确定核函数;
[0056]
步骤220,基于所述核函数构造目标平均偏差。
[0057]
其中,所述目标平均偏差为所述重要性采样系数与逆重要性采样系数的最大化平均偏差;通过步骤210和步骤220,可以构造目标平均偏差,以便于基于目标平均偏差确定重要性采样系数,并提高重要性采样系数的精度。
[0058]
步骤230,通过最小化目标平均偏差的方式,确定所述重要性采样系数。
[0059]
步骤240,基于所述重要性采样系数和所述行为策略奖励期望,确定策略性能提升项。
[0060]
如此,策略性能提升项可以确定优化策略的奖励期望,奖励期望越高说明优化策
略的效果越好。
[0061]
需要说明的是,优化策略π相比行为策略μ的性能提高程度与正相关。其中a
μ
(s,a)是用来衡量一个动作好与坏的指标,它与累积奖励的期望q
μ
(s,a)正相关,因此优化策略π相比行为策略μ的性能提高程度与正相关。但是计算的时候需要不断地从分布d
π
中采集状态s,而d
π
的计算需要智能体和环境进行交互,所以这在离线强化学习这种无法与环境交互的应用场景下无法得到。即:通常很难计算得到。为了解决这一问题,本发明实施例采用的方式为计算以估计
[0062]
计算的步骤具体如下:首先确定或估计重要性采样系数ω,得到重要性采样系数ω后,便可以通过重要性采样的方法更便捷地计算当重要性采样系数ω精度较高时,可以较为精确地估计难以计算的
[0063]
因此本发明实施例提供的方案中将ω
π
(s)q
μ
(s,a)作为策略性能提升项,用于指示优化策略的性能。同时为了保证策略性能提升项的指示效果较为准确,需要准确地估计重要性采样系数ω。
[0064]
具体的,重要性采样系数ω的具体含义如下所示:
[0065][0066]
公式(2)中,d
μ
为行为策略的状态分布,可以直接从历史数据中计算得到;d
π
为优化策略的状态分布。为了准确地估计重要性采样系数ω,本发明通过重要性采样系数ω与逆重要性采样系数间的平均偏差的方式,得到重要性采样系数ω的估计值,即确定重要性采样系数ω。同时,随着对平均偏差进行最小化,还可以使得得到的重要性采样系数ω的估计精度逐渐提高,降低重要性采样系数ω估计值的方差,从而使得训练更加平稳,不会出现较大的波动。
[0067]
具体的,计算之前,需要选择核函数k(
·
,
·
)的类型,核函数k(
·
,
·
)可以但不限于为高斯核函数或拉普拉斯核函数。
[0068]
高斯核函数如下:
[0069][0070]
拉普拉斯核函数如下:
[0071][0072]
的计算过程分为两步。
[0073]
第一步:从历史数据中随机抽取独立的状态-动作-状态转移对
[0074]
第二步:参照公式(5),计算重要性采样系数ω与逆重要性采样系数间的最大平均偏差公式(5)如下所示:
[0075][0076]
至此,计算得到了最大平均偏差通过最小化便可以使重要性采样系数ω的计算精度逐渐提高。
[0077]
本发明实施例提供的方案中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;基于上述相关实施例,本发明实施例已经提供的策略性能提升项和约束项的确定方法。其中,策略性能提升项为ω
π
(s)q
μ
(s,a)。通过不断最大化策略性能提升项可以保证策略性能的提升。约束项为αlogμ(a|s)。通过最大化约束项可以保证优化策略π在行为策略μ的分布支持范围内。基于此,将约束项和策略性能提升项相加,得到多项式;基于最大化所述多项式对应的值的目标,构造策略优化目标函数。具体的,策略优化目标函数如公式
(6)所示:
[0078][0079]
面对本发明提供的用于目标控制的离线强化学习装置进行描述,下文描述的用于目标控制的离线强化学习装置与上文描述的用于目标控制的离线强化学习方法可相互对应参照。
[0080]
图3是本发明提供的目标控制的离线强化学习装置的结构示意图;参照图3,本发明实施例提供的目标控制的离线强化学习装置,包括:
[0081]
获取单元31,用于获取历史数据;
[0082]
确定单元32,用于基于所述历史数据,更新预设的行为策略模拟器,确定行为策略、和所述行为策略的奖励期望;
[0083]
优化单元33,用于基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
[0084]
本发明实施例提供的装置中,基于最大似然估计的方法构造的约束项,约束了优化策略的最大化概率分布为行为策略,允许优化策略在高置信的状态下产生较大偏移,进一步的,为了确定约束项改变后的优化策略的优化效果,本发明实施例提供的装置中,通过基于所述行为策略奖励期望构造的策略性能提升项反映优化策略的优化效果,如此策略优化目标函数可以允许优化策略在高置信的状态下产生较大偏移,同时基于策略性能提升项,判断优化策略的优化效果,以实现离线强化学习中协同智能体确定优化策略的功能,以得到更好的优化策略,并通过该优化策略控制车辆自动驾驶。
[0085]
可选的,所述约束项的构造过程包括:
[0086]
基于最大似然估计的方法,确定用于指示所述行为策略对所述优化策略的支持程度的行列式。
[0087]
可选的,所述策略性能提升项的构造过程包括:
[0088]
确定重要性采样系数;
[0089]
基于所述重要性采样系数和所述行为策略奖励期望,确定策略性能提升项。
[0090]
可选的,所述确定重要性采样系数,包括:
[0091]
确定目标平均偏差;所述目标平均偏差为所述重要性采样系数与逆重要性采样系数的最大化平均偏差;
[0092]
通过最小化目标平均偏差的方式,确定所述重要性采样系数的精度。
[0093]
可选的,所述确定目标平均偏差包括:
[0094]
确定核函数;
[0095]
基于所述核函数构造目标平均偏差。
[0096]
可选的,所述策略优化目标函数的构造过程包括:
[0097]
将约束项和策略性能提升项相加,得到多项式;
[0098]
基于最大化所述多项式对应的值的目标,构造策略优化目标函数。
[0099]
可选的,所述历史数据包括:车辆驾驶环境信息和车辆操控行为信息。
[0100]
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communications interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行用于目标控制的离线强化学习方法,该方法包括:获取历史数据;基于所述历史数据,更新预设的行为策略模拟器,确定行为策略、和所述行为策略的奖励期望;基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
[0101]
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0102]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的用于目标控制的离线强化学习方法,该方法包括:获取历史数据;基于所述历史数据,更新预设的行为策略模拟器,确定行为策略、和所述行为策略的奖励期望;基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
[0103]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的用于目标控制的离线强化学习方法,该方法包括:获取历史数据;基于所述历史数据,更新预设的行为策略模拟器,确定行为策略、和所述行为策略的奖励期望;基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
[0104]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0105]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0106]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献