一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于超参优化的深度强化学习模型的训练方法、装置与流程

2021-12-01 00:46:00 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种基于超参优化的深度强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品。


背景技术:

2.深度强化学习(deep reinforcement learning,简称deep rl)是近年来兴起的一项技术,这项技术融合了深度学习和强化学习两项技术。deep rl具备对复杂系统中的高维状态进行模式识别,并在此基础上进行动作输出的能力。基于深度强化学习,可以通过与环境进行交互,不断试错总结的方式进行学习。deep rl适用于控制、决策以及复杂系统优化任务。在游戏、自动驾驶控制与决策、机器人控制、金融、工业系统控制优化等领域,deep rl拥有巨大的潜在应用空间。但是,由于deep rl的训练需要与环境进行大规模交互,在大部分现实场景中都不具备这一条件,这一问题严重地制约了深度强化学习方法的落地。
3.为了解决这一问题,相关技术中提出了离线深度强化学习(off

line deep rl)技术,然而,目前off

line deep rl方法的训练效果会随着数据集的不同而效果偏差较大,导致所能达到的训练效果仍存在适应性差、性能低的问题。


技术实现要素:

4.本技术提供一种用于基于超参优化的深度强化学习模型的训练方法、装置。
5.根据本技术的第一方面,提供了一种基于超参优化的深度强化学习模型的训练方法,包括:
6.获取多个初始超参数组合,和多个第一深度强化学习模型;
7.采用所述初始超参数组合中的多个超参数训练所述多个第一深度强化学习模型,以得到与所述多个第一深度强化学习模型分别对应的训练评价指标;
8.根据所述训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型;
9.采用与所述第二深度强化学习模型对应的多个目标超参数对所述初始超参数组合进行优化处理,以形成目标超参数组合;以及
10.采用所述目标超参数组合之中的多个超参数训练所述第二深度强化学习模型,以得到目标深度强化学习模型。
11.根据本技术的第二方面,提供了一种基于超参优化的深度强化学习模型的训练装置,包括:
12.第一获取模块,用于获取多个初始超参数组合,和多个第一深度强化学习模型;
13.第一训练模块,用于采用所述初始超参数组合中的多个超参数训练所述多个第一深度强化学习模型,以得到与所述多个第一深度强化学习模型分别对应的训练评价指标;
14.第一筛选模块,用于根据所述训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型;
15.第一处理模块,用于采用与所述第二深度强化学习模型对应的多个目标超参数对所述初始超参数组合进行优化处理,以形成目标超参数组合;以及
16.第二训练模块,用于采用所述目标超参数组合之中的多个超参数训练所述第二深度强化学习模型,以得到目标深度强化学习模型。
17.根据本技术的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的基于超参优化的深度强化学习模型的训练方法。
18.根据本技术的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的基于超参优化的深度强化学习模型的训练方法。
19.根据本技术的第五方面,提供了一种计算机程序产品,所述计算机程序被处理器执行时,实现上述一方面实施例所述的基于超参优化的深度强化学习模型的训练方法。
20.本技术实施例的技术方案,根据多个初始超参数组合和多个深度强化学习模型,对初始超参数组合进行优化处理后形成目标超参数组合,进而采用目标超参数组合之中的多个超参数训练出目标深度强化学习模型。由此,将超参数优化与模型训练结合起来实现深度强化学习模型的训练,不仅可训练出性能更高的深度强化学习模型,而且可使训练出的模型适应更广泛的应用场景。
21.应当理解,本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征,也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
22.附图用于更好地理解本方案,不构成对本技术的限定。其中:
23.图1为本技术实施例提供的一种基于超参优化的深度强化学习模型的训练方法的流程示意图;
24.图2为本技术实施例提供的一种的模型训练的原理示意图;
25.图3为本技术实施例提供的一种对初始超参数组合进行优化处理的流程示意图;
26.图4为本技术实施例提供的一种训练第二深度强化学习模型的流程示意图;
27.图5为本技术实施例提供的一种筛选第二深度强化学习模型的流程示意图;
28.图6为本技术实施例提供的另一种基于超参优化的深度强化学习模型的训练方法的原理示意图;
29.图7为本技术实施例提供的一种将训练方法应用于工业领域的火力发电系统的示意图;
30.图8为本技术实施例提供的一种基于超参优化的深度强化学习模型的训练装置的结构示意图;
31.图9为用来实现本技术实施例的基于超参优化的深度强化学习模型的训练方法的电子设备的框图。
具体实施方式
32.以下结合附图对本技术的示范性实施例做出说明,其中包括本技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
33.下面参考附图描述本技术实施例的基于超参优化的深度强化学习模型的训练方法、装置。
34.需要说明的是,离线深度强化学习算法框架通常包含多个深度神经网络,训练过程的网络参数优化需要通过多个网络交替训练,协同优化。除了深度神经网络的相关参数(如网络层数,每层网络大小,学习率,激活函数参数等),离线深度强化学习算法还有一些特色参数(如折扣因子γ,缓存池大小buffer size,软更新参数τ等)。所以相比于一般的机器学习算法,离线深度强化学习算法的超参数数量更多,超参数的参数取值范围也更大。其次,由于强化学习算法大多使用多网络协同优化的算法框架,在交替过程中引入大量超参数,使得训练过程中有很多随机因素,模型随机性强,可复现性低。同时由于超参数数据量多,范围广,使得模型对高维复杂的超参数空间非常敏感,易受超参数影响。离线深度强化学习人工调参的工作量大,难以覆盖所有的参数空间,更需要一个算法来进行超参数的“精挑细选”。另外,由于offline deep rl算法的特殊性,除了收敛性和可复现性,模型的效果也会受到超参数的影响。而且由于需要从数据中进行寻优,对已有策略的优化幅度本身有限,超参数的起到的作用会更加重要。
35.超参数需要在机器学习模型训练之前定义,在训练过程中不能再做调整。超参数的选择对模型的最终表现好坏起到非常重要的作用,比如庞大复杂的深度神经网络可能适用于处理不同来源的数据,但层数太多会最终导致梯度消失无法训练;又如学习率过大会影响模型收敛效果,过小又会导致收敛速度过慢。对于超参数的选择,一般针对不同模型会有不同的最优组合,通常工程师会根据经验、或者利用随机的方法来尝试找到这组最优超参数。不存在一组完美的超参数适合所有模型,模型优异的表现的背后是超参数的“精挑细选”过程。调参对于模型训练是一个无法回避的步骤,因此,超参数优化在科研和工程上都是非常有价值的。
36.图1为本技术实施例提供的一种基于超参优化的深度强化学习模型的训练方法的流程示意图。
37.需要说明的是,本技术实施例的基于超参优化的深度强化学习模型的训练方法执行主体可以为电子设备,具体的,电子设备可以是但不限于服务器、终端,终端可以是但不限于个人电脑、智能手机、ipad等。
38.本技术实施例以基于超参优化的深度强化学习模型的训练方法被配置于基于超参优化的深度强化学习模型的训练装置中来举例说明,该装置可以应用于电子设备中,以使该电子设备可以执行基于超参优化的深度强化学习模型的训练方法。
39.如图1所示,该基于超参优化的深度强化学习模型的训练方法包括以下步骤:
40.s101,获取多个初始超参数组合,和多个第一深度强化学习模型。
41.其中,超参数组合可以是由一个或多个超参数ai(i为大于等于1的整数)组成的组合,例如,超参数a1、a2及a3组成的初始超参数组合、超参数a2、a4、ai(i≠2、且i≠4)组成的
初始超参数组合等。超参数组合具体可包括至少一个超参数,例如学习率。
42.本技术实施例,可预先在与机器学习有关的超参数的合理取值范围内,进行多次随机采样得到多个不同的初始超参数组合(例如8组)。可根据不同的应用场景获取多个深度强化学习(deep reinforcement learning,简称deep rl)模型,本技术实施例可将该深度强化模型称为第一深度强化学习模型。
43.具体地,在需要出训练性能较高、效果较好的深度强化学习模型时,首先获取多个初始超参数组合,同时,获取多个第一深度强化学习模型,以作为后续训练模型的基础。
44.其中,第一深度强化模型可以是基于off

line deep rl(离线深度强化学习)的模型,可以理解的是,off

line deep rl方法主要基于历史离线数据,通过在历史数据中寻优,找到优化策略。off

line deep rl技术可包括bcq(batch

constrained deep q

learning,批约束深度q学习)、bear(bootstrapping error accumulation reduction,减少自举误差积累)、brac(behavior regularized offline reinforcement learning,行为规范化离线强化学习)、cql(conservative q

learning,保守q学习)等技术。
45.s102,采用初始超参数组合中的多个超参数训练多个第一深度强化学习模型,以得到与多个第一深度强化学习模型分别对应的训练评价指标。
46.其中,训练评价指标可以是用于表征深度强化学习模型的训练效果或者性能高低的指标。
47.具体地,在获取到获取多个初始超参数组合,和多个第一深度强化学习模型之后,可采用初始超参数组合中的每一组初始超参数,分别对多个第一深度强化学习模型进行训练,得到每个训练后的第一深度强化学习模型。之后,可通过模型评价器对训练后的每个第一深度强化学习模型进行效果或者性能评价,以得到与每个第一深度强化学习模型对应的训练评价指标。
48.其中,模型评价器可采用仿真模拟器或者其它离线策略评估模型,例如,使用离线数据对环境进行建模,得到仿真环境,然后用模型和仿真环境进行交互,得到模型在仿真环境中的表现作为模型评价,或者,使用离线强化学习评估算法评估模型。
49.需要说明的是,本技术实施例中得到与多个第一深度强化学习模型分别对应的训练评价指标的方式还可以为相关技术中的其他方式,只要可实现步骤s102即可,本技术实施例对此不做限制。
50.s103,根据训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型。
51.具体地,在得到与多个第一深度强化学习模型分别对应的训练评价指标之后,可根据需求从各个训练评价指标中选取满足需求的训练评价指标,并将满足需求的训练评价指标,即选取出来的训练评价指标对应的第一深度强化学习模型作为第二深度强化学习模型。
52.需要说明的是,训练评价指标的的大小范围可以是大于或者等于0且小于或者等于1,训练评价指标越大,模型的训练性能可以越高;训练评价指标越小,模型的训练性能可以越低。
53.例如,如果第一深度强化学习模型:m1、m2、m3及m4,分别对应的训练评价指标为0.7(效果或者性能较好)、0.2(表现不好)、0.9(表现很好)及0.3(表现不好),那么为了提高
深度强化学习模型的性能,可筛选出模型m1及m3作为第二深度强化学习模型,或者,可筛选出模型m3作为第二深度强化学习模型,具体筛选出哪个模型,可根据具体需求确定。
54.需要说明的是,该步骤中s103,可能存在满足需求的训练评价指标,此时可根据训练评价指标可以筛选出第二深度强化学习模型;也可能不存在满足需求的训练评价指标,为了避免该现象发生,可在上述步骤s101中获取较多数量的初始超参数组合和多个第一深度强化学习模型。
55.s104,采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理,以形成目标超参数组合。
56.本技术实施例,可将每个第二深度强化学习模型的超参数称为目标超参数。
57.需要说明的是,由于deep rl在训练的过程中会较多地受到超参数的影响,与此同时基于off

line deep rl的模型对于现有策略的优化幅度有限,超参数往往会对模型的有效性(即是否能够达到比现有策略更好的水平)造成影响。所以对off

line deep rl的模型进行调参极其重要,但由于off

line deep rl所涉及的超参数量很大,超参数之间存在相互耦合的现象,所以对于基于off

line deep rl模型的调参是一项难度很大的工作,因此需要引入超参优化处理方法。
58.需要说明的是,超参数的优化处理的基本方式可以分为并行搜索(parallel search)和序列优化(sequential optimisation)两种。并行搜索是同时设置多个超参数组合进行训练,比如网格搜索(grid search)和随机搜索(random search),其中,网格搜索是指在设置好超参数的取值范围后,遍历所有可能的超参数组合配置;随机搜索是指当超参数个数比较多时,在超参数的取值范围中随机抽取样本点。序列优化是结合之前的训练经验,设置更好的超参数组合进行下一次训练迭代,如贝叶斯优化方法、基于多臂老虎机问题的选择模型方法(bandit

based algorithm selection methods)等。并行搜索和序列优化均有各自的弊端,并行搜索的缺点在于没有利用模型相互之间的参数优化信息;而序列优化过程会耗费大量计算时间。在off

line deep rl场景中,由于超参数的数量太大,二者都会引起训练效率太低,影响模型的整个训练时间。
59.有鉴于此,本技术通过步骤s104对初始超参数组合进行优化处理。
60.具体地,在确定出第二深度强化学习模型之后,即可确定出与第二深度强化学习模型对应的多个目标超参数,采用该多个目标超参数对初始超参数组合进行优化处理,优化处理之后的初始超参数组合即为目标超参数组合,从而得到目标超参数组合。
61.例如,如果第二深度强化学习模型m1及m3,分别对应的目标超参数组合为a1、a3及a1、a4、a5,那么采用目标超参数a1、a3、a4及a5对多个初始超参数组合进行优化处理,以得到目标超参数组合,比如将其中一个初始超参数组合a1、a2及a4优化为目标超参数组合为a1、a2、a3、a4及a5。
62.该步骤s104中,基于多个目标超参数对初始超参数组合进行优化处理,相较于相关技术中的并行搜索和序列优化的优化处理方式,所需的超参数的数量较少,缩短了训练时间,从而提高了训练效率。
63.s105,采用目标超参数组合之中的多个超参数训练第二深度强化学习模型,以得到目标深度强化学习模型。
64.具体地,在确定出目标超参数组合之后,采用目标超参数之中的多个超参数,对步
骤s103中筛选出来的第二深度强化学习模型进行训练,得到目标深度强化学习模型。
65.具体来说,可对第二深度强化学习模型进行迭代训练,直至收敛时得到一个目标深度强化学习模型。
66.例如,如果目标超参数组合为{a1,a3,a4,a5},第二深度强化学习模型为m1及m3,那么采用a1、a3、a4及a5迭代训练第二深度强化学习模型m1及m3,直至模型收敛,得到一个目标深度强化学习模型。
67.也就是说,通过执行上述步骤s101至s105,可以基于多个初始超参数组合,和多个第一深度强化学习模型,先得到与多个第一深度强化学习模型分别对应的训练评价指标,然后根据训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型,采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理后,对第二深度强化学习模型进行迭代训练,直至得到性能较高、效果较好的目标深度强化学习模型。
68.在本技术实施例中,如图2所示,首先可基于特定场景获取适合的off

line deep rl,然后对每个模型进行超参优化,优化完成后,可利用模型评价器对训练出的模型进行评价,并筛选出表现最好的模型进行输出,从而得到目标深度强化学习模型。
69.本技术实施例的基于超参优化的深度强化学习模型的训练方法,根据多个初始超参数组合和多个深度强化学习模型,对初始超参数组合进行优化处理后形成目标超参数组合,进而采用目标超参数组合之中的多个超参数训练出目标深度强化学习模型。由此,将超参数优化与模型训练结合起来实现深度强化学习模型的训练,不仅可训练出性能更高的深度强化学习模型,而且可使训练出的模型适应更广泛的应用场景。
70.上述步骤s104中进行超参数的优化处理时,为了提高优化处理的有效性,在本技术的一个实施例中,如图3所示,上述步骤s104,可包括以下步骤s301至s303:
71.s301,确定初始超参数组合属于的超参数集合。
72.具体地,在确定出第二深度强化学习模型之后,确定初始超参数组合属于的超参数集合{a1,a2,

,an}。
73.s302,将多个目标超参数补充添加至超参数集合之中,以得到目标超参数集合。
74.需要说明的是,与第二深度强化学习模型对应的多个目标超参数中可能存在属于超参数集合中的目标超参数,也可能存在不属于超参数集合中的目标超参数。
75.具体地,在确定出超参数集合{a1,a2,

,an}之后,将与第二深度强化学习模型对应的多个目标超参数中的不属于超参数集合的目标超参数,补充添加至超参数集合之中,得到目标超参数集合。
76.例如,如果与第二深度强化学习模型对应的多个目标超参数为a2、a3、a5及a6,超参数集合为{a1,a2,a3,a4},那么可将多个目标超参数中的a5及a6补充添加至超参数集合中,从而得到目标超参数集合{a1,a2,a3,a4,a5,a6}。
77.s303,从目标超参数集合之中选取至少部分超参数,并根据至少部分超参数形成目标超参数组合。
78.具体地,在确定出目标超参数集合{a1,a2,

,am}(m≥n)之后,可从目标超参数之中选取至少部分超参数,并根据至少部分超参数形成目标超参数组合。
79.例如,如果目标超参数集合为{a3,a5,a6,a7,a8,a9},也即有6个目标超参数据,那
么可从6个目标超参数中选择至少2个目标超参数形成目标超参数组合,比如组合a3、a5及a6、组合a5及a6、组合a7、a8及a9等。
80.也就是说,通过目标超参数实现对超参数集合的优化扩展,进而根据优化扩展后的超参数集合中的部分超参数,生成至少一个目标超参数组合。由此,不仅实现了模型训练过程中的超参数优化处理,且提高了优化处理的有效性。
81.需要说明的是,在执行上述步骤s105时,可对第二深度强化学习模型进行迭代训练,直至收敛时得到一个目标深度强化学习模型。为了提高超参数优化的效率,并生成效果较好的目标超参数组合,可在每一次训练之后,重新执行上述步骤s104,即采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理,也可在训练次数达到一定次数时,重新执行上述步骤s104。基于此,本技术实施例提出了如下实施例:
82.在本技术的一个实施例中,基于超参优化的深度强化学习模型的训练方法,还可包括:在训练第二深度强化学习模型的次数达到设定迭代次数时,重新采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理。
83.其中,设定迭代次数可以是预先设置,也可以是基于目标深度学习模型的当前性能确定的,或者,还可以是通过其他方式确定,本技术实施例对此并不限制。
84.具体地,在对第二深度强化学习模型进行迭代训练时,可对迭代训练的次数进行计数,当迭代训练的次数为设定迭代次数时,重新采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理,以得到目标超参数组合。之后,可继续执行步骤s105,即采用目标超参数组合之中的多个超参数训练第二深度强化学习模型,以得到目标深度强化学习模型。
85.由此,在对深度强化学习模型迭代训练的过程中,可进行至少一次超参数的优化处理,既保证强化学习模型有足够的更新迭代步数,达到完全收敛的状态,又在这个过程中不断调整超参数,进行模型的“精挑细选”从而可以提高超参数的优化效率,生成效果较好的目标超参数组合。
86.如图4所示,上述步骤s105可包括以下步骤:
87.s401,采用目标超参数组合之中的多个超参数迭代训练第二深度强化学习模型,以得到第二深度强化学习模型输出的预测值。
88.具体地,在形成目标超参数组合之后,采用目标超参数组合之中的多个超参数迭代训练第二深度强化学习模型,以得到第二深度强化学习模型输出的预测值。
89.s402,如果预测值和标定值之间的损失值满足损失阈值,则将训练得到的第二深度强化学习模型作为目标深度强化学习模型。
90.其中,标定值可以是用来表征第二深度强化学习模型的表现性能较好的模型输出预测值。损失阈值可以是指预测值与标定值之间的最大损失值,也即如果预测值与标定值之间的损失值为损失阈值时,第二深度强化学习模型的表现性能较好。
91.具体地,在对第二深度强化学习模型进行迭代训练,以得到第二深度强化学习模型输出的预测值时,可在每一次训练后计算预测值与标定值之间的损失值,如果损失值满足损失阈值,即损失值小于或者等于损失阈值,则将当前训练得到的第二深度强化学习模型作为目标深度强化学习模型;如果损失值不满足损失阈值,即损失值大于损失阈值,则可继续进行迭代训练,或者,也可重新采用与当前的第二深度强化学习模型对应的多个目标
超参数对初始超参数组合进行优化处理,以得到目标超参数组合,之后,再执行上述步骤s401和s402,直至损失值满足损失阈值。
92.例如,假设损失阈值为0.2,如果在进行了3次训练之后,第二深度强化学习模型输出的预测值和标定值之间的损失值小于或者等于0.2,则将第3次训练得到的第二深度强化学习模型,作为目标深度强化学习模型
93.该实施例中,每当对第二深度强化学习模型完成一定步数的迭代训练后,可设置一个检查点(checkpoint),通过与其他模型的表现比较,调整当前的模型参数,若当前模型表现较好,则继续训练,直至当前模型表现很好;若不好,则替换(exploit)成其他模型中较好的参数配置,并在此基础上添加随机扰动(explore)继续训练。
94.由此,根据第二深度强化学习模型输出的预测值筛选目标深度强化学习模型,提高了模型筛选的可靠性。
95.需要说明的是,通过执行上述步骤s103时根据训练评价指标筛选出来的第二深度强化学习模型的的数量可能是至少一个,因此可将多个第一深度强化学习模型中的训练评价指标排在前面的第一深度强化学习模型,作为第二深度强化学习模型。
96.即在本技术的一个实施例中,第二深度强化学习模型的数量为设定个数k时,如图5所示,上述步骤s103,可包括以下步骤s501至s502:
97.s501,根据训练评价指标,对多个第一深度强化学习模型进行排序。
98.可以理解的是,设定个数可以小于或者等于第一深度强化学习模型的个数。
99.具体地,在得到与多个第一深度强化学习模型分别对应的训练评价指标之后,根据每个训练评价指标的高低,对对应的第一深度强化学习模型进行排序,以得到排序后的第一深度强化学习模型。具体而言,训练评价指标越高,其对应的第二深度强化学习模型的排序可以越前面。
100.s502,将排序在前的设定个数的第一深度强化学习模型作为第二深度强化学习模型。
101.具体地,在将第一深度强化学习模型按照训练评价指标进行排序之后,将排序在前的k个第一深度强化学习模型作为第二深度强化学习模型,从而完成第二深度强化学习模型的筛选,然后执行步骤s104及s105。
102.例如,如果需要筛选的第二深度强化学习模型的个数为2个,4个第一深度强化学习模型m1、m2、m3及m4的训练评价指标分别为0.1、0.3、0.8及0.7,则将m1、m2、m3及m4进行排序为:m3

m4

m2

m1。之后,可将排序在前的2个模型即m3及m4作为第二深度强化学习模型。
103.进一步地,在实际应用中,本技术实施例中的设定个数k,是一个根据需要可以调节的参数。在本技术的一个实施例中,上述步骤s103,还可包括:确定对第一深度强化学习模型进行训练的指标性能需求;根据指标性能需求自适应地调整设定个数。
104.具体而言,在执行上述步骤s502之前,可根据对第一深度强化学习模型进行训练的指标性能需求确定设定个数k,然后根据训练评价指标筛选出k个第二深度强化学习模型。需要说明的是,在筛选时,指标性能需求不是一成不变的,而可能是随着指标性能需求变化的,因此,需要实时确定对第一深度强化学习模型进行训练的指标性能需求,进而根据指标性能需求自适应地调整设定个数k。
105.需要说明的是,较大的设定个数k可以增加超参优化的探索性,避免陷入局部最优的局面,较小的设定个数k可以加快收敛,从而加快筛选的速度。
106.由此,先根据性能指标需求确定设定个数,基于训练评价指标对第一深度强化学习模型进行排序,便可直接将设定个数的排序在前的第一深度强化学习模型作为第二深度强化学习模型,从而提高了模型筛选的可靠性和便利性。
107.需要说明的是,考虑到单纯系列优化过程耗时太久,同时单纯的并行搜索需要大量的训练资源(如gpu(graphics processing unit,图形处理器),内存,cpu(central processing unit,中央处理器)等),本技术实施例引入并行搜索和序列优化协同的方法,保证在有限的训练资源下使用尽量短的计算时间来达到超参优化的目的。
108.即在本技术的一个实施例中,上述步骤s102中的训练多个第一深度强化学习模型,可包括:采用并行训练的方式训练多个第一深度强化学习模型。
109.具体地,基于初始超参数组合中的每一组超参数分别对第一强化学习模型进行训练时,引入多gpu进行并行训练以提升训练速度,生成模型组合。
110.基于上述各个实施例,下面结合图6描述本技术一个示例的基于超参优化的深度强化学习模型的训练方法:
111.如图6所示,本方法的主要流程可以为:
112.第一步,给定用来训练离线强化学习模型的历史数据集,初始化超参数组合。
113.第二步,基于离线数据,训练出一个模型评价器。
114.方案1:使用离线数据对环境进行建模,得到仿真环境。然后用模型和仿真环境进行交互,得到模型在仿真环境中表现作为模型评价。
115.方案2:使用离线强化学习评估算法评估模型。
116.第三步,基于初始超参数组合中的每一组超参数分别对强化学习模型(即第一深度强化学习模型)进行训练,并引入多gpu进行并行训练提升速度,生成模型组合。
117.第四步,利用模型评价器对多组初始超参数训练出的模型进行评价,并留下效果好的优势模型(即第二深度强化学习模型)。
118.第五步,抽取优势模型的超参数,并进行超参扩展,生成新的超参数组合(即目标超参数组合)。
119.第六步,重复第三步至第五步,直到一定的训练步数。
120.本技术实施例考虑到强化学习训练过程时间较长,随机性强的特点,引入基于群体的训练(population based training,简称pbt)参数优化方法,这种方法兼具模型训练和超参优化协同,既保证强化学习模型有足够的更新迭代步数,达到完全收敛的状态,又在这个过程中不断调整超参数,进行模型的“精挑细选”。本技术实施例提供的基于超参优化的深度强化学习模型的训练方法,包含模型准备、超参优化、模型筛选和模型输出四个流程,达到训练出更好模型的效果;而且基于pbt算法和多gpu在训练的过程中对强化学习模型的超参数进行优化,达到提升离线强化学习训练效果的目的。
121.下面结合图7描述本技术实施例的一个具体应用场景:
122.需要说明的是,本技术实施例可以应用于面向工业领域的燃烧优化控制方法,例如火力发电优化系统。火电发电机组的状态空间巨大,内在很多物理、化学反应机理尚不明确,外部输入会被环境干扰,不同机组特性不同,操作人员对其运行原理也不可能完全洞
悉。火电厂在各处都安装有不同类型的传感器,能够实时地将读数收集汇总到dcs系统,传感器釆样频率密集,生成大量数据。利用大数据挖掘内在规律,构建离线强化学习模型,优化过程定义为一个多目标多约束高动态的决策过程,通过调整控制变量,来优化人为制定的目标函数。其中最直接的目标就是提高锅炉效率和降低污染物排放,用更少的煤发更多的电,产生更少的污染。
123.在此类场景中,往往微小的提升就会带来可观的经济效益,而模型所能达到的效果往往会受到超参数设置的影响。此时引入超参优化方法,可以帮助训练出优化效果更好的模型,提升优化效果。通过特征工程,从历史数据中所有的状态特征中选择出若干特征构成集合s,如图7所示,状态特征s中主要包含锅炉燃烧过程中传感器采集的数据如“炉膛压力”,“炉膛氧量”,“蒸汽流量”,“蒸汽温度”,“烟气温度”,“烟气压力”,“nox含量”,“水冷壁壁温”,“二次风箱压力”,“风机电流”等。动作a定义为燃烧过程中可以调节的控制变量如“风机动叶调节阀”,“烟气挡板”,“一次、二次风调节阀门”,“减温水调节阀门”等。模型过去t个时间步的历史操作记录为{(s0,a0),(s1,a1)...(s
t
‑1,a
t
‑1)},可将含有历史操作记录的信息存入离线数据集d中,然后构建一个基于off

line deep rl的控制模型。离线强化学习模型的输入为状态特征s,输出为动作a。然后利用离线数据集,采用本技术实施例提出的训练方法对模型进行训练,输出更高质量的目标深度强化学习模型。
124.本技术实施例还提出了一种基于超参优化的深度强化学习模型的训练装置,图8为本技术实施例提供的一种基于超参优化的深度强化学习模型的训练装置的结构示意图。
125.如图8所示,该基于超参优化的深度强化学习模型的训练装置800包括:第一获取模块810、第一训练模块820、第一筛选模块830、第一处理模块840及第二训练模块850。
126.其中,第一获取模块810,用于获取多个初始超参数组合,和多个第一深度强化学习模型;第一训练模块820,用于采用初始超参数组合中的多个超参数训练多个第一深度强化学习模型,以得到与多个第一深度强化学习模型分别对应的训练评价指标;第一筛选模块830,用于根据训练评价指标从多个第一深度强化学习模型之中筛选出第二深度强化学习模型;第一处理模块840,用于采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理,以形成目标超参数组合;以及第二训练模块850,用于采用目标超参数组合之中的多个超参数训练第二深度强化学习模型,以得到目标深度强化学习模型。
127.在本技术的一个实施例中,第一处理模块840,可包括:第一确定单元,用于确定初始超参数组合属于的超参数集合;第一添加单元,用于将多个目标超参数补充添加至超参数集合之中,以得到目标超参数集合;以及第一选取单元,用于从目标超参数集合之中选取至少部分超参数,并根据至少部分超参数形成目标超参数组合。
128.在本技术的一个实施例中,基于超参优化的深度强化学习模型的训练装置800还可包括:第二处理模块,用于在训练第二深度强化学习模型的次数达到设定迭代次数时,重新采用与第二深度强化学习模型对应的多个目标超参数对初始超参数组合进行优化处理。
129.在本技术的一个实施例中,第二训练模块,可包括:第一训练单元,用于采用目标超参数组合之中的多个超参数迭代训练第二深度强化学习模型,以得到第二深度强化学习模型输出的预测值;第一确定单元,用于如果预测值和标定值之间的损失值满足损失阈值,则将训练得到的第二深度强化学习模型作为目标深度强化学习模型。
130.在本技术的一个实施例中,第一训练模块,可包括:第二训练单元,用于采用并行训练的方式训练与各个超参数组合对应的第一深度强化学习模型。
131.在本技术的一个实施例中,第二训练模块,还可包括:第三确定单元,用于确定对第一深度强化学习模型进行训练的指标性能需求;第一调整单元,用于根据指标性能需求自适应地调整设定个数。
132.需要说明的是,本技术实施例的基于超参优化的深度强化学习模型的训练装置的其他具体实施方式可参见前述基于超参优化的深度强化学习模型的训练方法的具体实施方式,为避免冗余,此处不再赘述。
133.本技术实施例的基于超参优化的深度强化学习模型的训练装置,将超参数优化与模型训练结合起来实现深度强化学习模型的训练,不仅可训练出性能更好的深度强化学习模型,而且可使训练出的模型适应更广泛的应用场景。
134.根据本技术的实施例,本技术还提供了一种基于超参优化的深度强化学习模型的训练方法的电子设备、可读存储介质和计算机程序产品。下面结合图9进行说明。
135.图9是根据本技术实施例的基于超参优化的深度强化学习模型的训练方法的电子设备的框图。
136.如图9所示,电子设备900可以包括:存储器910和至少一个处理器920,连接不同组件(包括存储器910和处理器920)的总线930。
137.存储器910上存储有计算机程序,当处理器920执行所述程序时实现本技术实施例的基于超参优化的深度强化学习模型的训练方法。
138.总线930表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industry standard architecture;简称isa)总线,微通道体系结构(micro channel architecture;简称mac)总线,增强型isa总线、视频电子标准协会(video electronics standards association;简称vesa)局域总线以及外围组件互连(peripheral component interconnection;简称pci)总线。
139.电子设备900典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备800访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
140.存储器910可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(random access memory;简称ram)940和/或高速缓存存储器950。电子设备900可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统960可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(compact disc read only memory,简称cd

rom)、数字多功能只读光盘(digital video disc read only memory,简称dvd

rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线930相连。存储器910可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
141.具有一组(至少一个)程序模块970的程序/实用工具980,可以存储在例如存储器910中,这样的程序模块970包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块870通常执行本发明所描述的实施例中的功能和/或方法。
142.电子设备900也可以与一个或多个外部设备990(例如键盘、指向设备、显示器991等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口992进行。并且,电子设备900还可以通过网络适配器993与一个或者多个网络(例如局域网(local area network,,简称lan),广域网(wide area network,简称wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器993通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
143.处理器920通过运行存储在存储器910中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
144.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
145.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
146.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
147.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器
(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
148.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
149.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
150.此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
151.上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献