一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

强化学习模型的训练方法、装置、电子设备以及介质与流程

2022-05-21 04:18:21 来源:中国专利 TAG:


1.本公开涉及人工智能技术领域,具体而言,涉及一种强化学习模型的训练方法、装置、电子设备以及介质。


背景技术:

2.强化学习模型由一个智能体(agent)和可交互的环境(environment)组成。在每个时间步(timestep),智能体收到环境的状态,智能体根据其策略采取某个动作并与环境互动,得到相应的奖励信号和下一个时间步的环境状态。强化学习没有固定的、静态的数据集,训练数据由智能体产生,并用于优化智能体自身。在对强化学习模型进行训练时,通常在经验回放池随机采样一组数据对该强化学习模型进行训练。在采样到的数据质量较差的情况下,将影响该强化学习模型的训练精度。


技术实现要素:

3.本公开实施例至少提供一种强化学习模型的训练方法、装置、电子设备以及介质。
4.第一方面,本公开实施例提供了一种强化学习模型的训练方法,包括:获取待训练的强化学习模型;确定样本数据库中各训练样本的样本筛选参数;其中,所述样本筛选参数用于表征训练样本与所述待训练的强化学习模型的训练匹配度,所述训练样本由所述待训练的强化学习模型在历史迭代训练阶段生成;基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本;基于所述目标训练样本对所述待训练的强化学习模型执行当前迭代阶段的迭代训练任务,得到目标强化学习模型。
5.在本公开实施例中,在对强化学习模型进行训练时,可以确定样本数据库中各训练样本的样本筛选参数,进而基于该样本筛选参数在样本数据库中筛选出与该待训练的强化学习模型相匹配的目标训练样本。在基于该目标训练样本对待训练的强化学习模型进行训练时,可以提高强化学习模型的训练精度,从而得到处理精度更高的强化学习模型。
6.一种可选的实施方式中,所述样本筛选参数的数量为至少两个;所述基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,包括:基于所述样本筛选参数的参数类型确定所述样本筛选参数的筛选顺序;按照所述样本筛选参数的筛选顺序在所述样本数据库中筛选满足训练匹配度要求的目标训练样本。
7.一种可选的实施方式中,所述样本筛选参数包括以下至少之一:样本陈旧度、样本优先级和样本采样次数;其中,所述样本陈旧度用于表征训练样本产生时强化学习模型的迭代训练阶段和所述当前迭代阶段的迭代差距,所述样本优先级用于表征训练样本的预测值和该训练样本的样本真值之间的误差,所述样本采样次数用于表征训练样本用于执行迭代训练任务的次数。
8.上述实施方式中,可以先基于样本筛选参数所属的参数类型确定该样本筛选参数的筛选顺序,再基于该筛选顺序在样本数据库中筛选满足训练匹配度要求的目标训练样本,从而可以提高筛选得到的目标训练样本的质量,以提升待训练的强化学习模型的训练
精度,进而提升强化学习模型的精度。
9.一种可选的实施方式中,所述基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,包括:通过所述样本陈旧度在所述样本数据库中筛选满足迭代差距要求的第一初始训练样本;通过所述样本优先级在所述第一初始训练样本中筛选满足优先级要求的第二初始训练样本;通过所述样本采样次数在所述第二初始训练样本中筛选满足采样次数要求的第三初始训练样本,并基于所述第三初始训练样本确定所述目标训练样本。
10.上述实施方式中,可以先基于样本陈旧度从样本数据库中筛选满足迭代差距要求的第一初始训练样本,接着从第一初始训练样本中筛选满足优先级要求的第二初始训练样本,最后从第二初始训练样本中筛选满足采样次数要求的第三初始训练样本,并基于第三初始训练样本确定目标训练样本。通过上述方式,不仅提高了筛选得到目标训练样本的速度,还提高了得到的目标训练样本的质量,进而提高了强化学习模型的训练精度。
11.一种可选的实施方式中,所述通过所述样本优先级在所述第一初始训练样本中筛选满足优先级要求的第二初始训练样本,包括:获取待搜索的二叉搜索树;其中,所述二叉搜索树中一个叶子节点的数值用于表征一个样本优先级,所述二叉搜索树中父节点的数值为该父节点的子节点的数值之和,所述二叉搜索树中的每个节点包含对应的样本区间,所述样本区间用于指示样本优先级为该节点所对应数值的训练样本的样本标识;在所述二叉搜索树中搜索满足优先级要求的样本优先级,并确定所述满足优先级要求的样本优先级所在节点对应的目标样本区间;在所述第一初始训练样本中筛选包含在所述目标样本区间的训练样本,得到所述第二初始训练样本。
12.上述实施方式中,可以通过获取待搜索的二叉搜索树,在二叉搜索树中搜索预先设定的样本优先级,并将预先设定的样本优先级所在节点对应的样本区间确定为目标样本区间的方式,可以降低样本优先级对应搜索操作的复杂度,进而提高筛选满足优先级要求的训练样本的效率。之后,可以在第一初始训练样本中筛选包含在上述目标样本区间的训练样本,得到第二初始训练样本,进而可以提高目标训练样本的质量,进而提高强化学习模型的训练精度。
13.一种可选的实施方式中,所述样本筛选参数包括样本优先级,所述方法还包括:在基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本之后,基于所述样本优先级确定所述样本数据库中对应目标训练样本的采样概率;基于所述采样概率计算该目标训练样本的采样权重;基于所述采样权重更新该目标训练样本的样本优先级,得到该目标训练样本更新之后的样本优先级。
14.上述实施方式中,通过对使用之后的目标训练样本的样本优先级进行更新,可以调整目标训练样本在下一次迭代阶段再次被筛选为目标训练样本的概率,从而能够保证不同迭代阶段所筛选出的目标训练样本的多样性,并降低不同迭代阶段所筛选出的目标训练样本的重复度,以提高强化学习模型的优化精度,并进一步提升强化学习模型的训练精度。
15.一种可选的实施方式中,所述基于所述采样概率计算该目标训练样本的采样权重,包括:获取所述当前迭代阶段的目标修正参数;基于所述目标修正参数、所述采样概率和预先设定的样本采样数量,确定该目标训练样本的采样权重。
16.上述实施方式中,通过结合目标修正参数、采样概率和样本采样数据确定该目标
训练样本的采样权重,可以保证目标训练样本在筛选过程的无偏性,从而能够保证迭代阶段的稳定性和多样性。
17.一种可选的实施方式中,所述方法还包括:在基于所述样本筛选参数在样本数据库中筛选目标训练样本的过程中,向所述样本数据库中写入新训练样本;获取当前时间段内所述目标训练样本的样本筛选数量,以及获取所述当前时间段内所述新训练样本的样本写入数量;基于所述样本筛选数量和所述样本写入数量,控制下一时间段内目标训练样本的样本筛选数量,和/或,所述下一时间段内新训练样本的样本写入数量。
18.上述实施方式中,可以在样本数据库中筛选目标训练样本的过程中,向样本数据库中写入新训练样本。同时,还可以通过获取得到的当前时间段内的样本筛选数量以及当前时间段内的样本写入数量,控制下一时间段内的样本筛选数量以及下一时间段内的样本写入数量,进而保证样本数据库吞吐量维持在预先设定的范围内,从而可以提高样本数据库中训练样本的使用效率,避免浪费以及同策略化的问题。
19.一种可选的实施方式中,所述样本数据库包括:目标文件系统和样本回放池;其中,所述目标文件系统用于存储训练样本的完整数据,所述样本回放池用于存储对应训练样本的元数据,所述元数据包括:训练样本的样本属性、训练样本在所述目标文件系统中的文件存储路径。
20.上述实施方式中,通过将强化学习模型得到的训练样本分别存储在样本回放池以及目标文件系统中,可以避免由于训练样本数据过大导致的样本存放池内存不足的问题,从而节省了系统资源。
21.一种可选的实施方式中,所述基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,包括:基于所述样本筛选参数在所述样本回放池中筛选满足所述训练匹配度要求的目标训练样本的目标元数据,并获取所述目标元数据中的目标文件存储路径;确定存储在所述目标文件系统中所述目标文件存储路径下的训练样本为所述目标训练样本。
22.上述实施方式中,可以先确定目标训练样本对应的目标元数据,再获取目标元数据中的目标文件存储路径,并基于该目标文件存储路径从目标文件系统中获取目标训练样本对应的完整数据,通过该处理方式可以缓解样本回放池的存储压力,避免出现内存不足的问题。
23.一种可选的实施方式中,所述样本筛选参数包括训练样本对应的交互步数;所述基于所述至少一个样本筛选参数在样本数据库中筛选满足训练匹配度要求的多个目标训练样本,包括:在所述样本数据库中确定与所述交互步数相匹配的目标样本数据库;其中,所述样本数据库包括:基类数据库和至少一个扩展数据库;所述基类数据库用于存储单步训练样本,所述至少一个扩展数据库用于存储多步训练样本,每个所述扩展数据库用于存储指定交互步数的训练样本;在所述目标样本数据库中筛选满足所述训练匹配度要求的多个目标训练样本。
24.上述实施方式中,可以实现筛选出任意交互步数的训练样本,从而满足用户的多样化训练需求。
25.第二方面,本公开实施例还提供一种强化学习模型的训练装置,包括:获取单元,用于获取待训练的强化学习模型;确定单元,用于确定样本数据库中各训练样本的样本筛
选参数;其中,所述样本筛选参数用于表征训练样本与所述待训练的强化学习模型的训练匹配度,所述训练样本由所述待训练的强化学习模型在历史迭代训练阶段生成;筛选单元,用于基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本;训练单元,用于基于所述目标训练样本对所述待训练的强化学习模型执行当前迭代阶段的迭代训练任务,得到目标强化学习模型。
26.第三方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
27.第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
28.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
29.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
30.图1示出了本公开实施例所提供的一种强化学习模型的训练方法的流程图;
31.图2示出了本公开实施例所提供的基于样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本方法的流程图;
32.图3示出了本公开实施例所提供的在样本数据库中筛选满足训练匹配度要求的目标训练样本的流程示意图;
33.图4示出了本公开实施例所提供的一种二叉搜索树的结构示意图;
34.图5示出了本公开实施例所提供的控制下一时间段内目标训练样本的样本筛选数量,和/或,下一时间段内新训练样本的样本写入数量方法的流程图;
35.图6示出了本公开实施例所提供的一种强化学习模型的训练装置的示意图;
36.图7示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
37.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所
有其他实施例,都属于本公开保护的范围。
38.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
39.本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
40.首先,对本公开技术方案中可能出现的词汇进行解释。
41.强化学习(reinforcement learning):又称再励学习、评价学习,是智能体(agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖励值。
42.强化学习的几个基本要素:环境、智能体、奖励、动作。下面,结合上述要素阐述强化学习的原理和思路:
43.假设,大脑代表上述智能体,神经网络的训练员可以操作该智能体来做决策,即选择一个合适的动作(action)a1。假设,地球代表要研究的环境,该环境包含对应的状态模型。在控制大脑选择执行动作a1后,环境的状态(state)会变。此时,可以发现环境状态已经从s{t}变为s{t 1},同时还得到大脑采取动作a1的延时奖励(reward)r{t 1}。然后,大脑可以继续选择下一个合适的动作,然后环境的状态又会变,又有新的奖励值。
44.为便于对本实施例进行理解,首先对本公开实施例所公开的一种神经网络训练方法进行详细介绍,本公开实施例所提供的神经网络训练方法的执行主体一般为具有一定计算能力的电子设备。在一些可能的实现方式中,该神经网络训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
45.经研究发现,强化学习模型由一个智能体(agent)和可交互的环境(environment)组成。在每个时间步(timestep),智能体收到环境的状态,智能体根据其策略采取某个动作并与环境互动,得到相应的奖励信号和下一个时间步的环境状态。强化学习没有固定的、静态的数据集,训练数据由智能体产生,并用于优化智能体自身;优化完成的智能体可用于决策智能场景(如自动驾驶、机器人控制、游戏ai等)。在对强化学习模型进行训练时,通常在经验回放池随机采样一组数据对该强化学习模型进行训练。在采样到的数据质量较差的情况下,将影响该强化学习模型的训练精度。
46.基于上述研究,本公开提供了一种强化学习模型的训练方法。在本公开实施例中,在对强化学习模型进行训练时,可以确定样本数据库中各训练样本的样本筛选参数,进而基于该样本筛选参数在样本数据库中筛选出与该待训练的强化学习模型相匹配的目标训练样本。在基于该目标训练样本对待训练的强化学习模型进行训练时,可以提高强化学习模型的训练精度,从而得到处理精度更高的强化学习模型。
47.为便于对本实施例进行理解,首先对本公开实施例所公开的一种强化学习模型的训练方法进行详细介绍,本公开实施例所提供的强化学习模型的训练方法的执行主体一般为具有一定计算能力的电子设备。
48.参见图1所示,为本公开实施例提供的一种强化学习模型的训练方法的流程图,所述方法包括步骤s101~s107,其中:
49.s101:获取待训练的强化学习模型。
50.这里,强化学习模型可以包含两个互相独立的模型:状态转化预测模型和奖励预测模型。其中,状态预测模型可以根据输入的当前状态s以及动作a,预测下一个状态s’。其中,奖励预测模型可以根据输入的当前状态s以及动作a,预测环境的奖励r。
51.因此,本公开实施例所提供的待训练的强化学习模型对应的每个训练样本可以由当前状态s、动作a、下一时刻的状态s’、以及预测环境的奖励r四个元素构成。
52.s103:确定样本数据库中各训练样本的样本筛选参数;其中,所述样本筛选参数用于表征训练样本与所述待训练的强化学习模型的训练匹配度,所述训练样本由所述待训练的强化学习模型在历史迭代训练阶段生成。
53.在本公开实施例中,样本筛选参数可以理解为用于确定待训练的强化学习模型的训练样本的参数。此时,可以基于样本筛选参数确定训练样本与待训练的强化学习模型之间的训练匹配度。
54.在本公开实施例中,样本筛选参数的个数可以为m个,m为大于1的自然数。例如,m的取值可以为3,也可以为5。当然在其它实施例中,m也可以为1。
55.s105:基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本。
56.在本公开实施例中,样本数据库可以理解为用于存储强化学习模型在各个历史迭代训练阶段生成的训练样本的数据库。其中,样本数据库的数量可以为1个,也可以为多个。
57.在本公开实施例中,样本数据库的存储的内容可以为训练样本数据,也可以为训练样本数据的存储路径。
58.在本公开实施例中,在确定出样本筛选参数之后,可以基于该样本筛选参数在样本数据库中筛选满足训练匹配度要求的多个训练样本,并将该多个训练样本确定为待训练的强化学习模型的目标训练样本。
59.这里,训练匹配度越高,则越有利于提高待训练的强化学习模型训练效果,训练匹配度要求与各个样本筛选参数的参数类型相关联。
60.举例来说,训练匹配度要求可以理解为各个每个样本筛选参数的参数筛选要求。这里,参数筛选要求可以为基于筛选阈值进行确定。比如,在训练样本满足每个样本筛选参数的参数筛选要求的情况下,确定该训练样本为满足训练匹配度要求的目标训练样本。
61.在本公开实施例中,样本数据库中满足训练匹配度要求的目标训练样本的数量可以为n个,n为大于1的自然数。例如,n的取值可以为100,也可以为1000。
62.s107:基于所述目标训练样本对所述待训练的强化学习模型执行当前迭代阶段的迭代训练任务,得到目标强化学习模型。
63.在本公开实施例中,可以基于得到的目标训练样本对待训练的强化学习模型执行迭代训练任务,得到目标强化学习模型。
64.在得到目标强化学习模型之后,可以将该目标强化学习模型用于智能机器人、智能交通、组合优化、量化金融等领域。
65.例如,在目标强化学习模型用于智能机器人领域的情况下,该智能机器人可以与人进行交互(例如,下棋场景),或者,该机器人可以用于感知、规划(例如,自动驾驶场景)等。
66.本公开对上述目标强化学习模型的应用领域及场景不作具体限定,以满足实际需要为准。
67.通过上述描述可知,在对强化学习模型进行训练时,可以确定样本数据库中各训练样本的样本筛选参数,进而基于该样本筛选参数在样本数据库中筛选出与该待训练的强化学习模型相匹配的目标训练样本。在基于该目标训练样本对待训练的强化学习模型进行训练时,可以提高强化学习模型的训练精度,从而得到处理精度更高的强化学习模型。
68.在一个可选的实施方式中,在样本筛选参数的数量为至少两个的情况下,针对上述s105:基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,具体包括如下步骤:
69.步骤s21:基于所述样本筛选参数的参数类型确定所述样本筛选参数的筛选顺序;
70.步骤s22:按照所述样本筛选参数的筛选顺序在所述样本数据库中筛选满足训练匹配度要求的目标训练样本。
71.在一个可选的实施方式中,样本筛选参数包括以下至少之一:样本陈旧度、样本优先级和样本采样次数;其中,所述样本陈旧度用于表征训练样本产生时强化学习模型的迭代训练阶段和所述当前迭代阶段的迭代差距,所述样本优先级用于表征训练样本的预测值和该训练样本的样本真值之间的误差,所述样本采样次数用于表征训练样本用于执行迭代训练任务的次数。
72.在本公开实施例中,样本筛选参数的参数类型与该样本筛选参数的参数含义相关联。
73.这里,样本筛选参数的参数类型可以为:陈旧度类、优先级类和使用次数类。其中,针对陈旧度类,该样本筛选参数可以包含:样本陈旧度、样本产生时间等用于指示训练样本产生时强化学习模型的迭代训练阶段和当前迭代阶段之间的迭代差距的参数。针对优先级类,该样本筛选参数可以包含:样本的损失函数值、样本的目标值和预测值之间的差距等。针对使用次数类,该样本筛选参数可以包含:样本采样次数、样本采样频率、样本采样概率等参数。
74.在本公开实施例中,在确定出每个样本筛选参数所属的参数类型之后,可以基于该参数类型确定上述样本筛选参数的筛选顺序。
75.具体实施时,可以基于各个样本筛选参数的参数类型,确定各个样本筛选参数的参数优先级,进而按照参数优先级从高到低的顺序对各个样本筛选参数进行排序,从而得到样本筛选参数的筛选顺序。
76.例如,参数类型陈旧度类、优先级类和使用次数类的参数优先级依次降低,此时,就可以基于“陈旧度类”样本筛选参数对训练样本进行筛选;之后,基于“优先级类”的样本筛选参数对初步筛选出训练样本进行再次筛选;最后,基于“使用次数类”的样本筛选参数对第二次筛选出训练样本进行最后筛选,从而在样本数据库中筛选满足训练匹配度要求的目标训练样本。
77.除此之外,样本筛选参数的筛选顺序还可以为用户设定的筛选参数,本公开对上述样本筛选参数的筛选顺序的确定方法不作具体限定,以满足实际需要为准。
78.上述实施方式中,可以先基于样本筛选参数所属的参数类型确定该样本筛选参数的筛选顺序,再基于该筛选顺序在样本数据库中筛选满足训练匹配度要求的目标训练样
本,从而可以提高筛选得到的目标训练样本的质量,以提升待训练的强化学习模型的训练精度,进而提升强化学习模型的精度。
79.在一个可选的实施方式中,如图2所示,针对上述步骤s105:基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,具体还包括如下步骤:
80.步骤s31:通过所述样本陈旧度在所述样本数据库中筛选满足迭代差距要求的第一初始训练样本;
81.步骤s32:通过所述样本优先级在所述第一初始训练样本中筛选满足优先级要求的第二初始训练样本;
82.步骤s33:通过所述样本采样次数在所述第二初始训练样本中筛选满足采样次数要求的第三初始训练样本,并基于所述第三初始训练样本确定所述目标训练样本。
83.在本公开实施例中,在样本筛选参数包括样本陈旧度、样本优先级、样本采样次数的情况下,可以针对每个样本筛选参数预先设定对应的阈值要求。
84.例如,在样本筛选参数为“样本陈旧度”的情况下,可以确定上述阈值要求为预设迭代差距。
85.当上述迭代差距越大时,代表产生数据的强化学习模型和即将被更新的强化学习模型两者之间的差距越大,进而影响强化学习模型的更新质量。因此,从样本数据库中筛选得到的目标训练样本的样本陈旧度不能过大。
86.因此,在样本陈旧度小于或者等于上述预设迭代差距的情况下,可以确定训练样本的“样本陈旧度”满足迭代差距要求,进而可以将样本数据库中满足迭代差距要求的训练样本确定为第一初始训练样本。
87.例如,在样本筛选参数为“样本优先级”的情况下,可以确定上述阈值要求为预设样本误差,即预先设定的样本预测值和样本目标值之间的误差。
88.当预设样本误差越大时,可以针对强化学习模型中的错误给出更加正确的估计,进而可以更好的优化强化学习模型,因此,从样本数据库中筛选得到的目标训练样本的样本优先级越大,越有利于提高强化学习模型的训练精度。
89.因此,在样本优先级大于或者等于上述预设样本误差的情况下,可以确定训练样本的“样本优先级”满足优先级要求,进而可以将上述第一初始训练样本中满足优先级要求的训练样本确定为第二初始训练样本。
90.又如,在样本筛选参数为“样本采样次数”的情况下,可以确定上述阈值要求为预设采样次数。
91.在训练强化学习模型的过程中,当一条训练样本被过多次的使用时,可能会导致强化学习模型的过拟合现象,进而影响强化学习模型的精度。
92.因此,在样本优先级小于或者等于上述预设采样次数的情况下,可以确定训练样本的“样本采样次数”满足采样次数要求,进而可以将上述第二初始训练样本中满足采样次数要求的训练样本确定为第三初始训练样本,并基于得到的第三初始训练样本确定目标训练样本。
93.针对上述描述的:基于样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,具体实施过程如图3所示。
94.在本公开实施例中,在筛选目标训练样本的过程中,可以先基于样本陈旧度对每
个训练样本进行初步筛选,将不满足迭代差距要求的训练样本从样本数据库中移除。例如,如图3所示的样本数据库中的“陈旧度1”对应的训练样本、“陈旧度2”对应的训练样本和“陈旧度3”对应的训练样本均不满足迭代差距要求,此时,将该3个训练样本从样本数据库中移除,并将样本数据库中剩余的训练样本确定为第一初始训练样本。
95.之后,在第一初始训练样本中确定满足优先级要求的训练样本,并将第一初始训练样本中剩余的训练样本确定为第二初始训练样本。例如,如图3所示的第一初始训练样本中“优先级1”对应的训练样本不满足优先级要求,将第一初始训练样本中剩余的训练样本确定为第二初始训练样本。
96.在确定出第二初始训练样本之后,再确定第二初始训练样本中每个训练样本的样本采样次数,将不满足采样次数要求的训练样本从第二初始训练样本中移除,并将第二初始训练样本中剩余的训练样本确定为第三初始训练样本。例如,如图3所示的第三初始训练样本中“采样次数1”对应的训练样本不满足采样次数要求,将该“采样次数1”对应的训练样本从第二初始训练样本中移除,并将第二初始训练样本中剩余的训练样本确定为第三初始训练样本,并基于得到的第三初始训练样本确定目标训练样本。
97.在本公开实施例中,上述检查每个训练样本的样本陈旧度的过程可以在筛选目标训练样本的过程中,也可以每经过一定时间间隔进行一次筛选,并将不满足迭代差距要求的训练样本进行移除,得到满足迭代差距要求的训练样本(也即第一初始训练样本)。
98.上述实施方式中,可以先基于样本陈旧度从样本数据库中筛选满足迭代差距要求的第一初始训练样本,接着从第一初始训练样本中筛选满足优先级要求的第二初始训练样本,最后从第二初始训练样本中筛选满足采样次数要求的第三初始训练样本,并基于第三初始训练样本确定目标训练样本。通过上述方式,不仅提高了筛选得到目标训练样本的速度,还提高了得到的目标训练样本的质量,进而提高了强化学习模型的训练精度。
99.在一个可选的实施方式中,针对上述步骤s32:通过所述样本优先级在所述第一初始训练样本中筛选满足优先级要求的第二初始训练样本,具体包括如下步骤:
100.步骤s41:获取待搜索的二叉搜索树;其中,所述二叉搜索树中一个叶子节点的数值用于表征一个样本优先级,所述二叉搜索树中父节点的数值为该父节点的子节点的数值之和,所述二叉搜索树中的每个节点包含对应的样本区间,所述样本区间用于指示样本优先级为该节点所对应的训练样本的样本标识;
101.步骤s42:在所述二叉搜索树中搜索满足优先级要求的样本优先级,并确定所述满足优先级要求的样本优先级所在节点对应的目标样本区间;
102.步骤s43:在所述第一初始训练样本中筛选包含在所述目标样本区间的训练样本,得到所述第二初始训练样本。
103.在本公开实施例中,上述待搜索的二叉搜索树(或者线段树)可以理解为训练样本对应样本优先级的存储方式。
104.在本公开实施例中,二叉搜索树中每个节点包含对应的样本区间,每个样本区间可以理解为用于确定该节点对应的训练样本的样本标识。
105.其中,二叉搜索树中的一个叶子节点对应的数值可以理解为一个样本优先级,二叉搜索树中父节点对应的数值为该父节点的包含的子节点的数值之和。
106.举例来说,如图4所示,存在一个二叉搜索树,该二叉搜索树包含:父节点、子节点
1、子节点2、子节点3、叶子节点1、叶子节点2、叶子节点3、叶子节点4、叶子节点5。
107.其中,父节点、子节点和叶子结点均包含对应的样本区间以及对应的样本优先级。例如,父节点对应的样本优先级为60,样本区间为[1,5];子节点1对应的样本优先级为33,样本区间为[1,3];叶子结点1对应的样本优先级为10,样本区间为[1,1]。
[0108]
这里,样本区间[1,5]表示样本优先级60所对应的训练样本的样本标识为1至5,即:训练样本1、训练样本2、训练样本3、训练样本4、训练样本5。样本区间[1,3]表示样本优先级33所对应的训练样本的样本标识为1至3,即:训练样本1、训练样本2、训练样本3。样本区间[1,1]表示样本优先级10所对应的训练样本的样本标识为1,即:训练样本1,以此类推,图4中的其他样本区间的含义与上述相同,此处不再一一描述。
[0109]
在本公开实施例中,可以在获取得到的待搜索的二叉搜索树中搜索满足优先级要求的样本优先级,并确定该满足优先级要求的样本优先级所在节点对应的目标样本区间。
[0110]
具体实施时,首先,确定搜索参数,并基于该搜索参数在二叉搜索树中进行搜索,得到满足优先级要求的目标样本优先级。之后,再基于该目标样本优先级确定满足优先级要求的样本优先级所在节点对应的目标样本区间。
[0111]
其中,上述基于搜索参数在二叉搜索树中进行搜索,得到满足优先级要求的目标样本优先级搜索过程描述如下。
[0112]
首先,判断搜索参数与父节点对应的一级子节点的大小,选择该一级子节点中对应优先级数大于上述搜索参数的分支进行下一步搜索。之后,在该一级子节点对应的二级子节点中确定该一级子节点中对应优先级数大于上述搜索参数的分支进行下一步搜索,直至搜索得到叶子结点,并将搜索得到的叶子结点所对应的样本优先级确定为满足优先级要求的样本优先级,以及,将搜索得到的叶子结点所对应的样本区间确定为目标样本区间。
[0113]
其中,一级子节点为父节点的子节点,二级子节点为每个一级子节点的子节点,以此类推,本公开对此不再详细介绍。
[0114]
例如,如图4所示的二叉搜索树,其中,父节点对应的一级子节点为子节点1和子节点2,二级子节点为子节点3、叶子结点3、叶子结点4、叶子结点5,三级子节点为叶子结点1、叶子结点2。
[0115]
例如,在上述搜索参数为30的情况下,针对如图4所示的二叉搜索树,上述搜索过程即为“父节点-子节点1-叶子结点3”,并将“叶子结点3”对应的样本优先级确定为满足优先级要求的样本优先级,并将“叶子结点3”对应的样本区间[3,3]确定为目标样本区间。
[0116]
在本公开实施例中,在确定目标样本区间之后,可以在第一初始训练样本中筛选包含在目标样本区间的训练样本,并将包含在目标样本区间的训练样本确定为第二初始训练样本,例如,将样本标识为3的训练样本确定为第二初始训练样本。
[0117]
具体实施时,当在二叉搜索树中搜索预先设定的优先级时,会从二叉搜索树的根节点开始,逐层向下查询,在查询到与预先设定的优先级相同的样本优先级时停止查询,并将该样本优先级所在节点的样本区间确定为上述目标样本区间。
[0118]
上述实施方式中,可以通过获取待搜索的二叉搜索树,在二叉搜索树中搜索预先设定的样本优先级,并将预先设定的样本优先级所在节点对应的样本区间确定为目标样本区间的方式,可以降低样本优先级对应搜索操作的复杂度,进而提高筛选满足优先级要求的训练样本的效率。之后,可以在第一初始训练样本中筛选包含在上述目标样本区间的训
练样本,得到第二初始训练样本,进而可以提高目标训练样本的质量,进而提高强化学习模型的训练精度。
[0119]
在一个可选的实施方式中,在样本筛选参数包括样本优先级的情况下,本公开实施例还包括如下步骤:
[0120]
步骤s51:在基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本之后,基于所述样本优先级确定所述样本数据库中对应目标训练样本的采样概率;
[0121]
步骤s52:基于所述采样概率计算该目标训练样本的采样权重;
[0122]
步骤s53:基于所述采样权重更新该目标训练样本的样本优先级,得到该目标训练样本更新之后的样本优先级。
[0123]
在本公开实施例中,在样本优先级越大的情况下,代表训练样本的预测值和该训练样本的样本真值(或者,样本目标值)之间的误差越大。此时,该样本优先级对应的训练样本对于强化学习模型的梯度更新步幅越大,因此,该训练样本的采样概率越大,被重复用于强化学习模型更新的次数就越多。然而,当该训练样本作为目标训练样本多次用于强化学习模型的训练过程时,容易影响强化学习模型的优化过程,进而影响强化学习模型的训练精度。
[0124]
因此,在每个目标训练样本完成强化学习模型的训练过程之后,需要对每个目标训练样本的样本优先级进行更新处理,以保证强化学习模型的训练精度。
[0125]
具体实施时,在基于样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本之后,可以基于每个目标训练样本的样本优先级确定该目标训练样本在样本数据库中对应的采样概率。
[0126]
其中,目标训练样本对应的采样概率p(i)的计算公式如下所示。
[0127][0128]
其中,pi代表第i个目标训练样本的样本优先级,α为一个非负实数,在α=0的情况下,表示筛选目标训练样本时不考虑样本优先级,在α为正数的情况下,表示采样到该目标训练样本的概率与该目标训练样本的样本优先级成正相关。
[0129]
在本公开实施例中,在基于样本优先级确定样本数据库中对应目标训练样本的采样概率之后,可以基于该采样概率计算该目标训练样本的采样权重。
[0130]
上述实施方式中,通过对使用之后的目标训练样本的样本优先级进行更新,可以调整目标训练样本在下一次迭代阶段再次被筛选为目标训练样本的概率,从而能够保证不同迭代阶段所筛选出的目标训练样本的多样性,并降低不同迭代阶段所筛选出的目标训练样本的重复度,以提高强化学习模型的优化精度,并进一步提升强化学习模型的训练精度。
[0131]
在一个可选的实施方式中,上述基于采样概率计算该目标训练样本的采样权重的过程描述如下:
[0132]
(1)获取所述当前迭代阶段的目标修正参数;
[0133]
(2)基于所述目标修正参数、所述采样概率和预先设定的样本采样数量,确定该目标训练样本的采样权重。
[0134]
在本公开实施例中,目标修正参数可以用于调整训练之后的目标训练样本的样本
优先级,进而调整目标训练样本的采样概率。
[0135]
在本公开实施例中,目标修正参数的初始值为0,之后,该目标修正参数的数值可以随着训练过程的进行逐渐增大,并且,该目标修正参数的最大值为1。
[0136]
具体实施时,可以预先设定目标修正参数的步长参数,并基于该步长参数确定强化学习模型在训练完成之后上述目标修正参数的数值。例如,上述步长参数可以为0.1,此时,可以确定每完成一次训练过程,目标修正参数的数值增大0.1,在目标修正参数的数值增大到1的情况下,该目标修正参数的数值即保持不变。
[0137]
其中,上述步长参数还可以为0.01,本公开对上述步长参数不作具体限定,以满足实际需要为准。
[0138]
在本公开实施例中,预先设定的样本采样数量可以理解为预先设定的从样本数据库中筛选得到的目标训练样本的数量。
[0139]
在本公开实施例中,在获取得到目标修正参数之后,可以基于该目标修正参数、目标训练样本的采样概率以及预先设定的样本采样数量确定目标训练样本的采样权重。其中,目标训练样本的采样权重的计算公式如下所示。
[0140][0141]
其中,n为预先设定的样本采样数量(也即,上述筛选得到的满足训练匹配度要求的目标训练样本的数量),p(i)为上述计算的得到的第i个目标训练样本对应的采样概率,β为目标修正参数。
[0142]
在本公开实施例中,可以在计算得到目标训练样本的采样权重之后,基于该采样权重更新该目标训练样本的样本优先级,得到该目标训练样本更新之后的样本优先级。
[0143]
具体实施时,在强化学习模型进行训练结束之后,可以得到每个目标训练样本的初始样本优先级。之后,基于该初始样本优先级计算每个目标训练样本的采样概率,并基于得到的采样概率计算每个目标训练样本的采样权重。最后,将采样权重与初始样本优先级进行乘积运算,得到每个目标训练样本更新之后的样本优先级。
[0144]
上述实施方式中,通过结合目标修正参数、采样概率和样本采样数据确定该目标训练样本的采样权重,可以保证目标训练样本在筛选过程的无偏性,从而能够保证迭代阶段的稳定性和多样性。
[0145]
在一个可选的实施方式中,如图5所示,本公开实施例还包括如下步骤:
[0146]
步骤s61:在基于所述样本筛选参数在样本数据库中筛选目标训练样本的过程中,向所述样本数据库中写入新训练样本;
[0147]
步骤s62:获取当前时间段内所述目标训练样本的样本筛选数量,以及获取所述当前时间段内所述新训练样本的样本写入数量;
[0148]
步骤s63:基于所述样本筛选数量和所述样本写入数量,控制下一时间段内目标训练样本的样本筛选数量,和/或,所述下一时间段内新训练样本的样本写入数量。
[0149]
在本公开实施例中,可以基于样本筛选参数在样本数据库中筛选目标训练样本,并将该目标训练样本用于训练强化学习模型。同时,在强化学习模型的训练过程中还可以产生新训练样本,并将产生的新训练样本写入样本数据库中。
[0150]
目前,针对上述在样本数据库中筛选目标训练样本以及向样本数据库中写入新训
练样本的过程可以通过两种线程进行控制,一种是串行模型,一种是并行模式。
[0151]
在串行模式下,目标训练样本的筛选过程以及新训练样本的写入过程是交替完成的,可以通过程序直接控制,进而可以保证样本数据库的吞吐量维持在预先设定的范围内,进而可以避免样本数据库中训练样本只读入不使用的浪费问题,以及避免样本数据库中训练样本只使用不读入的同策略化的问题。
[0152]
然而,在并行模式下,目标训练样本的筛选过程以及新训练样本的写入过程是同时进行的,进而无法保证样本数据库的吞吐量维持在预先设定的范围内,进而容易影响训练样本的利用效率。
[0153]
因此,在本公开实施例中,针对上述并行模式,可以通过获取一个时间段内样本数据库中样本筛选数量以及样本写入数量,控制下一个时间段内的目标训练样本的样本筛选数量,和/或,所述下一时间段内新训练样本的样本写入数量,进而保证样本数据库的吞吐量维持在预先设定的范围内。
[0154]
其中,上述一个时间段用于表示预先设定的时间间隔。例如,一个时间段可以为1分钟,也可以为5分钟,本公开对上述一个时间段的具体内容不作限定,以满足实际需要为准。
[0155]
上述实施方式中,可以在样本数据库中筛选目标训练样本的过程中,向样本数据库中写入新训练样本。同时,还可以通过获取得到的当前时间段内的样本筛选数量以及当前时间段内的样本写入数量,控制下一时间段内的样本筛选数量以及下一时间段内的样本写入数量,进而保证样本数据库吞吐量维持在预先设定的范围内,从而可以提高样本数据库中训练样本的使用效率,避免浪费以及同策略化的问题。
[0156]
在一个可选的实施方式中,本公开实施例所提供的样本数据库包括:目标文件系统和样本回放池;其中,所述目标文件系统用于存储训练样本的完整数据,所述样本回放池用于存储对应训练样本的元数据,所述元数据包括:训练样本的样本属性、训练样本在所述目标文件系统中的文件存储路径。
[0157]
目前,针对强化学习模型所产生的训练样本主要是存放在样本回放池中以解决训练样本非独立同分布的问题。然而,在强化学习模型的交互环境比较复杂的情况下,强化学习模型所产生的训练样本通常较大,容易出现样本回放池内存不足的问题。
[0158]
在本公开实施例中,可以将强化学习模型所产生的训练样本存储在目标文件系统以及样本回放池中,从而可以解决在训练样本较大的情况下出现的样本回放池内存不足的问题。
[0159]
在本公开实施例中,样本回放池中存储训练样本的数据结构可以为“循环队列”。其中,该“循环队列”中有一个头指针和一个尾指针,初始状态下两者都指向样本回放池的开头。
[0160]
当样本回放池不满时,直接将新训练样本放到尾指针处,然后另尾指针向后移动一位,头指针不动。当样本回放池恰好满时,头指针指向开头,尾指针指向结尾,此时再有新训练样本待塞入时,将覆盖掉头指针所指位置的数据,然后头指针、尾指针同时向后移动一位。
[0161]
在本公开实施例中,目标文件系统用于存储训练样本的完整数据,样本回放池用于存储对应训练样本的元数据。
[0162]
其中,完整数据可以理解为包括强化学习模型的训练样本所对应的数据。例如,完整数据中可以包含:当前状态s、动作a、下一个状态s’以及预测环境的奖励r。
[0163]
其中,元数据可以理解为包括训练样本的样本属性(例如,样本陈旧度、样本优先级、样本采样次数)以及训练样本在目标文件系统中的文件存储路径的数据。
[0164]
此外,完整数据中还可以包含当前状态s、动作a、下一个状态s’,元数据中包含预测环境的奖励r、训练样本的样本属性以及训练样本在目标文件系统中的文件存储路径。
[0165]
本公开对上述完整数据以及元数据所包含的具体内容不作限定,以满足实际需要为准。
[0166]
上述实施方式中,通过将强化学习模型得到的训练样本分别存储在样本回放池以及目标文件系统中,可以避免由于训练样本数据过大导致的样本存放池内存不足的问题,从而节省了系统资源。
[0167]
在一个可选的实施方式中,在样本数据库包括目标文件系统和样本回放池的情况下,针对上述s105:基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,具体包括如下步骤:
[0168]
步骤s71:基于所述样本筛选参数在所述样本回放池中筛选满足所述训练匹配度要求的目标训练样本的目标元数据,并获取所述目标元数据中的目标文件存储路径;
[0169]
步骤s72:确定存储在所述目标文件系统中所述目标文件存储路径下的训练样本为所述目标训练样本。
[0170]
在本公开实施例中,在样本数据库包括目标文件系统和样本回放池的情况下,当基于样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本时,可以先基于样本筛选参数在样本回放池中筛选满足训练匹配度要求的目标训练样本的目标元数据,并获取目标元数据中的目标文件存储路径。之后,再确定存储在目标文件系统中上述目标文件存储路径下的训练样本为目标训练样本。
[0171]
其中,每个训练样本在目标文件系统中的目标文件存储路径均不相同,本公开对上述目标文件存储路径的具体内容不作限定,以满足实际需要为准。
[0172]
上述实施方式中,可以先确定目标训练样本对应的目标元数据,再获取目标元数据中的目标文件存储路径,并基于该目标文件存储路径从目标文件系统中获取目标训练样本对应的完整数据,通过该处理方式可以缓解样本回放池的存储压力,避免出现内存不足的问题。
[0173]
在一个可选的实施方式中,在样本筛选参数包括训练样本对应的交互步数的情况下,针对上述s105:基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,具体包括如下步骤:
[0174]
步骤s81:在所述样本数据库中确定与所述交互步数相匹配的目标样本数据库;其中,所述样本数据库包括:基类数据库和至少一个扩展数据库;所述基类数据库用于存储单步训练样本,所述至少一个扩展数据库用于存储多步训练样本,每个所述扩展数据库用于存储指定交互步数的训练样本;
[0175]
步骤s82:在所述目标样本数据库中筛选满足所述训练匹配度要求的目标训练样本。
[0176]
在本公开实施例中,在样本筛选参数包括训练样本对应的交互步数的情况下,可
以基于上述交互步数在样本数据库中筛选满足训练匹配度要求的目标训练样本。
[0177]
具体实施时,首先,可以在样本数据库中确定与上述交互步数相匹配的目标样本数据库。之后,再从目标样本数据库中筛选满足训练匹配度要求的目标训练样本。
[0178]
其中,预先设定的交互步数可以为单步,可以为多步。例如,预先设定的交互步数可以为1,也可以为3。本公开对上述预先设定的交互步数的数值不作具体限定,以满足实际需要为准。
[0179]
在本公开实施例中,可以预先设定一个基类数据库,然后,设计了至少一个通用的接口,并通过继承的方式实现各种不同的经验回放池(即,扩展数据库),满足扩展性和定制化需求。针对每个扩展数据库,可以通过对应的接口继承基类数据库中的数据,比如,训练样本的元数据。
[0180]
上述实施方式中,可以实现筛选出任意交互步数的训练样本,从而满足用户的多样化训练需求。
[0181]
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0182]
基于同一发明构思,本公开实施例中还提供了与强化学习模型的训练方法对应的强化学习模型的训练装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述强化学习模型的训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0183]
参照图6所示,为本公开实施例提供的一种强化学习模型的训练装置的示意图,所述装置包括:获取单元61、确定单元62、筛选单元63、训练单元64;其中,
[0184]
获取单元61,用于获取待训练的强化学习模型;
[0185]
确定单元62,用于确定样本数据库中各训练样本的样本筛选参数;其中,所述样本筛选参数用于表征训练样本与所述待训练的强化学习模型的训练匹配度,所述训练样本由所述待训练的强化学习模型在历史迭代训练阶段生成;
[0186]
筛选单元63,用于基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本;
[0187]
训练单元64,用于基于所述目标训练样本对所述待训练的强化学习模型执行当前迭代阶段的迭代训练任务,得到目标强化学习模型。
[0188]
在本公开实施例中,在对强化学习模型进行训练时,可以确定样本数据库中各训练样本的样本筛选参数,进而基于该样本筛选参数在样本数据库中筛选出与该待训练的强化学习模型相匹配的目标训练样本。在基于该目标训练样本对待训练的强化学习模型进行训练时,可以提高强化学习模型的训练精度,从而得到处理精度更高的强化学习模型。
[0189]
一种可能的实施方式中,筛选单元,还用于:在样本筛选参数的数量为至少两个的情况下,基于所述样本筛选参数的参数类型确定所述样本筛选参数的筛选顺序;按照所述样本筛选参数的筛选顺序在所述样本数据库中筛选满足训练匹配度要求的目标训练样本。
[0190]
一种可能的实施方式中,样本筛选参数包括以下至少之一:样本陈旧度、样本优先级和样本采样次数;其中,所述样本陈旧度用于表征训练样本产生时强化学习模型的迭代训练阶段和所述当前迭代阶段的迭代差距,所述样本优先级用于表征训练样本的预测值和
该训练样本的样本真值之间的误差,所述样本采样次数用于表征训练样本用于执行迭代训练任务的次数。
[0191]
一种可能的实施方式中,筛选单元,还用于:通过所述样本陈旧度在所述样本数据库中筛选满足迭代差距要求的第一初始训练样本;通过所述样本优先级在所述第一初始训练样本中筛选满足优先级要求的第二初始训练样本;通过所述样本采样次数在所述第二初始训练样本中筛选满足采样次数要求的第三初始训练样本,并基于所述第三初始训练样本确定所述目标训练样本。
[0192]
一种可能的实施方式中,筛选单元,还用于:获取待搜索的二叉搜索树;其中,所述二叉搜索树中一个叶子节点的数值用于表征一个样本优先级,所述二叉搜索树中父节点的数值为该父节点的子节点的数值之和,所述二叉搜索树中的每个节点包含对应的样本区间,所述样本区间用于指示样本优先级为该节点所对应数值的训练样本的样本标识;在所述二叉搜索树中搜索满足优先级要求的样本优先级,并确定所述满足优先级要求的样本优先级所在节点对应的目标样本区间;在所述第一初始训练样本中筛选包含在所述目标样本区间的训练样本,得到所述第二初始训练样本。
[0193]
一种可能的实施方式中,筛选单元,还用于:在基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本之后,基于所述样本优先级确定所述样本数据库中对应目标训练样本的采样概率;基于所述采样概率计算该目标训练样本的采样权重;基于所述采样权重更新该目标训练样本的样本优先级,得到该目标训练样本更新之后的样本优先级。
[0194]
一种可能的实施方式中,筛选单元,还用于:获取所述当前迭代阶段的目标修正参数;基于所述目标修正参数、所述采样概率和预先设定的样本采样数量,确定该目标训练样本的采样权重。
[0195]
一种可能的实施方式中,训练单元,还用于:在基于所述样本筛选参数在样本数据库中筛选目标训练样本的过程中,向所述样本数据库中写入新训练样本;获取当前时间段内所述目标训练样本的样本筛选数量,以及获取所述当前时间段内所述新训练样本的样本写入数量;基于所述样本筛选数量和所述样本写入数量,控制下一时间段内目标训练样本的样本筛选数量,和/或,所述下一时间段内新训练样本的样本写入数量。
[0196]
一种可能的实施方式中,样本数据库包括:目标文件系统和样本回放池;其中,所述目标文件系统用于存储训练样本的完整数据,所述样本回放池用于存储对应训练样本的元数据,所述元数据包括:训练样本的样本属性、训练样本在所述目标文件系统中的文件存储路径。
[0197]
一种可能的实施方式中,筛选单元,还用于:基于所述样本筛选参数在所述样本回放池中筛选满足所述训练匹配度要求的目标训练样本的目标元数据,并获取所述目标元数据中的目标文件存储路径;确定存储在所述目标文件系统中所述目标文件存储路径下的训练样本为所述目标训练样本。
[0198]
一种可能的实施方式中,筛选单元,还用于:在所述样本数据库中确定与所述交互步数相匹配的目标样本数据库;其中,所述样本数据库包括:基类数据库和至少一个扩展数据库;所述基类数据库用于存储单步训练样本,所述至少一个扩展数据库用于存储多步训练样本,每个所述扩展数据库用于存储指定交互步数的训练样本;在所述目标样本数据库
中筛选满足所述训练匹配度要求的目标训练样本。
[0199]
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
[0200]
对应于图1中的强化学习模型的训练方法,本公开实施例还提供了一种电子设备700,如图7所示,为本公开实施例提供的电子设备700结构示意图,包括:
[0201]
处理器71、存储器72、和总线73;存储器72用于存储执行指令,包括内存721和外部存储器722;这里的内存721也称内存储器,用于暂时存放处理器71中的运算数据,以及与硬盘等外部存储器722交换的数据,处理器71通过内存721与外部存储器722进行数据交换,当所述电子设备700运行时,所述处理器71与所述存储器72之间通过总线73通信,使得所述处理器71执行以下指令:
[0202]
获取待训练的强化学习模型;
[0203]
确定样本数据库中各训练样本的样本筛选参数;其中,所述样本筛选参数用于表征训练样本与所述待训练的强化学习模型的训练匹配度,所述训练样本由所述待训练的强化学习模型在历史迭代训练阶段生成;
[0204]
基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本;
[0205]
基于所述目标训练样本对所述待训练的强化学习模型执行当前迭代阶段的迭代训练任务,得到目标强化学习模型。
[0206]
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的强化学习模型的训练方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
[0207]
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的强化学习模型的训练方法的步骤,具体可参见上述方法实施例,在此不再赘述。
[0208]
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0209]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0210]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
[0211]
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0212]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0213]
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献