一种用于强化学习探索训练的数据处理方法及装置与流程

2022-11-13 14:06:20 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，尤其涉及一种用于强化学习探索训练的数据处理方法及装置。

背景技术：

2.强化学习算法在进行学习时，除了使用当前正在训练的策略进行决策，同时为了获取更好的策略，常常使用随机策略进行探索和利用。常见的探索策略方式有固定值的贪婪策略、epsilon衰减贪婪策略、boltzman分布、upper confidence bounds，而固定值的贪婪策略只适用状态空间有限的简单环境中，epsilon衰减贪婪策略和boltzman分布在初期探索时，策略比较随机，探索效率较低，upper confidence bounds探索策略计算相对来说较为复杂，受参数影响较大。强化学习在前期学习时，探索时间过长，会导致策略训练的时间较长，探索时间过短，又会导致很难学习到更好的策略。因此，如何平衡探索和利用的策略，将会对强化学习的训练效率产生极大的影响。在强化学习应用场景中，一般都是状态空间和动作空间极其复杂和庞大的场景，因此在训练初期，探索策略都是几乎接近于随机策略，此时进行随机探索，并不能得到一个较好的效果，甚至会出现很多无效的探索，导致训练效率大大下降。因此，提供一种用于强化学习探索训练的数据处理方法及装置，以在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。

技术实现要素：

3.本发明所要解决的技术问题在于，提供一种用于强化学习探索训练的数据处理方法及装置，能够通过对模型参数信息和当前训练轮次的判断和计算处理得到用于指示强化学习探索训练的策略动作信息，有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
4.为了解决上述技术问题，本发明实施例第一方面公开了一种用于强化学习探索训练的数据处理方法，所述方法包括：
5.获取模型参数信息和当前训练次数；所述模型参数信息包括第一权重参数、第二权重参数和最大训练轮次；
6.判断所述当前训练次数是否等于所述最大轮训次数，得到第一次数判断结果；
7.当所述第一次数判断结果为否时，对所述模型参数信息进行参数筛选处理，得到训练参数信息；
8.利用预设的策略动作模型对所述训练参数信息和所述模型参数信息进行计算处理，得到策略动作信息；所述策略动作信息用于指示强化学习探索训练。
9.作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述模型参数信息进行参数筛选处理，得到训练参数信息，包括：
10.获取环境状态信息；
11.根据所述环境状态信息随机生成第一随机值；所述第一随机值为区间[0,1]之间
的正数；
[0012]
根据所述第一随机值、所述第一权重参数和所述第二权重参数，确定出训练参数信息。
[0013]
作为一种可选的实施方式，在本发明实施例第一方面中，所述训练参数信息包括第一目标权重参数、第二目标权重参数和第三目标权重参数；
[0014]
所述根据所述第一随机值、所述第一权重参数和所述第二权重参数，确定出训练参数信息，包括：
[0015]
识别所述第一随机值与所述第一权重参数的大小关系，得到第一大小关系；
[0016]
根据所述第一大小关系，确定出所述第一目标权重参数；
[0017]
判断所述第一大小关系是否满足快速训练条件，得到关系判断结果；所述快速训练条件与所述第一权重参数的大小相关；
[0018]
当所述关系判断结果为是时，根据所述环境状态信息随机生成第二随机值；所述第二随机值为区间[0,1]之间的正数；
[0019]
根据所述第二随机值与所述第二权重参数，确定出所述第二目标权重参数和所述第三目标权重参数。
[0020]
作为一种可选的实施方式，在本发明实施例第一方面中，在所述利用预设的策略动作模型对所述训练参数信息进行计算处理，得到策略动作信息之后，所述方法还包括：
[0021]
利用预设的参数阈值对所述第一权重参数进行衰减更新；
[0022]
根据所述最大训练轮次，确定出衰减次数阈值；
[0023]
根据所述衰减次数阈值，对所述第二权重参数进行衰减更新；所述第二权重参数的衰减速率大于所述第一权重参数的衰减速率；
[0024]
更新所述当前训练次数，并触发执行所述判断所述当前训练次数是否等于所述最大轮训次数，得到第一次数判断结果。
[0025]
作为一种可选的实施方式，在本发明实施例第一方面中，所述根据所述衰减次数阈值，对所述第二权重参数进行衰减更新，包括：
[0026]
判断所述当前训练次数是否等于衰减次数阈值，得到第二次数判断结果；
[0027]
当所述第二次数判断结果为否时，计算所述当前训练次数与最近一次衰减更新所述第二权重参数对应的训练次数的差值，得到训练次数差值；
[0028]
判断所述训练次数差值是否等于预设的差值阈值，得到差值判断结果；
[0029]
当所述差值判断结果为是时，利用预设的衰减模型对所述第二权重参数进行计算处理，得到衰减值；
[0030]
利用所述衰减值对所述第二权重参数进行更新。
[0031]
作为一种可选的实施方式，在本发明实施例第一方面中，所述利用预设的参数阈值对所述第一权重参数进行衰减更新，包括：
[0032]
判断所述第一权重参数是否大于预设的参数阈值，得到参数判断结果；
[0033]
当所述参数判断结果为是时，利用预设的参数衰减系数对所述第一权重参数进行更新；所述参数衰减系数是小于1的正数。
[0034]
作为一种可选的实施方式，在本发明实施例第一方面中，所述模型参数信息包括策略模型集合；所述策略模型集合包括至少2个策略模型；
[0035]
所述利用预设的策略动作模型对所述训练参数信息和所述模型参数信息进行计算处理，得到策略动作信息，包括：
[0036]
获取当前状态信息；
[0037]
利用所述策略模型集合对所述当前状态信息进行计算处理，得到模型动作信息；
[0038]
利用预设的策略动作模型对所述模型动作信息和所述训练参数信息进行加权求和计算，得到策略动作信息。
[0039]
本发明实施例第二方面公开了一种用于强化学习探索训练的数据处理装置，装置包括：
[0040]
获取模块，用于获取模型参数信息和当前训练次数；所述模型参数信息包括第一权重参数、第二权重参数和最大训练轮次；
[0041]
判断模块，用于判断所述当前训练次数是否等于所述最大轮训次数，得到第一次数判断结果；
[0042]
第一处理模块，用于当所述第一次数判断结果为否时，对所述模型参数信息进行参数筛选处理，得到训练参数信息；
[0043]
第二处理模块，用于利用预设的策略动作模型对所述训练参数信息和所述模型参数信息进行计算处理，得到策略动作信息；所述策略动作信息用于指示强化学习探索训练。
[0044]
作为一种该可选的实施方式，在本发明实施例第二方面中，所述第一处理模块对所述模型参数信息进行参数筛选处理，得到训练参数信息的具体方式为：
[0045]
获取环境状态信息；
[0046]
根据所述环境状态信息随机生成第一随机值；所述第一随机值为区间[0,1]之间的正数；
[0047]
根据所述第一随机值、所述第一权重参数和所述第二权重参数，确定出训练参数信息。
[0048]
作为一种该可选的实施方式，在本发明实施例第二方面中，所述训练参数信息包括第一目标权重参数、第二目标权重参数和第三目标权重参数；
[0049]
所述第一处理模块根据所述第一随机值、所述第一权重参数和所述第二权重参数，确定出训练参数信息的具体方式为：
[0050]
识别所述第一随机值与所述第一权重参数的大小关系，得到第一大小关系；
[0051]
根据所述第一大小关系，确定出所述第一目标权重参数；
[0052]
判断所述第一大小关系是否满足快速训练条件，得到关系判断结果；所述快速训练条件与所述第一权重参数的大小相关；
[0053]
当所述关系判断结果为是时，根据所述环境状态信息随机生成第二随机值；所述第二随机值为区间[0,1]之间的正数；
[0054]
根据所述第二随机值与所述第二权重参数，确定出所述第二目标权重参数和所述第三目标权重参数。
[0055]
作为一种该可选的实施方式，在本发明实施例第二方面中，在所述第二处理模块利用预设的策略动作模型对所述训练参数信息进行计算处理，得到策略动作信息之后，所述装置还包括：
[0056]
更新模块，用于利用预设的参数阈值对所述第一权重参数进行衰减更新；
[0057]
根据所述最大训练轮次，确定出衰减次数阈值；
[0058]
根据所述衰减次数阈值，对所述第二权重参数进行衰减更新；所述第二权重参数的衰减速率大于所述第一权重参数的衰减速率；
[0059]
更新所述当前训练次数，并触发执行所述判断所述当前训练次数是否等于所述最大轮训次数，得到第一次数判断结果。
[0060]
作为一种该可选的实施方式，在本发明实施例第二方面中，所述更新模块根据所述衰减次数阈值，对所述第二权重参数进行衰减更新的具体方式为：
[0061]
判断所述当前训练次数是否等于衰减次数阈值，得到第二次数判断结果；
[0062]
当所述第二次数判断结果为否时，计算所述当前训练次数与最近一次衰减更新所述第二权重参数对应的训练次数的差值，得到训练次数差值；
[0063]
判断所述训练次数差值是否等于预设的差值阈值，得到差值判断结果；
[0064]
当所述差值判断结果为是时，利用预设的衰减模型对所述第二权重参数进行计算处理，得到衰减值；
[0065]
利用所述衰减值对所述第二权重参数进行更新。
[0066]
作为一种该可选的实施方式，在本发明实施例第二方面中，所述更新模块利用预设的参数阈值对所述第一权重参数进行衰减更新的具体方式为：
[0067]
判断所述第一权重参数是否大于预设的参数阈值，得到参数判断结果；
[0068]
当所述参数判断结果为是时，利用预设的参数衰减系数对所述第一权重参数进行更新；所述参数衰减系数是小于1的正数；
[0069]
当所述参数判断结果为否时，维持所述第一权重参数。
[0070]
作为一种该可选的实施方式，在本发明实施例第二方面中，所述模型参数信息包括策略模型集合；所述策略模型集合包括至少2个策略模型；
[0071]
所述第二处理模块利用预设的策略动作模型对所述训练参数信息和所述模型参数信息进行计算处理，得到策略动作信息的具体方式为：
[0072]
获取当前状态信息；
[0073]
利用所述策略模型集合对所述当前状态信息进行计算处理，得到模型动作信息；
[0074]
利用预设的策略动作模型对所述模型动作信息和所述训练参数信息进行加权求和计算，得到策略动作信息。
[0075]
本发明第三方面公开了另一种用于强化学习探索训练的数据处理装置，所述装置包括：
[0076]
存储有可执行程序代码的存储器；
[0077]
与所述存储器耦合的处理器；
[0078]
所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的用于强化学习探索训练的数据处理方法中的部分或全部步骤。
[0079]
本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明实施例第一方面公开的用于强化学习探索训练的数据处理方法中的部分或全部步骤。
[0080]
与现有技术相比，本发明实施例具有以下有益效果：
[0081]
本发明实施例中，获取模型参数信息和当前训练次数；模型参数信息包括第一权
重参数、第二权重参数和最大训练轮次；判断当前训练次数是否等于最大轮训次数，得到第一次数判断结果；当第一次数判断结果为否时，对模型参数信息进行参数筛选处理，得到训练参数信息；利用预设的策略动作模型对训练参数信息和模型参数信息进行计算处理，得到策略动作信息；策略动作信息用于指示强化学习探索训练。可见，本发明有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
附图说明
[0082]
为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0083]
图1是本发明实施例公开的一种用于强化学习探索训练的数据处理方法的流程示意图；
[0084]
图2是本发明实施例公开的一种用于强化学习探索训练的数据处理装置的结构示意图；
[0085]
图3是本发明实施例公开的另一种用于强化学习探索训练的数据处理装置的结构示意图。
具体实施方式
[0086]
为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0087]
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0088]
在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
[0089]
本发明公开了一种用于强化学习探索训练的数据处理方法及装置，能够通过对模型参数信息和当前训练轮次的判断和计算处理得到用于指示强化学习探索训练的策略动作信息，有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。以下分别进行详细说明。
[0090]
实施例一
[0091]
请参阅图1，图1是本发明实施例公开的一种用于强化学习探索训练的数据处理方法的流程示意图。其中，图1所描述的用于强化学习探索训练的数据处理方法应用于强化学
习模型训练系统中，如用于强化学习探索训练的数据处理管理的本地服务器或云端服务器等，本发明实施例不做限定。如图1所示，该用于强化学习探索训练的数据处理方法可以包括以下操作：
[0092]
101、获取模型参数信息和当前训练次数。
[0093]
本发明实施例中，上述模型参数信息包括第一权重参数、第二权重参数和最大训练轮次。
[0094]
102、判断当前训练次数是否等于最大轮训次数，得到第一次数判断结果。
[0095]
103、当第一次数判断结果为否时，对模型参数信息进行参数筛选处理，得到训练参数信息。
[0096]
104、利用预设的策略动作模型对训练参数信息和模型参数信息进行计算处理，得到策略动作信息。
[0097]
本发明实施例中，上述策略动作信息用于指示强化学习探索训练。
[0098]
可选的，本发明的方法在训练轮数超过衰减次数阈值时，关闭专家经验模型的作用，以随机策略探索为主，可在强化学习算法掌握一定的规则和知识的基础上，然后再随机去选择不同的动作，去探索不同的策略，以避免前期策略带来的无效探索，进而加快强化学习算法策略的训练。
[0099]
可选的，本发明的探索是指探索未知空间获取更多信息。
[0100]
可见，实施本发明实施例所描述的用于强化学习探索训练的数据处理方法能够通过对模型参数信息和当前训练轮次的判断和计算处理得到用于指示强化学习探索训练的策略动作信息，有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0101]
在一个可选的实施例中，上述对模型参数信息进行参数筛选处理，得到训练参数信息，包括：
[0102]
获取环境状态信息；
[0103]
根据环境状态信息随机生成第一随机值；第一随机值为区间[0,1]之间的正数；
[0104]
根据第一随机值、第一权重参数和第二权重参数，确定出训练参数信息。
[0105]
可选的，上述第一随机值是利用随机函数rand对环境状态信息进行计算得到的。
[0106]
可见，实施本发明实施例所描述的用于强化学习探索训练的数据处理方法能够通过对模型参数信息进行参数筛选处理，得到训练参数信息，有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0107]
在另一个可选的实施例中，上述训练参数信息包括第一目标权重参数、第二目标权重参数和第三目标权重参数；
[0108]
根据第一随机值、第一权重参数和第二权重参数，确定出训练参数信息，包括：
[0109]
识别第一随机值与第一权重参数的大小关系，得到第一大小关系；
[0110]
根据第一大小关系，确定出第一目标权重参数；
[0111]
判断第一大小关系是否满足快速训练条件，得到关系判断结果；快速训练条件与第一权重参数的大小相关；
[0112]
当关系判断结果为是时，根据环境状态信息随机生成第二随机值；第二随机值为区间[0,1]之间的正数；
[0113]
根据第二随机值与第二权重参数，确定出第二目标权重参数和第三目标权重参数。
[0114]
可选的，上述第二随机值是利用随机函数rand对环境状态信息进行计算得到的。
[0115]
在该可选的实施例中，作为一种可选的实施方式，上述根据第二随机值与第二权重参数，确定出第二目标权重参数和第三目标权重参数的具体方式为：
[0116]
将第二随机值与第二权重参数进行大小比较，得到比较结果；
[0117]
将比较结果进行量化，得到结果量化值；
[0118]
利用预设的逻辑规则模型对结果量化值进行逻辑运算，得到第二目标权重参数和第三目标权重参数。
[0119]
可选的，上述逻辑规则模型是基于逻辑运算符构建的。
[0120]
可见，实施本发明实施例所描述的用于强化学习探索训练的数据处理方法能够将根据第一随机值、第一权重参数和第二权重参数，确定出训练参数信息，有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0121]
在又一个可选的实施例中，在利用预设的策略动作模型对训练参数信息进行计算处理，得到策略动作信息之后，方法还包括：
[0122]
利用预设的参数阈值对第一权重参数进行衰减更新；
[0123]
根据最大训练轮次，确定出衰减次数阈值；
[0124]
根据衰减次数阈值，对第二权重参数进行衰减更新；第二权重参数的衰减速率大于第一权重参数的衰减速率；
[0125]
更新当前训练次数，并触发执行判断当前训练次数是否等于最大轮训次数，得到第一次数判断结果。
[0126]
可选的，上述根据最大训练轮次确定出衰减次数阈值是将最大训练轮次除以3并向上取整得到的数值确定为衰减次数阈值。
[0127]
可见，实施本发明实施例所描述的用于强化学习探索训练的数据处理方法能够更新第一权重参数、第二权重参数和当前训练次数，更有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0128]
在又一个可选的实施例中，根据衰减次数阈值，对第二权重参数进行衰减更新，包括：
[0129]
判断当前训练次数是否等于衰减次数阈值，得到第二次数判断结果；
[0130]
当第二次数判断结果为否时，计算当前训练次数与最近一次衰减更新第二权重参数对应的训练次数的差值，得到训练次数差值；
[0131]
判断训练次数差值是否等于预设的差值阈值，得到差值判断结果；
[0132]
当差值判断结果为是时，利用预设的衰减模型对第二权重参数进行计算处理，得到衰减值；
[0133]
利用衰减值对第二权重参数进行更新。
[0134]
优选的，上述差值阈值为10。
[0135]
可选的，上述衰减更新第二权重参数对应的训练次数为衰减更新第二权重参数时对应的当前训练次数。
[0136]
可选的，上述衰减模型的具体形式为：
[0137]
α＝λ
·
β；
[0138]
其中，α为衰减值，β为第二权重参数，λ为权重衰减系数。
[0139]
可见，实施本发明实施例所描述的用于强化学习探索训练的数据处理方法能够根据衰减次数阈值，对第二权重参数进行衰减更新，更有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0140]
在一个可选的实施例中，上述利用预设的参数阈值对第一权重参数进行衰减更新，包括：
[0141]
判断第一权重参数是否大于预设的参数阈值，得到参数判断结果；
[0142]
当参数判断结果为是时，利用预设的参数衰减系数对第一权重参数进行更新；参数衰减系数是小于1的正数。
[0143]
可选的，上述参数阈值是小于1的正数。进一步的，上述参数阈值为较小的正数。
[0144]
可选的，上述利用参数衰减系数对第一权重参数进行更新是将第一权重参数与参数衰减系数进行乘积计算，并将得到的计算结果替换为新的第一权重参数。
[0145]
可见，实施本发明实施例所描述的用于强化学习探索训练的数据处理方法能够利用预设的参数阈值对第一权重参数进行衰减更新，更有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0146]
在另一个可选的实施例中，模型参数信息包括策略模型集合；策略模型集合包括至少2个策略模型；
[0147]
利用预设的策略动作模型对训练参数信息和模型参数信息进行计算处理，得到策略动作信息，包括：
[0148]
获取当前状态信息；
[0149]
利用策略模型集合对当前状态信息进行计算处理，得到模型动作信息；
[0150]
利用预设的策略动作模型对模型动作信息和训练参数信息进行加权求和计算，得到策略动作信息。
[0151]
可选的，上述策略模型包括强化学习模型、专家经验模型和随机策略模型。
[0152]
可选的，上述随机策略模型用于随机去选择不同的动作，以探索不同的策略。
[0153]
可选，上述强化学习模型可以是基于神经网络构建的模型，也可以是基于深度学习构建的模型，还可以是基于其他算法构建的模型，本发明实施例不做限定。
[0154]
可选的，上述专家经验模型包含通用性的规则和知识，以在强化学习探索训练的初期，能够快速的掌握基本的规则和知识，避免随机策略探索带来的不合理以及无效的动作，使得强化学习探索训练能够快速的训练出良好的策略，提高强化学习的探索训练效率。
[0155]
在该可选的实施例中，上述专家经验模型是基于以下步骤得到的：
[0156]
检测是否存在历史经验数据信息，得到检测结果；
[0157]
当检测结果为是时，对历史经验数据信息进行克隆学习以构建专家经验模型；
[0158]
当检测结果为否时，对于预置的经验池数据信息中的任一经验数据，判断该经验数据对应的奖励函数值是否大于等于预设的奖励阈值，得到该经验数据对应的奖励判断结果；上述经验池数据信息是基于强化学习构建的；上述奖励阈值是动态变化的；上述奖励函数值是利用预设的奖励函数对经验数据进行计算得到的；上述奖励函数是根据强化学习确定的；
[0159]
当上述奖励判断结果为是时，确定该经验数据为一个模型训练数据；
[0160]
根据获取顺序对模型训练数据进行结构化填充，得到训练数据序列；
[0161]
判断训练数据序列中模型训练数据的数量是否大于等于预设的数据阈值，得到数据判断结果；
[0162]
当数据判断结果为是时，对训练数据序列中的所有模型训练数据进行克隆学习，得到专家数据信息；专家数据信息包括若干个专家数据；
[0163]
利用专家数据信息构建专家经验模型。
[0164]
可选的，上述克隆学习是通过模仿数据对应的动作来生成新的数据。
[0165]
可选的，上述策略动作模型的具体形式为：
[0166]
π(s)＝λ1
·
θ(s) λ2
·
rand(s) λ3
·
expert(s)；
[0167]
其中，π(s)为当前状态信息s对应的策略动作信息中的策略动作，λ1为第一目标权重参数，λ2为第二目标权重参数，λ3为第三目标权重参数，θ(
·
)为强化学习模型，rand(
·
)为随机策略模型，expert(
·
)为专家经验模型。
[0168]
可见，实施本发明实施例所描述的用于强化学习探索训练的数据处理方法能够利用预设的策略动作模型对训练参数信息和模型参数信息进行计算处理，得到策略动作信息，更有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0169]
实施例二
[0170]
请参阅图2，图2是本发明实施例公开的一种用于强化学习探索训练的数据处理装置的结构示意图。其中，图2所描述的装置能够应用于强化学习模型训练系统中，如用于强化学习探索训练的数据处理管理的本地服务器或云端服务器等，本发明实施例不做限定。如图2所示，该装置可以包括：
[0171]
获取模块301，用于获取模型参数信息和当前训练次数；模型参数信息包括第一权重参数、第二权重参数和最大训练轮次；
[0172]
判断模块302，用于判断当前训练次数是否等于最大轮训次数，得到第一次数判断结果；
[0173]
第一处理模块303，用于当第一次数判断结果为否时，对模型参数信息进行参数筛选处理，得到训练参数信息；
[0174]
第二处理模块304，用于利用预设的策略动作模型对训练参数信息和模型参数信息进行计算处理，得到策略动作信息；策略动作信息用于指示强化学习探索训练。
[0175]
可见，实施图2所描述的用于强化学习探索训练的数据处理装置，能够通过对模型参数信息和当前训练轮次的判断和计算处理得到用于指示强化学习探索训练的策略动作信息，有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0176]
在另一个可选的实施例中，如图2所示，第一处理模块303对模型参数信息进行参数筛选处理，得到训练参数信息的具体方式为：
[0177]
获取环境状态信息；
[0178]
根据环境状态信息随机生成第一随机值；第一随机值为区间[0,1]之间的正数；
[0179]
根据第一随机值、第一权重参数和第二权重参数，确定出训练参数信息。
[0180]
可见，实施图2所描述的用于强化学习探索训练的数据处理装置，能够通过对模型参数信息进行参数筛选处理，得到训练参数信息，有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0181]
在又一个可选的实施例中，如图2所示，训练参数信息包括第一目标权重参数、第二目标权重参数和第三目标权重参数；
[0182]
第一处理模块303根据第一随机值、第一权重参数和第二权重参数，确定出训练参数信息的具体方式为：
[0183]
识别第一随机值与第一权重参数的大小关系，得到第一大小关系；
[0184]
根据第一大小关系，确定出第一目标权重参数；
[0185]
判断第一大小关系是否满足快速训练条件，得到关系判断结果；快速训练条件与第一权重参数的大小相关；
[0186]
当关系判断结果为是时，根据环境状态信息随机生成第二随机值；第二随机值为区间[0,1]之间的正数；
[0187]
根据第二随机值与第二权重参数，确定出第二目标权重参数和第三目标权重参数。
[0188]
可见，实施图2所描述的用于强化学习探索训练的数据处理装置，能够将根据第一随机值、第一权重参数和第二权重参数，确定出训练参数信息，有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0189]
在又一个可选的实施例中，如图2所示，在第二处理模304块利用预设的策略动作模型对训练参数信息进行计算处理，得到策略动作信息之后，装置还包括：
[0190]
更新模块305，用于利用预设的参数阈值对第一权重参数进行衰减更新；
[0191]
根据最大训练轮次，确定出衰减次数阈值；
[0192]
根据衰减次数阈值，对第二权重参数进行衰减更新；第二权重参数的衰减速率大于第一权重参数的衰减速率；
[0193]
更新当前训练次数，并触发执行判断当前训练次数是否等于最大轮训次数，得到第一次数判断结果。
[0194]
可见，实施图2所描述的用于强化学习探索训练的数据处理装置，能够更新第一权重参数、第二权重参数和当前训练次数，更有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0195]
在又一个可选的实施例中，如图2所示，更新模块305根据衰减次数阈值，对第二权重参数进行衰减更新的具体方式为：
[0196]
判断当前训练次数是否等于衰减次数阈值，得到第二次数判断结果；
[0197]
当第二次数判断结果为否时，计算当前训练次数与最近一次衰减更新第二权重参数对应的训练次数的差值，得到训练次数差值；
[0198]
判断训练次数差值是否等于预设的差值阈值，得到差值判断结果；
[0199]
当差值判断结果为是时，利用预设的衰减模型对第二权重参数进行计算处理，得到衰减值；
[0200]
利用衰减值对第二权重参数进行更新。
[0201]
可见，实施图2所描述的用于强化学习探索训练的数据处理装置，能够根据衰减次
数阈值，对第二权重参数进行衰减更新，更有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0202]
在又一个可选的实施例中，如图2所示，更新模块305利用预设的参数阈值对第一权重参数进行衰减更新的具体方式为：
[0203]
判断第一权重参数是否大于预设的参数阈值，得到参数判断结果；
[0204]
当参数判断结果为是时，利用预设的参数衰减系数对第一权重参数进行更新；参数衰减系数是小于1的正数。
[0205]
可见，实施图2所描述的用于强化学习探索训练的数据处理装置，能够利用预设的参数阈值对第一权重参数进行衰减更新，更有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0206]
在又一个可选的实施例中，如图2所示，模型参数信息包括策略模型集合；策略模型集合包括至少2个策略模型；
[0207]
第二处理模块304利用预设的策略动作模型对训练参数信息和模型参数信息进行计算处理，得到策略动作信息的具体方式为：
[0208]
获取当前状态信息；
[0209]
利用策略模型集合对当前状态信息进行计算处理，得到模型动作信息；
[0210]
利用预设的策略动作模型对模型动作信息和训练参数信息进行加权求和计算，得到策略动作信息。
[0211]
可见，实施图2所描述的用于强化学习探索训练的数据处理装置，能够利用预设的策略动作模型对训练参数信息和模型参数信息进行计算处理，得到策略动作信息，更有利于在训练前期减少探索随机概率，在训练后期提高随机探索概率，进而提高强化学习探索训练效率。
[0212]
实施例三
[0213]
请参阅图3，图3是本发明实施例公开的又一种用于强化学习探索训练的数据处理装置的结构示意图。其中，图3所描述的装置能够应用于强化学习模型训练系统中，如用于强化学习探索训练的数据处理管理的本地服务器或云端服务器等，本发明实施例不做限定。如图3所示，该装置可以包括：
[0214]
存储有可执行程序代码的存储器301；
[0215]
与存储器301耦合的处理器402；
[0216]
处理器302调用存储器301中存储的可执行程序代码，用于执行实施例一所描述的用于强化学习探索训练的数据处理方法中的步骤。
[0217]
实施例四
[0218]
本发明实施例公开了一种计算机读存储介质，其存储用于电子数据交换的计算机程序，其中，该计算机程序使得计算机执行实施例一所描述的用于强化学习探索训练的数据处理方法中的步骤。
[0219]
实施例五
[0220]
本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一所描述的用于强化学习探索训练的数据处理方法中的步骤。
[0221]
以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0222]
通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read-only memory，rom)、随机存储器(random access memory，ram)、可编程只读存储器(programmable read-only memory，prom)、可擦除可编程只读存储器(erasable programmable read only memory，eprom)、一次可编程只读存储器(one-time programmable read-only memory，otprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory，eeprom)、只读光盘(compact disc read-only memory，cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
[0223]
最后应说明的是：本发明实施例公开的一种用于强化学习探索训练的数据处理方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：页面切换处理方法及其装置、设备、介质、产品与流程

一种用于强化学习探索训练的数据处理方法及装置与流程

相关文献

最热文献