控制方法、装置、存储介质及电子设备与流程

2021-12-04 00:19:00 来源：中国专利 TAG：

1.本技术涉及设备控制技术领域，尤其涉及一种控制方法、装置、存储介质及电子设备。

背景技术：

2.随着智能控制领域的发展，需要在保证待控电子设备安全稳定运行的前提下，尽可能提高效率。
3.其中，深度强化学习算法在不同领域大显神通，深度强化学习的出现使得强化学习技术真正走向实用，得以解决电子设备在现实场景中的复杂的控制问题。
4.但是，现有对于控制算法所基于深度强化学习模型的训练，主要是通过离线数据建立一个不完美仿真环境，把这个仿真环境当作现实环境，进行训练。而由于基于离线数据建立的不完美仿真环境不能完全反映真实环境的情景，因此，容易导致基于该深度强化学习模型所确定的控制指令与实际情况偏差较大。

技术实现要素：

5.本技术实施例提供一种控制方法、装置、存储介质及电子设备，以解决当前根据深度强化学习模型所确定的控制指令与实际情况偏差较大的技术问题。
6.第一方面，本技术实施例提供一种控制方法，包括：
7.获取状态检测参数，所述状态检测参数用于表征待控设备的物理状态；
8.根据所述状态检测参数以及预设强化深度学习模型确定控制指令，所述控制指令用于控制所述待控设备，其中，所述预设强化深度学习模型根据第一数据样本集以及第二数据样本集训练得到，所述第一数据样本集为所述状态检测参数对应的实际测量值所构成的样本集，所述第二数据样本集为根据预设仿真模型所确定的仿真模拟值所构成的样本集。
9.在一种可能的设计中，所述的控制方法，还包括：
10.获取所述第一数据样本集；
11.根据所述第一数据样本集以及所述预设仿真模型确定所述第二数据样本集；
12.根据所述第一数据样本集以及所述第二数据样本集确定混合样本池，所述混合样本池用于训练所述预设强化深度学习模型。
13.在一种可能的设计中，所述根据所述第一数据样本集以及所述预设仿真模型确定所述第二数据样本集，包括：
14.根据所述第一数据样本集以及所述预设仿真模型确定待选数据样本集；
15.从所述待选数据样本集中筛选符合预设联合分布限制条件的样本，以确定所述第二数据样本集。
16.在一种可能的设计中，所述根据所述第一数据样本集以及所述预设仿真模型确定待选数据样本集，包括：
17.根据所述第一数据样本集以及预设联合条件概率分布模型确定所述待选数据样本集，其中，所述联合条件概率分布模型为深度神经网络模型；
18.对应的，所述从所述待选数据样本集中筛选符合预设联合分布限制条件的样本，包括：
19.从所述待选数据样本集中筛选出联合条件概率大于预设概率阈值的样本。
20.在一种可能的设计中，所述根据所述第一数据样本集以及所述预设仿真模型确定待选数据样本集，包括：
21.根据所述第一数据样本集以及预设对抗网络确定所述待选数据样本集；
22.对应的，所述从所述待选数据样本集中筛选符合预设联合分布限制条件的样本，包括：
23.从所述待选数据样本集中筛选出判别值大于预设判别阈值的样本，所述判别值根据判别网络进行确定。
24.在一种可能的设计中，在所述根据所述第一数据样本集以及所述第二数据样本集确定混合样本池之后，还包括：
25.利用所述第一数据样本集对预设基准策略模型进行训练；
26.确定训练后的基准策略模型与预设学习策略模型之间的策略分布差异；
27.利用所述混合样本池训练所述预设学习策略模型、预设奖励价值模型以及预设安全价值模型，其中，所述策略分布差异作为所述预设学习策略模型、所述预设奖励价值模型以及所述预设安全价值模型的正则化项；
28.当训练步数符合预设条件时，将训练后的学习策略模型作为所述预设强化深度学习模型。
29.在一种可能的设计中，所述确定训练后的基准策略模型与预设学习策略模型之间的策略分布差异，包括：
30.根据预设最大均值差异算法确定所述训练后的基准策略模型与所述预设学习策略模型之间的所述策略分布差异；或者，
31.根据预设散度算法确定所述训练后的基准策略模型与所述预设学习策略模型之间的所述策略分布差异。
32.在一种可能的设计中，所述预设基准策略模型选用变分编码器。
33.在一种可能的设计中，在所述预设学习策略模型、预设奖励价值模型以及预设安全价值模型的训练过程中，使用预设二次项约束形式确定训练目标。
34.在一种可能的设计中，所述预设仿真模型为深度神经网络模型、循环神经网络模型以及卷积神经网络模型中的任意一种或者多种的组合。
35.第二方面，本技术实施例还提供一种控制装置，包括：
36.参数获取模块，用于获取状态检测参数，所述状态检测参数用于表征待控设备的物理状态；
37.控制处理模块，用于根据所述状态检测参数以及预设强化深度学习模型确定控制指令，所述控制指令用于控制所述待控设备，其中，所述预设强化深度学习模型根据第一数据样本集以及第二数据样本集训练得到，所述第一数据样本集为所述状态检测参数对应的实际测量值所构成的样本集，所述第二数据样本集为根据预设仿真模型所确定的仿真模拟
值所构成的样本集。
38.在一种可能的设计中，所述控制装置，还包括：
39.样本获取模块，获取所述第一数据样本集；
40.样本仿真模块，用于根据所述第一数据样本集以及所述预设仿真模型确定所述第二数据样本集；
41.样本生成模块，用于根据所述第一数据样本集以及所述第二数据样本集确定混合样本池，所述混合样本池用于训练所述预设强化深度学习模型。
42.在一种可能的设计中，所述样本仿真模块，具体用于：
43.根据所述第一数据样本集以及所述预设仿真模型确定待选数据样本集；
44.从所述待选数据样本集中筛选符合预设联合分布限制条件的样本，以确定所述第二数据样本集。
45.在一种可能的设计中，所述样本仿真模块，具体用于：
46.根据所述第一数据样本集以及预设联合条件概率分布模型确定所述待选数据样本集，其中，所述联合条件概率分布模型为深度神经网络模型；
47.从所述待选数据样本集中筛选出联合条件概率大于预设概率阈值的样本。
48.在一种可能的设计中，所述样本仿真模块，具体用于：
49.根据所述第一数据样本集以及预设对抗网络确定所述待选数据样本集；
50.从所述待选数据样本集中筛选出判别值大于预设判别阈值的样本，所述判别值根据判别网络进行确定。
51.在一种可能的设计中，所述控制装置，还包括：
52.模型训练模块，用于利用所述第一数据样本集对预设基准策略模型进行训练；
53.差异确定模块，用于确定训练后的基准策略模型与预设学习策略模型之间的策略分布差异；
54.所述模型训练模块，还用于利用所述混合样本池训练所述预设学习策略模型、预设奖励价值模型以及预设安全价值模型，其中，所述策略分布差异作为所述预设学习策略模型、所述预设奖励价值模型以及所述预设安全价值模型的正则化项，当训练步数符合预设条件时，将训练后的学习策略模型作为所述预设强化深度学习模型。
55.在一种可能的设计中，所述差异确定模块，具体用于：
56.根据预设最大均值差异算法确定所述训练后的基准策略模型与所述预设学习策略模型之间的所述策略分布差异；或者，
57.根据预设散度算法确定所述训练后的基准策略模型与所述预设学习策略模型之间的所述策略分布差异。
58.在一种可能的设计中，所述预设基准策略模型选用变分编码器。
59.在一种可能的设计中，在所述预设学习策略模型、预设奖励价值模型以及预设安全价值模型的训练过程中，使用预设二次项约束形式确定训练目标。
60.在一种可能的设计中，所述预设仿真模型为深度神经网络模型、循环神经网络模型以及卷积神经网络模型中的任意一种或者多种的组合。
61.第三方面，本技术实施例还提供一种电子设备，包括：
62.处理器；以及，
63.存储器，用于存储所述处理器的可执行指令；
64.其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任意一种控制方法。
65.第四方面，本技术实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任意一种控制方法。
66.本技术实施例提供的一种控制方法、装置、存储介质及电子设备，通过获取用于表征待控设备物理状态的状态检测参数，并将状态检测参数输入至预设强化深度学习模型中，以确定与状态检测参数相对应的控制指令，其中，该预设强化深度学习模型是通过实际测量值所构成的第一数据样本集以及根据预设仿真模型与第一数据样本集所确定的仿真模拟值所构成的第二数据样本集进行训练得到的，从而使得基于真实数据以及模拟数据相结合所得到的强化深度学习模型所确定的学习策略的分布更接近真实策略分布，提高基于该深度强化学习模型所确定的控制指令与实际情况的匹配度。
附图说明
67.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
68.图1是本技术根据一示例实施例示出的控制方法的应用场景图；
69.图2是本技术根据一示例实施例示出的控制方法的流程示意图；
70.图3是本技术根据一示例实施例示出的混合样本池的构建流程示意图；
71.图4是本技术根据一示例实施例示出的混合训练方法的流程示意图；
72.图5是本技术根据一示例实施例示出的强化深度学习模型的训练方流程示意图；
73.图6是本技术根据一示例实施例示出的安全约束和策略价值正则化的离策略强化学习方式流程示意图；
74.图7是本技术根据一示例实施例示出的控制装置的结构示意图；
75.图8是本技术根据另一示例实施例示出的控制装置的结构示意图；
76.图9是本技术根据一示例实施例示出的电子设备的结构示意图。
具体实施方式
77.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
78.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设
备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
79.随着智能控制领域的发展，需要在保证待控电子设备安全稳定运行的前提下，尽可能提高效率。其中，深度强化学习算法在不同领域大显神通，深度强化学习的出现使得强化学习技术真正走向实用，得以解决电子设备在现实场景中的复杂的控制问题。但是，现有对于控制算法所基于深度强化学习模型的训练，主要是通过离线数据建立一个不完美仿真环境，把这个仿真环境当作现实环境，进行训练。而由于基于离线数据建立的不完美仿真环境不能完全反映真实环境的情景，因此，容易导致基于该深度强化学习模型所确定的控制指令与实际情况偏差较大。
80.此外，值得说明的，深度强化学习是深度学习与强化学习相结合的产物，其集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了端到端学习。并且，深度强化学习的出现使得强化学习技术真正走向实用，得以解决现实场景中的复杂问题。过去几年间，深度强化学习算法在不同领域大显神通，例如，在视频游戏、棋类游戏上打败人类顶尖高手；控制复杂的机械进行操作；调配网络资源；为数据中心大幅节能；甚至对机器学习算法自动调参。
81.而控制领域是强化学习思想的发源地之一，也是强化学习技术应用最成熟的领域。一个常见的例子是使用人工智能来调优机器和设备，在这之前这些工作需要专家级的操作人员才能完成。比如英国的deepmind的强化学习技术帮助google显着降低了其数据中心的能耗。而在自动驾驶领域，驾驶就是一个序列决策过程，因此天然适合用强化学习来处理。从80年代的alvinn、torcs到如今的carla，业界一直在尝试用强化学习解决单车辆的自动驾驶问题以及多车辆的交通调度问题。此外，类似的思想也广泛地应用在各种飞行器、水下无人机领域。相比于计算机视觉领域的任务，自然语言处理领域的很多任务是多轮的，即需通过多次迭代交互来寻求最优解，例如：对话系统；而且任务的反馈信号往往需要在一系列决策后才能获得，例如：机器写作。这样问题的特性自然适合用强化来解决，因而近年来强化被应用于自然语言处理领域中的诸多任务中，如文本生成、文本摘要、序列标注、对话机器人(文字/语音)、机器翻译、关系抽取和知识图谱推理等等。除此之外，强化学习也被广泛应用于商品推荐、新闻推荐、在线广告领域，金融领域，通讯、生产调度、规划和资源访问控制等运筹领域，甚至在教育培训，保健和医学等领域也有尝试。
82.此外，强化学习的基本思想是智能体通过与环境进行交互学习，获得的奖赏来指导行为，目标是寻求使智能体获得最大累计奖赏的最优策略。定义强化学习中的马尔可夫决策过程mdp(markov decision processes)由一个四元组m＝(s,a,r,t)构成，其中，s表示环境的状态空间，a表示智能体的动作空间，r(s,a)表示奖励函数，其返回的值表示在状态s下执行动作a获得的奖励，t(s
′
|s，a)为状态转移概率函数，表示状态s下执行动作a后环境转移至状态s
′
的概率。强化学习的目标是找到一个环境状态到动作的映射，即策略π(a|s)，能够最大化对未来奖励的期望r
t
为t时刻的奖励，γ为折扣因子。智能体根据策略π选择当前状态s下最优的动作a，执行该动作并观察环境反馈的奖励r和下一个状态s
′
，基于反馈的奖励来调整和更新策略π，不断迭代，直到找到一个最优的策略能够最大限度地获得正反馈。
83.深度强化学习算法训练时包含两种策略：行为策略和目标策略，行为策略是用来
与环境互动产生数据的策略，即在探索过程中做决策；而目标策略在行为策略产生的数据中不断学习，优化，即训练完毕去实际应用的策略。据此，强化学习可分为on-policy(同策略)和off-policy(异策略)两大类算法，同策略算法的行为策略和目标策略是同一个策略，其好处是简单直接，直接利用数据就可以优化其策略，但由于无法很好地保持探索与利用，所以容易陷入到局部最优；而异策略的算法将目标策略与行为策略分开，可以在保持探索的同时，更好地求得全局最优解。但异策略算法的学习过程却较为曲折，收敛较慢。
84.在许多真实世界的应用场景中，受限于高昂的实验成本和安全性的考虑等诸多现实因素，往往无法直接访问真实的环境，而是收集一些离线经验数据集。现有的技术，主要通过这些离线数据建立一个非完美仿真环境，把这个仿真环境当作现实环境，再进行训练。但收集到的离线数据往往是一个固定规模的离线经验数据集，数据量无法满足一般强化学习算法的需求，数据分布只覆盖了真实样本空间的一部分，也可能无法覆盖真实的最优解，所以现有算法具有以下缺点：
85.1、基于离线数据建立的不完美仿真环境不能完全反映真实环境的情景。在离线数据密集的样本空间，仿真环境反馈能很好的贴合真实环境反馈，而在历史数据稀疏的样本空间仿真环境反馈偏离了现实。当探索到离线数据分布稀疏的样本空间时，由于仿真环境无法给出真实的反馈，会导致策略对仿真环境的“过拟合”，无法收敛到真实最优解。
86.2、实际应用场景例如工业控制领域，通常要求在保证安全稳定运行的前提下，产生尽可能高的经济效益。所以实际生产环境往往有明确而严格的安全限制。而收集到的离线数据无法体现具体的安全限制。同时状态和动作空间通常是高维且连续的，强化学习算法在这样的离线数据集上学习策略时，其表现对经验数据集的分布十分敏感。基于仿真环境训练出的强化算法可能和离线数据中的偏差较大。
87.针对上述技术问题，本技术提供一种控制方法、装置、存储介质及电子设备，通过获取用于表征待控设备物理状态的状态检测参数，并将状态检测参数输入至预设强化深度学习模型中，以确定与状态检测参数相对应的控制指令，其中，该预设强化深度学习模型是通过实际测量值所构成的第一数据样本集以及根据预设仿真模型与第一数据样本集所确定的仿真模拟值所构成的第二数据样本集进行训练得到的，从而使得基于真实数据以及模拟数据相结合所得到的强化深度学习模型所确定的学习策略的分布更接近真实策略分布，提高基于该深度强化学习模型所确定的控制指令与实际情况的匹配度。
88.图1是本技术根据一示例实施例示出的控制方法的应用场景图。如图1所示，本实施例提供控制方法可以是对待控设备进行控制，其中，待控设备以为汽车、无人机、飞行器、智能手机以及其他任意具备控制功能的电子设备。在该待控设备中，可以包括输入部件，控制部件以及执行部件。此处，可以以待控设备为汽车进行举例说明，继续参照图1，对于输入部件，可以为传感器，例如，可以包括速度传感器101、温度传感器102以及碰撞传感器103。而控制部件则可以为车载控制器200。而对于执行部件，则可以为执行器300，例如，电机、气囊点火转速、自动转向系统等。
89.汽车通过传感器获取状态参数，其中，此处的状态参数用于表征汽车的物理状态，例如，当前车速。而控制器200在获取车速之后，通过内置预设强化深度学习模型确定控制指令，该控制指令可以是加速指令或者是减速指令，以对车辆的速度进行动态调节。
90.其中，值得说明的，预设强化深度学习模型可以根据第一数据样本集以及第二数
据样本集训练得到，第一数据样本集为状态检测参数对应的实际测量值所构成的样本集，例如，可以是实际检测的车速以及对应的动作，第二数据样本集为根据预设仿真模型所确定的仿真模拟值所构成的样本集。
91.图2是本技术根据一示例实施例示出的控制方法的流程示意图。如图2所示，本实施例提供的控制方法，包括：
92.步骤101、获取状态检测参数。
93.具体的，待控设备可以通过输入装置测量当前的状态检测参数，而所检测的状态检测参数可以为一个，也可以为多个。其中，对于状态检测参数，可以理解为表征待控设备的物理状态，例如：速度、温度、高度、湿度、电平状态等。
94.步骤102、根据状态检测参数以及预设强化深度学习模型确定控制指令。
95.在获取到待控设备的状态检测参数之后，可以在待控设备的控制器中根据输入的状态检测参数进行处理，以输出相应的控制决策。具体的，待控设备的控制器可以是根据单一状态检测参数进行控制决策，也可以是根据多个状态检测参数进行联合控制决策。最后，在决策完成后，输出控制指令，以对待控设备的执行部件进行控制，以实现相应的控制功能。
96.在本步骤中，对于控制器中所进行的处理逻辑，则可以是基于预设强化深度学习模型进行实现。其中，预设强化深度学习模型根据第一数据样本集以及第二数据样本集训练得到，第一数据样本集为状态检测参数对应的实际测量值所构成的样本集，第二数据样本集为根据预设仿真模型所确定的仿真模拟值所构成的样本集。从而充分利用从现实环境中收集的第一数据样本集，在保证安全性和稳定性的前提下，学习出有效的控制决策策略。
97.步骤103、根据控制指令控制待控设备。
98.在本实施例中，通过获取用于表征待控设备物理状态的状态检测参数，并将状态检测参数输入至预设强化深度学习模型中，以确定与状态检测参数相对应的控制指令，其中，该预设强化深度学习模型是通过实际测量值所构成的第一数据样本集以及根据预设仿真模型与第一数据样本集所确定的仿真模拟值所构成的第二数据样本集进行训练得到的，从而使得基于真实数据以及模拟数据相结合所得到的强化深度学习模型所确定的学习策略的分布更接近真实策略分布，提高基于该深度强化学习模型所确定的控制指令与实际情况的匹配度。
99.图3是本技术根据一示例实施例示出的混合样本池的构建流程示意图。如图3所示，本实施例提供的控制方法，包括：
100.步骤201、获取第一数据样本集。
101.其中，可以是从现实环境中收集的离线真实数据作为第一数据样本集。
102.步骤202、根据第一数据样本集以及预设仿真模型确定第二数据样本集。
103.但是，在现实环境中收集的离线真实数据往往数量有限，单纯使用离线数据无法满足一般强化学习算法的需求。而单纯使用非完美仿真环境产生的仿真数据，训练出的强化算法策略可能和历史数据中的偏差较大，不利于真实世界中对于控制系统所要求的安全与稳定性。所以可以采用仿真模拟数据和真实数据相结合的混合训练方法。加入仿真数据，即第二数据样本集，从而来解决离线数据量不足的问题。并且，加入真实离线数据也可以缓解仿真环境带来的偏差。
104.其中，使用真实离线数据训练仿真模型，其模型输入为当前状态s和执行的动作a，输出为下一个状态s
′
、奖励反馈r和安全限制c。根据实际应用需求，这里的仿真模型有几种选择，包括深度神经网络(deep neural networks，简称dnn)，循环神经网络(recurrent neural network，rnn)、卷积神经网络(convolutional neural networks，cnn)以及由以上三者中任意几个进行组合的复合神经网络。对于时序关联较强的环境，如工业控制，可选择体现时序相关性的rnn；对于时序关联性不强的棋类游戏，可选择dnn；对于视频游戏，既需要提取视觉特征，又有较强的时序关联性，可选择rnn和cnn组合的结构。
105.步骤203、根据第一数据样本集以及第二数据样本集确定混合样本池。
106.此外，由于状态和动作空间通常是高维且连续的，高维空间的数据分布通常是非常稀疏的，而不完美的仿真环境中探索产生的模拟数据会偏离真实数据分布，在实际应用中产生安全隐患。图4是本技术根据一示例实施例示出的混合训练方法的流程示意图，如图4所示，为了解决仿真数据偏差的问题，还可以通过基于联合分布限制策略筛选得到可靠的仿真数据。
107.继续参照图4，使用联合分布限制策略产生可靠的仿真数据。首先进行常规的探索，即使从离线数据中随机选择一组数据作为一条轨迹(时序状态动作序列s1，a1，s2，a2…
s
t
，a
t
)的起点，利用强化学习算法中的策略模型得到下一时刻的动作a，再输入仿真模型获得奖励，安全分数和下一时刻的状态，这样获得一组单步转移数据(s，a，r，c，s
′
)。然后通过联合分布限制策略筛选这组数据是否可靠，如果不可靠则丢掉这组单步转移数据，并终止探索；如可靠则把这组单步转移数据加入混合样本池，并进行下一步探索，直到达到最大探索步数后终止探索。而对于具体的联合分布限制策略，可以通过以下几种方式实现：
108.在一种可能的设计中，可以是使用真实离线数据训练联合条件概率分布模型。可以是根据第一数据样本集以及预设仿真模型确定待选数据样本集，从待选数据样本集中筛选符合预设联合分布限制条件的样本，以确定第二数据样本集。其中，可以是根据第一数据样本集以及预设联合条件概率分布模型确定待选数据样本集，其中，联合条件概率分布模型为深度神经网络模型，在从待选数据样本集中筛选出联合条件概率大于预设概率阈值的样本。
109.具体的，可以是根据真实离线数据分布，这里的联合条件概率分布有几种选择，包括传统连续概率分布模型，如正态分布(normal distribution)、指数分布(exponential distribution)和β分布(beta distribution)。模型则使用深度神经网络dnn直接拟合联合条件概率分布根据真实离线数据分布，模型输入为当前状态s和执行的动作a，输出为联合条件概率p(a|s)。可以选取一个合理的概率阈值，超过阈值的即为可靠数据。
110.而在另外一种可能的设计中，可以是根据第一数据样本集以及预设对抗网络确定待选数据样本集，然后，从待选数据样本集中筛选出判别值大于预设判别阈值的样本，判别值根据判别网络进行确定。具体的，可以是使用真实离线数据训练生成式对抗网络(generative adversarial networks，gan)。选取一个合理的阈值，使用判别网络对(s，a)进行评估，超过阈值即为可靠数据。
111.最后，按一定比例抽取真实数据加入混合样本池，在样本池中采样一定数量的样本进行强化学习算法的训练。当训练步数到达预设最大训练步数之后，停止训练。
112.在本实施例中，基于联合分布限制策略的混合训练方法，从而通过对不完美仿真
环境产生的仿真数据进行筛选，有效地缓解学习策略偏差的问题。
113.图5是本技术根据一示例实施例示出的强化深度学习模型的训练方流程示意图。如图5所示，本实施例提供的控制方法，包括：
114.步骤301、获取第一数据样本集。
115.步骤302、根据第一数据样本集以及预设仿真模型确定第二数据样本集。
116.步骤303、根据第一数据样本集以及第二数据样本集确定混合样本池。
117.值得说明的，本实施例中步骤301-步骤303的具体描述可以参见图3所示实施例中步骤201-步骤203的描述，此处不再进行赘述。
118.步骤304、利用第一数据样本集对预设基准策略模型进行训练。
119.在实际应用环境中，往往需要满足一定的安全限制条件，仿真模型不能准确的评估策略的安全风险。图6是本技术根据一示例实施例示出的安全约束和策略价值正则化的离策略强化学习方式流程示意图，如图6所示，在本实施例中，可以引入安全价值模型来评估当前策略的安全风险，在优化策略的同时满足安全需求。同时，引入策略价值正则化来进一步修正由于仿真数据分布偏差引起的策略分布偏差和价值评估偏差。
120.具体的，可以从真实数据中采样一定数量的样本训练基准策略模型。基准策略模型只用真实数据训练，而不是最优的策略，但是，其可以反映真实数据的分布，用基准策略和学习策略的分布差异计算出分布约束，对学习策略模型和价值模型进行正则化可修正由仿真数据引起的偏差。
121.而对于基准策略模型，可以是使用变分编码器(variational auto-encoder，vae)。其中，vae由两部分的网络构成，一部分称为编码器encoder,从一个高维的输入映射到一个低维的隐变量上，另外一部分称为译码器decoder,从低维的隐变量再映射回高维的输入。分为模型训练阶段和采样阶段，训练阶段模型输入为当前状态s和执行的动作a，输出为动作a，encode和decoder两个部分协同训练，其中，采样阶段只使用decoder部分批量采样一定数量的样本。
122.步骤305、确定训练后的基准策略模型与预设学习策略模型之间的策略分布差异。
123.其中，对于上述策略分布差异的计算，可以是根据预设最大均值差异算法(maximum mean discrepancy,mmd)确定训练后的基准策略模型与预设学习策略模型之间的策略分布差异。或者，根据预设散度算法确定训练后的基准策略模型与预设学习策略模型之间的策略分布差异。
124.具体的，对于预设最大均值差异算法，则可以是通过从策略π
θ
和π
b
中进行采样来计算策略π
θ
和π
b
的mmd距离的估计值。
[0125][0126]
k是核函数，可以是高斯核函数或者拉普拉斯核函数；π
θ
是学习策略模型，π
b
是基准策略模型，e是数学期望，x是学习策略模型在状态s下的采样值，x
′
是学习策略模型在状态s下不同于x的采样值，y是是基准策略模型在状态s下的采样值，y
′
是基准策略模型在状态s下不同于y的采样值。
[0127]
而对于预设散度算法，则可以是采用kl散度(kl divergence)。直接估计π
θ
和π
b
的
kl散度需要获得π
θ
和π
b
的概率密度函数。此处可以使用kl散度的对偶形式。
[0128]
步骤306、利用混合样本池训练预设学习策略模型、预设奖励价值模型以及预设安全价值模型。
[0129]
在本步骤中，可以利用混合样本池训练预设学习策略模型、预设奖励价值模型以及预设安全价值模型，其中，策略分布差异作为预设学习策略模型、预设奖励价值模型以及预设安全价值模型的正则化项。并且，在预设学习策略模型、预设奖励价值模型以及预设安全价值模型的训练过程中，使用预设二次项约束形式确定训练目标。
[0130]
从混合样本池采样一定数量的样本训练学习策略模型，奖励价值模型和安全价值模型。训练方法采用经典的“演员-评论家”(actor-critic)方法，通过在单步转移数据(s，a，r，s
′
)上最小化贝尔曼误差(bellman errors)来学习一个动作值函数，然后通过最大化动作值函数来进行策略更新。使用二次项约束形式增加模型训练的稳定性，则策略的学习目标如下：
[0131][0132]
其中，a
′
是当前时刻动作值，a
″
是下一时刻动作值，s
′
是下一时刻状态值。
[0133]
奖励价值函数的目标为：
[0134][0135]
同理可得安全价值函数的目标。
[0136]
其中，π
b
为基准策略，π
θ
为学习策略，为经验池，q
ψ
为所要学习的奖励价值函数或者安全价值函数，表示目标价值函数，表示基准策略与学习策略的分布差异，λ，ρ均为可调参数。按照目标函数进行交替迭代训练。
[0137]
步骤307、当训练步数符合预设条件时，将训练后的学习策略模型作为预设强化深度学习模型。
[0138]
可以是当训练步数达到最大训练步数时，停止训练，并将训练后的学习策略模型作为预设强化深度学习模型。
[0139]
在本实施例中，通过联合分布限制性探索，安全约束和策略价值正则化等方法学习出安全有效的策略。先基于真实数据训练仿真模型，在仿真环境上进行联合分布限制性探索，产生可靠的模拟数据。然后，基于真实数据训练策略分布网络，得到真实策略分布，作为强化学习算法的策略价值正则化。最后，将模拟数据和真实数据混合产生混合样本池，用于强化学习算法的策略学习，并引入第二步产生的策略正则化，约束学习策略的分布的同时校正价值评估的误差，使得学习策略的分布更接近真实策略分布。
[0140]
具体的，基于安全价值模型的安全限制方法，通过引入安全价值模型，解决仿真环境对安全隐患评估不准的问题，从而保证实际应用环境中安全性和稳定性的要求。此外，基于策略分布差异的策略价值正则化的强化学习方法，引入学习策略和基准策略分布差异作为价值模型和学习策略模型的正则化项，可以去除仿真数据带来的策略分布偏差和价值估计偏差，同时二次项约束形式可以进一步提高训练的稳定性。
[0141]
图7是本技术根据一示例实施例示出的控制装置的结构示意图。如图7所示，本实施例提供的控制装置400，包括：
[0142]
参数获取模块401，用于获取状态检测参数，所述状态检测参数用于表征待控设备的物理状态；
[0143]
控制处理模块402，用于根据所述状态检测参数以及预设强化深度学习模型确定控制指令，所述控制指令用于控制所述待控设备，其中，所述预设强化深度学习模型根据第一数据样本集以及第二数据样本集训练得到，所述第一数据样本集为所述状态检测参数对应的实际测量值所构成的样本集，所述第二数据样本集为根据预设仿真模型所确定的仿真模拟值所构成的样本集。
[0144]
在图7所示实施例的基础上，图8是本技术根据另一示例实施例示出的控制装置的结构示意图。如图8所示，所述控制装置400，还包括：
[0145]
样本获取模块403，获取所述第一数据样本集；
[0146]
样本仿真模块404，用于根据所述第一数据样本集以及所述预设仿真模型确定所述第二数据样本集；
[0147]
样本生成模块405，用于根据所述第一数据样本集以及所述第二数据样本集确定混合样本池，所述混合样本池用于训练所述预设强化深度学习模型。
[0148]
在一种可能的设计中，所述样本仿真模块404，具体用于：
[0149]
根据所述第一数据样本集以及所述预设仿真模型确定待选数据样本集；
[0150]
从所述待选数据样本集中筛选符合预设联合分布限制条件的样本，以确定所述第二数据样本集。
[0151]
在一种可能的设计中，所述样本仿真模块404，具体用于：
[0152]
根据所述第一数据样本集以及预设联合条件概率分布模型确定所述待选数据样本集，其中，所述联合条件概率分布模型为深度神经网络模型；
[0153]
从所述待选数据样本集中筛选出联合条件概率大于预设概率阈值的样本。
[0154]
在一种可能的设计中，所述样本仿真模块404，具体用于：
[0155]
根据所述第一数据样本集以及预设对抗网络确定所述待选数据样本集；
[0156]
从所述待选数据样本集中筛选出判别值大于预设判别阈值的样本，所述判别值根据判别网络进行确定。
[0157]
在一种可能的设计中，所述控制装置400，还包括：
[0158]
模型训练模块406，用于利用所述第一数据样本集对预设基准策略模型进行训练；
[0159]
差异确定模块407，用于确定训练后的基准策略模型与预设学习策略模型之间的策略分布差异；
[0160]
所述模型训练模块406，还用于利用所述混合样本池训练所述预设学习策略模型、预设奖励价值模型以及预设安全价值模型，其中，所述策略分布差异作为所述预设学习策
略模型、所述预设奖励价值模型以及所述预设安全价值模型的正则化项，当训练步数符合预设条件时，将训练后的学习策略模型作为所述预设强化深度学习模型。
[0161]
在一种可能的设计中，所述差异确定模块407，具体用于：
[0162]
根据预设最大均值差异算法确定所述训练后的基准策略模型与所述预设学习策略模型之间的所述策略分布差异；或者，
[0163]
根据预设散度算法确定所述训练后的基准策略模型与所述预设学习策略模型之间的所述策略分布差异。
[0164]
在一种可能的设计中，所述预设基准策略模型选用变分编码器。
[0165]
在一种可能的设计中，在所述预设学习策略模型、预设奖励价值模型以及预设安全价值模型的训练过程中，使用预设二次项约束形式确定训练目标。
[0166]
在一种可能的设计中，所述预设仿真模型为深度神经网络模型、循环神经网络模型以及卷积神经网络模型中的任意一种或者多种的组合。
[0167]
本实施例提供控制装置，可以用于执行上述方法实施例。对于本技术装置实施例中未披露的细节，请参照本技术方法实施例。
[0168]
图9是本技术根据一示例实施例示出的电子设备的结构示意图。如图9所示，本实施例提供的一种电子设备500，包括：
[0169]
处理器501；以及，
[0170]
存储器502，用于存储所述处理器的可执行指令，该存储器还可以是flash(闪存)；
[0171]
其中，所述处理器501配置为经由执行所述可执行指令来执行上述方法中的各个步骤。具体可以参见前面流式数据处理系统各个组件功能的相关描述。
[0172]
可选地，存储器502既可以是独立的，也可以跟处理器501集成在一起。
[0173]
当所述存储器502是独立于处理器501之外的器件时，所述电子设备500，还可以包括：
[0174]
总线503，用于连接所述处理器501以及所述存储器502。
[0175]
本实施例还提供一种可读存储介质，可读存储介质中存储有计算机程序，当电子设备的至少一个处理器执行该计算机程序时，电子设备执行上述的各种实施方式提供的流式数据处理系统中各个组件的功能。
[0176]
本实施例还提供一种程序产品，该程序产品包括计算机程序，该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的流式数据处理系统中各个组件的功能。
[0177]
本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0178]
最后应说明的是：以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的
范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于TRACKER设备的IO交互系统及方法与流程

控制方法、装置、存储介质及电子设备与流程

相关文献

最热文献