用于形成追捕策略的强化学习模型训练方法和训练装置与流程

2022-07-22 23:20:24 来源：中国专利 TAG：

1.本发明涉及追捕技术分析技术领域，具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。

背景技术：

2.追逃博弈是微分博弈理论起源的一个重要场景也是其应用中最为经典的领域，不止在航天器轨道追逃、导弹拦截等这类传统问题上，随着科技的发展，如何利用无人机进行罪犯的追踪打击也成为了追逃博弈问题研究的一个热点问题。微分博弈理论从诞生到发展至今，许多学者在数学理论层面提出了各式各样的解答方法与求解思路，但针对微分博弈问题，仍然没有一种可以普遍应用的解决方案应对各种的场景与问题。不仅如此，应用传统的微分博弈方法求解追逃博弈问题也面临着求解繁琐与建模困难等问题。追逃博弈现实应用的需求，也让这类问题由最初的单对单的简单博弈问题拓展到多对多(多个追捕者与多个逃跑者之间的博弈)的复杂环境下的博弈问题，并亟需新的解答思路。
3.强化学习作为机器学习的一个重要分支，近些年来发展迅速，并涌现出诸多令人惊异的成果，围棋智能alphago就是代表性成果。深度强化学习则是将深度学习与传统强化学习算法相结合，实现强化学习算法更广阔应用的一类算法技术。正是因为这些新兴技术的发展，已经有研究者将强化学习应用于博弈的问题中。与之前的解决方案不同，强化学习算法不需要问题的先验知识，而是通过不断探索与试错来获得优秀的策略。
4.强化学习根据算法主体的智能体个数可以分为单智能体算法和多智能体算法两大类。这两种算法分别基于值函数和策略梯度，在单智能体问题中有着广泛的应用，后续工作也多以两者为基础进行改进。而在多智能体领域，算法设计则更加复杂也更具挑战性，面对不同种类的任务与奖励，算法也有着不同。
5.相比于确定性策略的强化学习算法，基于最大熵的强化学习方法，将熵加入整个强化学习的目标函数中，从而让算法有着更好的探索能力以及更好的泛化能力，大大加强了算法的实用程度，成为目前强化学习领域的标杆工作。但是上述强化学习方法在训练过程中都是基于确定性的逃跑者对追捕者的强化学习模型进行训练的，在训练过程中逃跑者与追捕者并没有交互，而在实际追逃过程中，逃跑者会根据追捕者的动作而做出相对应对的(即在实际追逃过程，逃跑者与追捕者是有交互的)，因此基于现有训练方法得到的已训练追捕强化学习模型在应用到实际追逃过程中会降低模型的鲁棒性。
6.综上所述，现有的强化学习模型鲁棒性较差。
7.因此，现有技术还有待改进和提高。

技术实现要素：

8.为解决上述技术问题，本发明提供了用于形成追捕策略的强化学习模型训练方法和训练装置，解决了现有的强化学习模型鲁棒性较差的问题。
9.为实现上述目的，本发明采用了以下技术方案：
10.第一方面，本发明提供一种用于形成追捕策略的强化学习模型训练方法，其中，包括：
11.将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；
12.依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；
13.将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；
14.根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
15.在一种实现方式中，所述将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量，包括：
16.依据所有所述追捕者的信息，得到所有所述追捕者的信息中的追捕位置；
17.依据所述逃跑者的信息，得到所述逃跑者的信息中的逃跑位置和逃跑速度；
18.将每个所述追捕者的追捕位置和逃跑者的逃跑位置和逃跑速度输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量。
19.在一种实现方式中，已训练的所述逃跑强化学习模型的训练方式包括：
20.获取所述逃跑者的逃跑样本位置、所述逃跑者的逃跑样本速度、所有所述追捕者的追捕样本位置；
21.将所述逃跑样本位置、所述逃跑样本速度、所述追捕样本位置输入到所述逃跑强化学习模型，得到所述逃跑强化学习模型输出的针对所述逃跑者的逃跑控制量；
22.通过所述逃跑控制量对所述逃跑强化学习模型进行训练，得到已训练的所述逃跑强化学习模型。
23.在一种实现方式中，所述通过所述逃跑控制量对所述逃跑强化学习模型进行训练，得到已训练的所述逃跑强化学习模型，包括：
24.依据所述逃跑强化学习模型，得到所述逃跑强化学习模型所涵盖的逃跑者第一强化学习模型、逃跑者第二强化学习模型、逃跑者第三强化学习模型；
25.随机选取所述逃跑者第一强化学习模型输出的所述逃跑控制量中的逃跑第一控制量、所述逃跑者第二强化学习模型输出的所述逃跑控制量中的逃跑第二控制量、所述逃跑者第三强化学习模型输出的所述逃跑控制量中的逃跑第三控制量；
26.随机从所述逃跑第一控制量、所述逃跑第二控制量、所述逃跑第三控制量中选取一个控制量；
27.计算在随机选取的一个控制量作用下，追捕过程中所述逃跑者与距离所述逃跑者最近的所述追捕者之间的追逃距离；
28.依据所述追逃距离对所述逃跑强化学习模型进行训练，得到已训练的所述逃跑强化学习模型。
29.在一种实现方式中，所述依据每个追捕者的信息、与每个所述追捕者相邻追捕者
的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息，包括：
30.计算每个所述追捕者与障碍物之间的追障距离，所述障碍物为距离每个所述追捕者最近的障碍物；
31.依据每个所述追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置、所述追障距离，得到每个所述追捕者的观测信息。
32.在一种实现方式中，所述将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量，包括：
33.依据每个所述追捕者的观测信息，得到所述观测信息中的在简单环境下的观察信息和在复杂环境中的观察信息，所述简单环境为静态的所述逃跑者和障碍物的数量小于设定值，所述复杂环境为动态的所述逃跑者和障碍物的数量大于设定值；
34.将每个所述追捕者在简单环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第一速度变化量；
35.将每个所述追捕者在复杂环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第二速度变化量。
36.在一种实现方式中，所述根据每个所述追捕者的追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型，包括：
37.依据所述第一速度变化量，训练所述追捕强化学习模型，得到预训练的所述追捕强化学习模型；
38.依据所述第二速度变化量，训练预训练之后的所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
39.在一种实现方式中，所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型，包括：
40.根据所述追捕控制量，得到所述追捕控制量中的追捕速度变化量；
41.以所述追捕速度变化量，调整所述追捕者的追捕速度，得到调整之后的所述追捕速度；
42.在设定时间内，计算所述追捕者以调整之后的所述追捕速度进行追捕，完成追捕时所述追捕者与所述逃跑者之间的结束距离；
43.和/或，计算所述追捕者以调整之后的所述追捕速度进行的追捕过程中，所述追捕者与所述逃跑者之间的第一距离；
44.和/或，计算所述追捕者以调整之后的所述追捕速度进行的追捕过程中，所述追捕者与障碍物之间的第二距离；
45.依据所述结束距离和/或所述第一距离和/或所述第二距离，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
46.在一种实现方式中，所述依据所述结束距离和/或所述第一距离和/或所述第二距离，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型，包括：
47.依据所述追捕强化学习模型，得到所述追捕强化学习模型所涵盖的第一soft-q网络、与第一soft-q网络对应的第一目标网络、第二soft-q网络、与第二soft-q网络对应的第二目标网络、策略网络，所述第一soft-q网络和所述第二soft-q网络结构相同参数相异；
48.将每个所述追捕者的状态信息和每个所述追捕者的动作信息分别输入到所述第
一soft-q网络、所述第一目标网络、所述第二soft-q网络、所述第二目标网络、所述策略网络，得到所述第一soft-q网络输出的结果、所述第一目标网络输出的结果、所述第二soft-q网络输出的结果、所述第二目标网络输出的结果、所述策略网络输出的结果；
49.依据所述结束距离和/或所述第一距离和/或所述第二距离、所述第一soft-q网络输出的结果、所述第一目标网络输出的结果、所述第二soft-q网络输出的结果、所述第二目标网络输出的结果、所述策略网络输出的结果，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
50.在一种实现方式中，所述强化学习模型训练方法还包括：
51.将已训练的所述追捕强化学习模型应用于模拟追捕场景中，所述模拟追捕场景由模拟追捕者、模拟逃跑者、模拟障碍物构成；
52.计算所述模拟追捕者在已训练的所述追捕强化学习模型控制下与所述模拟逃跑者之间的第一模拟距离；
53.计算所述模拟追捕者在已训练的所述追捕强化学习模型控制下与所述模拟障碍物中间的第二模拟距离；
54.依据所述第一模拟距离和所述第二模拟距离，得到针对已训练的所述追捕强化学习模型的评价结果。
55.第二方面，本发明实施例还提供一种用于形成追捕策略的强化学习模型训练装置，其中，所述装置包括如下组成部分：
56.逃跑控制量计算模块，用于将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；
57.观测信息生成模块，用于依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；
58.追捕控制量计算模块，用于将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；
59.训练模块，用于根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
60.第三方面，本发明实施例还提供一种终端设备，其中，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的用于形成追捕策略的强化学习模型训练程序，所述处理器执行所述用于形成追捕策略的强化学习模型训练程序时，实现上述所述的用于形成追捕策略的强化学习模型训练方法的步骤。
61.第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有用于形成追捕策略的强化学习模型训练程序，所述用于形成追捕策略的强化学习模型训练程序被处理器执行时，实现上述所述的用于形成追捕策略的强化学习模型训练方法的步骤。
62.有益效果：本发明逃跑者的控制量并不是确定性的，而是根据追捕者的信息给出的控制量，即逃跑者与追捕者进行了交互，这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略(即逃跑控制量)上的改变是一致的，追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略(追捕控制量)。如此往复地对追捕强化学习模
型进行训练，这样等到的已训练追捕强化学习模型应用到实际追逃过程中，即便逃跑者针对追捕者改变了逃跑策略，追捕者依然能够精准地实现对逃跑者的追捕，从而增加了已训练的追捕强化学习模型的鲁棒性。
附图说明
63.图1为本发明的整体流程图；
64.图2为本发明的单向通讯模型；
65.图3为实施例中追捕者0获得的收益；
66.图4为实施例中追捕者1获得的收益；
67.图5为实施例中追捕者2获得的收益；
68.图6为实施例中追捕者3获得的收益；
69.图7为实施例中的追捕者网络模型；
70.图8为逃跑者网络模型；
71.图9为本实施例中的算法与现有的算法对照示意图；
72.图10为本发明实施例提供的终端设备的内部结构原理框图。
具体实施方式
73.以下结合实施例和说明书附图，对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
74.经研究发现，追逃博弈是微分博弈理论起源的一个重要场景也是其应用中最为经典的领域，不止在航天器轨道追逃、导弹拦截等这类传统问题上，随着科技的发展，如何利用无人机进行罪犯的追踪打击也成为了追逃博弈问题研究的一个热点问题。微分博弈理论从诞生到发展至今，许多学者在数学理论层面提出了各式各样的解答方法与求解思路，但针对微分博弈问题，仍然没有一种可以普遍应用的解决方案应对各种的场景与问题。不仅如此，应用传统的微分博弈方法求解追逃博弈问题也面临着求解繁琐与建模困难等问题。追逃博弈现实应用的需求，也让这类问题由最初的单对单的简单博弈问题拓展到多对多(多个追捕者与多个逃跑者之间的博弈)的复杂环境下的博弈问题，并亟需新的解答思路。强化学习作为机器学习的一个重要分支，近些年来发展迅速，并涌现出诸多令人惊异的成果，围棋智能alphago就是代表性成果。深度强化学习则是将深度学习与传统强化学习算法相结合，实现强化学习算法更广阔应用的一类算法技术。正是因为这些新兴技术的发展，已经有研究者将强化学习应用于博弈的问题中。与之前的解决方案不同，强化学习算法不需要问题的先验知识，而是通过不断探索与试错来获得优秀的策略。强化学习根据算法主体的智能体个数可以分为单智能体算法和多智能体算法两大类。这两种算法分别基于值函数和策略梯度，在单智能体问题中有着广泛的应用，后续工作也多以两者为基础进行改进。而在多智能体领域，算法设计则更加复杂也更具挑战性，面对不同种类的任务与奖励，算法也有着不同。相比于确定性策略的强化学习算法，基于最大熵的强化学习方法，将熵加入整个强化学习的目标函数中，从而让算法有着更好的探索能力以及更好的泛化能力，大大加强了算法的实用程度，成为目前强化学习领域的标杆工作。但是上述强化学习方法在训练过
程中都是基于确定性的逃跑者对追捕者的强化学习模型进行训练的，在训练过程中逃跑者与追捕者并没有交互，而在实际追逃过程中，逃跑者会根据追捕者的动作而做出相对应对的(即在实际追逃过程，逃跑者与追捕者是有交互的)，因此基于现有训练方法得到的已训练追捕强化学习模型在应用到实际追逃过程中会降低模型的鲁棒性。
75.为解决上述技术问题，本发明提供了用于形成追捕策略的强化学习模型训练方法和训练装置，解决了现有的强化学习模型鲁棒性较差的问题。具体实施时，将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。本实施例得到的已训练所述追捕强化学习模型具有较好的鲁棒性。
76.举例说明，假如有三个追捕者，分别是甲、乙、丙，甲与乙相邻，乙与丙相邻，一个逃跑者丁。将甲、乙、丙的当前位置信息、逃跑者丁当前位置信息都输入到已训练的逃跑强化学习模型中，逃跑强化学习模型会输出针对丁的控制量(控制量用于丁制定逃跑策略)，之后计算在控制量作用下丁的下一时刻可能的位置信息。将甲的观察信息、乙的观察信息、丙的观察信息、丁的下一时刻可能的位置信息都输入到追捕强化学习模型以实现对追捕强化学习模型的训练，其中甲的观察信息包括甲当前位置信息、乙当前位置信息、丁下一时刻可能的位置信息，采用同样的方法获取丁和丙的观察信息。
77.示例性方法
78.本实施例的用于形成追捕策略的强化学习模型训练方法可应用于终端设备中，所述终端设备可为具有计算功能的终端产品，比如电脑等。在本实施例中，如图1中所示，所述用于形成追捕策略的强化学习模型训练方法具体包括如下步骤：
79.s100，将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量。
80.本实施例中的步骤s100包括两部分：对逃跑强化学习模型进行训练，根据已训练的逃跑强化学习模型计算逃跑控制量。
81.对逃跑强化学习模型进行训练包括如下步骤s101、s102、s103、s104、s105、s106、s107：
82.s101，获取所述逃跑者的逃跑样本位置、所述逃跑者的逃跑样本速度、所有所述追捕者的追捕样本位置。
83.s102，将所述逃跑样本位置、所述逃跑样本速度、所述追捕样本位置输入到所述逃跑强化学习模型，得到所述逃跑强化学习模型输出的针对所述逃跑者的逃跑控制量。
84.本实施例中逃跑样本位置、逃跑样本速度、追捕样本位置构成了逃跑者的观测信息oe：
85.oe＝{xe，ye，θe，x
pi
，y
pi
}，i∈{1，2，3，4}
86.本实施例中以四个追捕者为例，xe为逃跑者e的横坐标、ye为逃跑者e的纵坐标，θe为逃跑者e为逃跑者的速度方向(方位角)，x
pi
为四个追捕者p中的追捕者i的横坐标，y
pi
为
四个追捕者p中的追捕者i的纵坐标。
87.s103，依据所述逃跑强化学习模型，得到所述逃跑强化学习模型所涵盖的逃跑者第一强化学习模型、逃跑者第二强化学习模型、逃跑者第三强化学习模型。
88.s104，随机选取所述逃跑者第一强化学习模型输出的所述逃跑控制量中的逃跑第一控制量、所述逃跑者第二强化学习模型输出的所述逃跑控制量中的逃跑第二控制量、所述逃跑者第三强化学习模型输出的所述逃跑控制量中的逃跑第三控制量。
89.s105，随机从所述逃跑第一控制量、所述逃跑第二控制量、所述逃跑第三控制量中选取一个控制量。
90.本实施例中的三个逃跑者强化学习模型的网络结构相同，之所以要设计三个逃跑者强化学习模型是为了防止智能体学习(追捕强化学习模型和逃跑学习网络)陷入某种极端，博弈双方(追捕者和逃跑者)都在学习使得双方的策略可能都不够好，停留在比较低的水平中。
91.s106，计算在随机选取的一个控制量作用下，追捕过程中所述逃跑者与距离所述逃跑者最近的所述追捕者之间的追逃距离；
92.s107，依据所述追逃距离对所述逃跑强化学习模型进行训练，得到已训练的所述逃跑强化学习模型。
93.在训练过程中，如图8所示，三个逃跑者强化学习模型，共享一个经验池，网络更新(模型训练)时，三个逃跑者强化学习模型分别从经验池中选取数据独立更新，在于环境交互时，从三个网络中随机生成的动作中(逃跑强化学习模型输出的控制量所对应的动作)随机选取一个动作，作为整个逃跑者的输出动作。然后再在该动作作用下计算逃跑者与距离最近的追捕者之间的追逃距离d
min
，最后根据d
min
调整逃跑者强化学习模型中的参数，以完成对逃跑者强化学习模型的训练。
94.本实施例是根据d
min
计算出针对逃跑者的奖励r
te
，最后根据r
te
的大小调整逃跑者强化学习模型中的参数。
[0095][0096]
式中，ce为一超参数以控制奖励大小。
[0097]
本实施例不仅可以根据奖励r
te
调整逃跑者强化学习模型中的参数，还可以根据撞击负奖励调整逃跑者强化学习模型中的参数，就是调整参数使得逃跑者强化学习模型输出的控制量能够让撞击负奖励变得更小。
[0098][0099]
式中，δ
safety
为设定的逃跑者与障碍物之间的安全距离，d
emin
为逃跑者与障碍物的实际距离，β为常数。
[0100]
通过步骤s101至步骤s107完成了对逃跑者强化学习模型的训练，之后将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，就可以得到逃跑强化学习模型输出的逃跑控制量。逃跑者根据逃跑控制量去制定逃跑策略。本实施例中的追捕者信
息为追捕者当前位置、逃跑者信息为逃跑者当前位置以及逃跑速度。
[0101]
s200，依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息o
pi
。
[0102]
本实施例中的每个追捕者不仅采集自身的信息、邻居的信息、逃跑者的信息，还要采集追捕者自身与障碍物之间的距离。
[0103]opi
＝{x
pi
,y
pi
,θ
pi
,x
pj
,y
pj
,xe,ye,d
imin
}
[0104]
式中，x
pi
为追捕者i的横坐标，y
pi
为追捕者i的纵坐标，θ
pi
为追捕者i的速度方向角，x
pj
为追捕者i的邻居追捕者j的横坐标，y
pj
为追捕者j的纵坐标，xe为逃跑者的横坐标，ye为逃跑者的纵坐标，d
imin
为距离追捕者i最近的障碍物的距离。逃跑者在逃跑强化学习模型根据追捕者上一时刻的位置、速度输出的控制量，xe和ye为该控制量产生的逃跑者位置。
[0105]
本实施例中，追捕者i与追捕者j互为邻居，如图2所示，追捕者j与追捕者i采用单向通讯，即追捕者j能把自身的x
pj
和y
pj
传递给追捕者i，而追捕者i却不能把自身的信息传递给追捕者j，这样已经足够保证每个追捕者能够获取到其邻居信息了，同时又能减轻双向通讯所带来的通讯压力。
[0106]
s300，将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量。
[0107]
本实施例是将步骤s200中的o
pi
＝{x
pi
,y
pi
,θ
pi
,x
pj
,y
pj
,xe,ye,d
imin
}输入到追捕强化学习模型，追捕强化学习模型就会输出一个控制量，这个控制量用于调整追捕者追捕策略，以实施对逃跑者的追捕。
[0108]
步骤s300包括如下的步骤s301、s302和s303：
[0109]
s301，依据每个所述追捕者的观测信息，得到所述观测信息中的在简单环境下的观察信息和在复杂环境中的观察信息，所述简单环境为静态的所述逃跑者和障碍物的数量小于设定值，所述复杂环境为动态的所述逃跑者和障碍物的数量大于设定值。
[0110]
如果直接采用在复杂环境中追捕者采集到的观察信息对追捕强化学习模型进行训练，在训练的迭代过程中难以取得较好效果。因此本实施例将对追捕强化学习模型的训练分成两个过程，先在简单环境下对追捕强化学习模型进行，之后在上述训练的基础上再在复杂环境下训练追捕强化学习模型。
[0111]
本实施例中的简单环境：设定逃跑者为一个在场地中随机出现但是无法移动的固定目标，其他情况与正常训练一致。这里设计了一个简化的对手，目的在于通过减小追捕任务的难度使得学习曲线更加平缓。
[0112]
s302，将每个所述追捕者在简单环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第一速度变化量。
[0113]
s303，将每个所述追捕者在复杂环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第二速度变化量。
[0114]
s400，根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
[0115]
本实施例s400包括两种情况，第一种是采用步骤s300中的在简单环境中追捕者的
观察信息对追捕强化学习模型进行预训练，再在与训练的基础上进一步采用步骤s300中的在复杂环境中追捕者的观察信息对追捕强化学习模型进一步训练；第二种是只采用同一种环境下的追捕者观察信息对追捕强化学习模型进行训练。
[0116]
当时第一种情况时，步骤s400包括如下的步骤s401和s402：
[0117]
s401，依据所述第一速度变化量，训练所述追捕强化学习模型，得到预训练的所述追捕强化学习模型。
[0118]
s402，依据所述第二速度变化量，训练预训练之后的所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
[0119]
本实施例中的第一速度变化量就是追捕者相对在简单环境下采集观察信息时的速度变化量。第二速度变化量就是追捕者相对在复杂环境下采集观察信息时的速度变化量。
[0120]
如图3-图6所示，预训练阶段追捕者0、追捕者1、追捕者2、追捕者3都获得了高收益，本实施例用最终奖励r
pi
表示收益，pi为第i个追捕者(p)，收益越大表明在追捕强化学习模型输出的控制量(速度变化量)作用下，追捕者追到逃跑者的概率越大，也是根据r
pi
的大小去调整追捕强化学习模型中的参数以使得调整参数之后的追捕强化学习模型输出的r
pi
达到要求，以完成对追捕强化学习模型的训练。
[0121][0122]
式中为游戏终结的奖励(捕获成功的奖励)，如果在某一个智能体捕获成功时给予所有追捕者一个奖励，那么容易造成“偷懒”的现象，即置信分配问题，某些智能体在没有对游戏胜利做出贡献的同时却获得了正的奖励，这将鼓励此智能体继续这种行为。因此在设计游戏终结奖励时，本实施例只追捕点附近的智能体(追捕者)才能获得游戏胜利的奖励。
[0123][0124]
win表示所有追捕者中有一个或几个追捕者追到逃跑者了，d
pi
为完成追捕时距离逃跑者最近的追捕者i与逃跑者之间的距离，dr为常数，c
catch
为一预设参数，为一个较大的正数，表示鼓励智能体(追捕者)的此类行为(支持追捕者以追捕强化学习模型输出的控制量追捕逃跑者)。
[0125]
塑形奖励的设计是为了降低学习的难度，应对奖励稀疏性的一个解决方案。在追逃问题中，奖励一般设计只会在游戏终结(追捕结束)时，这样的奖励过于稀疏，因此本实施例加入了塑形奖励用以在每一步(追捕过程中)都提供一个小的奖励以便智能体学习：
[0126][0127]
其中γ为折扣参数，则为追捕者i在时刻t与逃跑者的距离，为追捕者i在时刻t-1与逃跑者的距离。
[0128]
同时，障碍物的加入也是一个挑战。相比于直接为智能体设计一个撞击惩罚的负
回报，本实施例从人工势能场的方法中获得启发，设计了一种基于势能的防撞击奖励，智能体离障碍物越近，所收获的负奖励越多，但是只要距离障碍物一定距离以上，则不会有负奖励的惩罚。
[0129][0130]
其中β为一超参数控制奖励大小，δ
safety
为设定的障碍物安全距离，d
imin
为距离追捕者i最近的障碍物的距离。
[0131]
本实施例当步骤s400为第一种情况时，步骤s400包括如下的步骤s403、s404、s405、s406、s407、s408
[0132]
s403，根据所述追捕控制量，得到所述追捕控制量中的追捕速度变化量。
[0133]
本实施例的追捕强化学习模型输出的就是追捕速度变化量即下一时刻相对上一时刻速度应该变化多少。是速度方向角的变化量。
[0134]
s404，以所述追捕速度变化量，调整所述追捕者的追捕速度，得到调整之后的所述追捕速度。
[0135]
调整之后的追捕速度的方向角为θ
pi
：
[0136][0137]
θ
′
pi
为追捕者i采集步骤s200中的观察信息o
pi
时的速度方向角。
[0138]
在计算出θ
pi
基础上，计算追捕者的位置变化量通过通过和追捕者之前的位置计算出追捕者现在的位置(x
pi
，y
pi
)，根据(x
pi
，y
pi
)去计算后续步骤s405中追捕者与逃跑者之间的距离、追捕者与障碍物之间的距离。
[0139][0140]vpi
为追捕者的速度大小，
[0141]
s405，在设定时间内，计算所述追捕者以调整之后的所述追捕速度进行追捕，完成追捕时所述追捕者与所述逃跑者之间的结束距离。
[0142]
本实施例中，采用如下方式定义追捕者追捕逃跑者是否成功：
[0143]
博弈地图为一矩形地图，并分布一些圆形的障碍物，博弈双方的智能体无法超过边界以及障碍物。对于追捕者i来说，追捕成功的条件为在一定时间内，其与逃跑者的距离小于追捕距离，即：
[0144][0145]
其中d
pi
为追捕结束时追捕者i与逃跑者的距离，dc为预设捕获距离。若任意一个追捕者成功捕捉到逃跑者，则追捕方获胜，反之则逃跑方获胜。
[0146]
当追捕完成时，根据下式计算出追捕者获得的奖励
[0147][0148]
是训练追捕强化学习模型的依据，根据的大小去调整训练追捕强化学习模型，还可以根据和去调整追捕强化学习模型的参数。为追捕者以调整之后的追捕速度进行的追捕过程中，追捕者与所述逃跑者之间的第一距离。为追捕者以调整之后的所述追捕速度进行的追捕过程中，所述追捕者与障碍物之间的第二距离。
[0149][0150][0151]
当然也可以根据之和去调整追捕强化学习模型中的参数，以实现对追捕强化学习模型的训练。
[0152]
s406，依据所述追捕强化学习模型，得到所述追捕强化学习模型所涵盖的第一soft-q网络、与第一soft-q网络对应的第一目标网络、第二soft-q网络、与第二soft-q网络对应的第二目标网络、策略网络，所述第一soft-q网络和所述第二soft-q网络结构相同参数相异；
[0153]
s407，将每个所述追捕者的状态信息和每个所述追捕者的动作信息分别输入到所述第一soft-q网络、所述第一目标网络、所述第二soft-q网络、所述第二目标网络、所述策略网络，得到所述第一soft-q网络输出的结果、所述第一目标网络输出的结果、所述第二soft-q网络输出的结果、所述第二目标网络输出的结果、所述策略网络输出的结果；
[0154]
s408，依据所述结束距离和/或所述第一距离和/或所述第二距离、所述第一soft-q网络输出的结果、所述第一目标网络输出的结果、所述第二soft-q网络输出的结果、所述第二目标网络输出的结果、所述策略网络输出的结果，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
[0155]
s406、s407、s408是基于如下原理训练追捕强化学习模型：
[0156]
建立智能体的网络更新。为了更好更稳定的训练，对于每个智能体(追捕者)i，包括两个网络结构相同但参数不同的soft-q网络以及他们的目标网络其网络参数分别为θ
ij
和这样设计使得算法更新更加稳定，以及策略网络πi(a
t
∣s
t
)(策略网络用于输出控制量)，参数为φi。soft-q网络的目标函数为：
[0157][0158]
其中di为追捕者i的经验池，用于存放过往数据，p为状态转移概率，s
t
为时刻t的智能体状态，a
t
为智能体的动作，r为智能体获得的收益，v定义为
γ为衰减因子。通过随机梯度下降优化参数θ
ij
，并且利用软更新的方式更新
[0159][0160]
其中τ为预设参数，控制更新的幅度大小。
[0161]
智能体i的策略网络为πi(a
t
∣s
t
)，参数为φi，其目标函数为：
[0162][0163]
其中各符号与soft-q网络目标函数中意义相同。
[0164]
对动作进行重新参数化，即
[0165]at
＝f
φ
(
ò
t
；s
t
)
[0166]
其中
ò
t
为一噪声，就可以重写策略的目标函数为:
[0167][0168]
在之前我们提到过有两个soft-q网络，这里选取较小的值来更新策略的目标函数，使得参数更新更加稳定，同样利用梯度下降进行更新策略。
[0169]
温度系数αi则通过优化下式进行更新：
[0170][0171]
其中，h0为参数控制熵的大小。
[0172]
每个智能体在与环境进行交互后，通过上式更新自己的网络参数优化策略。两个soft-q网络以及对应的目标网络和策略网络πi(a
t
∣s
t
)构成如图7所示的系统。
[0173]
通过步骤s100、s200、s300得到已训练的追捕强化学习模型，本实施例还对已训练的追捕强化学习模型的效果进行评价，包括如下步骤s501、s502、s503、s504：
[0174]
s501，将已训练的所述追捕强化学习模型应用于模拟追捕场景中，所述模拟追捕场景由模拟追捕者、模拟逃跑者、模拟障碍物构成。
[0175]
s502，计算所述模拟追捕者在已训练的所述追捕强化学习模型控制下与所述模拟逃跑者之间的第一模拟距离。
[0176]
s503，计算所述模拟追捕者在已训练的所述追捕强化学习模型控制下与所述模拟障碍物中间的第二模拟距离。
[0177]
s504，依据所述第一模拟距离和所述第二模拟距离，得到针对已训练的所述追捕强化学习模型的评价结果。
[0178]
s501至s504的具体过程如下：
[0179]
为了测试已训练的追捕者强化学习模型输出的控制量(追捕策略)的有效性、鲁棒性及可迁移性，本实施例设计了两种逃跑策略以测试追捕策略的效果。
[0180]
策略一为一种基于人工势能场的策略。将追捕者及障碍物建模成为人工势能场，追捕者将受到来着这两种单位的斥力作用。追捕者产生的斥力f
pi
为
[0181]fpi
＝-c
f1
×dpi
,i∈{1,2,3,4}
[0182]
其中，c
f1
为控制斥力大小的参数，d
pi
为逃跑者与追捕者i的距离向量。距离追捕者最近的障碍物提供的斥力fc为：
[0183][0184]
其中c
f2
为控制障碍物斥力大小的参数，d
eo
为逃跑者与其距离最近的障碍物的距离向量，两者合力方向即为逃跑者的理想移动角度：
[0185]
fe＝f
pi
fc[0186]
策略二为一种随机动作的策略，智能体在动作可行域内随机选取动作，并与环境进行交互。
[0187]
以上两种策略是在智能体的训练过程中未出现的，将训练好的追捕者网络用于对抗这两种策略，游戏结果可见图9，对照组为未经过复合网络对手以及预训练的强化学习算法，两者的算法结构相同，超参数相同，可见经过本实施例改进的追捕强化学习模型不但能够在对抗原始的智能算法中有比较好的效果，同样在对抗未知策略也能取得很好的效果。
[0188]
综上，本发明逃跑者的控制量并不是确定性的，而是根据追捕者的信息给出的控制量，即逃跑者与追捕者进行了交互，这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略(即逃跑控制量)上的改变是一致的，追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略(追捕控制量)。如此往复地对追捕强化学习模型进行训练，这样等到的已训练追捕强化学习模型应用到实际追逃过程中，即便逃跑者针对追捕者改变了逃跑策略，追捕者依然能够精准地实现对逃跑者的追捕，从而增加了已训练的追捕强化学习模型的鲁棒性。
[0189]
示例性装置
[0190]
本实施例还提供一种用于形成追捕策略的强化学习模型训练装置，所述装置包括如下组成部分：
[0191]
逃跑控制量计算模块，用于将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；
[0192]
观测信息生成模块，用于依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；
[0193]
追捕控制量计算模块，用于将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；
[0194]
训练模块，用于根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
[0195]
基于上述实施例，本发明还提供了一种终端设备，其原理框图可以如图10所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于形成追捕策略的强化学习模型训练方法。该终端设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该
终端设备的温度传感器是预先在终端设备内部设置，用于检测内部设备的运行温度。
[0196]
本领域技术人员可以理解，图10中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端设备的限定，具体的终端设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0197]
在一个实施例中，提供了一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的用于形成追捕策略的强化学习模型训练程序，处理器执行用于形成追捕策略的强化学习模型训练程序时，实现如下操作指令：
[0198]
将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；
[0199]
依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；
[0200]
将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；
[0201]
根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。
[0202]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0203]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

用于形成追捕策略的强化学习模型训练方法和训练装置与流程

相关文献

最热文献