深度强化学习模型的处理方法及装置、介质、电子设备与流程

2021-12-13 00:45:00 来源：中国专利 TAG：

1.本公开实施例涉及人工智能技术领域，具体而言，涉及一种深度强化学习模型的处理方法、深度强化学习模型的处理装置、计算机可读存储介质以及电子设备。

背景技术：

2.深度强化学习(drl，deep reinforcement learning)是近年来出现的一种将强化学习同深度学习相结合的技术，属于机器学习的一个子领域。
3.在现有的在分布式深度强化学习中，模型需要由训练机器分发至多台交互机器上，每台机器的各个交互进程获取到新模型后继续进行模型和环境的交互，最后训练机器再收集新的交互数据进行训练。其中，常用的模型分发的方案为直接分发，也即练机器直接将完整的模型依次下发到各台交互机器中。
4.但是，对于直接分发来说，由于模型较大，单次传输很容易就达到训练机器的带宽上限，因此模型分发效率较低。
5.因此，需要提供一种新的深度强化学习模型的处理方法及装置。
6.需要说明的是，在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

7.本公开的目的在于提供一种深度强化学习模型的处理方法、深度强化学习模型的处理装置、计算机可读存储介质以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的模型的分发效率较低的问题。
8.根据本公开的一个方面，提供一种深度强化学习模型的处理方法，配置于具有模型训练机器以及交互机器的模型训练系统，所述方法包括：
9.通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各所述模型碎片发送至中间节点；
10.通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，并将所述完整的序列化模型发送至所述交互机器中；
11.通过所述交互机器对所述完整的序列化模型进行反序列化处理，得到所述深度强化学习模型，并通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；
12.通过所述交互机器将所述训练数据发送至所述模型训练机器，并通过所述模型训练机器通过所述训练数据对所述深度强化学习模型进行训练。
13.在本公开的一种示例性实施例中，对深度强化学习模型进行划分，得到多个模型碎片，包括：
14.计算所述中间节点的节点数量，并根据所述节点数量确定所述深度强化学习模型所能划分的碎片数量；
15.根据所述碎片数量对所述深度强化学习模型进行等份划分，得到多个模型碎片。
16.在本公开的一种示例性实施例中，通过模型分发进程将各所述模型碎片发送至中间节点，包括：
17.通过预设的分布式执行引擎启动所述模型分发进程；
18.对所述模型碎片进行编码，并基于所述模型碎片的碎片编码的顺序，通过模型分发进程将各所述模型碎片一对一的发送至所述中间节点。
19.在本公开的一种示例性实施例中，通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，包括：
20.通过所述中间节点对自身接收到的当前模型碎片转发至除开自身以外的其他节点，并接收其他节点发送的除当前模型碎片以外的其他所有模型碎片；
21.根据当前模型碎片以及其他所有模型碎片的碎片编码对所述当前模型碎片以及其他所有模型碎片进行排序；
22.对排序后的当前模型碎片以及其他所有模型碎片进行拼接，得到完整的序列化模型。
23.在本公开的一种示例性实施例中，将所述完整的序列化模型发送至所述交互机器中，包括：
24.通过所述中间节点所具有的进程间通信的方式，将所述完整的序列化模型发送至所述交互机器中包括的交互进程上。
25.在本公开的一种示例性实施例中，通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据，包括：
26.通过所述深度强化学习模型与预设的虚拟环境进行交互，得到多个交互序列，其中，所述交互序列包括多个采样数据，每一个所述采样数据包括所述预设的虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值；
27.根据各所述交互序列，生成所述训练数据。
28.在本公开的一种示例性实施例中，通过所述训练数据对所述深度强化学习模型进行训练，包括：
29.针对所述训练数据中的每一采样数据，确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值，以及在所述采样数据对应的决策策略下所述优势函数值的优势期望；
30.针对所述训练数据中的每一采样数据，根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数，确定所述采样数据对应的动作价值；
31.基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息，并根据所述更新梯度信息对所述深度强化学习模型进行更新。
32.根据本公开的一个方面，提供一种深度强化学习模型的处理装置，配置于具有模型训练机器以及交互机器的模型训练系统，所述装置包括：
33.模型划分模块，用于通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各所述模型碎片发送至中间节点；
34.碎片拼接模块，用于通过所述中间节点对所述模型碎片进行拼接，得到完整的序
列化模型，并将所述完整的序列化模型发送至所述交互机器中；
35.训练数据生成模块，用于通过交互机器对所述完整的序列化模型进行反序列化处理，得到所述深度强化学习模型，并通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；
36.模型训练模块，用于通过交互机器将所述训练数据发送至所述模型训练机器，并通过所述模型训练机器通过所述训练数据对所述深度强化学习模型进行训练。
37.根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的深度强化学习模型的处理方法。
38.根据本公开的一个方面，提供一种电子设备，包括：
39.处理器；以及
40.存储器，用于存储所述处理器的可执行指令；
41.其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的深度强化学习模型的处理方法。
42.本公开实施例提供的一种深度强化学习模型的处理方法，一方面，由于在模型分发的过程中，可以通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各模型碎片发送至中间节点；然后通过中间节点对模型碎片进行拼接，得到完整的序列化模型，并将完整的序列化模型发送至交互机器中；最后通过交互机器对完整的序列化模型进行反序列化处理，得到深度强化学习模型，进而避免了由于需要对模型进行整体分发，使得单次传输很容易就达到训练机器的带宽上限进而导致的分发效率较低的问题，提高了模型的分发效率；另一方面，由于可以在交互机器上通过深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；然后再在模型训练机器通过训练数据对深度强化学习模型进行训练，进而降低了模型训练机器的负担，提高了模型训练的效率。
43.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
44.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1示意性示出一种对深度强化学习模型进行直接分发的示例图。
46.图2示意性示出一种对深度强化学习模型进行树形分发的示例图。
47.图3示意性示出根据本公开示例实施例的一种深度强化学习模型的处理方法的流程图。
48.图4示意性示出根据本公开示例实施例的一种对深度强化学习模型进行处理的原理图。
49.图5示意性示出根据本公开示例实施例的一种通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型的方法流程图。
50.图6示意性示出根据本公开示例实施例的一种通过所述训练数据对所述深度强化
学习模型进行训练的方法流程图。
51.图7示意性示出根据本公开示例实施例的另一种深度强化学习模型的处理方法的流程图。
52.图8示意性示出根据本公开示例实施例的一种深度强化学习模型的处理装置的框图。
53.图9示意性示出根据本公开示例实施例的一种用于实现上述深度强化学习模型的处理方法的电子设备。
具体实施方式
54.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
55.此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
56.深度强化学习研究的是智能体如何在和环境的交互过程中不断试错积累经验取得最大化奖励，深度强化学习则是将强化学习结合了深度学习技术，使用深度神经网络模型作为强化学习中策略函数的拟合器，大大拓宽了强化学习的能力边界，使强化学习在复杂环境中也能表现出类似甚至超越人类水平的智能程度，其中最知名的drl系统当属alphago。
57.然而，伴随着深度强化学习的是低效的数据利用率，目前训练出强大的智能体需要模型同环境进行大量的交互不断生成新的训练数据，于是分布式训练成为了深度强化学习框架的主流选择。在分布式深度强化学习(ddrl，distributed deep reinforcement learning)中，模型需要由训练机器分发至多台交互机器上，每台机器的各个交互进程获取到新模型后继续进行模型和环境的交互，最后训练机器再收集新的交互数据进行训练。模型分发效率越高，其训练的收敛速度则越快。
58.但是，在ddrl系统中，其采用了直接分发以及树形分发的方式对模型进行分发。具体的，参考图1所示，直接分发是指训练机器直接通过分发进程将整体模型发送至交互机器所在的转发进程，进而通过转发进程发送至对应的交互进程；进一步的，参考图2所示，树形分发是指训练机器通过分发进程将完整模型先发送至某些中间节点(转发进程)，再由这些中间节点转发至各台交互机器的交互进程。
59.上述树形分发方案中，每台交互机器内部的模型转发不涉及网络传输，即各台机
器的交互进程可以直接通过进程间通信的手段从该机器的转发进程中获取模型。但是，树形分发虽然有效降低了训练机器的传输压力，但是当系统规模进一步扩大或者需要传输更大的模型，导致无法继续增加中间节点数量时(否则带宽会重新达到上限)，就只能增加树的深度进行多层转发，这又会造成转发耗时过长。
60.基于此，本示例实施方式中首先提供了一种深度强化学习模型的处理方法该方法可以运行于具有模型训练机器以及交互机器的模型训练系统所在的服务器、服务器集群或云服务器等；当然，本领域技术人员也可以根据需求在其他平台运行本公开的方法，本示例性实施例中对此不做特殊限定。参考图3所示，该深度强化学习模型的处理方法可以包括以下步骤：
61.步骤s310.通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各所述模型碎片发送至中间节点；
62.步骤s320.通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，并将所述完整的序列化模型发送至所述交互机器中；
63.步骤s330.通过所述交互机器对所述完整的序列化模型进行反序列化处理，得到所述深度强化学习模型，并通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；
64.步骤s340.通过所述交互机器将所述训练数据发送至所述模型训练机器，并通过所述模型训练机器通过所述训练数据对所述深度强化学习模型进行训练。
65.上述深度强化学习模型的处理方法中，一方面，由于在模型分发的过程中，可以通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各模型碎片发送至中间节点；然后通过中间节点对模型碎片进行拼接，得到完整的序列化模型，并将完整的序列化模型发送至交互机器中；最后通过交互机器对完整的序列化模型进行反序列化处理，得到深度强化学习模型，进而避免了由于需要对模型进行整体分发，使得单次传输很容易就达到训练机器的带宽上限进而导致的分发效率较低的问题，提高了模型的分发效率；另一方面，由于可以在交互机器上通过深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；然后再在模型训练机器通过训练数据对深度强化学习模型进行训练，进而降低了模型训练机器的负担，提高了模型训练的效率。
66.以下，将结合附图对本公开示例实施例深度强化学习模型的处理方法进行详细的解释以及说明。
67.首先，对本公开示例实施例的发明目的进行解释以及说明
68.具体的，本公开示例实施例提出了一种新型的分布式强化学习系统的模型处理方法，目的是解决已有分发方法在系统规模过大时转发耗时长、单台机器容易达到带宽上限的问题。同时，在本公开示例实施例所记载的深度强化学习模型的处理方法中，与前述所记载的树形分发方案不同的是，交互机器从训练机器中接收的数据不是完整的一个模型，而是模型的一个碎片。
69.例如，假设ddrl系统中总共有n台交互机器，本公开示例实施例可以在系统启动前选择一个正整数m满足m<＝n，则启动后在模型分发时训练机器会将模型等分成m个碎片分别分发到m台作为中间节点的交互机器上，然后由这一部分机器各自向所有交互机器广播自己所收到的这一部分碎片，最终n台交互机器都会接收到所有的碎片，并从中重新还原出
一个完整的模型，具体的分发原理图可以参考图4所示。
70.其次，对本公开示例实施例记载的深度强化学习模型的处理方法的应用场景进行解释以及说明。
71.具体的，本公开示例实施例所记载的深度强化学习模型的处理方法可以应用于训练游戏ai的分布式深度强化学习系统中。其中，该系统可以包含1台80核8卡的gpu(graphics processing unit，图形处理器)机器作为训练机器，在训练过程中发送最新的模型，以及298台36核的cpu(central processing unit，中央处理器)机器作为交互机器，每台交互机器会启动36个交互进程接收模型并使用模型和环境交互产生训练数据。
72.该系统的模型分发部分采用了ray和zeromq相结合的方式搭建。其中，ray是一个高性能的分布式执行引擎、开源的人工智能框架，用于实现便捷的集群内部资源分配和进程调度；zeromq是一个轻量级消息内核，用于实现高效的网络通信，弥补ray的传输效率不足。并且，在启动该系统前，系统运行的代码会被打包至docker中，通过k8s自动地部署到所有交互机器上。启动该系统时，先在训练机器上先通过ray启动模型分发进程，接着在交互机器上通过ray启动转发进程以及交互进程。
73.其次，结合图4对图3中所记载的深度强化学习模型的处理方法进行解释以及说明。
74.在步骤s310中，通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各所述模型碎片发送至中间节点。
75.在本示例实施例中，首先，通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片。具体的，可以包括：首先，计算所述中间节点的节点数量，并根据所述节点数量确定所述深度强化学习模型所能划分的碎片数量；其次，根据所述碎片数量对所述深度强化学习模型进行等份划分，得到多个模型碎片。具体的，当分布式深度强化学习系统启动后，首先便是由模型分发进程先准备好要传输的最新的深度强化学习模型；然后，根据中间节点的节点数量确定碎片数量，并基于该碎片数量把模型经序列化后均匀地划分成与碎片数量相同的模型碎片。
76.其次，当得到模型碎片以后，即可通过模型分发进程将各所述模型碎片发送至中间节点。具体的，可以包括：通过预设的分布式执行引擎启动所述模型分发进程；对所述模型碎片进行编码，并基于所述模型碎片的碎片编码的顺序，通过模型分发进程将各所述模型碎片一对一的发送至所述中间节点。也即，先通过ray启动模型分发进程，然后对模型碎片进行顺序编码，以完成对碎片的标记；然后，再基于模型碎片的碎片编码的顺序，通过模型分发进程将各模型碎片通过zeromq以网络传输的方式一对一地分别发送至相应的充当中间节点的转发进程。
77.在步骤s320中，通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，并将所述完整的序列化模型发送至所述交互机器中。
78.在本示例实施例中，首先，通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型。具体的，参考图5所示，可以包括以下步骤：
79.步骤s510，通过所述中间节点对自身接收到的当前模型碎片转发至除开自身以外的其他节点，并接收其他节点发送的除当前模型碎片以外的其他所有模型碎片；
80.步骤s520，根据当前模型碎片以及其他所有模型碎片的碎片编码对所述当前模型
碎片以及其他所有模型碎片进行排序；
81.步骤s530，对排序后的当前模型碎片以及其他所有模型碎片进行拼接，得到完整的序列化模型。
82.以下，将对步骤s510
‑
步骤s530进行解释以及说明。具体的，各中间节点(也即转发进程)会在收到各自的当前模型碎片后，立即将自身收到的当前模型碎片通过zeromq的网络传输继续转发到除自身外的所有转发进程；至此，每个转发进程都会收到模型序列化后的全部模型碎片，之后便可以在每个转发进程上根据顺序标记将这些碎片重新拼接起来，得到完整的序列化模型。
83.其次，在得到完整的序列化模型后，即可将所述完整的序列化模型发送至所述交互机器中。具体的发送过程可以包括：通过所述中间节点所具有的进程间通信的方式，将所述完整的序列化模型发送至所述交互机器中包括的交互进程上。具体的，可以通过进程间通信的方式将完整的序列化模型发送至位于同一台交互机器上的36个交互进程。此处需要补充说明的是，分布式深度强化学习系统中每台交互机器上都会启动1个转发进程和36个交互进程。如前所述，转发进程的作用除了将完整的模型分发到本机的交互进程外，还有可能充当中间节点用于模型碎片的收集和转发。对于传输100台交互机器的情况，可以指定10个转发进程作为中间节点，而对于298台交互机器的情况，可以指定个30转发进程作为中间节点。
84.在步骤s330中，通过所述交互机器对所述完整的序列化模型进行反序列化处理，得到所述深度强化学习模型，并通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据。
85.在本示例实施例中，当交互进程接收到完整的序列化模型以后，即可对执行反序列化可得到可以和预设的虚拟环境进行交互的原始模型，也即深度强化学习模型；然后，再通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据。具体的，可以包括：通过所述深度强化学习模型与预设的虚拟环境进行交互，得到多个交互序列，其中，所述交互序列包括多个采样数据，每一个所述采样数据包括所述预设的虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值；根据各所述交互序列，生成所述训练数据。
86.具体的，由于深度强化学习模型可以将深度学习的感知能力和强化学习的决策能力相结合，其可以通过在每个时刻代理(agent)与环境交互得到一个高维度的观察，并利用深度学习方法来感知该观察，以得到该观察具体的状态特征表示，所述采样数据即用于表示在交互过程中任一时刻进行采样，所得到的感知观察对应的具体状态表征；之后可以基于预期回报来评价各个状态的价值函数(状态值函数)和状态
‑
动作对的价值函数(动作值函数)，并且基于这两个价值函数对决策策略进行提升，决策策略用于将当前状态映射为相应的决策动作；环境会对此决策动作做出反应，并得到下一个观察。因此，可以通过深度强化学习模型对虚拟对象进行控制，进而使得该虚拟对象与预设的虚拟环境进行交互，得到多个交互序列。
87.其中，虚拟环境可以是用计算机生成的一种虚拟的游戏场景。该游戏场景可以是由虚拟对象感知其所处的环境，并根据感知到的环境状态来进行动作的场景。该虚拟场景可以包括一虚拟对象以及虚拟对象所处环境中包含的多个环境对象，在该场景下，虚拟对
象可以对虚拟对象所处环境的环境状态进行融合，并将融合后的环境状态，输入到深度强化学习模型中，以得到虚拟对象待执行的决策动作。其中，虚拟对象可以是任一种能够与环境交互，并根据所处环境的环境状态进行动作的智能体。
88.此处需要进一步补充说明的是，深度强化学习模型可以用于对游戏人工智能进行训练。以枪战类游戏为例，虚拟对象可以是游戏对战ai，其对应的决策动作可以是控制游戏对战ai角色攻击、移动和停止等。
89.在步骤s340中，通过所述交互机器将所述训练数据发送至所述模型训练机器，并通过所述模型训练机器通过所述训练数据对所述深度强化学习模型进行训练。
90.在本示例实施例中，当得到训练数据以后，可以将该训练数据发送至模型训练机器，当模型训练机器接收到该训练数据以后，即可通过该训练数据对深度强化学习模型进行训练。具体的，参考图6所示，通过训练数据对深度强化学习模型进行训练具体可以包括以下步骤：
91.步骤s610，针对所述训练数据中的每一采样数据，确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值，以及在所述采样数据对应的决策策略下所述优势函数值的优势期望；
92.步骤s620，针对所述训练数据中的每一采样数据，根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数，确定所述采样数据对应的动作价值；
93.步骤s630，基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息，并根据所述更新梯度信息对所述深度强化学习模型进行更新。
94.以下，将对步骤s610
‑
步骤s630进行解释以及说明。具体的，首先，上述决策策略为基于优势函数和深度强化学习模型中多个具有关联关系的策略参数所形成的策略族函数确定的，该多个策略参数为深度强化学习模型中的超参数；同时，优势函数的计算可以通过神经网络来计算，该神经网络可以包括卷积神经网络或者循环神经网络，本示例对此不做特殊限制；优势函数值的优势期望可以通过交互序列对应的样本的均值逼近进行确定；其次，即可根据采样数据、与采样数据对应的优势函数值、优势期望以及深度强化学习模型的状态值函数，确定采样数据对应的动作价值；最后，再基于动作值函数对应的损失函数对深度强化学习模型的参数进行求导，进而得到更新梯度信息，并基于更新梯度信息对深度强化学习模型进行更新；其中，在确定损失函数时，可以计算动作价值对应的目标值与动作价值之间的均方误差，进而得到该损失函数。
95.至此，已经完成了深度强化学习模型的整体训练。
96.以下，将结合图7对本公开示例实施例深度强化学习模型的处理方法进行进一步的解释以及说明。具体的，参考图7所示，该深度强化学习模型的处理方法可以包括以下步骤：
97.步骤s701，由模型分发进程先准备好要传输的最新的深度强化学习模型；
98.步骤s702，通过序列化模块把最新的深度强化学习模型经序列化后均匀地划分成和中间节点数量相当的模型碎片，并对模型碎片进行编码；
99.步骤s703，通过碎片分发模块将每个模型碎片由分发进程通过zeromq以网络传输的方式一对一地分别发送至相应的充当中间节点的转发进程；
100.步骤s704，通过充当中间节点的转发进程将碎片通过zeromq的网络传输继续转发到除自身外的所有转发进程，并根据碎片编码对模型碎片进行拼接，得到完整的序列化模型；
101.步骤s705，通过进程间通信的方式将完整的序列化模型发送至位于同一台机器上的36个交互进程，并在每个交互进程上执行反序列化处理，得到可以和虚拟环境进行交互的原始模型；
102.步骤s706，通过原始模型和虚拟环境进行交互，得到训练数据，并将训练数据发送至训练机器；
103.步骤s707，模型训练机器通过训练数据对深度强化学习模型进行训练。
104.在本公开示例实施例所提供的方法中，发送一次模型时整个集群的网络流量仅为中间节点数量
×
模型大小，并且可以通过灵活地增加中间节点的数量来大幅降低单台机器的网络带宽压力，相比树形分发方案更具优势；并且，将本实施例和树形分发方法进行了比对，使用同样的方法实现了树形分发的结构。
105.具体的，在实际应用中，分别测试了两种方法在不同机器数量(100台与298台)的情况下，每秒钟传输20mb大小的模型个数。每次模型传输均是在分发进程确认了上一次的完整模型被所有交互进程接收到之后立即进行。测试结果具体可以如下表1所示：
[0106][0107]
其中，每个实验均已将中间节点数m调整至最优。
[0108]
测试结果表明，在20mb大模型的传输效率上，本公开示例实施例所记载的方法有较大优势，交互机器规模越大，优势越明显。当机器规模达到298台时，传输效率相较树形分发提升约46％。
[0109]
依据表1数据，计算交互机器台数为298时，各台包含中间节点的交互机器转发模型时占用的带宽如下表2所示：
[0110][0111]
可以看出，本发明的传输方案对于网络带宽的配置要求更低。
[0112]
至此，可以得知：本公开示例实施例所记载的深度强化学习模型的处理方法，无论系统规模多大，在每次模型传输过程中，训练机器和所有交互机器之间的数据传输量和模型本身大小保持一致，进而可以在drl模型越来越复杂的情况下，获得更强大的智能体，且不容易达到网络的带宽上限；并且，模型碎片的传输相较传输整个模型耗时更短，先收到碎
片的中间节点可以率先进行转发，从而降低了从模型发送开始到所有节点均收到完整模型的整体耗时；同时，中间节点个数m可调，可以根据模型大小、交互机器总数n调整m的大小，以取得更优的传输效率。
[0113]
本公开示例实施例还提供了一种深度强化学习模型的处理装置，配置于具有模型训练机器以及交互机器的模型训练系统。参考图8所示，所述深度强化学习模型的处理装置可以包括模型划分模块810、碎片拼接模块820、训练数据生成模块830以及模型训练模块840。其中：
[0114]
模型划分模块810可以用于通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各所述模型碎片发送至中间节点；
[0115]
碎片拼接模块820可以用于通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，并将所述完整的序列化模型发送至所述交互机器中；
[0116]
训练数据生成模块830可以用于通过交互机器对所述完整的序列化模型进行反序列化处理，得到所述深度强化学习模型，并通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；
[0117]
模型训练模块840可以用于通过交互机器将所述训练数据发送至所述模型训练机器，并通过所述模型训练机器通过所述训练数据对所述深度强化学习模型进行训练。
[0118]
在本公开的一种示例性实施例中，对深度强化学习模型进行划分，得到多个模型碎片，包括：
[0119]
计算所述中间节点的节点数量，并根据所述节点数量确定所述深度强化学习模型所能划分的碎片数量；
[0120]
根据所述碎片数量对所述深度强化学习模型进行等份划分，得到多个模型碎片。
[0121]
在本公开的一种示例性实施例中，通过模型分发进程将各所述模型碎片发送至中间节点，包括：
[0122]
通过预设的分布式执行引擎启动所述模型分发进程；
[0123]
对所述模型碎片进行编码，并基于所述模型碎片的碎片编码的顺序，通过模型分发进程将各所述模型碎片一对一的发送至所述中间节点。
[0124]
在本公开的一种示例性实施例中，通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，包括：
[0125]
通过所述中间节点对自身接收到的当前模型碎片转发至除开自身以外的其他节点，并接收其他节点发送的除当前模型碎片以外的其他所有模型碎片；
[0126]
根据当前模型碎片以及其他所有模型碎片的碎片编码对所述当前模型碎片以及其他所有模型碎片进行排序；
[0127]
对排序后的当前模型碎片以及其他所有模型碎片进行拼接，得到完整的序列化模型。
[0128]
在本公开的一种示例性实施例中，将所述完整的序列化模型发送至所述交互机器中，包括：
[0129]
通过所述中间节点所具有的进程间通信的方式，将所述完整的序列化模型发送至所述交互机器中包括的交互进程上。
[0130]
在本公开的一种示例性实施例中，通过所述深度强化学习模型与预设的虚拟环境
进行交互，得到训练数据，包括：
[0131]
通过所述深度强化学习模型与预设的虚拟环境进行交互，得到多个交互序列，其中，所述交互序列包括多个采样数据，每一个所述采样数据包括所述预设的虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值；
[0132]
根据各所述交互序列，生成所述训练数据。
[0133]
在本公开的一种示例性实施例中，通过所述训练数据对所述深度强化学习模型进行训练，包括：
[0134]
针对所述训练数据中的每一采样数据，确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值，以及在所述采样数据对应的决策策略下所述优势函数值的优势期望；
[0135]
针对所述训练数据中的每一采样数据，根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数，确定所述采样数据对应的动作价值；
[0136]
基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息，并根据所述更新梯度信息对所述深度强化学习模型进行更新。
[0137]
上述深度强化学习模型的处理装置中各模块的具体细节已经在对应的深度强化学习模型的处理方法中进行了详细的描述，因此此处不再赘述。
[0138]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0139]
此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。
[0140]
在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。
[0141]
所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。
[0142]
下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0143]
如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930以及显示单元940。
[0144]
其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元910执行，使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元910可以执行如图3中所示的步骤s310：通过模
型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各所述模型碎片发送至中间节点；步骤s320：通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，并将所述完整的序列化模型发送至所述交互机器中；步骤s330：通过所述交互机器对所述完整的序列化模型进行反序列化处理，得到所述深度强化学习模型，并通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；步骤s340：通过所述交互机器将所述训练数据发送至所述模型训练机器，并通过所述模型训练机器通过所述训练数据对所述深度强化学习模型进行训练。
[0145]
存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(rom)9203。
[0146]
存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0147]
总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0148]
电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0149]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd
‑
rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
[0150]
在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0151]
根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(cd
‑
rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0152]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0153]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0154]
可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0155]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0156]
此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。
[0157]
本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于特征识别的事件提示方法、装置、设备及存储介质与流程

深度强化学习模型的处理方法及装置、介质、电子设备与流程

相关文献

最热文献