深度强化学习模型的处理方法及装置、介质、电子设备与流程

2021-12-13 00:45:00 来源：中国专利 TAG：

技术特征：
1.一种深度强化学习模型的处理方法，其特征在于，配置于具有模型训练机器以及交互机器的模型训练系统，所述方法包括：通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各所述模型碎片发送至中间节点；通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，并将所述完整的序列化模型发送至所述交互机器中；通过所述交互机器对所述完整的序列化模型进行反序列化处理，得到所述深度强化学习模型，并通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；通过所述交互机器将所述训练数据发送至所述模型训练机器，并通过所述模型训练机器通过所述训练数据对所述深度强化学习模型进行训练。2.根据权利要求1所述的深度强化学习模型的处理方法，其特征在于，对深度强化学习模型进行划分，得到多个模型碎片，包括：计算所述中间节点的节点数量，并根据所述节点数量确定所述深度强化学习模型所能划分的碎片数量；根据所述碎片数量对所述深度强化学习模型进行等份划分，得到多个模型碎片。3.根据权利要求1所述的深度强化学习模型的处理方法，其特征在于，通过模型分发进程将各所述模型碎片发送至中间节点，包括：通过预设的分布式执行引擎启动所述模型分发进程；对所述模型碎片进行编码，并基于所述模型碎片的碎片编码的顺序，通过模型分发进程将各所述模型碎片一对一的发送至所述中间节点。4.根据权利要求1所述的深度强化学习模型的处理方法，其特征在于，通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，包括：通过所述中间节点对自身接收到的当前模型碎片转发至除开自身以外的其他节点，并接收其他节点发送的除当前模型碎片以外的其他所有模型碎片；根据当前模型碎片以及其他所有模型碎片的碎片编码对所述当前模型碎片以及其他所有模型碎片进行排序；对排序后的当前模型碎片以及其他所有模型碎片进行拼接，得到完整的序列化模型。5.根据权利要求1所述的深度强化学习模型的处理方法，其特征在于，将所述完整的序列化模型发送至所述交互机器中，包括：通过所述中间节点所具有的进程间通信的方式，将所述完整的序列化模型发送至所述交互机器中包括的交互进程上。6.根据权利要求1所述的深度强化学习模型的处理方法，其特征在于，通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据，包括：通过所述深度强化学习模型与预设的虚拟环境进行交互，得到多个交互序列，其中，所述交互序列包括多个采样数据，每一个所述采样数据包括所述预设的虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值；根据各所述交互序列，生成所述训练数据。7.根据权利要求6所述的深度强化学习模型的处理方法，其特征在于，通过所述训练数
据对所述深度强化学习模型进行训练，包括：针对所述训练数据中的每一采样数据，确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值，以及在所述采样数据对应的决策策略下所述优势函数值的优势期望；针对所述训练数据中的每一采样数据，根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数，确定所述采样数据对应的动作价值；基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息，并根据所述更新梯度信息对所述深度强化学习模型进行更新。8.一种深度强化学习模型的处理装置，其特征在于，配置于具有模型训练机器以及交互机器的模型训练系统，所述装置包括：模型划分模块，用于通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各所述模型碎片发送至中间节点；碎片拼接模块，用于通过所述中间节点对所述模型碎片进行拼接，得到完整的序列化模型，并将所述完整的序列化模型发送至所述交互机器中；训练数据生成模块，用于通过交互机器对所述完整的序列化模型进行反序列化处理，得到所述深度强化学习模型，并通过所述深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；模型训练模块，用于通过交互机器将所述训练数据发送至所述模型训练机器，并通过所述模型训练机器通过所述训练数据对所述深度强化学习模型进行训练。9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1
‑
7任一项所述的深度强化学习模型的处理方法。10.一种电子设备，其特征在于，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1
‑
7任一项所述的深度强化学习模型的处理方法。

技术总结
本公开是关于一种深度强化学习模型的处理方法及装置、介质、电子设备，涉及人工智能技术领域，该方法包括：通过模型训练机器对深度强化学习模型进行划分，得到多个模型碎片，并通过模型分发进程将各模型碎片发送至中间节点；通过中间节点对模型碎片进行拼接，得到完整的序列化模型，并将完整的序列化模型发送至交互机器中；通过交互机器对完整的序列化模型进行反序列化处理，得到深度强化学习模型，并通过深度强化学习模型与预设的虚拟环境进行交互，得到训练数据；通过交互机器将训练数据发送至模型训练机器，并通过模型训练机器通过训练数据对深度强化学习模型进行训练。本公开提高了模型的分发效率。提高了模型的分发效率。提高了模型的分发效率。

技术研发人员：洪伟峻申瑞珉林悦
受保护的技术使用者：网易（杭州）网络有限公司
技术研发日：2021.09.10
技术公布日：2021/12/12

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于特征识别的事件提示方法、装置、设备及存储介质与流程

深度强化学习模型的处理方法及装置、介质、电子设备与流程

相关文献

最热文献