一种模型训练设备、方法、装置及介质与流程

2021-10-29 20:28:00 来源：中国专利 TAG：模型训练互联网方法人工智能

1.本技术涉及互联网技术领域，具体涉及人工智能技术领域，尤其涉及一种模型训练设备、一种模型训练方法、一种信息展示方法、一种模型训练装置、及一种计算机存储介质。

背景技术：

2.在信息展示场景，比如广告展示场景中，信息提供方可以通过两种方式在信息处理系统上投放信息，分别为通过约定展示数量的方式投放，以及，通过竞价方式投放。
3.在相关技术中，对于按照不同方式投放的两种信息，信息处理系统对这两种信息的展示分别进行控制。比如，信息处理系统首先预测系统中的信息展示机会，并将预测得到信息展示机会分配给按照不同方式投放的两种信息；当一个信息展示机会来临时，信息处理系统在对应投放方式的信息中选择一个信息进行展示。
4.然而，上述对这两种信息的展示分别进行控制的方案会导致系统中的信息展示机会得不到充分利用，进而导致信息展示的网络资源利用率较差。
5.可见，如何提高信息展示的网络资源利用率，成为一个亟待解决的问题。

技术实现要素：

6.本技术实施例提供了一种模型训练设备、方法、装置及介质，可在强化学习模型的训练过程中，并行处理日志数据环境的探索和强化学习模型的训练，有利于加快强化学习模型的训练速度。
7.一方面，本技术实施提供一种模型训练设备，所述模型训练设备中部署有维护策略网络的第一处理模块，以及维护强化学习模型的第二处理模块，其中：
8.所述第一处理模块，用于通过维护的策略网络从日志数据环境中获取目标样本信息；
9.所述第二处理模块，用于获取训练数据，并通过所述训练数据对强化学习模型进行第一迭代训练，并将第一迭代训练后得到的网络优化参数写入网络参数共享区，所述网络优化参数是指所述强化学习模型中包括的策略网络经过所述第一迭代训练后得到的参数；所述训练数据为多个所述目标样本信息；
10.所述第一处理模块，还用于从所述网络参数共享区中获取所述网络优化参数，并将所述第一处理模块维护的策略网络的参数更新为所述网络优化参数；通过更新后的策略网络再次从所述日志数据环境中获取目标样本信息；
11.所述第二处理模块，还用于获取训练数据，并通过所述训练数据对经过所述第一迭代训练后的强化学习模型进行第二迭代训练，根据第二迭代训练得到目标强化学习模型。
12.另一方面，本技术实施例提供了一种模型训练方法，该方法包括：
13.通过第一处理模块维护的策略网络从日志数据环境中获取目标样本信息；
14.调用第二处理模块获取训练数据，并通过所述训练数据对强化学习模型进行第一迭代训练，并将第一迭代训练后得到的网络优化参数写入网络参数共享区，所述网络优化参数是指所述强化学习模型中包括的策略网络经过所述第一迭代训练后得到的参数；所述训练数据为多个所述目标样本信息；
15.通过所述第一处理模块从所述网络参数共享区中获取所述网络优化参数，将所述第一处理模块维护的策略网络的参数更新为所述网络优化参数，调用更新后的策略网络再次从所述日志数据环境中获取目标样本信息；
16.调用所述第二处理模块获取训练数据，并通过所述训练数据对经过所述第一迭代训练后的强化学习模型进行第二迭代训练；
17.根据第二迭代训练得到目标强化学习模型，并将所述目标强化学习模型中的策略网络确定为目标策略网络。
18.另一方面，本技术实施例提供了一种模型训练装置，该模型训练装置包括：
19.样本获取单元，用于通过第一处理模块维护的策略网络从日志数据环境中获取目标样本信息；
20.模型训练单元，用于调用第二处理模块获取训练数据，并通过所述训练数据对强化学习模型进行第一迭代训练，并将第一迭代训练后得到的网络优化参数写入网络参数共享区，所述网络优化参数是指所述强化学习模型中包括的策略网络经过所述第一迭代训练后得到的参数；所述训练数据为多个所述目标样本信息；
21.所述样本获取单元，还用于通过所述第一处理模块从所述网络参数共享区中获取所述网络优化参数，将所述第一处理模块维护的策略网络的参数更新为所述网络优化参数，调用更新后的策略网络再次从所述日志数据环境中获取目标样本信息；
22.所述模型训练单元，还用于调用所述第二处理模块获取训练数据，并通过所述训练数据对经过所述第一迭代训练后的强化学习模型进行第二迭代训练，根据第二迭代训练得到目标强化学习模型；
23.处理单元，用于将所述目标强化学习模型中的策略网络确定为目标策略网络。
24.相应地，本技术实施例还提供了另一种模型训练设备，该模型训练设备包括通信接口、处理器和存储装置；存储装置，用于存储程序指令；处理器，用于调用程序指令并执行上述的模型训练方法。
25.相应地，本技术实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述的模型训练方法。
26.相应地，根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。模型训练设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该模型训练设备执行上述提供的模型训练方法。
27.本技术实施例中，模型训练设备可在强化学习模型的训练过程中，并行处理日志数据环境的探索和强化学习模型的训练，加快强化学习模型的训练速度，并依照训练完成的强化学习模型得到目标策略网络，以便于后续通过目标策略网络为信息展示提供决策，使得信息展示机会能够得到充分的利用，提高信息展示的网络资源利用率。
附图说明
28.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
29.图1是本技术实施例提供的一种状态数据的示意图；
30.图2是本技术实施例提供的一种现有强化学习模型训练的流程示意图；
31.图3是本技术实施例提供的一种信息处理系统的结构示意图；
32.图4是本技术实施例提供的一种模型训练方法的流程示意图；
33.图5是本技术实施例提供的一种分布式强化学习框架的结构示意图；
34.图6是本技术实施例提供的一种信息展示的流程示意图；
35.图7是本技术实施例提供的一种系统框架的结构示意图；
36.图8是本技术实施例提供的一种库存与广告之间的对应关系图；
37.图9是本技术实施例提供的一种模型训练装置的结构示意图；
38.图10是本技术实施例提供的一种模型训练设备的结构示意图。
具体实施方式
39.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
40.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
41.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
42.其中，机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
43.强化学习(reinforcement learning，rl)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
44.强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：
45.如果agent的某个行为策略导致环境产生正的奖赏(强化信号)，那么agent以后产生这个行为策略的趋势便会加强。agent的目标是在每个离散状态发现最优策略，以使期望的折扣奖赏和最大。
46.强化学习把学习看作试探评价过程，agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给agent，agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。
47.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，以及本方案所涉及的信息展示领域，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
48.在信息展示领域中，待展示的信息通常为不同类别的信息，在需要进行信息展示时，如何从不同类别的信息中选取一个目标信息进行展示，使得系统中的信息展示机会得到充分利用，从而提高信息展示的网络资源利用率，成为一个研究热点。其中，不同类别的待展示信息可以包括第一类型信息和第二类型信息；第一类型信息是具有展示次数要求的信息，第二类型信息是通过资源付出来竞争展示机会的信息。以广告展示系统为例，上述第一类型信息可以为合约广告，第二类型信息可以为竞价广告。
49.在一种实现场景中，广告主与媒体方签订一个合约，媒体方在指定时间内向广告主指定类型的用户播放一定量(预定量)的广告，如果合约达成，广告主付给媒体一定的费用，播放量不达标媒体需要赔付广告主；播放量超过预定量不会收取额外费用。通过这样的方式曝光的广告称为合约广告。
50.在另一种实现场景中，广告主对于定向相同的请求会给出一个出价，同一个请求会有多个广告主出价，出价最高的广告主会竞争胜出获得本次请求的曝光，通过这样的方式曝光的广告称为竞价广告。
51.在一个实施例中，为了提高信息展示的网络资源利用率，可以采用比例微积分(proportion integral differential，pid)算法方案和强化学习方案等等，其中：
52.pid算法方案是对不同类别的待展示信息进行混排，通过线上的实时反馈来决定各待展示信息的得分，从而选取一个得分最高的信息作为展示的目标信息，这种方案过度依赖反馈的时效性，理论上，当反馈时延不存在时，可以达到非常好的效果，但是实际系统时延很大，造成时延的因素很多，比如系统处理时间，比如其他任务对计算资源的挤占，一般来说，反馈延迟都在1分钟以上，这就造成了效果的下降。其次，pid算法方案没有直接通过对整体收益的计算提供最优方案，存在较大提升空间。
53.强化学习方案能够解决pid算法方案存在的问题，强化学习是指通过agent对日志数据环境(本技术实施例中可以简称为环境)的探索，给出当前状态下每一种策略的得分，最终学习达到最优策略。比如，在本技术实施例涉及的对两种不同广告的混排场景(以下简称广告混排场景)下，日志数据环境是指：每条历史信息展示请求对应的精排队列构成的样本集，奖励函数值(reward)是系统整体收益。其中，任一条历史信息展示请求对应的精排队列可理解为与该任一条历史信息展示请求匹配的所有广告构成的队列，精排队列中可以同
时包含合约广告和竞价广告。
54.在一种可能的实现方式中，强化学习模型可以为基于扮演者
‑
评价者(actor
‑
critic，ac)算法的模型(以下简称ac模型)，强化学习模型中包含扮演者网络(即策略网络(actor))和评价者网络(即价值网络(critic))，强化学习模型可以产生多个agent，每个agent各自独立的探索环境，异步返回reward更新一个共享的网络。其中，策略网络负责给出当前状态下的动作，价值网络负责预测当前状态下到结束时刻能获得的总收益(或者也可以理解为长期受益)。其中，上述agent在本技术实施例中可以指第一处理模块，第一处理模块为部署有第一进程的模块，每一个第一处理模块通过自身部署的第一进程独立探索环境。
55.强化学习的关键在于3点：1、动作定义；2、状态数据的定义；3、reward设置。其中：
56.动作
57.本专利所描述广告混排场景中的动作就是广告在当前状态下的打分。
58.状态数据
59.状态数据反映的是agent做出动作的原因，状态数据必须能足够表征当前的环境，使得不同状态之间有足够的区分度，该状态数据包括信息级数据、整体数据和流量维度特征数据中的至少一种。
60.该信息级数据包括：对应的信息的标识、对应的信息展示位的标识、对应的信息的已播放量、对应的信息的播放量要求、对应的信息的播放速度、以及对应的信息的播放量上限中的至少一种。
61.该整体数据包括：系统中的第一类型信息的整体缺量率、系统中的该第一类型信息的平均点击率、系统中的该第二类型信息的平均点击率、以及系统中的该第二类型信息的平均资源付出量中的至少一种。
62.该流量维度特征包括：对应的信息展示请求匹配的地域数据、对应的信息展示请求匹配的性别数据、以及对应的信息展示请求匹配的年龄数据中的至少一种。
63.其中，本技术实施例仅以上述信息级数据、整体数据和流量维度特征数据包含的信息为例进行说明，上述信息级数据、整体数据和流量维度特征数据包括但不限于以上列举的数据。示例性，在广告混排场景下，上述状态数据可以如图1所示，图1中的广告特征即为上述信息数据、整体特征即为上述整体数据、pac特征即为上述流量维度特征，pac指的是每个请求的维度，比如某个请求是上海30岁男性，那么该请求对应的pac特征就是(上海，男性，30岁)。
64.reward
65.reward设计是强化学习最核心的部分，一个好的reward应该既可以反映任务目标，又可以易于收敛。在本技术实施例涉及的广告混排场景下，广告展示系统整体收益包括合约保量、合约击率和竞价ecmp这三个部分，其中，合约保量通过日志数据环境中的第一类型信息的整体缺量率来表示，合约击率通过日志数据环境中的该第一类型信息的平均点击率的得分来表示，竞价ecmp是日志数据环境中的该第二类型信息的平均资源付出量的得分来表示，ecmp为每千次曝光的期望收益，就是一个广告展示一千次后的收入。
66.其中，日志数据环境中的第一类型信息的整体缺量率，可以通过各个第一类型信息的已播放量和应播放量获得；上述第一类型信息的平均点击率可以通过对预测得到的第
一类型信息的点击率取平均值后获得；上述第二类型信息的平均资源付出量可以通过对第一类型信息的预测资源付出量取平均值后获得。上述资源付出量，可以是竞价广告对各个信息展示请求对应的展示机会的出价。
67.可以理解的是，混排的本质是将不同类别的待展示信息的收益同等看待，不同类别的待展示信息互相博弈，达到系统全局最优。以广告展示领域为例，混排的本质是将合约广告和竞价广告收益同等看待，合约广告和竞价广告互相博弈，达到系统全局最优，这种情况下，需要一个根据环境给出最优的广告选择策略的算法，而探索和博弈的思想，最契合的就是强化学习。强化学习通过agent对环境(合约竞价竞争环境)的探索，给出整体收益最高时的解法，可以进一步提升整体收益，使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。但是强化学习方案存在一个致命问题，强化学习模型的训练需要遵循串行的步骤，训练速度较慢。
68.示例性地，以强化学习模型为ac模型为例，强化学习模型中包含扮演者网络(即策略网络(actor))和评价者网络(即价值网络(critic))，参见图2，其具体训练步骤包括：
69.s10：agent通过初始化的策略网络不断探索环境，每次生成一个样本，写入样本池，直到样本池(样本池大小一般设置为10000)写满。
70.s11：从样本池随机抽取一个batch的样本，训练actor和critic网络。
71.s12：agent通过训练后的actor网络探索环境，产生一个样本，写入样本池，并随机替换其中的一个样本。
72.重复执行上述步骤s11
‑
s12直到模型收敛。
73.从上述内容可以看出，现在的强化学习模型训练方案是串行方案，探索环境时不能训练，训练时不能探索环境，模型的训练效率低下。
74.为了解决强化学习模型训练效率低下的问题，本技术提出了一种信息处理系统，并基于该信息处理系统提出了一种模型训练方法，该模型训练方法可由模型训练设备执行，该模型训练设备为服务器或者终端设备。作为一种可行的方式，参见图3，信息处理系统可包括信息展示类客户端和服务器，该服务器可以为信息展示类客户端的后台服务器(例如：web服务器、应用服务器、数据处理服务器)，用于为信息展示类客户端提供信息展示决策服务、强化模型训练等多种服务，以支撑客户端的运行；其可包括以下任一项：web服务器、应用服务器、数据处理服务器，此处的服务器可以指一台物理服务器或者服务器集群。上述信息展示类客户端，用于向用户提供信息展示界面；其可包括以下至少一种：app(application，应用程序)、网页(如运行在终端设备内的浏览器中以展现给用户浏览的网页、h5网页等)，等等。这种情况下，模型训练方法可由信息处理系统中的服务器(也即，执行模型训练方法的上述模型训练设备为信息处理系统中的服务器)执行。
75.在实际应用场景中，服务器可通过本技术实施例提出的模型训练方法对强化学习模型(该强化学习模型包括策略网络和价值网络)进行训练，直到强化模型学习模型收敛，得到目标强化学习模型，并将目标强化学习模型中的策略网络确定为目标策略网络。后续，服务器可以接收来自信息展示类客户端的信息展示请求，并通过强化学习得到的目标策略网络，从两种不同类型的信息中选择一个信息作为目标信息进行展示，从而实现对两种类型信息的混合控制，从而使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。
76.或者，作为另一种可行的方式，信息处理系统还可以仅包括终端设备，此种情况下，本技术实施例提出的模型训练方法，可以由终端设备(也即，执行模型训练方法的上述模型训练设备为信息处理系统中的终端设备)执行，该终端设备可以指具有网络连接功能，且安装有信息展示类应用程序的终端设备，例如终端设备可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、mp3播放器(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑等等。可选的，该终端设备还可能被称为用户设备、便携式终端、膝上型终端、台式终端等。
77.在本技术实施例中，上述信息展示类应用程序可以包括任意提供信息推荐位置的应用程序，比如，包括且不限于视频播放应用程序、视频直播应用程序、新闻类应用程序、阅读类应用程序、音乐播放类应用程序、社交类应用程序、游戏类应用程序、通信类应用程序、浏览器类应用程序、以及终端系统自带的应用程序等等。
78.在一个实施例中，上述模型训练设备中部署有维护策略网络的第一处理模块、维护强化学习模型的第二处理模块以及中心处理模块，该强化学习模型包括策略网络和价值网络，其中：
79.第一处理模块，用于通过维护的策略网络从日志数据环境中获取历史信息展示请求对应的目标样本信息；其中，日志数据环境包括多个历史信息展示请求各自对应的展示样本信息，该展示样本信息对应的展示样本包括第一类型信息和第二类型信息；在广告混排场景下，上述信息处理系统可以指广告展示系统，第一类型信息可以为合约广告，第二类型信息可以为竞价广告，任一历史信息展示请求对应的任一展示样本信息包括：广告系统响应所述任一历史信息展示请求所展示的广告(即展示样本)、展示该广告对应的整体收益、以及响应所述任一历史信息展示请求时，与该任一历史信息展示请求匹配的精排队列中各广告当前的状态数据。示例性地，该状态数据可以包括如图1所示的多种数据。
80.上述历史信息展示请求对应的目标样本信息为：第一处理模块通过自身维护的策略网络探索日志数据环境，从日志数据环境中得到的。具体实现中，第一处理模块可以通过自身维护的策略网络不断探索日志数据环境，从目标数据环境中确定各个历史信息展示请求各自对应的目标样本信息，一个历史信息展示请求对应一个目标样本信息。以下以目标历史信息展示请求(即任一历史信息展示请求)为例，说明第一处理模块探索日志数据环境，从日志数据环境中获取目标样本信息的实施方式，包括：
81.从日志数据环境中获取目标历史信息展示请求对应的目标展示样本信息，通过第一处理模块维护的策略网络对该目标展示样本信息进行处理，获得针对目标历史信息展示请求的样本评分策略。其中，目标展示样本信息包括：响应目标历史信息展示请求所展示的目标历史样本、展示目标历史样本对应的整体收益、与该目标历史信息展示请求匹配的精排队列中各候选样本的状态数据；样本评分策略指示了在目标历史信息展示请求下，目标历史样本和各候选样本的展示得分。在广告展示场景下，假设目标历史信息展示请求为一条历史广告请求，目标展示样本信息包括：响应该历史广告请求所展示的目标历史广告、展示目标历史广告所带来的整体收益、响应历史广告请求可展示的各候选广告的状态数据。
82.进一步地，在确定出样本评分策略后，可以依照样本评分策略从与目标历史信息展示请求匹配的多个候选样本中确定目标样本(例如选取展示得分最高的候选样本作为目
标样本)以及目标样本的展示得分，进而根据目标样本和目标样本的展示得分，生成上述目标历史信息展示请求对应的目标样本信息。其中，目标样本信息可以包括：目标样本、目标样本的展示得分、展示该目标样本对应的整体收益，以及策略网络做出上述样本评分策略，所依据的目标历史信息展示请求对应的精排队列中各广告的状态数据。
83.第二处理模块，用于获取训练数据，并通过训练数据对强化学习模型进行第一迭代训练，并将第一迭代训练后得到的网络优化参数写入网络参数共享区，网络优化参数是指强化学习模型中包括的策略网络经过第一迭代训练后得到的参数，其中，上述训练数据为多个目标样本信息(可以理解为一个batch的目标样本信息)；
84.第一处理模块，还用于从网络参数共享区中获取网络优化参数，将第一处理模块维护的策略网络的参数更新为网络优化参数，并通过更新后的策略网络再次从日志数据环境中获取目标样本信息。
85.进一步地，第二处理模块，还用于继续获取训练数据，并通过训练数据对经过第一迭代训练后的强化学习模型进行第二迭代训练，根据第二迭代训练得到目标强化学习模型。
86.在一个实施例中，上述第一迭代训练和第二迭代训练均可以指m次的迭代训练，例如第一迭代训练可以指第一个m次的迭代训练，第二迭代训练可以指第二个m次的迭代训练，其中，m为大于0的整数，可以根据实验测算数据预先设置，例如为1000，m用于表征每迭代训练m次，将网络优化参数(即强化学习模型中策略网络的网络参数)写入网络参数共享区一次。
87.具体实现中，在模型训练设备对强化学习模型的训练的过程中，第一处理模块可以不断的通过自身维护的策略网络探索日志数据环境，从日志数据环境中获取目标样本信息；第二处理模块可以不断地获取多个目标样本信息作为训练数据，并依照训练数据对自身维护的一个完整的强化学习模型进行迭代训练，每迭代训练m次，则将当前m次迭代训练得到的网络优化参数写入网络参数共享区，直至强化学习模型收敛，则停止模型训练。在模型训练之前，第一处理模块可以不断的从网络参数共享区中获取上述网络优化参数，依照网络优化参数更新自身维护的策略网络的网络参数，并依照更新后的策略网络再次从探索日志数据环境，从日志数据环境中获取目标样本信息，如此循环往复，直至模型停止训练，得到目标强化学习模型。
88.中心处理模块，用于将目标强化学习模型中的策略网络确定为目标策略网络，该目标策略网络，用于确定与信息展示请求匹配的各候选信息的展示得分，该展示得分用于指示对应候选信息被推送至信息展示请求对应的信息展示位上进行展示的概率。具体地，当后续接收到一个信息展示请求时(该信息展示请求用于请求在指定的信息展示位上展示信息)，可获取与信息展示请求匹配的多个候选信息，通过目标策略网络确定各候选信息的展示得分，并基于各候选信息的展示得分获取目标信息(例如将展示得分最高的候选信息确定为目标信息)，将目标信息推送至指定的信息展示位进行展示。采用这样的方式，可从候选信息中选择目标信息进行展示，使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。
89.请参见图4所示，通过上述模型训练设备执行的模型训练方法，可包括以下步骤s401
‑
s405：
90.s401：通过第一处理模块维护的策略网络从日志数据环境中获取历史信息展示请求对应的目标样本信息。
91.在一个实施例中，第一处理模块还维护有对应的样本共享区，模型训练设备可以通过第一处理模块维护的策略取网络不断探索日志数据环境，从日志数据环境中获取目标样本信息，每探索到k个目标样本信息，则写入一次自身维护的样本共享内存。其中，k为大于0的整数，可以基于实验测试数据预先设置，例如为2000，k的具体数值用于表征一次写入样本共享内存的目标样本信息的个数。
92.在一个实施例中，模型训练设备可以依照循环写入的方式将目标样本信息写入第一处理模块对应的样本共享区，当样本共享区写满后，从头部覆盖最老的目标样本信息。
93.s402：调用第二处理模块获取训练数据，并通过训练数据对强化学习模型进行第一迭代训练，并将第一迭代训练后得到的网络优化参数写入网络参数共享区，网络优化参数是指强化学习模型中包括的策略网络经过第一迭代训练后得到的参数。此处的训练数据为多个上述目标样本信息。
94.参见图2可以看出，在传统的强化学习模型(该强化学习模块包括策略网络和价值网络)训练过程中，是通过一个策略网络独立探索日志数据环境，从中获取样本(即历史信息展示请求对应目标样本信息)并写入样本池，后续可从样本池中抽取一个batch的样本训练强化学习模型中的策略网络和价值网络。以一次训练为例说明传统强化学习模型的训练过程：每一次训练可向强化学习模型输入一个目标历史信息展示请求对应的样本，强化学习模型中的策略网络可以对历史信息展示请求对应的样本进行处理，确定目标样本评分策略，该目标样本评分策略用于指示与历史信息展示请求匹配的各候选信息的展示得分。进一步地，价值网络可以对策略网络输出的上述目标样本评分策略进行评价，并向策略网络返回评价结果，策略网络可基于该评价结果更新自身的网络参数。对于策略网络，则需借助于loss(损失函数)，依照loss下降的方向更新策略网络的网络参数。
95.其中，上述loss可参见式1.1：
[0096][0097]
其中，x是当前的状态，a为在当前状态下所作出的动作，π是策略，在本技术实施例中，以当前次训练输入的样本为一个目标历史信息展示请求对应的目标样本信息为例，当前的状态是指接收到目标历史信息展示请求时，与目标历史信息展示请求匹配的各候选信息的状态数据；当前状态下所作出的目标动作是指对各候选信息进行打分的动作，策略是指上述目标样本评分策略，用于指示各候选信息的展示得分。
[0098]
式1.1中，q
π
(x,a)表示当前状态下作出目标动作后未来的长期收益，r(x,a)表示当前状态下作出目标动作后的即时收益。
[0099]
通过上述内容可知，传统针对价值网络的每一次训练，均需计算当前次训练所输入样本对应的q值(例如上述q
π
(x,a)等等)。但在本技术实施例中，模型训练设备中可以包括多个第一处理模块(可参见图5所示)，每一个第一处理模块用于维护一个单独的策略网络，每一个第一处理模块可以独立执行上述从日志数据环境中获取历史信息展示请求对应目标样本信息的步骤，也即，每一个第一处理模块可独立探索日志数据环境，并从中获取样本。在此过程中，虽然各第一处理模块探索的是相同的日志数据环境，但由于各第一处理模
块探索日志数据环境的执行时间存在些许差异或者其它因素，会导致各第一处理模块探索得到的样本分布存在差别(例如针对同一个历史信息展示请求，所探索到的样本不同)。这种情况下，后续获取样本作为训练数据对强化学习模型进行训练时，可能会出现两次获取的样本来源于两个不同的第一处理模块的情况，如果沿用上述loss对强化学习中的价值网络进行训练，可能会导致策略震荡，模型训练困难。
[0100]
在实践中发现，虽然本技术实施例中，每个第一处理模块异步探索得到的样本分布存在差异，但综合每个第一处理模块后，样本的整体分布是一致的。因此，为了克服通过上述loss对价值网络进行训练所存在的问题，本技术实施例可在价值网络的训练过程中不再考虑价值q，而是价值的整体分布。
[0101]
具体地，本技术实施例中，一次训练所需的训练数据包括多个目标样本信息，以通过训练数据对强化学习模型进行第一迭代训练进行说明：可通过强化学习模型中的策略网络对训练数据中目标样本信息进行处理，获取目标样本评分策略。进一步地，通过强化学习模型中的价值网络，确定目标样本评分策略的评价结果以及价值分布结果，并依照评价结果更新强化学习模型中策略网络的网络参数，依照价值分布结果更新强化学习模型中价值网络的网络参数。
[0102]
其中，通过依照价值分布结果(以下简称价值分布)更新强化学习模型中价值网络的网络参数的具体方式包括：计算价值分布与目标价值分布之间的距离d，并根据该距离计算价值网络的目标损失函数loss1的函数值。示例性地，loss1的具体计算公式可参见式1.2：
[0103][0104]
其中，为价值网络确定的价值分布，此处的q
π
(x,a)＝ez
π
(x,a)，z代表的是各目标样本评分策略的分布，其他不变；(z
w
(x,a)即为上述目标价值分布，也可理解为最优价值分布，为预先确定的。
[0105]
进一步地，在确定上述目标损失函数loss1的函数值之后，可以依照loss1下降的方向更新价值网络的网络参数。
[0106]
在一个实施例中，可以对第一处理模块维护的样本共享区设置内存标识，该内存标识包括可读标识(例如1)和禁读标识(例如0)，具体地，若样本共享区正在写入数据或者剩余存储空间大于指定阈值，则样本共享区的内存标识为禁读标识；若样本共享区写入数据完成，且样本共享区的剩余空间为0(即表征样本共享区已写满)，则样本共享区的内存标识为可读标识。其中，上述指定阈值为根据实验数据预先设置，例如可以为0，样本共享区剩余存储空间大于0，则表征样本共享区未写满。
[0107]
在一个实施例中，第一处理模块包括多个，每一个第一处理模块用于维护对应的一个策略网络和样本共享区，上述调用第二处理模块获取训练数据的具体实施方式为：
[0108]
调用第二处理模块轮询各样本共享区，若检测到任一样本共享区的内存标识为可读标识，则将任一样本共享区确定为可读的样本共享区，进一步地，可从可读的样本共享区中获取多个目标样本信息，并将多个目标样本信息确定为训练数据。
[0109]
s403：通过第一处理模块从网络参数共享区中获取网络优化参数，将第一处理模块维护的策略网络的参数更新为网络优化参数，调用更新后的策略网络再次从日志数据环
境中获取目标样本信息。
[0110]
在一个实施例中，模型训练设备可以通过第一处理模块不断拉取网络参数共享区中的网络优化参数(可以理解为策略网络当前最新的网络参数)，通过网络优化参数更新自身维护的策略网络，并通过更新后的策略网络继续探索日志数据环境，从日志数据环境中获取新的目标样本信息，如此循环往复，直至模型停止训练，得到目标强化学习模型。
[0111]
s404：调用第二处理模块获取训练数据，并通过训练数据对经过第一迭代训练后的强化学习模型进行第二迭代训练。
[0112]
s405：根据第二迭代训练得到目标强化学习模型，并将目标强化学习模型中的策略网络确定为目标策略网络，该目标策略网络用于确定与信息展示请求匹配的各候选信息的展示得分，展示得分用于指示对应候选信息被推送至信息展示请求对应的信息展示位上进行展示的概率。具体实现中，上述第一迭代训练和第二迭代训练均可以指m次的迭代训练，在模型训练设备对强化学习模型的训练的过程中，第一处理模块可以不断的通过自身维护的策略网络探索日志数据环境，从日志数据环境中获取历史信息展示请求对应的目标样本信息，第二处理模块可以不断地获取多个目标样本信息作为训练数据，并依照训练数据对自身维护的一个完整的强化学习模型进行迭代训练，每迭代训练m次，则将当前m次迭代训练得到的网络优化参数写入网络参数共享区，直至强化学习模型收敛，则停止模型训练，得到目标强化学习模型。
[0113]
在一个实施例中，上述网络参数共享区和样本共享区均可以视为共享内存，共享内存是一个类型固定，且只支持c语言基础类型(tint，float，char等)的一维数组，无论是样本还是tensorflow的网络参数都需要经过处理、编码成规定的格式，才能存入共享内存，这个处理的过程称为序列化；同样，拉取数据的时候也需要经过反编码，处理解析出来，转换为第一处理模块和第二处理模块可以处理的数据。其中，tensorflow为一种深度学习训练包，包含一些数学计算函数。这种情况下，本技术实施例中，写入网络参数共享区和各样本共享区的数据均为经过序列化处理后的数据，上述依照循环写入的方式将目标样本信息写入第一处理模块对应的目标样本共享区的具体实施方式为：对目标样本信息进行序列化处理，以将目标样本信息转换为与样本共享区对应数据类型匹配的数组，依照循环写入的方式将数组写入所述第一处理模块对应的样本共享区。示例性地，该数据类型可以为c语言基础类型。进一步地，后续模型训练设备通过第二处理模块从可读的样本共享区中获取多个目标样本信息时，可以从可读的样本共享区域中获取多个数组，对多个数组进行反序列化处理，得到多个目标样本信息。
[0114]
通过上述内容可知，本技术实施例中，模型训练设备在强化学习模型的训练的过程中，可通过第一处理模块调用自身维护的策略网络不断地探索日志数据环境，从日志数据环境中获取目标样本信息；通过第二处理模块不断地获取多个目标样本信息作为训练数据，并依照训练数据对自身维护的一个完整的强化学习模型进行迭代训练，每迭代训练m次，则将当前m次迭代训练得到的网络优化参数写入网络参数共享区，直至强化学习模型收敛，则停止模型训练。在模型训练之前，模型训练设备可通过第一处理模块不断的从网络参数共享区中获取上述网络优化参数，依照网络优化参数更新自身维护的策略网络的网络参数，并依照更新后的策略网络再次从探索日志数据环境，从日志数据环境中获取目标样本信息，如此循环往复，直至模型停止训练，得到目标强化学习模型，并将目标强化学习模型
中的策略网络确定为目标策略网络。采用这样的模型训练方式，可以在训练过程中并行处理日志数据环境的探索和强化学习模型的训练，有利于提高强化学习模型的训练速度，从而更加快速得到目标策略网络以提供信息展示的最优解法，为后续信息的展示提供决策，使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。
[0115]
为了更好的理解上述模型训练方法的具体实现方式，以模型训练方法应用于图5所示的分布式强化学习框架进行说明，该分布式框架包括第一处理模块和第二处理模块、中心处理模块。其中：
[0116]
第一处理模块：
[0117]
部署有第一进程的模块，不唯一，可启动多个，一般为5个，维护一个单独的actor网络(即策略网络)、日志数据环境、tensorflow上下文。第一处理模块继承第二处理模块的actor网络参数，初始的时候参数是随机初始化的，第一处理模块通过自身维护的actor网络不断的探索环境，将样本(即上述目标样本信息)写入对应的s_memory(即上述样本共享区)中，写的时候标志位置0，写满并写完后置1，每次写完会从anp_memory(即上述网络参数共享区)拉取最新的actor网络参数，更新自身维护的actor网络，然后用最新的参数继续探索环境。其中，tensorflow上下文是指：tensorflow运行后维护的一个环境，自动生成。
[0118]
第二处理模块：
[0119]
部署有第二进程的模块，唯一，不能启动多个，维护一个完整的强化学习模型(actor网络和critic网络)、日志数据环境、tensorflow上下文，第二处理模块只负责训练网络，完成串行结构(参见图1)中的训练步骤，维护两种共享内存结构，一个是s_memory，一个是anp_memory，第二处理模块不断轮询agent维护的s_memory，一旦可以读取，就读取数据，进行训练。然后不断把训练好的actor网络参数推送到anp_memory。
[0120]
s_memory：
[0121]
样本共享区，也可以理解为样本池，每个第一处理模块对应一个单独的样本池，一个样本池由其对应的第一处理模块和第二处理模块共同维护。存在一个标志位flag(即上述内存标识)，作为锁，每次存储完成会置1，正在写入或没有写满时置0。
[0122]
anp_memory：
[0123]
网络参数共享区，负责维护最新的actor网络参数，第二处理模块写入最新的actor网络参数，第一处理模块读取并更新自身的actor网络参数
[0124]
序列化，反序列化：
[0125]
上述s_memory和anp_memory均为共享内存，共享内存是一个类型固定，且只支持c语言基础类型(int，float，char等)的一维数组，无论是样本还是tensorflow的网络参数都需要经过处理、编码成规定的格式，才能存入共享内存，这个处理的过程称为序列化；同样，拉取数据的时候也需要经过反编码，处理解析出来，变成第一处理模块和第二处理模块可以处理的数据。
[0126]
具体实现中，分布式训练步骤如下：
[0127]
中心处理模块(部署有主进程的模块)：
[0128]
获取播放数据，计算当前可播等等数据，并基于这些数据初始化所有的共享内存、参数(例如actor网络参数和critic网络等等。
[0129]
实例化第一进程和第二进程，拉起n(n为大于0的整数)个第一进程和1个第二进
程。具体实现中，可以创建第一进程类和第二进程类，并将第一进程类写入n个第一进程，将第二进程类写入1个第二进程，从而完成n个第一进程和1个第二进程的启动。
[0130]
当强化学习模型收敛后，得到训练完成的actor网络(即目标策略网络)，后续当接收到一个信息展示请求，可以获取与该信息展示请求匹配的多个候选信息，并通过目标策略网络作出最优的信息展示决策，输出每个候选信息的展示得分。
[0131]
第一处理模块：
[0132]
不断探索环境，每探索出k个样本写入一次共享内存，写入方式是循环写入，当写满后，从头部覆盖最老的样本，未写满前共享内存标志位置0。
[0133]
拉取最新的网络参数更新自己的actor网络。
[0134]
第二处理模块：
[0135]
轮询每个第一处理模块对应的s_memory，如果发现某个s_memory可读，就会随机读取一个batch的数据作为训练数据。
[0136]
通过随机读取到的训练数据训练、更新actor和critic网络，每个轮次计算当前参数下的总收益，保存最优参数，每m次训练将最新的actor网络参数写入共享内存，直至模型收敛。
[0137]
其中，上述n代表启动的第一进程的个数，k是一次写入的样本个数，m是每训练几次写一次最新的actor网络参数到anp_memory，一般n＝5，k＝2000，m＝1000。
[0138]
请参见图6所示，在通过上述模型训练方法得到目标策略网络的基础上，本技术实施例提出了一种信息展示方法，该方法可由上述模型训练设备执行，也可由其它具有信息展示功能的设备执行，该方法可以包括如下步骤：
[0139]
s601：获取信息展示请求，该信息展示请求用于请求在指定的信息展示位上展示信息。
[0140]
在一种可能的实现方式中，上述信息展示请求是信息处理系统中信息展示类客户端出现信息展示位时，由信息展示类客户端发送给对应服务器的请求，以从服务器中请求在该信息展示位上展示的信息。
[0141]
s602：获取与信息展示请求匹配的多个候选信息。具体地，多个候选信息可以包含第一类型信息和第二类型信息，以广告展示场景为例，第一类型信息为合约广告，第二类型信息为竞价广告。
[0142]
s603：通过目标策略网络确定各候选信息的展示得分，该展示得分用于指示对应的候选信息被推送至指定的信息展示位进行展示的概率。其中，该目标策略网络是通过上述图4对应的模型训练方法对强化学习模型进行训练得到的。
[0143]
具体实现中，可以获取各候选信息的状态数据，任一候选信息的状态数据可以用于指示对应的信息在当前时刻的状态，且随着信息展示的不断进行，信息展示系统中的信息的状态数据中的全部或者部分数据也会随之发生变化。目标策略网络可以依照各候选信息的状态数据作出信息展示决策，确定各候选信息的展示得分，该展示得分用于指示对应的信息被推送至该指定的信息展示位进行展示的概率。各个信息的展示得分，是在相同维度上对第一类型信息和第二类型信息进行评价得到的得分。
[0144]
s604：基于各候选信息的展示得分获取目标信息。具体实现中，可以从候选信息中将展示得分最高的候选信息作为目标信息。在广告展示场景下，第一类型信息为合约广告，
第二类信息为竞价广告，竞价广告的得分可以依照竞价广告的ecmp确定，合约广告的得分可以通过目标策略网络确定，一个广告的展示得分越高，相应地，该广告被推送至指定的信息展示位进行展示的概率也越大，本技术实施例可以将得分最高的广告作为目标广告，并将目标广告推送至指定的广告展示位进行展示。
[0145]
s605：将目标信息推送至指定的信息展示位进行展示。
[0146]
综上所述，本技术实施例所示的方案，通过预先训练好的目标策略网络来处理各个信息的状态数据，获得从各个信息中选择出的目标信息，也就是说，对一个信息展示请求，通过一个强化学习得到的策略网络，从两种不同类型的信息中选择一个信息作为目标信息进行展示，从而实现对两种类型信息的混合控制，从而使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。
[0147]
以本技术实施例所示的方案应用于广告展示场景为例，如图7所示，其示出了本技术实施例涉及的一种广告混排展示的框架图。如图7所示，混排模型处于中心位置，系统输入包括播控参数，tracklog曝光数据和库存数据。模型针对竞价目标和合约目标给出参数，传入特征服务器(featureserver)的字典结构，最终在混合器(mixer)生效。
[0148]
整体来说，图7所示的系统框架分为三个大部分，分别为数据处理71、混排模型72、以及线上系统73，下面逐个介绍上述部分：
[0149]
数据处理71部分包括数据来源、数据传输、数据处理三个模块，完成了原始数据到算法输入的处理操作，其描述如下：
[0150]
库存数据来源于库存预估服务，是利用过去数据对未来的详细预测，精确到每个访问请求(page view，pv)与每个广告的映射，可以反映出每个订单在给定天的库存量，二部图基于库存数据计算得出，通过二部图可以得到两个数据：合约广告的播放概率和当天的播放曲线，前者给出合约保量的参考，后者给出合约的挤占空间。
[0151]
供给(supply)侧为库存数据，通过属性维度来表达；请求(demand)侧为广告数据，通过定向属性维度来表达。系统通过关联supply侧的维度和demand侧的定向信息，生成库存与广告之间的连线。其中，本技术实施例涉及的一种库存与广告之间的对应关系图可以如图8所示。
[0152]
日志分为两种，一种是请求级别的数据track_log，另一种是曝光级别的数据joined_exposure。
[0153]
通过track_log可以获得每个请求的精排队列，通过一个时间段内的精排队列以及队列中所有广告的每千次曝光的期望收益(expected cost pert mile，ecpm)、预测点击率、过滤条件、扶持策略等等数据，学习设备个的强化学习算法可以通过该数据模拟线上竞争环境，如果时间段的长度(δt)足够小，可以假设前δt内的竞价合约分布与后δt内的竞价合约分布相同或者相近。
[0154]
通过joined_exposure可以获得每个请求真实曝光出来的广告是哪一个，以及对应的计费、ecpm信息，强化学习算法可以通过该数据获得线上广告的反馈。
[0155]
合约的播放控制受到多种播控参数影响，比如rate(进排序队列的概率)、theta(播放概率)等等，是辅助调整合约保量的关键信息。
[0156]
线上系统73有两个部分，一个是featureserver，简称fs，fs是一个服务器(可以等同于上述信息处理系统中的服务器)，本技术中的得出的各个广告的得分会与其他参数
(theta、rate)传输给fs，fs整合后等待mixer(混合器)的请求。另一个是mixer，mixer是一个复杂的系统，与本技术实施例有关的部分是混排模块。当一个广告展示请求到来后，mixer会收到竞价和合约的广告队列，然后会向fs请求其中各个广告的展示得分，并得到最终展示的广告。
[0157]
在本技术实施例的一种可能的实现方式中，混排模型中的目标策略网络可以对广告展示请求对应的竞价和合约的广告队列中各广告的状态数据，进行处理后，输出各个广告的展示得分，并提供给线上系统的fs，混合器从fs中拉取各个广告的展示得分，得到最终展示的广告。
[0158]
通过上述内容可知，广告展示场景下，在本技术实施例可以通过目标策略网络对两种不同方式投放的信息(比如合约广告和竞价广告)的展示进行混合控制。上述方案的应用场景可以如下：
[0159]
信息处理系统中的服务器通过上述模型训练方法对强化学习模型进行训练，得到一个目标策略网络。后续，信息处理系统中的某个信息展示类客户端出现一个广告展示机会时，该信息展示类客户端向服务器发送获取广告的请求；服务器接收到该请求后，从合约广告和竞价广告中获取该请求匹配的多个广告，组成精排队列；然后，服务器对该精排队列中的广告的状态数据，通过上述目标策略网络进行处理，以从精排队列中得到一个整体收益最高的广告，并推送给信息展示类客户端进行展示。
[0160]
本技术实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。
[0161]
再请参见图9，是本技术实施例的一种模型训练装置的结构示意图，本技术实施例的模型训练装置可以设置在上述模型训练设备中，也可以为运行于模型训练设备中的一个计算机程序(包括程序代码)。
[0162]
本技术实施例的装置的一个实现方式中，装置包括如下结构。
[0163]
样本获取单元90，用于通过第一处理模块维护的策略网络从日志数据环境中获取目标样本信息；
[0164]
模型训练单元91，用于调用第二处理模块获取训练数据，并通过所述训练数据对强化学习模型进行第一迭代训练，并将第一迭代训练后得到的网络优化参数写入网络参数共享区，所述网络优化参数是指所述强化学习模型中包括的策略网络经过所述第一迭代训练后得到的参数；所述训练数据为多个所述目标样本信息；
[0165]
所述样本获取单元90，还用于通过所述第一处理模块从所述网络参数共享区中获取所述网络优化参数，将所述第一处理模块维护的策略网络的参数更新为所述网络优化参数，调用更新后的策略网络再次从所述日志数据环境中获取目标样本信息；
[0166]
所述模型训练单元91，还用于调用所述第二处理模块获取训练数据，并通过所述训练数据对经过所述第一迭代训练后的强化学习模型进行第二迭代训练，根据第二迭代训练得到目标强化学习模型；
[0167]
处理单元92，用于将所述目标强化学习模型中的策略网络确定为目标策略网络。
[0168]
在一个实施例中，所述第一处理模块还维护有对应的样本共享区，样本获取单元90，还用于对所述样本共享区设置内存标识，所述内存标识包括可读标识和禁读标识，其中，若所述样本共享区正在写入数据或者剩余存储空间大于指定阈值，则所述样本共享区
的内存标识为禁读标识；若所述样本共享区写入数据完成，且所述样本共享区的剩余空间为0，则所述样本共享区的内存标识为可读标识。
[0169]
在一个实施例中，所述第一处理模块包括多个，每一个第一处理模块用于维护对应的一个策略网络和样本共享区，所述模型训练单元91，具体用于：
[0170]
调用第二处理模块轮询各样本共享区，若检测到任一样本共享区的内存标识为可读标识，则将所述任一样本共享区确定为可读的样本共享区；
[0171]
从所述可读的样本共享区中获取多个所述目标样本信息；
[0172]
将所述多个目标样本信息确定为训练数据。
[0173]
在一个实施例中，所述从所述日志数据环境中获取目标样本信息之后，所述样本获取单元90，还用于依照循环写入的方式将所述目标样本信息写入所述第一处理模块对应的样本共享区。
[0174]
在一个实施例中，写入所述网络参数共享区和各样本共享区的数据均为经过序列化处理后的数据，样本获取单元90，还具体用于：
[0175]
对所述目标样本信息进行序列化处理，以将所述目标样本信息转换为与所述样本共享区对应数据类型匹配的数组；
[0176]
依照循环写入的方式将所述数组写入所述第一处理模块对应的样本共享区。
[0177]
在一个实施例中，模型训练单元91，还具体用于从所述可读的样本共享区域中获取多个所述数组，对所述多个数组进行反序列化处理，得到多个目标样本信息。
[0178]
在一个实施例中，所述日志数据环境包括多个历史信息展示请求各自对应的展示样本信息，所述展示样本信息对应的展示样本包括第一类型信息和第二类型信息；所述第一类型信息是具有展示次数要求的信息，所述第二类型信息是通过资源付出来竞争展示机会的信息。
[0179]
在一个实施例中，样本获取单元90，具体用于：
[0180]
从所述日志数据环境中获取目标历史信息展示请求对应的目标展示样本信息；
[0181]
通过所述第一处理模块维护的策略网络对所述目标展示样本信息进行处理，获得针对所述目标历史信息展示请求的样本评分策略；
[0182]
依照所述样本评分策略从与所述目标历史信息展示请求匹配的多个候选样本中确定目标样本以及所述目标样本的展示得分；
[0183]
根据所述目标样本和所述目标样本的展示得分，生成所述目标历史信息展示请求对应的目标样本信息。
[0184]
在一个实施例中，处理单元92，还用于：
[0185]
获取信息展示请求，所述信息展示请求用于请求在指定的信息展示位上展示信息；
[0186]
获取与所述信息展示请求匹配的多个候选信息；
[0187]
通过所述目标策略网络确定各候选信息的展示得分，所述展示得分用于指示对应的信息被推送至所述指定的信息展示位进行展示的概率；
[0188]
基于所述各候选信息的展示得分获取目标信息；
[0189]
将所述目标信息推送至所述指定的信息展示位进行展示。
[0190]
在本技术实施例中，上述各个单元的具体实现可参考前述各个附图所对应的实施
例中相关内容的描述。
[0191]
本技术实施例中，模型训练装置可在强化学习模型的训练的过程中，通过第一处理模块调用自身维护的策略网络不断地探索日志数据环境，从日志数据环境中获取目标样本信息；通过第二处理模块不断地获取多个目标样本信息作为训练数据，并依照训练数据对自身维护的一个完整的强化学习模型进行迭代训练，每迭代训练m次，则将当前m次迭代训练得到的网络优化参数写入网络参数共享区，直至强化学习模型收敛，则停止模型训练。在模型训练之前，模型训练设备可通过第一处理模块不断的从网络参数共享区中获取上述网络优化参数，依照网络优化参数更新自身维护的策略网络的网络参数，并依照更新后的策略网络再次从探索日志数据环境，从日志数据环境中获取目标样本信息，如此循环往复，直至模型停止训练，得到目标强化学习模型，并将目标强化学习模型中的策略网络确定为目标策略网络。采用这样的模型训练方式，可以在训练过程中并行处理日志数据环境的探索和强化学习模型的训练，有利于提高强化学习模型的训练速度，从而更加快速得到目标策略网络以提供信息展示的最优解法，为后续信息的展示提供决策。
[0192]
再请参见图10，是本技术实施例的一种模型训练设备的结构示意图，本技术实施例的模型训练设备包括供电模块等结构，并包括处理器10、存储装置11以及通信接口12。处理器10、存储装置11以及通信接口12之间可以交互数据，由处理器10实现相应的模型训练功能。
[0193]
存储装置11可以包括易失性存储器(volatile memory)，例如随机存取存储器(random
‑
access memory，ram)；存储装置11也可以包括非易失性存储器(non
‑
volatile memory)，例如快闪存储器(flash memory)，固态硬盘(solid
‑
state drive，ssd)等；存储装置11还可以包括上述种类的存储器的组合。
[0194]
处理器10可以是中央处理器10(central processing unit，cpu)。在一个实施例中，处理器10还可以是图形处理器10(graphics processing unit，gpu)。处理器10也可以是由cpu和gpu的组合。在模型训练设备中，可以根据需要包括多个cpu和gpu进行相应的模型训练。
[0195]
通信接口12可以包括显示器(lcd等)、扬声器等。
[0196]
在一个实施例中，存储装置11用于存储程序指令。处理器10可以调用程序指令，实现如本技术实施例中上述涉及的各种方法。
[0197]
在第一个可能的实施方式中，模型训练设备的处理器10，调用存储装置11中存储的程序指令，用于通过第一处理模块维护的策略网络从日志数据环境中获取目标样本信息；调用第二处理模块获取训练数据，并通过所述训练数据对强化学习模型进行第一迭代训练，并将第一迭代训练后得到的网络优化参数写入网络参数共享区，所述网络优化参数是指所述强化学习模型中包括的策略网络经过所述第一迭代训练后得到的参数；所述训练数据为多个所述目标样本信息；通过所述第一处理模块从所述网络参数共享区中获取所述网络优化参数，将所述第一处理模块维护的策略网络的参数更新为所述网络优化参数，调用更新后的策略网络再次从所述日志数据环境中获取目标样本信息；调用所述第二处理模块获取训练数据，并通过所述训练数据对经过所述第一迭代训练后的强化学习模型进行第二迭代训练；根据第二迭代训练得到目标强化学习模型，并将所述目标强化学习模型中的策略网络确定为目标策略网络。
[0198]
在一个实施例中，所述第一处理模块还维护有对应的样本共享区，处理器10，还用于对所述样本共享区设置内存标识，所述内存标识包括可读标识和禁读标识，其中，若所述样本共享区正在写入数据或者剩余存储空间大于指定阈值，则所述样本共享区的内存标识为禁读标识；若所述样本共享区写入数据完成，且所述样本共享区的剩余空间为0，则所述样本共享区的内存标识为可读标识。
[0199]
在一个实施例中，所述第一处理模块包括多个，每一个第一处理模块用于维护对应的一个策略网络和样本共享区，所述处理器10，具体用于：
[0200]
调用第二处理模块轮询各样本共享区，若检测到任一样本共享区的内存标识为可读标识，则将所述任一样本共享区确定为可读的样本共享区；
[0201]
从所述可读的样本共享区中获取多个所述目标样本信息；
[0202]
将所述多个目标样本信息确定为训练数据。
[0203]
在一个实施例中，所述从所述日志数据环境中获取目标样本信息之后，所述处理器10，还用于依照循环写入的方式将所述目标样本信息写入所述第一处理模块对应的样本共享区。
[0204]
在一个实施例中，写入所述网络参数共享区和各样本共享区的数据均为经过序列化处理后的数据，处理器10，还具体用于：
[0205]
对所述目标样本信息进行序列化处理，以将所述目标样本信息转换为与所述样本共享区对应数据类型匹配的数组；
[0206]
依照循环写入的方式将所述数组写入所述第一处理模块对应的样本共享区。
[0207]
在一个实施例中，处理器10，还具体用于从所述可读的样本共享区域中获取多个所述数组，对所述多个数组进行反序列化处理，得到多个目标样本信息。
[0208]
在一个实施例中，所述日志数据环境包括多个历史信息展示请求各自对应的展示样本信息，所述展示样本信息对应的展示样本包括第一类型信息和第二类型信息；所述第一类型信息是具有展示次数要求的信息，所述第二类型信息是通过资源付出来竞争展示机会的信息。
[0209]
在一个实施例中，处理器10，具体用于：
[0210]
从所述日志数据环境中获取目标历史信息展示请求对应的目标展示样本信息；
[0211]
通过所述第一处理模块维护的策略网络对所述目标展示样本信息进行处理，获得针对所述目标历史信息展示请求的样本评分策略；
[0212]
依照所述样本评分策略从与所述目标历史信息展示请求匹配的多个候选样本中确定目标样本以及所述目标样本的展示得分；
[0213]
根据所述目标样本和所述目标样本的展示得分，生成所述目标历史信息展示请求对应的目标样本信息。
[0214]
在一个实施例中，处理器10，还用于：
[0215]
获取信息展示请求，所述信息展示请求用于请求在指定的信息展示位上展示信息；
[0216]
获取与所述信息展示请求匹配的多个候选信息；
[0217]
通过所述目标策略网络确定各候选信息的展示得分，所述展示得分用于指示对应的信息被推送至所述指定的信息展示位进行展示的概率；
[0218]
基于所述各候选信息的展示得分获取目标信息；
[0219]
将所述目标信息推送至所述指定的信息展示位进行展示。
[0220]
在本技术实施例中，上述处理器10的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。
[0221]
本技术实施例中的模型训练设备可在强化学习模型的训练的过程中，通过第一处理模块调用自身维护的策略网络不断地探索日志数据环境，从日志数据环境中获取目标样本信息；通过第二处理模块不断地获取多个目标样本信息作为训练数据，并依照训练数据对自身维护的一个完整的强化学习模型进行迭代训练，每迭代训练m次，则将当前m次迭代训练得到的网络优化参数写入网络参数共享区，直至强化学习模型收敛，则停止模型训练。在模型训练之前，模型训练设备可通过第一处理模块不断的从网络参数共享区中获取上述网络优化参数，依照网络优化参数更新自身维护的策略网络的网络参数，并依照更新后的策略网络再次从探索日志数据环境，从日志数据环境中获取目标样本信息，如此循环往复，直至模型停止训练，得到目标强化学习模型，并将目标强化学习模型中的策略网络确定为目标策略网络。采用这样的模型训练方式，可以在训练过程中并行处理日志数据环境的探索和强化学习模型的训练，有利于提高强化学习模型的训练速度，从而更加快速得到目标策略网络以提供信息展示的最优解法，为后续信息的展示提供决策。
[0222]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所描述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(read
‑
only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0223]
以上所揭露的仅为本技术的部分实施例而已，当然不能以此来限定本技术之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本技术权利要求所作的等同变化，仍属于发明所涵盖的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：新能源汽车示教的培训姿态检验方法、装置及系统与流程

一种模型训练设备、方法、装置及介质与流程

相关文献

最热文献