一种基于强化学习的推荐策略生成方法及装置与流程

2021-11-24 20:49:00 来源：中国专利 TAG：

1.本发明属于智能推荐领域，具体而言，涉及一种基于强化学习的推荐策略生成方法及装置。

背景技术：

2.随着智能化科技的不断发展，人们的生活、工作、学习之中越来越多地用到了智能化设备，使用智能化科技手段，提高了人们生活的质量，增加了人们学习和工作的效率。
3.目前大部分推荐算法都是在获取用户历史数据的基础上，设计并训练监督算法，在确定用户对不同物品的兴趣爱好后，为用户进行个性化推荐。在这类推荐算法中，用户的兴趣爱好由收集的用户历史数据决定，且假设用户兴趣爱好在一定时间内保持不变。但对于大部分的推荐系统而言，例如音乐、电影推荐系统，用户的兴趣爱好是一直变化的，甚至会随着推荐系统推荐内容的变化而变化。因此，目前的推荐系统面临两个挑战：(1)用户的兴趣爱好并不是一成不变，而是随时间发生变化，因此推荐算法既要考虑用户的短期兴趣，又要挖掘用户的潜在兴趣，从而获得更高的长期效益。(2)当前推荐算法倾向于不断向用户推荐相似项目，这可能会降低用户对相似主题的兴趣，从而降低对整个推荐服务的满意度。这两个挑战即推荐系统中的探索和利用(exploration and exploitation,ee)问题，即如何在满足用户当前兴趣爱好的同时，挖掘用户的隐藏偏好。
4.由于推荐问题可以转换为序列问题，也可以对强化学习的三要素(状态、动作和奖励)进行定义，因此可以将强化学习框架应用到推荐算法中，从而解决推荐场景中的上述问题。目前已有的一些强化学习方法，在推荐新项目的决策中增加了一些随机性，以解决ee问题。如采用简单的∈
‑
greedy策略和基于多臂老虎机算法的上置信度边界(upper confidence bound,ucb)策略，但这两种策略都存在短期内损害推荐效果的问题，其中∈
‑
greedy策略可能会在推荐前期向用户推荐其完全不感兴趣的项目，而ucb算法需要大量尝试才能获得相对准确的项目奖励。

技术实现要素：

5.本发明提供了一种基于强化学习的推荐策略生成方法及装置，解决了现有推荐方法存在的短期内损害推荐效果、在推荐前期向用户推荐其完全不感兴趣的项目，以及需要大量尝试才能获得相对准确的项目奖励的技术问题，实现了在满足用户当前兴趣爱好的同时，高效、合理、精准的挖掘用户的隐藏偏好的技术效果。
6.本发明的一个方面，提供了一种基于强化学习的推荐策略生成方法，包括：获取场景信息；根据所述场景信息，生成用户模拟器；根据所述用户模拟器生成模拟环境；通过所述模拟环境，采用策略梯度算法生成推荐策略模型。
7.进一步地，在所述获取场景信息之前，所述方法还包括：根据用户需求定义推荐场景。
8.进一步地，所述根据所述场景信息，生成用户模拟器包括：根据注意力机制对所述
场景信息进行用户状态描述，得到用户状态；通过所述用户状态，确定用户决策函数和用户奖励函数；根据所述用户决策函数和所述用户奖励函数，构建所述用户模拟器。
9.进一步地，在所述通过所述模拟环境，采用策略梯度算法生成推荐策略模型之后，所述方法还包括：将所述推荐策略模型进行输出。
10.本发明的另一方面，还提供了一种基于强化学习的推荐策略生成装置，包括：获取模块，用于获取场景信息；生成模块，用于根据所述场景信息，生成用户模拟器；模拟模块，用于根据所述用户模拟器生成模拟环境；推荐模块，用于通过所述模拟环境，采用策略梯度算法生成推荐策略模型。
11.进一步地，所述装置还包括：定义模块，用于根据用户需求定义推荐场景。
12.进一步地，所述生成模块包括：描述单元，用于根据注意力机制对所述场景信息进行用户状态描述，得到用户状态；确定单元，用于通过所述用户状态，确定用户决策函数和用户奖励函数；构建单元，用于根据所述用户决策函数和所述用户奖励函数，构建所述用户模拟器。
13.进一步地，所述装置还包括：输出模块，用于将所述推荐策略模型进行输出。
14.本发明的另一方面，还提供了一种非易失性存储介质，所述非易失性存储介质包括存储的程序，其中，所述程序运行时控制非易失性存储介质所在的设备执行一种基于强化学习的推荐策略生成方法。
15.本发明的另一方面，还提供了一种电子装置，包含处理器和存储器；所述存储器中存储有计算机可读指令，所述处理器用于运行所述计算机可读指令，其中，所述计算机可读指令运行时执行一种基于强化学习的推荐策略生成方法。
16.与现有技术相比，本发明的有益效果是：
17.本发明采用注意力机制充分提取用户的状态特征，能够更深入、更精准的捕捉用户兴趣变化；然后对推荐场景进行决策过程建模为用户模拟器，为减少用户模拟器与真实用户决策过程的偏差，应用生成对抗网络的极小极大化原理拟合真实用户决策行为的分布对模拟器进行训练；最后将得到的用户模拟器作为模拟环境，基于强化学习策略梯度方法训练得到推荐策略，解决了现有推荐方法存在的短期内损害推荐效果、在推荐前期向用户推荐其完全不感兴趣的项目，以及需要大量尝试才能获得相对准确的项目奖励的技术问题；能够获得较高用户行为预测准确率，有效提高了推荐性能，实现了在满足用户当前兴趣爱好的同时，高效、合理、精准的挖掘用户的隐藏偏好的技术效果。
附图说明
18.此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
19.图1是根据本发明实施例的基于强化学习的推荐算法情境演示图；
20.图2是根据本发明实施例的基于注意力机制的用户状态表征方案；
21.图3是根据本发明实施例的基于注意力机制的用户状态表征方案；
22.图4是根据本发明实施例的基于强化学习的推荐算法框架；
23.图5是根据本发明实施例的一种基于强化学习的推荐策略生成方法的流程图；
24.图6是根据本发明实施例的一种基于强化学习的推荐策略生成装置的结构框图。
具体实施方式
25.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
26.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.根据本发明实施例，提供了一种基于强化学习的推荐策略生成方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
28.实施例一
29.图5是根据本发明实施例的一种基于强化学习的推荐策略生成方法的流程图，如图5所示，该方法包括如下步骤：
30.步骤s502，获取场景信息。
31.本发明实施例为了解决现有推荐方法存在的短期内损害推荐效果、在推荐前期向用户推荐其完全不感兴趣的项目，以及需要大量尝试才能获得相对准确的项目奖励的技术问题，在进行场景分析和推荐策略之前，首先需要对场景信息进行设置，其中，场景信息可以包括根据用户需要所在的实施场景进行的场景构建数据，也可以是根据用户预设的参数生成的场景数据集合，用于后续模型的生成和训练操作。
32.具体的，设置的推荐场景为：推荐智能体在页面中向用户展示y个物品，用户通过点击这些项目中的某个物品或者选择不点击任何物品，以此提供反馈，然后智能体再显示一个包含y个物品的新页面。
33.可选的，在所述获取场景信息之前，所述方法还包括：根据用户需求定义推荐场景。
34.需要说明的是，将推荐过程映射到强化学习框架中，如图1所示，图1是根据本发明实施例的基于强化学习的推荐算法情境演示图，强化学习中的环境对应推荐算法中的在线用户。状态s
t
对应用户点击历史的有序序列。推荐智能体对应推荐算法执行中心，它根据推荐策略从候选集物品列表i
t
中选择y个展示给用户，即推荐动作，这时的推荐列表用a
t
表示。用户在与页面交互时，点击推荐列表中的某项a
t
作为反馈，在得到这个状态的奖励时，同时也进入了下一个状态s
t 1
。转移概率模型p根据当前状态s
t
和所选择的动作a
t
预测进入下一个状态s
t 1
的概率。
35.另外，状态转移概率式(1)表示在状态s
t
下，转移到状态s
t 1
的概率；奖励函数公式
(2)对应于用户在给出反馈也就是点击项a
t
后，得到的奖励，即短期收益，因为用户只能从推荐系统给出的推荐项中进行选择动作a
t
∈a
t
，所以可用r(s
t
,a
t
)代替 r(s
t
,a
t
,a
t
)，用p(g|s
t
,a
t
)代替p(g|s
t
,a
t
,a
t
)。
[0036][0037][0038]
策略π对应于推荐智能体的推荐策略，在状态s
t
下，智能体根据一定的策略π从候选集i
t
中得到推荐列表a
t
。
[0039]
还需要说明的是，本发明实施例的目标是保证推荐准确性的同时，最大化长期奖励。因此本实施例改进的基于强化学习的推荐算法旨在寻找一种最佳策略π(s
t
,i
t
)，在状态s
t
下从候选集i
t
中选出y个物品推荐给用户，使得期望奖励最大。目标函数定义如式(3)所示。
[0040][0041]
在强化学习方法中，基于价值的方法在连续离策略学习方面有很大的优势，但是策略函数的收敛性较差。相反，基于策略的方法在策略函数收敛性方面表现较好。因此本实施例使用收敛性较好的基于策略梯度的强化学习方法reinforce，将基于生成对抗网络训练的用户模拟器作为模拟环境，训练推荐智能体的推荐策略。其中，e是期望函数；r(s
t
,a
t
)是奖励函数。
[0042]
步骤s504，根据所述场景信息，生成用户模拟器。
[0043]
可选的，所述根据所述场景信息，生成用户模拟器包括：根据注意力机制对所述场景信息进行用户状态描述，得到用户状态；通过所述用户状态，确定用户决策函数和用户奖励函数；根据所述用户决策函数和所述用户奖励函数，构建所述用户模拟器。
[0044]
具体的，用户状态s
t
由用户在时间t之前点击过的历史项目序列{c0,c1,k,c
t
‑1}组成， c
*
表示用户点击项。将序列{c0,c1,k,c
t
‑1}转换为嵌入层向量{f1,f2k,f
t
‑1}，则用户的状态定义如式(4)所示：
[0045]
s
t
＝h(f1,f2k,f
t
‑1)
ꢀꢀꢀ
(4)
[0046]
其中，向量f
τ
(τ＝1,2,l,t
‑
1)表示时刻τ点击项目的嵌入层向量，h(g)是特征嵌入函数，目的是生成确定长度的向量来表示用户状态。因此若用户状态用长度为m的历史序列 {f
t
‑
m
,k,f
t
‑1}表示，则用户状态可以表示为：
[0047]
s
t
＝h(f
t
‑
m
,f
t
‑
(m
‑
1)
k,f
t
‑1)
ꢀꢀꢀ
(5)
[0048]
若用f
t
‑
m:t
‑1表示长度为m的用户历史序列{f
t
‑
m
,k,f
t
‑1}，则用户状态可表示为：
[0049]
s
t
＝h(f
t
‑
m:t
‑1):＝σ(f
t
‑
m:t
‑1w b)
ꢀꢀꢀ
(6)
[0050]
其中，w是一个m行n列的权重系数矩阵，b是一个d行n列的偏置矩阵，σ(g)是激活函数。
[0051]
考虑到用户兴趣和行为状态是随着时间变化的，本实施例以新闻推荐系统为例进行说明。在新闻推荐系统中常见两种上下文情境：(1)如果用户两次点击浏览操作间隔时间很长，那么描述这两次点击之后的某个时间点τ的状态s
τ
时，就不能简单地认为用户历史交
互序列的各个位置的内容对用户决策策略的影响权重是相同的。即在长度为m的历史序列中，如果t
‑
m初始位置和t
‑
1末尾位置间隔很长时，那么t
‑
m时刻的用户行为已经对用户在当前时刻t的决策没有影响或影响不大。(2)若用户在浏览了标题为“英国某病毒变异”的新闻后，对“某病毒”这类新闻产生了兴趣，则用户兴趣可能受“英国某病毒变异”这篇新闻的影响而发生改变，用户接着很可能想浏览“某病毒”相关的新闻。但由于τ时刻之前的历史序列各个位置对用户决策策略的影响是相同的，因此最终生成的推荐项目中可能不包含用户最想浏览的相关新闻。以上两种上下文情境都说明特征表征式(6)无法区分不同序列位置的行为对用户决策策略的影响程度。为解决以上问题，提出一种基于注意力机制(attention mechanism)表征用户状态的方案，调节历史点击序列不同位置对用户状态的影响。每个位置对时刻t的影响程度由注意力权重系数a
τ
决定：
[0052][0053]
其中，d表示当前点击项目在状态序列中的位置。
[0054]
该方案如图2所示，图2是根据本发明实施例的基于注意力机制的用户状态表征方案其中{w1,w2,k}表示pwm(position weight matric,位置权重矩阵)参数，该认为用户状态s
t
受用户交互序列所处的位置(即发生的时间)影响。若用h
t
‑
m:t
‑1表示式(6)所示的用户状态s
t
，则基于注意力机制的用户状态可表示为：
[0055][0056]
另外，本发明实施例为了确定用户决策函数与奖励函数，从而为了简化模型，将推荐场景设为：给用户展示y个项目，用户将做出决策，选择点击一个最感兴趣的项目或者所有项目都不点击。用户模拟器指的是推荐场景中的交互模型。在这个模拟器中，用奖励r来衡量用户对某项目满意或感兴趣程度，用户决策策略φ的优化目标是最大化长期奖励。在真实用户决策过程中，推荐算法给用户推送的物品对用户的兴趣变化有一定影响。以新闻推荐服务为例，某个用户一开始可能对nba新闻不感兴趣，但是如果推荐算法给这个用户推荐了此类新闻，用户可能会喜欢它，然后对其他nba新闻产生兴趣。同样，若用户反复看到同类新闻后也会感到无聊，因此，用户行为历史序列会影响用户对同一项目的满意度。综上可得奖励函数与用户状态s
t
和用户的决策行为a
t
有关，因此将奖励表示为奖励函数r(s
t
,a
t
)。最佳用户决策模型φ
*
为在用户状态s
t
下，从推荐智能体推荐项目集合a
t
中点击项目a
t
，使奖励函数r(s
t
,a
t
)最大的参数集合。因此可以将用户决策函数表示为：
[0057][0058]
其中，y代表推荐智能体推送列表中项目号；y是项目总数；δ
y
是y维概率单纯形，如式(10)所示：
[0059][0060]
δ
y
表示用户点击每个推荐项目的概率和为1。l2(φ)是l2正则化函数，用以鼓励探索。η是探索率，作为一个探索利用平衡参数，它越大，用户更具有探索性。假设推荐系统的奖励与用户效用相同。因此，优化推荐系统的累计奖励，就可以长期满足用户的需求，提高
用户的满意度。定义的奖励函数由用户做出点击决策后的效用决定，如式(11)所示：
[0061]
r(s
t
,a
t
):＝reg(w[s
t
,a
t
] b)
ꢀꢀꢀ
(11)
[0062]
其中，w是奖励权值矩阵，b是相应的偏差向量，reg(
·
)是最后的回归函数。
[0063]
步骤s506，根据所述用户模拟器生成模拟环境。
[0064]
具体的，本发明实施例在进行用户模拟器生成的时候，需要在得到成熟的用户模拟器之后，根据推荐策略前期的特征值进行模拟环境的输出，其模拟环境用于最终推荐策略模型的生成，因此当本发明实施例获取到了用户模拟器a的时候，则需要根据 a以及相关的参数策略生成后续梯度算法模拟环境，并将该环境进行优化，以供后续通过算法生成推荐策略模型。
[0065]
步骤s508，通过所述模拟环境，采用策略梯度算法生成推荐策略模型。
[0066]
可选的，在所述通过所述模拟环境，采用策略梯度算法生成推荐策略模型之后，所述方法还包括：将所述推荐策略模型进行输出。
[0067]
具体的，在本发明实施例中，进而在定义的用户模拟器中，奖励和用户决策策略是未知的，由数据训练得到。在训练过程中，用户决策函数φ(s
t
,a
t
)模仿真实用户的点击行为序列，而真实用户的点击行为和用户模拟器的行为动机都是最大化长期奖励值。这与生成对抗网络的生成器和鉴别器拟合
[0068]
器生成的点击项目，φ代表用户决策函数φ(s
t
,a
t
)，r代表奖励函数r(s
t
,a
t
)，其中生成器是用户决策函数根据用户历史行为生成用户的下一次点击行为，鉴别器是奖励函数r(s
t
,a
t
)区分用户真实的点击和用户模拟器生成的点击。在本实施例工作中，采用长度为t的状态动作序列轨迹(trajectory)进行训练，给定长度为t的用户历史点击序列和相应的用户点击项目特征{f1,f2,l,f
t
}，通过解决式(12)极小极大优化问题训练得到用户决策函数和奖励函数。
[0069][0070]
其中，代表真实用户状态，代表真实用户点击项目，a
t
代表用户模拟，φ代表用户决策函数φ(s
t
,a
t
)，r代表奖励函数r(s
t
,a
t
),e
φ
是期望函数。
[0071]
基于生成对抗网络构建用户模拟器，奖励函数r(s
t
,a
t
)将从真实用户行为和用户模拟器生成行为中提取特征训练网络，放大两者之间的差异，增大两者之间负差距。而用户决策函数φ(s
t
,a
t
)与奖励函数相反，用户决策函数的目标是使真实用户行为和用户模拟器生成行为之间的差异缩小，生成尽可能逼近真实用户行为的样本。将此用户模拟器命名为mrlg
‑
attention，其生成数据流程如图3所示，生成对抗模型可以解释为对抗者与学习者之间的博弈，其中对抗者通过调整奖励函数r(s
t
,a
t
)来最小化学习者的奖励，而学习者则通过调整用户决策函数φ(s
t
,a
t
)以最大化奖励，这为用户模拟器训练提供大量的训练数据，训练出来的模型偏差较小。
[0072]
需要说明的是，基于用户模拟器和强化学习的推荐算法可以是将学习真实环境得到的用户模拟器mrlg
‑
attention作为模拟环境，使用策略梯度方法reinforce在模拟环境中训练得到推荐策略模型，如图4所示。设推荐策略为π
θ
(s
t
,a
t
)，θ为推荐策略函数参数。用户模拟器生成的一组长度l的动作状态序列τ，则序列τ的回报(return)如式(13)所示：
[0073][0074]
若p(τ；0)表示序列τ出现的概率，则目标期望奖励函数如式(14)所示：
[0075][0076]
为了找到目标函数的最优参数，使得j(θ)最大，本实施例使用如式(15)所示的梯度上升法来求解：
[0077][0078]
对目标函数(14)求导，结果如式(16)所示：
[0079][0080]
其中，用m条序列的均值逼近策略梯度的期望。
[0081]
实施例二
[0082]
图6是根据本发明实施例的一种基于强化学习的推荐策略生成装置的结构框图，如图6所示，该装置包括：
[0083]
获取模块60，用于获取场景信息。
[0084]
具体的，本发明实施例为了解决现有推荐方法存在的短期内损害推荐效果、在推荐前期向用户推荐其完全不感兴趣的项目，以及需要大量尝试才能获得相对准确的项目奖励的技术问题，在进行场景分析和推荐策略之前，首先需要对场景信息进行设置，其中，场景信息可以包括根据用户需要所在的实施场景进行的场景构建数据，也可以是根据用户预设的参数生成的场景数据集合，用于后续模型的生成和训练操作。
[0085]
具体的，设置的推荐场景为：推荐智能体在页面中向用户展示k个物品，用户通过点击这些项目中的某个物品或者选择不点击任何物品，以此提供反馈，然后智能体再显示一个包含y个物品的新页面。
[0086]
可选的，所述装置还包括：定义模块，用于根据用户需求定义推荐场景。
[0087]
需要说明的是，将推荐过程映射到强化学习框架中，如图1所示，图1是根据本发明实施例的基于强化学习的推荐算法情境演示图，强化学习中的环境对应推荐算法中的在线用户。状态s
t
对应用户点击历史的有序序列。推荐智能体对应推荐算法执行中心，它根据推荐策略从候选集物品列表i
t
中选择y个展示给用户，即推荐动作，这时的推荐列表用a
t
表示。用户在与页面交互时，点击推荐列表中的某项a
t
作为反馈，在得到这个状态的奖励时，同时也进入了下一个状态s
t 1
。转移概率模型p根据当前状态s
t
和所选择的动作a
t
预测进入下一个状态s
t 1
的概率。
[0088]
另外，状态转移概率式(1)表示在状态s
t
下，转移到状态s
t 1
的概率；奖励函数公式(2)对应于用户在给出反馈也就是点击项a
t
后，得到的奖励，即短期收益，因为用户只能从推荐系统给出的推荐项中进行选择动作a
t
∈a
t
，所以可用r(s
t
,a
t
)代替 r(s
t
,a
t
,a
t
)，用p(g|s
t
,a
t
)代替p(g|s
t
,a
t
,a
t
)。
[0089]
[0090][0091]
策略π对应于推荐智能体的推荐策略，在状态s
t
下，智能体根据一定的策略π从候选集i
t
中得到推荐列表a
t
。
[0092]
还需要说明的是，本发明实施例的目标是保证推荐准确性的同时，最大化长期奖励。因此本发明改进的基于强化学习的推荐算法旨在寻找一种最佳策略π(s
t
,i
t
)，在状态s
t
下从候选集i
t
中选出y个物品推荐给用户，使得期望奖励最大。目标函数定义如式(3)所示。
[0093][0094]
在强化学习方法中，基于价值的方法在连续离策略学习方面有很大的优势，但是策略函数的收敛性较差。相反，基于策略的方法在策略函数收敛性方面表现较好。因此本发明使用收敛性较好的基于策略梯度的强化学习方法reinforce，将基于生成对抗网络训练的用户模拟器作为模拟环境，训练推荐智能体的推荐策略。其中，e是期望函数；r(s
t
,a
t
)是奖励函数。
[0095]
生成模块62，用于根据所述场景信息，生成用户模拟器。
[0096]
可选的，所述生成模块包括：描述单元，用于根据注意力机制对所述场景信息进行用户状态描述，得到用户状态；确定单元，用于通过所述用户状态，确定用户决策函数和用户奖励函数；构建单元，用于根据所述用户决策函数和所述用户奖励函数，构建所述用户模拟器。
[0097]
具体的，用户状态s
t
由用户在时间t之前点击过的历史项目序列{c0,c1,k,c
t
‑1}组成， c
*
表示用户点击项。将序列{c0,c1,k,c
t
‑1}转换为嵌入层向量{f1,f2k,f
t
‑1}，则用户的状态定义如式(4)所示：
[0098]
s
t
＝h(f1,f2k,f
t
‑1)
ꢀꢀꢀ
(4)
[0099]
其中，向量f
τ
(τ＝1,2,l,t
‑
1)表示时刻τ点击项目的嵌入层向量，h(g)是特征嵌入函数，目的是生成确定长度的向量来表示用户状态。因此若用户状态用长度为m的历史序列 {f
t
‑
m
,k,f
t
‑1}表示，则用户状态可以表示为：
[0100]
s
t
＝h(f
t
‑
m
,f
t
‑
(m
‑
1)
k,f
t
‑1)
ꢀꢀꢀ
(5)
[0101]
若用f
t
‑
m:t
‑1表示长度为m的用户历史序列{f
t
‑
m
,k,f
t
‑1}，则用户状态可表示为：
[0102]
s
t
＝h(f
t
‑
m:t
‑1):＝σ(f
t
‑
m:t
‑1w b)
ꢀꢀꢀ
(6)
[0103]
其中，w是一个m行n列的权重系数矩阵，b是一个d行n列的偏置矩阵，σ(g)是激活函数。考虑到用户兴趣和行为状态是随着时间变化的，本实施例以新闻推荐系统为例进行说明。在新闻推荐系统中常见两种上下文情境：(1)如果用户两次点击浏览操作间隔时间很长，那么描述这两次点击之后的某个时间点τ的状态s
τ
时，就不能简单地认为用户历史交互序列的各个位置的内容对用户决策策略的影响权重是相同的。即在长度为m的历史序列中，如果t
‑
m初始位置和t
‑
1末尾位置间隔很长时，那么 t
‑
m时刻的用户行为已经对用户在当前时刻t的决策没有影响或影响不大。(2)若用户在浏览了标题为“英国某病毒变异”的新闻后，对“某病毒”这类新闻产生了兴趣，则用户兴趣可能受“英国某病毒变异”这篇新闻的影响而发生改变，用户接着很可能想浏览“某病毒”相关的新闻。但由于τ时刻之前的历史序列各个位置对用户决策策略的影响是相同的，因此最终生成的推荐项目中可能不包含用户最
想浏览的相关新闻。以上两种上下文情境都说明特征表征式(6)无法区分不同序列位置的行为对用户决策策略的影响程度。为解决以上问题，提出一种基于注意力机制(attention mechanism)表征用户状态的方案，调节历史点击序列不同位置对用户状态的影响。每个位置对时刻t的影响程度由注意力权重系数a
τ
决定：
[0104][0105]
其中，d表示当前点击项目在状态序列中的位置。
[0106]
该方案如图2所示，图2是根据本发明实施例的基于注意力机制的用户状态表征方案其中{w1,w2,k}表示pwm参数，该认为用户状态s
t
受用户交互序列所处的位置(即发生的时间)影响。若用h
t
‑
m:t
‑1表示式(6)所示的用户状态s
t
，则基于注意力机制的用户状态可表示为：
[0107][0108]
另外，本发明实施例为了确定用户决策函数与奖励函数，从而为了简化模型，将推荐场景设为：给用户展示y个项目，用户将做出决策，选择点击一个最感兴趣的项目或者所有项目都不点击。用户模拟器指的是推荐场景中的交互模型。在这个模拟器中，用奖励r来衡量用户对某项目满意或感兴趣程度，用户决策策略φ的优化目标是最大化长期奖励。在真实用户决策过程中，推荐算法给用户推送的物品对用户的兴趣变化有一定影响。以新闻推荐服务为例，某个用户一开始可能对nba新闻不感兴趣，但是如果推荐算法给这个用户推荐了此类新闻，用户可能会喜欢它，然后对其他nba新闻产生兴趣。同样，若用户反复看到同类新闻后也会感到无聊，因此，用户行为历史序列会影响用户对同一项目的满意度。综上可得奖励函数与用户状态s
t
和用户的决策行为a
t
有关，因此将奖励表示为奖励函数r(s
t
,a
t
)。最佳用户决策模型φ
*
为在用户状态s
t
下，从推荐智能体推荐项目集合a
t
中点击项目a
t
，使奖励函数r(s
t
,a
t
)最大的参数集合。因此可以将用户决策函数表示为：
[0109][0110]
其中，y代表推荐智能体推送列表中项目号；y是项目总数；δ
y
是y维概率单纯形，如式(10)所示：
[0111][0112]
δ
y
表示用户点击每个推荐项目的概率和为1。l2(φ)是l2正则化函数，用以鼓励探索。η是探索率，作为一个探索利用平衡参数，它越大，用户更具有探索性。假设推荐系统的奖励与用户效用相同。因此，优化推荐系统的累计奖励，就可以长期满足用户的需求，提高用户的满意度。定义的奖励函数由用户做出点击决策后的效用决定，如式(11)所示：
[0113]
r(s
t
,a
t
):＝reg(w[s
t
,a
t
] b)
ꢀꢀꢀ
(11)
[0114]
其中，w是奖励权值矩阵，b是相应的偏差向量，reg(
·
)是最后的回归函数。
[0115]
模拟模块64，用于根据所述用户模拟器生成模拟环境。
[0116]
具体的，本发明实施例在进行用户模拟器生成的时候，需要在得到成熟的用户模拟器之后，根据推荐策略前期的特征值进行模拟环境的输出，其模拟环境用于最终推荐策
略模型的生成，因此当本发明实施例获取到了用户模拟器a的时候，则需要根据 a以及相关的参数策略生成后续梯度算法模拟环境，并将该环境进行优化，以供后续通过算法生成推荐策略模型。
[0117]
推荐模块66，用于通过所述模拟环境，采用策略梯度算法生成推荐策略模型。
[0118]
可选的，所述装置还包括：输出模块，用于将所述推荐策略模型进行输出。
[0119]
具体的，在本发明实施例中，进而在定义的用户模拟器中，奖励和用户决策策略是未知的，由数据训练得到。在训练过程中，用户决策函数φ(s
t
,a
t
)模仿真实用户的点击行为序列，而真实用户的点击行为和用户模拟器的行为动机都是最大化长期奖励值。这与生成对抗网络的生成器和鉴别器拟合，其中生成器是用户决策函数根据用户历史行为生成用户的下一次点击行为，鉴别器是奖励函数r(s
t
,a
t
)区分用户真实的点击和用户模拟器生成的点击。在本实施例工作中，采用长度为t的状态动作序列轨迹(trajectory)进行训练，给定长度为t的用户历史点击序列和相应的用户点击项目特征{f1,f2,l,f
t
}，通过解决式(12)极小极大优化问题训练得到用户决策函数和奖励函数。
[0120][0121]
其中，代表真实用户状态，代表真实用户点击项目，a
t
代表用户模拟器生成的点击项目，φ代表用户决策函数φ(s
t
,a
t
)，r代表奖励函数r(s
t
,a
t
)，e
φ
是期望函数。
[0122]
基于生成对抗网络构建用户模拟器，奖励函数r(s
t
,a
t
)将从真实用户行为和用户模拟器生成行为中提取特征训练网络，放大两者之间的差异，增大两者之间负差距。而用户决策函数φ(s
t
,a
t
)与奖励函数相反，用户决策函数的目标是使真实用户行为和用户模拟器生成行为之间的差异缩小，生成尽可能逼近真实用户行为的样本。将此用户模拟器命名为mrlg
‑
attention，其生成数据流程如图3所示，生成对抗模型可以解释为对抗者与学习者之间的博弈，其中对抗者通过调整奖励函数r(s
t
,a
t
)来最小化学习者的奖励，而学习者则通过调整用户决策函数φ(s
t
,a
t
)以最大化奖励，这为用户模拟器训练提供大量的训练数据，训练出来的模型偏差较小。
[0123]
需要说明的是，基于用户模拟器和强化学习的推荐算法可以是将学习真实环境得到的用户模拟器mrlg
‑
attention作为模拟环境，使用策略梯度方法reinforce在模拟环境中训练得到推荐策略模型，如图4所示。设推荐策略为π
θ
(s
t
,a
t
)，θ为推荐策略函数参数。用户模拟器生成的一组长度l的动作状态序列τ，则序列τ的回报(return)如式(13)所示：
[0124][0125]
若p(τ；0)表示序列τ出现的概率，则目标期望奖励函数如式(14)所示：
[0126][0127]
为了找到目标函数的最优参数，使得j(θ)最大，本实施例使用如式(15)所示的梯度上升法来求解：
[0128][0129]
对目标函数(14)求导，结果如式(16)所示：
[0130][0131]
其中，用m条序列的均值逼近策略梯度的期望。
[0132]
实施例三
[0133]
根据本发明实施例的另一方面，还提供了一种非易失性存储介质，所述非易失性存储介质包括存储的程序，其中，所述程序运行时控制非易失性存储介质所在的设备执行一种基于强化学习的推荐策略生成方法。
[0134]
具体的，上述方法包括：获取场景信息；根据所述场景信息，生成用户模拟器；根据所述用户模拟器生成模拟环境；通过所述模拟环境，采用策略梯度算法生成推荐策略模型。
[0135]
实施例四
[0136]
根据本发明实施例的另一方面，还提供了一种电子装置，包含处理器和存储器；所述存储器中存储有计算机可读指令，所述处理器用于运行所述计算机可读指令，其中，所述计算机可读指令运行时执行一种基于强化学习的推荐策略生成方法。
[0137]
具体的，上述方法包括：获取场景信息；根据所述场景信息，生成用户模拟器；根据所述用户模拟器生成模拟环境；通过所述模拟环境，采用策略梯度算法生成推荐策略模型。
[0138]
效果实施例
[0139]
本发明实施例相比于以往的现有技术，在解决相关的技术问题的时候，用户模拟器能够适应用户的行为特征变化，获得较高用户行为预测准确率，基于此用户模拟器的推荐算法也获得了较高的点击率和长期奖励，有效提高了推荐性能。
[0140]
(1)为了评估用户模拟器mrlg
‑
attention对用户点击行为的预测准确度，选取了以下几个广泛使用的预测模型进行比较。w&d lr：逻辑回归方法，预估用户点击率。 w&d ccf：考虑了上下文信息的协同过滤方法，这个方法对用户决策过程进行建模来学习用户偏好。xgboost：基于决策树的集成学习方法，是在梯度提升决策树(gradientboosting decision tree,gdbt)等算法基础上改进的端到端决策树增强算法。mrlgan：该算法是在本实施例提出的用户模拟器的基础上去除注意力机制的算法，这个算法仅仅改变了用户的状态特征表示。
[0141]
在本发明实施例的对比实验中，用户数据被随机分为两部分：80％的用户数据作为训练集，20％的用户数据作为测试集。评估指标为top
‑
k准确度(precision@k简写为 prec@k)，表示用户实际点击的项目在预测列表前k位所占的比例，该比例是测试用户的平均值。实验结果如表1所示。
[0142]
表1不同模型在不同数据集上预测准确度性能比较
[0143]
[0144][0145]
可以看出，在表1中，加粗的数据表示在本数据集中当前评价标准下最好的算法模型。improved行表示在当前标准下，本实施例提出的用户模拟器mrlg
‑
attention 与本数据集效果最好的模型(mrlg
‑
attention除外)相比的提升率。从表中数据可以看出，在两个数据集中，本实施例提出的用户模拟器mrlg
‑
attention的用户行为预测准确率均高于其他的算法模型。在两个数据集中，随着k值的增加，所有模型的预测准确度都有所提升，特别是mrlg
‑
attention在yelp数据集上，k值为2时的准确度比k值为1时的准确度高19.3％，随着k值的增加，预测准确率也随之上升。另外，从表1中还可以看出，mrlg
‑
attention算法相较于mrlgan，当k值为1时，预测准确率提升了0.6％，当k值为2时，预测准确率提升了3.8％，说明注意力机制有助于提高预测准确度，k值代表页面展示的推荐列表中推荐项的个数。
[0146]
(2)为验证基于强化学习的推荐算法mrlg rec的推荐准确性，从依托的资讯平台项目中收集了2000名用户的历史行为数据，将这些数据随机均分为互不交迭的两个数据集数据，用一个数据集来训练用户模拟器，另外一个数据集训练强化学习策略。对比算法选取深度学习模型w&d lr、w&d ccf和离线策略无模型强化学习模型dqn。
[0147]
本发明实施例选定的两个性能评估标准如下：
[0148]
(1)累积奖励(cumulative reward,cr)：强化学习的探索性使得本发明设计的推荐算法mrlg rec考虑了长期收益，于是算法的累计奖励应该比非强化学习算法 w&d lr和w&d ccf高。推荐序列中的每一次推荐动作，都可以通过用户模拟器的奖励函数计算得到用户的奖励。由于在训练基于强化学习的推荐策略中，并没有计算用户的奖励，因此本节使用所有用户的累计奖励的平均值作为cr值。
[0149]
(2)ctr：由项目被用户点击次数除以该项目在推荐列表的展示次数得到。由于用户的行为是不确定的，因此每个推荐策略都进行10次重复实验，性能对比结果如表2所示。
[0150]
表2推荐性能比较
[0151][0152]
[0153]
在表2中，k值代表页面展示的推荐列表中推荐项的个数。从表中可以得到，随着k值的增大，对比实验中的所有算法的性能指标都有所提升。本发明提出的算法在 k值为3时，累积奖励相对于深度学习算法w&d lr和w&d ccf分别增加了66.78％和 20.67％，相对于无模型强化学习算法dqn增加了13.34％；在k值为5时，相对于这三个算法，分别增加了67.06％、21.11％和9.45％。从结果可以看出，采用强化学习方法的推荐算法和mrlg rec长期收益比深度学习算法w&d lr和w&d ccf要高，这表明采用强化学习方法会获得更好的长期效益，而基于模型的强化学习方法mrlg rec由于采用动态序列模型，长期收益较无模型强化学习方法dqn更高。虽然本发明提出的推荐算法mrlg rec的训练目标是最大化累积奖励，但是相对于其他三个算法，它也获得了相对较高的点击率，分别提升了19.35％、21.88％和11.43％，这得益于基于模型的强化学习方法对奖励函数的学习，在追求累积奖励最大化的同时也考虑用户模拟器的点击分布与真实用户点击分布的一致性。
[0154]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0155]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0156]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0157]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0158]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0159]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read
‑
onlymemory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0160]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种挖掘机运行模式切换的控制方法、装置和挖掘机与流程

一种基于强化学习的推荐策略生成方法及装置与流程

相关文献

最热文献