资源召回模型更新方法、装置、电子设备及存储介质与流程

2022-05-21 02:28:41 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及一种资源召回模型更新方法、装置、电子设备及存储介质。

背景技术：

2.目前各媒体平台广告系统的业务处理流程一般包括定向阶段、召回阶段、排序阶段和展示阶段。在定向阶段，广告系统接收广告主设定的投放广告的定向信息，如人群定向、用户信息和地域定向等，该定向信息可以帮助广告主更好地圈定其目标用户；在召回阶段，广告系统根据广告推送请求对广告库中的广告进行初步筛选；在排序阶段，广告系统对初步筛选出的广告进行排序，并根据排序结果进一步筛选出最终进行投放的广告；在展示阶段，广告系统将排序阶段的筛选结果下发到用户客户端进行广告曝光。由上述广告系统的业务处理流程可知召回阶段为后续的排序阶段服务，召回的准确性直接影响了后续排序的候选集的准确性，进而对最终推送给用户的广告的准确性产生了至关重要的影响。
3.相关技术中，广告系统在召回阶段通常会使用训练的广告召回模型进行广告的召回，该广告召回模型一般采用在线流式训练，所用训练数据中的正样本为用户点击过的广告，负样本为向用户展示过但未被点击过的广告，通常情况下负样本的数量要远超过正样本的数量，正负样本比例不平衡，正样本的反馈容易被淹没在负样本的反馈中，导致该广告召回模型不能充分学习到训练数据中的有用信息，进而导致广告召回的准确性差。

技术实现要素：

4.本公开提供一种资源召回模型更新方法、装置、电子设备及存储介质，以至少解决相关技术中对于广告等资源的资源召回模型不能充分学习到训练数据中的有用信息而导致的资源召回的准确性差的问题。本公开的技术方案如下：
5.根据本公开实施例的第一方面，提供一种资源召回模型更新方法，包括：
6.获取当前模型更新周期对应的资源点击日志；
7.根据所述资源点击日志确定点击资源池，所述点击资源池包括至少一个点击资源，所述点击资源表征在第一历史时间段内被用户点击过的资源，所述第一历史时间段为当前模型更新周期与上一模型更新周期之间的时间段；
8.选取所述点击资源池中的第一点击资源，以所述第一点击资源为正样本资源，从剩余点击资源中确定与所述正样本资源相对应的负样本资源；所述第一点击资源为所述点击资源池中的任一点击资源，所述剩余点击资源是所述点击资源池中除所述第一点击资源之外的点击资源；
9.根据正样本资源、所述正样本资源对应的负样本资源以及点击所述正样本资源的用户，生成训练样本集中的训练样本；
10.根据所述训练样本集使用预设损失函数对资源召回模型中的参数进行优化，得到更新后的资源召回模型；所述预设损失函数基于所述训练样本中用户和正样本资源之间的
匹配程度以及所述用户与负样本资源之间的匹配程度确定。
11.在一示例性的实施方式中，所述根据正样本资源、所述正样本资源对应的负样本资源以及点击所述正样本资源的用户，生成训练样本集中的训练样本；包括：
12.确定点击所述正样本资源的用户，获取所述用户的用户特征；
13.确定所述正样本资源的正样本资源特征；
14.确定所述正样本资源对应的负样本资源的负样本资源特征；
15.以所述用户特征、所述正样本资源特征和所述负样本资源特征构成训练样本集中的训练样本。
16.在一示例性的实施方式中，所述根据所述训练样本集使用预设损失函数对资源召回模型中的参数进行优化包括：
17.针对所述训练样本集中的每条训练样本，将所述训练样本包括的用户特征、正样本资源特征和负样本资源特征输入至资源召回模型中；
18.通过所述资源召回模型的用户神经网络，根据所述用户特征得到用户特征向量；
19.通过所述资源召回模型的资源神经网络，根据所述正样本资源特征和所述负样本资源特征分别得到正样本资源向量和负样本资源向量；
20.确定所述用户特征向量与所述正样本资源向量之间的第一匹配度，以及确定所述用户特征向量与所述负样本资源向量之间的第二匹配度；
21.预设损失函数基于所述第一匹配度和第二匹配度对所述资源召回模型中的参数进行优化。
22.在一示例性的实施方式中，所述预设损失函数包括第一差值项、第二差值项和最值项；
23.所述预设损失函数基于所述第一匹配度和第二匹配度对所述资源召回模型中的参数进行优化包括：
24.通过所述第一差值项确定所述第二匹配度与所述第一匹配度之间的第一差值；
25.通过所述第二差值项确定所述第一差值与预设固定值之间的第二差值；
26.通过所述最值项取所述第二差值与数值零中的最大值，以所述最大值作为所述预设损失函数的函数值；
27.按照最小化所述函数值的方向调整所述资源召回模型中的参数，直至满足训练结束条件。
28.在一示例性的实施方式中，所述方法还包括：
29.响应于目标用户的资源推送请求，根据资源库中各资源的定向信息确定与所述目标用户相匹配的候选资源集；
30.确定所述目标用户的目标用户特征，以及所述候选资源集中各候选资源的候选资源特征；
31.将所述目标用户特征和所述各候选资源的候选资源特征输入所述更新后的资源召回模型，得到所述目标用户与各候选资源之间的匹配度；
32.根据所述目标用户与各候选资源之间的匹配度，从所述候选资源集中确定至少一个目标候选资源；
33.根据所述至少一个目标候选资源确定所述资源推送请求对应的返回结果，所述返
回结果包括待展示的目标资源。
34.在一示例性的实施方式中，在根据所述至少一个目标候选资源确定所述资源推送请求对应的返回结果之后，所述方法还包括：
35.响应于所述目标用户对所述目标资源的点击操作，获取所述目标用户的用户标识和所述目标资源的资源标识；
36.根据所述目标用户的用户标识和所述目标资源的资源标识，生成下一个模型更新周期对应的资源点击日志。
37.根据本公开实施例的第二方面，提供一种资源召回模型更新装置，包括：
38.点击日志获取单元，被配置为执行获取当前模型更新周期对应的资源点击日志；
39.第一确定单元，被配置为执行根据所述资源点击日志确定点击资源池，所述点击资源池包括至少一个点击资源，所述点击资源表征在第一历史时间段内被用户点击过的资源，所述第一历史时间段为当前模型更新周期与上一模型更新周期之间的时间段；
40.负采样单元，被配置为执行选取所述点击资源池中的第一点击资源，以所述第一点击资源为正样本资源，从剩余点击资源中确定与所述正样本资源相对应的负样本资源；所述第一点击资源为所述点击资源池中的任一点击资源，所述剩余点击资源是所述点击资源池中除所述第一点击资源之外的点击资源；
41.训练数据生成单元，被配置为执行根据正样本资源、所述正样本资源对应的负样本资源以及点击所述正样本资源的用户，生成训练样本集中的训练样本；
42.模型更新单元，被配置为执行根据所述训练样本集使用预设损失函数对资源召回模型中的参数进行优化，得到更新后的资源召回模型；所述预设损失函数基于所述训练样本中用户和正样本资源之间的匹配程度以及所述用户与负样本资源之间的匹配程度确定。
43.在一示例性的实施方式中，所述训练数据生成单元包括：
44.第一确定单元，被配置为执行确定点击所述正样本资源的用户，获取所述用户的用户特征；
45.第二确定单元，被配置为执行确定所述正样本资源的正样本资源特征；
46.第三确定单元，被配置为执行确定所述正样本资源对应的负样本资源的负样本资源特征；
47.生成子单元，被配置为执行以所述用户特征、所述正样本资源特征和所述负样本资源特征构成训练样本集中的训练样本。
48.在一示例性的实施方式中，所述模型更新单元包括：
49.输入单元，被配置为执行针对所述训练样本集中的每条训练样本，将所述训练样本包括的用户特征、正样本资源特征和负样本资源特征输入至资源召回模型中；
50.第一网络单元，被配置为执行通过所述资源召回模型的用户神经网络，根据所述用户特征得到用户特征向量；
51.第二网络单元，被配置为执行通过所述资源召回模型的资源神经网络，根据所述正样本资源特征和所述负样本资源特征分别得到正样本资源向量和负样本资源向量；
52.匹配单元，被配置为执行确定所述用户特征向量与所述正样本资源向量之间的第一匹配度，以及确定所述用户特征向量与所述负样本资源向量之间的第二匹配度；
53.优化单元，被配置为执行预设损失函数基于所述第一匹配度和第二匹配度对所述
资源召回模型中的参数进行优化。
54.在一示例性的实施方式中，所述预设损失函数包括第一差值项、第二差值项和最值项；所述优化单元包括：
55.第四确定单元，被配置为执行通过所述第一差值项确定所述第二匹配度与所述第一匹配度之间的第一差值；
56.第五确定单元，被配置为执行通过所述第二差值项确定所述第一差值与预设固定值之间的第二差值；
57.第六确定单元，被配置为执行通过所述最值项取所述第二差值与数值零中的最大值，以所述最大值作为所述预设损失函数的函数值；
58.参数调整单元，被配置为执行按照最小化所述函数值的方向调整所述资源召回模型中的参数，直至满足训练结束条件。
59.在一示例性的实施方式中，所述装置还包括：
60.请求响应单元，被配置为执行响应于目标用户的资源推送请求，根据资源库中各资源的定向信息确定与所述目标用户相匹配的候选资源集；
61.第七确定单元，被配置为执行确定所述目标用户的目标用户特征，以及所述候选资源集中各候选资源的候选资源特征；
62.匹配度预测单元，被配置为执行将所述目标用户特征和所述各候选资源的候选资源特征输入所述更新后的资源召回模型，得到所述目标用户与各候选资源之间的匹配度；
63.第八确定单元，被配置为执行根据所述目标用户与各候选资源之间的匹配度，从所述候选资源集中确定至少一个目标候选资源；
64.第九确定单元，被配置为执行根据所述至少一个目标候选资源确定所述资源推送请求对应的返回结果，所述返回结果包括待展示的目标资源。
65.在一示例性的实施方式中，所述装置还包括：
66.获取单元，被配置为执行响应于所述目标用户对所述目标资源的点击操作，获取所述目标用户的用户标识和所述目标资源的资源标识；
67.点击日志生成单元，被配置为执行根据所述目标用户的用户标识和所述目标资源的资源标识，生成下一个模型更新周期对应的资源点击日志。
68.根据本公开实施例的第三方面，提供一种电子设备，包括：
69.处理器；
70.用于存储所述处理器可执行指令的存储器；
71.其中，所述处理器被配置为执行所述指令，以实现如上述任一实施方式所述的资源召回模型更新方法。
72.根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施方式所述的资源召回模型更新方法。
73.根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一种实施方式中提供的资源召回模型更新方法；
74.本公开的实施例提供的技术方案至少带来以下有益效果：
75.通过当前模型更新周期与上一模型更新周期之间的时间段内被用户点击过的所有资源构成点击资源池，对该点击资源池进行负采样，以该点击资源池中的任一点击资源为正样本资源，从剩余点击资源中确定与该正样本资源相对应的负样本资源，并结合点击该正样本资源的用户生成训练样本集中的训练样本，使得用于训练的正负样本比例相均衡，进而根据该训练样本集使用预设损失函数对资源召回模型中的参数进行优化得到更新后的资源召回模型，该资源召回模型可以充分学习到训练数据中与资源召回过程更加匹配的有用信息，进而提高了基于该资源召回模型的资源召回的准确性。
76.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
77.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
78.图1是根据一示例性实施例示出的一种资源召回模型更新方法的应用环境图；
79.图2是根据一示例性实施例示出的一种资源召回模型更新方法的流程图；
80.图3是根据一示例性实施例示出的对资源召回模型训练更新的示意图；
81.图4是根据一示例性实施例示出的另一种资源召回模型更新方法的流程图；
82.图5是根据一示例性实施例示出的一种资源召回模型更新装置的框图；
83.图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
84.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
85.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
86.请参阅图1，其所示为根据一示例性实施例示出的一种资源召回模型更新方法的应用环境图，该应用环境可以包括服务器110和多个终端120，该服务器110和多个终端120之间可以通过有线网络或者无线网络连接。
87.多个终端120可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端120中可以安装有提供相应业务功能的客户端软件如应用程序(application，简称为app)，该业务功能可以但不限于包括直播功能、短视频播放功能，也即该应用程序可以但不限于包括直播app、短视频app。终端120的用户可以通过预先注册的用户信息登录应用程序，该用户信息可以包括账号和密码。
88.服务器110可以是为终端120中的应用程序提供后台服务的服务器，也可以是与应
用程序的后台服务器连接通信的其它服务器，可以是一台服务器，也可以是由多台服务器组成的服务器集群。服务器110可以提供资源推送服务，例如当用户登录应用程序或者刷新应用程序的某个页面时，服务器110可以向该用户推送广告等资源。
89.在一个应用场景中，服务器110可以是广告系统中用于提供广告召回服务的服务器，在提供广告召回服务时服务器110可以基于广告召回模型对广告系统中的广告进行召回，该广告召回模型可以采用本公开实施例的在线流式训练方式进行更新。该在线流式训练更新过程中可以设定模型更新周期，当到达模型更新周期时服务器110对广告召回模型进行训练更新，例如服务器110可以每隔15分钟对广告召回模型进行一次训练更新，以9:30～10:00这一时间段为例，服务器110在9:30对广告召回模型进行了一次训练更新，则下一模型更新周期为9:45，服务器110在达到9:45时可以对上一模型更新周期9:30更新后的广告召回模型进行训练更新，同理，服务器110在达到10:00时可以对其上一模型更新周期9:45更新后的广告召回模型进行训练更新。
90.可以理解的，本公开实施例中的资源并不限于广告，还可以包括其它可以向应用程序的用户推送的资源，例如还可以包括新闻、视频等等，本公开实施例对此不作具体限定。
91.下面以一个模型更新周期即当前模型更新周期为例，详细介绍本公开实施例的资源召回模型更新方法。
92.图2是根据一示例性实施例示出的一种资源召回模型方法的流程图，如图2所示，以资源召回模型更新方法应用于图1所示的服务器110中进行说明，包括以下步骤。
93.在步骤s210中，获取当前模型更新周期对应的资源点击日志。
94.实际应用中，服务器将资源推送给应用程序的用户并通过相应终端展示后，用户可以根据自身对展示资源的感兴趣情况选择点击该展示的资源或者不点击该展示的资源，当用户点击了展示的资源后，服务器可以响应于用户对该资源的点击操作获取该用户的用户标识和被点击的资源的资源标识，并基于该用户标识和被点击的资源的资源标识生成资源点击日志。
95.服务器可以对生成的资源点击日志进行存储，由于本公开的实施例中服务器根据设定的模型更新周期对资源召回模型进行训练更新，因此服务器在存储资源点击日志时可以分时间段来存储，将相邻两个模型更新周期之间的时间段内接收到的资源点击日志作为一个批次存储，例如相邻两个模型更新周期之间的时间段为9:30～9:45，则服务器将在9:30～9:45之间接收到的资源点击日志作为一个批次存储。在到达当前模型更新周期例如9:45时，服务器可以获取当前模型更新周期对应的资源点击日志，该资源点击日志即为当前模型更新周期与上一模型更新周期之间的时间段如9:30～9:45内的资源点击日志。
96.具体的实施中，服务器可以设置更新定时器，通过更新定时器的定时功能触发服务器在到达当前模型更新周期时对资源召回模型进行训练更新，例如更新定时器可以设定为每隔15分钟触发服务器执行上述获取当前模型更新周期对应的资源点击日志的动作，进而开始对资源召回模型进行训练更新。
97.在步骤s220中，根据上述资源点击日志确定点击资源池。
98.其中，点击资源池包括至少一个点击资源，该点击资源表征在第一历史时间段内被用户点击过的资源，该第一历史时间段为当前模型更新周期与上一模型更新周期之间的
时间段。
99.具体的，服务器可以获取上述资源点击日志中的资源标识，并查找资源库中与该资源标识相匹配的资源，将资源库中与该资源标识相匹配的资源作为点击资源放入上述的点击资源池中。其中，资源库中存储所有待推送的资源，该资源库可以位于服务器本地，也可以位于分布式数据库系统中。
100.在步骤s230中，选取点击资源池中的第一点击资源，以该第一点击资源为正样本资源，从剩余点击资源中确定与该正样本资源相对应的负样本资源。
101.其中，第一点击资源为上述点击资源池中的任一点击资源，剩余点击资源是上述点击资源池中除第一点击资源之外的点击资源。
102.以点击资源池包括(i1，i2，...，in)为例，其中i表示上述点击资源，则针对任一点击资源ik(1≤k≤n)，服务器以该点击资源为正样本资源从剩余点击资源(i1，...，i
k-1
，i
k 1
…
，in)中确定该正样本资源对应的负样本资源具体的，可以从剩余点击资源(i1，i
k-1
，i
k 1
…
，in)中随机选取一个作为正样本资源对应的负样本资源从而得到正样本资源-负样本资源对即其中其中那么基于上述采样处理，对于点击资源池(i1，i2，...，in)可以得到如下结果：可见采样处理后得到的正负样本资源比例相均衡，且正负样本资源均是模型更新周期内被用户点击的资源，可以避免后续训练中正样本的反馈被负样本的反馈所淹没。
103.在步骤s240中，根据正样本资源、该正样本资源对应的负样本资源以及点击该正样本资源的用户，生成训练样本集中的训练样本。
104.在一个可能的实施方式中，服务器根据用户、该用户点击的正样本资源以及该正样本资源对应的负样本资源，生成训练样本集中的训练样本可以包括以下步骤：
105.(1)确定点击该正样本资源的用户，获取用户的用户特征。
106.具体的，服务器可以从点击资源日志中获取各个点击资源对应的用户标识，该用户标识用于标识点击该点击资源的用户，通过该用户标识获取用户画像，用户画像用于在数据层面勾画用户，具体可以由多个用户标签组成，在大数据时代背景下，用户信息充斥在网络中，为了便于处理用户信息，可以将用户的各种具体信息抽象成标签，利用这些标签来将用户形象具体化，该用户标签可以但不限于包括年龄、性别、地域、兴趣资源类别、会员等等。服务器可以直接将点击正样本资源的用户对应的用户画像确定为该用户的用户特征，也可以将用户画像中的一个或者多个用户标签确定为该用户的用户特征。
107.(2)确定上述正样本资源的正样本资源特征。
108.(3)确定上述正样本资源对应的负样本资源的负样本资源特征。
109.本公开的实施例中，各资源的资源特征可以包括但不限于资源类别、资源定向信息、资源价格、资源推送记录等等，服务器对于资源库中的每个资源可以对应存储并实时更新各个资源的资源特征。服务器可以将正样本资源对应的资源特征(如资源类别、资源定向信息、资源价格、资源推送记录等等)中的一个或者多个特征确定为该正样本资源的正样本资源特征；同理，服务器可以将负样本资源对应的资源特征(如资源类别、资源推送条件、资
源价格、资源推送记录等等)中的一个或者多个特征确定为负样本资源特征。
110.(4)以上述用户特征、正样本资源特征和对应的负样本资源特征构成训练样本集中的训练样本。
111.具体的，以uk表示点击正样本资源的用户，f(uk)表示用户uk的用户特征，该用户uk点击的正样本资源的正样本资源特征表示为该正样本资源对应的负样本资源的负样本资源特征表示为则服务器可以构成训练样本该训练样本为一个三元组。那么，对于点击资源池(i1，i2，...，in)生成的训练样本集可以表示为：
112.本公开的实施例针对各正样本资源，通过获取点击该正样本资源的用户的用户特征，该正样本资源的正样本资源特征和该正样本资源对应的负样本资源的负样本资源特征构造了三元组结构的训练样本，便于后续模型训练时能够充分学习到训练样本集中的有用信息，从而对模型参数进行更加准确的调整。
113.在步骤s250中，根据上述训练样本集使用预设损失函数对资源召回模型中的参数进行优化，得到更新后的资源召回模型。
114.其中，预设损失函数基于上述训练样本中用户和正样本资源之间的匹配程度以及该用户与负样本资源之间的匹配程度确定。该预设损失函数可以优化正样本资源与负样本资源之间的序，也即根据上述训练样本集使用预设损失函数对资源召回模型中的参数进行优化得到的更新后的资源召回模型可以学习到训练样本中的序关系，而资源召回中涉及的也是一种序关系，从而使得更新后的资源召回模型与资源召回的实质过程更加匹配，有利于资源召回模型充分学习到训练数据中与实际召回过程更加匹配的有用信息。
115.本公开的实施例中，如图3所示，资源召回模型可以包括用户神经网络、资源神经网络和匹配节点，其中，用户神经网络用于将用户特征进行向量表达，资源神经网络用于将正样本资源特征和负样本资源特征分别进行向量表达，正样本资源特征和负样本资源特征共享一个资源神经网络。用户神经网络和资源神经网络的输出端分别与匹配节点相连接，匹配节点用于计算用户和正样本资源之间的匹配程度以及用户与负样本资源之间的匹配程度。
116.其中，用户神经网络和资源神经网络可以将输入特征映射到同一个k维embedding空间中。示例性的，用户神经网络和资源神经网络均可以是dnn(deep neural network)网络，dnn网络包括输入层、隐藏层和输出层，层与层之间采用全连接即第i层的任意一个神经元与第i 1层的任意一个神经元相连。
117.基于此，服务器在根据训练样本集使用预设损失函数对资源召回模型中的参数进行优化时可以包括以下步骤：
118.(1)针对训练样本集中的每条训练样本，将该训练样本包括的用户特征、正样本资源特征和负样本资源特征输入至资源召回模型中。
119.(2)通过资源召回模型的用户神经网络，根据上述用户特征得到用户特征向量。
120.(3)通过资源召回模型的资源神经网络，根据上述正样本资源特征和负样本资源特征分别得到正样本资源向量和负样本资源向量。
121.(4)通过资源召回模型的匹配神经网络确定上述用户特征向量与正样本资源向量
之间的第一匹配度，以及确定用户特征向量与负样本资源向量之间的第二匹配度。
122.以训练样本为例，请继续参见图3，资源召回模型接收到输入的该训练样本后，将训练样本中的用户特征f(uk)输入至用户神经网络，将训练样本中的正样本资源特征和负样本资源特征输入至资源神经网络，通过用户神经网络得到用户特征f(uk)的向量表达即用户特征向量qk，通过资源神经网络分别得到正样本资源特征的向量表达即正样本资源向量和负样本资源特征的向量表达即负样本资源向量上述的向量表达过程可以表示为：
[0123][0124][0125][0126]
其中，fc表示全连接层，θ1表示用户神经网络中待优化的参数，θ2表示资源神经网络中待优化的参数。
[0127]
用户特征向量qk、正样本资源向量和负样本资源向量作为匹配节点的输入，匹配节点计算用户特征向量qk与正样本资源向量之间的第一匹配度，以及用户特征向量qk与负样本资源向量之间的第二匹配度，示例性的，可以通过余弦相似度表征匹配度。
[0128]
(5)预设损失函数基于上述第一匹配度和第二匹配度对资源召回模型中的参数进行优化。
[0129]
本公开的实施例中，资源召回模型中待优化的参数包括上述用户神经网络中的待优化的参数θ1和资源神经网络中待优化的参数θ2。通过用户神经网络对用户特征的向量表达，以及资源神经网络对正样本资源特征和负样本资源特征的各自向量表达，并基于向量表达的结果得到第一匹配度来表征用户与正样本资源之间的匹配程度，以及第二匹配度来表征用户与负样本资源之间的匹配程度，从而预设损失函数可以基于该第一匹配度和第二匹配度对资源召回模型中用户神经网络和资源神经网络的参数进行优化以得到更新后的资源召回模型。
[0130]
具体的，预设损失函数可以包括第一差值项、第二差值项和最值项，预设损失函数在基于第一匹配度和第二匹配度对资源召回模型中的参数进行优化时，可以通过第一差值项计算第二匹配度与第一匹配度之间的第一差值，通过第二差值项计算该第一差值与预设固定值之间的第二差值，并通过最值项取该第二差值与数值零中的最大值，以该最大值作为预设损失函数的函数值，然后按照最小化该函数值的方向调整资源召回模型中的参数，直至满足训练结束条件。示例性的，预设损失函数可以表示为：
[0131][0132]
其中，θ表示资源召回模型的参数，包括本公开实施例中上述的θ1和θ2；表示第一匹配度；表示第二匹配度；表示第一差值；表示第二差值；m表示预设固定值，该预设固定值的具体数
值可以根据实际需要进行设定，例如m可以在设定范围0.2～0.3中取值，预设损失函数loss让正样本资源与负样本资源之间的误差控制在0与m之间。通过上述的第一差值项、第二差值项和最值项构造的预设损失函数实现了基于第一匹配度和第二匹配度对资源召回模型中参数的优化，使得资源召回模型在更新过程中能够更加充分的学习到训练样本集中各样本资源之间的序关系，进而使得更新后的资源召回模型具有更好的资源召回准确性。
[0133]
示例性的，在按照最小化该函数值的方向调整资源召回模型中的参数时可以采用梯度下降法来实现。训练结束条件可以但不限于是迭代次数达到预设次数阈值，例如预设次数阈值可以为100次。
[0134]
本公开的实施例通过当前模型更新周期与上一模型更新周期之间的时间段内被用户点击过的所有资源构成点击资源池，对该点击资源池进行负采样，以该点击资源池中的任一点击资源为正样本资源，从剩余点击资源中确定与该正样本资源相对应的负样本资源，并结合点击该正样本资源的用户生成训练样本集中的训练样本，使得用于训练的正负样本比例相均衡，进而根据该训练样本集使用预设损失函数对资源召回模型中的参数进行优化，避免了训练过程中正样本的反馈被负样本的反馈所淹没，提高了资源召回模型的训练能力，该资源召回模型可以充分学习到训练数据中与资源召回过程更加匹配的有用信息，进而提高了更新后的资源召回模型对于资源召回的准确性。
[0135]
图4是根据一示例性实施例示出的另一种资源召回模型更新方法的流程图，如图4所示，在步骤s250根据训练样本集使用预设损失函数对资源召回模型中的参数进行优化，得到更新后的资源召回模型之后，该方法还可以包括：
[0136]
在步骤s410中，响应于目标用户的资源推送请求，根据资源库中各资源的定向信息确定与目标用户相匹配的候选资源集。
[0137]
其中，定向信息是指资源所对应的资源推送条件，也即某个资源只有在满足其设定的资源推送条件时才作为待召回资源，以资源是广告为例，广告的定向信息可以包括用户年龄、用户性别、地域信息等等。资源的定向信息可以由资源投放方设定，资源推送系统在获取到资源投放方设定的定向信息后可以对应存储各个资源的定向信息。目标用户可以是触发资源推送请求的任一用户。
[0138]
具体的，目标用户在登录应用程序或者刷新应用程序的页面等操作时可以触发资源推送指令向服务器发送资源推送请求。相应的，服务器接收该资源推送请求，并响应于该资源推送请求，根据资源库中各资源的定向信息查找与目标用户相匹配的资源，与目标用户相匹配的各资源构成了候选资源集。
[0139]
在步骤s420中，确定目标用户的目标用户特征，以及候选资源集中各候选资源的候选资源特征。
[0140]
具体的，资源推送请求中可以携带目标用户的用户标识，服务器可以基于目标用户的用户标识获取该目标用户的目标用户画像，基于该目标用户画像中包括的一个或者多个用户标签确定目标用户的目标用户特征，用户标签可以但不限于包括年龄、性别、地域、兴趣资源类别、会员等等。例如，服务器可以直接将目标用户画像确定为该目标用户的目标用户特征，也可以将目标用户画像中的一个或者多个用户标签确定为目标用户的目标用户特征。
[0141]
服务器可以基于候选资源集中各候选资源的资源特征确定相应的候选资源特征，
该候选资源特征可以但不限于包括资源类别、资源定向信息、资源价格、资源推送记录等等。
[0142]
在步骤s430中，将目标用户特征和各候选资源的候选资源特征输入更新后的资源召回模型，得到目标用户与各候选资源之间的匹配度。
[0143]
其中，匹配度表征目标用户与候选资源之间的匹配程度，该匹配度可以但不限于包括余弦相似度，匹配度可以表征目标用户点击相应候选资源的概率，一般匹配度越大表明目标用户点击相应候选资源的概率越大，反之，匹配度越小表明目标用户点击相应候选资源的概率越小。
[0144]
在步骤s440中，根据目标用户与各候选资源之间的匹配度，从候选资源集中确定至少一个目标候选资源。
[0145]
具体的，可以根据匹配度对候选资源集中的候选资源进行降序排列，将排序在前的n个候选资源召回作为目标候选资源。
[0146]
在步骤s450中，根据上述至少一个目标候选资源确定资源推送请求对应的返回结果，该返回结果包括待展示的目标资源。
[0147]
具体的，在步骤s450中可以结合其他筛选条件对召回的目标候选资源进行进一步的筛选以得用于最终推送的目标资源，该其他筛选条件可以根据实际应用中的需要进行设定。以资源是广告为例，该其他筛选条件可以是目标候选资源的匹配度与客户对广告的出价的乘积，将乘积结果最大的目标候选资源作为待展示的目标资源返回给目标用户。
[0148]
由于更新后的资源召回模型在上一模型更新周期充分学习到了训练数据中与资源召回过程更加匹配的有用信息，从而提高了其在后续对于资源召回的准确性，进而提高了向用户推送的资源的准确性。
[0149]
在一个具体的实施方式中，如图4所示，服务器在根据上述至少一个目标候选资源确定资源推送请求对应的返回结果之后，还可以包括：
[0150]
s460，响应于目标用户对目标资源的点击操作，获取目标用户的用户标识和目标资源的资源标识。
[0151]
s470，根据目标用户的用户标识和目标资源的资源标识，生成下一个模型更新周期对应的资源点击日志。
[0152]
具体的，服务器将目标资源推送给目标用户并通过相应终端展示后，目标用户可以根据自身对该目标资源的感兴趣情况选择点击该目标资源或者不点击该目标资源，当目标用户点击该目标资源后，服务器可以响应于目标用户对该目标资源的点击操作获取该目标用户的用户标识和目标资源的资源标识，基于该目标用户的用户标识和目标资源的资源标识生成下一个模型更新周期对应的资源点击日志。当下一个模型更新周期到达时，服务器可以根据上述生成的资源点击日志重复执行本公开实施例中的前述步骤s210至步骤s250以对资源召回模型再次更新。
[0153]
图5是根据一示例性实施例示出的一种资源召回模型更新装置的框图。参照图5，该装置包括点击日志获取单元510，第一确定单元520，负采样单元530，训练数据生成单元540和模型更新单元550。
[0154]
该点击日志获取单元510，被配置为执行获取当前模型更新周期对应的资源点击日志；
[0155]
该第一确定单元520，被配置为执行根据资源点击日志确定点击资源池，该点击资源池包括至少一个点击资源，该点击资源表征在第一历史时间段内被用户点击过的资源，该第一历史时间段为当前模型更新周期与上一模型更新周期之间的时间段；
[0156]
该负采样单元530，被配置为执行选取上述点击资源池中的第一点击资源，以该第一点击资源为正样本资源，从剩余点击资源中确定与该正样本资源相对应的负样本资源；上述第一点击资源为点击资源池中的任一点击资源，剩余点击资源是点击资源池中除第一点击资源之外的点击资源；
[0157]
该训练数据生成单元540，被配置为执行根据正样本资源、该正样本资源对应的负样本资源以及点击该正样本资源的用户，生成训练样本集中的训练样本；
[0158]
该模型更新单元550，被配置为执行根据训练样本集使用预设损失函数对资源召回模型中的参数进行优化，得到更新后的资源召回模型；上述预设损失函数基于训练样本中用户和正样本资源之间的匹配程度以及该用户与负样本资源之间的匹配程度确定。
[0159]
在一示例性的实施方式中，训练数据生成单元540，可以包括：
[0160]
第一确定单元，被配置为执行确定点击正样本资源的用户，获取该用户的用户特征；
[0161]
第二确定单元，被配置为执行确定上述正样本资源的正样本资源特征；
[0162]
第三确定单元，被配置为执行确定正样本资源对应的负样本资源的负样本资源特征；
[0163]
生成子单元，被配置为执行以用户特征、正样本资源特征和负样本资源特征构成训练样本集中的训练样本。
[0164]
在一示例性的实施方式中，模型更新单元550，可以包括：
[0165]
输入单元，被配置为执行针对训练样本集中的每条训练样本，将训练样本包括的用户特征、正样本资源特征和负样本资源特征输入至资源召回模型中；
[0166]
第一网络单元，被配置为执行通过资源召回模型的用户神经网络，根据用户特征得到用户特征向量；
[0167]
第二网络单元，被配置为执行通过资源召回模型的资源神经网络，根据正样本资源特征和负样本资源特征分别得到正样本资源向量和负样本资源向量；
[0168]
匹配单元，被配置为执行确定用户特征向量与正样本资源向量之间的第一匹配度，以及确定用户特征向量与负样本资源向量之间的第二匹配度；
[0169]
优化单元，被配置为执行预设损失函数基于第一匹配度和第二匹配度对资源召回模型中的参数进行优化。
[0170]
在一示例性的实施方式中，预设损失函数包括第一差值项、第二差值项和最值项；上述优化单元，可以包括：
[0171]
第四确定单元，被配置为执行通过上述第一差值项确定第二匹配度与第一匹配度之间的第一差值；
[0172]
第五确定单元，被配置为执行通过上述第二差值项确定上述第一差值与预设固定值之间的第二差值；
[0173]
第六确定单元，被配置为执行通过上述最值项取上述第二差值与数值零中的最大值，以该最大值作为预设损失函数的函数值；
[0174]
参数调整单元，被配置为执行按照最小化上述函数值的方向调整资源召回模型中的参数，直至满足训练结束条件。
[0175]
在一示例性的实施方式中，该装置还可以包括：
[0176]
请求响应单元，被配置为执行响应于目标用户的资源推送请求，根据资源库中各资源的定向信息确定与目标用户相匹配的候选资源集；
[0177]
第七确定单元，被配置为执行确定目标用户的目标用户特征，以及候选资源集中各候选资源的候选资源特征；
[0178]
匹配度预测单元，被配置为执行将目标用户特征和各候选资源的候选资源特征输入更新后的资源召回模型，得到上述目标用户与各候选资源之间的匹配度；
[0179]
第八确定单元，被配置为执行根据目标用户与各候选资源之间的匹配度，从候选资源集中确定至少一个目标候选资源；
[0180]
第九确定单元，被配置为执行根据上述至少一个目标候选资源确定上述资源推送请求对应的返回结果，该返回结果包括待展示的目标资源。
[0181]
在一示例性的实施方式中，该装置还可以包括：
[0182]
获取单元，被配置为执行响应于目标用户对目标资源的点击操作，获取该目标用户的用户标识和目标资源的资源标识；
[0183]
点击日志生成单元，被配置为执行根据目标用户的用户标识和目标资源的资源标识，生成下一个模型更新周期对应的资源点击日志。
[0184]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0185]
在示例性实施例中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例中任一资源召回模型更新方法的步骤。
[0186]
该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图6是根据一示例性实施例示出的一种用于资源召回模型更新的电子设备的框图，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)610(处理器610可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器630，一个或一个以上存储应用程序623或数据622的存储介质620(例如一个或一个以上海量存储设备)。其中，存储器630和存储介质620可以是短暂存储或持久存储。存储在存储介质620的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器610可以设置为与存储介质620通信，在电子设备600上执行存储介质620中的一系列指令操作。电子设备600还可以包括一个或一个以上电源660，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口640，和/或，一个或一个以上操作系统621，例如windows servertm，mac os xtm，unixtm，linuxtm，freebsdtm等等。
[0187]
输入输出接口640可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备600的通信供应商提供的无线网络。在一个实例中，输入输出接口640包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中，输入输出接口640可以为射频
(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
[0188]
本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备600还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。
[0189]
在示例性实施例中，还提供了一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一资源召回模型更新方法的步骤。
[0190]
在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一种实施方式中提供的资源召回模型更新方法。
[0191]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0192]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0193]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种弱光环境下的人脸表情捕捉方法及装置

资源召回模型更新方法、装置、电子设备及存储介质与流程

相关文献

最热文献