一种基于多路召回的信息推荐方法及系统与流程

2022-11-09 21:19:38 来源：中国专利 TAG：

1.本发明属于信息推荐技术领域，尤其涉及一种基于多路召回的信息推荐方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.由于互联网的快速发展，各行各业的数据信息呈现爆发式增长，消费者获取信息的成本越来越低、获取信息的途径越来越便捷，但是人类的记忆和信息接受处理能力是有限的，当获取的信息量远超所能承受的信息量时，冗余的信息会严重干扰消费者对有用信息的准确分析和正确选择过程。推荐算法作为解决信息过载的有效方法，其通过建立用户和信息(如商品信息或新闻等)的关联关系，围绕数据为核心，通过了解用户的行为、发现用户的需求，从而为用户筛选出最感兴趣的信息。
4.现今的个性化推荐方法，多采用协同过滤的方法，此方法主要基于内容和用户评分进行推荐，虽然具有较好普遍性，但在用户数据和信息数据较大和用户信息交互信息稀疏的情况下，无法形成有效的推荐，仅使用此方法推荐结果缺乏多样性和新颖性，且计算复杂度大，也无法在时间的演变过程中追踪用户的兴趣改变，可靠性和实用性不强。或采用单一推荐方法，无法考虑实际情况中的用户的多兴趣点。

技术实现要素：

5.为了解决上述背景技术中存在的技术问题，本发明提供一种基于多路召回的信息推荐方法及系统，通过采用多路召回策略，从多角度挖掘用户兴趣；且在标签召回策略中使用熵权法确定用户行为类型指标权重，能根据用户的实际行为调整和更新权重，追踪用户的兴趣变化，从而提升用户体验和粘度。
6.为了实现上述目的，本发明采用如下技术方案：
7.本发明的第一个方面提供一种基于多路召回的信息推荐方法，其包括：
8.获取用户与信息数据；
9.基于用户与信息数据，采用多路召回策略，得到不同召回策略的信息推荐候选集；
10.将每个用户在每路召回策略下的信息推荐候选集进行融合，确定用户最终的信息推荐候选集；
11.其中，多路召回策略中的标签召回策略使用熵权法确定行为类型指标权重，并融合时间衰减权重、标签权重和用户行为次数权重，得到用户标签权重，选取用户标签权重最大的标签作为用户偏好标签，将偏好标签匹配的信息进行召回。
12.进一步地，在进行多路召回策略前，对用户与信息数据进行去冗余、去噪、值填充和格式转换。
13.进一步地，所述多路召回策略还包括协同过滤召回、热门召回和相似召回。
14.进一步地，所述多路召回策略中的深度网络模型召回策略将用户的每个子行为序列，输入深度网络模型后可得到用户向量，基于各个用户向量与信息嵌入向量做最近邻算法，得到待推荐给用户的多个信息，根据信息出现的次数进行召回。
15.进一步地，对于深度网络模型生成的嵌入向量采用局部敏感哈希算法进行分桶，在桶内查找相似用户或相似信息。
16.进一步地，所述行为类型指标权重为：
[0017][0018]
其中，wj表示第j个行为类型指标的权重值，ej表示第j个行为类型指标的信息熵，n表示行为类型指标的总数。
[0019]
进一步地，所述时间衰减权重是用来标识某用户标签受时间影响的衰减程度；
[0020]
或者，所述标签权重利用tf-idf算法进行计算；
[0021]
或者，所述用户行为次数权重根据统计时间段内发生的用户行为次数来确定。
[0022]
本发明的第二个方面提供一种基于多路召回的信息推荐系统，其包括：
[0023]
数据获取模块，其被配置为：获取用户与信息数据；
[0024]
多路召回模块，其被配置为：基于用户与信息数据，采用多路召回策略，得到不同召回策略的信息推荐候选集；
[0025]
融合模块，其被配置为：将每个用户在每路召回策略下的信息推荐候选集进行融合，确定用户最终的信息推荐候选集；
[0026]
其中，多路召回策略中的标签召回策略使用熵权法确定行为类型指标权重，并融合时间衰减权重、标签权重和用户行为次数权重，得到用户标签权重，选取用户标签权重最大的标签作为用户偏好标签，将偏好标签匹配的信息进行召回。
[0027]
本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于多路召回的信息推荐方法中的步骤。
[0028]
本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于多路召回的信息推荐方法中的步骤。
[0029]
与现有技术相比，本发明的有益效果是：
[0030]
本发明提供了一种基于多路召回的信息推荐方法，其通过采用多路召回策略，从多角度挖掘用户兴趣，能够为用户推荐提供多样化的推荐候选列表，从而提升用户体验和粘度。
[0031]
本发明提供了一种基于多路召回的信息推荐方法，其在标签召回策略中使用熵权法确定用户行为类型指标权重，基于用户行为数据计算行为类别权重，能根据用户的实际行为调整和更新权重，追踪用户的兴趣变化。
[0032]
本发明提供了一种基于多路召回的信息推荐方法，其在模型召回策略中，在样本处理过程融入用户行为，防止生成的用户向量大规模相似问题。
[0033]
本发明提供了一种基于多路召回的信息推荐方法，其对于模型生成的嵌入向量采用局部敏感哈希算法进行分桶，在桶内查找相似用户或相似物品，避免了全量数据的遍历
从而减少了计算复杂度。
附图说明
[0034]
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
[0035]
图1是本发明实施例一的一种基于多路召回的信息推荐方法的流程图。
具体实施方式
[0036]
下面结合附图与实施例对本发明作进一步说明。
[0037]
应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
[0038]
实施例一
[0039]
本实施例提供了一种基于多路召回的信息推荐方法，针对推荐算法召回和排序两阶段模式中的召回阶段(即从海量的信息里选取用户感兴趣的信息)，通过采用不同的的召回策略，综合考虑用户多角度兴趣点，为用户推荐提供多样化的推荐候选列表。如图1所示，包括以下步骤：
[0040]
步骤1、获取用户与信息数据，对初始数据(用户与信息数据)进行预处理操作，得到高度结构化的有效数据。
[0041]
其中，初始数据包括用户数据(例如用户id)、信息所对应的内容数据以及用户对应的历史行为数据(访问、收藏、点赞、评论、观看)等。
[0042]
在本实施例中，信息可以为商品信息、新闻等消息。即一条信息可以为一个商品、也可以为一条新闻。
[0043]
预处理操作包括：对收集的用户行为数据进行清洗、包括但不限于去冗余、去噪、值填充、格式转换等处理，得到格式统一、质量高的结构化数据，方便后续的召回操作。
[0044]
步骤2、确定召回策略，即推荐候选集包含多路召回策略的数据。本发明所述策略主要包含基于长短期兴趣标签的召回、协同过滤召回、热门召回、深度网络模型召回、相似召回。通过采用改进的标签召回、协同过滤召回、热门召回、深度网络模型召回、相似召回这些策略，得到不同召回策略的信息推荐候选集，基本内容如下所述：
[0045]
(1)长短期兴趣标签召回主要是根据用户历史行为数据中的长期行为和短期行为，探索出用户的长期兴趣标签和短期兴趣标签，从而根据兴趣标签进行信息召回。
[0046]
例如，一条新闻信息，其标签可以为金融标签，如果通过兴趣标签计算，用户在金融标签上的权重最大，即将金融标签作为用户的兴趣标签。
[0047]
对于标签召回，包含用户长期兴趣标签的召回和短期兴趣标签的召回。本发明所指用户兴趣标签为用户有过行为的信息所对应的标签，是通过计算用户标签权重来实现的。以长期兴趣标签计算为例，短期兴趣标签计算同理，用户标签权重受行为类型权重、时间衰减权重、用户行为次数权重、标签权重等影响，可将多个权重相乘、相加或加权和来计算用户标签权重，本发明使用计算公式为：用户标签权重＝行为类型指标权重
×
时间衰减权重
×
标签权重
×
用户行为次数权重。
[0048]
本发明涉及用户行为类型为访问、收藏、点赞、评论、观看，行为类型属于隐式反馈信息，行为权重一般使用主观和客观赋权法转换成分值形式。主观赋值缺乏对整个数据环境的客观分析，不能够做到个性化的推荐，本发明使用熵权法进行行为类型指标权重计算，熵越大，代表影响越大。行为类型指标权重计算过程如下所述：
[0049]
首先选定m个用户样本量和n个用户行为类型指标，由于不同指标可能存在单位或跨度不一致问题，结果很难统一，为了便于处理，需要进行标准化处理。针对正负类型指标，标准化分别如下所示：
[0050]
正向指标标准化：
[0051][0052]
负向指标标准化：
[0053][0054]
其中，u
′
ij
代表第i个用户的第j个行为类型指标标准化化后的值，u
ij
代表第i个用户的第j个行为类型指标标准化前的值。
[0055]
然后计算样本的每个行为类型指标占总指标的比重p
ij
，计算公式如(3)所示：
[0056][0057]
利用信息熵公式计算每个行为类型指标的信息熵。
[0058]
最后根据权重公式计算得到每个行为类型指标的权重。其中，wj表示第j个行为类型指标的权重值，ej表示第j个行为类型指标的信息熵，n表示行为类型指标的总数。
[0059]
根据上述计算指标权重结果可表征如下，式中w是指影响权重大小：
[0060][0061]
时间衰减权重是用来标识某用户标签受时间影响的衰减程度的。行为时间距离当前时间越远，表明该历史行为和用户当前行为的相关性不断减弱，对当前行为的影响越来越小在计算时间衰减权重的过程中需区分行为是否受时间衰减影响。本发明使用指数衰减函数模型，其计算公式如下：
[0062]
n(t)＝n0e-λt
ꢀꢀꢀ
(4)
[0063]
式中，λ为衰减因子，t为时间，以天为单位，n0为t＝t0时的初始量，n(t)表示经过t天衰减后的值，即第t天的时间衰减权重。
[0064]
标签权重可利用tf-idf算法进行计算。tf-idf算法初始用来计算词的重要性，此处延伸用来计算标签权重，即标签的重要性伴随着它在用户行为序列中出现的次数成正比，随它在整个行为数据集中出现的次数成反比，标签权重计算公式为：
[0065]
tf-idf＝tf
×
idf
ꢀꢀꢀ
(5)
[0066]
其中，tf代表每一种标签出现在每一个用户行为标签序列中出现的频率，用户行为标签序列可通过聚合用户行为数据得到。tf用公式描述为:
[0067][0068]
式中，u和t分别指代用户和标签，n(u,t)表示标签t在用户行为序列中的数目，表示用户行为序列中总标签数量。
[0069]
idf代表逆向频率，即标签t在全部标签中的稀缺程度，如果标签稀缺程度高，且出现频率也高，可推断出用户与标签t之间的兴趣关系越紧密。idf用公式描述为：
[0070][0071]
式中分子表示所有用户行为序列中标签总数量，分母表示用户对应标签的用户行为序列数量。
[0072]
用户行为次数权重可根据统计时间段内发生的用户行为次数来确定。具体地，以天为单位，统计每个用户每天不同行为的次数，得到时间、行为类型、频次三个维度值。
[0073]
通过以上权重计算描述，通过用户标签权重计算公式即可得出用户对不同标签的权重值，选取用户标签权重最大的标签作为用户偏好标签，将偏好标签匹配的信息进行召回。此路召回基于用户行为数据，通过熵权法计算用户行为类型指标权重，能深度反映行为类型指标的区分能力，能根据用户的实际行为数据调整和更新权重，更符合用户的实际兴趣变化，融合时间衰减、标签权重、用户行为权重多层面影响，能够随着时间的演变追踪用户的兴趣改变，更能反映用户兴趣标签，灵活性强。
[0074]
(2)协同过滤召回主要是根据用户历史行为的相似性进行召回。
[0075]
(3)热门召回主要是根据信息的行为热度(如浏览热度/收藏热度/喜爱热度等)，选取排行最高的top-n进行召回，可根据不同情况选取不同热度指标。
[0076]
(4)深度网络模型召回是结合深度神经网络的一类召回模型，本发明所使用深度网络模型是在youtube-net召回模型上进行延伸和改进，从而应用到知识服务平台，其本质上是一个多分类模型，预测目标是用户访问的信息。通过训练可得到推荐召回模型和每个用户的嵌入向量和每个信息的嵌入向量。
[0077]
对于深度网络模型召回，提出了一种改进的youtube-net召回模型，所描述改进是指通过对用户历史行为序列进行划分，形成多个能代表用户行为演变的子行为序列，在将子序列转换成输入向量的过程中，将直接平均池化方式更改为与用户行为类型指标权重进行加权求和，然后融合类别特征、标签特征组成深度网络对应的输入向量，经过训练可得到推荐模型、用户嵌入向量和信息嵌入向量。对于用户的每个子行为序列，输入深度网络模型
后可得到不同向量表示，即用户具有多个表示向量。
[0078]
step1：聚合用户行为序列并划分。设定划分用户最大行为序列的长度为m，遍历用户行为序列，将每个用户行为序列划(即用户在段时间内访问过的信息，表示为l＝[l1,l2,l3,...,ln])分成最大长度不超过m的子样本序列(l1＝[l1,l2,l3,...,lm],l2＝[l
m 1
,l
m 2
,l
m 3
,...,l
2m
],......)，子样本序列前m-1个信息作为参考值，第m个信息作为目标值。对于划分过程中不满足长度m的子样本序列，为满足训练数据格式，不足需做零向量填充，同时记录用户真实历史行为长度。
[0079]
step2：设定正负样本的比例r，构造负样本。将资源库中所有信息作为信息集合，大小记为l，用户行为序列包含n个信息，负样本避免选择曝光未有用户行为的信息，而是在剩余的(l-n)个未被点击的信息中随机选择r*(l-n)个，增加随机性。
[0080]
step3：构造深度神经网络的输入进行训练。根据信息集(信息集是指录入后台的无重复信息组成的集合)生成初始信息矩阵，一个信息对应一个嵌入向量，如果嵌入维度为e维，那么一条信息li表示的嵌入向量表示为li＝[x
i1
,x
i2
,...,x
ie
],一个用户的嵌入向量表示同理；用户历史行为序列是一个变长的序列，划分后根据子样本序列转换成对应的嵌入信息向量序列(一个子样本的嵌入信息向量序列则表示为l1＝[[x
11
,x
12
,...,x
1e
],...,[x
m1
,x
m2
,...,x
me
]])，根据子样本序列中用户行为类型，将该嵌入信息向量序列与用户行为类别指标进行加权求和后处理成定长的向量(对于子样本中的每一条信息，其对应有一个行为类型指标wi,进行加权求和后处理成的定长序列表示为l1＝[p1,p2,...pm],pi是维度为e维的向量)。然后融合类别特征、标签特征融合组成子样本序列对应的输入向量(具体的，类别特征和标签特征可以和信息一样表示为嵌入向量，根据子序列中信息的类别和标签转换成对应的嵌入向量，与子样本的嵌入信息向量序列进行拼接)，标签向量是由0和1组成的向量，即用户访问目标值则标签为1，用户目标值未访问(目标值为负采样样本)则标签为0。利用各个样本序列对应的输入向量和标签向量训练深度神经网络，可以得到推荐模型和模型训练过程中得到的用户嵌入向量和信息嵌入向量，其中所述深度神经网络，是一个三层的全连接神经网络，所述用户嵌入向量的维度和初始信息嵌入向量的维度是一致的。
[0081]
step4：根据推荐模型输入格式分别处理各个用户的子样本序列对应的输入向量，输入模型后得到用户的多个向量表示。对于每一个子样本序列，推荐模型会通过处理该子样本序列对应的输入向量，生成这个子样本序列对应的一个用户向量。基于各个用户向量与信息嵌入向量做最近邻算法，得到待推荐给用户的多个待推荐信息，多次出现的信息将前置进行优先召回。
[0082]
对于深度网络模型生成的嵌入向量(嵌入向量是指用一个低维的稠密向量来表示一个实体，这里的实体是用户、信息、类别、标签等)，采用局部敏感哈希算法进行分桶。假设向量v是高维空间中的k维嵌入向量，r是随机生成的k维映射向量，哈希函数h(v)将向量v映射到一维空间，成为一个数值。对于多个嵌入向量来说，相似向量被哈希到同一个“桶”，通过查找目标嵌入向量所在“桶”，即可得到其相似向量的候选集，在候选集内通过相似度计算方法进行相似top-n召回。在用户量或信息量大的情况下，此种算法计算开销远远降低。
[0083]
局部敏感哈希的基本思想是通过函数进行映射，让相似的输入位于一个区域，称之为“桶”，在进行相似计算时，仅需在“桶”内进行搜索，从而减少计算量。在局部敏感哈希算法中，不同的距离度量对应不同的哈希函数，通过哈希函数进行分桶保留部分距离信息，
从而大规模降低相似候选集的思想是相通的。本发明使用欧式距离对应的哈希函数，如下所示：
[0084][0085]
式中，是指向下取整操作，r为0到1之间的随机向量，w代表桶宽，为任意正整数，b是一个在[0,w]之间均匀分布的随机变量，避免分桶边界固化。公式含义为：所有的向量经过哈希函数映射到一条直线上，这条直线由许多长度为w的线段组成，每一个不同的向量v会随机映射在不同的线段上。
[0086]
在深度模型召回策略中，利用行为序列信息重要性和用户类型对用户兴趣的影响程度，将用户行为序列划分成子样本序列后，在子序列中融合用户行为类型指标权重，输入深度网络模型训练得到推荐召回模型。根据模型能够得到用户的多种向量表示，在样本处理过程融入用户行为，防止生成的用户向量大规模相似问题，从而反映用户多维度兴趣，丰富推荐结果。对于模型生成用户和信息嵌入向量，利用局部敏感哈希算法进行分桶，在桶内查找相似用户或相似信息，即通过用户到用户到信息(u2u2i)或用户到信息到信息(u2i2i)途径，减少计算复杂度。
[0087]
(5)相似召回可利用深度网络模型得到的嵌入向量进行相似计算，得到相似用户和相似信息，也可利用信息本身特征，如分类、标签、内容等计算相似性，得到相似召回，传统的相似度的计算方法直接计算向量间的内积计算、pearson相似性、余弦相似性等，此类方法涉及全信息的遍历，如信息数较多，计算复杂度和时间延迟较大。
[0088]
步骤3、融合步骤2中的多路召回策略。将每个用户在每路召回策略下的召回信息进行合并、过滤，确定用户最终的信息推荐候选集，供后续排序阶段进行排序，并最终得到推荐结果。
[0089]
其中，合并为：将多路召回按顺序展示、将多路召回动态加权等。过滤为：将多路召回合并后根据业务策略过滤(如过滤掉后台下架的信息、重复信息等)。
[0090]
本实施例提供的一种基于多路召回的信息推荐方法，过采用多路召回策略，从多角度挖掘用户兴趣，能够为用户推荐提供多样化的推荐候选列表，从而提升用户体验和粘度。在标签召回策略中使用熵权法确定用户行为类型指标权重，基于用户行为数据计算行为类别权重，能根据用户的实际行为调整和更新权重，追踪用户的兴趣变化；在模型召回策略中，在样本处理过程融入用户行为，防止生成的用户向量大规模相似问题。对于模型生成的嵌入向量采用局部敏感哈希算法进行分桶，在桶内查找相似用户或相似信息，即用户到用户到信息(u2u2i)或用户到信息到信息(u2i2i)，避免了全量数据的遍历从而减少了计算复杂度。
[0091]
实施例二
[0092]
本实施例提供了一种基于多路召回的信息推荐系统，其具体包括如下模块：
[0093]
数据获取模块，其被配置为：获取用户与信息数据；
[0094]
多路召回模块，其被配置为：基于用户与信息数据，采用多路召回策略，得到不同召回策略的信息推荐候选集；
[0095]
融合模块，其被配置为：将每个用户在每路召回策略下的信息推荐候选集进行融合，确定用户最终的信息推荐候选集；
[0096]
其中，多路召回策略中的标签召回策略使用熵权法确定行为类型指标权重，并融合时间衰减权重、标签权重和用户行为次数权重，得到用户标签权重，选取用户标签权重最大的标签作为用户偏好标签，将偏好标签匹配的信息进行召回。
[0097]
此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。
[0098]
实施例三
[0099]
本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于多路召回的信息推荐方法中的步骤。
[0100]
实施例四
[0101]
本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于多路召回的信息推荐方法中的步骤。
[0102]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0103]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0104]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0105]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0106]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random accessmemory，ram)等。
[0107]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种显示主力吸筹和出货的方法与流程

一种基于多路召回的信息推荐方法及系统与流程

相关文献

最热文献