一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种信息推送方法和装置与流程

2021-12-07 21:49:00 来源:中国专利 TAG:


1.本发明涉及信息处理技术领域,特别涉及一种信息推送方法和装置。


背景技术:

2.如今电商行业,物品种类越来越多,针对大量的物品挖掘出物品间的关系是电商行业常见的场景需求,相似物品的挖掘是各个应用场景应用中很常见的功能,常见场景如推荐召回、物品池扩展、活动选物品、物品池迁移、新品标签打标等。
3.目前针对每个场景各自运行一套相似模型,来获取物品的相似物品。
4.在实现本技术的过程中,发明人发现每个场景各自运行一套相似模型的实现方案,由于重复功能模块的开发,浪费资源。


技术实现要素:

5.有鉴于此,本技术提供一种信息推送方法和装置,能够降低信息推送成本,避免资源的浪费。
6.为解决上述技术问题,本技术的技术方案是这样实现的:
7.在一个实施例中,提供了一种信息推送方法,所述方法包括:
8.获取源物品池;
9.获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池;
10.在所述目标物品池中确定与所述源物品池中的物品相似的物品,生成相似物品池;
11.推送所述相似物品池中的物品。
12.在另一个实施例中,提供了一种信息推送装置,所述装置包括:配置单元、源物品池获取单元、目标物品池获取单元、相似物品池生成单元和推送单元;
13.所述配置单元,用于配置场景限制信息和相似物品范围限制信息;
14.所述源物品池获取单元,用于获取源物品池;
15.所述目标池获取单元,用于获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池;
16.所述相似物品池生成单元,用于在所述目标池获取单元获取的目标物品池中确定与所述源物品池获取单元获取的源物品池中的物品相似的物品,生成相似物品池;
17.所述推送单元,用于推送所述相似物品池生成单元生成的相似物品池中的物品。
18.在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述信息推送方法的步骤。
19.在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述信息推送方法的步骤。
20.由上面的技术方案可见,上述实施例中通过设置应用场景的场景限制信息和相似
物品范围限制信息,确定目标物品池,并在目标物品池中匹配到与源物品池中的所有物品的相似物品池,进而进行推送。能够设置通用模型通过场景参数设置实现多个场景中相识物品推荐的技术方案,进而能够降低信息推送成本,避免资源的浪费。
附图说明
21.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
22.图1为本技术实施例一中信息推送流程示意图;
23.图2为本技术实施例二中在所述目标物品池中确定与所述源物品池中的物品相似的物品的流程示意图;
24.图3为本技术实施例二中确定两个物品的属性相似度的流程示意图;
25.图4为本技术实施例三中在所述目标物品池中确定与所述源物品池中的物品相似的物品的流程示意图;
26.图5为本技术实施例中选择词向量模型的流程示意图;
27.图6为本技术实施例四中信息推送流程示意图;
28.图7为编辑距离和相似度示意图;
29.图8为相似个数比对示意图;
30.图9为本技术实施例五中在所述目标物品池中确定与所述源物品池中的物品相似的物品的流程示意图;
31.图10为本技术实施例八中信息推送流程示意图;
32.图11为本技术实施例中应用于上述技术的装置结构示意图;
33.图12为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
34.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
35.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
36.下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
37.本技术实施例中提供一种信息推送方法,通过场景信息的设置,可对各种场景的种子物品通过物品相似性获取更多物品,以便满足各种场景的需求。
38.场景举例如下:七夕节年货节等活动选品,召回推荐场景作为其中一路召回,通过种子物品扩散到更多的能拉新复购的商品等。涉及到物品池相似迁移和扩散的场景,其中种子物品池具有这些特点,通过业务条件限制、人货关系匹配、商品属性、用户属性、现实资源状况等得到的物品池不足需要扩散到更大的物品池;或者只有特定时序和空间的物品池,想要迁移得到不同空间的同场景的物品池;比如京东便利店的例子,把去年春节在线上购物情况较好的物品迁移到今年春节的线下店。
39.具体应用场景本技术实施例不限于上述举例场景,只要使用者给出场景信息,即可在场景信息限制的场景中为使用者推荐更多的物品。
40.上述信息推送方法应用于信息推送装置上,所述装置可以为一台pc,服务器等。
41.下面结合附图,详细说明本技术实施例中实现信息推送的过程。
42.实施例一
43.参见图1,图1为本技术实施例一中信息推送流程示意图。具体步骤为:
44.步骤101,获取源物品池。
45.这里的源物品池相当于种子物品,用于通过这些物品去找更多与其相似的物品。
46.本步骤中获取源物品池,包括:
47.获取直接上传的源物品池;
48.或,在平台物品池选择与配置的参数匹配的物品,并生成源物品池。
49.也就是说本技术实施例中可以使用用户直接上传的源物品池,也可以提供配置页面,由使用者进行参数配置,如物品属性、上柜时间、物品名称等;根据配置的参数生成目标物品池。
50.步骤102,获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池。
51.这里的目标物品池即为查找与源物品池中的物品相似的物品的物品池,一般比平台物品池包含的物品要少,是通过场景限制信息和相似物品范围限制信息过滤后的平台物品池。
52.本步骤中获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池,包括:
53.获取直接上传的与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池;
54.或,在平台物品池中选择与配置的场景限制信息和相似物品范围限制信息匹配的物品,生成目标物品池。
55.本技术实施例中具体实现时,目标物品池可以是使用者根据应用场景的场景限制信息,以及相似物品范围限制信息自行收集的目标物品池,并直接上传,也可以是使用者配置应用场景的场景限制信息和相似物品范围限制信息,在信息推送装置上的平台物品池中匹配出的目标物品池,本技术实施例中对获取目标物品池的实现方式不进行限制。
56.这里的场景限制信息,用于限定推送的物品应用的场景,不同的场景有不同的目标物品池限制。
57.比如:在逛好店推荐召回场景目标物品池限制为:在售的、有效的、特定逛好店店铺的物品等;
58.七夕节选品场景目标物品池限制为:在售的、有效的、特定品类、近30天流量等。
59.上述列举的两种场景的场景限制信息仅是一种举例,具体实现时,不限于上述两种应用场景,也不限于上述给出的场景限制信息,具体场景可以根据实际需要进行设置。
60.其中,相似物品范围限制信息包括下述之一或任意组合:
61.三级目录、物品品牌、物品名称。
62.相似物品范围限制信息为三级目录时,指对应物品为同一三级目录下的物品;
63.相似物品范围限制信息为物品品牌时,指对应物品为同一品牌下的物品;
64.相似物品范围限制信息为物品名称时,指对应物品为同一物品名称下的物品;
65.相似物品范围限制信息为三级目录和物品品牌时,指对应物品为同一三级目录,且同一物品品牌下的物品;
66.相似物品范围限制信息为三级目录和物品名称时,指对应物品为同一三级目录,且同一物品名称下的物品;
67.相似物品范围限制信息为物品品牌和物品名称时,指对应物品为同一物品名称,且同一物品品牌下的物品;
68.相似物品范围限制信息为三级目录、物品品牌和物品名称时,指对应物品为同一三级目录,同一物品品牌且同一物品名称下的物品。
69.三级目录可以为物品分类过程中,等级排名第三的目录,三级目录的确定根据使用者的平台物品等级设置;
70.物品品牌指同一品牌下的物品,如三元牛奶对应的牛奶产品等;
71.物品名称指物品属于的类别名称,如牛奶等。
72.目标物品池中有众多物品,供查找与源物品池中的物品相似的物品。
73.步骤103,在所述目标物品池中确定与所述源物品池中的物品相似的物品,生成相似物品池。
74.本技术实施例中确定两个物品之间是否相似,可以计算两个物品的属性相似度确定两个物品是否相似,也可以计算两个物品的标题相似度确定两个物品是否相似,还可以计算两个物品的属性相似度和标题相似度的融合相似度确定两个物品是否相似。
75.步骤104,推送所述相似物品池中的物品。
76.本技术实施例中推送所述相似物品池中的物品可以是在本地显示,也可以是发送给请求设备,本技术实施例对此不进行限制。
77.在推送物品时,还可以推送物品的相关信息。推送下述信息之一或任意组合:
78.物品的地址信息、物品是否直接复用历史结果、将物品按照预设规则排序。
79.其中,
80.如物品的地址信息,即相似物品池的地址信息:url、hdfs地址、hive 表等;
81.还可以给出相似物品池中的物品是否直接复用历史结果。
82.还可以在推送所述相似物品池中的物品时,对物品给出按照某种,或某几种规则进行排序后推送:
83.如按照相似度从高到低的顺序排列;
84.近n天的销售量;
85.近n天的单量等。
86.上述给出的仅是推送物品时可以推送的相关信息,使用者可以根据实际需要指定推送的物品信息,申请实施例中对可推送的物品的相关信息不进行限制。
87.本实施例中通过设置应用场景的场景限制信息和相似物品范围限制信息,确定源物品池和目标物品池,并在目标物品池中匹配到与源物品池中的所有物品的相似物品池,进而进行推送。能够设置通用模型通过场景参数设置实现多个场景中相识物品推荐的技术方案,进而能够降低信息推送成本,避免资源的浪费。
88.实施例二
89.实施例一中的在所述目标物品池中确定与所述源物品池中的物品相似的物品,生成相似物品池的实现,具体为:
90.参见图2,图2为本技术实施例二中在所述目标物品池中确定与所述源物品池中的物品相似的物品的流程示意图。具体步骤为:
91.步骤201,在源物品池中选择第一物品。
92.这里的第一物品为源物品池中的任一物品。
93.步骤202,在目标物品池中选择第二物品。
94.这里的第二物品为目标物品池中的任一物品。
95.步骤203,确定所述第一物品和所述第二物品的属性相似度。
96.所述相似度根据jaccard相似度,以及平台物品池中物品的总数量和具有所述第一物品和所述第二物品的属性交集中的属性的平台物品的数量计算;所述 jaccard相似度根据所述第一物品和第二物品的属性交集和并集计算;
97.具体计算过程如下:
98.参见图3,图3为本技术实施例二中确定两个物品的属性相似度的流程示意图。具体步骤为:
99.步骤301,获取第一物品的物品属性集合。
100.本技术实施例中第一物品item1的物品属性集合attr1为 (attr11,attr12,

,attr1m),其中,m为第一物品的物品属性的个数。
101.步骤302,获取第二物品的物品属性集合。
102.本技术实施例中第二物品item2的物品属性集合attr2为 (attr21,attr22,

,attr2x),其中,x为第二物品的物品属性的个数。
103.m和x可以相同,也可以不同。
104.步骤303,获取所述第一物品和所述第二物品的物品属性集合的交集和并集。
105.attr=attr1∩attr2,attr为attr1和attr2的交集;attrs= attr1∪attr2,attrs为attr1和attr2的并集。
106.步骤304,根据所述交集和并集计算jaccard相似度,根据所述jaccard相似度,以及平台物品的总数量和具有所述交集中的属性的平台物品的数量计算所述第一物品和所述第二物品的属性相似度。
107.通过下述公式计算第一物品和第二物品的属性相似度:
[0108][0109]
其中,
[0110][0111][0112]
上述计算过程,对物品的属性相似度进行重构,把每个物品的全部属性作为一个文档,每个属性等价为一个词,计算这个物品对(第一物品和第二物品) 的jaccard相似度jaccard
(item1,item2)

[0113]
其中,l为物品的属性种类,如扩展属性、规格属性、特殊属性、营销属性等;其中每个属性种类对应多个物品属性。k为交集attr中的属性个数,为交集attr中属于第j个属性种类的第i个属性的物品的数量;n
j
为平台物品池中第j个属性种类的物品的数量;平台物品池为推送信息所在平台的所有物品生成的平台物品池,如应用在京东这个平台,则平台物品池指京东这个平台的所有物品生成的物品池。
[0114]
步骤204,若确定所述属性相似度大于第一预设阈值,则将所述第二物品确定为与第一物品相似的物品。
[0115]
若确定所述属性相似度不大于第一预设阈值,则将所述第二物品确定为不相似的物品。
[0116]
第一预设阈值的设置根据实际应用场景需求设置,本技术实施例中对其设置的具体值不进行限制。
[0117]
当确定第二物品为相似的物品时,将其加入相似物品池中;否则,不加入所述相似物品池。
[0118]
本技术实施例中通过先计算两个物品的jaccard相似度,再计算两个物品的交集属性的idf值的属性相似度确定方案,能够提高物品相似度计算的准确性。
[0119]
如果仅使用jaccard相似度衡量物品的相似度,忽略了整体属性的分布,导致相似度结果倾向于大众属性。
[0120]
比如上市时间:2019年夏季,风格:其他,保质期:120天等属性和属性值出现频次很高,会导致两个物品很容易产生交集,其实这些属性是通用属性覆盖量广,这样会导致很多物品具有不重要的属性jaccard计算后相似度很高,导致判断两个物品相似的错误判断。
[0121]
实施例三
[0122]
实施例一中的在所述目标物品池中确定与所述源物品池中的物品相似的物品,生成相似物品池的实现,具体为:
[0123]
参见图4,图4为本技术实施例三中在所述目标物品池中确定与所述源物品池中的物品相似的物品的流程示意图。具体步骤为:
[0124]
步骤401,在源物品池中选择第三物品,并获取所述第三物品的标题向量。
[0125]
第三物品为源物品池中的任一物品。
[0126]
步骤402,在目标物品池中选择第四物品,并获取所述第四物品的标题向量。
[0127]
第四物品为目标物品池中的任一物品。
[0128]
本技术实施例中通过预设词向量模型获取标题的标题向量。
[0129]
当存在多个待选择的词向量模型时,本技术实施例中通过评价标题向量效果来选择一个词向量模型作为预设词向量模型。
[0130]
其中的多个待选择的词向量模型可以是当前建立的,也可以是预先建立好的,本技术实施例中给出如下词向量模型建立过程,但不限于下述建模过程:
[0131]
采用活跃物品表的22亿物品标题,利用哈工大ltp分词工具,其中词库可以采用京东物品的品牌词和属性词,通过word2vec的skip-graim算法得建立词向量模型,可以获取标题向量,统计所有分词数量为980万,其中频次大于50 的词有320万,这些词出现次数覆盖所有标题分词的99.39%,故mincount设置为50;滑动窗口设置为[3,10],共迭代5到20次,分区设置为1000,向量维度可设置为[32,200];spark实现skip-gram直接复现原始word2vec-c语言版本。
[0132]
具体选择词向量模型的过程如下:
[0133]
参见图5,图5为本技术实施例中选择词向量模型的流程示意图。具体步骤为:
[0134]
步骤501,基于聚类算法,根据每簇的类目纯度计算待选择的词向量模型的效果评价指标值。
[0135]
本技术实施例中聚类算法可以采用kmeans 算法,聚类距离采用cosine 距离,根据聚类效果评价方式轮廓系数法、肘方法来选取最佳聚类值n。
[0136]
n可以根据经验设定,也可以通过抽样样本统计得出。
[0137]
以n为500为例,一共聚类结果有500簇(cluster1,cluster2,cluster3,

, cluster500),其中需要统计每簇内的物品归属类目,则词向量模型的效果评价指标值可以通过如下公式计算:
[0138][0139]
其中,
[0140]
n为簇的数量,r为类目级数,如可以设置为3(一级类目、二级类目、三级类目);h(x)
nr
为第n簇第r级类目的不纯度;α
n
为第n簇的物品数量占所有簇的物品数量的比例,p(x
nr
)为第n个簇第r级类目的第d个类目对应的物品数量在n个簇中第r级类目的第d个类目对应的物品数量的比值,每一级类目下有多个类目,即每一级类目下对应多个类目名称。
[0141]
步骤502,选择效果评价指标值最小的待选择的词向量模型作为预设词向量模型。
[0142]
通过对词向量的向量模型的评价效果数字化,实现词向量模型优劣的比较。
[0143]
步骤403,根据所述第三物品的标题向量和所述第四物品的标题向量确定所述第三物品和所述第四物品的标题相似度。
[0144]
获取两个物品的标题向量后,对两个物品的标题向量相似度计算的方法不进行限制。
[0145]
步骤404,当确定所述标题相似度大于第二预设阈值,则将所述第四物品确定为与所述第三物品相似的物品。
[0146]
若确定所述标题相似度不大于第二预设阈值,则将所述第四物品确定为不相似的物品。
[0147]
第二预设阈值的设置根据实际应用场景需求设置,本技术实施例中对其设置的具体值不进行限制。
[0148]
当确定第四物品为相似的物品时,将其加入相似物品池中;否则,不加入所述相似物品池。
[0149]
本实施例中通过标题相似度确定两个物品是否相似,由于选择了最优的标题向量提取模型,则大大提高了标题相似度计算的准确率,即提高了相似物品匹配的准确率。
[0150]
实施例四
[0151]
参见图6,图6为本技术实施例四中信息推送流程示意图。具体步骤为:
[0152]
步骤601,获取源物品池。
[0153]
这里的源物品池相当于种子物品,用于通过这些物品去找更多与其相似的物品。
[0154]
本步骤中获取源物品池,包括:
[0155]
获取直接上传的源物品池;
[0156]
或,在平台物品池选择与配置的参数匹配的物品,并生成源物品池。
[0157]
也就是说本技术实施例中可以使用用户直接上传的源物品池,也可以提供配置页面,由使用者进行参数配置,如物品属性、上柜时间、物品名称等;根据配置的参数生成目标物品池。
[0158]
步骤602,获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池。
[0159]
这里的目标物品池即为查找与源物品池中的物品相似的物品的物品池,一般比平台物品池包含的物品要少,是通过场景限制信息和相似物品范围限制信息过滤后的平台物品池。
[0160]
本步骤中获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池,包括:
[0161]
获取直接上传的与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池;
[0162]
或,在平台物品池中选择与配置的场景限制信息和相似物品范围限制信息匹配的物品,生成目标物品池。
[0163]
本技术实施例中具体实现时,目标物品池可以是使用者根据应用场景的场景限制信息,以及相似物品范围限制信息自行收集的目标物品池,并直接上传,也可以是使用者配置应用场景的场景限制信息和相似物品范围限制信息,在信息推送装置上的平台物品池中匹配出的目标物品池,本技术实施例中对获取目标物品池的实现方式不进行限制。
[0164]
这里的场景限制信息,用于限定推送的物品应用的场景,不同的场景有不同的目标物品池限制。
[0165]
比如:在逛好店推荐召回场景目标物品池限制为:在售的、有效的、特定逛好店店铺的物品等;
[0166]
七夕节选品场景目标物品池限制为:在售的、有效的、特定品类、近30天流量等。
[0167]
上述列举的两种场景的场景限制信息仅是一种举例,具体实现时,不限于上述两
cluster500),其中需要统计每簇内的物品归属类目,则词向量模型的效果评价指标值可以通过如下公式计算:
[0192][0193]
其中,
[0194]
n为簇的数量,r为类目级数,如可以设置为3(一级类目、二级类目、三级类目);h(x)
nr
为第n簇第r级类目的不纯度;α
n
为第n簇的物品数量占所有簇的物品数量的比例,p(x
nr
)为第n个簇第r级类目的第d个类目对应的物品数量在n个簇中第r级类目的第d个类目对应的物品数量的比值,每一级类目下有多个类目,即每一级类目下对应多个类目名称。
[0195]
第二步、选择效果评价指标值最小的待选择的词向量模型作为预设词向量模型。
[0196]
通过对词向量的向量模型的评价效果数字化,实现词向量模型优劣的比较。
[0197]
步骤605,根据所述第三物品的标题向量和所述第四物品的标题向量确定所述第三物品和所述第四物品的标题相似度。
[0198]
获取两个物品的标题向量后,对两个物品的标题向量相似度计算的方法不进行限制。
[0199]
步骤606,当确定所述标题相似度大于第二预设阈值,则将所述第四物品确定为相似的物品,并将所述相似物品增加到相似物品池中。
[0200]
若确定所述标题相似度不大于第二预设阈值,则将所述第四物品确定为不相似的物品;且不加入所述相似物品池。
[0201]
步骤607,使用设置的与第二预设阈值配对的topn值针对所述相似物品池中同一物品的相似物品进行过滤。
[0202]
本技术实施例在具体实现时,不仅使用标题向量相似度确定物品是否相识,还通过配对设置每个物品找到相似物品的数目(topn)值和第二预设阈值来对标题向量召回的相似物品进行过滤。
[0203]
通过训练、经验等方式获得最优配对结果为:top3、5、10、50、100,第二预设阈值为0.8474。
[0204]
下面给出举例,说明设置上述配对结果的好处:
[0205]
以多轮抽样1000个物品的top10000相似物品为例,统计各个topn范围内的相似度/相似率/不相似率分布推荐选择合适的topn和相似度值。
[0206]
相似度阈值选取:在每个topn段里面统计编辑距离相似度和cos相似度均值分布。
[0207]
参见图7,图7为编辑距离和相似度示意图。图7中实心圆对应的线表示相似度均值,空心圆对应的线表示编辑距离均值。
[0208]
图7中随着topn的增大,编辑距离相似度均值变小cos相似度值均值也变小。说明标题向量cos相似度表达了一定的编辑距离相似度的变化规律。相似度的值域较多的分别在1/0.9/0.8附近,其中标题相似度大于0.8的占比92.23%。但是不影响topn选择最相似的结果比较。标题相似性和编辑距离存在一定关联性,参考编辑距离抽样数据进行人工查验,相似度大于0.9的相似结果95.87%都是相似的,相似度小于0.8的相似结果20.68%都是相
似的且这部分商品数量极少,故在[0.8,0.9]选择一个值最大可能保留相似结果,经过人工筛查,两个标题的相似度大于0.8474的相似商品结果可信度较高,故采用0.8474作为相似度截断值。topn值选取:确定0.8474后,需要选取最佳的topn值,统计不同 topn段的相似度截断值为0.8474的情况下的数据分布如下表1和图8。
[0209]
表1为不同topn段的相似度截断值为0.8474的情况下的数据分布。
[0210][0211][0212]
表1
[0213]
针对每个topn每段的抽样1038个sku进行数据分析,参照编辑距离提取出每段里不相似的sku,表1中,top1~10不相似sku有17个,top70~100 不相似sku35个,等等。研究分析这些不相似的sku可以通过相似度>0.8474 的sku进行过滤,相似度小于0.8474的top1~10有14个,top70~100有27 个,其中不相似的分别有13个和24个,还有分别4个和11个不相似的没有被 0.8474的指标卡到,这些相似度>0.8474。
[0214]
参见图8,图8为相似个数比对示意图。图8中,三角线对应的线段表示“<0.8474,其中不相似的有”,菱形所对应线段中表示“不相似个数”,矩形对应的线段表示“不相似个数”,叉对应的线段表示“范围内,还有不相似的有”。
[0215]
通过三角形对应的线段,以及菱形对应的线段会过滤掉大部分的不相似的物品,但是随着topn段的增长也会误判很多相似的物品为不相似的,所以topn 取值不能太大,需要选择合适的小值。
[0216]
top70~100误判3个,经过限制相似度值0.8474后得到的相似结果不相似率top70~100由之前的不相似率3.37%下降到1.06%,100个中有一个是不相似的,再结合之前做
的需求一般找物品相似物品topn选择<=100故top建议100 以内较合理。表2为限制相似度为0.8474前后的每个topn段的召回商品中不相似占比的数据分布:
[0217][0218][0219]
表2
[0220]
top70~100限制相似度后的不相似率为1.06%,覆盖率98.73%,综合得到 top1~100相似范围比较合理。根据经验top3、5、10、50、100,相似度0.8474 为最终选择。
[0221]
步骤608,推送过滤后的相似物品池中的物品。
[0222]
本技术实施例中推送所述相似物品池中的物品可以是在本地显示,也可以是发送给请求设备,本技术实施例对此不进行限制。
[0223]
在推送物品时,还可以推送物品的相关信息。
[0224]
如物品的地址信息,即相似物品池的地址信息:url、hdfs地址、hive 表等;
[0225]
还可以给出相似物品池中的物品是否直接复用历史结果。
[0226]
还可以在推送所述相似物品池中的物品时,对物品给出按照某种,或某几种规则进行排序后推送:
[0227]
如按照相似度从高到低的顺序排列;
[0228]
近n天的销售量;
[0229]
近n天的单量等。
[0230]
上述给出的仅是推送物品时可以推送的相关信息,使用者可以根据实际需要指定推送的物品信息,申请实施例中对可推送的物品的相关信息不进行限制。
[0231]
本实施例中通过设置应用场景的场景限制信息和相似物品范围限制信息,确定源物品池和目标物品池,并在目标物品池中匹配到与源物品池中的所有物品的相似物品池,进而进行推送。能够设置通用模型通过场景参数设置实现多个场景中相识物品推荐的技术方案,进而能够降低信息推送成本,避免资源的浪费。
[0232]
在确定物品相似过程中通过标题向量的相似度,以及topn值组合物品是否作为待推荐物品。
[0233]
实施例五
[0234]
实施例一中的在所述目标物品池中确定与所述源物品池中的物品相似的物品,生成相似物品池的实现,具体为:
[0235]
参见图9,图9为本技术实施例五中在所述目标物品池中确定与所述源物品池中的物品相似的物品的流程示意图。具体步骤为:
[0236]
步骤901,在源物品池中选择第五物品。
[0237]
这里的第五物品为源物品池中的任一物品。
[0238]
步骤902,在目标物品池中选择第六物品。
[0239]
这里的第六物品为目标物品池中的任一物品。
[0240]
步骤903,确定所述第五物品和所述第六物品的属性相似度。
[0241]
确定第五物品和第六物品的属性相似度的过程如下:
[0242]
第一步、获取第五物品的物品属性集合attr1。
[0243]
本技术实施例中第五物品item5的物品属性集合attr1为 (attr11,attr12,

,attr1b),其中,b为第五物品的物品属性的个数。
[0244]
第二步、获取第六物品的物品属性集合attr2。
[0245]
本技术实施例中第二物品item6的物品属性集合attr2为 (attr21,attr22,

,attr2p),其中,p为第六物品的物品属性的个数。
[0246]
b和p可以相同,也可以不同。
[0247]
第三步、获取所述第五物品和所述第六物品的物品属性集合的交集attr 和并集attrs。
[0248]
attr=attr1∩attr2,attr为attr1和attr2的交集;attrs= attr1∪attr2,attrs为attr1和attr2的并集。
[0249]
第四步、根据所述交集和并集计算jaccard相似度,根据所述jaccard相似度,以及平台物品的总数量n和具有所述交集attr中的属性的平台物品的数量计算所述第五物品和所述第六物品的属性相似度。
[0250]
通过下述公式计算第六物品和第四物品的属性相似度:
[0251][0252]
其中,
[0253][0254]
[0255]
上述计算过程,对物品的属性相似度进行重构,把每个物品的全部属性作为一个文档,每个属性等价为一个词,计算这个物品对(第五物品和第六物品) 的jaccard相似度jaccard
(item1,item2)

[0256]
其中,l为物品的属性种类,如扩展属性、规格属性、特殊属性、营销属性等;其中每个属性种类对应多个物品属性。k为交集attr中的属性个数,为交集attr中属于第j个属性种类的第i个属性的物品的数量;n
j
为平台物品池中第j个属性种类的物品的数量;平台物品池为推送信息所在平台的所有物品生成的平台物品池,如应用在京东这个平台,则平台物品池指京东这个平台的所有物品生成的物品池;
[0257]
本技术实施例中的上述计算公式中所使用的字母表示的含义与实施例二中的相同,但是值可能不同,也可能相同。
[0258]
步骤904,确定所述第五物品和所述第六物品的标题相似度。
[0259]
本技术实施例中通过预设词向量模型获取标题的标题向量。
[0260]
当存在多个待选择的词向量模型时,本技术实施例中通过评价标题向量效果来选择一个词向量模型作为预设词向量模型。
[0261]
其中的多个待选择的词向量模型可以是当前建立的,也可以是预先建立好的,本技术实施例中给出如下词向量模型建立过程,但不限于下述建模过程:
[0262]
采用活跃物品表的22亿物品标题,利用哈工大ltp分词工具,其中词库可以采用京东物品的品牌词和属性词,通过word2vec的skip-graim算法得建立词向量模型,可以获取标题向量,统计所有分词数量为980万,其中频次大于50 的词有320万,这些词出现次数覆盖所有标题分词的99.39%,故mincount设置为50;滑动窗口设置为[3,10],共迭代5到20次,分区设置为1000,向量维度可设置为[32,200];spark实现skip-gram直接复现原始word2vec-c语言版本。
[0263]
具体选择词向量模型的过程如下:
[0264]
第一步、基于聚类算法,根据每簇的类目纯度计算待选择的词向量模型的效果评价指标值。
[0265]
本技术实施例中聚类算法可以采用kmeans 算法,聚类距离采用cosine 距离,根据聚类效果评价方式轮廓系数法、肘方法来选取最佳聚类值n。
[0266]
n可以根据经验设定,也可以通过抽样样本统计得出。
[0267]
以n为500为例,一共聚类结果有500簇(cluster1,cluster2,cluster3,

, cluster500),其中需要统计每簇内的物品归属类目,则词向量模型的效果评价指标值可以通过如下公式计算:
[0268][0269]
其中,
[0270]
n为簇的数量,r为类目级数,如可以设置为3(一级类目、二级类目、三级类目);h(x)
nr
为第n簇第r级类目的不纯度;α
n
为第n簇的物品数量占所有簇的物品数量的比例,p(x
nr
)为第n个簇第r级类目的第d个类目对应的物品数量在n个簇中第r级类目的第d个类目
对应的物品数量的比值,每一级类目下有多个类目,即每一级类目下对应多个类目名称。
[0271]
第二步、选择效果评价指标值最小的待选择的词向量模型作为预设词向量模型。
[0272]
通过对词向量的向量模型的评价效果数字化,实现词向量模型优劣的比较。
[0273]
获取两个物品的标题向量后,对两个物品的标题向量相似度计算的方法不进行限制。
[0274]
步骤904和步骤903的执行不分先后顺序,可以并列执行,也可以顺序执行。
[0275]
步骤905,根据所述属性相似度和所述标题相似度确定所述第五物品和第六物品的整体相似度。
[0276]
本步骤中根据所述属性相似度和所述标题相似度确定所述第五物品和第六物品的整体相似度,具体包括:
[0277]
当所述标题相似度的值大于第二预设阈值时,通过下式计算整体相似度:
[0278]
simi
all
=simtitle βsimiattr
all

[0279]
其中,simi
all
为整体相似度,simtitle为标题相似度,simiattr
all
为属性相似度,β为降权系数,0<β<1;
[0280]
具体实现时,不限制β和第二预设阈值的值,如β可以设置为0.5,第二预设阈值可以设置为0.8474。
[0281]
当所述标题相似度的值不大于第二预设阈值时,通过下式计算整体相似度:
[0282]
simi
all
=βsimtitle simiattr
all

[0283]
其中,simi
all
为整体相似度,simtitle为标题相似度,simiattr
all
为属性相似度,β为降权系数,0<β<1;
[0284]
具体实现时,不限制β和第二预设阈值的值,如β可以设置为0.5,第二预设阈值可以设置为0.8474。
[0285]
本技术实施例中在标题相似度的值大于第二预设阈值时视为有效,如果标题相似度的值大于第二预设阈值就以标题相似度为主,属性相似度进行降权处理;如果在标题相似度的值不大于第二预设阈值时视为非有效,如果标题相似度的值不大于第二预设阈值就以属性相似度为主,标题相似度进行降权处理。
[0286]
步骤906,当确定所述整体相似度大于第三预设阈值时,确定所述第五物品和所述第六物品为相似的物品。
[0287]
当确定所述整体相似度不大于第三预设阈值时,确定所述第五物品和所述第六物品为不相似的物品。
[0288]
第三预设阈值的设置根据实际应用场景需求设置,本技术实施例中对其设置的具体值不进行限制。
[0289]
当确定第六物品为相似的物品时,将其加入相似物品池中;否则,不加入所述相似物品池。
[0290]
本实施例中通过标题相似度和属性相似度融合后的整体相似度确定两个物品是否相似,由于融合了两种相似度,大大提高了两个物品的整体相似度计算的准确率,即提高了相似物品匹配的准确率。
[0291]
实施例六
[0292]
本技术实施例中在实现信息推送时,可以给出两种实现模式,一种为开发者模式,
一种为非开发模式,也可称为普通模式。
[0293]
开发模式可以供具有研发能力的研发者使用,非开发模式供弱研发能力或无研发能力的使用者使用。
[0294]
具体使用时,可以选择使用开发者模式还是非开发者模式。
[0295]
针对开发者模式,当处于开发模式时,开放配置参数调整相似确定方法,以及源物品池和目的物品池的获取,开放集群运行资源配置参数调整运行时效,接收源物品池和目标物品池的输入。
[0296]
针对源物品池,需要设置的内容:
[0297]
源物品池的地址信息:源物品池的hdfs地址、hive表、csv等;
[0298]
多级类目,一般为三级,若未输入,则默认三级类目下的物品相似;
[0299]
相似物品范围限制信息:三级目录、物品品牌、物品名称,具体实现时,可以为其分别分配标识,如,0、1、2等。
[0300]
针对目标物品池,需要设置的内容:
[0301]
排序规则:2-7天销售量等;
[0302]
物品近7天流量、单量,近30天单量、流量等。
[0303]
物品的有效标志:是否有可售卖;
[0304]
物品的状态:是否上柜;
[0305]
目标物品池的地址信息:目标物品池的url、hdfs地址、hive表等。
[0306]
物品是否复用历史结果。
[0307]
相似确定过程可设置的参数:
[0308]
确定相似度的方法:标题相似度、属性相似度、整体相似度;
[0309]
物品召回数量。
[0310]
实现信息推送装置的资源配置:
[0311]
[deploymode]资源管理器(yet another resource negotiator,yarn)运行模式选择;
[0312]
[numexecutor]计算引擎(spark)的执行器(executor)运行数量设置;
[0313]
[executormemory]spark的executor运行内存设置;
[0314]
[drivermemory]spark的驱动(driver)运行内存设置;
[0315]
[executorcores]spark的executor运行核数设置;
[0316]
[shufflepartitions]spark的驱动(driver)运行内存设置;
[0317]
[defaultparllelism]spark的驱动(driver)运行内存设置。
[0318]
针对开发者模式可以进行上述相关配置,通过上述相关设置可以式本技术实施例中的信息推送方法应用到多个应用场景中,相当于建立了一个通用模型,不需要针对每个场景设置一个模型进行信息推送;
[0319]
开发者模式还可以进行资源设置,能够大大提高信息推送的效率,并避免资源的浪费。
[0320]
针对非开发者模式,当选择非开发模式时,开放场景设置,topn设置,以及根据场景限制的目标物品池的生成和源物品池的输入。
[0321]
具体实现如下:
[0322]
针对源物品池,需要设置的内容:
[0323]
源物品池的地址信息:源物品池的hdfs地址、hive表、csv等;
[0324]
多级类目,一般为三级,若未输入,则默认三级类目下的物品相似;
[0325]
相似物品范围限制信息:三级目录、物品品牌、物品名称,具体实现时,可以为其分别分配标识,如,0、1、2等。
[0326]
针对目标物品池,需要设置的内容:
[0327]
排序规则:2-7天销售量等;
[0328]
物品近7天流量、单量,近30天单量、流量等。
[0329]
物品的有效标志:是否有可售卖;
[0330]
物品的状态:是否上柜;
[0331]
相似确定过程可设置的参数:
[0332]
确定相似度的方法:标题相似度、属性相似度、整体相似度;
[0333]
物品召回数量。
[0334]
针对非开发者模式,即普通模式,可以设置确定相似物品相关的信息,不提供资源配置选项,这样不懂研发的普通使用者也可以根据需要进行相关设置,进而实现相似物品的推送。
[0335]
实施例七
[0336]
本技术实施例中在确定相似物品时,还可以确定一下目标物品池中物品的数量级数;
[0337]
当确定相似物品池中的物品的数量级为百万级,或小于百万级时,将源物品池中的物品分配到多个相似物品确定节点,将目标物品池广播到所述多个相似物品确定节点。
[0338]
待多个相似物品确定节点获取相似物品后,将所有相似物品返回,生成相似物品池。
[0339]
当确定相似物品池中的物品的数量级为千万级,或大于千万级时,先通过局部敏感哈希(localitysensitivehashing,lsh)算法过滤目标物品池,再在目标物品池中确定与所述源物品池中的物品相似的物品。
[0340]
该实施例中当确定相似物品池中的物品的数量级为百万级,或小于百万级时实现精确相似度计算,为了提高速率,分配到多个节点上分别执行,即并行执行。
[0341]
目前lsh算法适用于4000千万物品相互查找相似结果。
[0342]
当确定相似物品池中的物品的数量级为千万级,或大于千万级时,先通过近似算法过滤目标物品池,以便降低计算量。
[0343]
实施例八
[0344]
参见图10,图10为本技术实施例八中信息推送流程示意图。具体步骤为:
[0345]
步骤1001,获取源物品池。
[0346]
这里的源物品池相当于种子物品,用于通过这些物品去找更多与其相似的物品。
[0347]
本步骤中获取源物品池,包括:
[0348]
获取直接上传的源物品池;
[0349]
或,在平台物品池选择与配置的参数匹配的物品,并生成源物品池。
[0350]
也就是说本技术实施例中可以使用用户直接上传的源物品池,也可以提供配置页
面,由使用者进行参数配置,如物品属性、上柜时间、物品名称等;根据配置的参数生成目标物品池。
[0351]
步骤1002,获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池。
[0352]
这里的目标物品池即为查找与源物品池中的物品相似的物品的物品池,一般比平台物品池包含的物品要少,是通过场景限制信息和相似物品范围限制信息过滤后的平台物品池。
[0353]
本步骤中获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池,包括:
[0354]
获取直接上传的与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池;
[0355]
或,在平台物品池中选择与配置的场景限制信息和相似物品范围限制信息匹配的物品,生成目标物品池。
[0356]
本技术实施例中具体实现时,目标物品池可以是使用者根据应用场景的场景限制信息,以及相似物品范围限制信息自行收集的目标物品池,并直接上传,也可以是使用者配置应用场景的场景限制信息和相似物品范围限制信息,在信息推送装置上的平台物品池中匹配出的目标物品池,本技术实施例中对获取目标物品池的实现方式不进行限制。
[0357]
这里的场景限制信息,用于限定推送的物品应用的场景,不同的场景有不同的目标物品池限制。
[0358]
比如:在逛好店推荐召回场景目标物品池限制为:在售的、有效的、特定逛好店店铺的物品等;
[0359]
七夕节选品场景目标物品池限制为:在售的、有效的、特定品类、近30天流量等。
[0360]
上述列举的两种场景的场景限制信息仅是一种举例,具体实现时,不限于上述两种应用场景,也不限于上述给出的场景限制信息,具体场景可以根据实际需要进行设置。
[0361]
其中,相似物品范围限制信息包括下述之一或任意组合:
[0362]
三级目录、物品品牌、物品名称。
[0363]
相似物品范围限制信息为三级目录时,指对应物品为同一三级目录下的物品;
[0364]
相似物品范围限制信息为物品品牌时,指对应物品为同一品牌下的物品;
[0365]
相似物品范围限制信息为物品名称时,指对应物品为同一物品名称下的物品;
[0366]
相似物品范围限制信息为三级目录和物品品牌时,指对应物品为同一三级目录,且同一物品品牌下的物品;
[0367]
相似物品范围限制信息为三级目录和物品名称时,指对应物品为同一三级目录,且同一物品名称下的物品;
[0368]
相似物品范围限制信息为物品品牌和物品名称时,指对应物品为同一物品名称,且同一物品品牌下的物品;
[0369]
相似物品范围限制信息为三级目录、物品品牌和物品名称时,指对应物品为同一三级目录,同一物品品牌且同一物品名称下的物品。
[0370]
三级目录可以为物品分类过程中,等级排名第三的目录,三级目录的确定根据使用者的平台物品等级设置;
[0371]
物品品牌指同一品牌下的物品,如三元牛奶对应的牛奶产品等;
[0372]
物品名称指物品属于的类别名称,如牛奶等。
[0373]
目标物品池中有众多物品,供查找与源物品池中的物品相似的物品。
[0374]
步骤1003,在所述目标物品池中确定与所述源物品池中的物品相似的物品,生成相似物品池。
[0375]
本技术实施例中确定两个物品之间是否相似,可以计算两个物品的属性相似度确定两个物品是否相似,也可以计算两个物品的标题相似度确定两个物品是否相似,还可以计算两个物品的属性相似度和标题相似度的融合相似度确定两个物品是否相似。
[0376]
步骤1004,使用设置的topn值过滤所述相似物品池中与源物品池中的同一物体相似的物体。
[0377]
该步骤的实现即如果源物品池中的物品a在目标物品池中存储大于n个相似的物品时,只保留n个相似物品,其他物品从相似物品池中删除。
[0378]
在需要过滤相似物品时,针对每个物品对应的相似物品可以维护一个小顶堆进行快速排序。
[0379]
删除物品时,可以随机选择删除,也可以将同一物品的所有相似物品按照相似度从大到小的顺序排序,保留前n个物品,之后的物品全部删除。
[0380]
步骤1005,推送所述相似物品池中的物品。
[0381]
此时推送的是过滤后的相似物品池中的物品。
[0382]
针对topn的值默认可以设置为10,也可以根据实际应用设置。
[0383]
如非开发者模式中topn设置为3、5、10、50、100的选项,如果业务想要设置topn为30,则本模型自动调整为召回50,同理如果设置为60,本模型自动设置为100,这样做的好处为:
[0384]
尽量保证多的召回量,可供后续条件过滤;
[0385]
增大历史数据复用的概率,可能同一种场景会使用多次,固定召回数目,下次遇到同种参数设置可以复用历史数据,减少重复计算。
[0386]
本技术实施例中推送所述相似物品池中的物品可以是在本地显示,也可以是发送给请求设备,本技术实施例对此不进行限制。
[0387]
在推送物品时,还可以推送物品的相关信息。
[0388]
如物品的地址信息,即相似物品池的地址信息:url、hdfs地址、hive 表等;
[0389]
还可以给出相似物品池中的物品是否直接复用历史结果。
[0390]
还可以在推送所述相似物品池中的物品时,对物品给出按照某种,或某几种规则进行排序后推送:
[0391]
如按照相似度从高到低的顺序排列;
[0392]
近n天的销售量;
[0393]
近n天的单量等。
[0394]
上述给出的仅是推送物品时可以推送的相关信息,使用者可以根据实际需要指定推送的物品信息,申请实施例中对可推送的物品的相关信息不进行限制。
[0395]
本实施例中通过设置应用场景的场景限制信息和相似物品范围限制信息,确定源物品池和目标物品池,并在目标物品池中匹配到与源物品池中的所有物品的相似物品池,
并根据设置的topn值进行过滤后进行推送。能够设置通用模型通过场景参数设置实现多个场景中相识物品推荐的技术方案,进而能够降低信息推送成本,避免资源的浪费。
[0396]
基于同样的发明构思,本技术实施例中还提供一种信息推送装置。参见图 11,图11为本技术实施例中应用于上述技术的装置结构示意图。所述装置包括:配置单元、源物品池获取单元、目标物品池获取单元、相似物品池生成单元和推送单元;
[0397]
所述配置单元,用于配置场景限制信息和相似物品范围限制信息;
[0398]
所述源物品池获取单元,用于获取源物品池;
[0399]
所述目标池获取单元,用于获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池;
[0400]
所述相似物品池生成单元,用于在所述目标池获取单元获取的目标物品池中确定与所述源物品池获取单元获取的源物品池中的物品相似的物品,生成相似物品池;
[0401]
所述推送单元,用于推送所述相似物品池生成单元生成的相似物品池中的物品。
[0402]
优选地,
[0403]
所述源物品池获取单元,具体用于获取直接上传的源物品池;或,在平台物品池选择与配置的参数匹配的物品,并生成源物品池。
[0404]
优选地,
[0405]
所述目标物品池获取单元,具体用于获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池时,获取直接上传的与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池;或,在平台物品池中选择与配置的场景限制信息和相似物品范围限制信息匹配的物品,生成目标物品池。
[0406]
优选地,
[0407]
所述相似物品池生成单元,具体用于在所述目标物品池中确定与所述源物品池中的物品相似的物品时,包括:在源物品池中选择第一物品;在目标物品池中选择第二物品;确定所述第一物品和所述第二物品的属性相似度;其中,所述相似度根据jaccard相似度,以及平台物品池中物品的总数量和具有所述第一物品和所述第二物品的属性交集中的属性的平台物品的数量计算;所述jaccard 相似度根据所述第一物品和第二物品的属性交集和并集计算;若确定所述属性相似度大于第一预设阈值,则将所述第二物品确定为与所述第一物品相似的物品。
[0408]
优选地,
[0409]
所述相似物品池,具体用于在所述目标物品池中确定与所述源物品池中的物品相似的物品时,包括:在源物品池中选择第三物品,并获取所述第三物品的标题向量;在目标物品池中选择第四物品,并获取所述第四物品的标题向量;根据所述第三物品的标题向量和所述第四物品的标题向量确定所述第三物品和所述第四物品的标题相似度;当确定所述标题相似度大于第二预设阈值,则将所述第四物品确定为与所述第三物品相似的物品。
[0410]
优选地,所述目标池获取单元,进一步用于通过预设词向量模型获取物品的标题向量;当存在多个待选择的词向量模型时,基于聚类算法,根据每簇的类目纯度计算待选择的词向量模型的效果评价指标值;选择效果评价指标值最小的待选择的词向量模型作为预设词向量模型。
[0411]
优选地,
[0412]
所述配置单元,进一步用于配置与第二预设阈值配对的topn值;
[0413]
所述推送单元,进一步用于推送所述相似物品池中的物品之前,使用所述配置单元配置的topn值针对所述相似物品池中同一物品的相似物品进行过滤。
[0414]
优选地,
[0415]
所述相似物品池生成单元,具体用于在所述目标物品池中确定与所述源物品池中的物品相似的物品时,包括:在源物品池中选择第五物品;在目标物品池中选择第六物品;确定所述第五物品和所述第六物品的属性相似度;确定所述第五物品和所述第六物品的标题相似度;根据所述属性相似度和所述标题相似度确定所述第五物品和第六物品的整体相似度;当确定所述整体相似度大于第三预设阈值时,确定所述第六物品为与所述第五物品相似的物品。
[0416]
优选地,
[0417]
所述相似物品池生成单元,具体用于根据所述属性相似度和所述标题相似度确定所述第五物品和第六物品的整体相似度时,包括:当所述标题相似度的值大于第二预设阈值时,通过如下式子计算整体相似度为:simtitle βsimiattr
all
;当所述标题相似度的值不大于第二预设阈值时,通过如下式子计算整体相似度为:βsimtitle simiattr
all
;其中,simtitle为标题相似度,simiattr
all
为属性相似度,β为降权系数,且0<β<1。
[0418]
优选地,
[0419]
所述推荐单元,进一步用于推送所述相似物品池中的物品之前,使用设置的 topn值过滤所述相似物品池中与源物品池中的同一物体相似的物体。
[0420]
优选地,
[0421]
所述配置单元,进一步用于配置开发模式和非开发模式;
[0422]
其中,当选择非开发模式时,开放场景设置,topn设置,以及根据场景限制的目标物品池的生成和源物品池的输入;
[0423]
当处于开发模式时,开放配置参数调整相似确定方法,以及源物品池和目的物品池的获取,开放集群运行资源配置参数调整运行时效,并接收源物品池和目标物品池的输入。
[0424]
优选地,
[0425]
所述相似物品池生成单元,进一步用于当确定目标物品池中的物品的数量级为百万级,或小于百万级时,将源物品池中的物品分配到多个相似物品确定节点,将目标物品池广播到所述多个相似物品确定节点;待多个相似物品确定节点获取相似物品后,将所有相似物品返回,生成相似物品池;当确定相似物品池中的物品的数量级为千万级,或大于千万级时,先通过局部敏感哈希lsh算法过滤目标物品池,再在目标物品池中确定与所述源物品池中的物品相似的物品。
[0426]
优选地,
[0427]
所述推送单元,进一步用于在推送所述相似物品池中的物品时,推送下述信息之一或任意组合:
[0428]
物品的地址信息、物品是否直接复用历史结果、将物品按照预设规则排序。
[0429]
优选地,所述相似物品范围限制信息包括下述之一或任意组合:
[0430]
三级目录、物品品牌、物品名称。
[0431]
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
[0432]
在另一个实施例中,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述信息推送方法的步骤。
[0433]
在另一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时可实现所述信息推送方法中的步骤。
[0434]
图12为本发明实施例提供的电子设备的实体结构示意图。如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(communications interface)1220、存储器(memory)1230和通信总线1240,其中,处理器 1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行如下方法:
[0435]
获取源物品池;
[0436]
获取与配置的场景限制信息和相似物品范围限制信息匹配的目标物品池;
[0437]
在所述目标物品池中确定与所述源物品池中的物品相似的物品,生成相似物品池;
[0438]
推送所述相似物品池中的物品。
[0439]
此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random accessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0440]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0441]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0442]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献