基于大数据协同过滤技术的电商平台商品推荐系统及方法与流程

2021-11-03 22:04:00 来源：中国专利 TAG：

1.本发明涉及大数据推荐技术领域，具体涉及基于大数据协同过滤技术的电商平台商品推荐系统、方法。

背景技术：

2.随着大数据时代的到来，网络信息飞速增长，用户面临着信息过载的问题。虽然用户可以通过搜索引擎查找自己感兴趣的信息，但是在用户没有明确需要的情况下，搜索引擎也难以帮助用户有效地筛选信息。为了让用户从海量信息中高效地获得自己所需的信息，推荐系统应运而生。推荐系统是大数据在互联网领域的典型应用，它可以通过分析用户的历史记录来了解用户的爱好，从而主动为用户推荐其感兴趣的信息，以满足用户的个性化推荐需求。
3.推荐系统是自动关联用户和物品的一种工具，和搜索引擎相比，推荐系统通过研究用户的兴趣偏好，进行个性化计算。推荐系统可以发现用户的感兴趣点，帮助用户从海量信息中去发掘自己潜在的需求。
4.目前在电子商务、在线多媒体、社交网络等各类网站和应用中，推荐系统都开始扮演越来越多重要的角色。亚马逊作为推荐系统的鼻祖，已将推荐的思想渗透到其网站的各个角落，实现多个推荐场景。亚马逊网站利用用户的浏览记录来为用户推荐商品，推荐的主要是用户未浏览过但可能感兴趣、有潜在购买可能性的商品。推荐系统在在线音乐应用中也逐渐发挥越来越重要的作用。音乐相比于电影在数量上更为庞大，且个人口味偏向的会更为明显，虾米音乐网根据用户的音乐收藏记录来分析用户的音乐偏好，从而进行推荐。
5.推荐技术从被提出到现在已有十余年，在多年的发展历程中诞生了很多新的推荐算法。协同过滤作为最早、最知名的推荐算法，不仅在学术界得到了深入研究，而且在业界具有广泛的应用。协同过滤可分为基于用户的协同过滤和基于物品的协同过滤。
6.基于用户的协同过滤是找到和目标用户兴趣相似的用户集合，找到该集合中的用户所喜欢的、且目标用户没有听说过的物品推荐给目标用户。基于物品的协同过滤是计算物品之间的相似度，根据物品的相似度和用户的历史行为，给用户生成推荐列表。
7.相比于基于物品的协同过滤算法(简称itemcf算法)，基于用户的协同过滤算法(简称usercf算法)更偏向于社会化应用，广泛适用于各种电商平台的应用场景，其推荐结果在新颖性方面有一定的优势。但是usercf算法的推荐结果相关性较弱，容易受大众影响而推荐热门物品。从推荐效果的角度而言，热门推挤往往能取得不俗的效果，但是，热门推荐的主要缺陷在于推荐的范围有限，所推荐的内容在一定时期内也相对固定，无法为用户提供新颖且有吸引力的推荐结果，自然也难以满足用户的个性化需求。
8.另外，在采用协同过滤算法构建个性化推荐的系统中，协同过滤推荐面临数据稀疏的情况，经常面临用户评价数据稀疏问题，作为信息巨量的用户或项目矩阵通常非常稀疏(存在大量缺失数据)，从而导致推荐结果不准确，这将严重降低个性化推荐的准确度。

技术实现要素：

9.为解决现有的用户或项目协同推荐技术存在的上述技术问题，本发明提供一种基于大数据协同过滤技术的电商平台商品推荐方法，该方法包括：
10.收集用户在电商平台上的商品浏览或交易记录，列出用户对商品的评价表，表中各单元格表示用户对商品的评分；
11.根据商品类别建立多维属性，每维属性定义若干个属性值，为评价表中所有商品划分属性及其属性值；
12.针对每位用户提取已评价商品，统计所有已评价商品在每维属性下各属性值的计数，结合评分计算每位用户中各属性值的均值；
13.利用属性值的均值计算各属性值的权重；
14.针对每位用户提取每种未评价商品，进一步获取未评价商品的所有属性值，利用属性值的权重计算获得未评价商品的预估分；
15.删除评价表中预估分仍为零的单元格，根据用户对商品的评价表建立商品对用户的倒查表，即对每种商品都保存对该商品评分过的用户列表；
16.根据倒查表统计各商品在所有用户中被评价的累计次数，及所有商品的被评价次数的均值；
17.根据商品被评价次数及均值进一步计算热度相关系数；
18.将热度相关系数与皮尔逊关系函数相结合，利用改进的皮尔逊关系函数计算目标用户与待推荐用户之间的相似度；
19.按降序对计算获得的相似度进行排序，提取排序靠前的若干相似度值所对应的待推荐用户作为邻近用户，然后以临近用户进一步计算待推荐商品的推荐指数；
20.按降序对推荐指数进行排序，选择排序靠前的若干推荐指数所对应的商品向目标用户推荐。
21.进一步优选地，所述各属性值的均值通过以下公式计算：
[0022][0023]
其中：n
ij
表示已评价商品中第i维属性下第j个属性值的计数，α
m
表示第m个计数的评分，β
ij
表示第i维属性下第j个属性值的均值。
[0024]
进一步优选地，所述属性值的权重通过以下公式计算：
[0025][0026]
其中n表示所有商品的种类计数，k
ij
表示所有商品中第i维属性下第j个属性值的计数，w
ij
表示第i维属性下第j个属性值的权重。
[0027]
进一步优选地，所述未评价商品的预估分通过以下公式计算：
[0028][0029]
其中：t表示属性计数，即表示由所有商品统计获得的属性种类总数，当未评价商品存在第i维属性下第j个属性值时，系数r
ij
记为1，否则记为0，g表示系数r
ij
记为1的总数。
[0030]
进一步优选地，商品的被评价次数的均值通过以下公式计算：
[0031][0032]
其中，s表示商品种类的计数，ω表示第ω种商品，a
ω
表示第ω种商品被评价的次数。
[0033]
进一步优选地，所述的热度相关系数通过以下公式计算：
[0034][0035]
其中，δ
ω
表示第ω种商品的热度相关系数，表示商品被评价次数均值。
[0036]
进一步优选地，用户之间的相似度通过以下公式计算：
[0037][0038]
其中，i
u
表示目标用户u已评价的商品种类集合，i
v
表示待推荐用户v已评价的商品种类集合，表示用户u的评分均值，表示用户v的评分均值，该评分均值为已评价商品评分和未评价商品预估分的均值，r
u,ω
表示目标用户u对第ω种商品的评分，r
v,ω
表示待推荐用户v对第ω种商品的评分或预估分。
[0039]
进一步优选地，待推荐商品的推荐指数通过以下公式计算：
[0040][0041]
其中，v
′
表示临近用户，f表示临近用户的集合，g(x)表示对第x种待推荐商品有评分记录的用户集合，s(u,v
′
)表示目标用户u与临近用户v
′
之间的相似度，r
v
′
,x
表示临近用户v
′
对第x种待推荐商品的评分或预估分，表示临近用户v
′
的评分均值。
[0042]
进一步优选地，在计算获取商品被评价次数之后，还包括：当商品被评价次数超过设定的阈值时，在倒查表中删除超出阈值的商品被评价次数所对应的商品种类。
[0043]
进一步优选地，还包括推荐指数修正步骤：统计目标用户已评价商品作为训练样本，利用临近用户计算训练样本的推荐指数，结合商品的实际评分通过以下公式计算获得修正系数：
[0044][0045]
其中，σ表示修正系数，p
u,t
表示训练样本t的推荐指数，q
u,t
表示训练样本t的实际评分，表示目标用户u已评价商品评分均值，h(t)表示训练样本的集合；
[0046]
进一步，利用修正系数对推荐指数进行修正：
[0047]
p
′
u,ω
＝p
u,ω
(1
‑
σ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式9其中，p
u,ω
和p
′
u,ω
分别表示修正前后的推荐指数。
[0048]
另外，本发明还提供了一种基于大数据协同过滤技术的电商平台商品推荐系统，所述系统包括：
[0049]
数据仓库：存储用户在电商平台上的商品浏览或交易记录，记录包含用户购买商品的评价信息，以及根据用户端浏览商品网页停留的时长、用户的基本信息由平台自动生成的用户评价信息；
[0050]
商品评价信息采集器：从数据仓库收集用户在电商平台上的商品浏览信息或交易记录，列出用户对商品的评价表，其中评价表的首列表示用户标识码，首行表示商品标识码，表中各单元表示用户对商品的评分，已评价的商品评分范围取：1～5分，未评分的商品取值为空；
[0051]
商品多维属性生成模块：根据商品类别建立多维属性，每维属性定义若干个属性值，为评价表中所有商品划分属性及其属性值；
[0052]
商品评价信息重构模块：针对每位用户提取已评价商品，统计所有已评价商品在每维属性下各属性值的计数，结合评分计算各属性值的均值；利用属性值的均值计算各属性值的权重；针对每位用户提取未评价商品，进一步获取未评价商品的所有属性值，利用属性值的权重计算获得未评价商品的预估分；
[0053]
商品无效信息清理模块：删除评价表中预估分仍为零的单元格，根据用户对商品的评价表建立商品对用户的倒查表，即对每种商品都保存对该商品评分过的用户列表；
[0054]
商品热度信息分析模块：根据倒查表统计各商品被评价的次数，及所有商品的被评价次数的均值；根据商品被评价次数及均值进一步计算热度相关系数；
[0055]
用户相似度分析模块：将热度相关系数与皮尔逊关系函数结合，利用改进的皮尔逊关系函数计算目标用户与待推荐用户之间的相似度；
[0056]
商品推荐指数生成模块：按降序对计算获得的相似度进行排序，提取排序靠前的相似度值所对应的待推荐用户作为临近用户，然后以临近用户进一步计算待推荐商品的推荐指数；按降序对推荐指数进行排序，选择排序靠前的推荐指数所对应的商品向目标用户推荐；
[0057]
商品推荐指数修正模块：统计目标用户已评价商品作为训练样本，利用临近用户计算训练样本的推荐指数，结合商品的实际评分通过以下公式计算获得修正系数，利用修正系数对推荐指数进行修正。
[0058]
本发明所提供改进的协同过滤方法及系统的优点在于：
[0059]
提高基础分析数据的可靠性：根据商品的不同类别及特性，对每种商品建立具有空间化的不同多维属性信息，将用户对商品本身的兴趣度转换为对多维属性的取向度，从而深度刨析用户实质的兴趣需求，为后续推荐算法提供有效数据的支持；
[0060]
解决稀疏性问题：以深度刨析的数据为数据源，统计每位用户所有已评价商品在每维属性下各属性值的计数，结合评分计算每位用户中各属性值的均值，利用属性值的均值计算每位用户中各属性值的权重，以此权重预测未评价商品的估分，将预测的估分用于填补用户未评价商品的单元格，从而解决原始统计的评价表中大部分单元格无评分记录的情况，极大地克服了因用户评价不全或大数据松散而导致的评价数据稀疏性问题，同时通过估分能够深度挖掘鲜为人知、冷门的商品，符合个性化推荐需求；
[0061]
解决热门噪音问题：根据用户对商品的评价表建立商品对用户的倒查表，根据倒查表统计各商品在所有用户中被评价的累计次数，及所有商品的被评价次数的均值，根据商品被评价次数及均值进一步计算热度相关系数，以此系数及相关算法构建相似度模型，以热度相关系数作为计算参量对热门数据加以惩罚，对冷门数据加以奖励的效果，显著降低热门商品对推荐结果所带来的噪音，同时进一步增强用户潜在感兴趣的冷门数据的个性化推荐能力；
[0062]
显著改善推荐准确度：根据目标用户的实际评分作为训练集，利用候选推荐用户计算训练样本的推荐指数，进一步地结合商品的实际评分设计修正系数，并利用修正系数对推荐指数进行修正、重构，更准确地完成推荐结果的自修正过程。
附图说明
[0063]
图1为本发明提供的电商平台商品推荐方法流程图；
[0064]
图2为本发明提供的电商平台商品推荐系统架构图。
具体实施方式
[0065]
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
[0066]
在大数据与日俱增的时代，个性化推荐技术利用用户或商品信息，可以高效、自动化地指导用户在电子商务网站中方便地浏览、购物而得到广泛应用，成为商业和学术研究的热点，例如，可以根据用户的资料为用户推荐其可能感兴趣的图书、音乐、商品等项目的信息。在推荐系统中，基于用户的协同过滤是应用最早和使用最为广泛、最为成功的推荐算法，但由于大数据特性也必然存在着稀疏性、推荐准确度的问题。
[0067]
在实际的电子商务系统中，有成千上万的商品，而在这些商品中被用户评价过的商品只占很少部分，从而导致用户
‑
项目矩阵的稀疏。传统协同过滤算法在计算用户相似度时，需要计算两个用户对同一个项目的评分，而因数据的稀疏性极易导致分析结果偏离期望值很远，无法为目标用户完成有效推荐，用户体验效果不佳。
[0068]
另外，不论是传统的基于用户还是基于项目的协同过滤算法，其中均未考虑到项目的热门程度对推荐结果的影响。当两个用户购买同一热门商品，但不能以此认定两者具有相近的兴趣爱好。例如：对于学生而言，人手一本的英文词典是学习英语课程的必备书籍，但不能以此来确定学校中所有学生都同时对英语具有爱好。因此，热门项目将对推荐产生相当的负面影响。相反，对于那些无人问津的冷门商品，恰恰是目标用户所需要的物品，只是因为其过于冷门在各种推荐算法中无法获得显著的标记，很难被潜在兴趣的用户所获知。
[0069]
为此，本发明提供一种基于大数据协同过滤技术的电商平台商品推荐方法，该方法能够解决现有的各种推荐算法存在的上述问题，如图1所示，方法具体包括以下实现过程：
[0070]
收集用户在电商平台上的商品浏览或交易记录，列出用户对商品的评价表，表中各单元格表示用户对商品的评分；
[0071]
根据商品类别建立多维属性，每维属性定义若干个属性值，为评价表中所有商品划分属性及其属性值；
[0072]
针对每位用户提取已评价商品，统计每位用户所有已评价商品在每维属性下各属性值的计数，结合评分计算每位用户中各属性值的均值；
[0073]
利用属性值的均值计算各属性值的权重；
[0074]
针对每位用户提取每种未评价商品，进一步获取未评价商品的所有属性值，利用属性值的权重计算获得未评价商品的预估分；
[0075]
删除评价表中预估分仍为零的单元格，根据用户对商品的评价表建立商品对用户的倒查表，即对每种商品都保存对该商品评分过的用户列表；
[0076]
根据倒查表统计各商品在所有用户中被评价的累计次数，及所有商品的被评价次数的均值；
[0077]
根据商品被评价次数及均值进一步计算热度相关系数；
[0078]
将热度相关系数与皮尔逊关系函数相结合，利用改进的皮尔逊关系函数计算目标用户与待推荐用户之间的相似度；
[0079]
按降序对计算获得的相似度进行排序，提取排序靠前的若干相似度值所对应的待推荐用户作为邻近用户，然后以临近用户进一步计算待推荐商品的推荐指数；
[0080]
按降序对推荐指数进行排序，选择排序靠前的若干推荐指数所对应的商品向目标用户推荐。
[0081]
为了详细地阐明本发明推荐算法的具体过程，下面提供一个具体的实施例加以说明，在本实施例中，以电商平台数据库中存储的商品浏览信息或交易记录为基础分析数据，记录包含用户购买商品的评价信息，以及根据用户端浏览商品网页停留的时长、用户的基本信息由平台自动生成的用户评价信息，关于自动生成评价信息的算法在现有技术中存在很多，在此不做过多阐述。
[0082]
由用户评价信息经整理获得用户
‑
商品的评价表，具体参见以下表1所示的结构：
[0083][0084]
表1用户
‑
商品评价表
[0085]
其中评价表的首列表示用户标识码，首行表示商品标识码，表中各单元表示用户对商品的评分，已评价的商品评分范围取：1～5分，未评分的商品取值为空；为了便于显示，表1中只示出了其中10种商品和五个用户来加以说明，并由用户/商品编号来替代数据库中实际存储的标识码。
[0086]
本实施例的目的在于，为目标用户(用户1)选择邻近用户(在用户2
‑
用户n中产生)，利用本发明的推荐算法从邻近用户中挑选推荐指数排行靠前的商品为目标用户推荐。
[0087]
首先，根据商品类别建立5个属性，用a～e表示属性名称，为了简化操作和便于展示，本实施例中为每维属性仅定义一个属性值，而在实际情况中，属性类型远远多于5种，例
如根据图书商品类型可定义为领域分类、价格分类、尺寸分类、适合的年龄段分类、出版日期分类、作者分类、用途分类等多类属性，而在单类属性中有可划分为多种属性值，属性值不仅限于数值属性，也可以是标称属性或序数属性，例如根据领域分类可划分为文学、科技、生活居家、艺术等不同的标称属性值，对于标称属性或序数属性，可以按计数与总数的比例转化为数值属性后，再进一步完成后续计算过程。
[0088]
为评价表中商品1～商品10划分属性，获得的属性分类表如下表所示(属性取：a～e)：
[0089][0090]
表2属性分类表
[0091]
其中每维属性对应唯一的属性值，为了简化过程，在此以属性名称a～e直接作为其各自的属性值来表示。
[0092]
然后，针对每位用户提取已评价商品，统计所有已评价商品在各属性下的计数，结合评分计算各属性值的均值，以用户2为例，参考表1中用户2评价过的商品评分计算各属性的平均值的过程为：
[0093][0094][0095][0096][0097][0098]
利用各属性值的均值β
a_2
～β
e_2
计算各属性值的权重，通过公式2计算获得权重值：
[0099][0100][0101]
[0102][0103][0104]
在获得上述各项属性值的权重后，就可以对用户2未评价商品进行估分计算，提取未评价商品的所有属性值，其中用户2未评价的商品有商品4、商品6和商品8，各自包含的属性值参见表2，利用属性值的权重计算获得未评价商品的预估分，通过公式3计算获得如下预估分：
[0105][0106][0107][0108]
利用预估分填补未评价商品的单元格：
[0109][0110]
表3预估分填充后的评价表
[0111]
根据上述填充后的评价表建立商品
‑
用户的倒查表，即对每种商品都保存对该商品评分过的用户列表：
[0112][0113][0114]
表4关于商品
‑
用户的倒查表
[0115]
其中，“1”表示被评价过，“0”表示未被评价过，表3中填充的预估分并不作为评价过的商品。
[0116]
利用上述倒查表进一步统计各商品在所有用户中被评价的累计次数。如果仅使用表4中显示的4个待推荐用户作为累计对象，必然对后续的推荐运算是无效的，为此在下表中给出了本次实验后获得的200个待推荐用户对50件商品的评价累计次数(仍截取之前的商品1
‑
商品10作为显示结果)：
[0117][0118]
表5商品评价计数表
[0119]
为了便于计算，以商品1
‑
商品10作为局部统计的商品总数(全局统计为50件商品)，进一步计算商品的被评价次数均值，利用公式4计算在10种商品范围内被评价次数均值为：
[0120][0121]
另外，在计算获取商品被评价次数之后，根据需要还可以设定一个阈值，当商品被评价次数超过该阈值时，在倒查表中删除超出阈值的商品被评价次数所对用的商品种类，使得在后续分析之前，提前排除部分非常热门的干扰数据。
[0122]
进一步地，利用公式5计算各类商品的热度相关系数，其中，商品1的热度相关系数
表示为：
[0123][0124]
同理，计算获得所有商品的热度相关系数表示为：
[0125][0126]
表6商品热度相关系数表
[0127]
由表6计算获得的热度相关系数可知，对于热门商品1的热度系数较低，即受到了惩罚，对于冷门商品10的热度系数较高，即受到了奖励。
[0128]
本实施例中采用pearson相关性函数计算两个用户之间的距离，考虑到热门商品所带来的推荐噪音以及冷门商品不易被推荐的影响，对传统算法进行了改进，将热度相关系数引入协方差公式中，从而降低了热门商品对用户相似度计算的影响，并鼓励了冷门、针对用户潜在感兴趣的商品，进而优化了用户相似度的计算结果。
[0129]
本实施例中，利用表3中整理得到的评价表的各分值，计算获得用户1
‑
5的评分均值，此评分均值包含用户已评价过的商品评价分值，同时也包含未评价商品的预估分，以用户2为例，计算用户2的评分均值为：
[0130][0131]
同理，其余用户的评分均值统计结果如下表所示：
[0132] 用户1用户2用户3用户4用户5评分均值3.172.833.302.863.19
[0133]
表7用户评分均值表
[0134]
下面以目标用户1与待推荐用户2为例，利用公式6中改进的pearson相关性函数计算两者的相似度过程为：
[0135]
公式6分子部分：
[0136]
s(1,2)
molecule
＝0.23(3
‑
3.17)(3
‑
2.83) 2.8(3
‑
3.17)(2
‑
2.83) 0.67(3
‑
3.17)(1
‑
2.83) 1.35(5
‑
3.17)(2.15
‑
2.83) 3(4
‑
3.17)(2.18
‑
2.83) 2.21(1
‑
3.17)(5
‑
2.83)≈
‑
13.1082
[0137]
公式6分母部分：
[0138][0139][0140][0141]
进一步计算目标用户1与其余待推荐用户之间的相似度：
[0142] 用户2用户3用户4用户5相似度值
‑
1.41900.9784
‑
1.0657
‑
0.3127
[0143]
表8用户相似度表
[0144]
由上述表中列出的相似度值可知，用户3与目标用户1的相似度最高，将用户3作为邻近用户，然后以临近用户进一步计算待推荐商品的推荐指数。
[0145]
为了便于计算，设临近用户的集合中还含用户5(相似度大小次于用户3)，待推荐商品为商品2、商品3、商品7和商品10，即这些商品为目标用户1未曾浏览或交易过的商品，参考表3中的记录利用公式7计算获得商品2的推荐指数：
[0146][0147]
如表9
‑
1所示，所有待推荐商品的推荐指数为：
[0148] 商品2商品3商品7商品10推荐指数4.231.742.213.16
[0149]
表9
‑
1待推荐商品推荐指数表
[0150]
由于商品2、商品10的推荐指数相对较高，且超过了2.5分的水平线(最高分的一半)，为此最终将商品2和商品10推荐给目标用户1。
[0151]
在统计得到商品被评价次数之后，还可设定一个阈值，当商品被评价次数超过该阈值时，在倒查表中删除超出阈值的商品被评价次数所对应的商品种类。例如，在表5中，商品1被评价的次数为185，即统计的200个用户中有92.5％都对商品1进行了评价，说明其为大众广为认知或者为生活必需品，为此可设置80％的用户数量作为阈值(即160个)，由此可在计算评价次数均值之前，先将商品1删除，减少其对评价结果的干扰。而在前文计算过程中未删除商品1，主要是为了展示商品1在计算热度相关系数上所受到的明显惩罚。
[0152]
通常在训练机器学习模型时，我们会将数据划分为训练集和测试集，通过训练集中的数据训练优化模型，然后应用到测试集中检验模型的性能。通常不带有时间戳的数据划分训练集和测试集的方法采用随机划分法，这种随机性会给训练结果带来不可预知性。为此，本发明以目标用户自身评价过的商品信息作为训练数据，利用临近用户计算训练样本的推荐指数，沿用前文公式7的推荐指数算法，对目标用户1历史评价数据中的商品1计算推荐指数为：
[0153][0154]
以此类推，计算其余历史评价商品的推荐指数：
[0155] 商品1商品4商品5商品6商品8商品9推荐指数4.262.322.073.914.742.98
[0156]
表9
‑
2历史评价商品推荐指数表
[0157]
公式7分子部分：
[0158]
σ_molecule＝(4.26
‑
3) (2.32
‑
3) (2.07
‑
3) (3.91
‑
5) (4.74
‑
4) (2.98
‑
1)＝1.28
[0159]
公式7分母部分：
[0160]
σ_denominator＝6.68 |3
‑
3.17| |3
‑
3.17| |3
‑
3.17| |5
‑
3.17| |4
‑
3.17| |1
‑
3.17|＝12.02
[0161][0162]
进一步地，利用修正系数对表9
‑
1中的商品2、商品10进行推荐指数修正为：
[0163]
p
′
1，2
＝p
1,2
(1
‑
0.1065)≈3.78
[0164]
p
′
1,10
＝p
1,10
(1
‑
0.1065)≈2.82
[0165]
为了实现上述推荐方法，本发明还同时提供了一种基于大数据协同过滤技术的电商平台商品推荐系统，如图2所示，该系统具体包括：
[0166]
数据仓库：存储用户在电商平台上的商品浏览或交易记录，记录包含用户购买商品的评价信息，以及根据用户端浏览商品网页停留的时长、用户的基本信息由平台自动生成的用户评价信息；
[0167]
商品评价信息采集器：从数据仓库收集用户在电商平台上的商品浏览信息或交易记录，列出用户对商品的评价表，其中评价表的首列表示用户标识码，首行表示商品标识码，表中各单元表示用户对商品的评分，已评价的商品评分范围取：1～5分，未评分的商品取值为空；
[0168]
商品多维属性生成模块：根据商品类别建立多维属性，每维属性定义若干个属性值，为评价表中所有商品划分属性及其属性值；
[0169]
商品评价信息重构模块：针对每位用户提取已评价商品，统计所有已评价商品在每维属性下各属性值的计数，结合评分计算各属性值的均值；利用属性值的均值计算各属性值的权重；针对每位用户提取未评价商品，进一步获取未评价商品的所有属性值，利用属性值的权重计算获得未评价商品的预估分；
[0170]
商品无效信息清理模块：删除评价表中预估分仍为零的单元格，根据用户对商品的评价表建立商品对用户的倒查表，即对每种商品都保存对该商品评分过的用户列表；
[0171]
商品热度信息分析模块：根据倒查表统计各商品被评价的次数，及所有商品的被评价次数的均值；根据商品被评价次数及均值进一步计算热度相关系数；
[0172]
用户相似度分析模块：将热度相关系数与皮尔逊关系函数结合，利用改进的皮尔逊关系函数计算目标用户与待推荐用户之间的相似度；
[0173]
商品推荐指数生成模块：按降序对计算获得的相似度进行排序，提取排序靠前的相似度值所对应的待推荐用户作为临近用户，然后以临近用户进一步计算待推荐商品的推荐指数；按降序对推荐指数进行排序，选择排序靠前的推荐指数所对应的商品向目标用户推荐；
[0174]
商品推荐指数修正模块：统计目标用户已评价商品作为训练样本，利用临近用户计算训练样本的推荐指数，结合商品的实际评分通过以下公式计算获得修正系数，利用修正系数对推荐指数进行修正。
[0175]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：列车运载液态物的弯道行驶平稳性分析方法、系统及终端与流程

基于大数据协同过滤技术的电商平台商品推荐系统及方法与流程

相关文献

最热文献