一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

融合评论文本主题词情感倾向和用户信任关系的推荐方法

2022-09-07 17:19:38 来源:中国专利 TAG:


1.本技术属于推荐技术领域,尤其涉及一种融合评论文本主题词情感倾向和用户信任关系的推荐方法。


背景技术:

2.目前绝大多数的推荐方法都直接使用用户对商品的评分进行推荐,评分所包含的信息较少,能够挖掘出的有价值信息也较少,往往不能准确地反映出用户的喜爱偏好,容易造成推荐的不准确性,并且当用户的评论评分较少时,就会出现数据稀疏性的问题。
3.因此,研究能够同时解决上述两种问题的商品推荐方法,将提高向目标用户推荐商品的准确度。


技术实现要素:

4.本技术的目的是提供一种融合评论文本主题词情感倾向和用户信任关系的推荐方法,对目标用户进行商品推荐,提高推荐的准确性和覆盖率。
5.为了实现上述目的,本技术技术方案如下:
6.一种融合评论文本主题词情感倾向和用户信任关系的推荐方法,包括:
7.获取用户对商品的评论文本,对评论文本进行预处理,生成关键词集;
8.采用隐含狄利克雷分布模型作为评论文本的分析方法,构建出文档-主题矩阵和主题-词汇矩阵;
9.根据构建出的文档-主题矩阵和主题-词汇矩阵,计算用户对商品的评分,并根据用户对商品的评分计算用户之间的相似度;
10.根据用户之间的通信时长和通信次数计算用户之间的信任度;
11.对于目标用户,根据用户之间的相似度为目标用户选取对应的相似用户群,根据用户之间的信任度为目标用户选取对应的信任用户群;
12.根据相似用户群对待推荐商品的评分和信任用户群对待推荐商品的评分,预测目标用户对待推荐商品的评分,根据预测结果,生成向目标用户推荐的商品。
13.进一步的,所述根据构建出的主题-词汇矩阵和文档-主题矩阵,计算用户对商品的评分,包括:
14.在主题-词汇矩阵中,判断主题下包含的词汇是否为正面情感词、负面情感词和中性词,主题每包含一个正面情感词,则将该主题的情感得分加1,每包含一个负面情感词,则将该主题的情感得分减1,中性词不计入情感得分,依此类推直至统计完所有词汇,得到每个主题对应的情感得分;
15.根据文档-主题矩阵中所包含的主题,采用如下公式计算用户对商品的评分:
[0016][0017]
其中,表示用户ui对商品xh的评分,1≤i≤n,n表示用户总数,1≤h≤h,h表示
商品总数,k表示文档-主题矩阵中文档的第k个主题,k表示文档所包含的主题数目,表示用户ui对商品xh的评论文本在第k个主题上的情感得分,表示用户ui对商品xh的评论文本包含主题k的概率。
[0018]
进一步的,所述根据用户对商品的评分计算用户之间的相似度,计算公式如下:
[0019][0020]
其中,sim(ui,uj)表示用户ui和用户uj的相似度,表示用户ui对商品xh的评分,表示用户uj对商品xh的评分,1≤h≤h,h表示商品总数。
[0021]
进一步的,所述根据用户之间的通信时长和通信次数计算用户之间的信任度,计算公式如下:
[0022][0023]
其中,cre(ui,uj)表示用户ui对用户uj的信任度,表示用户ui与用户uj的通信时长,表示用户ui与其他所有用户最长的通信时长,表示用户ui和uj之间的通信次数,表示用户ui与其他所有用户通信次数的最大值。
[0024]
进一步的,所述根据相似用户群对待推荐商品的评分和信任用户群对待推荐商品的评分,预测目标用户对待推荐商品的评分,包括:
[0025]
当目标用户有对应的相似用户群和信任用户群时,预测目标用户对待推荐商品的评分计算公式如下:
[0026][0027]
当目标用户只有对应的相似用户群时,计算公式为:
[0028][0029]
当目标用户只有对应的信任用户群时,计算公式为:
[0030][0031]
其中,表示目标用户uo对待推荐商品xh的预测评分,m表示相似用户群中对待推荐商品xh进行了评分的所有用户的集合,c表示信任用户群中对待推荐商品xh进行了评分的所有用户的集合,sim(uo,um)表示目标用户uo和用户um的相似度,表示用户um对待推荐商品xh的评分,cre(uo,uc)表示目标用户uo对用户uc的信任度,表示用户uc对待推荐商品xh的评分,表示用户um对其全部已评价商品评分的均值,表示用户uc对全部已评价的商品评分的均值,a和1-a表示相似用户群和信任用户群在预测中所占的权重。
[0032]
本技术提出的一种融合评论文本主题词情感倾向和用户信任关系的推荐方法,获
取评论文本、用户的通话时长、通话次数和短信次数,对评论文本进行预处理,再利用tf-idf方法生成关键词集;采用隐含狄利克雷分布模型对评论文本进行分析,构建文档-主题矩阵和主题-词汇矩阵;根据知网情感词典判断评论文本的情感极性,得到评论文本的情感得分,构建用户-评分矩阵;使用余弦相似度计算用户之间的相似度,得到相似用户群;根据用户之间的通信时长和通信次数计算用户间的信任度,得到信任用户群;从相似用户群和信任用户群中选取排名靠前的用户作为目标用户的最近邻用户,根据最近邻用户计算目标用户对待推荐商品的评分,选取top-n商品推荐给用户,生成商品推荐列表。提高了推荐的准确性和覆盖率。
附图说明
[0033]
图1为本技术商品推荐方法流程图。
具体实施方式
[0034]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本技术,并不用于限定本技术。
[0035]
本技术以面向电子商务平台的商品推荐作为研究对象。
[0036]
在一个实施例中,如图1所示,提供了一种融合评论文本主题词情感倾向和用户信任关系的推荐方法,包括:
[0037]
步骤s1、获取用户对商品的评论文本,对评论文本进行分析,生成关键词集。
[0038]
具体的,获取用户对商品的评论文本,按照如下步骤对评论文本进行预处理:首先,去除同一用户短时期内的重复评论文本;其次,由于较短的评论文本所包含的信息较少,为保证推荐结果的准确性,去除评论文本字数少于5个的商品评论;然后去除评论文本中完全没有用或者没有意义的词,例如助词、拟声词、虚词等,使用jieba分词进行中文分词,得到数据集s;最后利用tf-idf算法得到评论的关键词,生成关键词集s


[0039]
本实施例以京东11个排名较高的牙膏品牌的评论文本为例,选择为用户生成商品推荐列表为申请推荐模型的实施例。本实施例获取牙膏的评论文本作为初始数据集,数据集中共包括5089个用户对297种牙膏的103850条商品评论。然后对评论文本进行预处理:首先,去除同一用户短时期内的重复评论文本和字数少于5个的评论文本;然后去除评论文本中完全没有用或者没有意义的词,使用jieba分词进行中文分词,得到数据集s;最后利用tf-idf算法计算出评论文本中每个词的tf-idf值,按照词语在评论文本中出现的频率降序排列,生成商品评论文本的关键词集s


[0040]
生成的关键词集s

如下表所示:
[0041][0042]
表1
[0043]
表1所示的关键词集仅是一种具体的实施例,对于不同的评论文本,将获得不同的关键词集。
[0044]
步骤s2、采用隐含狄利克雷分布模型作为评论文本的分析方法,构建文档-主题矩阵和主题-词汇矩阵。
[0045]
具体的,本技术将一个评论文本视为隐含狄利克雷分布模型(lda,latent dirichlet allocation)中的一个文档进行分析,则所有的评论文本视为文档集合l。lda模型的生成过程为:从狄利克雷分布α中取样生成文档p的主题分布θ
p
;从主题的多项式分布θ
p
中取样生成文档p第q个词的主题z
p,q
;从狄利克雷分布β的中取样生成主题z
p,q
对应的词语分布从词语的多项式分布中采样最终生成词语w
p,q
。其中,参数α和参数β根据gibbs采样方法进行参数估计。根据经验,α的参数值设置为k/50,β的参数值设置为0.01。最佳主题数目k的值根据困惑度确定,依次将k设为2、5、8、11、14、17、20,每次叠加3个主题数目分别进行模型训练,最后根据主题的困惑度来确认最佳主题数目k的大小,困惑度越小,主题数目k越合适。
[0046]
通过训练得到在不同主题数目k下的困惑度变化,如下表所示:
[0047]
主题数目k困惑度2126597887
11901495179720101
[0048]
表2
[0049]
通过困惑度变化可以发现,困惑度的最小值点出现在主题数目k为8-11之间,所以设置主题数目k分别为8、9、10、11再次进行模型训练,得出当困惑度达到最小值时主题数目k的值。
[0050]
通过训练得到困惑度的变化,如下表所示:
[0051][0052][0053]
表3
[0054]
当主题数目k为10时困惑度最小,因此,数据集s

的最佳主题数目k为10。当k为10时,可以得出103850条商品评论文本的主题-词汇矩阵如下表所示:
[0055][0056]
表4
[0057]
103850条商品评论文本的文档-主题矩阵如下表所示:
[0058][0059]
表5
[0060]
步骤s3、根据构建出的文档-主题矩阵和主题-词汇矩阵,计算用户对商品的评分,并根据用户对商品的评分计算用户之间的相似度。
[0061]
在主题-词汇矩阵中,主题下只有部分词汇具有情感极性,如:表4的主题1中包含词汇:信赖、不错为正面情感词。采用知网情感词典判断每个主题下包含的词汇是否为正面情感词、负面情感词和中性词,主题每包含一个正面情感词,则将该主题的情感得分加1;每包含一个负面情感词,则将该主题的情感得分减1;中性词不计入情感得分,依此类推直至统计完所有词汇,得到每个主题对应的情感得分。
[0062]
在文档-主题矩阵中,每个文档所包含各个主题的概率不同,每个文档的评分也不同,计算公式如下:
[0063][0064]
其中,表示用户ui对商品xh的评分,1≤i≤n,n表示用户总数,1≤h≤h,h表示商品总数,k(k=0,1,2,3...k)表示文档-主题矩阵中文档的第k个主题,k表示文档所包含的主题数目,表示用户ui对商品xh的评论文本在第k个主题上的情感得分,表示用
户ui对商品xh的评论文本包含主题k的概率。
[0065]
通过最大最小标准化公式使得用户对商品的评分在[1,5]之间,计算方法为:
[0066][0067]
其中,表示标准化后的用户ui对商品xh的评分,表示用户ui对已购买商品的评分最小值,表示用户ui对已购买商品的评分最大值。
[0068]
计算结果四舍五入取整,不足1分的记为1分,情感值范围为1-5分,5分为完全满意,1分为完全不满意,分数越高表示用户对商品越满意,空缺值表示用户未对该商品进行打分,最后得到用户对商品的评分矩阵如下表所示:
[0069][0070][0071]
表6
[0072]
根据用户对所有商品的评分,计算用户ui对全部已评价商品评分的均值,计算公式如下:
[0073][0074]
其中,表示用户ui对其已评价商品评分的均值,计算结果如下表所示:
[0075]
用户评分均值u13u24u34......u
1000
3u
1001
2......
[0076]
表7
[0077]
然后对表6的评分矩阵使用余弦相似度方法计算两个用户之间的相似度,在本实施例中,计算5089个用户之间的相似度,利用如下公式计算:
[0078][0079]
其中,sim(ui,uj)表示用户ui和用户uj的相似度,表示用户ui对商品xh的评分,表示用户uj对商品xh的评分。
[0080]
计算结果如下表所示:
[0081][0082]
表8
[0083]
对表8中的相似度数值进行降序排序,越靠前的用户同目标用户之间的相似度越高,如下表所示:
[0084][0085]
表9
[0086]
步骤s4、根据用户之间的通信时长和通信次数计算用户之间的信任度。
[0087]
本实施例中,通信时长为用户之间的通话时长,通信次数为通话次数和短信次数。
[0088]
具体的,获取用户之间的通信时长和通信次数,假设通信时长和通信次数对用户之间信任关系的影响是同等重要的。cre(ui,uj)表示用户ui对用户uj的信任度,表示用户ui与用户uj的通信时长,表示用户ui与其他所有用户最长的通信时长,
表示用户ui和uj之间的通信次数,表示用户ui与其他用户通信次数的最大值,其中所获得的全部数据都进行了脱敏处理。
[0089]
用户之间信任度的计算公式如下:
[0090][0091]
计算结果如下表所示:
[0092][0093]
表10
[0094]
对表10信任度数值进行降序排序,越靠前的用户同目标用户之间的信任度越高,如下表所示:
[0095][0096]
表11
[0097]
步骤s5、对于目标用户,根据用户之间的相似度为目标用户选取对应的相似用户群,根据用户之间的信任度为目标用户选取对应的信任用户群。
[0098]
对于目标用户,根据用户之间的相似度选取同目标用户相似度高的一组用户作为目标用户的相似用户群,根据用户之间的信任度选取同目标用户信任度高的一组用户作为目标用户的信任用户群。根据top-n策略从相似用户群和信任用户群中选取排名前n个用户作为最近邻用户,根据最近邻用户预测目标用户对待推荐商品的评分。
[0099]
例如,以用户u1为例,根据表9的数据,若设置选取n=4,则选取前4个相似度最高的用户,可得用户u1的相似用户群为:u
40
、u
877
、u2和u
267

[0100]
以用户u1为例,根据表11的数据,若设置选取n=4,则选取前4个信任度最高的用户,可得用户u1的信任用户群为:u
26
、u
26
、u
896
和u
1458

[0101]
步骤s6、根据相似用户群对待推荐商品的评分和信任用户群对待推荐商品的评分,预测目标用户对待推荐商品的评分,根据预测结果,生成向目标用户推荐的商品。
[0102]
目标用户对待推荐商品的评分不仅受用户之间相似度的影响,还受用户之间信任度的影响。相似度是根据用户对商品的评分进行计算的,信任度是根据通信时长和通信次数进行计算的,相似度和信任度的计算方式不同,对用户影响的程度也不同,所以在为目标用户进行待推荐商品的评分预测时,应该对相似度和信任度分别进行考虑。
[0103]
本实施例分为三种情况:目标用户有对应的相似用户群和信任用户群;目标用户只有对应的相似用户群;目标用户只有对应的信任用户群。
[0104]
对应上述三种情况,目标用户对待推荐商品的评分计算公式如下:
[0105]
情况一:目标用户有对应的相似用户群和信任用户群,计算公式为:
[0106][0107]
其中,表示目标用户uo对待推荐商品xh的预测评分,m表示相似用户群中对待推荐商品xh进行了评分的所有用户的集合,c表示信任用户群中对待推荐商品xh进行了评分的所有用户的集合,sim(uo,um)表示目标用户uo和用户um的相似度,表示用户um对待推荐商品xh的评分,cre(uo,uc)表示目标用户uo对用户uc的信任度,表示用户uc对待推荐商品xh的评分,表示用户um对其全部已评价商品评分的均值,表示用户uc对全部已评价的商品评分的均值,a和1-a表示相似用户和信任用户在预测中所占的权重。本实施例中,对103850条评论按80:20的比例将用户的商品评分数据随机地分为训练集和测试集。在训练集上进行模型训练,选出最优模型参数,最后在测试集上测试给出结果。通过实验得出参数a的取值为0.7。
[0108]
情况二:目标用户只有对应的相似用户群,计算公式为:
[0109][0110]
情况三:目标用户只有对应的信任用户群,计算公式为:
[0111][0112]
计算结果如下表所示:
[0113][0114]
表12
[0115]
在得到表12的数据后,可以预测出目标用户对待推荐商品的评分,然后选取评分靠高的商品推荐给目标用户。
[0116]
例如在本实施例中,为目标用户生成的待推荐商品列表如下所示:
[0117][0118][0119]
表13
[0120]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献