一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于评论整合挖掘的商品精细化推荐方法与流程

2021-10-24 09:13:00 来源:中国专利 TAG:商品 推荐 精细化 方法 挖掘

技术特征:
1.基于评论整合挖掘的商品精细化推荐方法,其特征在于,将评论文本中包含的用户对商品各方面的见解整合到推荐过程中,从商品的特质层面上解析用户和商品,首先采用评论挖掘方法从商品的评论文本中挖掘出用户对商品特质级的情感信息,然后采用这些挖掘出的情感信息分别构建用户偏好模型和商品特质模型,从而更准确的衡量用户和商品间的相近度,最后将基于邻近用户和基于邻近商品的预测评分通过全局权重法融合起来,更全面的从用户主观性和商品客观性来为用户推荐;本发明包括:一是商品评论解析挖掘,二是基于评论挖掘和用户的协同推荐,三是基于评论挖掘和商品的协同推荐,四是基于评论挖掘的混合推荐方法,首先从用户的角度,通过对商品评论数据的解析和挖掘,构建用户的偏好模型,依据用户的偏好模型来计算用户间相近度,通过用户相近度寻找邻居用户集进行基于用户的协同过滤推荐,然后从商品的角度,通过对商品评论数据的解析和挖掘,抽取商品的特质

情感词对来构建商品的特质模型,并依据商品的特质模型来计算商品间相近度,通过商品相近度寻找邻居商品集进行基于商品的协同过滤推荐,最后,融合用户和商品的因素,将基于用户的协同过滤与基于商品的协同过滤结合起来,整合两者进行混合推荐;商品评论解析挖掘包括:评论数据的前置处理、特质

情感词对的提取、商品特质过滤、情感倾向解析四个步骤;基于评论挖掘和用户的协同过滤推荐:首先通过商品评论解析挖掘的方法提取出用户的特质

情感词对集合,然后通过获取用户偏好计算用户间相近度,最后基于相近用户的评分预测目标用户评分进而产生推荐;基于评论挖掘和用户的协同过滤推荐:首先通过商品评论解析挖掘方法提取出商品的特质

情感词对集合,然后通过量化商品特质计算商品间相近度,最后基于相近商品的评分预测目标用户评分进而产生推荐;基于评论挖掘的混合推荐方法将用户的偏好信息和商品的特质信息结合起来进行混合模型推荐,包括:混合推荐方法流程和混合推荐的评分预测。2.根据权利要求1所述的基于评论整合挖掘的商品精细化推荐方法,其特征在于,通过挖掘整合用户评论,获取评论中隐含的语义信息,缓解传统协同过滤算法的数据稀疏性问题,首先通过评论挖掘的方法处理用户评论,针对用户对商品的评论来提取用户对商品特质层面的观点,构建用户的偏好模型和商品特质模型,然后基于用户偏好和商品特质分别提出两种不同的基于评论挖掘的推荐方法,一个是基于评论挖掘和用户的协同推荐方法,一个是基于评论挖掘和商品的协同推荐方法,最后采取全局权重法将两者融合在一起,基于用户偏好模型和商品特质模型来分别计算用户间和商品间相近度;本发明将评论挖掘与传统的协同过滤的推荐方法相结合,从用户偏好和商品的特质层面上来解析用户和商品,缓解数据稀疏和推荐准确性问题,具体包括:一是通过对用户评论的挖掘和解析,获取用户偏好,然后根据获取的用户偏好计算用户之间的相近度,本发明对现有技术的协同过滤算法的改进包括在计算用户相近度时不再基于用户间共同评分项,而是基于用户的偏好,改进的基于用户的方法缓解数据稀疏为用户间相近度计算带来的不利影响;二是通过对商品评论的挖掘和解析,构建商品的特质模型,在计算商品相近度时不再基于商品间共同评分项,而是基于商品特质,通过改进商品间相近度计算方法提高商品相近度计算的准确性,进而提高推荐效果;三是为综合考虑用户主观因素和商品客观因素,将
基于评论挖掘和用户的协同过滤与基于评论挖掘和商品的协同过滤结合,产生混合模型进行推荐。3.根据权利要求1所述的基于评论整合挖掘的商品精细化推荐方法,其特征在于,特质

情感词对的提取:商品特质反映用户对商品的关注点,特质

情感词对反映商品某一特质被用户喜好的程度,商品特质为名词、名词短语或者动词,将评论中对应这些词性的词提取出来,通过筛选得到,或在特质

情感词对提取的过程中进行提取,特质

情感词对形式化定义为:定义一:一个特质

情感词对couple=(g,y),其中g表示用户在评论中关注的商品特质词,为细粒度特质,y表示用户在对对应特质评论时使用的描述词,带有情感极性;定义二:用户评论数据的集合s={s1,s2,

,s
n
},每一条用户的评论s
i
看作是一组特质

情感词对的集合s
i
={couple1,couple2,

,couple
m
};本发明采用同时抽取商品特质和对应情感词对的方法,采用半自动抽取的方式,无需人工注示任何数据,将评论语句以标点或者空格拆分成短句进行特质

情感词对提取,通过人工抽取特质

情感词对实验发现,抽取出的商品特质词词性绝大部分为名词或者动词,而用户情感词词性绝大部分为形容词、名词或者动词,并且这两者也具有一定的搭配模式,提取出商品特质词和用户情感词间的常用搭配作为语言模式,将语言粒度泛化到词性层面,合并相近特质,分析商品特质词和用户情感词之间的词性模板,形成提取词性模板的算法;提取词性模板的第一步是先从前置处理后的评论语料库中抽取出经过分词与词性注示后的短句,然后再从每一短句中抽取从商品特质词到用户情感词之间的完整词性路径,将语句进行词性注示以将其泛化到词性层面来提取这些路径,得到的这些路径就是候选词性模板,在算法的第三步和第四步中,提出两种过滤策略来对提取的候选词性模板进行筛选,通过设置长度临界值α和频率临界值β来对候选模板进行过滤,两种过滤策略为:一是在评论中出现的长句只陈述客观事实,这样的句子提取出来的词性模板较长,在提取特质

情感词对时的实用性差,因此通过设定长度临界值的方式对较长模板进行过滤;二是对于候选模板中出现很少的实用性差的模板,通过设定频率临界值的方式过滤出现很少的模板,通过这两种过滤策略提高模板的通用性和系统性能,通过词性模板算法提取出词性模板后,通过该词性模板来匹配评论语料,提取其中包含商品特质词和用户情感词对集合的短句,通过提取短句中的名词或者名词短语作为商品特质候选集合。4.根据权利要求1所述的基于评论整合挖掘的商品精细化推荐方法,其特征在于,商品特质过滤:对商品特质集合中的冗余和不准确项进行过滤,提取出更准确的商品特质集合,采用互信息的方法对提取出的候选商品特质进行过滤,首先从抽取出的候选特质集合中人工识别出频繁出现且具有代表性的特质词组成种子特质集合,通过计算词语间互信息的方法来对商品特质词进行过滤,计算式为:其中,seeds表示抽取的种子特质集合,singh(k1&k)表示词k1和词k同时出现的次数,singh(k1)表示词k1单独出现的次数,singh(k)表示词k单独出现的次数,采用权威知网词典hownet进行词语的语义相近度的计算来合并商品特质词,减少冗余,经过特质词过滤和
合并之后,得到一个较准确的特质集合;情感倾向解析:借助于知网词典hownet中的正负词汇集,情感词的倾向通过计算情感词y与正面词汇集和负面词汇集的相近程度进行判断,即词语的相近度计算,本发明采用基于统计的大规模语料库判断情感词的倾向,词语间的相近程度取决于词语间呈现的共性,采用互信息来衡量词语间的相近程度,计算式为:其中,q(k1)为词k1出现的概率,q(k2)为词k2出现的概率,q(k1&k2)为词k1和词k2同时出现的概率,概率q(k1&k2)与词k1出现的概率q(k1)和k2出现的概率q(k2)之积的比值作为衡量词k1和词k2间的独立性,通过互信息qnj的值判断词k1和词k2的相近程度,若qnj>0则说明词k1和词k2同时出现概率较大,相近度较高,相反,如果qnj<0则说明两者相近度低,本发明采用百度搜索引擎作为支持的语料库,用singh(k)表示词k在这个大型语料库下出现的次数,则公式为:进而通过比较情感词与正面词汇集pos

k和负面词汇集neg

k的相近程度来判断该情感词的情感倾向,表示为:cy

qnj(k)=∑
q∈pos

k
qnj(k,q)


m∈neg

k
qnj(k,m)
ꢀꢀꢀꢀꢀꢀ
式4当cy

qnj(k)大于0时,表明词语k与正面词集pos

k关联性更强,即词语k的情感更趋近正面,应属正面情感词,反之,cy

qnj(k)小于0时,表明词语k更趋近负面词集neg

k,即词语k应属负面情感词。5.根据权利要求1所述的基于评论整合挖掘的商品精细化推荐方法,其特征在于,获取用户偏好:定义用户v的偏好模型:vid<g1,pre><g2,pre>,
……
,<g
n
,pre>,其中vid代表用户的id,g
n
代表用户偏好的第n个特质,pre代表用户对特质g的偏好程度,同时,定义用户v的偏好向量p
v
,特质集合{g1,g2,

,g
n
},是依据用户对特质偏好程度的高低产生的有序集合,商品特质的先后顺序同时也代表用户对对应特质的重视程度高低,从评论集中获取并构建用户的偏好向量;从商品评论解析挖掘中,能得到评论中商品的特质集,针对这些特质集合,不同用户的偏好程度不同,本发明抽取每个用户的所有评论信息,从这些评论信息中衡量用户对每个特质的偏好程度;针对用户对特质重视程度的衡量,rg为文档词频,表示某个特质词在某个用户所有评论中出现的频率,定义为:其中,rg
vg0
表示商品特质词g0在用户v所有评论中出现的频率,m
v
,g0为特质g0在用户评论中出现的次数,g为商品的所有特质集合,∑
gi∈g
m
v,g0
为用户评论中所有特质出现的总次数,对特质出现的次数做归一化处理,通过rg即可反映出用户的偏好信息,即可得到用户对商品某一特质的偏好程度衡量值,式为:
其中,q
vg0
是用户v对商品特质g0的偏好程度,为特质g0的rg值,将用户的偏好量化,得到用户的偏好q
i
,q
i
表示为:q
i
={(g1,q1),(g2,q2)
……
(g
n
,q
m
)}
ꢀꢀꢀꢀ
式7用户的偏好以偏好值q进行排序,随着q值的降低,用户对对应特质的重视程度降低,得到所有用户的偏好集{q1,q2,
……
q
m
}。6.根据权利要求1所述的基于评论整合挖掘的商品精细化推荐方法,其特征在于,计算用户相近度:通过计算用户对特定特质的偏好来计算用户间相近度,通过用户间相近度来选取t

k的邻居用户,在计算用户间相近度时,对现有技术基于用户的协同过滤算法中的用户

商品评分矩阵进行改变,变换为用户

商品特质偏好矩阵,构建出所有用户的偏好集,基于此偏好集来衡量用户间相近度,两个用户的相近度衡量时,定义两个用户的偏好向量为:v
i
=(g
i1
,q
i1
),(g
i2
,q
i2
),

,(g
im
,q
im
);v
j
=(g
j1
,q
j1
),(g
j2
,q
j2
),

,(g
jn
,q
jn
),其中用户v
i
、v
j
分别有m、n维偏好向量,g
ip
(1<p<m)与g
jp
(1<p<n)之间不一定是对应关系,即g
ip
与g
jp
可能是相同属性特质也可能不是,属性特质顺序依据用户偏好权值从大到小顺序排列,即用户的偏好向量简化为:v
i
=g
i1
,g
i2
,

,g
im
;v
j
=g
j1
,g
j2
,

,g
jn
,针对上述用户v
i
和v
j
的偏好向量计算两者之间的相近度,相近度计算式为:其中,m的取值为min((amount(v
i
),amount(v
j
)),即用户v1与用户v2偏好中重视特质个数的最小值,cyc函数定义为用户偏好向量中top

w个特质中相同个数,假设pre
v1
={g1,g2,g3},pre
v2
={g2,g3,g4},则当w=1时,cyc返回0,w=1时cyc返回1,w=2时cyc返回2,能体现出用户在重视特质顺序上的相近度,用户相近度的计算更准确。7.根据权利要求1所述的基于评论整合挖掘的商品精细化推荐方法,其特征在于,用户评分预测解析用户相近度,进而获取top

w个邻居用户,基于这些邻居用户对目标用户进行商品评分预测,商品的评分预测式为:其中,pre
v,i
表示评分预测结果,v
*
为用户v所有评分的均值,mv
v
表示用户v的邻居用户集,则v
w
表示邻居用户集中的某个用户,t
vw,i
表示邻居用户v
w
对商品i的评分,sim(v,v
w
)表示用户v和邻居用户v
w
间的相近度,得到目标用户v对任意商品i的预测评分,在预测商品列表中选取top

m个评分最高的商品,形成对目标用户v的商品推荐列表。8.根据权利要求1所述的基于评论整合挖掘的商品精细化推荐方法,其特征在于,计算商品相近度:基于从评论中挖掘出的商品特质来衡量商品间相近度,对于两个特质属性分量g(t1,t2,t3)、g(t1,t2,t3),用余弦相近度计算式来计算他们之间的相近度:其中sim(g
x
,g
x

)表示两个特质属性分量之间的相近度,t
i
、t
i

表示特质属性分量的情
感分布率,t1、t2、t3分别表示所有评论用户对该商品在特质属性分量g
x
的好评率、中评率、差评率,两个商品用式11计算他们之间的相近度:其中sim(q
x
,q
y
)表示两个商品q
x
、q
y
之间的相近度,sim(g
x
,g
x

)表示商品q
x
、q
y
的特质属性分量g
i
、g
i

之间的相近度,b
i
为属性分量g
i
的置信权重,满足的条件,w为两个商品之间属性特质长度的最小值,在存在某个商品缺少某一特质属性的情况,对不同的情况都要做出对应处理以得到正确的结果;相近度计算过程为:首先对边界情况进行解析,当两个商品的特质属性集均为空或任何一方为空,规定两个商品的相近度为零,当两个商品特质属性集均不为空时,执行如下计算过程:过程一,选择其中一个商品作为当前商品q
x
,依次遍历当前商品的特质属性集,对每个属性执行过程二,遍历完毕执行过程四;过程二,以过程一的当前特质属性为参数,依次查找商品q
y
的属性集中对应的属性,计算两个特质属性之间的相近度,对于已经计算完相近度的特质属性节点予以删除,当查找失败没有找到对应的特质属性时,则放弃当前特质属性继续计算下一个属性之间的相近度;过程三,对过程二计算得到的相近度值进行加权统计,同时统计查找失败的次数;过程四,算法终止,输出最终的相近度值,以及失败次数。9.根据权利要求1所述的基于评论整合挖掘的商品精细化推荐方法,其特征在于,商品评分预测:预测目标用户v对任意商品q的商品评分预测,商品评分预测式为:其中,q
*
为该购买任意商品q的所有用户的平均评分,q(v)表示目标用户v购买的商品集合,则q
w
是目标用户已购买的商品,t
v,qw
表示目标用户v对已购买商品q
w
的评分,q
w*
表示购买商品q
w
的所有用户的平均评分,sim(q
w
,q)表示任意商品q与目标用户v已购买商品q
w
间的商品相近度,得到目标用户v对任意商品q的预测评分,在预测商品列表中选取top

m个评分最高的商品,形成对目标用户v的商品推荐列表。10.根据权利要求1所述的基于评论整合挖掘的商品精细化推荐方法,其特征在于,混合推荐的评分预测:对于基于评论挖掘和用户的协同过滤计算式为:其中d
v
表示基于评论挖掘和用户的协同过滤中邻居用户相近度的均值,v(v)为目标用户的邻居用户集合,|v(v)|为集合大小,sim(x,v)为目标用户v和用户x的相近度,同理对基于评论挖掘和商品的协同过滤用式16计算:其中d
i
表示对于基于评论挖掘和商品的协同过滤中邻居商品相近度的均值,i(i)为当前商品的邻居商品集合,i(i)为集合大小,sim(x,i)为当前商品i和商品x的相近度,引入参数a(0≤a≤1)作为权重调节因子,首先得出基于评论挖掘和用户的协同过滤的置信权重定
义:其中d
v
表示基于评论挖掘和用户的协同过滤中邻居用户相近度的均值,d
i
表示基于评论挖掘和商品的协同过滤中邻居商品相近度的均值,a(0≤a≤1)为权重调节因子,对基于评论挖掘和商品协同过滤的置信权重的定义由式18得出:二者的置信权重和为1,并且通过调整权重调节因子a的值改变对应的权重值,实施例a=0.5来平衡二者的权重,确定置信权重之后,得出最终预测值的定义式:finper
v,i
=b
v
*pre
v,i
b
i
*pre
v,q
ꢀꢀꢀꢀꢀ
式19其中,finper
v,i
为混合模型计算后最终的用户对商品评分预测值,b
v
与b
i
分别为基于评论挖掘用户和商品两种协同过滤的混合权值,per
v,i
和per
v,p
分别为基于评论挖掘用户和商品两种协同过滤的用户对商品评分预测值。

技术总结
本发明提出基于评论挖掘的商品推荐方法,将评论挖掘与传统的协同过滤的推荐方法相结合,从用户偏好和商品的特质层面上来解析用户和商品,缓解数据稀疏和推荐准确性问题。具体包括:一是通过对用户评论的挖掘和解析,获取用户偏好,然后根据获取的用户偏好计算用户之间的相近度,缓解数据稀疏为用户间相近度计算带来的不利影响;二是通过对商品评论的挖掘和解析,构建商品的特质模型,在计算商品相近度时基于商品特质,通过改进商品间相近度计算方法提高商品相近度计算的准确性,提高推荐效果;三是将基于评论挖掘和用户的协同过滤与基于评论挖掘和商品的协同过滤结合,产生混合模型进行推荐,效率和准确度都有大幅提高。效率和准确度都有大幅提高。效率和准确度都有大幅提高。


技术研发人员:王彬 孙军
受保护的技术使用者:王彬
技术研发日:2021.07.26
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜