一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于区间分割的电商水军识别方法与流程

2021-11-20 01:54:00 来源:中国专利 TAG:


1.本发明属于计算机网络内的信息技术领域,包含了对大数据的精密分析,涉 及到了在电子商务系统通过用户的评分特征来评估用户信誉的方法,是一种通过 分析带权的用户

商品二部图从而得出用户信誉的一种评估及计算方法。


背景技术:

2.随着经济以及网络技术的发展,在网上完成商品交易更加便捷与实惠,这极 大地促进了电子商务的发展,而在交易过程中,商品评分是用户选择时一个十分 重要的标准,因此我们需要建立可靠的评分系统。在当前的信誉评分系统中存在 着许多问题,其中最普遍的即为用户的随意评分或者恶意评分所引发的评分偏差 问题,尤其是存在请水军进行大规模的好评或者差评,以此来提高或者降低某个 商品的评分的情况,这会严重误导消费者。而水军这个群体数量众多,评分不依 据客观事实,同时隐蔽性强,混杂于大量正常用户中,对商品评分造成了不良影 响。这对电子商务平台的发展是不利的,严重影响了网上商品交易的正常秩序。 因此,构建一个稳定、可靠的用户和商品信誉系统是十分重要的,如果能有一种 算法,我们既能剔除恶意用户,又能评估出一个商品的真实质量,这对电子商务 的发展乃至整个社会的发展都是极其有利的。
3.用户

商品信誉系统需要大量用户的评分数据来支撑。我们通过量化用户对 商品的影响来反应商品的质量并计算用户的信誉。水军虽然隐蔽性非常强,但通 过优质的算法,可以通过水军的评分记录分析出水军与正常用户的区别,以此来 筛选出水军。水军群组存在两个非常典型的例子,随机水军群组以及极端水军群 组。随机水军群组出于对商品的不够了解等原因,忽略商品质量而随机打分。极 端水军群组为了扰乱商品的正常评分,对商品进行最高或最低评分。为了筛选出 这两种典型的水军群组,近些年通过大量的实验,许多优质信誉评价算法涌现了 出来。
4.基于相关性的思想:p.laureti等人提出了一种迭代的(ir)方法,在这种方 法中,用户的信誉与他的评分和相应对象的质量之间的差值成反比,用户信誉和 商品质量是迭代计算,直到它们变得稳定。zhou等人提出了基于相关系数的排 名(correlationbased ranking,cr)方法,该方法对恶意用户攻击具有较强的鲁棒性, 其中用户的信誉是由他的评分和对象的估计质量之间的相关系数决定的。liao 等人通过引入信誉再分配过程和两个惩罚因子,进一步改进了cr方法。
5.基于群组的思想:gao等人提出了基于群组的排名(group

based ranking, gr)方法。后来gao等人在2015年又在gr的基础上提出了基于群组的迭代排 名(iterative group

based ranking,igr)的方法,在gr的基础上增加了迭代部 分。迭代的运用在后续研究中得到了广泛的运用。wu等人在消除用户评分偏差 (eliminating the effect of rating bias,ibr)方法中也运用了迭代的思想,将用户 评分的偏差与原来的评分对比分为三类,一是消极,二是积极,三是无影响,商 品的质量是通过用户的偏差进行修正的。虽然基于偏差的算法在极端用户攻击中 取得了卓越效果,但是对于随机用户并没有明显的
提升。
6.基于特定分布假设思想:lee daekyung等人提出了基于偏差的随机恶意 用户筛选方法(deviation

based ranking,dr)。基于beta分布假设的由 wuying

ying等人提出的br(bayesian ranking)算法。以上算法在数据量较大、 且比较稀疏的情况下,表现不是很好,鲁棒性欠佳。


技术实现要素:

7.本发明的目的,在于提供一种基于区间划分的电商水军识别方法,其对极端 水军群组和随机水军群组的识别能力较优,在大数据下能够基本保证原有的识别 能力,鲁棒性强,且其可拓展性强。
8.为了实现对电商水军更加准确的识别,本发明的解决方案是:
9.一种基于区间分割的电商水军识别方法,包括如下步骤:
10.步骤1,定义三元组数据结构g={i,α,r},分别表示用户、商品和评分;
11.步骤2,假设用户的评分服从正态分布,计算商品历史评分的均值和方差;
12.步骤3,分别计算用户评分的正确率,用户各个评分到对应评分区间的距离 之和,以及用户评分的极差;
13.所述步骤3中,计算用户评分的正确率的方法是:
14.步骤a31,利用z

score方法对用户评分进行标准化处理;
15.步骤a32,将标准化处理后的评分进行归类,确定评分区间,在评分区间内 的评分认为是正确的评分,否则认为是非正确评分;
16.步骤a33,统计用户正确评分的次数和非正确评分的次数,从而计算用户评 分的正确率;
17.步骤4,根据用户评分的正确率和极差,结合用户各个评分到对应评分区间 的距离之和,得到用户信誉;
18.步骤5,将用户信誉进行排序,选择信誉最低的前n个用户作为水军,n为 设定值。
19.上述步骤2中,根据下式计算商品α的历史评分的均值μ
α

[0020][0021]
其中,u
α
表示购买商品α的用户集合,|u
α
|表示购买商品α的用户数,r
iα 表示用户i对商品α的评分;
[0022]
根据下式计算商品α的历史评分的方差σ
α

[0023][0024]
其中,u
α
表示购买商品α的用户集合,|u
α
|表示购买商品α的用户数,r
iα 表示用户i对商品α的评分,μ
α
表示商品α的历史评分的均值。
[0025]
上述步骤a31的具体内容是:
[0026]
根据下式计算标准化后商品α的评分:
[0027][0028]
其中,r

表示用户i对商品α的评分,μ
α
表示商品α的历史评分的均值,σ
α 表示商品α的历史评分的方差。
[0029]
上述步骤a33的具体内容是:统计用户正确评分的次数s
i
和非正确评分的 次数f
i
,然后利用下式计算用户评分的正确率:
[0030][0031]
其中,η
i
表示用户i评分的正确率。
[0032]
上述步骤3中,计算用户各个评分到对应评分区间的距离之和的公式是:
[0033][0034]
其中,bd表示根据步骤a32确定的评分区间的边界,即

1或者1,当 r'



1,bd=

1,当r'

≥1,bd=1,否则r'

=bd;d
i
表示用户i各个评 分到对应评分区间的距离之和,o
α
为对商品α评分的用户i的集合;f
i
表示用 户i非正确评分的次数。
[0035]
上述步骤3中,计算用户评分的极差的公式是:
[0036][0037]
其中,v
i
表示用户i评分的极差,t
ir
表示用户i在各个评分r下的打分次数。
[0038]
上述步骤4中,计算用户信誉公式是:
[0039][0040]
其中,r
i
表示用户i的信誉,d
i
表示用户i各个评分到对应评分区间的距离 之和,η
i
表示用户i评分的正确率,v
i
表示用户i评分的极差。
[0041]
上述步骤5中,采用冒泡排序法将用户信誉从小到大进行排序;对于信誉相 同的用户,根据其用户编号,将编号大的放在编号小的前面。
[0042]
采用召回率进行优劣性验证:
[0043]
模拟一定数量的随机评分水军群组和极端评分水军群组并将其标记,根据步 骤1

5计算得到信誉最低的l个用户,计算l个用户中被标记用户的占比数,即 为召回率:
[0044][0045]
其中,r
c
(l)表示召回率,d'(l)表示选取的l个用户中被标记的人工水军 数目,d表示已设置的人工水军的数目;r
c
(l)的数值越高代表辨识出人造水军 越多,即效果越好。
[0046]
采用auc判断方法验证步骤1

5计算用户信誉的准确性:将人造水军信誉 和其他用户声誉依次比较,统计信誉低于正常用户次数n',以及等于正常用户 信誉的次数n”,根据如下auc计算公式:
[0047][0048]
其中,n=n1×
n2,n1为人造水军的数量,n2为其他用户的数量;
[0049]
当随机挑选人造水军信誉均等于正常用户时auc为0.5,当人造水军信誉均 低于正常用户时auc为1,那么auc处于[0.5,1]的区间;当auc越高,则人 造水军信誉低的次数越多,即辨识度越高。
[0050]
采用上述方案后,本发明具有以下特点:
[0051]
(1)本发明采用的算法假设商品的评分遵循正态分布,并通过z

score进行 标准化,进而实现对商品评分区间的划分,计算出每个用户的评分正确率和极差; 最后,计算用户评分到相应商品的评分区间的距离之和,结合用户的评分正确率 和极差,得到用户的信誉。当一个用户评分距离越大,评分正确率越低,那么这 个用户很可能是水军群组的一员;
[0052]
(2)本发明提出的方法经过测试,结果表明在计算用户信誉和过滤恶意用 户方面都表现良好。此外本发明基于特定分布假设,将其融入信誉计算的过程中。 即使数据集中存在一些水军,人工生成的随机水军群组也会得到很好的筛选。
[0053]
(3)本发明不涉及迭代过程,时间复杂度低,易于扩展,可应用于欺诈检 测,水军识别等领域。
附图说明
[0054]
图1是本发明的流程图;
[0055]
图2是本发明在小矩阵数据上的方法演示实例;
[0056]
其中,(a)表示原始加权二部图,(b)表示用户对象评分矩阵,(c)表示(b)中的 方差和均值,(d)表示对(b)矩阵使用z

score进行标准化后得到的新评分矩阵,(e) 表示评级合理性矩阵,代表新评分矩阵中评分是否正确,(f)表示合理性统计矩阵, (g)表示用户评分准确性矩阵,(h)表示用户距离矩阵,(i)表示用户打分次数矩阵, (j)表示极差矩阵,(k)表示用户信誉矩阵;
[0057]
图3是本发明在不同数据集下召回率随l取值变化曲线;
[0058]
其中,(a)表示极端水军群组,(b)表示随机水军群组,数量均为100,横坐标 表示选取的前l个最低信誉用户;
[0059]
图4是本发明与其他信誉评价方法在不同数据集下召回率随l取值变化曲 线,水军的数目为100,l的变化范围为0~300;
[0060]
其中,(a)(b)(c)表示极端水军群组情况下,各个算法召回率情况,(d)(e)(f)表 示随机水军群组情况下,各个算法召回率的情况;p(p表示水军在所有用户中 的占比)的变化范围为0%~50%;
[0061]
图5是本发明与其他信誉评价方法在不同数据集下召回率随水军群组比例 变化曲线,其中l的取值默认等于水军群组的数量;
[0062]
图6是本发明与其他信誉评价方法在netflix数据集下auc随水军群组比例 变化曲线;
[0063]
其中,(a)表示极端水军群组,(b)表示随机水军群组。
具体实施方式
[0064]
以下将结合有关附图,对本发明的技术成果进行详细说明。
[0065]
如图1所示,本发明提出了一种基于区间分割的电商水军识别方法,思路如 下:
[0066]
(1)采用三元组存储进行数据存储。由于用户评分矩阵存在分布稀疏的问 题,我们定义了三元组的数据结构g={i,α,r},i,α,r依次表示用户、商品和评 分。一个三元组数据代表一个用户进行了一次评分的行为,构建此数据存储结构 可以用较小的数据存储量覆盖所有的评分行为;
[0067]
(2)计算出商品的历史评分的均值和方差。我们假设商品的评分服从正态 分布,计算出均值和方差便于对数据标准化;
[0068]
(3)利用z

score方法对评分矩阵进行归一化处理。利用历史评分的均值和 方差采用z

score方法对评分矩阵进行归一化处理,以便后续进行进一步处理;
[0069]
(4)对用户评分分类。标准化后的评分服从标准正态分布,根据函数曲线 下68.268949%的面积在平均值左右的一个标准差范围内,如果标准化之后的评 分在[

1,1]里面就表示这是一个正确的评分,反之则是非正确评分;
[0070]
(6)计算用户评分的正确率。根据用户打分的合理性,统计用户正确评分 的次数和非正确评分的次数,进而计算出用户评分的正确率;
[0071]
(7)计算用户评分距离之和。基于步骤(2),利用标准化后的评分计算出 用户评分到正确评分区间的距离之和。评分距离之和越大,说明该用户评分越不 可信;
[0072]
(8)计算出来用户评分的极差。基于步骤(2),根据极差公式计算用户评 分极差,是用户信誉的评价指标之一;
[0073]
(9)计算用户信誉。由于存在用户评分都不合理,但评分距离之和依然很 小的现象,所以需要利用用户评分的正确率和极差进行修正,用户的评分距离之 和结合其正确率和极差作为用户的信誉。
[0074]
(10)选择水军。根据步骤(9)得出所有用户的信誉值并按从小到大进行 排序,记人工制造水军数目为n个,那么就抓取前n个用户将其作为水军并与 真正的水军作比较,得出方法的辨识准确度。
[0075]
具体来说,在本实施例中,重点包含如下几个步骤,为方便理解,将结合图 2小矩阵测试数据进行说明:
[0076]
步骤1,采用三元组存储进行数据存储,由于用户评分矩阵存在分布稀疏的 问题使用矩阵存储占用空间过多,我们定义了三元组的数据结构g={i,α,r},i,α, r依次表示用户、商品和评分。一个三元组数据代表了一个用户进行了一次评分 的行为,构建此数据存储结构可以用较小的数据存储量覆盖所有的评分行为。不 过为方便说明,图2(b)中采用矩阵对用户评分信息进行存储。
[0077]
步骤2,初始时,我们初始化用户评分矩阵并假设用户的评分是服从正态分 布的。我们先计算出商品的历史评分均值μ
α
,计算方式如公式(1)所示:
[0078][0079]
公式(1)中,μ
α
表示商品α的历史评分均值,u
α
表示购买α商品的用户 集合,|u
α
|代
表购买α商品的用户数,r

表示用户i对商品α的评分。
[0080]
步骤3,计算出商品历史评分的方差σ
α
。基于方差公式,计算方式如下:
[0081][0082]
上述公式(2)中,u
α
表示购买α商品的用户集合,|u
α
|代表购买α商品的 用户数,r

表示用户i对商品α的评分,μ
α
表示商品α的历史评分均值。图2(c) 是小矩阵下公式(1)与公式(2)求得的商品历史评分均值与历史评分的方差的 结果。
[0083]
步骤4,此时我们已经有了商品历史评分的均值和方差,我们利用z

score 方法对评分矩阵进行标准化处理,得到r'


[0084][0085]
公式(3)中r'

为标准化后商品的评分,r

表示用户i对商品α的评分,μ
α 表示商品α的历史评分均值,σ
α
表示商品α的历史评分方差。我们认为标准化 后可以忽略评分上下限,不论是1

5或者1

10的评分,均可以标准化,便于处 理更多数据。图2(d)是将原矩阵(b)通过公式(3)标准化的结果称为矩阵b。
[0086]
步骤5,基于步骤4得到的用户对象标准化评分矩阵b,我们预测对象o
α
标 准化后的评分将会服从标准正态分布n(0,1)。
[0087]
步骤6,根据步骤5的分析,我们将用户的评分分成两类,如果标准化之后 的评分在[

1,1]里面就表示这是一个正确的评分,反之则是非正确评分,则[

1,1] 即为本实施例的评分区间。记作:
[0088][0089]
其中δ

=1表示用户i对商品α的评分是正确的,δ

=0表示用户i对商品 α的评分是非正确的。这样就将用户打分合理性进行数字化,得到图(e)打分合理 性矩阵c。
[0090]
步骤7,利用步骤6中的结果,计算出用户评分的正确率η
i

[0091][0092]
公式(5)中η
i
代表用户i评分的正确率,s
i
代表用户i评分正确的次数,f
i
代表用户i评分不正确的次数。图2(f)为统计用正确评分的次数与非正确评分的 次数的结果,图2(g)为计算用户评分的正确率的结果。
[0093]
步骤8,计算出用户距离正确间隔的距离之和d
i

[0094][0095]
公式(6)中,根据步骤6中确定评分正确性的区间,bd表示评分区间的 边界,即1或者

1。当r'



1,bd=

1,当r'

≥1,bd=1,否则r'

=bd, 这样当评分正确时为0,只将评
分错误部分列出;d
i
代表用户距离正确间隔的距 离之和,o
i
代表此用户i打分的商品集合,f
i
代表用户评分不正确的次数。分 子加上0.001是为了防止d
i
取倒数时分母为0,便于计算;分母加1是为了防止 未打出错误评分而导致除数为0。通过计算d
i
可以得出用户偏差程度。图2(h) 的d矩阵即为得出的结果。
[0096]
步骤9,计算用户评分的极差v
i

[0097][0098]
公式(7)中maxt
ir
代表该用户各个评分下打分次数的最大值,mint
ir
代表该 最小值。
[0099]
步骤10,最后求出来用户的信誉r
i

[0100][0101]
公式(8)中,d
i
代表用户评分到评分区间的距离之和,η
i
代表用户评分的 正确率,v
i
代表用户评分的极差。r
i
即为用户的信誉。
[0102]
步骤11,验证算法。实验中,分别人工制造l个极端水军群组与随机水军 群组并将其标记,同时通过公式(8)计算所有用户信誉值并将其从小到大进行 排序,取排列在前即信誉值低的l个用户,将这l个用户与先前人工制造的水 军群组做比较,统计这l个用户众被标记的水军数目占比,即召回率(recall)。 其具体公式为:
[0103][0104]
公式(9)中,r
c
(l)表示召回率,d'(l)表示在长度为l的情况下识别出的 被标记的人工水军数目,d表示已设置的人工水军的数目;由上式显然d'(l)是 处于[0,d]这个区间的,即r
c
(l)处于[0,1]之间,数值越高代表辨识出人造水军越 多,即效果越好。
[0105]
同时,为了更深层次地验证实验成果的可靠性,我们在实验中还采用了计算 auc(roc曲线下的面积)作为衡量算法优劣性的指标。auc可以解释为随机 选择的水军信誉高于非水军信誉的可能性。将人造水军信誉和其他用户声誉依次 比较,统计信誉低于正常用户次数n',等于正常用户信誉的次数n”,auc计 算公式:
[0106][0107]
在公式(10)中,其中,n=n1×
n2(n1为人造水军的数量,n 2
为其他用 户的数量),当随机挑选人造水军信誉均等于正常用户此时auc为0.5,当人造 水军信誉均低于正常用户此时auc为1,那么auc应处于[0.5,1]的区间,当auc 越高,则人造水军信誉低的次数越多,即算法辨识度越高,鲁棒性越强。
[0108]
下面基于真实数据,验证该方法的有效性。实验中采用的数据集为一个 amazon的数据集和一个netflix的数据集以及一个movielens的数据集。amazon 的数据集地址为https://snap.stanford.edu/data/#amazon,netflix数据集的地址为 www.netflixprize.com,movielens数据集的地址为www.grouplens.org。
[0109]
各数据集合的网络特征如表1所示,表中每列的数据字段从左至右分别表示: 用
户数m、商品数n、评分条数i、用户平均度<ku>(各个用户平均评价商品数)、 商品平均度<ko>(每件商品平均被购买数)、数据稀疏度s(评分条数/(用户数 *商品数))。
[0110]
表1三个数据集合的网络特征
[0111] mni<ku><k
o
>smovielens9431682100000106590.06305netflix50001776834966146991690.03936amazon9000514105130487214530.0039
[0112]
本发明方法在表1三个数据集中随l增长召回率变化曲线如图3所示。可以 看到本发明方法在三个数据集上针对随机水军群组和极端水军群组的表现有明 显差异。此外对比(a)(b)两图可以看到本发明方法在针对极端水军群组的效果优 于随机水军群组。
[0113]
本发明方法与其他信誉评价方法(gr,igr,dr,ibr)在不同数据集上 召回率比较如图4所示,其中横坐标l表示选取的前l个信誉低的用户,纵坐 标为召回率,图4(a)(b)(c)为极端水军群组,可以看出我们的发明效果优于其他4 种方法,且在稀疏数据集上鲁棒性更强;图4(d)(e)(f)为随机水军群组,我们的方 法表现明显优于其他算法,尤其在amazon数据集上在对随机水军的筛选依旧出 色稳定。
[0114]
随水军群组比例变化各个方法召回率变化曲线如图5所示。可以看到在针对 极端水军群组方面,本发明方法在水军群组增大时召回率几乎不发生改变,而 gr、igr方法都有不同程度的降低(这个是gr和igr采用基于群组划分的方 法的缺点)。在针对随机水军群组方面,各个方法的增长趋势一致,但是我们的 方法前期增长的速度更快,表现更优。
[0115]
图6(a)、(b)分别表示的是各个方法在极端水军群组、随机水军群组不同比例 大小下,auc的变化曲线。在(a)中可以看到ibr方法和本发明方法的auc表 现一致,而gr、igr都有明显的下降(这与图5中现象一致)。而在(b)中可以 明显看到各个算法在随机水军群组增大时auc都有轻微的下降,但是我们的方 法表现依旧很稳定,优于其他方法。
[0116]
通过以上分析可以发现,本发明具有以下优势:首先,通过三个数据集的测 试,从结果中可以看出来,该算法在筛选极端恶意用户和随机恶意用户之间做了 很好的平衡,具有很好的准确性和鲁棒性;而且无论是在恶意用户占比较多的数 据集还是在恶意用户占比较少的数据集中,该算法表现出来的筛选能力都比其他 算法略好。
[0117]
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围, 凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本 发明保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献