一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于大数据和电子商务的产品评论真实性检测方法与流程

2022-02-20 16:16:02 来源:中国专利 TAG:


1.本发明涉及大数据和电子商务领域,尤其涉及一种基于大数据和电子商务的产品评论真实性检测方法。


背景技术:

2.电子商务通常是指在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于客户端/服务端应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。
3.在这种商业运营模式下买家对商品的评分和评价对商品的销售尤为重要,很多商家为了提高商品的好评度,找人“刷单”现象频繁出现,从而对新买家产生误导,产生在网上购买的商品与商家宣传、客户评价/反馈不符的情况,使得电子商务的发展受到了制约。


技术实现要素:

4.有鉴于此,本发明提供了一种基于大数据和电子商务的产品评论真实性检测方法其包括:接收目标用户通过用户终端发布的目标产品评论;所述目标产品评论为目标用户在购买目标产品后对目标产品的评论;
5.从数据库获取目标产品的关联轨迹数据,并提取关联轨迹数据的关联时空特征,然后将关联时空特征映射到时空特征空间得到关联时空特征矩阵;
6.根据关联时空特征矩阵获取目标用户在关联周期内浏览过的所有产品,并将目标用户在关联周期内浏览过的作为关联产品,然后获取关联产品的地址标识符;所述地址标识符用于对产品购买地址进行唯一标识;
7.将所述关联时空特征矩阵分解为浏览顺序矩阵、浏览时长矩阵和产品属性矩阵,并根据浏览顺序矩阵、浏览时长矩阵和产品属性矩阵生成若干个三元复合坐标;所述三元复合坐标包括第一坐标、第二坐标和第三坐标;
8.根据地址标识符将关联产品与三元复合坐标进行映射以生成若干个二元组,并根据所有的二元组获取目标产品评论的第一异常判断值;所述二元组包括地址标识符和三元复合坐标;
9.从数据库获取目标用户的历史购买数据,并提取历史购买数据的历史时空特征,然后将历史时空特征映射到时空特征空间得到历史时空特征矩阵;
10.根据历史时空特征矩阵构建目标用户的产品分布图,并根据所述产品分布图获取目标产品评论的异常系数;
11.从数据库获取目标产品的所有历史产品评论,并分别提取目标产品评论和历史产品评论的特征,然后分别将其映射到特征向量空间以得到目标评论向量和若干个历史评论向量;
12.根据目标评论向量和历史评论向量构建目标产品的评论结构图,并根据所述评论
结构图获取目标产品评论的第二异常判断值;
13.根据异常系数、第一异常判断值和第二异常判断值计算目标产品评论的可信度,并在目标产品评论的可信度小于可信度阈值时将目标产品评论标记为异常产品评论。
14.根据一个优选实施方式,所述目标产品的关联轨迹数据为目标用户在关联周期内在电商平台的浏览轨迹数据;所述关联周期为目标用户购买目标产品前的第一预设时间段;所述目标用户的历史购买数据为目标用户在历史周期内在电商平台购买的产品的相关数据;所述历史周期为目标用户在购买目标产品前的第二预设时间段。
15.根据一个优选实施方式,所述用户终端为用户使用的具有通信功能和数据传输功能的设备,其包括:智能手表、智能手机、笔记本电脑、平板电脑和台式电脑。
16.根据一个优选实施方式,根据浏览顺序矩阵、浏览时长矩阵和产品属性矩阵生成三元复合坐标包括:
17.根据地址标识符将浏览顺序矩阵分解为若干个浏览顺序向量,并根据地址标识符将浏览时长矩阵分解为若干个浏览时长向量,然后根据地址标识符产品属性矩阵分解为若干个产品属性向量;
18.将地址标识符相同的浏览顺序向量、浏览时长向量和产品属性向量作为一个三元向量组以得到若干个三元向量组;三元向量组包括浏览顺序向量、浏览时长向量和产品属性向量;
19.遍历所有三元向量组并将正在遍历的三元向量组作为目标三元向量组;
20.将目标三元向量组中的浏览顺序向量映射到第一维特征空间以得到目标第一坐标,并将目标三元向量组中的浏览时长向量映射到第二维特征空间以得到目标第二坐标,然后将目标三元向量组中的产品属性向量映射到第三维特征空间以得到目标第三坐标;
21.根据目标第一坐标、目标第二坐标和目标第三坐标生成相应目标三元向量组的复合三元坐标;
22.重复以上步骤,直到遍历完所有的三元向量组以生成每个三元向量组的复合三元坐标。
23.根据一个优选实施方式,根据所有的二元组获取目标产品评论的第一异常判断值包括:
24.遍历所有的关联产品,并将正在遍历的关联产品作为目标关联产品,然后获取目标关联产品的三元复合坐标;将目标关联产品作为一个新的产品类型,并将该产品类型的属性坐标设置为目标关联产品的第三坐标,然后将该产品类型的时长坐标设置为目标关联产品的第二坐标;判断是否还存在没有遍历的关联产品;
25.在存在没有遍历的关联产品时,继续遍历关联产品,并将正在遍历的关联产品作为目标关联产品,然后分别计算目标关联产品的第三坐标与各产品类型的属性坐标的距离将其作为属性距离;将数值最小的属性距离作为最小属性距离,并判断最小属性距离是否小于距离阈值;在最小属性距离小于距离阈值时,将目标关联产品加入最小属性距离对应的产品类型,并根据目标关联产品的第二坐标和第三坐标更新相应产品类型的属性坐标和时长坐标;在最小属性距离大于或等于距离阈值时,将目标关联产品作为一个新的产品类型,并将该产品类型的属性坐标设置为目标关联产品的第三坐标,将该产品类型的时长坐标设置为目标关联产品的第二坐标;重复以上步骤,直到不存在没有遍历的关联产品;
26.在不存在没有遍历的关联产品时,根据每个产品类型的时长坐标计算每个产品类型的浏览值,并将数值最大的浏览值作为最大浏览值,然后将最大浏览值对应的产品类型作为目标产品类型。
27.根据一个优选实施方式,根据所有的二元组获取目标产品评论的第一异常判断值包括:
28.获取目标产品的属性特征,并将目标产品的属性特征映射到特征向量空间以得到目标产品的产品属性向量;
29.将目标产品的产品属性向量映射到第三维特征空间以得到目标产品的产品属性坐标;
30.获取目标产品类型的属性坐标,并将目标产品类型的属性坐标作为目标属性坐标;
31.计算目标属性坐标与产品属性坐标间的距离以得到目标产品与目标产品类型的属性距离,并根据属性距离得到目标产品评论的第一异常判断值。
32.根据一个优选实施方式,根据产品分布图获取目标产品评论的异常系数包括:
33.根据历史购买数据获取历史时序特征,并根据历史时序特征将产品分布图分解为若干个产品分布子图;
34.使用无监督学习算法将每个产品分布子图表示为一维向量以得到每个产品分布子图的图特征向量,并根据每个产品分布子图的图特征向量与标准特征向量的余弦相似度获取每个产品分布子图的异常值,然后将异常值大于异常阈值的产品分布子图作为异常产品分布子图;
35.利用图卷积网络将每个异常产品分布子图转换为对应的线图,并分别提取每个异常产品子分布图和其对应的线图的图特征以得到每个异常产品子分布图的第一图特征和第二图特征;
36.将每个异常产品分布子图的第一图特征和第二图特征进行拼接得到每个异常产品分布子图的图结构特征,并将每个异常产品分布子图的图结构特征进行线性变换以得到每个异常产品分布子图的异常子系数,然后将所有异常产品分布子图的异常子系数进行加权求和得到目标产品评论的异常系数。
37.根据一个优选实施方式,根据异常系数、第一异常判断值和第二异常判断值计算目标产品评论的可信度包括:
[0038][0039]
其中,s为可信度,p为第一异常判断值,q为第二异常判断值,r为异常系数,e为自然底数,t为调节系数。
[0040]
本发明具有以下有益效果:本发明对目标用户在购买目标产品时的行为特征和目标产品评论的特征进行分析以得到目标产品评论的可信度。通过目标产品评论的可信度识别异常产品评论,并对异常产品评论进行标记以使得其他客户在购买目标产品时可以选择性的参考目标产品的产品评论,减少异常产品评论对用户产生误导的情况。
附图说明
[0041]
图1为一示例性实施例提供的基于大数据和电子商务的产品评论真实性检测方法的流程图。
具体实施方式
[0042]
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
[0043]
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
[0044]
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
[0045]
应当理解,为清楚起见,参考不同的功能模块对本发明的实施例进行了描述。然而,在不偏离本发明的情况下,每个功能模块的功能性可以被实施在单个模块中、实施在多个模块中或作为其它功能模块的一部分被实施。例如,被说明成由单个模块执行的功能性可以由多个不同的模块来执行。因此,对特定功能模块的参考仅被视为对用于提供所描述的功能性的适当模块的参考,而不是表明严格的逻辑或物理结构或组织。因此,本发明可以被实施在单个模块中,或者可以在物理上和功能上被分布在不同的模块和电路之间。
[0046]
需要理解的是,尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或元素,但是这些设备、元件、部件或元素不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或元素与另一个设备、元件、部件或元素相区分。
[0047]
尽管已经结合一些实施例描述了本发明,但是其不旨在被限于在本文中所阐述的特定形式。相反,本发明的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且不定冠词“一”或“一个”不排除多个。
[0048]
参见图1,在一个实施例中,基于大数据和电子商务的产品评论真实性检测方法可以包括:
[0049]
s1、接收目标用户通过用户终端发布的目标产品评论;从数据库获取目标产品的关联轨迹数据,并提取关联轨迹数据的关联时空特征,然后将关联时空特征映射到时空特征空间得到关联时空特征矩阵。
[0050]
目标产品评论为目标用户在购买目标产品后发布的对目标产品的评论;目标用户
为购买了目标产品并正在发布目标产品的评论的用户;目标产品为目标用户发布的评论所评论的产品。
[0051]
用户终端为用户使用的具有通信功能和数据传输功能的设备,其包括智能手表、智能手机、笔记本电脑、平板电脑和台式电脑。
[0052]
目标产品的关联轨迹数据为目标用户在关联周期内在电商平台的浏览轨迹数据;关联周期为目标用户购买目标产品前的第一预设时间段。浏览轨迹数据为目标用户在关联周期内浏览过的产品的浏览顺序、浏览时间和产品属性。
[0053]
第一预设时间段和第二预设时间段为根据实际情况预先进行设置,第一预设时间段远远小于第二预设时间段。在一个例子中,第一预设时间段为一个小时,第二预设时间段为一年。
[0054]
s2、根据关联时空特征矩阵获取目标用户在关联周期内浏览过的所有产品,并将目标用户在关联周期内浏览过的作为关联产品,然后获取关联产品的地址标识符。
[0055]
地址标识符用于对产品购买地址进行唯一标识,不同商家卖的相同产品的地址标识符也是不同的。关联产品为目标用户在关联周期内在电商平台上浏览过的产品。
[0056]
s3、将关联时空特征矩阵分解为浏览顺序矩阵、浏览时长矩阵和产品属性矩阵,并根据浏览顺序矩阵、浏览时长矩阵和产品属性矩阵生成若干个三元复合坐标;根据地址标识符将关联产品与三元复合坐标进行映射以生成若干个二元组,并根据所有的二元组获取目标产品评论的第一异常判断值。
[0057]
二元组包括地址标识符和三元复合坐标;三元复合坐标包括第一坐标、第二坐标和第三坐标;第一坐标表征关联产品的浏览顺序,第二坐标表征关联产品的浏览时长,第三坐标表征关联产品的产品属性。
[0058]
第一异常判断值用于判定目标用户购买产品的过程的异常行为。在一个具体的例子中,目标用户在购买目标产品前没有浏览过该产品类型下的其他产品,而是直接精准选中目标产品,并且也没有浏览目标产品的情况下,目标用户的购买行为存在异常。
[0059]
在一个实施例中,根据浏览顺序矩阵、浏览时长矩阵和产品属性矩阵生成三元复合坐标包括:
[0060]
根据地址标识符将浏览顺序矩阵分解为若干个浏览顺序向量,并根据地址标识符将浏览时长矩阵分解为若干个浏览时长向量,然后根据地址标识符产品属性矩阵分解为若干个产品属性向量;
[0061]
将地址标识符相同的浏览顺序向量、浏览时长向量和产品属性向量作为一个三元向量组以得到若干个三元向量组;三元向量组包括浏览顺序向量、浏览时长向量和产品属性向量;
[0062]
遍历所有三元向量组并将正在遍历的三元向量组作为目标三元向量组;
[0063]
将目标三元向量组中的浏览顺序向量映射到第一维特征空间以得到目标第一坐标,并将目标三元向量组中的浏览时长向量映射到第二维特征空间以得到目标第二坐标,然后将目标三元向量组中的产品属性向量映射到第三维特征空间以得到目标第三坐标;
[0064]
根据目标第一坐标、目标第二坐标和目标第三坐标生成相应目标三元向量组的复合三元坐标;
[0065]
重复以上步骤,直到遍历完所有的三元向量组以生成每个三元向量组的复合三元
坐标。
[0066]
第一维特征空间、第二维特征空间和第三维特征空间为特征维数不同的特征空间,其中第一维、第二维和第三维为相应特征空间的特征维数,第一位、第二维和第三维的具体数值为根据实际情况预先进行设置。
[0067]
具体地,根据所有的二元组获取目标产品评论的第一异常判断值包括:
[0068]
遍历所有的关联产品,并将正在遍历的关联产品作为目标关联产品,然后获取目标关联产品的三元复合坐标;将目标关联产品作为一个新的产品类型,并将该产品类型的属性坐标设置为目标关联产品的第三坐标,然后将该产品类型的时长坐标设置为目标关联产品的第二坐标;判断是否还存在没有遍历的关联产品;
[0069]
在存在没有遍历的关联产品时,继续遍历关联产品,并将正在遍历的关联产品作为目标关联产品,然后分别计算目标关联产品的第三坐标与各产品类型的属性坐标的距离将其作为属性距离;将数值最小的属性距离作为最小属性距离,并判断最小属性距离是否小于距离阈值;在最小属性距离小于距离阈值时,将目标关联产品加入最小属性距离对应的产品类型,并根据目标关联产品的第二坐标和第三坐标更新相应产品类型的属性坐标和时长坐标;在最小属性距离大于或等于距离阈值时,将目标关联产品作为一个新的产品类型,并将该产品类型的属性坐标设置为目标关联产品的第三坐标,将该产品类型的时长坐标设置为目标关联产品的第二坐标;重复以上步骤,直到不存在没有遍历的关联产品;
[0070]
在不存在没有遍历的关联产品时,根据每个产品类型的时长坐标计算每个产品类型的浏览值,并将数值最大的浏览值作为最大浏览值,然后将最大浏览值对应的产品类型作为目标产品类型。
[0071]
接下来,根据所有的二元组获取目标产品评论的第一异常判断值包括:
[0072]
获取目标产品的属性特征,并将目标产品的属性特征映射到特征向量空间以得到目标产品的产品属性向量;
[0073]
将目标产品的产品属性向量映射到第三维特征空间以得到目标产品的产品属性坐标;
[0074]
获取目标产品类型的属性坐标,并将目标产品类型的属性坐标作为目标属性坐标;
[0075]
计算目标属性坐标与产品属性坐标间的距离以得到目标产品与目标产品类型的属性距离,并根据属性距离得到目标产品评论的第一异常判断值。
[0076]
s4、从数据库获取目标用户的历史购买数据,并提取历史购买数据的历史时空特征,然后将历史时空特征映射到时空特征空间得到历史时空特征矩阵;根据历史时空特征矩阵构建目标用户的产品分布图,并根据所述产品分布图获取目标产品评论的异常系数。
[0077]
目标用户的历史购买数据为目标用户在历史周期内在电商平台的购买轨迹数据;购买轨迹数据为目标用户在历史周期内购买过的产品的购买顺序和产品属性。历史购买数据记录了目标用户在历史周期内购买过的产品和购买产品的时间。历史周期为目标用户在购买目标产品前的第二预设时间段。
[0078]
第一预设时间段和第二预设时间段为根据实际情况预先进行设置,第一预设时间段远远小于第二预设时间段。在一个例子中,第一预设时间段为一个小时,第二预设时间段为一年。
[0079]
产品分布图用于表示用户在历史周期内购买产品的产品类型的结构。异常系数为该用户账号为刷单账号的可能性,异常系数越高表示该用户账号越可能为刷单账号,异常系数越低表示该用户账号越不可能为刷单账号。
[0080]
在一个具体的实例中,目标用户在历史周期内只购买特定几种类型的产品,并且购买产品的频率远远高于正常人,那么目标用户的用户账号为刷单账号的可能性就非常的大。
[0081]
在一个实施例中,根据产品分布图获取目标产品评论的异常系数包括:
[0082]
根据历史购买数据获取历史时序特征,并根据历史时序特征将产品分布图分解为若干个产品分布子图;
[0083]
使用无监督学习算法将每个产品分布子图表示为一维向量以得到每个产品分布子图的图特征向量,并根据每个产品分布子图的图特征向量与标准特征向量的余弦相似度获取每个产品分布子图的异常值,然后将异常值大于异常阈值的产品分布子图作为异常产品分布子图;
[0084]
利用图卷积网络将每个异常产品分布子图转换为对应的线图,并分别提取每个异常产品子分布图和其对应的线图的图特征以得到每个异常产品子分布图的第一图特征和第二图特征;
[0085]
将每个异常产品分布子图的第一图特征和第二图特征进行拼接得到每个异常产品分布子图的图结构特征,并将每个异常产品分布子图的图结构特征进行线性变换以得到每个异常产品分布子图的异常子系数,然后将所有异常产品分布子图的异常子系数进行加权求和得到目标产品评论的异常系数。
[0086]
s5、从数据库获取目标产品的所有历史产品评论,并分别提取目标产品评论和历史产品评论的特征,然后分别将其映射到特征向量空间以得到目标评论向量和若干个历史评论向量;根据目标评论向量和历史评论向量构建目标产品的评论结构图,并根据所述评论结构图获取目标产品评论的第二异常判断值。
[0087]
第二异常判断值表征目标产品评论与目标产品的其他产品评论的异常程度。例如,目标产品为零食,目标产品的其他产品评论都是对目标产品的口味,分量和包装进行评论,而目标产品评论中出现衣服或者合身之类的词时表示目标产品评论出现异常。此时的目标产品评论不具备参考性。
[0088]
s6、根据异常系数、第一异常判断值和第二异常判断值计算目标产品评论的可信度,并在目标产品评论的可信度小于可信度阈值时将目标产品评论标记为异常产品评论。
[0089]
具体地,根据异常系数、第一异常判断值和第二异常判断值计算目标产品评论的可信度包括:
[0090][0091]
其中,s为可信度,p为第一异常判断值,q为第二异常判断值,r为异常系数,e为自然底数,t为调节系数。
[0092]
调节系数为根据实际情况预先进行设置,可信度阈值用于判断目标产品评论是否异常,根据实际情况预先进行设置。
[0093]
目标产品评论的可信度表征目标产品评论的真实性,目标产品评论的可信度越高表示目标产品评论越真实,目标产品评论的可信度越低表示目标产品评论越虚假。
[0094]
本发明对目标用户在购买目标产品时的行为特征和目标产品评论的特征进行分析以得到目标产品评论的可信度。通过目标产品评论的可信度识别异常产品评论,并对异常产品评论进行标记以使得其他客户在购买目标产品时可以选择性的参考目标产品的产品评论,减少异常产品评论对用户产生误导的情况。
[0095]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献