一种网站行为分类方法、系统、存储介质及设备与流程

2021-11-24 22:13:00 来源：中国专利 TAG：

1.本发明属于网站行为分类领域，尤其涉及一种网站行为分类方法、系统、存储介质及设备。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.引导滤波是一种可以有效地去除噪声并且保持引导图像的边缘信息的图像滤波方法，被广泛用于图像分割、增强、去雾等方面。这一技术通常将待处理的图像作为引导图像，利用引导图像的信息对输入图像进行滤波处理，得到具有引导图像梯度信息且有效去除噪声的滤波后的图像。近年来，为了解决传统聚类算法不能很好的利用图像的空间信息而导致聚类分割结果不够准确的问题，很多学者将引导滤波方法应用到聚类过程中，提出了很多有关引导滤波的模糊聚类算法。这些方法是将要分割的图像作为引导图像，对通过模糊c均值求得的隶属度进行滤波，从而使隶属度可以包含更多的梯度信息，进而提高图像分割的准确率。
4.近年来，将引导滤波加入模糊聚类中用于图像分割的研究工作得到越来越多的关注。然而，当前基于引导滤波的模糊聚类算法只限于图像分割的问题，引导滤波也主要是对图像进行处理，并不适用于网站行为分析数据。而网站行为分析数据也具有空间信息，数据的潜在信息的挖掘对其更加准确的分类有着重要意义。但是，目前的带有空间信息的模糊聚类方法计算困难或者在聚类过程中容易丢失信息。

技术实现要素：

5.为了解决上述背景技术中存在的技术问题，本发明提供一种网站行为分类方法、系统、存储介质及设备，其能够对网站行为进行准确分类。
6.为了实现上述目的，本发明采用如下技术方案：
7.本发明的第一个方面提供一种网站行为分类方法，其包括：
8.获取网站行为数据集合；其中，集合中每个数据的一个属性为一个维度；
9.对每个数据的邻居进行筛选来确定相应数据的滤波窗口；
10.从网站行为数据集合中随机选出预设数量条数据分别作为类中心数据，计算网站行为数据集合中各个数据属于各个类中心数据的隶属度；
11.基于每个数据的滤波窗口，再利用每个数据的每一维分别作为引导对隶属度滤波，将多维滤波后的隶属度加权求和作为最终滤波后的隶属度；
12.利用最终滤波后的隶属度更新各个的类中心数据，进而更新各类各个维度的属性权重；
13.迭代计算判断更新各个的类中心数据的步骤的终止情况，最后输出网站行为分类结果。
14.进一步地，所述集合中每个数据的中至少包含两个属性。
15.进一步地，使用k最近邻方法为网站行为数据集合中各个数据找到最近的k条数据，这k条数据就是相应数据的邻居；k为大于或等于1的正整数。
16.进一步地，为网站行为数据集合中各个数据找到最近的k条数据的过程为：
17.使用欧氏距离计算数据的距离矩阵；
18.为每个数据找到包括它本身的最近的k个邻居。
19.进一步地，确定相应数据的滤波窗口的过程为：
20.考虑使用减法或加法对每个数据点的邻居进行筛选，确保每个数据点和它的邻居之间互为邻居；
21.每个数据点将其保留下来的具有对称性的邻居作为滤波窗口。
22.进一步地，利用每个数据的每一维分别作为引导对隶属度滤波的公式为其中u
′
ijm
代表经的第j个数据的第m维滤波后的第i类的隶属度，u
ij
代表第j个数据属于第i类的隶属度，x
jm
代表引导数据第j个的第m维的值，ω
k
表示引导数据以第k个数据为中心的窗口，a
km
和b
km
表示窗口ω
k
处第m维的线性系数。
23.进一步地，更新各个的类中心数据的步骤的终止的条件为：迭代计算相邻两次设定目标函数值之间的差值小于设定值或迭代次数超过设定阈值。
24.本发明的第二个方面提供一种网站行为分类系统，其包括：
25.网站行为数据获取模块，其用于获取网站行为数据集合；其中，集合中每个数据的一个属性为一个维度；
26.滤波窗口确定模块，其用于对每个数据的邻居进行筛选来确定相应数据的滤波窗口；
27.类中心数据初始化模块，其用于从网站行为数据集合中随机选出预设数量条数据分别作为类中心数据，计算网站行为数据集合中各个数据属于各个类中心数据的隶属度；
28.隶属度计算模块，其用于基于每个数据的滤波窗口，再利用每个数据的每一维分别作为引导对隶属度滤波，将多维滤波后的隶属度加权求和作为最终滤波后的隶属度；
29.属性权重更新模块，其用于利用最终滤波后的隶属度更新各个的类中心数据，进而更新各类各个维度的属性权重；
30.分类结果输出模块，其用于迭代计算判断更新各个的类中心数据的步骤的终止情况，最后输出网站行为分类结果。
31.本发明的第三个方面提供一种计算机可读存储介质。
32.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的网站行为分类方法中的步骤。
33.本发明的第四个方面提供一种计算机设备。
34.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的网站行为分类方法中的步骤。
35.与现有技术相比，本发明的有益效果是：
36.本发明对网站行为数据集合中的每个数据的邻居进行筛选来确定相应数据的滤波窗口，从网站行为数据集合中随机选出预设数量条数据分别作为类中心数据，计算网站行为数据集合中各个数据属于各个类中心数据的隶属度，基于每个数据的滤波窗口，再利
用每个数据的每一维分别作为引导对隶属度滤波，将多维滤波后的隶属度加权求和作为最终滤波后的隶属度，通过使用引导滤波可以在网站行为分析时能够更准确的挖掘用户的兴趣与偏好，从而提高了网站行为分类的准确性。
37.本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
38.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
39.图1是本发明实施例的滤波窗口中数据选取图；
40.图2是本发明实施例的引导滤波对隶属度滤波过程图；
41.图3是本发明实施例的引导滤波对第一类隶属度滤波的详细过程；
42.图4是本发明实施例的网站行为分类方法流程图。
具体实施方式
43.下面结合附图与实施例对本发明作进一步说明。
44.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
45.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
46.实施例一
47.如图4所示，本实施例提供了一种网站行为分类方法，其具体包括如下步骤：
48.s101：获取网站行为数据集合；其中，集合中每个数据的一个属性为一个维度。
49.其中，所述集合中每个数据的中至少包含两个属性。
50.读入需要进行聚类的网站行为数据x＝{x1,x2,...,x
n
}，其中x
j
＝{x
j1
,x
j2
,...,x
jm
}，这里n是待聚类的网站行为数据的样本数，m是每条网站行为数据包含的属性个数，以下将属性称为维，这里的属性包括但不限用户id、设备类型、性别、年龄、事件的时间、地点、时长、具体时间、具体操作等。此处需要说明的是，本实施例中网站行为数据集合均为采用合法途径获取的数据。
51.s102：对每个数据的邻居进行筛选来确定相应数据的滤波窗口，如图1所示。
52.在具体实施中，例如设置：邻居的个数k，通过使用k最近邻方法为每个数据找到最近的k条数据，这k条数据就是该数据的邻居，通过对每个数据的邻居进行筛选确定每个数据的滤波窗口。k为大于或等于1的正整数。
53.其中，为网站行为数据集合中各个数据找到最近的k条数据的过程为：
54.使用欧氏距离d
ij
＝||x
j
‑
x
i
||2计算数据的距离矩阵；
55.为每个数据找到包括它本身的最近的k个邻居。
56.具体地，滤波窗口的确定方法包括如下步骤：
57.考虑到数据x
k
是数据x
j
的邻居，数据x
j
不一定是数据x
k
的邻居。因此考虑使用减法(加法)对每个数据点的邻居进行筛选，确保每个数据点和它的邻居之间互为邻居。如果数据x
k
是数据x
j
的邻居，数据x
j
不是数据x
k
的邻居，减法筛选是将x
k
从x
j
的邻居中删除，加法筛选则是将x
j
添加到x
k
的邻居中；
58.每个数据点将其保留下来的具有对称性的邻居作为滤波窗口。
59.s103：从网站行为数据集合中随机选出预设数量条数据分别作为类中心数据，计算网站行为数据集合中各个数据属于各个类中心数据的隶属度。
60.预设聚类数c，随机初始化c个聚类中心，这里的聚类中心是从待聚类的网站行为数据中选出c条数据分别作为类中心数据，其中每条数据具有m个属性，将迭代计数器t设置为0，最大迭代次数t设置为150，将每一维的权重设置为1/m，模糊聚类算法的停止阈值ξ设为10
‑6。
61.s104：基于每个数据的滤波窗口，再利用每个数据的每一维分别作为引导对隶属度滤波，将多维滤波后的隶属度加权求和作为最终滤波后的隶属度，如图2所示。
62.具体地，计算第j个数据属于第i个聚类中心的隶属度u
ij
；利用网站行为数据集合中每个数据的每一维分别作为引导对隶属度滤波，然后将多维滤波后的隶属度加权求和作为最终滤波后的隶属度，再将滤波后的隶属度用于后续计算。
63.其中，如图3所示，引导滤波对隶属度进行滤波包括如下步骤：
64.(1)将得到的c
×
n的隶属度矩阵分成c个1
×
n的隶属度矩阵；
65.(2)将原始数据的每一维分别作为引导数据，对每一类隶属度按照公式滤波，其中u
′
ijm
代表经的第j个数据的第m维滤波后的第i类的隶属度，u
ij
代表第j个数据属于第i类的隶属度，x
jm
代表引导数据第j个的第m维的值，ω
k
表示引导数据以第k个数据为中心的窗口，a
km
和b
km
表示窗口ω
k
处第m维的线性系数，ε是防止a
km
过大的引导滤波参数，这里一般取值为10
‑4，使用公式和求得a
km
和b
km
，其中μ
km
和表示引导数据的第m维在窗口ω
k
的均值和方差，|ω|是窗口ω
k
中数据的数量，是输入隶属度u
ij
在窗口ω
k
的均值。
66.其中，隶属度计算公式为式中w
im
是第i类第m维的属性权重，α是模糊系数这里一般取值为2，x
jm
是第j个数据的第m维的值，v
im
是第i个聚类中心的第m维的值。
67.s105：利用最终滤波后的隶属度更新各个的类中心数据，进而更新各类各个维度的属性权重。
68.结合得到的滤波后的隶属度更新第i类的聚类中心v
im
，并将得到的聚类中心用于后续计算；结合以上得到的隶属度和聚类中心更新第i类的第m维的属性权重w
im
。
69.聚类中心计算公式为
70.将多维滤波后的结果按照加权求和得到最终的滤波后的隶属度，这里的w
im
表示第i类第m维的权重，这里的加权方式有两种，一种是进行均值加权，即每一维的权重为1/m，另一种是使用经过efwfcm权重更新公式求得的权重，这里γ(γ>0)是一个正则化标量。
71.s106：迭代计算判断更新各个的类中心数据的步骤的终止情况，最后输出网站行为分类结果。
72.其中，更新各个的类中心数据的步骤的终止的条件为：迭代计算相邻两次设定目标函数值之间的差值小于设定值或迭代次数超过设定阈值。
73.计算第t次迭代所得到的目标函数值f
(t)
；
74.计算第t次迭代所得到的目标函数的值f
(t)
与第t
‑
1次迭代的目标函数值f
(t
‑
1)
之间的差值，如果满足||f(t)
‑
f(t
‑
1)||<ξ或者t>t，则终止迭代，输出聚类结果，如果不满足则重复执行s103至步骤s106，直至满足迭代终止条件输出聚类结果。
75.其中，利用公式来计算第t次迭代所得到的目标函数值f
(t)
。
76.实施例二
77.本实施例提供了网站行为分类方法，其具体包括如下模块：
78.网站行为数据获取模块，其用于获取网站行为数据集合；其中，集合中每个数据的一个属性为一个维度；
79.滤波窗口确定模块，其用于对每个数据的邻居进行筛选来确定相应数据的滤波窗口；
80.类中心数据初始化模块，其用于从网站行为数据集合中随机选出预设数量条数据分别作为类中心数据，计算网站行为数据集合中各个数据属于各个类中心数据的隶属度；
81.隶属度计算模块，其用于基于每个数据的滤波窗口，再利用每个数据的每一维分别作为引导对隶属度滤波，将多维滤波后的隶属度加权求和作为最终滤波后的隶属度；
82.属性权重更新模块，其用于利用最终滤波后的隶属度更新各个的类中心数据，进而更新各类各个维度的属性权重；
83.分类结果输出模块，其用于迭代计算判断更新各个的类中心数据的步骤的终止情
况，最后输出网站行为分类结果。
84.此处需要说明的是，本实施例的各个模块，与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。
85.实施例三
86.本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的网站行为分类方法中的步骤。
87.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
88.其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read
‑
only memory，rom)或随机存储记忆体(random accessmemory，ram)等。
89.实施例四
90.本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的网站行为分类方法中的步骤。
91.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
92.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：使用IoT为贸易金融提供动态定价的系统和方法与流程

一种网站行为分类方法、系统、存储介质及设备与流程

相关文献

最热文献