一种时空数据聚类方法与流程

2022-02-19 07:32:03 来源：中国专利 TAG：

1.本发明涉及计算机信息处理技术领域，具体为用于数据聚类分支中的时空数据聚类方法。

背景技术：

2.聚类是发现时空模式、探寻移动规律的关键技术之一，旨在将实体划分为一系列具有一定分布模式的簇集，同一簇集中的实体具有较大的相似度，不同簇集中的实体具有较大差别已广泛应用于犯罪热点分析、地震空间分布模式挖掘、制图自动综合、遥感影像处理、公共设施选址、地价评估、用户停留区域识别等研究。
3.经典的空间数据挖掘方法不仅可以发现多密度任意形状的簇集，还可以通过决策图辅助识别聚类中心个数，但并不能很好地应用在时空数据聚类研究中，其原因在于原方法没有考虑时间约束，无法正确识别不同时间下同一位置的簇集；此外，在单簇集中存在多个密度峰值点时，该算法将会产生错误的聚类结果；鉴于此，本发明提出一种时空数据聚类方法，来解决上述问题。

技术实现要素：

4.(一)解决的技术问题
5.针对现有方法的不足，本发明提供了用于对时空数据进行聚类的聚类方法，解决了现有方法存在的聚类效果差，结果不准确的问题。
6.(二)技术方案
7.为实现上述提高聚类准确率，正确对数据进行分簇，本发明提供如下技术方案：
8.用于时空数据聚类方法，其特征在于，包括以下步骤：
9.1)构定义超参数，本算法定义了两个超参数dc截断距离和tc截断时间，用来对每个簇集进行范围限制；
10.2)定义局部变量，针对数据集中的每一个样本点，定义局部密度ρ
i
和距离δ
i
，ρ
i
表示同时小于空间邻域d
c
和时间邻域t
c
的样本点个数；δ
i
表示大于当前局部密度的所有样本点与当前点之间的距离，ρ
i
和δ
i
的计算方法如下：
11.ρ
i
＝∑
j
x(d
ij
‑
d
c
，t
ij
‑
t
c
)
[0012][0013]
其中，d
ij
为样本点i与样本点j之间的空间距离，t
ij
为样本点i与样本点j之间的时间距离；
[0014]
3)定义聚类中心计算策略，本算法的核心思想为，聚类中心应同时具有两个特点，一是局部密度大于自身邻居，二是与局部密度更大的样本点之间的距离应相对较大，于是定义一个综合考虑局部密度ρ
i
和距离δ
i
的量γ作为计算策略，且γ的计算方法为：
[0015]
γ
i
＝ρ
i
δ
i
[0016]
4)分配剩余样本点，当聚类中心选择结束后，剩余样本点的分配沿时间轴进行；寻找一聚类中心前一时刻的样本点，计算该样本点与当前聚类中心的距离，若小于与前一聚类中心的距离则将该样本点分配至当前聚类中心，否则当前聚类中心向前搜索过程结束，依此类推。
[0017]
本方法可以描述为快速搜索密度峰值的时空聚类，方法的整体实现流程如下：
[0018]
输入：序列数据sequence＝{t
i
，p
i
}，距离阈值d
c
，时间阈值t
c
[0019]
输出：每一个样本点的聚类类别labels＝{c
i
}
[0020]
function st
‑
cfsfdp(sequence，dc，tc)ddismat＝computeddismat(sequence)//计算样本点的空间距离矩阵tdismat＝computetdismat(sequence)//计算样本点的时间距离矩阵densityarr＝computedensity(ddismat，d
c
，tdismat，t
c
)//计算样本点在时空约束下的局部密度densitysortarr＝argsort(densityarr)//获得局部密度降序排列的下标序列closestdis＝[]//存放轨迹点属性δ的数组fori＝0
→
(lendensitysortarr)donode＝densitysortarr[i]//获得当前样本点的索引nodeldarr＝densitysortarr[i 1：]//获得比当前样本点局部密度更大的索引集合closestdis[node]＝compute(node，nodeldarr，ddismat，tdismat)//计算每一个样本点的属性δend forgamma＝closestdis*densityarr//计算每一个样本点的属性γclassnum＝getnumfromdecisiongraph(gamma)//通过决策图得到聚类的数目labels＝clustering(gamma，classnum，ddismat，tdismat)return labelsend function
[0021]
(三)有益效果
[0022]
与现有技术相比，本发明提供了用于时空数据聚类的数据聚类方法，具备以下有益效果：
[0023]
该方法用于数据聚类中的时空数据，在传统的空间聚类方法上加入了时间约束，并修改了样本属性值的计算策略，开发出了能够识别相同位置不同时间的簇集的时空聚类方法，不仅可以克服单簇集中可能存在多密度峰值的不足，还能以时间为辨别标准区分聚类结果，具有广阔的应用前景。
具体实施方式
[0024]
下面结合本发明的实施例，对本发明实施例中的技术方案进行描述。
[0025]
用于时空数据聚类方法，其特征在于，包括以下步骤：
[0026]
1)构定义超参数，本算法定义了两个超参数dc截断距离和tc截断时间，用来对每个簇集进行范围限制；
[0027]
2)定义局部变量，针对数据集中的每一个样本点，定义局部密度ρ
i
和距离δ
i
，ρ
i
表示同时小于空间邻域d
c
和时间邻域t
c
的样本点个数；δ
i
表示大于当前局部密度的所有样本点与当前点之间的距离，ρ
i
和δ
i
的计算方法如下：
[0028]
ρ
i
＝∑
j
x(d
ij
‑
d
c
，t
ij
‑
t
c
)
[0029][0030]
其中，d
ij
为样本点i与样本点j之间的空间距离，t
ij
为样本点i与样本点i之间的时间距离；
[0031]
3)定义聚类中心计算策略，本算法的核心思想为，聚类中心应同时具有两个特点，一是局部密度大于自身邻居，二是与局部密度更大的样本点之间的距离应相对较大，于是定义一个综合考虑局部密度ρ
i
和距离δ
i
的量γ作为计算策略，且γ的计算方法为：
[0032]
γ
i
＝ρ
i
δ
i
[0033]
4)分配剩余样本点，当聚类中心选择结束后，剩余样本点的分配沿时间轴进行；寻找一聚类中心前一时刻的样本点，计算该样本点与当前聚类中心的距离，若小于与前一聚类中心的距离则将该样本点分配至当前聚类中心，否则当前聚类中心向前搜索过程结束，依此类推。
[0034]
本方法可以描述为快速搜索密度峰值的时空聚类，方法的整体实现流程如下：
[0035]
输入：序列数据sequence＝{t
i
，p
i
}，距离阈值d
c
，时间阈值t
c
[0036]
输出：每一个样本点的聚类类别iabels＝{c
i
}
[0037]
function st
‑
cfsfdp(sequence，dc，tc)ddismat＝computeddismat(sequence)//计算样本点的空间距离矩阵tdismat＝computetdismat(sequence)//计算样本点的时间距离矩阵densityarr＝computedensity(ddismat，d
c
，tdismat，t
c
)//计算样本点在时空约束下的局部密度densitysortarr＝argsort(densityarr)//获得局部密度降序排列的下标序列closestdis＝[]//存放轨迹点属性δ的数组fori＝0
→
(lendensitysortarr)donode＝densitysortarr[i]//获得当前样本点的索引nodeldarr＝densitysortarr[i 1：]//获得比当前样本点局部密度更大的索引集合closestdis[node]＝compute(node，nodeldarr，ddismat，tdismat)//计算每一个样本点的属性δend forgamma＝closestdis*densityarr//计算每一个样本点的属性γclassnum＝getnumfromdecisiongraph(gamma)//通过决策图得到聚类的数目labels＝clustering(gamma，classnum，ddismat，tdismat)return labelsend function
[0038]
尽管已经描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在
不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于电力数据指标的区域产业发展雷达图评价方法与流程

一种时空数据聚类方法与流程

相关文献

最热文献