一种基于拓扑流形的多视图聚类方法及系统

2022-08-11 04:53:03 来源：中国专利 TAG：

1.本发明涉及多视图聚类技术领域，具体涉及一种基于拓扑流形的多视图聚类方法及系统。

背景技术：

2.在许多真实场景中，数据通常来自不同领域的不同来源，或者由不同的特征集(即视图)来描述。一个典型的例子是文档，它可以用不同的语言书写，却表达同样的意思。多视图聚类主要根据编码在异构特征中的兼容和互补信息，将数据划分为不同的簇，一直以来使无监督学习领域的热点话题。
3.近些年来，人们已经研究了许多视图聚类方法，其中面向图的多视图聚类方法占了很大比例。现有技术中包括多种聚类方法，例如，一种新的交替优化方案，使得每个视图的一致和不一致部分都可以被显式检测；例如在联合框架中同时利用多视图一致性和多视图多样性，由于提取多视图间相似性的高效率，核策略被广泛用于提高多视图聚类的学习性能；例如用给定的核矩阵来表达每个视图，并在分区的同时学习核的加权组合；例如将多视图核谱聚类表示为原始-对偶优化环境下的加权核典型相关分析，其中包含一个耦合项，以强制不同视图对应的聚类分数对齐。
4.尽管面向图的多视图聚类方法取得了不错的成果，但仍然存在一些缺点。首先这些方法在构建数据图时，仅当两个点相邻时才设置较高的相似度。但现实世界的数据往往是从非线性流形中采样的，它们可以通过连续的邻居进行连接，使得即使相距较远的数据点仍然保持较高的一致性。因此，这些方法不能充分研究流形上数据的潜在拓扑结构。其次，基于图论的优化不能直接产生聚类结果，因此必须进行后处理(例如，k-means)，这使得结果偏离最优解。
5.现有技术中其他尚存多视图聚类方法只是考虑了空间上的距离与相似度，不能适应采集自流形的数据，导致在进行多视图聚类的时候，不能挖掘数据中潜在的拓扑结构，进而一定程度上影响了聚类性能。

技术实现要素：

6.针对现有技术中的上述不足，本发明提供一种基于拓扑流形的多视图聚类方法及系统，弥补了基于拓扑流形上的多视图聚类方法的空缺，克服了现有的多视图聚类方法没有考虑到流形数据隐藏的拓扑结构，且需要后处理的问题。
7.为了达到上述发明目的，本发明采用的技术方案为：
8.一方面，一种基于拓扑流形的多视图聚类方法，包括以下分步骤：
9.s1、采集基于拓扑流形的多视图数据，并根据多视图数据得到各视图所对应的相似度矩阵；
10.s2、根据相似度矩阵构建拓扑相关性矩阵；
11.s3、根据拓扑相关性矩阵构建各视图的共识图矩阵；
12.s4、根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数；
13.s5、对基于拓扑流形的多视图聚类目标函数进行迭代优化，得到最优多视图聚类结果。
14.另一方面，一种基于拓扑流形的多视图聚类系统，包括：
15.数据采集预处理模块，用于采集基于拓扑流形的多视图数据，并根据多视图数据得到各视图所对应的相似度矩阵；
16.拓扑相关性矩阵构建模块，用于根据相似度矩阵构建拓扑相关性矩阵；
17.共识图矩阵构建模块，用于根据拓扑相关性矩阵构建各视图的共识图矩阵；
18.基于拓扑流形的多视图聚类目标函数构建模块，用于根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数；
19.最优多视图聚类结果获取模块，用于对基于拓扑流形的多视图聚类目标函数进行迭代优化，得到最优多视图聚类结果。
20.本发明具有以下有益效果：
21.通过采集基于拓扑流形的多视图数据，并根据多视图数据得到各视图所对应的相似度矩阵；并根据相似度矩阵构建拓扑相关性矩阵，利用拓扑相关性矩阵构建各视图的共识图矩阵；基于各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数，并通过对基于拓扑流形的多视图聚类目标函数进行迭代优化，得到最优多视图聚类结果；本发明实施例利用拓扑流形上的多视图数据所隐藏的拓扑相关性进行聚类，提升了多视图聚类性能；并避免了大多数聚类方法需要的后处理步骤导致的最优结果偏离，直接在统一的框架中得到显示得聚类结果；同时利用超参数提高了本方法的鲁棒性和稳定性，克服了现有的多视图聚类方法没有考虑到流形数据隐藏的拓扑结构，且需要后处理的问题。
附图说明
22.图1为本发明提供的一种基于拓扑流形的多视图聚类方法的步骤流程图；
23.图2为本发明实施例中3sources文本数据集所对应的对比试验结果；
24.图3为本发明实施例中hw数据集所对应的对比试验结果；
25.图4为本发明实施例中caltech101-7目标识别数据集所对应的对比试验结果；
26.图5为本发明实施例中caltech101-20目标识别数据集所对应的对比试验结果；
27.图6为本发明实施例中hw数据集上不同算法的共识图；
28.图7为本发明实施例中不同参数设置下的聚类性能对比图；其中，图7(a) 为不同参数设置下的精确度对比图；图7(b)为不同参数设置下的归一化互信息对比图；图7(c)为不同参数设置下的纯度对比图；图7(d)为不同参数设置下的 f分数对比图；图7(e)为不同参数设置下的精度对比图；图7(f)为不同参数设置下的召回率对比图。
具体实施方式
29.下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，
只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。
30.如图1所示，一方面，一种基于拓扑流形的多视图聚类方法，包括以下分步骤：
31.s1、采集基于拓扑流形的多视图数据，并根据多视图数据得到各视图所对应的相似度矩阵；
32.本发明实施例中，采集多视图数据并对多视图数据的进行标准化，根据标准化后的多视图数据得到各视图所对应的相似度矩阵。
33.s2、根据相似度矩阵构建拓扑相关性矩阵；
34.本发明实施例中，根据标准化后的多视图数据间的拓扑关系，学习构建该视图上的拓扑相关性矩阵；其中各视图所对应的相似度矩阵则为该多视图数据所包含的数据信息，其中多视图数据对应的相似度矩阵表示为： g
(1)
,g
(2)
,
…
,g
(m)
，其中第v个视图所对应的相似度矩阵表示为：g
(v)
，且满足行列数为n的全集，n为样本的个数，即：
35.优选地，步骤s2具体为：
36.根据各视图所对应的相似度矩阵构建各视图间基于拓扑相关性矩阵的目标函数，并以使得目标函数结果最小所对应的拓扑相关性矩阵，作为各视图的拓扑相关性矩阵；其中，基于各视图间拓扑相关性矩阵的目标函数表示为：
[0037][0038]
约束条件：
[0039]
其中，为第v个视图上第i个数据样本与第k个数据样本间的相似度， m为视图总数，n为第v个视图上数据样本总数，为在第v个视图上，第i 个数据样本与第j个数据样本之间的拓扑相似度，为矩阵各项元素值的平方和，i为单位矩阵，z
(v)
为在第v个视图上的拓扑相关性矩阵，为第v个视图的相似度矩阵所对应的度矩阵中第j行第j列个元素，为第v个视图的相似度矩阵所对应的度矩阵中第k行第k列个元素，α为第一平衡系数，为第v个视图上的拓扑相关性矩阵第i行第j列个元素；(.)
t
为矩阵转置；1为全为 1的列向量。。
[0040]
本发明实施例中，为矩阵各项元素值的平方和，可防止在第v个视图上的拓扑相关性矩阵z
(v)
的平凡分解，即避免z
(v)
的所有元素都是相同的。
[0041]
s3、根据拓扑相关性矩阵构建各视图的共识图矩阵；
[0042]
优选地，步骤s3具体为：
[0043]
根据各拓扑相关性矩阵构建各视图间基于共识图矩阵的目标函数，并以使得目标函数结果最小所对应的共识图矩阵，作为各视图的共识图矩阵；其基于共识图矩阵的目标
函数表示为：
[0044][0045]
约束条件：(si)
t
1＝1,s
ij
≥0,
[0046][0047]
其中，s为各视图的共识图矩阵，亦可表述为多视图数据每个视图的拓扑相似度矩阵乘以对应的权重求和后得到的共识图矩阵；μ
(v)
为基于在第v个视图上拓扑相关性矩阵的权重；m为视图总数；为矩阵各项元素值的平方和； (.)
t
为转置函数；rank(.)为秩约束；ls为基于共识图矩阵s的拉普拉斯矩阵；β为第二平衡参数；si为共识图矩阵s中第i行；n为第v个视图上数据样本总数， c为聚类的簇数。
[0048]
本发明实施例中，为每个视图匹配权重，并利用权重得到共识图，即：各视图乘以权重并进行求和；其中，为共识图s的拉普拉斯阵ls添加秩约束，即： rank(ls)＝n-c，以在共识图s中得到显示的聚类结果，可以避免共识图s需要进一步的聚类方法处理才能得到最终的聚类结果。
[0049]
s4、根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数；
[0050]
优选地，步骤s4中基于拓扑流形的多视图聚类目标函数表示为：
[0051][0052]
约束条件：
[0053][0054]
其中，f为拉普拉斯矩阵ls的特征矩阵；f
t
为拉普拉斯矩阵ls的特征矩阵的转置，λ为自调理参数，tr(.)为秩函数。
[0055]
本发明实施例中，第一项用来学习每个视图的拓扑相关性矩阵z，第二项是z的拟合约束，第三项是学习每个z对应的权重μ，并融合成共识图矩阵s； d
(v)
为z
(v)
的度矩阵，z
(v)
除以d
(v)
的平方根是一个标准化处理，其中α，β是平衡两项的系数，作为超参数被人工输入两个固定的值，λ是自调整参数，只需输入一个非负值即可；m是视图的总数，n是样本总数；
[0056]
其中，由于约束条件(rank(ls)＝n-c)使得问题难以求解，在得到目标函数时将其做了变换处理，具体过程如下：
[0057]
当原有的约束条件(rank(ls)＝n-c)成立时，有再根据 ky fan定理，有
[0058][0059]
约束条件：f
t
f＝i.
[0060]
这样约束条件(rank(ls)＝n-c)，即可转化成目标函数中的第三部分 2λtr(f
t
lsf)，以及新的约束条件f
t
f＝i。
[0061]
s5、对基于拓扑流形的多视图聚类目标函数进行迭代优化，得到最优多视图聚类结果。
[0062]
本发明实施例中，通过迭代优化策略求解目标函数，具体为使用交替迭代优化策略来搜索最的权重μ，拓扑相关性矩阵z，共识图矩阵s，ls为s的拉普拉斯矩阵的特征矩阵。
[0063]
优选地，步骤s5具体为：
[0064]
a1、在预设权重阈值、预设拓扑相关性矩阵、预设共识图矩阵下，利用基于拓扑流形的多视图聚类目标函数更新拉普拉斯矩阵的特征矩阵，得到更新后的特征矩阵；
[0065]
步骤a1中特征矩阵的更新式表示为：
[0066][0067]
其中，为横纵坐标分别为n、c的全集；tr(.)为秩函数。
[0068]
本发明实施例中，特征矩阵的更新式表示为：以满足最小基于特征矩阵 f、特征矩阵f的转置举证f
t
、拉普拉斯矩阵ls间矩阵乘积的秩的特征矩阵f 作为更新后的特征矩阵；在给定条件下的权重μ、拓扑相关性矩阵z、共识图矩阵s下替换多视图聚类目标函数中与特征矩阵f无关的项，则可得到特征矩阵的更新式，这是一个经典的谱问题，此更新式的解为拉普拉斯矩阵ls的c个最小的特征值对应的特征向量。
[0069]
a2、在预设权重阈值、预设特征矩阵、预设共识图矩阵下，利用基于拓扑流形的多视图聚类目标函数更新拓扑相关性矩阵，得到更新后的拓扑相关性矩阵；其中拓扑相关性矩阵的更新式表示为：
[0070][0071]
约束条件：
[0072]
本发明实施例中，可将特征矩阵的更新式整理为：
[0073][0074]
约束条件：
[0075]
其中，i
ij
为单位矩阵的第i行第j列元素；s
ij
为为矩阵s的第i行第j列元素；其中，
矩阵z
(v)
包含n行，对应样本总数n，表示第i个样本对应的第i行，对于每一行分别求解，将上述问题替换为向量形式，其中以第i行为例
[0076][0077]
约束条件：
[0078]
定义矩阵向量b＝2αei 2βμ
(v)
si，其中，d为g
(v)
的度矩阵；即可重新表示为：
[0079][0080]
上述算子可通过用alm方法解决，对应式表示为：
[0081][0082]
该式的增广拉格朗日函数可表示为：
[0083][0084]
其中，p在逼近q为参数，η为惩罚系数；更新增广拉格朗日函数中p 与直到收敛，则可得到更新后的拓扑相关性矩阵；
[0085]
其中，增广拉格朗日函数中p与的更新过程表示为：
[0086]
1)根据更新p
[0087]
2)求解更新具体的步骤与2.3中得优化方法一致。
[0088]
3)更新η
←
ρη
[0089]
4)更新
[0090]
将矩阵的每一行组合起来即得到更新后的z
(v)
。
[0091]
a3、在预设权重阈值、预设拓扑相关性矩阵、预设特征矩阵下，利用基于拓扑流形
的多视图聚类目标函数更新共识图矩阵，得到更新后的共识图矩阵；其中共识图矩阵的更新式表示为：
[0092][0093]
约束条件：(si)
t
1＝1,s
ij
≥0
[0094]
其中，λ为自调理参数；
[0095]
本发明实施例中，在给定条件下的权重μ、拓扑相关性矩阵z、特征矩阵f 下替换多视图聚类目标函数中与共识图矩阵s无关的项，则可得到共识图矩阵的更新式，根据共识图矩阵的更新式得到更新后的共识图矩阵的过程为：
[0096]
对于不同的数据样本i为独立的，此共识图矩阵的更新式可修改为：
[0097][0098]
约束条件：(si)
t
1＝1,s
ij
≥0
[0099]
进一步可替换为：
[0100][0101]
其中，hi为前式的压缩表达；si为矩阵s的第i行；基于上式，为了简洁表示用x表示对于每一个视图单独求解(去掉上标v)，原式化为：
[0102][0103]
基于上式，可得拉格朗日函数为
[0104][0105]
进一步基于kkt条件可得：
[0106][0107]
其中，表示向量的第j个标量元素，为拉格朗日参数；
[0108]
由于：(si)
t
1＝1，则
[0109]
[0110]
定义和则
[0111][0112]
其中，γ
*
为1为单位列向量，x为可知，此处x

＝max(x,0)；进而即可通过求解得到其中基于kkt条件，可进一步表示为：
[0113][0114]
定义函数并使之为0，最后可利用牛顿法解得其中，
[0115]
以上，便可得到更新后的共识图矩阵。
[0116]
a4、在预设拓扑相关性矩阵、预设共识图矩阵、预设特征矩阵下，利用基于拓扑流形的多视图聚类目标函数更新权重阈值，得到更新后的权重阈值；其中权重阈值的更新式表示为：
[0117][0118]
本发明实施例中，根据权重阈值的更新式得到更新后的权重阈值的过程为：
[0119]
对于每一个视图，拉格朗日函数为
[0120][0121]
其中，γ是第v个视图的拉格朗日乘数，对μ
(v)
求导，使其等于0，得到μ
(v)
的解：
[0122][0123]
a5、根据更新后的权重阈值、更新后的拓扑相关性矩阵、更新后的共识图矩阵以及更新后的特征矩阵计算更新后的多视图聚类目标函数值；
[0124]
a6、判断更新后的多视图聚类目标函数值是否满足预设条件，若满足则结束迭代优化，得到最优多视图聚类结果；否则，以当前更新后的各阈值作为优化迭代的预设阈值，返回步骤a1。
[0125]
本发明实施例中，预设条件为：最大迭代次数或更新后的多视图聚类目标函数值收敛；且，设置平衡参数为1，即：λ＝α＝γ＝1。
[0126]
另一方面，一种基于拓扑流形的多视图聚类系统，包括：
[0127]
数据采集预处理模块，用于采集基于拓扑流形的多视图数据，并根据多视图数据得到各视图所对应的相似度矩阵；
[0128]
拓扑相关性矩阵构建模块，用于根据相似度矩阵构建拓扑相关性矩阵；
[0129]
共识图矩阵构建模块，用于根据拓扑相关性矩阵构建各视图的共识图矩阵；
[0130]
基于拓扑流形的多视图聚类目标函数构建模块，用于根据各视图的共识图矩阵与拓扑相关性矩阵构建基于拓扑流形的多视图聚类目标函数；
[0131]
最优多视图聚类结果获取模块，用于对基于拓扑流形的多视图聚类目标函数进行迭代优化，得到最优多视图聚类结果。
[0132]
本发明实施例中提供的一种基于拓扑流形的多视图聚类系统包括上述基于拓扑流形的多视图聚类方法的全部有益效果；
[0133]
即：
[0134]
1)本发明考虑利用拓扑流形上的多视图数据所隐藏的拓扑相关性进行聚类，提升了多视图聚类性能；
[0135]
2)避免了大多数聚类方法需要的后处理步骤导致的最优结果偏离，直接在统一的框架中得到显示得聚类结果；
[0136]
3)设置超参数，提高了多视图聚类结果的鲁棒性和稳定性。
[0137]
本发明实施例中进行现有技术中11种聚类算法的对比试验：
[0138]
其中：11种聚类算法包括：
[0139]
①
谱聚类(sc)、
②
co-trian、
③
co-reg、
④
dimsc、
⑤
wmsc、
⑥
awp、
⑦
mcgc、
⑧
mpac、
⑨
lmsc、
⑩
gmc、gdc；
[0140]
并在四种不同场景下的数据集中进行对比试验；
[0141]
包括：
①
3sources文本数据集、
②
handwritten手写数字识别数据集，即 hw数据集、caltech101-7目标识别数据集、
④
caltech101-20目标识别数据集；
[0142]
1)聚类分析：
[0143]
具体的：4个不同场景下的数据集上进行聚类试验，并将每个实验重复10 次，并计算其平均值和标准偏差以进行比较。值得注意的是最优的聚类性能已经被加粗；如图2至图5所示，很明显，本发明方法在大多数情况下实现了最佳性能，例如图2所示，七个指标除了归一化信息略微低于第二好的方法，其它指标均优于其它对比方法；这验证了本发明方法的有效性；
[0144]
如图6所示在hw数据集上，dimsc无法找到一致性图的块对角结构； mcgc能够学习到块对角结构，但对角块的数量不正确；lmsc可以找到正确的对角块数，但它已严重损坏；显然，本发明方法几乎得到了一个纯结构化的一致性图，具有更清晰的聚类结构，能正确地逼近真实的聚类结果
[0145]
其中，使用7个聚类指标：标准化互信息(nmi)、精确度(acc)、调整兰德系数(ari)、f分数(f-score)、精度(precision)、召回率(recall)和纯度 (purity)评估聚类的性能，其中各指标值越高表明聚类性能越好。
[0146]
2)灵敏性分析：
[0147]
参数λ可以以启发式的方式进行调整，将λ初始化为一个随机的正值(例如，λ＝1)，那么本发明方法中模型就可以能够自动将其减半或加倍；本发明方法能够在每次迭代中，
当s的联通组件的数量大于或小于集群数c时，本发明方法中模型能够自动将其减半或加倍。因此，只需搜索参数α和β；α和β的范围为[0.05,0.1,0.5,1,2,5,10]。以数据集3sources为例，在图7中可知看到本发明在不同的参数设置下的聚类性能是相对稳定的，在不同的参数设置下，可证明了本发明中模型的鲁棒性。
[0148]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0149]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0150]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0151]
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
[0152]
本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、装置、设备及存储介质与流程

一种基于拓扑流形的多视图聚类方法及系统

相关文献

最热文献