一种面向多视图数据的子空间聚类方法与流程

2021-12-08 01:02:00 来源：中国专利 TAG：

1.本发明涉及数据处理领域，尤其涉及一种面向多视图数据的子空间聚类方法。
背景技术：
：：2.多视图子空间聚类是利用多视图数据内部结构的最广泛使用的方法之一。以前的大多数研究成果都是通过为每个视图单独构建一个相似性矩阵来执行学习多视图表示的任务，而没有同时利用多视图数据的内在特征。本文提出了一种多视图低秩表示(multiviewlow‑rankrepresentation,mlrr)方法来发现多视图数据的相关性，并将其用于多视图子空间聚类。技术实现要素：3.本发明的目的在于提供一种面向多视图数据的子空间聚类方法，旨在提出了一种多视图低秩表示方法来发现多视图数据的相关性，并将其用于多视图子空间聚类。4.为实现上述目的，本发明提供了一种面向多视图数据的子空间聚类方法，包括基于数据低秩表示的数据矩阵和初始参数生成mlrr模型；5.基于增广拉格朗日乘子算法迭对mlrr模型进行求解，得到最优解；6.对多个视图的最优解进行聚类融合，得到聚类结果。7.其中，所述基于数据低秩表示的数据矩阵和初始参数生成mlrr模型的具体步骤是：8.输入多视图数据矩阵以及初始参数；9.基于数据矩阵的低秩约束获取多视图的低维结构；10.基于低维结构和噪音构造优化模型；11.采用成本函数对每两个视图数据的一致性进行衡量；12.将成本函数中的多样性正则化项添加到优化模型；13.对多视图lrr施加对称约束，得到最终的mlrr模型。14.其中，所述基于增广拉格朗日乘子算法迭对mlrr模型进行求解，得到最优解的具体步骤是：15.初始化mlrr模型；16.若不满足收敛条件，则循环更新变量；17.循环更新参数；18.再次检查收敛条件，若满足收敛条件则输出低秩结构。19.其中，所述对多个视图的最优解进行聚类融合，得到聚类结果的具体步骤是：20.计算最优解的总和；21.计算奇异值分解；22.构建相似图矩阵；23.计算拉普拉斯矩阵的自小特征值对应的k个特征向量；24.用k‑means算法对聚类并输出聚类结构。25.本发明的一种面向多视图数据的子空间聚类方法，包括：基于数据低秩表示的数据矩阵和初始参数生成mlrr模型；基于增广拉格朗日乘子算法迭对mlrr模型进行求解，得到最优解；对多个视图的最优解进行聚类融合。在对称约束下，mlrr模型通过lrr和多样性正则项有效地探索了多视图中本质的低维结构；从谱聚类的角度提出了对称lrr的融合机制，实现多视图的紧凑地数据表示；通过求解凸优化问题，可以有效地计算mlrr模型，并给出了该模型提供了严格的收敛性证明；从标准数据集获得实验结果证实了mlrr用于多视图子空间聚类的有效性和鲁棒性。附图说明26.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。27.图1是本发明的一种面向多视图数据的子空间聚类方法的流程图；28.图2是本发明的基于数据低秩表示的数据矩阵和初始参数生成mlrr模型的流程图；29.图3是本发明的基于增广拉格朗日乘子算法迭对mlrr模型进行求解，得到最优解的流程图；30.图4是本发明的对多个视图的最优解进行聚类融合的流程图。具体实施方式31.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。32.请参阅图1～图4，本发明提供一种面向多视图数据的子空间聚类方法，包括：33.s101基于数据低秩表示的数据矩阵和初始参数生成mlrr模型；34.为了更加清楚地对本发明进行说明，首先对一般的数据向量低阶表示以及多视图子控件聚类的方法进行叙述。35.1、低阶表示36.假设y＝[y1,y2...,yn]∈rd×n是一组数据向量构成的集合。假设每个数据向量是从未知维数的线性子空间的并集中提取的。lrr解决了秩最小化问题:[0037][0038]其中d＝[d1,d2,...,dn]∈rd×n是用于线性表示数据向量的给定字典，z是一个大小n*n的矩阵，用来表示y中各个数据向量之间的线性关系。[0039]由于问题(1)是非凸的并且是np难的，lrr使用核范数作为秩函数的公共替代来获得凸解，如下所示:[0040][0041]其中||z||*表示矩阵z的核范数。奇异值分解可以有效地解决上述优化问题。问题(2)的解z被认为是的lrr特征集。在单个视图中，构建的相似图矩阵可用于谱聚类，以获得的最终聚类结果。[0042]2、多视图子空间聚类[0043]假设x中每个数据向量xi有nv个视图。不失一般性，我们有其中xi包含了第v个视图中的向量。多视图表示学习的目的是学习多视图数据的综合表示，这种方法与数据表示模型的表达能力密切相关。多视图的融合表示对于多视图子空间聚类至关重要。和ilrso是涉及来自特征表示的lrr技术的多视图子空间聚类的典型例子。[0044]为了挖掘多视图之间的互补信息，rmsc采用低秩稀疏分解策略进行多视图的特征融合。该算法首先为多个视图构造相似图矩阵si(i＝1，2，...，nv)，然后为每个视图计算相应的转移概率矩阵pi＝(di)‑1si，其中di是一个对角矩阵。该算法进一步对转移概率矩阵p施加低秩约束通过最小化以下目标函数来实现特征融合：[0045][0046]其中λ＞0是一个参数，e表示错误项，也就是e＝pi‑p。最后，使用共享的低秩转移概率矩阵作为通过马尔可夫链进行谱聚类的输入。[0047]通过结合低秩和稀疏分解，提出了一种显式学习多视图谱聚类中共享表示的ilrso。通过利用来自不同视图的低秩和稀疏表示的差异，结构化lrr的目标函数被表述如下：[0048][0049]其中λ1，λ2，λ3和β是参数，xi表示x中的第i个视图.[0050][0051]其中，li表示矩阵的i范数，tr表示矩阵的迹，v是一个集合。[0052]上述优化问题可以通过具有自适应惩罚的交替方向方法来解决。通过融合多个视图的单个lrr，可以获得多个视图的共享表示，如下所示：[0053][0054]其中nv表示x中包含视图的个数，其中j和k表示第j行第k列的元素。作为ilrso的变体，slrmf采用聚类对称矩阵分解而不是低秩最小化，即，[0055][0056]其中ui表示xi中第i个视图的分解的低秩数据聚类表示，f为矩阵的f范数。为了避免计算逆矩阵带来的计算复杂性，在slrmf中引入了一种高效更新策略，即更新高维数据低秩数据聚类表示。[0057]具体步骤是：[0058]s201输入多视图数据矩阵以及初始参数；[0059]考虑给定的多视图数据以及从nv个视图中获得的n个观测数据，每个视图都由向量组成。我们假设向量是从多个低维子空间的并集近似地抽取获得。因为高维数据的内在结构往往具有较小的维度，因此这个假设是合理的。多视图通常在各个方面描述多视图数据的不同类型的特征，其中每个视图包含特定的信息。不同观点的多样性表明这些观点包含互补的信息。这意味着多个视图具有它们自己的近似低维结构的多个视图，把那个包含噪声和异常。换句话说，多个视图的不同低维结构可以用来描述多个视图的多样性。[0060]s202基于数据矩阵的低秩约束获取多视图的低维结构；[0061]从多视图子空间中学习单独的lrr表明，来自不同视图的独立信息应该包含在具有低秩约束的数据对自身的表示中。具体而言，一般优化问题被认为如下：[0062][0063]其中f(·)表示利用原始视图的独立低秩结构的策略，g(·)描述了某种类型的噪音，并且参数λ＞0平衡了lrr项和噪音正则化项的影响。因此，采用低秩约束来增强多视图的多样性，即多视图的本质低维结构。[0064]s203基于低维结构和噪音构造优化模型；[0065]s204采用成本函数对每两个视图数据的一致性进行衡量；[0066]此外，每个视图通常共享一些共同的信息，这些信息表征了多个视图之间的特征相关性。每个lrr从不同的角度描述了相同的多数据。如果多数据是从多个子空间的并集严格得出的数据向量的集合，那么每个lrr矩阵zi都是块对角的，这是可以被严格证明的。因此，每个lrr都有多种观点的一致性是合理的。[0067]假设我们有由两个视图组成的多视图数据，即x(i)和x(j)，它们分别有两个对应的低秩表示，即z(i)和z(j)。我们建议使用以下成本函数来衡量两种观点之间的一致性：[0068]c(x(i)，x(j))＝tr((z(i)‑z(j))(z(i)‑z(j))t)，(9)[0069]其中tr表示矩阵轨迹。相似的值c(x(i)，x(j))越小，表示第i个视图和第j个视图更相似。显然，但它们的相似性一致时，多样性的程度会降低到零。然而，通常多视图数据中没有两个相同的视图。因此，我们让每对多视图lrr的成对相似性更接近。[0070]s205将多样性正则化项添加到优化模型；[0071]考虑到不同观点的多样性，我们将多样性正则化项添加到问题(8)如下：[0072][0073]其中η是标量常数。因此，f(·)和c(·)分别表征了不同观点的多样性和一致性。[0074]s206对多视图lrr施加对称约束，得到最终的mlrr模型。[0075]通常，lrr可以被认为是单个视图中向量的线性组合。lrr从矩阵分解的角度有效地度量了向量之间的权重关系。在许多以前的多视图子空间聚类方法中，和表示第v个视图中的向量i和j的相似性度量，并且在视图中经过对称化的处理步骤。实际上，从图论的角度来看，和之间的相互关系应该是一致的。但是在实践中，和的之间相似度可能并不等于和的相似度。这些工作直接采用lrr作为谱聚类的相似图矩阵。然而，它们忽略了保留在lrr中的特性，即lrr主方向的角度信息，因为z(v)是低秩的。因此，z(v)被认为是新基x(v)的线性空间变换的近似结果。此外，z(v)行的主方向的角度信息应与z(v)中的列的角度信息一致。为了解决这个问题，我们采用了一种对称方案，其策略是对多视图lrr施加对称约束。该方案确保了每对数据样本的最终权重一致性。通过将对称约束集成到问题(10)中，我们将最终的mlrr模型表述如下：[0076][0077]其中，zv是第v个视图数据x(v)对应的相似图矩阵，ev是错误项，zw是第w个视图数据x(w)对应的相似图矩阵。[0078]一方面，在解决这个数学优化问题时，z(v)的对称性使得每个成对元素和的关系变得更加合理。另一方面，对称约束的引入有助于提高mlrr模型学习多个视图之间的特征相关性的能力。因此，mlrr模型充分利用对称的低秩表示来研究多视图的低维结构。[0079]s102基于增广拉格朗日乘子算法迭对mlrr模型进行求解，得到最优解；[0080]问题(11)中的mlrr模型从不同的角度学习对称lrr。问题(11)可以用近似的增广拉格朗日乘子算法迭代求解。[0081]在迭代过程中，前一阶段更新的特定参数可以被认为是当前阶段的常数。例如，z(v)(1≤v≤nv)变量可以交替更新，而其他变量是固定的。因此，我们进一步考虑以下问题：[0082][0083]问题(12)中的目标函数是不可分的。通过引入辅助变量j，问题(12)中的目标函数可以转化为以下等价问题：[0084][0085]问题(13)中的增广拉格朗日函数是[0086][0087]其中y1和y2是拉格朗日乘数，μ＞0是自适应惩罚参数。变量j(v)，z(v)和e(v)可以在每一步交替更新，而另外两个变量是固定的。[0088]在第t 1迭代时的更新规则表述如下：[0089][0090][0091][0092]其中[0093]具体步骤是：[0094]s301初始化mlrr模型；[0095]输入：数据矩阵参数λ和η[0096]初始化：[0097]s302若不满足收敛条件，则循环更新变量；[0098]如果不满足收敛条件，继续执行下面的代码：[0099]forv＝1tonv[0100]固定其他变量，通过解决问题(15)更新j(v)；[0101]问题(15)中的第一个方程有一个封闭形式的解，可以用引理1求解。我们假设一些数据向量在多个视图中被破坏。因此，我们采用l2，1‑norm来描述某种类型的噪音，它鼓励e(v)的列为零。[0102]引理1对于任何给定的方阵z∈rn×n，以下优化问题的最小值都是唯一的：[0103][0104]其中μ是一个参数，j是一个n*n大小的矩阵。上述问题的唯一解具有以下封闭形式：[0105][0106]其中z＝u∑vt是对称矩阵z＝(z zt)/2的svd。此外，∑r＝diag(δ1，δ2，...，δr)，是严格正奇异值，并且ur和vr是矩阵z的对应奇异向量，并且ir是一个大小r×r单位矩阵。[0107]固定其他变量，通过解决问题(16)；[0108]更新z(v)问题(16)中的最后一个方程是一个凸问题，可以使用l2，1‑范数最小化算子求解。[0109]固定其他变量，通过解决问题(17)更新e(v)。[0110]s303循环更新参数；[0111]在s302的一个循环结束时，更新参数μ1andμ2：[0112]μ1＝min(ρμ1，μmax)；[0113]μ2＝min(ρμ2，μmax)；[0114]其中u_max是一个常数，大小为10^6。p是一个常数p＝1.1。[0115]s304再次检查收敛条件，若满足收敛条件则输出低秩结构。[0116]检查收敛条件：forv＝1tonv[0117]if||z(v)‑j(v)||∞≤εand||x(v)‑x(v)z(v)‑e(v)||∞≤ε[0118]输出：[0119]s103对多个视图的最优解进行聚类融合，得到聚类结果。[0120]多个视图通常共享一些公共信息，这些信息可以用紧凑的特征表示来显示。为了充分刻画不同视角的特征相关性，我们从谱聚类的角度提出了不同视角学习的lrr融合机制。[0121]为了有效地集成来自多个视图的特征，我们首先考虑以下用于多个视图的通用谱聚类模型：[0122][0123]其中f是聚类指标矩阵，是拉普拉斯矩阵，d(v)是带对角元素的对角矩阵，其中定理1展示了拉普拉斯矩阵的融合机制。定理1表述如下：[0124]假如f是问题(21)的最优解。最终融合结果l(v)如下：[0125][0126]其中z(v)表示第v个视图单个的表示(v＝1，2，...，nv)。[0127]证明：[0128]通过线性代数技术，问题(21)可以转化为以下问题：[0129][0130]上述问题可以等效地改写为标准谱聚类模型，如下所示：[0131][0132]其中是拉普拉斯矩阵。[0133]此外，我们获得的最终融合结果l(v)如下：[0134][0135]据定理1，我们可以如下构造新的拉普拉斯矩阵如下：[0136][0137]这种方法进一步激发了多视图对称lrr的直观融合策略。具体来说，我们计算多个视图的lrr之和，即表示多个视图的融合表示。[0138]然后，我们构建一个相似图矩阵，它测量多个视图中样本之间的关系。考虑给定的lrr矩阵z*，近似从同一子空间中提取的任意两个低秩向量的主方向的角信息比从不同子空间中提取的角信息具有更高的值。具体来说，我们考虑z*的svd分解u*∑*(v*)t。我们进一步使用来自矩阵m的所有行向量的角度信息，即m＝u*(∑*)1/2，定义相似图矩阵如下：[0139][0140]其中mi和mi表示矩阵m的第i行和第j行，参数α并确保相似图矩阵w的每个值对于子空间聚类都是正数。由于z*是对称的，我们可以利用矩阵m列向量的角度信息得到相同的相似图矩阵w。因此，引入对多视图的lrr施加的对称约束允许我们有效地评估多视图数据中数据样本的成员资格。算法2总结了mlrr完整的多视图子空间聚类算法。mlrr将对称lrr集成到一个紧凑的特征表示中，并充分利用谱聚类技术进行多视图子空间聚类。在实验中被替换。[0141]具体步骤是：[0142]s401计算最优解的总和；[0143]数据矩阵子空间的个数k，参数[0144]α＞0[0145]用算法1求解问题(11)，得到最优解[0146]计算以下各项的总和[0147][0148]s402计算奇异值分解；[0149]计算奇异值分解(svd)：z*＝u*(∑*)(v*)t.[0150]s403构建相似图矩阵；[0151]构建相似图矩阵w，即：[0152][0153]s404计算拉普拉斯矩阵的自小特征值对应的k个特征向量；[0154]计算拉普拉斯矩阵的最小特征值对应的k个特征向量让每个点yi∈rk(i＝1...n)对应于第i行的向量[0155]s405用k‑means算法对聚类并输出聚类结构。[0156]用k‑means算法对进行聚类得到输出：聚类结果[0157]mlrr分柝[0158]1.收敛性分析[0159]alm算法的不精确变化已经被广泛研究。虽然一般alm算法的收敛性仍是一个未解决的问题，但我们为mlrr提供了严格的收敛性证明。算法1包括三个关键步骤，即迭代更新j，z和e，并且在每个迭代计算中。算法1的每一步都有一个封闭解。算法1有两个收敛条件，即||z(v)‑j(v)||∞≤ε和||x(v)‑x(v)z(v)‑e(v)||∞≤ε。为了分析算法1的收敛性，我们在第(t 1)次迭代中重点讨论了这两个收敛条件。定理2展示了算法1的收敛性。[0160]定理2[0161]在算法1中，随着迭代次数t的增加，最终将满足两个收敛条件，即||z(v)‑j(v)||∞≤ε和||x(v)‑x(v)z(v)‑e(v)||∞≤ε。[0162]证明[0163]我们首先考虑第一个收敛条件，即根据算法1的步骤3和引理1，我们有[0164][0165]其中是对称矩阵的奇异值分解。显然，μ随着t逐渐增加而急剧上升。这意味着随着t增加，变得更接近对称矩阵的奇异值分解。这意味着当μ→ ∞时因此，随着迭代计算次数t的增加，第一个条件的值将显著减小，直到它满足某个条件。[0166]然后，我们考虑另一个收敛条件，即||x(v)‑x(v)z(v)‑e(v)||∞≤ε。根据算法1的步骤4，我们有：[0167][0168]其中p＝((x(v))tx(v) i)‑1和μ→ ∞。此外，我们有以下推导：[0169][0170][0171]因此，我们得到[0172][0173]如果以下条件成立，即，[0174][0175]当μ→ ∞时第一个收敛条件所示。因此，第二个收敛条件也成立。[0176]2.计算的复杂性[0177]我们假设x大小是d×n×m，其中x有m个视图，每个视图都有n个数据向量，每个向量都有维度d。算法1的第一步涉及计算一个n×n大小矩阵的奇异值分解，计算复杂度为o(n3)。算法1第二步因为需要求n×n大小的矩阵的逆，计算复杂性也是o(n3)。最后一步在求||·||2时计算复杂度是o(dn2)。因此，算法1的整体计算复杂性在于每次迭代计算o(m(2n3 dn2))。实际上，我们有n＞d。算法1的最终计算复杂度可以认为是o(t×m×n3)，其中t是迭代次数。在算法2中，最后三个步骤的计算复杂度为o(n3)。因此，算法2的最终整体复杂度为o(t×m×n3)。[0178]3.数据向量和多视图的排列[0179]在这里，我们分析数据向量和多个视图的列的排序是否会聚类结果导致潜在的影响。mlrr计算的算法1的解是全局最优的。我们假设数据向量是通过在没有噪声的情况下对聚类标签进行排序来排列的。矩阵z*是一个块对角。如果样本作为列随机排序，我们总是找到一个矩阵转置来获得一个新的块z′，即z′＝p×z*。此外，我们还会进一步考虑由多个视图引起的任何潜在影响。当考虑多个视图的任何排列时，在算法1中的第一次循环计算之后，我们可以为每个视图获得相同的变量值，即z(v)，j(v)和e(v)。这表示z(v)，j(v)和e(v)的值不会受到连续迭代步骤中多个视图排列的影响。因此，数据向量和多个视图是否被随机打乱与算法1的最优解无关。这使得mlrr在实际应用中是可行的。[0180]4.与当前一些基于lrr的聚类技术的关系[0181]目前大多数基于lrr的技术宣称寻找lrr的目标是获得高维数据的低维结构。然而，这项工作中对低维矩阵的分析在两个关键方面不同于以前的分析。首先，由于这些基于lrr的技术使用低秩矩阵来直接测量数据样本之间的相似性，因此在先前的工作中忽略了内在低维结构的原始含义。在目前的工作中，低维结构仍然被认为是高维数据固有的低秩特征，即对称lrr。具体而言，mlrr的对称lrr结果被认为是在新基础下的近似线性空间变换，即多视图数据本身。因此，利用对称lrr主方向的角度信息是合理的，融合表示策略是可行的。例如，z中的一些元素与实际结果有很大偏差，利用对称lrr主方向的角度信息可以消除这种偏差的影响。这进一步证明了高维数据的假设是合理的；即，高维数据是近似从多个低维子空间的并集中提取的数据样本的集合。第二，对称约束的引入使得追求高维数据的低秩特征更加合理，并且行的主方向的角度信息与lrrs中的列的主方向的角度信息一致，消除了对对称化后处理步骤的需要。mlrr的目的是从不同的角度获得由对称lrr主方向的角度信息产生的更合理的相似图矩阵。[0182]mlrr模型旨在利用对称约束下的lrr和多样性正则化项的内在低维多视图结构。此外，lrrsc模型试图通过对具有多样性正则化项的矩阵施加稀疏性和低秩约束来追求联合表示矩阵。因此，mlrr模型的目标不同于lrrsc模型的目标，尽管它们在各自的模型中共享相似的多样性正则化项。我们发现，融合方案在我们的研究过程中经常产生令人印象深刻的结果，尽管它看起来很简单。与以前的工作不同，我们试图解释为什么它在我们的工作中工作得很好。由于各种原因，例如噪声或特定视图中包含的不完整信息，每个元素中的一些元素可能会偏离真实结果。整体可以弥补偏差造成的不足。实际上，在我们的工作中，它通过利用低秩表示主方向的角度信息，减少了偏差带来的负面影响。[0183]四、实验研究[0184]在本节中，我们在多个基准数据集上进行了大量实验，以评估所提出的mlrr算法与一些最新算法对比的性能。[0185](1)实验设置[0186]1.数据集[0187]在我们的实验中使用了八个公开可用的数据集。这些数据集的统计数据汇总在表一中。此外，每个数据集的简要说明汇总如下。[0188]1.bbc数据集：包括4个视图，每个视图包含685个文档。这些文件自然分为五类：商业、政治、体育、娱乐和技术。[0189]2.3‑sources数据集：它是从三个在线新闻来源收集的：英国广播公司、路透社和《卫报》。该数据集由948篇新闻文章组成，这些文章被手动分类为六类，涵盖416个不同的新闻故事。三个来源共有169个故事，每个故事都可以被认为是一个故事的单一视角。每个故事都用数据集中主题的标签手工注释。[0190]3.reuters数据集：它包含用五种不同语言编写的文档以及它们在六个类别中的翻译。我们使用英语文档作为一个视图，使用其他四种语言(例如法语、德语、西班牙语和意大利语)的翻译作为其他四个视图。我们为这个数据集随机选择了600个文档，每个类包含100个文档。[0191]4.caltech‑101数据集：它包含属于101类的8677幅物体图像。我们选择了一个有1474张图片的子集，有七个类别，即脸、摩托车、多拉‑比尔、加菲尔德、史努比、停车标志和温莎椅。[0192]5.wiki数据集：这个数据集是一个带有成对文本和图像的文档语料库。它由693个维基百科文档组成，分为十类。[0193]6.ucidigit数据集：它由2000个手写数字(0‑9)组成。每个数字有200个示例，每个数字的示例用六种特征表示。我们构建了三个视图：76个字符形状的傅立叶系数、216个轮廓相关和64个卡尔胡恩‑洛夫系数。[0194]7.flower17数据集：它由17个不同的花卉类别组成，每个类别有80幅图像。该数据集中共有7个视图。itconsistsof17differentflowercategorieswith80imagesforeachclass.thereareatotalof7viewsinthisdataset.[0195]8.proteinfold数据集：该数据集包括12个视图，每个视图包含694个蛋白质域，属于27个折叠类。：thisdatasetincludes12views，eachofwhichcontains694proteindomainsthatbelongto27[0196]tablei[0197]statisticsofthemui.tiviewdatasets.[0198][0199]表一多视图数据集的统计数据[0200]2.比较方法[0201]我们将mlrr的表现与以下方法进行了比较：[0202]1.lrrbestsv。我们对单个视图执行标准lrr，并用单个数据视图报告最佳子空间聚类结果。[0203]2.mlan。它提出了一种多视图学习模式来学习一个可以直接划分成簇的最优图。我们应用主成分分析来减少多数据所有视图的相同维数。[0204]3.rmsc。它将共享的低秩转移概率矩阵恢复为标准马尔可夫链，用于多视图聚类。[0205]4.lrssc。它通过结合稀疏性和低秩属性，学习所有视图的联合子空间表示，即相似图矩阵。[0206]5.gmc。提出了一种通用的基于图的多视图聚类模型，通过融合所有视图的数据图矩阵，生成统一的多视图聚类图矩阵。[0207]6.rmsl。互逆多层子空间学习(rmsl)算法由两个主要部分组成，即分层自代表层和后向编码网络。[0208]7.mcles。提出了一个统一的优化框架来实现潜在嵌入空间中的多视图聚类。[0209]8.lmvsc。大规模多视图子空间聚类算法实现了具有线性顺序复杂度的多视图聚类。[0210]对于相互竞争的算法，我们采用了它们的作者提供的源代码。如果样本数量小于多视图数据中任何单个视图的维度，我们应用主成分分析算法对样本进行预处理。所有竞争方法均在matlab中实现，所有实验均在搭载英特尔i5‑2300cpu和16gbram的windows平台上进行。[0211]3.评估指标[0212]我们采用了四个指标来评估所有竞争算法的聚类性能，即聚类精度(acc)、归一化互信息(nmi)、f‑测度和调整兰德指数(adj‑ri)。最后三个指标有具体的定义。在我们的实验中，聚类精度定义如下：[0213][0214]其中ci表示xi的类标签，δ(x，y)度量x和y的等价性，map(xi)是将每个xi的聚类标签映射到一个置换中的类标签的置换映射函数。较大的值表示这些指标的群集性能较好。[0215]4.参数设置[0216]为了公平比较，我们根据各自作者的建议手动调整了竞争方法的参数，并报告了最佳结果。竞争方法的最后一步是用均值算法运行。我们采用了matlab提供的k‑means的标准实现，并且这些方法在实验中共享了‑means的相同参数。mlrr的表现与数据向量和多个视图的排列无关。因此，我们只进行了一次实验，并报告了作为最终结果的指标，即acc、nmi、f‑measure和adj‑ri。[0217]mlrr有三个参数，即λ，η和α。λ初始参数选自{1e‑2，5e‑2，0.1，0.5，1，10，1e2，5e2}，而另一个初始参数η选自{5e‑3，1e‑2，5e‑2，0.1，0.5，1}。参数α的范围通常从1到5。实验中给出了具体的参数值。[0218]5.聚类质量的评价[0219]性能比较[0220]我们在八个多视图数据集上评估了所提出的算法。表二显示了数据集上竞争方法的聚类结果。[0221][0222]表二不同方法在八个多视图数据集上的聚类性能比较。最佳和次佳结果分别以粗体和下划线显示。[0223]表二清楚地表明，我们的方法在四个测试指标方面通常比其他基线表现得更好。例如，对于bbc、3‑sources、reuters、caltech‑101、wiki、uci数字、flower17和proteinfold数据集，mlrr分别实现了91.39％、89.29％、54％、84.06％、64.52％、98.1％、59.27％和38.79％的高聚类accs。与次优方法相比，这些聚类算法至少提高了0.48％、4.08％、1.83％、1.12％、2.18％、0.4％、0.64％和1.67％。我们还观察到f‑测度在所有数据集中的显著优势。此外，mlrr获得了几乎所有nmi和adj‑ri的竞争性聚类结果，并显著优于其他方法，但在路透社数据集上除外。具体来说，与bbc、3‑sources、caltech‑101、wiki、uci数字、flower17和proteinfold数据集的其他方法相比，mlrr的nmi改进至少分别为2.27％、5.02％、2.62％、3.6％、0.71％、0.85％和2.2％。这些结果证实了我们提出的方法对于多视图子空间聚类中不同数量的视图和聚类是非常有效的。不出所料，多视图方法的聚类性能比最好的单视图算法好得多。这是因为不同的视图在多数据中包含互补的信息。[0224]计算时间[0225]为了评估所提出的mlrr算法的效率，我们在所有数据集上进行了实验。为了公平起见，我们没有报告的计算成本，因为该方法只对单个视图执行聚类任务。而是多视图子空间聚类的适当代表，用于评估标准lrr的计算成本。[0226]我们在表三中报告了所有方法的计算成本。mlan通过迭代修改相似矩阵来降低计算成本。此外，表三显示，mlrr和lmvsc总体上实现了类似的计算成本，低于rmsl和mcles。显然，mlrr的计算成本比。这证实了值得开发一个对称的lrr模型，而不是简单地将独立的lrr串联成一个紧凑的表示，这从的角度大大降低了多视图子空间聚类的计算成本。[0227][0228]表三数据集上竞争方法的计算时间(秒)比较[0229]本文提出了一个mlrr模型来解决多视图子空间聚类问题。mlrr有效地利用了多视图的多样性，即多视图的不同低维结构，同时度量了不同视图之间的一致性。与大多数多视图子空间聚类方法相比，mlrr从另一个角度提出了多视图子空间聚类中相似图矩阵的新构造，即在对称条件下充分利用lrr主方向的角度信息。具体来说，它侧重于两个重要方面，即特征学习和特征融合。它成功地学习了包含多个视图中的互补知识的对称lrr。此外，提出了一种对称lrr的融合策略，以获得一个紧凑的特征表示，该表示可以被多个视图共享，并全面地表示多视图数据的内在特征。紧凑的特征表示的主方向的角度信息被用来评估多视图数据的成员关系。因此，在对称lrr中保留的内在特征被用来有效地表征多个子空间。此外，mlrr自然避免了对称化处理步骤。与标准的lrr算法相比，由于共享了多个视图的公共信息，mlrr收敛得更快。在标准数据集上的实验结果表明，与几种最新的多视图子空间聚类算法相比，mlrr获得了更好的聚类结果。[0230]以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：配电物联网用户负荷识别方法、系统、设备和存储介质与流程

一种面向多视图数据的子空间聚类方法与流程

相关文献

最热文献