一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于局部最大对齐的后期融合多视图聚类方法及系统与流程

2022-02-22 23:29:03 来源:中国专利 TAG:


1.本发明涉及机器学习技术领域,尤其涉及基于局部最大对齐的后期融合多视图聚类方法及系统。


背景技术:

2.随着多源信息采集技术的发展,所收集的数据可以有多种表示,例如,一段视频可以有不同角度的影像数据和声音数据。此类数据,在机器学习领域,被称之为多视图数据。对这类数据的充分合理的应用,一直是理论研究和科学实践中的重要课题。聚类算法在机器学习中的无监督学习领域有重要地位,它旨在将无标签的数据进行不相交的划分。利用多视图进行聚类,可以从不同角度提取样本信息,从而要比单个视图的聚类效果更好。
3.多视图聚类可以大致分为以下三类:i)协同训练多视图聚类(a.blum and t.mitchell,“combining labeled and unlabeled data with co-training,”in colt 1998,pp.92

100)。此类方法除了从各个视图提取信息之外,同时寻求各个视图的一致的聚类结果。ii)子空间聚类(x.cao,c.zhang,h.fu,s.liu,and h.zhang,“diversity-induced multi-view subspace clustering,”in cvpr 2015,pp.586

594.)。这种方法旨在通过不同视图的表示,构建一个一致的子空间,达到视图融合的目的。iii)多核聚类(m.and a.a.margolin,“localized data fusion for kernel kmeans clustering with application to cancer biology,”in neurips 2014,pp.1305

1313.)。该算法的原理是,通过优化的方式寻找基核的最优组合系数,以达到提升聚类效果的目的。
4.上述方法中的多核聚类算法因为可解释性强和效果好,而备受关注。然而在实际应用过程中,其存在以下两个缺点:一是计算和存储复杂度较高。因为要对若干个核矩阵进行存储核计算,所以导致该类算法空间复杂度为o(n^2);还要对核矩阵进行特征分解,导致时间复杂度为o(n^3)。二是较为复杂的优化过程,增加了其陷入较差的局部最优的风险。
5.为了克服以上缺点,达到降低复杂度和简化优化过程的目的。后期融合的多视图聚类不再利用核矩阵进行融合,而是对更为轻量级的基础划分进行融合。基于最大对齐的后期融合多视图聚类(s.wang,x.liu,e.zhu,et al.,“multi-view clustering via late fusion alignment maximization,”in ijcai 2019,pp.3778

3784.),不但将计算复杂度从o(n^3)下降至o(n),还进一步提高了聚类效果。高效且有效的带正则化项的缺失多视图聚类算法(liu x,li m,tang c,et al.,“efficient and effective regularized incomplete multi-view clustering”,in tpami,2020,preprint)利用后期融合的方法处理缺失多视图聚类问题,不但聚类效果超过同类型算法,且达到了较低计算复杂度。但是,这种方法并没有考虑到数据的局部结构。目前,尚没有方法能够综合后期融合较快的运算速度和数据局部结构等两个优点。


技术实现要素:

6.本发明的目的是针对现有技术的缺陷,提供了基于局部最大对齐的后期融合多视
图聚类方法及系统。
7.为了实现以上目的,本发明采用以下技术方案:
8.基于局部最大对齐的后期融合多视图聚类方法,包括步骤:
9.s1.获取聚类任务和目标数据样本;
10.s2.初始化各个视图的置换矩阵、各个视图的组合系数、对平均核进行核k均值聚类的平均划分、各个视图的邻居矩阵;
11.s3.计算各个视图的基础划分,建立基于最大对齐的后期融合多视图聚类目标函数;
12.s4.获取带局部信息的基础划分,并结合各个视图的邻居矩阵和步骤s3,建立基于局部最大对齐的后期融合多视图聚类目标函数;
13.s5.采用循环方式求解建立的基于局部最大对齐的后期融合多视图聚类目标函数,得到融合各个基础划分后的最优划分;
14.s6.对最优划分进行k均值聚类,得到聚类结果。
15.进一步的,所述步骤s2中核k均值聚类表示为:
[0016][0017]
其中,h∈rn×k表示根据核矩阵k所求的划分矩阵;im表示维度为m(∈n

)的单位矩阵;h
t
表示h的置换;ik表示k维单位矩阵。
[0018]
进一步的,所述步骤s3中计算各个视图的基础划分具体为:对不同视图构建不同的核矩阵且分别运行核k均值聚类得到各个视图的基础划分
[0019]
进一步的,所述步骤s3中建立基于最大对齐的后期融合多视图聚类目标函数,表示为:
[0020][0021][0022]
其中,f表示优化所得的最优划分;β表示各个视图的组合系数组成的向量,β
p
表示第p个视图的系数,表示各个视图的置换矩阵;m表示对平均核进行核k均值聚类获得的平均划分;f
t
表示f的置换;w
t
表示w的置换;h
p
表示由核k均值聚类得到的各个视图的基础划分;m表示视图数量。
[0023]
进一步的,所述步骤s4中建立基于局部最大对齐的后期融合多视图聚类目标函数,表示为:
[0024][0025][0026]
[0027]
其中,表示第p个视图中样本i中的τ近邻的指示矩阵,即各个视图的邻居矩阵;n表示样本数;表示第p个视图中带第i样本局部信息的基础划分矩阵;表示各个视图的置换矩阵;λ表示正则化参数;表示带第i个样本局部信息的平均划分矩阵;表示的置换。
[0028]
进一步的,所述步骤s5中采用循环方式求解建立的基于局部最大对齐的后期融合多视图聚类目标函数,具体为:
[0029]
a1.固定和β,优化f,则优化式表示为:
[0030][0031]
其中,假设u的秩k的奇异值分解为其中sk∈rn×k表示左奇异值向量,∑k∈rk×k表示以奇异值为元素的对角矩阵,vk∈rk×k表示右奇异值向量,则得到闭式解表示右奇异值向量,则得到闭式解表示vk置换;
[0032]
a2.固定f和β,优化分别对每个w
p
单独进行优化,则优化式表示为:
[0033][0034]
其中,假设l的奇异值分解为l=s∑v
t
,其中rk×k表示左奇异值向量,∑∈rk×k表示以奇异值为元素的对角矩阵,v∈rk×k表示右奇异值向量,则得到闭式解w
p
=sv;
[0035]
a3.固定和f,优化β,则优化式表示为:
[0036][0037]
其中利用柯西不等式取等号的条件,则得到闭式解
[0038]
进一步的,所述步骤s5中采用循环方式求解建立的基于局部最大对齐的后期融合多视图聚类目标函数,其中循环的终止条件表示为:
[0039]
(obj
(t-1)-obj
(t)
)/obj
(t)
≤ε
[0040]
其中,obj
(t-1)
、obj
(t)
分别表示第t和t-1伦迭代的目标函数的值;ε表示设定精度。
[0041]
相应的,还提供基于局部最大对齐的后期融合多视图聚类系统,包括:
[0042]
获取模块,用于获取聚类任务和目标数据样本;
[0043]
初始化模块,用于初始化各个视图的置换矩阵、各个视图的组合系数、对平均核进
行核k均值聚类的平均划分、各个视图的邻居矩阵;
[0044]
第一建立模块,用于计算各个视图的基础划分,建立基于最大对齐的后期融合多视图聚类目标函数;
[0045]
第二建立模块,用于获取带局部信息的基础划分,并结合各个视图的邻居矩阵和第一建立模块中的目标函数,建立基于局部最大对齐的后期融合多视图聚类目标函数;
[0046]
求解模块,用于采用循环方式求解建立的基于局部最大对齐的后期融合多视图聚类目标函数,得到融合各个基础划分后的最优划分;
[0047]
聚类模块,用于对最优划分进行k均值聚类,得到聚类结果。
[0048]
进一步的,所述第一建立模块中建立基于最大对齐的后期融合多视图聚类目标函数,表示为:
[0049][0050][0051]
其中,f表示优化所得的最优划分;β表示各个视图的组合系数组成的向量,β
p
表示第p个视图的系数,表示各个视图的置换矩阵;m表示对平均核进行核k均值聚类获得的平均划分;f
t
表示f的置换;w
t
表示w的置换;h
p
表示由核k均值聚类得到的各个视图的基础划分;m表示视图数量。
[0052]
进一步的,所述第二建立模块中建立基于局部最大对齐的后期融合多视图聚类目标函数,表示为:
[0053][0054][0055]ft
f=ik,w
t
w=ik,‖β‖2=1,β
p
≥0
[0056]
其中,表示第p个视图中样本i中的τ近邻的指示矩阵,即各个视图的邻居矩阵;n表示样本数;表示第p个视图中带第i样本局部信息的基础划分矩阵;表示各个视图的置换矩阵;λ表示正则化参数;表示带第i个样本局部信息的平均划分矩阵;表示的置换。
[0057]
与现有技术相比,本发明提出了一种新颖的基于局部最大对齐的后期融合多视图聚类机器学习方法,该方法包括获取各个视图的邻居矩阵和基础划分,利用各视图的局部信息构建目标函数。然后通过优化,学习到一个拥有局部结构的最优划分矩阵,从而达到提升聚类效果的目的。与此同时,本发明亦可以解决大规模数据上的聚类问题。在8个多核数据集(其中6个基准数据集和2个大规模数据集)上的实验结果证明了本发明的性能优于现有的方法。
附图说明
[0058]
图1是实施例一提供的基于局部最大对齐的后期融合多视图聚类方法流程图;
[0059]
图2是实施例二提供的随迭代次数增加,目标函数值的变化示意图;
[0060]
图3是实施例二提供的参数敏感性示意图。
具体实施方式
[0061]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0062]
本发明的目的是针对现有技术的缺陷,提供了基于局部最大对齐的后期融合多视图聚类方法及系统。
[0063]
实施例一
[0064]
本实施例提供基于局部最大对齐的后期融合多视图聚类方法,如图1所示,包括步骤:
[0065]
s1.获取聚类任务和目标数据样本;
[0066]
s2.初始化各个视图的置换矩阵、各个视图的组合系数、对平均核进行核k均值聚类的平均划分、各个视图的邻居矩阵;
[0067]
s3.计算各个视图的基础划分,建立基于最大对齐的后期融合多视图聚类目标函数;
[0068]
s4.获取带局部信息的基础划分,并结合各个视图的邻居矩阵和步骤s3,建立基于局部最大对齐的后期融合多视图聚类目标函数;
[0069]
s5.采用循环方式求解建立的基于局部最大对齐的后期融合多视图聚类目标函数,得到融合各个基础划分后的最优划分;
[0070]
s6.对最优划分进行k均值聚类,得到聚类结果。
[0071]
本实施例的基于局部最大对齐的后期融合多视图聚类方法,通过让基础划分矩阵拥有局部聚类结构信息,使得学习得到的最优划分拥有更好的聚类结构。
[0072]
在步骤s2中,初始化各个视图的置换矩阵、各个视图的组合系数、对平均核进行核k均值聚类的平均划分、各个视图的邻居矩阵。
[0073]
设各个矩阵的置换矩阵为各个视图的组合系数为β、对平均核进行核k均值聚类的平均划分为m、各个视图的邻居矩阵然后将上述数据进行初始化。
[0074]
在本实施例中,首先通过核k均值聚类得到基础划分。假设样本集为其中为样本空间。设核函数为据此,可以得到相应的核矩阵k∈rn×n,该矩阵中元素k
ij
=κ(xi,xj)。核k均值聚类的目标式如下:
[0075][0076]
其中,h∈rn×k表示根据核矩阵k所求的划分矩阵;im表示维度为m(∈n

)的单位矩
阵;h
t
表示h的置换;ik表示k维单位矩阵。上式可以通过对k进行特征分解求解,解为k前k个最大特征值对应的特征向量。
[0077]
在步骤s3中,计算各个视图的基础划分,建立基于最大对齐的后期融合多视图聚类目标函数。
[0078]
本实施例对不同视图可以构建不同的核矩阵分别运行核k均值聚类,得到各个视图的基础划分基于最大对齐的后期融合多视图聚类目标函数为:
[0079][0080][0081]
其中,f表示优化所得的最优划分;β表示各个视图的组合系数组成的向量,β
p
表示第p个视图的系数,表示各个视图的置换矩阵;m表示对平均核进行核k均值聚类获得的平均划分;f
t
表示f的置换;w
t
表示w的置换;h
p
表示由核k均值聚类得到的各个视图的基础划分;m表示视图数量。
[0082]
关于f的优化可以通过对x λm进行经济的奇异值分解,取其左右奇异值向量的乘积获得;关于β的优化,可利用柯西不等式等号成立的条件获得;对w
p
的优化,可以对f
thp
进行奇异值分解,取其左右奇异值向量乘积获得。
[0083]
在步骤s4中,获取带局部信息的基础划分,并结合各个视图的邻居矩阵和步骤s3,建立基于局部最大对齐的后期融合多视图聚类目标函数。
[0084]
步骤s3中的方法运用的基础划分只拥有各自视图的全局聚类结构,而忽略了其局部聚类结构。本实施例令矩阵代表第p个视图中是否为样本i中的τ近邻的指示矩阵。据此,可以定义第p个视图中带第i样本局部信息的基础划分矩阵以及带第i个样本局部信息的平均划分矩阵其中m为对平均核进行核k均值聚类获得的平均划分。
[0085]
基于局部最大对齐的后期融合多视图聚类目标函数为:
[0086][0087][0088][0089]
其中,表示第p个视图中样本i中的τ近邻的指示矩阵,即各个视图的邻居矩阵;n表示样本数;表示第p个视图中带第i样本局部信息的基础划分矩阵;表示各个视图的置换矩阵;λ表示正则化参数;表示带第i个样本局部信息的平均划分矩
阵;表示的置换。
[0090]
在步骤s5中,采用循环方式求解建立的基于局部最大对齐的后期融合多视图聚类目标函数,得到融合各个基础划分后的最优划分。
[0091]
本实施例利用三步交替优化法求解步骤s4中的目标函数,具体为:
[0092]
a1.固定和β,优化f,则优化问题转换为如下公示:
[0093][0094]
其中,假设u的秩k的奇异值分解为其中sk∈rn×k表示左奇异值向量,∑k∈rk×k表示以奇异值为元素的对角矩阵,vk∈rk×k表示右奇异值向量,则得到闭式解表示右奇异值向量,则得到闭式解表示vk置换;
[0095]
a2.固定f和β,优化分别对每个w
p
单独进行优化,则优化式表示为:
[0096][0097]
其中,假设l的奇异值分解为l=s∑v
t
,其中s∈rk×k表示左奇异值向量,∑∈rk×k表示以奇异值为元素的对角矩阵,v∈rk×k表示右奇异值向量,则得到闭式解w
p
=sv;
[0098]
a3.固定和f,优化β,则优化式表示为:
[0099][0100]
其中利用柯西不等式取等号的条件,则得到闭式解
[0101]
步骤a1-a3的交替法终止条件表示为:
[0102]
(obj
(t-1)-obj
(t)
)/obj
(t)
≤ε
[0103]
其中,obj
(t-1)
、obj
(t)
分别表示第t和t-1伦迭代的目标函数的值;ε表示设定精度。
[0104]
在步骤s6中,对最优划分进行k均值聚类,得到聚类结果。得到的最优划分为步骤s4中的目标函数中的变量f,将f的每一行看作样本,对其进行k均值聚类,得到最终的聚类结果。
[0105]
本实施例包括获取各个视图的邻居矩阵和基础划分,利用各视图的局部信息构建目标函数;然后通过优化,学习到一个拥有局部结构的最优划分矩阵,从而达到提升聚类效果的目的。
[0106]
实施例二
[0107]
本实施例提供的基于局部最大对齐的后期融合多视图聚类方法与实施例一的不
同之处在于:
[0108]
将本实施例的技术方案应用于图像数据集中,具体为:
[0109]
s1.获取与图像相关的聚类任务和目标数据样本;
[0110]
s2.初始化各个视图的置换矩阵、各个视图的组合系数、对平均核进行核k均值聚类的平均划分、各个视图的邻居矩阵;
[0111]
s3.计算各个视图的基础划分,建立基于最大对齐的后期融合多视图聚类目标函数;
[0112]
s4.获取带局部信息的基础划分,并结合各个视图的邻居矩阵和步骤s3,建立基于局部最大对齐的后期融合多视图聚类目标函数;
[0113]
s5.采用循环方式求解建立的基于局部最大对齐的后期融合多视图聚类目标函数,得到融合各个基础划分后的最优划分;
[0114]
s6.对最优划分进行k均值聚类,得到聚类结果。
[0115]
其中,图像数据集包括人脸图像数据集、植物图像数据集、手写阿拉伯数字图像数据集、医疗图像数据集、物体行为动作姿态、商订单数据、海量订单组波、订单波次组合、订单数据挖掘与分析、库存调拨、货架调整、供应链优化、智能补货等等。
[0116]
本实施例以人脸为例进行说明:
[0117]
在6个多核标准数据集(其中5个基准数据集和1个大规模数据集)上测试了本方法的聚类性能。
[0118]
6个多核标准数据集包括ar10p、yale、plant、caltech102-30(简写为cal102-30)、flower17和mnist。其中ar10p为人脸图像数据库,每个人拥有不同的表情、光照或伪装等不同情况下照片。yale人脸包含来自15个人的165张照片,每个人的照片来自不同的面部表情、姿势或者光照条件。plant和flower17则是植物的图像数据集。caltech102则是由102个种类的不同物品照片构成的数据集,我们从每个类别中选取30个样本作为训练集,记为caltech102-30。mnist为大规模数据集,其包含60000个手写的阿拉伯数字图像,用以验证算法在大规模数据集上的性能。数据集的相关信息参见表1。所有数据集的核矩阵均可从互联网下载。
[0119][0120][0121]
表1 7个多核标准数据集
[0122]
本实验采用平均核k均值聚类算法(amkkm)、最优单视图核k均值聚类算法(sb-kkm)、多核k均值聚类(mkkm)、协同正则化谱聚类(crsc)、鲁棒的多核聚类(rmkkm)、鲁棒的多视图谱聚类(rmsc)、局部多核k均值聚类(lmkkm)、带矩阵诱导正则化项的多核k均值聚类
(mkkm-mr)、基于局部核最大对齐的多核聚类(lkam)。在所有实验中,所有基准核首先被中心化和正则化。对于所有数据集,假设类别数量已知且被设置为聚类类别数量。本实验使用的对比算法均根据相应的文献设置参数。本方法的参数λ通过网格搜索[2-5
,2-4
,

,25]的范围来确定,参数τ通过网格搜索[0.1,0.2,

,1]的范围确定。
[0123]
本实验使用了常见的聚类准确度(acc)和归一化互信息(nmi)来显示每种方法的聚类性能。所有方法随机初始化并重复50次并显示最佳结果以减少k均值造成的随机性。
[0124][0125]
表2五个基准数据集上不同算法的聚类效果
[0126]
表2展示了本方法(proposed)以及对比算法在五个基准数据集上的聚类效果,标注为
“‑”
代表内存溢出,该算法无法运行。根据该表可以观察到:1.本方法在两种评价标准下,均优于所有对比算法。2.本方法在六个数据集acc上的表现要分别高于次优的对比算法达12.31%,2.58%,4.58%,3.86%,3.53%。表3给出了本方法在大规模数据集上的表现。从表3可以看出,在很多对比算法因为内存溢出而无法运行时,本方法不但可以顺利运行,还能取得令人最好的效果。这说明了本方法在大规模数据集上的有效性。
[0127][0128]
表3两个大规模数据集上不同算法的聚类效果
[0129]
本实例也给出了每次迭代时的目标函数变化,如图2所示。可以看出目标函数值单调增加且通常在40次迭代之内即可收敛。
[0130]
图3展示了参数敏感性。从图中可以看出:1)在大范围内,参数的变化都能取得较好的性能;2)部分数据集上的聚类表现对参数较为敏感,并且τ取值为0.1时,效果整体较好。这对超参数的选择有指导性作用。
[0131]
本实施例可以解决大规模数据上的聚类问题。在7个多核图像数据集(其中5个基
准数据集和1个大规模数据集)上的实验结果证明了本方法的性能优于现有的方法。
[0132]
实施例三
[0133]
本实施例提供基于局部最大对齐的后期融合多视图聚类系统,包括:
[0134]
获取模块,用于获取聚类任务和目标数据样本;
[0135]
初始化模块,用于初始化各个视图的置换矩阵、各个视图的组合系数、对平均核进行核k均值聚类的平均划分、各个视图的邻居矩阵;
[0136]
第一建立模块,用于计算各个视图的基础划分,建立基于最大对齐的后期融合多视图聚类目标函数;
[0137]
第二建立模块,用于获得带局部信息的基础划分,并结合各个视图的邻居矩阵和第一建立模块中的目标函数,建立基于局部最大对齐的后期融合多视图聚类目标函数;
[0138]
求解模块,用于采用循环方式求解建立的基于局部最大对齐的后期融合多视图聚类目标函数,得到融合各个基础划分后的最优划分;
[0139]
聚类模块,用于对最优划分进行k均值聚类,得到聚类结果。
[0140]
进一步的,所述第一建立模块中建立基于最大对齐的后期融合多视图聚类目标函数,表示为:
[0141][0142][0143]
其中,f表示优化所得的最优划分;β表示各个视图的组合系数组成的向量,β
p
表示第p个视图的系数,表示各个视图的置换矩阵;m表示对平均核进行核k均值聚类获得的平均划分;f
t
表示f的置换;w
t
表示w的置换;h
p
表示由核k均值聚类得到的各个视图的基础划分;m表示视图数量。
[0144]
进一步的,所述第二建立模块中建立基于局部最大对齐的后期融合多视图聚类目标函数,表示为:
[0145][0146][0147][0148]
其中,表示第p个视图中样本i中的τ近邻的指示矩阵,即各个视图的邻居矩阵;n表示样本数;表示第p个视图中带第i样本局部信息的基础划分矩阵;表示各个视图的置换矩阵;λ表示正则化参数;表示带第i个样本局部信息的平均划分矩阵;表示的置换。
[0149]
需要说明的是,本实施例提供的基于局部最大对齐的后期融合多视图聚类系统与
实施例一类似,在此不多做赘述。
[0150]
本实施例包括获取各个视图的邻居矩阵和基础划分,利用各视图的局部信息构建目标函数。然后通过优化,学习到一个拥有局部结构的最优划分矩阵,从而达到提升聚类效果的目的。
[0151]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献