一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于互信息压缩的紧致图结构学习方法与流程

2022-04-06 17:41:44 来源:中国专利 TAG:


1.本发明涉及图像处理技术领域,尤其涉及一种基于互信息压缩的紧致图结构学习方法。


背景技术:

2.从自然语言、图像视频到网络分析,图能够建模多个领域的实际系统。当前,图神经网络(graph neural networks,简gnns)因其特有的消息传递机制,即持续从邻居中聚合信息,在建模图数据方面已经取得了极大的成功。图神经网络已经在许多应用中展现出了优越的性能,包括节点分类、链路预测等等。
3.图神经网络大致可分为两类:基于谱域的图神经网络和基于空域的图神经网络。基于谱域的图神经网络由图信号处理作为理论支撑,在谱域上定义图卷积操作。例如利用傅里叶基分解图信号、将图拉普拉斯矩阵用切比雪夫多项式扩展来提升效率。另一面,基于空域的图神经网络大大简化了上述的卷积过程,只聚焦于邻域。例如,gcn简单地将一跳邻居进行平均;graphsage利用不同的池化操作,随机聚合一部分邻居节点;gat为不同的邻居赋予不同的权重。一般而言,图神经网络的表现性能与给定的图的质量密切相关。
4.然而,由于信息源的复杂性,给定图的质量往往不可靠。一方面,在一些问题上,数据间没有图结构,例如自然语言处理或者计算机视觉。此时,通常是通过引入先验知识来构建出图结构,这通常会引入人为误差;另一方面,即使数据间存在互相交互,虚假的边通常也不可避免存在于图中。例如,在分析未知蛋白质的分子结构时,很可能在分子间建模出错误的边。此外,图常常会遭受攻击,以致原图结构被严重破坏。因此,真实的图结构往往存在上述问题,使得它们不能最优地解决下游任务。
5.最近,图结构学习(graph structure learning,简称gsl)吸引了广泛的关注,其旨在同时学习最优的图结构和gnn参数。当前的图结构学习可以大致分为两类,即基于单视图和基于多视图的图结构学习。前者通常从单一视图出发(例如,原始的邻接矩阵)去评估最优结构,并给学得的图结构施加一定的约束,从而让其满足一些性质。例如,pro-gnn为图结构施加低秩、稀疏和特征平滑等约束;考虑到只从一个视图中评估难免会有偏差,后者旨在从原始图结构中抽取多个基础视图,再基于这些基础视图来综合地评估最终视图。例如,idgl主要利用两种基本视图:归一化的邻接矩阵以及利用节点嵌入计算的相似性矩阵。基于多视图的方法能够利用多方面的知识来得出最终的评估结构。
6.尽管现有工作已经对多视图图结构学习进行了初步探索,但如何从原则上定义“最优”结构仍然缺乏理论指导。本质上,最优图结构应该仅仅包含关于下游任务最精简的信息,不多也不少,使其能对标签进行最精确的预测。最优图结构应该包含关于标签最少且最充分的信息,使其既能在下游任务上表现良好,又能在对抗攻击中表现一定的鲁棒性。目前的图结构学习框架主要关注于效果的提升,而忽略了结构的紧致性。因此,由这些方法得到的图结构不可避免会包含冗余噪声,进而会被微小扰动干扰。


技术实现要素:

7.本发明针对上述技术问题,提供一种基于互信息压缩的紧致图结构学习方法,进一步对多视图的图结构学习进行进一步分析,并回答如何从多个视图中有原则地估计最优图结构,我们定义这样的结构为“最小充分结构”,使其在效果和鲁棒性之间达到了平衡。
8.为了实现上述目的,本发明提供如下技术方案:
9.一种基于互信息压缩的紧致图结构学习方法,包括以下步骤:
10.s1、以两个基础视图作为模型输入;
11.s2、利用视图评估器分别调整两个基础视图,得到两个评估后的视图;
12.s3、将两个评估后的视图进行自适应聚合,得到最终视图;
13.s4、利用互信息估计器最小化两个评估后的视图和最终视图中两两视图之间的互信息,利用三折优化确保最终视图最小且充分。
14.进一步地,步骤s1从邻接矩阵、扩散矩阵、子图和knn图中选择两个作为基础视图。
15.进一步地,步骤s2的视图评估器的方法为:
16.s201、首先用gcn得到其中节点的嵌入
17.z1=σ(gcn(v1,x))
ꢀꢀ
(2)
18.其中,v1为其中一个基础视图,σ是非线性激活;
19.s202、利用嵌入z1,计算在基础视图v1下每个节点对间有边的概率:
[0020][0021]
其中,是节点i和j间的权重,是投影向量,b1是偏置向量;
[0022]
s203、归一化权重得到节点i和j间的连边概率
[0023][0024]
s204、构建出概率矩阵p1,其中每一项均由公式(4)计算,得到评估后的视图:
[0025][0026]
其中,μ1∈(0,1)是组合系数,的第i行表示为是节点i在评估后的视图中的新邻居节点。
[0027]
进一步地,另一基础视图v2与基础视图v1的评估方法相同,两个视图的参数不同。
[0028]
进一步地,步骤s3自适应融合的方法为:
[0029]
s301、利用两层gcn分别获得两个视图每个节点的预测结果:
[0030]
[0031]
其中,知分别为节点i在两个视图下的预测结果;
[0032]
相比和预测结果最大值更高且最大值和次大值之间差值更大的视图为对于节点f来说置信度更高的视图,被赋予更大的权重,主导聚合过程;
[0033]
s302、计算每个节点下视图的重要性π1:
[0034][0035]
其中,和表示的最大值和次大值,∈和λ是超参数;
[0036]
s303、对重要性进行归一化得到相应权重:
[0037][0038]
s304、基于步骤s303的权重为节点i生成最终视图
[0039][0040]
s305、以同样的方式为其他节点计算聚合后的视图,最终视图v

是每个节点聚合后的最终视图的拼接。
[0041]
进一步地,步骤s4三折优化的方法为:
[0042]
s401、优化每个视图对应的分类器参数θ;
[0043]
s402、优化互信息估计器参数φ,使其逼近真实的互信息mi值;
[0044]
s403、优化视图估计器的参数ω,在保持分类准确率的同时,最小化两两视图间的互信息。
[0045]
进一步地,s401中分类器参数θ的优化方法为:
[0046]
由公式(6)得到知均预测,记为o1和o2,由公式(13)得到最终视图v

的预测:
[0047][0048]
公式(6)和(13)中,gcn的参数视为分类器的参数θ,分类器的参数θ通过在标签上的交叉熵损失进行优化:
[0049][0050]
其中,yi是节点vi的标签,oi它的预测。
[0051]
11、进一步地,s402中互信息估计器参数φ的优化方法为:
[0052]
对于v

,首先用单层gcn获得节点嵌入:
[0053]h★
=σ(gcn(v

,x))
ꢀꢀ
(15)
[0054]
其中,σ是prelu激活,x是特征矩阵;
[0055]
通过公式(15),得到和的节点嵌入h1和h2;
[0056]
利用两层的mlp将三套嵌入投影到同一空间中,得到投影后的嵌入利用两层的mlp将三套嵌入投影到同一空间中,得到投影后的嵌入和互信息估计器参数φ通过infonce损失进行优化:
[0057][0058]
通过最小化方程(18),优化互信息估计器φ。
[0059]
12、进一步地,s403中视图估计器的参数ω的优化方法为:给定训练好的分类器和互信息估计器,持续优化视图估计器的参数ω:
[0060][0061]
其中,η是平衡系数。
[0062]
进一步地,步骤s4中的三折优化轮流迭代地进行,并通过随机梯度下降和反向传播进行参数优化。
[0063]
与现有技术相比,本发明的有益效果为:
[0064]
本发明提供的基于互信息压缩的紧致图结构学习方法,主要研究基于多视图的图结构学习问题。与其他多视图结构学习框架相比,本发明首次从理论上研究最优图结构的定义,指出最优图结构的两个因素,即“充分”和“最小”,给模型的设计提供了方向上的指导,是在图结构学习领域首次利用信息论来学习最优结构。本发明提出的“最小充分结构”,从原则上阐释了最优的结构应该是对于下游任务来说最紧致的结构,包含的信息量不多也不少,从而在精确性和鲁棒性间达到良好的平衡。在模型构思上面,始终围绕着获得最优图结构的目的进行设计,包括基础视图的选择、视图评估、自适应融合以及最终优化目标的设计,这些模块的设计都是服务于主旨的,且是其他模型都未曾考虑到的。在设计优化目标的时候,我们充分利用互信息,从理论层面给出了获得最优图结构的途径,且在理论上证明了最小充分结构的获得很大程度上依赖于不同视图以及标签间关系的建模,即在保证各视图的分类准确性的同时,最小化两两视图间的互信息,这也为模型的合理性提供了理论支持。我们将最终视图学成最小充分结构,使其只包含关于标签的最精简的信息,从而在预测准确性以及模型鲁棒性方面都优于其他多视图结构学习模型。
附图说明
[0065]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0066]
图1为本发明实施例提供的cogsl的整体架构;
[0067]
图2为本发明实施例提供的视图评估过程;
[0068]
图3为本发明实施例提供的自适应聚合过程。
具体实施方式
[0069]
在本发明中,我们从理论上提出了“最小充分结构”的概念,并通过理论证明,给出
得到最小充分结构的方式。首先,我们旨在获得这样一个最小充分的图结构。然而,这在技术层面上存在如下的两个挑战:(1)如何确保最终视图的最小以及充分?为了达到充分的要求,最终视图的学习过程应该由标签充分指导,这会使其尽可能地包含标签信息。为了达到最小的要求,考虑到最终视图是从基础视图中抽取信息,我们需要限制信息从基础视图到最终视图的流动,这样减少了无关信息的吸收。因此,为了达到最小以及充分的要求,我们需要全面思考基础视图、最终视图以及标签三者间的关系;(2)如何保证基础视图的有效性?考虑到基础视图是最终视图的信息源,保证基础视图的质量至关重要。一方面,基础视图也需要包含标签的信息,从根本上保证了最终视图的效果;另一方面,这些视图彼此间也应该相互独立,这样它们就能消除视图间的冗余,并为最终视图提供多方面关于标签的知识。
[0070]
结合上述两个挑战,我们设计了本次发明的方法(cogsl),利用互信息压缩来学习紧致的图结构。我们首先从原始结构中抽取出两个基础视图作为模型输入,并利用视图评估器进行调整,将调整过后的基础视图进行自适应聚合,得到最终视图。
[0071]
为了使最终视图成为最优图结构,我们在保证基础视图和最终视图的分类准确性的同时,最小化两两视图之间的互信息,并设计了一个三折优化去优化整体框架。我们从理论和实验两个层面证明了方法的有效性。
[0072]
在本发明中,我们主要关注于基于gnns的图结构学习方法。lds以双层优化的方式,同时优化每个节点对间的边概率以及gnn参数;pro-gnn通过施加多种正则项,例如低秩、稀疏和特征平滑,旨在获得一个鲁棒的图结构;idgl将图结构学习建模成一个相似性度量的问题,其评估边概率通过度量两节点嵌入间的相似度;gen基于贝叶斯推断,提出一个迭代优化的框架。
[0073]
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图和实施例对本发明作进一步的详细介绍。
[0074]
本发明的基于互信息压缩的紧致图结构学习方法(cogsl),模型的整体框架如图1所示。
[0075]
我们的模型以两个基础视图开始,设计视图评估器去分别调整两个基础视图。利用调整后的视图,我们提出一种基于预测置信度的自适应聚合机制来得到最终视图。接着,我们正式提出“最小充分结构”概念,并提出三折优化准则来确保最终视图最小且充分。具体过程如下。
[0076]
1、问题定义
[0077]
给定一张图给定一张图是n个节点的集合,ξ是边集合。所有的边构成了原始的邻接矩阵a∈rn×n,其中a
ij
表示节点vi和vj间的关系。图中的节点的特征矩阵为x=[x1,x2,...,xn]∈rn×d,其中xi是节点vi的d维特征。在半监督节点分类中,我们仅仅有部分节点的标签
[0078]
作为一种经典gnn框架,gcn通常用来作为基础模型。正式地,第k层gcn层的传播公式如下:
[0079]
[0080]
其中,d是a的度矩阵,wk是权重矩阵,h
(k)
是节点在第k层的嵌入,且有h
(0)
=x。
[0081]
之后,我们用gcn(v,h)来表示公式(1),其中v是某个视图,h是节点特征或嵌入。
[0082]
2基础视图选择
[0083]
cogsl首先从给定图中抽取出不同结构,主要分为四种:
[0084]
(1)邻接矩阵,反映局部结构;
[0085]
(2)扩散矩阵,描述了从一节点到另一节点的平稳转移概率,从全局角度刻画了图结构。我们选择个性化pagerank,其闭式解为:
[0086]
s=α(i-(1-α)d-1/2
ad-1/2
)-1

[0087]
(3)子图,即从原图随机保留一部分边;
[0088]
(4)knn图,反映了节点特征间的相似性。我们利用原始特征,计算每对节点间的余弦相似度,并为每个节点保留前k个最相似的节点,构成knn图。
[0089]
这四种视图从不同角度描述了原始结构的不同性质,我们从中选出两个作为基础视图v1和v2,并视作cogsl的输入。
[0090]
在本发明中,我们主要关注于四种基础视图:邻接矩阵、扩散矩阵、knn图、子图,然而图中还有很多其他类型的结构,反映图的不同性质,例如社团结构、motif结构、随机游走结构等等,只要该结构包含有益的先验知识,都可以作为基础视图。
[0091]
3视图评估器
[0092]
视图评估器的目的是调整输入的基础视图,使其能更灵活地进行后续操作。在本发明中,我们采用较为简单的方式进行评估,给定两个基础视图v1和v2,需要进一步调整它们,使其能更灵活生成最终视图。
[0093]
我们为每个基础视图设计一个视图估计器,如图2所示。
[0094]
特别地,对于视图v1而言,首先用gcn得到其中节点的嵌入
[0095]
z1=σ(gcn(v1,x))
ꢀꢀ
(2)
[0096]
其中,σ是非线性激活。
[0097]
利用嵌入z1,在v1下每个节点对间有边的概率可如下计算:
[0098][0099]
其中,是节点i和j间的权重,是投影向量,b1是偏置向量。
[0100]
之后,归一化权重得到节点i和j间的连边概率
[0101]
为了缓解时间和空间开销,我们只评估有限的范围s1。例如,对于邻接矩阵、knn以及子图,我们只关注其k跳范围内的邻居;对于扩散矩阵,我们仅仅对每个节点重新评估其ppr值最大的h个节点。h和k都是超参数。因此计算如下:
[0102][0103]
这样,我们就构建出概率矩阵p1,其中每一项均由公式(4)计算。
[0104]
结合上原始结构,评估后的视图如下:
[0105][0106]
其中,μ1∈(0,1)是组合系数,的第i行表示为是节点i在评估后的视图中的新邻居节点。
[0107]
评估v2利用类似的方式,但是评估这两个视图的参数不同,最终我们得到评估后的视图
[0108]
4视图融合
[0109]
下一个问题是:给定两个评估后的基础视图,如何有效地为每个节点自适应地聚合它们。
[0110]
我们利用预测置信度作为依据,给置信度更高的视图以更高的权重。这样,最终视图就能进行高置信度的预测,并能得到有效的训练。
[0111]
具体地,首先利用两层gcn获得每个视图的预测结果:
[0112][0113]
其中,对于节点i,它在两个视图下的预测分别为和
[0114]
相比和如果其中一个有更高的最大值,并且最大值和次大值之间差值也很大,那么这个视图就是对于节点i来说置信度更高的视图,应该被赋予更大的权重。
[0115]
基于此,我们提出了为每个节点进行自适应聚合,如图3所示。
[0116]
首先,计算的重要性π1:
[0117][0118]
其中,知表示的最大值和次大值,∈和λ是超参数。
[0119]
公式(7)有三个优点:
[0120]
(1)如果一个视图的最大值更高,并且最大值和次大值间的差距更大,那么这个视图更易于做出高置信度的预测,主导聚合过程;
[0121]
(2)这个机制充分考虑每个节点,实现了自适应聚合;
[0122]
(3)这个机制未引入新的可学习的参数,从一定程度上避免了过拟合。同样,可以得到的重要性π2。
[0123]
接下来,对重要性进行归一化得到相应权重:
[0124][0125]
最终,基于这些权重为节点i生成最终视图:
[0126][0127]
我们以同样的方式为其他节点计算聚合后的视图,最终视图v

是每个节点聚合后的结果的拼接。
[0128]
在将两个评估后的视图融合成最终视图时,我们根据节点在不同视图下的预测置信度进行相应的权重赋予。这个过程可被其他融合方式替换,例如简单地将两个视图进行平均,或者利用注意力机制进行融合。
[0129]
5学习最小充分结构v

[0130]
5.1理论分析
[0131]
我们希望学到的v

只包含关于标签的信息并过滤掉噪声,换言之,从信息论的角度出发,v

应是标签的最小充分统计量。正式定义如下:
[0132]
定义1(最小充分结构):给定两个变量u和v,i(u;v)是两者的互信息,h(u)是熵,h(u|v)是条件熵。结构v

是最小充分结构,当且仅当并且
[0133]
在这个定义中,表明v

共享了关于的信息,角保了v

不包含任何其他的除了的信息。为了获得这样的最小充分结构,我们提出如下的命题:
[0134]
命题1给定评估后的基本视图和最终视图v

以及标签v

是的最小充分结构,当如下的两条准则成立:
[0135]
(1)
[0136]
(2)最小化
[0137]
对于节点分类而言,第一条准则基于互信息建立了v

和间的关系,沟信息将完全包含于v

之中,保证了三者拥有充足的信息。在此基础上,我们运用第二条准则来限制视图间共享的信息,真正实现v

的最小性。
[0138]
接下来,我们证明第二条准则的作用:
[0139]
证明:首先,我们介绍一些信息论中的基本性质,包括熵h(x)、条件熵h(y|x)、联合熵h(x,y)、互信息i(x;y)和条件互信息i(x;z|y):
[0140]
(1)非负性:h(x|y)≥0;i(x;y|z)≥0
[0141]
(2)熵和互信息的链式法则:h(x,y)=h(x) h(y|x);i(x;y,z)=i(x;y) i(x;z|y)
[0142]
(3)多元互信息:
[0143]
i(x1;x2;...;x
n 1
)=i(x1;...;xn)-i(x1;...;xn|x
n 1
)
[0144]
基于这些性质,我们进行如下证明。
[0145]
首先,因为在第一条准则的保障下,这三个视图至少共享了的信息。因此:
[0146][0147]
在最后一步中,这是因为v

是由和聚合而来的,如果和已知,v

就完全确定了。因此有:
[0148][0149]
进一步,将h(v

)扩展到因为的信息已经完全在v

之中。
[0150]
接着,有如下推导:
[0151][0152][0153]
根据公式(10)和(11),有如下的推导:
[0154][0155]
在不等式(12)中,根据非负性,有并且同时是一个常数,因为的信息量是固定的。理想情况下,通过持续优化原始公式,知均趋于0。这意味着,给定标签v

不再包含其他信息,因此成为了最小充分结构。同时,和只共享v

的信息,因此和只共享了的信息,从而能为v

提供最多样性的知识。
[0156]
5.2迭代优化
[0157]
基于命题1,我们设计一个三折优化目标:
[0158]
(1)优化每个视图对应的分类器参数θ,提升分类准确率;
[0159]
(2)优化互信息估计器参数φ,使其逼近真实的mi值;
[0160]
(3)优化视图估计器的参数ω,在保持分类准确率的同时,最小化两两视图间的互信息。
[0161]
优化参数知的预测已经由公式(6)得到,记为o1和o2。类似地,我们得到v

的预测:
[0162][0163]
公式(6)和(13)中,gcn的参数可视为分类器的参数θ,θ可通过在上的交叉熵损失进行优化:
[0164][0165]
其中,yi是节点vi的标签,oi是它的预测。
[0166]
优化参数φ第二条准则需要最小化视图间的互信息(mi),然而评估准确的互信息十分困难。最近,infonce损失已被证明是真实互信息的下界。如果infonce损失最小化,就能近似逼近真实的mi。基于此,我们设计相关的mi估计器。具体地,对于v

,首先用单层gcn获得节点表示:
[0167]h★
=σ(gcn(v

,x))
ꢀꢀ
(15)
[0168]
其中,σ是prelu激活,x是特征矩阵。基于和均节点嵌入h1和h2可通过类似的方式得到。上述的三个gcn参数不同,但h1、h2和h

有同样的嵌入维度。之后,利用两层的mlp将三套嵌入投影到同一空间中,得到投影后的嵌入和以为例,该过程如下所示:
[0169][0170]
借鉴gca的做法,以和为例展示infonce损失的计算过程:
[0171][0172]
其中,sim(u,v)是向量u和v间的余弦相似度,τ是温度系数。和是节点i基于和均投影嵌入。b是随机抽取的一批次节点。这个公式意味着,如果我们最大化同一节点在不同视图下嵌入的相似度,同时最小化和其他节点的相似度,我们就能近似逼近v

和间真实的mi。同理,我们可计算以及总的mi估计器的优化目标如下:
[0173][0174]
通过最小化上述方程,互信息估计器φ将得到较好的优化。
[0175]
优化参数ω给定训练好的分类器和mi估计器,我们能持续优化视图估计器的参数ω。在命题1的指导下,我们有如下的损失:
[0176][0177]
其中,η是平衡系数。
[0178]
通过此优化,知只共享v

的信息,而v

只保留了有用的信息,尽可能过滤掉了噪声。
[0179]
为了有效训练cogsl,我们轮流迭代地进行上述三折优化,并通过随机梯度下降和反向传播进行参数优化。
[0180]
在设计互信息评估器时,我们采用对比学习中的infonce损失进行互信息的估计。对比学习中也有其他类型的损失函数和互信息有类似的关系,例如dgi中的bce损失等。
[0181]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献