基于超图结构的大规模数据分类方法及装置与流程

2022-02-22 02:56:09 来源：中国专利 TAG：

1.本发明涉及图表示学习技术领域，特别涉及一种基于超图结构的大规模数据分类方法及装置。

背景技术：

2.除了文本、图像、语音、视频等欧式数据以外，现实世界还存在着大量非欧数据。欧式数据是具有欧几里得结构的数据，样本点之间的距离可以用欧几里得距离度量，例如文本、语音是一维数据，图像是二维数据，视频是三维数据；非欧数据无法转换到欧几里得空间，样本点之间的距离不服从欧几里得距离，例如社交网络、知识图谱以及特定领域中的网络结构数据(生物网络、交通网络、通信网络等)。非欧数据在科学研究和工业生产中均有重要应用。在科学研究领域，研究蛋白质相互作用网络对了解蛋白质的工作原理和蛋白质之间的功能联系、了解生物信号传递和能量物质代谢有着重要的意义；研究药物相互作用网络能够了解多种药物共同使用带来的有害或者有益的影响，进而指导药物的使用。在工业生产领域，推荐系统的用户和待推荐的项目之间的关系网络是典型的非欧数据，建模和挖掘用户和项目的关系，对于提高推荐准确性、有效性起到重要作用。
3.当前的超图神经网络研究在建模能力和应对大规模数据方面均存在挑战。在建模能力方面，现有的超图神经网络的特征聚合过程是非参数化的，或者是基于简单的注意力结构，对于节点到超边、超边再到节点的聚合过程建模能力存在欠缺。在应对大规模数据方面，现有的超图神经网络受限于空间和时间消耗，难以应用于百万级别的大规模数据：一方面，现有的超图神经网络均为转导式结构，只能对整个超图进行计算，转导式结构的空间复杂度与超边数量成正比，当数据规模增大时，超边数量急剧增长以至于空间消耗很快到达通用显存硬件设备的显存上限，制约了大规模超图数据处理的需求；另一方面，超图神经网络由于其“节点-超边-节点”的计算模式，计算复杂度较高，运行速度较慢，进一步制约了在大规模数据上的应用。

技术实现要素：

4.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
5.为此，本发明的第一个目的在于提出一种基于超图结构的大规模数据分类方法，通提高超图结构神经网络计算的时间和空间效率，优化大规模超图结构数据节点分类的准确率。
6.本发明的第二个目的在于提出一种基于超图结构的大规模数据分类装置。
7.为达上述目的，本发明第一方面实施例提出了一种基于超图结构的大规模数据分类方法，包括：
8.将超图结构通过矩阵变换转化为图结构，其中，将表示节点和超边联系的超图关联矩阵转化为表示节点直接关联的邻接矩阵；
9.根据所述邻接矩阵进行批次采样，得到每个批次目标计算节点的邻居节点集合；
10.采用平均池化算法，将所述邻居节点集合的特征聚合到所述目标计算节点；
11.利用神经网络对聚合后的目标计算节点特征进行变换，得到变换后的特征；
12.根据分类算法对所述变换后的特征进行分类，以输出分类结果。
13.另外，根据本发明上述实施例的基于超图结构的大规模数据分类方法还可以具有以下附加的技术特征：
14.进一步地，在本发明的一个实施例中，所述将超图结构通过矩阵变换转化为图结构，包括：
15.根据超图结构的关联矩阵，得到所述关联矩阵的稀疏矩阵；
16.将所述关联矩阵通过所述稀疏矩阵转置，得到转置的索引矩阵；
17.将所述关联矩阵与所述转置的索引矩阵，通过稀疏矩阵乘法得到所述表示节点直接关联的邻接矩阵的稀疏矩阵。
18.进一步地，在本发明的一个实施例中，所述分类算法的计算公式为：
[0019][0020]
其中，xi为当前计算节点特征向量，c为类别数量，xj为其他节点特征向量，w为变换矩阵，yi为当前节点类别概率向量。
[0021]
进一步地，在本发明的一个实施例中，所述对聚合后的目标计算节点特征进行变换的计算公式为：
[0022]
x
′c＝relu(wxc b)
[0023]
其中，xc为计算目标节点的聚合特征，x
′c为计算目标节点的变换特征，w为特征变换矩阵，b为特征变换偏置项。
[0024]
进一步地，在本发明的一个实施例中，所述超图结构的规模数据由两个矩阵组成：表示数据的特征矩阵x和表示所述超图结构的关联矩阵h。
[0025]
本发明实施例的基于超图结构的大规模数据分类方法，通过将超图结构通过矩阵变换转化为图结构，其中，将表示节点和超边联系的超图关联矩阵转化为表示节点直接关联的邻接矩阵；根据邻接矩阵进行批次采样，得到每个批次目标计算节点的邻居节点集合；采用平均池化算法，将邻居节点集合的特征聚合到目标计算节点；利用神经网络对聚合后的目标计算节点特征进行变换，得到变换后的特征；根据分类算法对变换后的特征进行分类，以输出分类结果。本发明实现了从超图结构的大规模数据进行节点分类，提高了超图结构神经网络计算的时间和空间效率，优化了大规模超图结构数据节点分类的准确率。
[0026]
为达上述目的，本发明第二方面实施例提出了一种基于超图结构的大规模数据分类装置，包括：
[0027]
结构变换单元，用于将超图结构通过矩阵变换转化为图结构，其中，将表示节点和超边联系的超图关联矩阵转化为表示节点直接关联的邻接矩阵；
[0028]
节点采样单元，用于根据所述邻接矩阵进行批次采样，得到每个批次目标计算节点的邻居节点集合；
[0029]
邻域聚合单元，用于采用平均池化算法，将所述邻居节点集合的特征聚合到所述目标计算节点；
[0030]
特征变换单元，用于利用神经网络对聚合后的目标计算节点特征进行变换，得到变换后的特征；
[0031]
分类单元，用于根据分类算法对所述变换后的特征进行分类，以输出分类结果。
[0032]
本发明实施例的基于超图结构的大规模数据分类装置，通过结构变换单元，用于将超图结构通过矩阵变换转化为图结构，其中，将表示节点和超边联系的超图关联矩阵转化为表示节点直接关联的邻接矩阵；节点采样单元，用于根据邻接矩阵进行批次采样，得到每个批次目标计算节点的邻居节点集合；邻域聚合单元，用于采用平均池化算法，将邻居节点集合的特征聚合到目标计算节点；特征变换单元，用于利用神经网络对聚合后的目标计算节点特征进行变换，得到变换后的特征；分类单元，用于根据分类算法对变换后的特征进行分类，以输出分类结果。本发明实现了从超图结构的大规模数据进行节点分类，提高了超图结构神经网络计算的时间和空间效率，优化了大规模超图结构数据节点分类的准确率。
[0033]
本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
[0034]
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
[0035]
图1为根据本发明一个实施例的基于超图结构的大规模数据分类方法的流程图；
[0036]
图2为根据本发明一个实施例的基于超图结构的大规模数据分类装置的结构示意图。
具体实施方式
[0037]
下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0038]
下面参考附图描述本发明实施例的基于超图结构的大规模数据分类方法和装置。
[0039]
图1为本发明实施例所提供的一种基于超图结构的大规模数据分类方法的流程图。
[0040]
如图1所示，该方法包括以下步骤：
[0041]
步骤s1，将超图结构通过矩阵变换转化为图结构，其中，将表示节点和超边联系的超图关联矩阵转化为表示节点直接关联的邻接矩阵。
[0042]
具体地，在本实施例中，超图结构的大规模数据由两个矩阵组成：表示数据的特征矩阵和表示超图结构的关联矩阵。数据特征矩阵的维度为，关联矩阵的维度为，其中为数据样本数量，为数据的初始特征维度，为超边数量。
[0043]
步骤s2，根据邻接矩阵进行批次采样，得到每个批次目标计算节点的邻居节点集合。
[0044]
具体地，在本实施例中，分批次进行均匀采样，根据给定的批次大小b，采样b个目标计算节点，组成节点集合vc，然后根据邻接矩阵a求得这些目标计算节点的邻居节点集合vn，vn中的任一节点均为vc中某节点的相邻节点。
[0045]
步骤s3，采用平均池化算法，将邻居节点集合的特征聚合到目标计算节点。
[0046]
具体地，在本实施例中，对于目标计算节点集合中的某个目标节点vc，找到邻居节点集合中vc对应的邻居节点集合v
nc
，将vc节点加入v
nc
，求得扩充过后的节点集合v
nc
中所有节点特征的平均值作为目标节点vc的聚合特征。
[0047]
步骤s4，利用神经网络对聚合后的目标计算节点特征进行变换，得到变换后的特征。
[0048]
具体地，在本实施例中，对计算目标节点特征进行变换，其计算公式为：
[0049]
x
′c＝relu(wxc b)
[0050]
式中，xc为计算目标节点的聚合特征，x
′c为计算目标节点的变换特征，w为特征变换矩阵，b为特征变换偏置项，relu的函数表达式为：
[0051][0052]
步骤s5，根据分类算法对变换后的特征进行分类，以输出分类结果。
[0053]
具体地，在本实施例中，使用softmax分类算法将目标计算节点的变换特征转化为节点类别概率向量，节点类别概率向量中数值最大的维度即为节点的分类结果。对于节点xi来说，其分类算法的计算公式为：
[0054][0055]
式中，xi为当前计算节点特征向量，c为类别数量，xj为其他节点特征向量，w为变换矩阵，yi为当前节点类别概率向量。yi的维度为类别数c，yi中数值最大的维度ci即为节点xi的类别。
[0056][0057]
本发明实施例的提出的基于超图结构的大规模数据分类方法，通过将超图结构通过矩阵变换转化为图结构，其中，将表示节点和超边联系的超图关联矩阵转化为表示节点直接关联的邻接矩阵；根据邻接矩阵进行批次采样，得到每个批次目标计算节点的邻居节点集合；采用平均池化算法，将邻居节点集合的特征聚合到目标计算节点；利用神经网络对聚合后的目标计算节点特征进行变换，得到变换后的特征；根据分类算法对变换后的特征进行分类，以输出分类结果。本发明实现了从超图结构的大规模数据进行节点分类，提高了超图结构神经网络计算的时间和空间效率，优化了大规模超图结构数据节点分类的准确率。
[0058]
在一些实施例中，将超图结构通过矩阵变换转化为图结构，包括：根据超图结构的关联矩阵，得到关联矩阵的稀疏矩阵；将关联矩阵通过稀疏矩阵转置，得到转置的索引矩阵；将关联矩阵与转置的索引矩阵，通过稀疏矩阵乘法得到表示节点直接关联的邻接矩阵的稀疏矩阵。
[0059]
具体地，在本公开实施例中，得到关联矩阵h的稀疏矩阵形式h
sp
，维度为2
×
l，其中l为h中非0元素的个数，即超图结构中所有节点-超边关系的数量，h
sp
的第一行表示所有节点-超边关系对应的节点序号，h
sp
的第二行表示所有节点-超边关系对应的超边序号。
[0060]
进一步地，在本公开本实施例中，将h
sp
的第一行与第二行交换，就得到了h
sp
的转
置矩阵
[0061]
进一步地，在本公开本实施例中，将h
sp
与进行稀疏矩阵乘法，得到稀疏矩阵a，即为超图结构的邻接矩阵，维度为n
×
n，其中a(i，j)表示节点i与节点j之间是否存在共同超边，若存在则a(i，j)＝1，否则a(i，j)＝0。
[0062]
图2为根据本发明一个实施例的基于超图结构的大规模数据分类装置的结构示意图。
[0063]
如图2所示，该装置10包括：结构变换单元100、节点采样单元200、邻域聚合单元300、特征变换单元400和分类单元500。
[0064]
结构变换单元100，用于将超图结构通过矩阵变换转化为图结构，其中，将表示节点和超边联系的超图关联矩阵转化为表示节点直接关联的邻接矩阵；
[0065]
节点采样单元200，用于根据邻接矩阵进行批次采样，得到每个批次目标计算节点的邻居节点集合；
[0066]
邻域聚合单元300，用于构建训练深度神经网络的目标函数，通过优化算法最小化训练目标函数，得到训练后的深度神经网络；
[0067]
特征变换单元400，用于利用神经网络对聚合后的目标计算节点特征进行变换，得到变换后的特征；
[0068]
分类单元500，用于根据分类算法对变换后的特征进行分类，以输出分类结果。
[0069]
进一步地，上述结构变换单元100包括：稀疏化单元，转置单元以及乘法单元，
[0070]
稀疏化单元，用于根据超图结构的关联矩阵，得到关联矩阵的稀疏矩阵；
[0071]
转置单元，用于将关联矩阵通过稀疏矩阵转置，得到转置的索引矩阵；
[0072]
乘法单元，用于将关联矩阵与转置的索引矩阵，通过稀疏矩阵乘法得到表示节点直接关联的邻接矩阵的稀疏矩阵。
[0073]
进一步地，上述分类单元500中，分类算法的计算公式被配置为：
[0074][0075]
其中，xi为当前计算节点特征向量，c为类别数量，xj为其他节点特征向量，w为变换矩阵，yi为当前节点类别概率向量。
[0076]
进一步地，上述特征变换单元400中，对聚合后的目标计算节点特征进行变换的计算公式被配置为：
[0077]
x
′c＝relu(wxc b)
[0078]
其中，xc为计算目标节点的聚合特征，x
′c为计算目标节点的变换特征，w为特征变换矩阵，b为特征变换偏置项。
[0079]
进一步地，上述结构变换单元100中，超图结构的规模数据由两个矩阵组成：表示数据的特征矩阵x和表示超图结构的关联矩阵h。
[0080]
根据本发明实施例的基于超图结构的大规模数据分类装置，通过结构变换单元，用于将超图结构通过矩阵变换转化为图结构，其中，将表示节点和超边联系的超图关联矩阵转化为表示节点直接关联的邻接矩阵；节点采样单元，用于根据邻接矩阵进行批次采样，得到每个批次目标计算节点的邻居节点集合；邻域聚合单元，用于采用平均池化算法，将邻
居节点集合的特征聚合到目标计算节点；特征变换单元，用于利用神经网络对聚合后的目标计算节点特征进行变换，得到变换后的特征；分类单元，用于根据分类算法对变换后的特征进行分类，以输出分类结果。本发明实现了从超图结构的大规模数据进行节点分类，提高了超图结构神经网络计算的时间和空间效率，优化了大规模超图结构数据节点分类的准确率。
[0081]
此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
[0082]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0083]
尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种卫星CCD遥感图像上直立地物高度的提取方法与流程

基于超图结构的大规模数据分类方法及装置与流程

相关文献

最热文献