一种面向角色的异质网络表示学习方法

2022-10-22 08:22:18 来源：中国专利 TAG：

1.本发明涉及机器学习、复杂网络技术领域，尤其是涉及一种面向角色的异质网络表示学习方法。

背景技术：

2.随着复杂网络受到越来越多的关注，复杂网络中的角色发现问题也逐渐受到研究者们的关注。在复杂网络中社团与角色是两个不同的概念，属于同一社团的节点距离更近且连接更加紧密，而属于同一角色的节点与彼此间的距离无关，它们在邻域结构上是相似的。因此，属于同一角色的两个节点有可能属于不同的社团。另一个基本的区别是社团在不同网络中的定义不同，而角色则可以捕获更一般化的概念，即结构模式。因此角色是跨网络通用的，它们可以在一个网络中学习，然后应用到另一个网络中，而社团则不然。现有的角色发现方法在各种下游任务上表现良好，它们通过捕获不同尺度的角色特征为节点学习更精准的角色表示，但它们都忽视了节点的异质性。例如不同类型的邻居节点对中心节点的影响不同，它们所构成的邻域结构模式也千差万别，进一步地，结构模式分布不同也会对节点的角色产生深刻的影响。异质网络于近几年开始被更多的研究者所关注，由于节点和边的类型更多，异质网络中的结构更具多样性。对于浅层模型来说，基于分解和基于关系的方法关注的是邻近性，而基于元路径的随机游走方法虽然关注了异质网络中的结构信息，但它关注的仅仅是几种由人工选择的元路径且学习到的依旧是节点的邻近性。对于深层模型来说，它们几乎都是通过最大化与邻居节点的相似性来学习节点的表示，很难捕获到邻域以外的相似性，更不用说结构相似性了。因此在角色发现领域中需要考虑到节点异质性来展开进一步的研究工作。

技术实现要素：

3.本发明的目的在于提供一种面向角色的异质网络表示学习方法，实现了结合项目论文数据以，挖掘作者在网络中的角色。
4.本发明提供一种面向角色的异质网络表示学习方法，包括：
5.获取某一特定任务的相关数据，并进行数据清洗和预处理，并构建异质网络；
6.利用异质匿名游走模块捕获节点邻域结构信息；
7.利用同类结构合并模块合并同类的匿名游走路径；
8.利用主题模型得到角色导向的节点表示。
9.进一步的，获取某一特定任务的相关数据，并进行数据清洗和预处理，包括：
10.筛选数据中相关的字段构建异质信息网络，同时去除乱码并删除字段为空的数据，减少噪声。
11.进一步的，利用异质匿名游走模块捕获节点邻域结构信息，包括：
12.利用随机游走采样得到不同的节点序列，通过对游走序列匿名化来获取节点邻域的结构特征。
13.进一步的，利用同类结构合并模块合并同类的匿名游走路径，包括：
14.通过同构测试方法将结构模式不同但是同构的haw样本看作同一类，以此来缓解随着游走长度l的增加而增长的haw序列类型的数量问题。
15.进一步的，利用主题模型得到角色导向的节点表示，包括：
16.利用主题模型，为每个节点得到其局部结构模式的概率描述，最后得到的结构主题将包含指示节点属性的结构模式分布。
17.本发明提供的面向角色的异质网络表示学习方法，对数据进行数据清洗和预处理后，构建异质网络，利用异质匿名游走模块捕获节点邻域结构信息，再利用同类结构合并模块合并同类的匿名游走路径，最后利用主题模型得到角色导向的节点表示，实现了结合项目论文数据以，挖掘作者在网络中的角色。
附图说明
18.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1为本发明实施例提供的面向角色的异质网络表示学习方法的流程图；
20.图2为本发明实施例的应用流程图。
具体实施方式
21.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
22.本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
23.如图1和图2所示，本发明实施例提供一种面向角色的异质网络表示学习方法，包括：
24.s1：获取某一特定任务的相关数据，并进行数据清洗和预处理，并构建异质网络。
25.具体的，筛选数据中相关的字段构建异质信息网络，同时去除乱码并删除字段为空的数据，减少噪声。
26.s2：利用异质匿名游走模块捕获节点邻域结构信息。
27.具体的利用随机游走采样得到不同的节点序列，通过对游走序列匿名化来获取节点邻域的结构特征。
28.s3：利用同类结构合并模块合并同类的匿名游走路径。
29.具体的，通过同构测试方法将结构模式不同但是同构的haw样本看作同一类，以此来缓解随着游走长度l的增加而增长的haw序列类型的数量问题。
30.s4：利用主题模型得到角色导向的节点表示。
31.具体的，利用主题模型，为每个节点得到其局部结构模式的概率描述，最后得到的结构主题将包含指示节点属性的结构模式分布。
32.首先，本发明实施例提出了一种异质匿名游走(haw)策略来捕获异质结构模式。给定一个异质图h＝{v,e,φ}，有随机游走序列w＝(v0,v1,...v
l
)，其对应的haw是长度为l的二元组序列c＝(g(v0),g(v1),...,g(v
l
))，其中g(vi)＝(f(vi),φ(vi))。异质网络中的匿名游走可以根据从节点v开始的匿名游走分布重构以v为中心的完整邻域。而要重构节点的完整邻域，还需要知道异质结构的确切分布。为了解决haw序列类型的数量随着游走长度l的增加呈指数型增长的问题，本发明提出了一种同构结构合并机制。利用同构测试方法将结构模式不同但是同构的haw样本看作同一类，以此来缓解随着游走长度l的增加而增长的haw序列类型的数量问题。wl算法可以给每个节点得到一个特征集合，该特征集合表示的是每个节点的角色定位。因此对于一些非规则的图结构，可以通过wl算法来判断图是否同构。其关键思想在于通过将邻居节点的标签排序拼接后，来扩展节点的原始标签，并将这些扩展后的标签映射为新的标签。具体来说，首先将每个haw视为一个子图，对于任意节点vi∈h，s为节点在haw中的位置id与节点类型的组合，即：
[0033][0034]
然后获取节点vi的所有邻居节点的特征标签更新节点vi的特征：
[0035][0036]
其中为节点vi在上一轮迭代后的标签，hash是一个单射函数，重复以上步骤。由于最终的目标是缓解急剧增加的haw类型数量问题，所以需要对所有同构的haw子图进行聚类操作，以达到减少haw类型数量的目的。首先将标签映射为one-hot向量，即s
→
t，然后通过池化操作得到每个haw子图的表示：
[0037][0038]
其中r可以是mean、sum、max等操作，将得到的值作为haw子图的表示。最后通过聚类算法，为每个haw子图分配一个类型标签。异质同构测试的具体步骤如下：
[0039]
(1)标签复合集定义：给出两个带标签的异质子图h和h
′
，对于每个节点来说，其标签设置为haw的位置id与节点类型的组合。如果是第一次迭代，节点v的标签复合集中只有其自身标签。如果不是第一次迭代，节点v的标签复合集元素就是节点v的邻居节点在上一轮迭代中生成的标签。
[0040]
(2)复合集排序：聚合节点v的邻居节点标签，得到新标签，对复合集里的元素按照位置id进行升序排序，将排好序的元素拼接为一个字符串s，节点v在上一轮迭代生成的标签作为前缀(例如s＝《1a,0b2b3c4c》)；
[0041]
(3)标签压缩：通过映射函数f将每个标签字符串s映射为一个新的标签，当且仅当时，其压缩标签相同；
[0042]
(4)重标签：将压缩标签作为节点v在子图中的第i轮标签；
[0043]
(5)生成子图表示：在迭代结束后，将新标签映射为one-hot向量，通过池化操作得到各子图的表示，用于计算子图之间的相似性。
[0044]
通过以上的异质同构测试步骤，haw类型数得到了有效的控制，接下来本发明利用图结构主题模型来捕获异质图中节点的局部结构模式(角色特征)。图结构主题模型是一种概率模型，因此能够更准确地捕获到节点的局部结构模式的分布差异。首先对图结构主题模型进行如下定义：给定一个图h＝(v,e,φ)，w
l
是一组长度为l的异质匿名游走集合，结构主题数量为k，异质图上的主题模型旨在学习一个节点-主题矩阵其中，行ri对应一个分布，r
ik
表示节点vi属于第k个结构主题的概率。此外，定义从vi开始的异质匿名游走集合为w(i)，n＝|w(i)|为从每个节点开始的游走次数。
[0045]
图结构主题与nlp中的主题建模类似，其中异质匿名游走对应单词，从每个节点开始的遍历集合对应文档。通过进行类比，节点可以得到其局部结构模式的概率描述，因此结构主题将包含指示节点属性的结构模式分布。由于异质网络随机游走产生了大量不同的游走序列，其中一些序列是无意义的，模型可能会过拟合无意义的序列而忽略更重要的序列，从而影响模型的效率和准确性。因此模型首先需要从众多结构模式中选择具有高度指示性的锚结构，然后再进行进一步的主题建模。为了说明图结构主题模块具有选取锚结构的能力，即选取得到的锚结构不仅能够体现游走共现而且能够体现异质结构主题。具体来说，如果游走-主题矩阵u是可分离的，那么就称具有非零权重的游走序列为锚结构。
[0046]
接下来，模型首先定义游走共现矩阵接下来，模型首先定义游走共现矩阵表示两两游走序列在以不同节点为出发节点进行游走的共现次数，然后对共现矩阵m采用非负矩阵分解技术提取锚结构：
[0047][0048]
迭代更新h，z直到收敛，然后通过ak＝argmax(zk)选择权重最大的游走作为指示性游走，因为权重最大的游走更能解释其他游走发生情况，其中k＝1,
…
,α，a为锚结构的索引集，z为z的第k行。因此所以选择的游走不仅表明游走的共现性，而且还表明潜在的主题结构。
[0049]
基于所选择的锚结构，继续学习游走-主题分布u。利用以锚结构为主要指示、非锚结构提供辅助信息的lda快速优化方法，得到
[0050][0051]
其中，q为重排列的游走共现矩阵，锚结构a位于前α行中，为第k个锚结构在q中的对应的行。此外，本模型定义节点-游走矩阵为y
i,w
表示w在di中的共现情况。最后通过：
[0052][0053]
得到节点-主题分布其中表示伪逆。至此，就完成了对节点的主题结构建模，得到了包含异质结构的节点表示。
[0054]
在一个具体应用实例中，本发明提出了一种面向角色的异质网络表示学习算法，结合项目论文数据以，挖掘作者在网络中的角色。主要包括以下步骤：
[0055]
步骤一，数据预处理。数据集包含论文、学者、机构等多方面的信息，数据集中每个字段代表的含义均不同。从国家自然科学基金基础研究知识库收集后，原始的数据直接以csv格式存储。由于原始数据的数据类型并不完全统一，同时存在许多脏数据以及数据字段不统一的情况。首先对数据进行了清洗，将字段缺失的数据剔除，之后对清洗干净的数据进行了预处理。此外，由于原始数据中存在大量的重名现象，并且作者的姓名存在中文和拼音两种形式，如“董国华”和“dongguohua”，这无疑会给网络构建造成很大的影响。为了减少重名问题带来的影响，本文首先为所有机构设置唯一的id，然后依据作者隶属机构的关系构建作者字典，为作者设置唯一id索引，最后利用python中的pypinyin工具将作者的姓名转变为拼音，例如，“10026-dongguohua”。
[0056]
步骤二，异质网络构建。由于原始网络中节点和边的数量过多，因此抽取其中的部分数据进行案例分析。本章选择了信息科学学科下的人工智能、计算机视觉、云计算等相关领域的项目和论文来构建异质网络。具体来说，本文构建的异质信息网络包括3个节点类型：作者、论文、项目，以作者发表论文、论文挂靠项目的关系作为节点之间的边，构建作者关系网络。本发明构建的项目合作网络包含206,095个作者节点以及368,628条合作边，其中作者节点123,104个，论文节点73,549个，项目节点8,442个；论文-作者边294,919条，论文-项目边73,709条。作者节点远多于项目节点，论文-作者连边的数量为论文-项目连边的3至4倍，这表明在真实世界的复杂网络中不同类型节点的数量差异较大，这一特点会对算法的准确率造成一定的影响。
[0057]
步骤三，角色发现。首先为项目合作异质网络中的所有节点生成相应的嵌入表示，然后采用欧几里得距离公式计算节点之间的相似度。对于任意给定的学者id，可以通过计算该学者与其他学者的嵌入向量间的相似度来得到该学者的top-k相似作者列表。
[0058]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0059]
最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种互联网软件开发用测试机构的制作方法

一种面向角色的异质网络表示学习方法

相关文献

最热文献