一种基于结构和语义信息自适应融合的链接预测方法

2022-11-12 10:53:29 来源：中国专利 TAG：

1.本发明涉及自然语言处理领域，尤其涉及一种基于结构和语义信息的链接预测方法，能够同时利用结构和语义的相关信息，更准确地根据头节点和关系信息来预测出尾实体。

背景技术：

2.物联网中的传感器种类复杂、分布零散、产生的数据量巨大，有的传感器数据在传输过程中丢失了其标签信息，即无法使得该数据与城市物联空间模型的数据进行匹配，传统的信息组织和管理方式已经无法适用，而知识图谱作为一种新的信息组织方式，能够组织和表达各种实体以及实体之间的复杂关系，在组织和管理信息上具备天然的优势。知识图谱的链接预测技术能够根据传感器的相关信息，解决物联网数据与城市物联空间模型智能化匹配的关键技术之一。
3.目前大多数的链接预测任务大多只是基于结构信息或者只是基于语义信息进行预测，难以适用于物联网数据与城市物联空间模型智能化匹配任务。该匹配任务面向的主要是各种各样的传感器信息所构成的图谱，具有以下两个特点，其一：图谱中每一个节点都包含有各种各样的关系，如所处空间位置、上游节点等等这类结构性信息，传统的方法没有利用这些有效信息；其二：图谱中的节点有的具有丰富的结构信息，有的结构信息相对匮乏，需要根据节点的出入度大小进行两种信息的权衡。针对以上的图谱中的节点特点，链接预测模型必须满足以下两个要求，其一：既要关注节点本身文本的语义信息，又要同时关注节点的地理位置、部署时间等关系的结构信息；其二：不同博文的结构信息的丰富程度不同，需要根据其结构信息丰富程度自适应调节语义信息和结构信息的权重。当前通用的链接预测模型无法完全满足上述要求，无法胜任链接预测任务。

技术实现要素：

4.针对现有问题，本发明提出了一种基于结构和语义信息自适应融合的链接预测方法，包括模型输入的预处理、模型的训练、模型预测三大步骤，该方法整体预测准确率高、泛化性能强。具体技术方案如下：
5.一种基于结构和语义信息自适应融合的链接预测方法，包括以下步骤：
6.s1：模型输入的预处理，提取出物联数据相关的语义信息和结构信息，拼接语义信息和结构信息，作为模型的输入；
7.s2：模型的训练，根据模型的输入分别得到节点的语义得分和结构得分，然后根据节点的出入度得到其权重系数，加权求和得到损失值，并迭代更新模型参数；
8.s3：模型的预测，利用训练好的模型计算节点的语义得分和结构得分，并根据其权重系数得到最终得分，进行分类，得到链接预测结果。
9.进一步的，所述步骤s1包括：
10.s101：根据物联数据所组成的图谱进行处理，每条物联数据组织成三元组的形式；
11.s102：将三元组的头实体和关系进行拼接，然后将其输入transformer模型中得到嵌入向量u，将尾实体输入transformer模型中得到嵌入向量v，u和v作为节点的语义信息；
12.s103：将三元组进行初始化嵌入，对于头实体得到初始化嵌入es，对于关系得到初始化嵌入r，对于尾实体得到初始化嵌入eo，es、r和eo作为节点的结构信息；
13.s104：将语义信息的嵌入和结构信息的嵌入进行拼接，作为模型的输入部分。
14.进一步的，所述步骤s2具体包括：
15.s201：利用公式t＝[u；u
×
v,u-v,v]计算输入的u和v向量的语义相关性，然后输入到多层感知机网络当中得到语义得分sc，并将尾实体进行负采样的替换，即用一个错误的尾实体替换掉正确的尾实体，得到语义得分sc′
：
[0016]
sc＝mlp([u；u
×
v；u-v；v])
[0017]
sc′
＝mlp([u；u
×v′
；u-v
′
；v
′
])
[0018]
其中，v
′
是负采样的尾实体在transformer模型中的向量表示，mlp为多层感知机网络；
[0019]
s202：根据二元交叉熵计算负采样的尾实体和正确尾实体的损失
[0020][0021]
s203：将输入的初始化的结构信息嵌入，带入下式，得到其结构得分sd，以及负采样的尾实体的结构得分sd′
：
[0022]
sd＝w
×1es×2wr×3eo[0023]
sd′
＝w
×1es×2wr×3e
′o[0024]
其中e
′o是负采样的尾实体的在tucker模型中的向量表示，
×n表示张量与矩阵的n模积，w是tucker分解中的核心张量，wr是关系的向量表示；
[0025]
s204：根据岭回归损失计算结构得分和正确尾实体的损失
[0026][0027]
其中，λ为预设的超参数；
[0028]
s205：根据节点的出入度大小，和图谱中所有节点的平均出入度大小，得到该节点的权重系数：
[0029][0030]
其中α为该节点的权重系数，p为该节点的出入度大小，mp为图谱中所有节点的出入度大小的平均值；
[0031]
s206：根据权重系数得到本次训练的损失值，然后进行反向传播，进行模型的参数更新。
[0032]
进一步的，所述步骤s3具体包括：
[0033]
s301：利用训练得到的模型参数，输入模型节点的对应的结构信息和语义信息，即向量u、v、es、r和eo，然后根据步骤s201和s203的公式计算得到节点的语义得分sc和结构得分sd；
[0034]
s302：根据步骤s205计算得到的节点的权重系数，根据下式计算得到最终得分s：
[0035]
s＝(1-α)rescale(sd) αsc[0036]
其中rescale为归一化操作；
[0037]
s303：将最终得分s输入到一个全连接网络后，输入softmax分类器，得到节点的类别。
[0038]
相较于现有技术，本发明具有以下有益效果：
[0039]
1.本发明的基于语义信息和结构信息的自适应融合的链接预测方法，具有预测准确率高、泛化性能强的特点。
[0040]
2.本发明的模型输入既包含语义信息，又包含结构信息，结合两种有效信息对博文进行分类，提高了预测的准确率。
[0041]
3.本发明根据传感器的结构信息的丰富程度，自适应调节结构信息和语义信息的权重，对各类传感器都有较好的预测结果，提高了模型的泛化性能。
附图说明
[0042]
为了更清楚地说明本发明中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
[0043]
图1为本发明中获得语义信息嵌入的一个示例；
[0044]
图2为本发明中获得结构信息嵌入的一个示例；
[0045]
图3为本发明中不同节点的出入度大小不同的一个示例；
[0046]
图4为本发明中进行模型损失计算的模型结构图；
[0047]
图5为本发明中进行模型训练的步骤示例。
具体实施方式
[0048]
以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。
[0049]
以本发明的一种基于结构和语义信息自适应融合的链接预测方法为例，模型输入的预处理、模型的训练、模型预测三大步骤。
[0050]
s1：模型输入的预处理，提取出物联数据相关的语义信息和结构信息，然后进行拼接，作为模型的输入部分。
[0051]
s2：模型的训练，根据模型的输入分别得到节点的语义得分和结构得分，然后根据节点的出入度得到其权重系数，加权求和得到损失值，并迭代更新模型参数。
[0052]
s3：模型预测，利用训练好的模型计算节点的语义得分和结构得分，并根据其权重系数得到最终得分，进行分类，得到链接预测结果。
[0053]
进一步的，步骤s1包括：
[0054]
s101：根据物联数据所组成的图谱进行处理，其中，物理数据指物联网络中各个传感器所采集的数据、以及传感器本身所具有的信息(如地理位置等信息)，图谱中的节点包括物联网络中的每个传感器、以及传感器采集到的数据信息、各个物联系统、地理位置、采
集到的时序数据信息等等。每条物联数据组织成三元组的形式，举例来说，传感器a-》属于-》水处理系统，传感器b-》地理位置-》区域d，传感器c-》11月5日的数据-》时序数据d，传感器d-》11月5日的状态-》正常，组成这种头实体、关系、尾实体三元组的形式。
[0055]
s102：将s101中的三元组的头实体和关系进行拼接，然后将其输入transformer模型中得到嵌入向量u，将尾实体输入transformer模型中得到嵌入向量v，u和v作为节点的语义信息。如图1所示，为利用transformer模型获得语义信息嵌入的一个示例。
[0056]
s103：将s101中每个三元组进行初始化嵌入，将节点随机初始化为向量，对于头实体得到初始化嵌入es，对于关系得到初始化嵌入r，对于尾实体得到初始化嵌入eo。es、r和eo作为节点的结构信息。如图2所示，为利用tucker模型获得结构信息嵌入的一个示例。
[0057]
s104：将语义信息的嵌入和结构信息的嵌入进行拼接，作为模型的输入部分。
[0058]
进一步的，步骤s2具体包括：
[0059]
s201：利用公式t＝[u；u
×
v,u-v,v]计算输入的u和v向量的语义相关性，然后输入到一个多层感知机网络当中得到语义得分sc，并将尾实体进行负采样的替换，即用一个错误的尾实体替换掉正确的尾实体，得到语义得分sc′
，其中v
′
是负采样的尾实体在transformer模型中的向量表示：
[0060]
sc＝mlp([u；u
×
v；u-v；v])
[0061]
sc′
＝mlp([u；u
×v′
；u-v
′
；v
′
])
[0062]
其中sc为该节点的语义得分，mlp为多层感知机网络。
[0063]
s202：然后根据二元交叉熵计算负采样的尾实体和正确尾实体的损失
[0064][0065]
s203：将输入的初始化的结构信息嵌入，带入下面公式，得到其结构信息的得分，以及负采样的尾实体的结构得分，其中e
′o是负采样的尾实体的在tucker模型中的向量表示：
[0066]
sd＝w
×1es×2wr×3eo[0067]
sd′
＝w
×1es×2wr×3e
′o[0068]
其中sd为该节点的结构得分，w是tucker分解中的核心张量，wr是关系的向量表示，
×1、
×2、
×3为其中
×n表示张量与矩阵的n模积，即
×1为张量和矩阵的1模积。
[0069]
s204：然后根据岭回归损失计算结构得分和正确尾实体的损失
[0070][0071]
其中，λ为预设的超参数，此处设置为0.5。
[0072]
s205：根据节点的出入度大小，和图谱中所有节点的平均出入度大小，得到该节点的权重系数：
[0073][0074]
其中α为该节点的权重系数，p为该节点的出入度大小，mp为图谱中所有节点的出入度大小的平均值。
[0075]
节点的入度指以该节点为终点的有向边的数量，节点的出度指以该节点为起点的有向边的数量，如图3所示，左侧节点的出度为6，右侧节点的出度为3，那么左侧节点自然包
含了有更多的结构信息，所以赋予更大的结构权重。
[0076]
s206：根据权重系数得到本次训练的损失值，然后进行反向传播，进行模型的参数更新。
[0077]
如图4所示，为步骤s2进行模型损失计算的模型结构图。如图5所示，将计算得到的损失进行反向传播，从而对节点在transformer和tucker模型得到的嵌入表示进行更新。
[0078]
进一步的，步骤s3具体包括：
[0079]
s301：利用训练得到的模型参数，输入模型节点的对应的结构信息和语义信息，即向量u、v、es、r和eo，然后根据s201和s203的公式计算得到输入节点的语义得分sc和结构得分sd。
[0080]
s302：根据s205计算得到的节点的权重系数，根据公式
[0081]
s＝(1-α)rescale(sd) αsc[0082]
其中rescale为归一化操作，计算得到最终得分s。
[0083]
s303：将步骤s302得到的最终得分s输入到一个全连接网络后，得到输入数据属于各个类别的概率，然后输入softmax分类器，得到节点的类别。
[0084]
上述所有可选技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
[0085]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：数据可视化方法、装置、服务器与流程

一种基于结构和语义信息自适应融合的链接预测方法

相关文献

最热文献