一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于图神经网络的医学知识图谱节点重要性评估方法

2022-06-12 02:09:43 来源:中国专利 TAG:


1.本发明属于电子信息领域,是一种基于图神经网络、可应用于医学知识图谱节点重要性评估的方法。


背景技术:

2.知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。对医学领域而言,基于知识图谱强大的语义处理与开放互联能力,能够建立系统且完善的医学知识库,从而提供高效的医学知识检索等服务。目前,医学知识图谱已被应用于医学问答、医学知识搜索以及辅助诊疗系统等多个方面。医学知识图谱的节点重要性评估是知识图谱领域中一项至关重要且具有挑战性的任务,它可以使基于知识图谱的各类医学应用受益,但由于医学知识图谱中既存储了医学数据,又包含了各类医学数据之间的复杂语义关系以及知识图谱的图结构信息,因此很难在同时考虑医学知识图谱中的医学数据、语义关系以及图的拓扑结构三个方面的基础上对图谱中的实体节点做出准确的实体节点重要性评估。现有的医学知识图谱节点重要性评估算法通常是通过概率统计的方法,来对疾病的症状与检查等实体节点的重要程度进行量化,这类方法不能考虑医学知识图谱的拓扑结构与边的类型对实体节点重要性的影响。另一方面,这类算法不涉及基于真值优化的可学习参数。因此,现有的医学知识图谱节点重要性评估算法在拟合能力和预测准确度两个方面仍然有很大的提升与改进空间。
3.为了克服同时结合医学知识图谱中医学数据、复杂语义关系以及图结构信息这三方面信息对实体节点进行重要性评估存在的困难,并针对现有医学知识图谱节点重要性评估方法中存在的未考虑图谱拓扑结构与边的类型以及未包含可学习参数等问题,本发明引入了图神经网络(graph neural network),构建了基于图神经网络的医学知识图谱节点重要性评估算法,实现了对医学知识图谱中实体节点重要性的准确定量评估。


技术实现要素:

4.本文针对现有的医学知识图谱节点重要性评估方法不能同时考虑医学知识图谱的拓扑结构、边的类型以及未涉及可学习参数的问题,引入图神经网络gnn构造医学知识图谱节点重要性评估模型(gnn for estimating medical node importance,gmeni),实现对医学知识图谱中节点重要性的全面且准确的评估。本发明涉及如下4点:
5.(1)引入了一个医学实体分数聚合模块,从而直接对医学知识图谱中相邻实体节点重要性之间的关系进行建模;
6.(2)引入了医学谓词感知注意力机制,从而考虑了医学知识图谱中实体节点之间边的类型对节点重要性的影响;
7.(3)引入中心性调整机制,从而考虑了实体节点的中心性对其实体节点重要性的影响;
8.(4)构建2型糖尿病知识图谱,并对节点重要性评估模型进行了训练和验证;实验
证明,基于gnn的节点重要性评估模型可以准确地对节点重要性进行评估,准确率达94%,同时全面地考虑了知识图谱的拓扑结构、边的类型以及实体节点的中心性对其重要性的影响。
9.本发明核心算法
10.(1)医学实体分数聚合
11.图(graph,g)是由顶点的有穷非空集合和顶点之间边的集合组成的,图通常表示为:g(v,e),其中,v是图g中顶点的集合,e是图g中边的结合。对一个有n个节点,m条边的图g,在一个共有l层的图神经网络中,依照公式(1),图神经网络第l(l=1,

,l)层从第(l-1)层接收g的每个节点i(i=1,

,n)的特征向量并通过对节点i不同的邻域节点j(j=1,

,n)使用不同的权重来聚合节点i的邻域节点n(i)的特征向量:
[0012][0013]
其中,aggregate是一个由模型定义的聚合函数;transform通过所有节点共享的第l层的参数对节点表征进行非线性转换。
[0014]
在图神经网络的第l层得到邻域节点n(i)的特征向量后,依照公式(2),这些向量将与节点i的特征向量融合,从而被更新至
[0015][0016]
其中,combine是一个将聚合后节点i的邻域表征与节点i自身表征合并的函数。
[0017]
由于更新后的特征向量将成为图神经网络第( 1)层的输入,因此通过l层的重复聚合过程可在学习节点的表征时捕获到该节点的l阶邻居节点。
[0018]
本发明引入了分数聚合模块对医学知识图谱中相邻实体节点间的重要性关系建模。该分数聚合模块将公式(1)中实体节点j的隐藏嵌入表征替换为该节点的分数估计s
l-1
(j),并使用公式(3)得分计算方法替换了公式(2)中的combine操作:
[0019][0020]
其中n(i)表示实体节点i的一阶邻域节点集,是分数聚合模块的第l层(l=1,

,l)中节点i和节点j重要性分数之间的可学习权重,该权重通过一个注意力机制进行训练,该注意力机制是由一个具有共享的谓词嵌入的图神经网络来计算的。分数聚合模块通过对节点i及其邻域节点的中间得分进行加权聚合,计算出实体节点i的聚合总得分s
l
(i)。
[0021]
为了计算初始的节点估计值s0(i),初始分数运算网络会使用输入节点特征。在最简单的情况下,输入节点特征可以是代表每个医学实体节点的独热编码向量。更一般的情况下,输入节点特征是医学知识图谱中患者群体可能出现的临床症状与体征、并发症与病史等实体类的先验概率以及患者群体需要做的实验室检查与神经系统检查等各类检查的
检查概率。假设是实体节点i的输入特征向量,那么分数聚合模块将依照公式(4)计算节点i的初始重要性分数:
[0022][0023]
其中,scoringnetwork代表的初始分数运算网络是一个全连接神经网络。
[0024]
(2)医学谓词感知注意力机制
[0025]
为了将医学知识图谱中的医学谓词类型即实体节点间边的类型对实体节点重要性分数的影响纳入到节点重要性评估的考虑范围内,本发明引入医学谓词感知注意力机制。该机制主要考虑两个因素,一是实体节点之间的谓词类型,因为不同的边的类型在节点分数传播的过程中可以发挥不同的作用。二是在计算节点i对邻域节点j的关注度a
i,j
时考虑了邻域节点j自身的重要性分数。
[0026]
医学谓词感知注意力机制通过使用一个共享的谓词嵌入将医学知识图谱中的边纳入到分数聚合模块的注意力分数运算中,即每个医学谓词由一个预定长度的特征向量所表征,这个表征被分数聚合模块中所有的分数聚合层共享。此外,还在谓词感知注意力机制中引入了谓词嵌入学习,从而以灵活的方式将gmeni的预测性能提升至最高。
[0027]
本发明中的医学谓词感知注意力机制由单层前馈神经网络实现,其可训练参数为一个权重向量在医学知识图谱中,两个节点之间可能有多个不同类型的边,本算法使用表示节点i和j之间的第m条边的谓词,用φ(
·
)表示从谓词到其嵌入的映射。医学知识图谱中两个节点i和j的中间分数之间的关系,以及一个中间谓词的类型都会被由前馈神经网络所实现的注意力层所捕捉,因为注意力层吸收了所有相关信息的串联。注意力层的输出结果首先将通过一个非线性函数σ(
·
)来进行非线性转换,随后通过softmax函数进行标准化。依照公式(5),模型计算第l层的节点i对节点j的注意力分数为:
[0028][0029]
其中,σa是一个非线性函数,是第l层的权重向量,||是连接运算符。是一个可训练参数,其维数等于谓词嵌入向量与s
l
(i)、s
l
(k)(k∈n(i))进行连接运算后的向量维数,以随机初始化的方式进行初始化,中元素的初始化取值范围建议在(0,1)。
[0030]
(3)中心性调整
[0031]
通常的医学知识图谱中,除非图谱中出现了大量重要性较高但中心性较弱的实体节点,否则很自然地认为更位于中心的实体节点会比不太位于中心的节点更加重要。对于一个医学知识图谱,如果在其已知的实体重要性分数与其实体总数相比数量较少的情况下,以及在实体的重要性分数是针对医学知识图谱中多种类型的实体而给出的情况下,合理利用这种先验知识能够有效提高实体重要性预测的准确度。在知识图谱中,通常一个实体节点i的入度d(i)可以表征该节点的中心性与流行度,因此在对节点重要性分数的中心
性调整中,gmeni依据实体节点i的入度来依照公式(6)初步定义该节点的初始中心性c(i)。
[0032]
c(i)=log(d(i) ε)
ꢀꢀꢀ
(6)其中,ε是一个正的常数,其取值通常小于20。
[0033]
此外,gmeni的节点中心性调整算法还充分考虑节点在给定的医学知识图谱的中心性与实体节点重要性分数之间可能存在的差异。因此,在对节点的中心性调整时,gmeni依照公式(7)引入一个缩放系数γ和偏移优化,生成改进后的中心度c
*
(i):
[0034]c*
(i)=γ
·
c(i) β
ꢀꢀꢀ
(7)
[0035]
其中,γ和β是通过网络训练学习得到的用于缩放和偏移的参数。
[0036]
最后,gmeni将对分数聚合模块中最后一层注意力层输出的得分估计值s
l
(i)应用节点的中心性调整,并依照公式(8)通过一个非线性函数σs计算生成实体的重要性分值:
[0037]s*
(i)=σs(c
*(i)·sl
(i))
ꢀꢀꢀ
(8)
[0038]
发明效果
[0039]
本发明构建的gmeni,克服了医学知识图谱的节点重要性评估中未考虑图的拓扑结构、谓词类型以及不包含可学习参数的问题,准确地对医学实体的重要性分数进行了量化评估。本发明为医学问答与医学知识检索等领域提供了技术支持。
[0040]
图1为gmeni网络架构。
[0041]
图2为gmeni核心算法基本架构。
[0042]
图3为通过gmeni对节点重要性分数进行评估前的2型糖尿病知识图谱示例。
[0043]
图4为通过gmeni对节点重要性分数进行评估后的2型糖尿病知识图谱示例。
具体实施方式
[0044]
1)医学实体分数聚合与医学谓词感知注意力机制
[0045]
gmeni的模型架构如图1。gmeni的第一部分由两个初始重要性分数运算网络构成,每个网络由一个全连接神经网络实现。gmeni的第二部分为医学实体分数聚合模块,该模块能够直接对医学知识图谱中相邻实体节点重要性之间的关系进行建模。医学实体分数聚合模块由两个分数聚合层(score aaggregation layer,sa layer)构成,即模块中的医学谓词感知机制由两个sa层实现。对于一个包含n个实体节点与m条边的医学知识图谱g,由于一个sa层汇总了图谱的中心实体节点i(i=1,

,n)直接邻居节点的重要性分数,因此将两层sa层堆叠后便可以汇总更大范围内的重要性分数,即中心节点i的二阶邻接节点分数。其次,gmeni的每个sa层均包含了两个分数聚合头(score aggregation head,sa head),这些sa头相互独立地进行分数聚合运算和注意力分数运算。根据已有经验,使用多个sa头有助于提高模型性能和优化程序的稳定性。
[0046]
设h(h=1,2)是一个sa头的索引编号,h
l
(h
l
=1,2)是第l(l=1,2)层中sa头的数量,我们定义为节点i的重要性评分,该评分由第(l-1)层的第h个sa头或第h个初始重要性分数运算网络运算得出,并输入到第l层的第h个sa头。第l层的第h个sa头将依照公式(9)运算出实体节点i的聚合得分
[0047]
[0048]
其中是由第l层的sa头h计算的节点i和j(j=1,

,n)之间的注意力系数。
[0049]
在第一个sa层中,每个sa头h都从一个独立的初始分数运算网络scoringnetworkh接收节点的输入分数,该网络会计算出输入节点的重要性初始估计值对于第二个sa层,其输入为第一层sa层的输出估计值。由于第l个sa层中的h
l
个sa头会独立地计算出h
l
个节点i的重要性分数估计值,因此分数聚合模块将通过取平均值法对这些分数进行汇总,并将汇总后的分数提供给下一个sa层。上述的scoringnetwork与sa层计算节点i的重要性分数的过程如公式(10)所示:
[0050][0051]
l层的多个sa头以与公式(5)相同的方式计算相邻节点之间的注意力系数,然而它们彼此独立地使用自己的可训练参数们彼此独立地使用自己的可训练参数表示节点i和j之间的第m(m=1,

,m)条边的谓词,φ(
·
)表示从谓词到其嵌入的映射。第l层的sa头依照公式(11)计算相邻实体间的注意力系数:
[0052][0053]
2)中心性调整
[0054]
gmeni会对最后一层sa层的输出结果应用中心性调整操作,为了使最后一层sa层的每个sa头所计算出的重要性分数均能够独立地被放缩和偏移,每个sa头h使用独立的可训练参数γh和βh来对其运算结果进行缩放和偏移。最后一层sa层的第h个sa头依照公式(12)对其计算出的重要性分数进行中心性调整:
[0055][0056]
经过了中心性调整后,依照公式(13),gmeni通过取平均值法对中心性调整后的分数进行最终聚合,并对聚合后的结果应用非线性函数σs进行非线性转换,得到最终的节点i重要性估计值sf(i):
[0057][0058]
其中,非线性函数σs通常采用relu函数(rectified linear unit,relu),gmeni也采用relu函数对聚合后的最终分数进行非线性转换,relu函数的函数表征见公式(14):
[0059]
f(x)=max(0,x) x∈(-∞, ∞)
ꢀꢀꢀ
(14)
[0060]
3)gmeni训练与验证
[0061]
为了验证gmeni的重要性分数评估准确度,本发明构建了2型糖尿病知识图谱,并基于该医学知识图谱自制了实体节点重要性评分数据集。2型糖尿病知识图谱包含疾病、临床症状与体征、实验室检查、神经系统检查、并发症、科室、病史、病患共计8类实体,11类边,实体总量约为11000个,边的总量约为120000条。根据临床症状与体征的出现概率、检查类
实体的检查概率以及病史和并发症类实体的出现概率,确定了257个重要性分数已知的实体节点。图3为进行实体节点重要性评估前的2型糖尿病知识图谱示例。
[0062]
为了评估2型糖尿病知识图谱中全部实体节点的重要性分数,本发明使用公式(14)作为模型训练的损失函数,使用知识图谱中实体节点i(i∈vs)在重要性评分数据集中给定的重要性分数g(i)与gmeni生成的节点i的重要性评估分数s
*
(i)之间的均方误差来训练gmeni:
[0063][0064]
在gmeni的训练过程中,初始分数运算网络scoringnetwork与gmeni的其余模块联合训练。gmeni训练使用的学习率为0.0003,梯度下降算法也采用了adma优化器。累计训练40000步后,后续训练模型的重要性分数评估准确率不再提高,因此本发明在训练40000步后停止。实验证明,gmeni可以准确地对医学知识图谱中实体节点重要性进行评估,准确率达94%,同时全面地考虑了知识图谱的拓扑结构、边的类型以及实体节点的中心性对其重要性的影响。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献