一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于力引导图的关系抽取方法与流程

2021-12-07 21:44:00 来源:中国专利 TAG:


1.本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于力引导图的关系抽取方法。


背景技术:

2.关系抽取被定义为一种从粗糙的非结构化文本信息中抽取结构化数据的一项任务,它在自然语言处理领域是十分重要的。关系抽取在诸多方面被广泛使用,例如文本分类、问答和网络搜索等。
3.对于关系抽取任务来说,一个重要的挑战就是人工标注训练数据的匮乏。针对这个问题,mintz等人提出了远程监督的方法去自动构建训练数据。mintz等人的基本假设是:如果一个实体对(e
h
,e
t
)在知识库中有一个关系r,那么所有关于这一个实体对的句子都会以不同的方式表述关系r。由于同一个实体对之间可能会存在多种关系,所以说远程监督关系抽取是一种多标签的预测任务。
4.在远距离监督的方案实施中的关系之间,往往存在着相关性和互斥性,这种相关关系我们称之为“关系关联”。例如“鹰”的“食物”关系是“兔子”,那么很容易推断出来“鹰”的“捕食对象”关系也是“兔子”,而“种植地”这类与植物相关而非动物相关的关系不是“鹰”和“兔子”之间的关系。远距离监督方法中关系间的这种特性在实施关系抽取中具有重要的意义。比如说当抽取出“中国
”‑
>“首都
”‑
>“北京”,那么我们利用关系关联的特性,很容易就能够推断出来“北京
”ꢀ‑
>“位于
”‑
>“中国”这样的一个三元组。所以,如果在关系抽取过程中考虑到关系之间的关联,那么将会缩小潜在的关系抽取搜索范围,进而改善关系抽取的效果。
5.但是,在学习关系关联方面,已有的方法在学习的每个步骤中仅仅关注了局部的依赖关系,而且现有的方法很难实现全局的优化;因此现有的方法无法精确地描述关系依赖的复杂拓扑结构,而且容易陷入局部最优解当中。对此,一些学者尝试使用模型架构来清晰地表示关系间的依赖和冲突,如马尔科夫逻辑网络和编码器
‑ꢀ
解码器框架:但是根据马尔科夫逻辑网络的特性,它只能考虑到一个小范围内的关系关联信息;而编码器

解码器架构是使用一种序列化的方式来进行关系预测的,只能基于预先定义好的顺序进行。总之,它们都无法完整地塑造出关系关联的全局拓扑结构。另一些方法利用柔性约束的方式来学习关系关联的信息,比如设计损失函数或者用注意力机制,这些方法是通过贪婪机制不断地获得局部的关联性,而忽略了关系之间的全局相关和相斥。


技术实现要素:

6.本发明的目的是克服现有的方法在远程监督关系抽取中对关系关联特性的学习缺陷,使模型能够学习到完整的关系关联从而减少潜在的关系搜索空间。一方面,通过图结构来将关系之间的同现和互斥关系表示出来;另一方面,利用物理学中的“引力”、“斥力”概念,编写相应的计算方法,利用图神经网络,生成关系表示矩阵;另外,利用部分卷积神经网
络pcnn和分段最大池化的方法,生成句包的表示;最后,利用softmax方法将关系表示和句包表示的运算结果分类,进而预测出句包中包含的关系类型。
7.为实现上述目的,本发明提供一种基于力引导图的关系抽取方法,所述方法包括:
8.s1、接收句包和目标实体对(e
h
,e
t
);
9.s2、对语句中单词通过词嵌入构建词向量,为语句构建词向量序列;
10.s3、通过部分卷积神经网络从词向量序列中提取语句特征,然后利用分段最大池化,构建句向量;
11.s4、通过选择注意力机制的方法,构建句包向量;
12.s5、利用关系表示矩阵h与句包向量,通过分类器预测所述实体对在所述句包中所涉及的关系集合。
13.进一步地,所述步骤s2中,词向量包括词嵌入、相对头实体的位置信息和相对尾实体的位置信息。
14.进一步地,所述步骤s3中抽取句子级别的特征表示的步骤包括:
15.s31、采用n
l
个卷积核对进行填充过后的词向量序列进行卷积得到n
l
个特征向量,拼接得到其中n
l
代表句子长度;
16.s32、根据头尾实体e
h
,e
t
的位置,将c
i
分割为三部分{c

i1
,c

i2
,c

i3
};
17.s33、对三部分{c

i1
,c

i2
,c

i3
}分别利用最大池化,得到最终的句子级别的表示:
18.s
i
=[c
i1
;c
i2
;c
i3
]
[0019]
进一步地,所述步骤s4中,句包向量由公式得到,其中表示语句和目标关系的耦合系数。
[0020]
进一步地,所述步骤s5中,关系表示矩阵h的获取方法包括:
[0021]
通过数据集获取关系图;
[0022]
通过关系表示模型获取关系表示矩阵h。
[0023]
进一步地,所述关系表示模型包括引力表示模块和图神经网络,其中,
[0024]
引力表示模块:对于所述关系图中概率性同现的关系,用矩阵m通过频率统计来生成矩阵p表示:
[0025][0026]
其中,n
i
表示关系i出现的次数,矩阵m表示关系图,优选的,设置阈值θ,并定义矩阵当p
i,j
<θ时,
[0027]
图神经网络,用于取得关系嵌入之间的信息传播以及生成关系表示矩阵h:
[0028][0029]
其中表示第l层的关系表示,d表示的是关系嵌入的维度,是权重矩阵,f(*)代表的是非线性函数,所述图神经网络的最终输出为关系表示矩阵h。这种关系表示的方式能够使该关系抽取方法性能优于其他模型;且作为单独一个模块给其他模型使用时,能够提升相应模型的表现。
[0030]
进一步地,所述关系表示模型还包括斥力表示模块,在斥力表示模块中定义矩阵u:
[0031][0032]
定义相似度值ξ
i,j
来表示关系i和j之间的相似关系,计算全部关系间的斥力。
[0033]
8.根据权利要求7所述的方法,其特征在于,所述相似度ξ
i,j
的计算方法为:
[0034][0035]
所述斥力ω通过下式计算得出:
[0036]
ω=sum(hh
t
*u)
[0037]
其中,*运算指的是元素间的相乘运算;优选的,ω被缩小为:
[0038][0039]
将ω作为目标损失函数的惩罚项。
[0040]
进一步地,所述词嵌入、部分卷积神经网络、关系表示模型、分类器共同训练,目标损失函数根据斥力定义为:
[0041][0042]
其中,λ是调和因子,调和前一项和后一项,ω即为斥力惩罚项;r
i
表示句包中预测出来的关系;θ表示词嵌入、部分卷积神经网络、关系表示模型的所有参数。 p(r
i
|b,θ)为分类器预测出的概率值。
[0043]
进一步地,所述步骤s5中,关系预测的步骤包括:
[0044]
计算关系表示矩阵h与句包向量的点积:
[0045]
o=b
t
h
[0046]
分类器采用softmax方法,计算句包针对每一个关系的概率,然后选择概率大于阈值的关系作为句包涉及的关系,计算公式为:
[0047][0048]
本发明提供的一种关系抽取的方法及系统,与现有远程监督关系抽取方法及系统相比,具有如下有益效果:
[0049]
1、能够引入物理学中的引力,捕捉并考虑到现有远程监督关系抽取方法及系统没有捕捉到或者没有完全考虑到的全局关系关联并将其表示出来。并且当关系表示模型单独作为一个模块与其他关系抽取模型融合时,能使相应关系抽取模型性能得到提升。
[0050]
2、通过全局的关系关联,能够缩小关系预测步骤中的潜在搜索空间,提高关系预测的效率。在纽约时报(nyt)数据集上取得了比相同功能的模型更好的效果。
[0051]
3、通过采用分段最大池化的方法,减少了矩阵维度,而且能够捕捉到句子级别的语义和位置信息。
[0052]
4、通过加入物理学中斥力的概念作为惩罚项,提高了训练效率,使得模型更容易
地生成关系表示矩阵以及更好地对关系进行预测。
附图说明
[0053]
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
[0054]
图1为本发明的处理远程监督关系抽取方法的流程图;
[0055]
图2为本发明的特征图谱生成的方法流程图;
[0056]
图3为本发明的句向量生成的方法流程图;
[0057]
图4为句包向量的生成方法流程图;
[0058]
图5为引力的模拟表示流程图;
[0059]
图6为斥力的模拟表示流程图;
[0060]
图7为本系统与相似功能系统的效果(准确率

召回率曲线)对比图。
具体实施方式
[0061]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0062]
下面结合附图和具体实施方式对本发明作进一步说明。
[0063]
本发明提供一种远程监督的关系抽取方法,如图1所示,该方法包括如下步骤:
[0064]
s1、接收句包和目标实体对(e
h
,e
t
);
[0065]
s2、通过词嵌入为语句中单词构建词向量,为语句构建词向量序列;
[0066]
s3、通过部分卷积神经网络从词向量序列中提取语句特征,然后利用分段最大池化,构建句向量;
[0067]
s4、通过选择注意力机制的方法,构建句包向量;
[0068]
s5、利用关系表示矩阵和句包向量预测并输出目标实体对在句包中所涉及的关系集合集合其中为给定的所有关系的集合。
[0069]
步骤2中,词嵌入的方法为现有方法的改造,改造之处在于构建的词向量包括相对头尾实体的位置信息,目的是让神经网络能够通过位置信息来判断该词对最终结果的影响,进而提升模型效果。词嵌入中的参数部分和后文涉及的图神经网络、关系表示模型、分类器共同训练获得。
[0070]
构建词向量的具体过程如下:
[0071]
(1)将每一个单词通过常规嵌入,生成连续值向量w
i

[0072]
(2)计算出该词与目标实体对(e
h
,e
t
)中头、尾实体的相对位置;例如,在句子“北京是中国的首都”这句话中,“是”相对于“北京”的位置就是1,相对于“中国”的位置就是

1。
[0073]
(3)通过查找随机初始化的嵌入矩阵,将整型的位置信息转化为实值的嵌入,并表
示为位置嵌入的目的,是将整形的、范围较小的整型数据变为与词嵌入生成的向量相同范围的向量,以便能够将其输入神经网络。
[0074]
(4)单词的向量表示x
i
为:
[0075][0076]
在步骤3中采用了部分卷积(pcnn)和分段最大池化的方法构建句向量,使用部分卷积的目的是从单词级别的信息抽取出句子级别的特征,分段最大池化的目的是按照头实体和尾实体的位置信息,分段捕捉该部分的特征信息,如图2和图3所示。
[0077]
构建句向量的具体过程如下:
[0078]
(1)定义句子其中n
l
表示句子长度。w表示卷积所用的核,t表示w的大小,x
i:j
表示从x
i
到x
j
所拼接成的矩阵,那么对句子进行卷积得到序列c
i

[0079]
c
i
=wx
i

t 1:i
[0080]
原本的c
i
数量应该是n
l

t 1个,但是在关系抽取模型中,每个句子经过填充元素的填充,所以c
i
数量是n
l
个,数量与句子长度相同。经过卷积之后,得到一个特征图
[0081]
(2)利用实体对(e
h
,e
t
)的位置,将每一个特征图c
i
切分成为三部分 {c
i1
,c
i2
,c
i3
}。
[0082]
(3)对切分完成的特征图进行部分最大池化,这里的“部分”指的是对上一步切分出来的三个部分分别进行最大池化,最后得到句子s
i
的向量表示:
[0083]
s
i
=[c
i1
;c
i2
;c
i3
]
[0084]
在步骤4中,采用注意力机制来对句包中的句子进行压缩,得到句包向量的表示,如图4所示。这里的注意力方法主要指的是加权求和,具体每一项的权重如下列式子所示:
[0085][0086]
其中是前面计算出来的句子表示的转置,h
r
指的是关系r的表示向量。在这里α
j
代表的是第j个句子与关系r的相关关系,是句子和目标关系的耦合系数,本发明中直接使用了点积的方式来进行计算。意思就是第j个句子与关系r的相关性越大,他们之间的距离也就越近,所以点积也就越大。句包向量表示为:
[0087][0088]
在步骤5中,利用基于力引导图的关系表示模型,生成关系表示矩阵是本发明的特点所在,关系表示模型利用关系图,经过一定的预算和加权,并引入物理学中的“引力”概念来进行计算,引入物理学中“斥力”的概念来构建惩罚系数,从而进行训练。
[0089]
关系表示矩阵h表示关系间的关联,由关系图经过关系表示模型计算生成。
[0090]
关系图可以通过数据集中的数据获得或生成。关系图m是k
×
k的矩阵(k代表关系的数目),由0、1组成,m
i,j
=1代表关系i和关系j之间在数据集中有同现关系。
[0091]
关系表示模型即为“基于力引导图的关系表示模型”,其功能是通过物理学中引力和斥力的概念,计算出全局的关系表示矩阵h,h的每一列都代表一个关系的嵌入。关系表示模型包括引力表示模块、l层的图神经网络和斥力表示模块。
[0092]
(1)引力表示模块:如图5所示,用于对于关系图中概率性同现的关系,用矩阵m通过频率统计来生成矩阵p表示:
[0093][0094]
其中,n
i
表示关系i出现的次数。设置阈值θ,并定义矩阵当p
i,j
<θ时,
[0095]
(2)l层的图神经网络,用于捕获关系嵌入之间的信息传播:
[0096][0097]
其中表示第l层的关系表示,d表示的是关系嵌入的维度。是权重矩阵,而f(*)代表的是非线性函数,例如relu函数。这个神经网络最终的输出就是关系表示矩阵h。通过这种方式生成的关系表示矩阵h能够有效地表现出关系之间全局的依赖关系,显著提高了关系抽取的效率,在nyt数据集上的实验表明,这种方式能够超越功能相同的其他模型。此外,实验部分表明,将关系表示模型独立出来,单独用于其他模型上替换掉其关系嵌入部分时,本发明均能够改善其他各个模型的性能。
[0098]
(3)斥力表示模块:如图6所示,斥力的作用是表现关系之间的排斥关系,用来构建惩罚项,用以组成损失函数的一部分。关系间的互相排斥关系可以分为狭义的排斥和广义的排斥,狭义的排斥指的是逻辑上根本不能共存的关系,比如“是

的父亲”和“是

的兄弟”;而广义的排斥指的是这两个关系一般来说不会在同一时间出现,比如说“出生于”和“位于”(指建筑或城市)。由于本发明是为了减少关系抽取中的潜在搜索范围,所以关心的是关系间的广义性排斥。定义矩阵u:
[0099][0100]
定义相似度值ξ
i,j
来表示关系i和j之间的相似关系,ξ
i,j
的计算方法为:
[0101][0102]
即两个关系嵌入的点积运算。之后,全部关系间的斥力ω通过下式计算得出:
[0103]
ω=sum(hh
t
*u)
[0104]
其中,*运算指的是元素间的相乘运算。但是由于ω过大,所以将其缩小为:
[0105][0106]
这样一来,将ω作为词嵌入、部分神经网络、关系表示模型的目标损失函数的惩罚项,借此表示关系之间的“斥力”。
[0107]
在步骤5中,通过关系表示矩阵h与句包向量b相乘,得到输出值o(注:有偏置值,但是为了方便起见被忽略):
[0108]
o=b
t
h
[0109]
对于这个输出值o,使用本发明的分类器进行预测,分类器采用了softmax的方式,具体的计算公式如下,这里,b,θ的意义与前面损失函数中的一致。
[0110][0111]
由此计算句包中包含所有关系的概率值,完成预测。
[0112]
本方面所用的词嵌入、部分神经网络、关系表示模型中的参数可以通过数据集的训练集部分进行训练,具体的训练方法就是对训练集执行步骤s1

s5,将分类器的输出与数据集中真实关系进行对比,从而调整并获得词嵌入、部分神经网络、关系表示模型中的参数。训练的过程属于现有技术,不再赘述,但训练时使用的损失函数是本发明的特点之一,采用本发明的损失函数,利用了斥力的概念作为惩罚项,能够让模型更快地收敛。损失函数根据斥力定义为:
[0113][0114]
其中,λ是调和因子,调和前一项和后一项,ω即为前文中的斥力惩罚项;r
i
表示句包中预测出来的关系;θ表示词嵌入、部分卷积神经网络、关系表示模型所有的参数。p(r
i
|b,θ)为分类器预测出的概率值。
[0115]
下面通过实验对本发明的效能做进一步的说明。
[0116]
本实验所用的数据集是纽约时报(nyt)数据集,在远程监督的关系抽取问题上这是一个被广泛使用的数据集。但是这个数据集有个缺点就是它的训练集和测试集有重叠部分,所以在本模型中我们使用的是筛选过的nyt数据集,包含约52万训练语句和约17.2万测试语句。且在数据集中共有53个不同的关系(包含“无关系”关系)。
[0117]
模型的参数信息统计表如表1所示:
[0118]
表1训练参数设置
[0119][0120][0121]
实验对比部分分为两部分,第一部分是我们的发明作为一个模块与其他模型进行
结合的实验结果,第二部分是我们的模型与其他的远程监督关系抽取模型的对比实验。
[0122]
当作为一个模块工作的时候,我们的发明仅挑出“力引导的关系图”(fdg)部分,即关系表示矩阵的计算部分,来与其他的模型进行融合,从而得出结果。
[0123]
我们挑选了pcnn one、pcnn att、pcnn wn三个模型来作为基线模型,配合我们的力引导图关系表示模块来进行实验,实验结果如表2所示:
[0124]
表2:不同基线模型配合本发明前后的实验结果
[0125][0126]
可以看出,与本模型融合之后,相应的基线模型的效率均有提高。这是因为尽管这些模型的功能都很强大,但是它们都忽略了关系间的全局相吸或相斥关系。这个实验也说明,在远程监督关系抽取中考虑关系关联是十分有用的,它能够显著减少潜在的搜索空间,并提高关系预测的表现。
[0127]
接下来的部分,我们将本发明与远程监督关系抽取领域著名的模型进行对比实验,我们挑选了mimlcnn、rank exatt、memory和partialmax iq att四个模型来进行对比,实验结果如表3所示:
[0128]
表3:本模型与相似功能模型对比
[0129][0130]
另外,在准确率

召回率的表现上,本模型也优于其他模型,如图7所示。
[0131]
本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献