一种基于共享语义空间的远程监督关系抽取方法与流程

2022-04-06 22:41:19 来源：中国专利 TAG：

1.本发明涉及自然语言处理领域，具体涉及一种基于共享语义空间的远程监督关系抽取方法。

背景技术：

2.关系抽取是自然语言处理领域一个热点研究方向，目前关系抽取任务普遍存在标注语料不足、语料质量低等情况。利用远程监督技术可以有效解决语料标注问题。但是，使用远程监督标注的语料存在标注错误、数据噪声大等问题。尤其对于复杂关系，如一对实体存在多种关系的情况，语义漂移严重，数据噪声严重影响了关系抽取的结果。在现有技术中，大多数方法使用分段卷积的方式降低数据噪声的影响。例如，一个句子按两个实体切分为前、中、后三部分，然后通过分段池化的方式获得实体对在句子中的结构信息，进而缓解数据噪声的影响。然而上述的方法主要存在两个问题：(1)没有考虑到对存在复杂关系的数据进行重点去噪；(2)笼统对数据集中所有数据去噪，没有对含噪声和不含噪的数据分别建模。上述两个问题是造成远程监督关系抽取结果精度不高的重要原因。

技术实现要素：

3.本发明的目的在于提出一种基于共享语义空间的远程监督关系抽取方法，以解决传统的远程监督关系抽取在处理复杂关系时，存在的语义漂移严重、数据噪声大等问题。
4.实现本发明目的的技术解决方案为：一种基于共享语义空间的远程监督关系抽取方法，包括下列步骤：
5.步骤1.数据集划分
6.对远程监督标注的数据进行划分，如果实体对在整个数据集中仅存在唯一一种关系，那么将包含该实体对的句子划分为不含噪数据集；如果实体对在整个数据集中存在多种关系，那么将包含该实体对的句子划分为含噪声数据集；
7.步骤2.提取句子中实体对特征
8.将句子的句向量和实体对的位置向量拼接作为bilstm网络的输入向量，分别提取含噪声数据集和不含噪数据集中的实体对特征；
9.步骤3.构建实体对和关系类型的共享语义空间
10.将bilstm网络输出的实体对特征和关系类型表征映射到同一语义空间中；
11.步骤4.学习共享语义空间映射矩阵
12.统计两个关系类型共有的实体类别数量，计算关系类型间的相关度，根据假设1“不含噪数据集中句子实体对与真实关系类型之间的相似度大于和其他关系类型之间的相似度”和假设2“含噪声数据集中实体对与候选关系类型之间的相似度大于和其他非候选关系类型之间的相似度”对不含噪数据集和含噪声数据集分别建模，学习实体对映射矩阵和关系类型映射矩阵；
13.步骤5.关系抽取
14.提取句子中实体对特征，将实体对和关系类型通过学习到的映射矩阵映射到共享语义空间，计算实体对和关系类型的相似度得分，得分最高的关系类型为该实体对的关系。
15.进一步的，步骤1中，数据集之间的关系表示为：
16.s＝sc∪snꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
17.其中，sc表示不含噪数据集，sn表示含噪声数据集，s表示远程监督标注的数据结果。
18.进一步的，步骤2中，位置向量是指句子中每个词与两个实体的位置距离的向量化表示。
19.进一步的，步骤3中，将句子中实体对特征向量映射在共享语义空间中的公式是：
20.φm(mi)＝umiꢀꢀꢀꢀꢀꢀꢀ
(2)
21.将关系类型向量映射到共享语义空间中的公式是：
22.φy(yk)＝vykꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
23.其中，u和v分别表示共享语义空间中句子实体对特征向量和关系类型向量的映射矩阵，mi表示第i个实体对特征的向量表示，yk表示第k个关系类型的向量表示，φm(.)和φy(.)分别表示实体对特征和关系类型的映射函数。
24.进一步的，步骤4中，学习共享语义空间映射矩阵的具体方法为：
25.1)计算关系类型间的相关度，公式是：
26.w
kk`
＝(|εk∩ε
k`
|/|εk| |εk∩ε
k`
|/|ε
k`
|)/2
ꢀꢀꢀꢀꢀꢀꢀ
(4)
27.其中，w
kk`
表示不同关系类型的相关度，εk和ε
k`
表示不同关系类型所包含的实体类型集合，下标k表示第k个关系类型；
28.2)对不含噪数据集和含噪声数据集分别建模，学习语义空间中初始化的实体对映射矩阵和关系类型映射矩阵；
29.共享语义空间中，句子的实体对和关系类型的相似度计算公式是：
30.fk(mi)＝m
itut
vykꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
31.其中，fk(mi)代表第i个实体对和第k个关系类型的相似度，u和v分别表示共享语义空间中句子实体对特征向量和关系类型向量的映射矩阵，mi表示第个i实体对特征的向量表示，yk表示第k个关系类型的向量表示；
32.根据假设1：“句子实体对与真实关系类型之间的相似度大于和其他关系类型之间的相似度”对不含噪数据集建模，损失函数是：
[0033][0034]
其中，s代表softmax函数，yi表示第i个真实关系类型，表示第k个其他关系类型，fk(mi)表示实体对与真实关系类型之间的相似度，实体对与其他关系类型之间的相似度，mi表示实体对，表示关系类型之间的相关性距离，公式表示是：
[0035][0036]
其中，为随机系数；
[0037]
根据假设2：“含噪声数据集中实体对与候选关系类型之间的相似度大于和其他非候选关系类型之间的相似度”对含噪声数据集建模，损失函数是：
[0038][0039]
其中，表示候选关系类型中，实体对和关系类型相似度得分最高的关系类型。
[0040]
进一步的，步骤5中，句子关系抽取的模型表示是：
[0041][0042]
其中，y
k*
代表抽取的关系类型，y代表关系类型集合，fk(mi)代表第i个实体对和第k个关系类型的相似度，mi表示第个i实体对特征的向量表示，yk表示第k个关系类型的向量表示。
[0043]
一种基于共享语义空间的远程监督关系抽取系统，基于所述的基于共享语义空间的远程监督关系抽取方法，实现基于共享语义空间的远程监督关系抽取。
[0044]
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的基于共享语义空间的远程监督关系抽取方法，实现基于共享语义空间的远程监督关系抽取。
[0045]
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的基于共享语义空间的远程监督关系抽取方法，实现基于共享语义空间的远程监督关系抽取。
[0046]
本发明与现有技术相比，其显著优点为：1)采用了共享语义空间进行含噪数据的关系抽取，该方法将实体对特征和关系类型映射到同一语义空间，建立了实体对语义信息和关系类型的关联程度，有效降低了含噪数据对关系抽取结果的影响；2)采用了关系类型相关性度量系数，可以在一定程度上对抽取的关系类型进行约束，从而提高关系抽取结果的精确度；3)采用了不含噪数据集和含噪声数据集分别建模的方式，避免了含噪数据对不含噪数据语料的关系抽取影响。
附图说明
[0047]
图1是本发明一种基于共享语义空间的远程监督关系抽取方法的流程图。
具体实施方式
[0048]
为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
[0049]
如图1所示，一种基于共享语义空间的远程监督关系抽取方法，包括：
[0050]
步骤1.划分通过远程监督标注的数据结果。使用远程监督标注的数据结果中，可能会存在一对实体标注多种关系的情况，把实体对只标注了一种关系的数据划分为不含噪数据集；把实体对标注了多种关系的数据划分为含噪声数据集。
[0051]
s＝sc∪snꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0052]
其中，sc表示不含噪数据集，sn表示含噪声数据集，s表示远程监督标注的数据结果。
[0053]
步骤2.提取语料中实体对特征。使用bilstm网络提取句子中实体对特征，网络的输入采用句向量和位置向量的拼接，其中位置向量是指句子中每个词与两个实体的位置距离的向量化表示。
[0054]
步骤3.构建实体对和关系类型的共享语义空间。实体对特征向量和关系类型的向量表示分别为mi和yk，句子中实体对特征向量映射在共享语义空间中的公式是：
[0055]
φm(mi)＝umiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0056]
关系类型向量映射到共享语义空间中的公式是：
[0057]
φy(yk)＝vykꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0058]
其中，u和v分别表示共享语义空间中句子实体对特征向量和关系类型向量的映射矩阵，i代表第个i实体对，k代表第k个关系类型，m代表实体对集合，y代表关系类型集合。
[0059]
步骤4.学习共享语义空间映射矩阵。
[0060]
1)计算关系类型间的相关度。通过开源知识库freebase，统计不同关系类型共有的实体类型的数量，计算关系类型间的相关性公式是：
[0061]wkk`
＝(|εk∩ε
k`
|/|εk| |εk∩ε
k`
|/|ε
k`
|)/2
ꢀꢀꢀꢀ
(4)
[0062]
其中，为εk和ε
k`
表示不同关系类型所包含的实体类型集合，k表示第k个关系类型，两个关系共有的实体类型越多，则越相似。
[0063]
2)对不含噪数据集和含噪声数据集分别建模，学习语义空间中初始化的实体对映射矩阵和关系类型映射矩阵。
[0064]
共享语义空间中，句子的实体对和关系类型的相似度计算公式是：
[0065]fk
(mi)＝m
itut
vykꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0066]
根据假设1：“句子实体对与真实关系类型之间的相似度大于和其他关系类型之间的相似度”对不含噪数据集建模，损失函数是：
[0067][0068]
其中，s代表softmax函数，yi表示第i个真实关系类型，表示第k个其他关系类型，fk(mi)表示实体对与真实关系类型之间的相似度，实体对与其他关系类型之间的相似度，mi表示实体对，表示关系类型之间的相关性距离，公式表示是：
[0069][0070]
其中，w
kk`
代表不同关系之间的相关性，为随机系数。
[0071]
根据假设2：“含噪声数据集中实体对与候选关系类型之间的相似度大于和其他非候选关系类型之间的相似度”对含噪声数据集建模，损失函数是：
[0072]
0.067728
ꢀ‑
0.053001
ꢀ‑
0.016407 0.054860]。
[0084]
步骤2.根据学习到的实体对映射矩阵u和关系类型映射矩阵v将实体对特征和关系类型映射到同一个语义空间。将实体对特征射到语义空间表示为[0.174329 0.119841 0.063231 0.205474 0.214166 0.184942 0.425125 0.263568 0.063927 0.046808 0.132366 0.579423 0.004075 0.326017 0.062847 0.291170 0.256007 0.183160 0.122336 0.108601]；将关系类型映射到语义空间分别表示为[0.109005 0.293736 0.041128 0.280210 0.204642 0.017830 0.425420 0.007375 0.002672 0.294175 0.269443 0.158977 0.096397 0.114196 0.280676 0.093720 0.047810 0.202099 0.053905 0.017911]、[0.030103 0.225203 0.269126 0.018275 0.049839 0.064108 0.057102 0.017911 0.288971 0.054805 0.018620 0.046796 0.178140 0.111755 0.080138 0.1616230.123392 0.102861 0.059298 0.414017]、[0.069387 0.263868 0.027413 0.045209 0.017854 0.181368 0.118309 0.043782 0.173138 0.134400 0.009886 0.100458 0.022064 0.072146 0.207590 0.0324870.439067 0.468115 0.366526 0.082677]
[0085]
步骤3.计算实体对和关系类型[capital founders nationality]的相似度结果为[0.79 0.80 0.87]，选取相似度最大值0.87对应的nationality为该句中两个实体的关系。
[0086]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0087]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种三维光子桥接路径的设计方法与流程

一种基于共享语义空间的远程监督关系抽取方法与流程

相关文献

最热文献