对长文本友好的知识图谱表示学习方法与流程

2021-12-07 21:32:00 来源：中国专利 TAG：

1.本发明涉及对长文本友好的知识图谱表示学习方法。

背景技术：

2.知识图谱因其强大的语义表达能力而受到学术界和工业界的广泛关注，并已广泛应用于诸如问题解答系统和网络搜索等领域。为了解决计算效率低和数据稀疏的问题，知识表示学习技术受到了广泛的关注。其主要目标是将知识图谱中的实体和关系表示到低维稠密的实值向量空间中，进而在低维空间中提高计算实体、关系及其之间的复杂语义计算的效率。
3.为了解决大规模知识库使用中的数据稀疏和计算开销大的问题，知识表示学习技术被广泛关注。然而，大部分已有的表示学习模型仅利用知识库中的结构信息，无法很好地处理新的实体或者关联事实极少的实体；为解决该问题，一些工作开始引入文本信息来改善知识表示；然而，之前的模型大都仅考虑到实体描述信息，忽略了实体间的关系提及信息和文本句子间、词与词之间包含的丰富语义信息。

技术实现要素：

4.本发明的目的是提供对长文本友好的知识图谱表示学习方法，解决了现有学习模型仅利用知识库中的结构信息，无法很好地处理新的实体或者关联事实极少的实体的问题。
5.为了实现上述目的，本发明采用了如下技术方案：
6.对长文本友好的知识图谱表示学习方法，其特征在于，包括如下步骤：
7.步骤一：长文本友好的文本信息抽取；
8.1)针对三元组(h,r,t)的关系r，通过从语料库中抽取同时包含三元组中头实体h、尾实体t的全部句子，作为候选关系提及；
9.2)通过向量空间模型来计算其相似性，假设m表示候选关系提及集，r是对应的关系集，v
m
代表提及集的空间向量表示，v
r
代表关系集的向量表示，然后可以用余弦距离表示两者之间的相似度；计算方法如公式1所示：
[0010][0011]
3)在语义级别上对相似性进行进一步过滤，将cnn和skip
‑
gram联合起来，来对语义向量中的候选关系提及句子进行建模，使用两个并行的cnn模型来学习候选关系中提到的句子的向量表示，并使用平均词嵌入方法来学习该关系的向量表示；通过公式2计算两者之间的相似性；如果相似度超过设置的阈值ε，则将该句子作为关系的确切文本提及
[0012]
sim(m,r)＝cos(v
m
,v
r
)
ꢀꢀ
(2)；
[0013]
步骤二：bcrl的文本表示模型；
[0014]
1)本文标识模型的总体框架：首先由bert模型生成句子序列向量，然后将这些句
子级别的特征向量输入到卷积神经网络中以形成最终的整体文本向量；此外，将注意力机制和位置编码添加到cnn中，以进一步丰富实体描述的文本表示形式；
[0015]
2)使用基于关系的注意力机制来获得实体文本表示：公式3给出实体描述的基于关系的注意力机制；假设卷积层的输出为q，则将基于关系的注意力机制的输出定义为可以将其用作池化层的输入；
[0016]
α(r)＝softmax(v
1:n
r
d
)
ꢀꢀ
(3)；
[0017]
3)实体文本表示中的句子层位置编码：将句子位置编码为位置向量γ
i
，然后通过加法将句子向量v
i
组合成新的向量c
i
；采用vaswani提出的方法计算位置向量γ
i
，如公式4和公式5所示，γ
i
是使用不同频率的位置pos上的正弦和余弦函数生成的；pos对应于输入位置，d是位置向量的维数；
[0018]
γ(pos,2i)＝sinpos/10000
2i/d
ꢀꢀ
(4)
[0019]
r(pos,2i 1)＝cospos/10000
2i/d
ꢀꢀ
(5)
[0020]
给定一个句子序列向量v1：n＝v1,
…
,v
n
，其位置向量γ1：
n
＝(γ1,
…
,γ
n
)，添加位置信息后cnn的新输入为c
1：n
＝(v1 γ1,
…
,v
n
γ
n
)；
[0021]
步骤三：基于transe的结构化表示，给定一个三元组(头实体，关系，尾实体)，将其表示为(h，r，t)，三元组(h，r，t)的对应向量表示为(h，r，t)；transe旨在将实体和关系表示为低维连续向量；合法的三元组向量应满足公式h r≈t，而错误的三元组不满足；因此，transe定义了以下得分函数来测量三元组的质量，如公式6所示；
[0022][0023]
公式6是向量h r与t之间的l1或l2距离；对于合理的得分函数，合法三元组的得分低于错误三元组的得分；
[0024]
步骤四：结构
‑
文本联合标识：采用xu等提出的门机制来融合从transe中学习的结构信息和文本信息，即将联合表示vj当作结构表示v
s
和文本表示v
d
加权求和的结果；联合表示的定义如公式7、8所示；其中，g
s
和g
d
是平衡两种信息源的门，
⊙
为元素乘法；
[0025]
v
j
＝g
s
⊙
v
s
g
d
⊙
v
d
ꢀꢀ
(7)
[0026]
s.t.g
d
＝1
‑
g
s
；g
s
,g
d
∈[0,1]
ꢀꢀ
(8)。
[0027]
步骤五：模型训练：根据transe，采用最大间隔方法用于训练模型；公式9给出了三元组(h，r，t)的损失函数，其中f是模型的得分函数，γ>0是正例、负例之间的区间距离，d知识图谱中有效三元组集合，是不在知识图谱中的无效三元组的集合；
[0028][0029]
将关系按照两端连接实体的数目分为1
‑
1、1
‑
n、n
‑
1以及n
‑
n四种不同类型，若是1
‑
n关系增大替换头实体的机会，若是n
‑
1关系则增大替换尾实体的机会，这样能有效提升模型训练效果；对于每一个三元组一个有效三元组(h,r,t)相应的无效三元组定义为
[0030]
作为上述技术方案的进一步描述：
[0031]
步骤一中3)：该模型使用skip
‑
gram模型基于上文的语料库获得关系提及的句子的单词嵌入；在卷积层中使用窗口大小分别为1和2的卷积核，以提取具有不同粒度的局部特征，以最大程度地利用信息；在本文中，卷积层使用relu激活函数，卷积层之后的池化层用于选择各种语义组合，提取主要特征并将可变长度输入更改为固定长度输出；池化层采用最大池化操作，并在每个窗口中选择输入向量的最强值以形成一个新向量；池化操作之后的输出将通过dropout层；dropout以一定的概率将池化层提取的每个特征设置为0；避免由于模型过度依赖某些特征而导致的过度拟合，之后全连接层对提取的主要特征进行非线性重组，以获得输入的提及句子的语义向量表示。
[0032]
作为上述技术方案的进一步描述：
[0033]
步骤二1)中：bert模型的输入是一系列预处理句子d，其中序列长度为n，每个句子包含m个单词，因此，输入定义为d1:n＝d1，d2，
…
，d
n
。其中d
i
∈d
m
表示实体描述文本的第i个句子的m个词。对于句子序列d，为了防止文本处理中的过拟合问题，选择尺寸为768的倒数第二层的输出值作为输出句子向量v；
[0034]
cnn卷积层的输入是前一个bert获得的n个句子向量v，其中每个句子维度为768；卷积层使用大小为j的滑动窗口对这n个句子向量执行卷积运算，然后输出特征图q；由滑动窗口处理的句子向量序列被定义为v
i:i j
‑1＝v
i
，v
i 1
，
…
，v
i j
‑1；卷积后第i个输出特征向量由公式10给出，其中w∈r
j
×
m
是过滤器，b∈r是偏置项，f是激活函数；本文选择relu作为激活函数；
[0035]
q
i
＝f(w
·
v
i,i j
‑1 b)
ꢀꢀ
(10)
[0036]
这里用到了k
‑
max pooling，即为每个窗口中的输入向量选择前k个最大值以形成一个新向量；可以使用公式11计算窗口大小为n
p
的池化层输出的第i个向量；当过滤器的数量为l时，池化层的输出为p＝[p1,
…
,p
l
]；
[0037][0038]
该模型还提供了一个在bernoulli过程中工作的dropout层，以进一步防止过拟合；如公式12所示，dropout层的输出为其中向量的概率为ρ；
[0039][0040]
公式13定义了cnn全连接层的输出，其中w
o
是参数矩阵，而b
o
是可选的偏置项；
[0041][0042]
作为上述技术方案的进一步描述：
[0043]
步骤四中：门g定义为其中是存储在查找表中的实值向量，服从均匀分布；这里采用softmax函数将门控制的值约束在[0，1]之间；sigmoid函数也可用于计算门；类似于transe系列模型，结构文本联合表示得分函数的定义如公式14所示；
[0044]
[0045]
本发明至少具备以下有益效果：
[0046]
本文提出了一种文本增强的知识图表示模型bcrl，该模型利用实体描述和关系提及来增强三元组的知识表示。该方法从文本
‑
句子的角度出发，解决了实体描述的不统一、关系提及表示的不准确等问题。实验结果表明，与基于文本信息的模型相比，bcrl能够更有效地捕获文本的语义信息，并且在链路预测任务方面与基准系统相比有显著的改进。
附图说明
[0047]
为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0048]
图1示出了根据本发明实施例提供的语义层相似性计算图；
[0049]
图2示出了根据本发明实施例提供的文本表示模型整体框架图；
[0050]
图3示出了根据本发明实施例提供的卷积神经网络图；
[0051]
图4示出了根据本发明实施例提供的结构
‑
文本联合表示图。
具体实施方式
[0052]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0053]
实施例一
[0054]
参照图1
‑
4，对长文本友好的知识图谱表示学习方法，其特征在于，包括如下步骤：
[0055]
步骤一：长文本友好的文本信息抽取；
[0056]
1)针对三元组(h,r,t)的关系r，通过从语料库中抽取同时包含三元组中头实体h、尾实体t的全部句子，作为候选关系提及，每个实体对应维基百科词条的全部文本信息作为语料库；
[0057]
2)通过向量空间模型来计算其相似性，假设m表示候选关系提及集，r是对应的关系集，vm代表提及集的空间向量表示，vr代表关系集的向量表示；然后可以用余弦距离表示两者之间的相似度；计算方法如公式1所示：
[0058][0059]
3)对相似性进行进一步过滤，将cnn和skip
‑
gram联合起来，来对语义向量中的候选关系提及句子进行建模，向量空间模型可用于计算与关系词嵌入的相似度该模型使用skip
‑
gram模型基于上文的语料库获得关系提及的句子的单词嵌入；在卷积层中使用窗口大小分别为1和2的卷积核，以提取具有不同粒度的局部特征，以最大程度地利用信息；在本文中，卷积层使用relu激活函数，卷积层之后的池化层用于选择各种语义组合，提取主要特征并将可变长度输入更改为固定长度输出；池化层采用最大池化操作，并在每个窗口中选择输入向量的最强值以形成一个新向量；池化操作之后的输出将通过dropout层；dropout以一定的概率将池化层提取的每个特征设置为0；避免由于模型过度依赖某些特征而导致的过度拟合，之后全连接层对提取的主要特征进行非线性重组，以获得输入的提及句子的
语义向量表示；
[0060]
对于关系集，该模型还使用skip
‑
gram模型来获取关系集的词嵌入；然后，本文通过对集合中所有单词嵌入进行平均来获得关系集的向量表示；最后，使用余弦距离来表示关系提及句子和对应关系集之间的语义相似性；假设m表示候选关系提及句子，r是对应的关系集，vm表示参考集的语义向量表示，vr表示关系集的语义向量表示，因此可以通过公式2计算两者之间的相似性；如果相似度超过设置的阈值ε，则将该句子作为关系的确切文本提及；
[0061]
sim(m,r)＝cos(v
m
,v
r
)
ꢀꢀ
(2)。
[0062]
步骤二：bcrl的文本表示模型；
[0063]
1)本文标识模型的总体框架：首先由bert模型生成句子序列向量，然后将这些句子级别的特征向量输入到卷积神经网络中以形成最终的整体文本向量；此外，将注意力机制和位置编码添加到cnn中，以进一步丰富实体描述的文本表示形式；bert模型的输入是一系列预处理句子d，其中序列长度为n，每个句子包含m个单词；因此，输入定义为d1:n＝d1，d2，
…
，d
n
。其中d
i
∈d
m
表示实体描述文本的第i个句子的m个词；对于句子序列d，为了防止文本处理中的过拟合问题，选择尺寸为768的倒数第二层的输出值作为输出句子向量v；
[0064]
cnn卷积层的输入是前一个bert获得的n个句子向量v，其中每个句子维度为768；卷积层使用大小为j的滑动窗口对这n个句子向量执行卷积运算，然后输出特征图q；由滑动窗口处理的句子向量序列被定义为v
i:i j
‑1＝v
i
，v
i 1
，
…
，v
i j
‑1；卷积后第i个输出特征向量由公式10给出，其中w∈r
j
×
m
是过滤器，b∈r是偏置项，f是激活函数；本文选择relu作为激活函数；
[0065]
q
i
＝f(w
·
v
i,i j
‑1 b)
ꢀꢀ
(10)
[0066]
这里用到了k
‑
max pooling，即为每个窗口中的输入向量选择前k个最大值以形成一个新向量；可以使用公式4计算窗口大小为np的池化层输出的第i个向量；当过滤器的数量为l时，池化层的输出为p＝[p1,
…
,p
l
]；
[0067][0068]
该模型还提供了一个在bernoulli过程中工作的dropout层，以进一步防止过拟合；如公式5所示，dropout层的输出为其中向量的概率为ρ；
[0069][0070]
公式6定义了cnn全连接层的输出，其中w
o
是参数矩阵，而bo是可选的偏置项；
[0071][0072]
2)使用基于关系的注意力机制来获得实体文本表示：公式7给出实体描述的基于关系的注意力机制；假设卷积层的输出为q，则将基于关系的注意力机制的输出定义为可以将其用作池化层的输入；
[0073]
α(r)＝softmax(v
1:n
r
d
)
ꢀꢀ
(7)；
[0074]
3)实体文本表示中的句子层位置编码：将句子位置编码为位置向量γ
i
，然后通过
加法将句子向量v
i
组合成新的向量c
i
；采用vaswani提出的方法计算位置向量γ
i
，如公式4和公式5所示，γ
i
是使用不同频率的位置pos上的正弦和余弦函数生成的；pos对应于输入位置，d是位置向量的维数；
[0075]
γ(pos,2i)＝sinpos/10000
2i/d
ꢀꢀ
(4)
[0076]
r(pos,2i 1)＝cospos/10000
2i/d
ꢀꢀ
(5)
[0077]
给定一个句子序列向量v1：n＝v1,
…
,v
n
，其位置向量γ1：
n
＝(γ1,
…
,γ
n
)，添加位置信息后cnn的新输入为c
1：n
＝(v1 γ1,
…
,v
n
γ
n
)；
[0078]
步骤三：基于transe的结构化表示，给定一个三元组(头实体，关系，尾实体)，将其表示为(h，r，t)，三元组(h，r，t)的对应向量表示为(h，r，t)；transe旨在将实体和关系表示为低维连续向量；合法的三元组2量应满足公式h r≈t，而错误的三元组不满足；因此，transe定义了以下得分函数来测量三元组的质量，如公式6所示；
[0079][0080]
公式6是向量h r与t之间的l1或l2距离；对于合理的得分函数，合法三元组的得分低于错误三元组的得分；
[0081]
步骤四：结构
‑
文本联合标识：采用xu等提出的门机制来融合从transe中学习的结构信息和文本信息，即将联合表示vj当作结构表示v
s
和文本表示v
d
加权求和的结果；联合表示的定义如公式7、8所示；其中，g
s
和g
d
是平衡两种信息源的门，
⊙
为元素乘法；
[0082]
v
j
＝g
s
⊙
v
s
g
d
⊙
v
d
ꢀꢀ
(7)
[0083]
s.t.g
d
＝1
‑
g
s
；g
s
,g
d
∈[0,1]
ꢀꢀ
8)；
[0084]
门g定义为其中是存储在查找表中的实值向量，服从均匀分布；这里采用softmax函数将门控制的值约束在[0，1]之间；sigmoid函数也可用于计算门；类似于transe系列模型，结构文本联合表示得分函数的定义如公式13所示；
[0085][0086]
步骤五：模型训练：根据transe，采用最大间隔方法用于训练模型；公式14给出了三元组(h，r，t)的损失函数，其中f是模型的得分函数，γ>0是正例、负例之间的区间距离，d知识图谱中有效三元组集合，是不在知识图谱中的无效三元组的集合；
[0087][0088]
将关系按照两端连接实体的数目分为1
‑
1、1
‑
n、n
‑
1以及n
‑
n四种不同类型，若是1
‑
n关系增大替换头实体的机会，若是n
‑
1关系则增大替换尾实体的机会，这样能有效提升模型训练效果；对于每一个三元组一个有效三元组(h,r,t)相应的无效三元组定义为
[0089]
试验设置：
[0090]
选取的实验数据来自两个基准数据集fb15k和wn185；关于freebase和wordnet的
初始实体描述可以从github6中获得。对于文本语料库，采用英文维基百科数据；为加速收敛，通过现有方法rtranse初始化bcrl的向量和矩阵；设置实体/关系向量维度d∈{50,100}，学习率α∈{0.01,0.001,0.0001,0.0005}，最大间隔γ∈{0.1,1,2,4,4.5,5,5.5,6}；表示模型中bert的预训练模型选择bert
‑
base
‑
uncased，卷积层的窗口大小j∈{2,3,4,5}，滤波器数量l∈{50,100}，dropout层的丢弃率设置为0.5。将l1范式用于得分函数计算，训练过程迭代mgbd算法2000次；为了更好地与transe等知识表示学习模型进行对比，采用和transe相同的评价准则，即mean rank和hits@10。其中mean rank越小越好，hits@10越大越好；此外，为了更好地分析文本信息对于知识图谱表示学习的影响，本文将关系划分成1
‑
1、1
‑
n、n
‑
1和n
‑
n四种类型，并对不同类型的关系在数据集上hits@10(filtered)的结果进行比较。
[0091]
实验介绍：
[0092]
链接预测通常指的是预测与给定实体有特定关系的实体的任务，即对于一个丢失了头实体或尾实体的三元组"(h,r,t)"，给定"(h,r)"预测t，或者给定"(r,t)"预测h，前者可以表示为"(？,r,t)"，后者为"(h,r,？)"。候选预测结果实体作为排名集返回。
[0093]
在链接预测任务上进行了两组对比实验，以评估所提出的bcrl模型的性能。比较模型可以分为两类。
[0094]
只用结构信息的模型：sme,transe,transh,transr,transd,hole,analogy,compleex。
[0095]
文本加强模型：jointly(lstm),jointly(a
‑
lstm),teke e,aatee,cnn transe。
[0096]
实验1：将bcrl模型与其他表示学习模型进行比较，例如仅使用结构信息的模型和引入文本信息的模型，评测该模型在平均排名和前十排名的相对准确率。为了考察bcrl中引入的关注机制以及位置信息对于模型表示能力的影响，添加了bcrl
‑
a(添加注意力机制)、bcrl
‑
pa(添加位置和关注机制)和bcrl(两者均不添加)进行对比试验。
[0097]
实验2：为了对不同关系针对性的分析文本信息的影响，将bcrl、bcrl
‑
a、bcrl
‑
pa模型和前文所述transe以及其他引入文本信息的表示学习模型针对1
‑
1、1
‑
n、n
‑
1和n
‑
n四种关系分别进行实验对比，该部分实验只在fb15k数据集上完成。
[0098]
实验结果：
[0099]
表1 bcrl模型在链接预测任务上的实验结果
[0100][0101]
为了对比bcrl相对于基准模型transe的性能，在使用相同的实验设置条件下，实现了transe模型和bcrl模型代码，transe比原有论文transe系统在fb15k数据集上有明显的不同；实验1的结果在表1中列出，每组实验的最优值进行了加粗突出表示，带下划线的数字表示次佳。基准线的评估结果来自其原始工作，表中的
“‑”
表示先前的工作中没有报告的结果。后文实验结果表格同理。
[0102]
从表1中可以得出以下结论。
[0103]
bcrl
‑
a模型的性能显著优于transe模型(transe是表示学习方面的baseline模型)。在wn18和fb15k数据集上，其平均排名效果分别提升了64.8％，68.4％，8.7％，14.5％，前十排名占比提高了24.6％，16.0％，12.6％，30.3％，所有的评测性能也都优于其余基于结构的模型transh、transr、transd。该结果验证了信息对于基于结构的知识图谱表示学习模型是有益的。
[0104]
bcrl
‑
a模型在wn18和fb15k数据集上的各项指标都与目前最好的模型语义匹配类模型analogy表现相近，并且在fb15k数据集上meanrank指标达到目前最好的效果，且本文模型是基于transe框架实现的，还有很大的提升空间。
[0105]
与上述文本表示类模型jointly(a
‑
lstm)相比，本文bcrl
‑
a模型多数指标数据都优于，这表明本文模型能有效捕捉文本的语义信息，在融合文本信息和结构信息方面有一定的优势。
[0106]
将本文的上述三种模型进行对比，bcrl
‑
a要明显优于bcrl，这表明对于实体添加基于关系的注意力机制，可以加强实体描述信息的语义区别，进一步提高了实体表示的区分度。在fb15k数据集上，再添加了位置编码信息的bcrl
‑
pa相对于仅添加关注机制的bcrl
‑
a要逊色很多，这可能是因为对于该数据集不同实体描述文本句子数量、长短分化严重。位
置编码信息无法有效拟合出这种差异，反而一定程度上成为干扰信息，但是在wn18数据集上bcrl
‑
pa表现就比bcrl
‑
a要好，可能是因为wn18数据集的句子长度偏短且句子长度差异不大，位置编码更适合该数据集的拟合。
[0107]
表2 fb15k数据集上不同类型关系的链接预测的hit@10
[0108][0109]
从表2中我们可以看到，本文提出的方法在所有类型的关系(1
‑
1、1
‑
n，n
‑
1和n
‑
n)上均比基本模型具有更高的性能。此外，bcrl
‑
a模型比jointly(a
‑
lstm)模型具有更好的结果，尤其是n
‑
1、n
‑
n关系下的头实体预测以及1
‑
n、n
‑
n的尾实体预测上有明显的提高。由于bcrl
‑
a和joint(a
‑
lstm)都是基于transe来实现的，因此验证了引入关系提及文本对于改进知识表示非常有价值。
[0110]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据库索引处理方法、装置、电子设备和计算机可读介质与流程

对长文本友好的知识图谱表示学习方法与流程

相关文献

最热文献