用于确定知识图的设备和方法与流程

2021-11-03 12:51:00 来源：中国专利 TAG：

1.本发明基于用于确定知识图的设备和方法。

背景技术：

2.知识图在基于知识的系统中被理解为：以图的形式结构化地对知识进行的存储。知识图包括实体并且再现了实体之间的关系。实体定义了知识图的节点。将关系定义为两个节点之间的边。
3.期望实现一种自动填充知识图的可能性。

技术实现要素：

4.这通过根据独立权利要求的用于确定知识图的设备和方法来实现。所述知识图包括实体和关系。所述知识图例如通过多个<实体1，实体2，关系>形式的三元组（tripel）定义，其中三元组的关系定义了该三元组的实体1和实体2之间的关系。为了确定所述知识图，利用用于实体1、实体2和关系的模型做出关于如下方面的分类决策：是否存在<实体1，实体2，关系>形式的三元组并且是否应当将所述三元组写入所述知识图中。
5.用于确定知识图的方法包括以下步骤：为所述知识图提供第一实体，提供文本主体（textk
ö
rper），提供用于模型的输入数据，所述输入数据是根据所述文本主体和所述知识图的第一实体而定义的，利用所述模型根据所述输入数据为用于所述知识图的三元组确定针对第二实体的预测、针对关系的预测以及确定针对用于所述三元组的解释（erkl
ä
rung）的预测，确定由所述模型分配给所述三元组的第一概率和由所述模型分配给针对所述解释的预测的第二概率，根据所述第一概率和所述第二概率确定针对三元组的分类，以及如果所述分类满足条件：根据针对所述解释的所述预测确定所述解释并且根据所述第一实体、针对所述第二实体的所述预测和针对所述关系的所述预测确定用于所述知识图的三元组，其中根据所述第一概率和所述第二概率的特别是经加权的总和定义函数，并且其中根据所述函数训练用于所述模型的至少一个参数。所述第一概率说明：包括所述第一实体、所预测的第二实体和所预测的关系的三元组有多大概率存在。所述第二概率说明：针对所述三元组的所预测的解释有多大概率是正确的。由此在该示例中，仅当所述三元组基于所述第一概率而存在并且所述解释基于所述第二概率而正确时，才将所述三元组录入（eintragen）到所述知识图中。为了更好地理解所述知识图的结构，可以将所述解释与所述三元组一起录入或输出。所述函数在训练中被使用，以便例如在梯度下降方法中确定使所述函数最小化的至少一个参数。
6.在一个方面，所述方法包括：提供所述第二实体和所述关系，确定针对所述第二实体的预测与所述第二实体之间的第一交叉熵（kreuzentropie），确定针对所述关系的预测与所述关系之间的第二交叉熵，确定针对所述解释的预测与所述解释之间的特别是经加权的第三交叉熵，其中所述函数是根据由下列各项构成的总和而定义的：所述第一交叉熵、所述第二交叉熵、特别是经加权的第三交叉熵以及所述第一概率与所述第二概率的特别是经
加权的总和。所述函数是损失函数，例如在梯度下降方法中对所述损失函数最小化以便确定使所述损失函数最小化的至少一个参数。
7.代替交叉熵，也可以在这里和下面使用表征两个概率分布的差异的其他度量，例如kullback
‑
leibler散度（kullback
‑
leibler
‑
divergenz）或其他f散度（f
‑
divergenz）。有利地，通过相同的度量给出表征针对所述第二实体的预测与所述第一实体之间差异的第一度量和表征针对所述关系的预测与所述关系之间差异的第二度量。
8.可以为训练提供训练数据，其中所述训练数据包括大量的由三元组和分配给该三元组的解释构成的对，其中所述模型包括分类器，根据所述训练数据训练所述分类器针对来自三元组的第一实体确定针对所述关系的预测以及确定针对用于所述三元组的所述解释的预测。
9.在一个方面，为所述文本主体的至少一个单词或至少一个句子确定矢量表示（vektorrepr
ä
sentation），特别是根据至少一个其他单词或根据至少一个其他句子确定矢量表示，其中所述矢量表示定义所述输入数据的至少一部分。例如，为每个单词和每个句子确定取决于上下文的矢量表示，该矢量表示既取决于所述文本主体的其他句子又取决于所述第一实体。
10.优选地，向来自所述文本主体的句子中的第一单词分配第一矢量，其中向来自所述文本主体的所述句子中的第二单词分配第二矢量，其中将所述矢量表示计算为由所述第一矢量和所述第二矢量构成的经加权的总和。
11.优选地，在所述模型的第一输出端处输出包括所述三元组的输出。在该示例中，所述输出定义了如下三元组，所述三元组包括：给定的第一实体、针对所述第二实体的预测以及在所述给定的第一实体与针对所述第二实体的预测之间的所预测的关系。
12.在一个方面，在所述模型的第二输出端处输出对所述文本主体中至少一个区域的开始和结束进行定义的输出。在该示例中，所述解释实际上是来自所述文本的片段。
13.优选地，针对所述第二实体的预测、针对所述关系的预测或针对所述解释的预测通过关于大量矢量的值分布的值来定义。所述模型将所述输入数据映射到如下值，所述值针对其中每个矢量说明该矢量对于确定所述知识图或对于所述解释而言的适用性。
14.优选地，根据针对所述解释的预测或根据所述解释来确定分配给所述知识图中的三元组的元数据。元数据特别适合于作为针对所获得的三元组的原因的解释。
15.优选地，如果所述第一概率超过第一阈值并且所述第二概率超过第二阈值，则所述分类满足所述条件。
16.用于确定知识图的设备被构造为执行所述方法。
附图说明
17.其他有利的实施方式从下面的描述和附图中得出。在附图中：图1示出了用于确定知识图的设备的示意图，图2示出了用于确定知识图的方法中的步骤，图3示出了用于训练用于确定知识图的模型的方法中的步骤。
具体实施方式
18.在图1中示意性地示出了知识图100。知识图100是能够通过大量实体而定义的。在图1中示意性地示出了第一实体和第二实体。
19.知识图100是能够根据模型102来确定的。为了确定知识图100，提供文本主体104。由用于确定知识图100的设备108提供用于模型102的输入数据106。在该示例中，文本主体104是文本集合（textsammlung）或文档集合（dokumentensammlung）。从文本主体104出发，所述设备为各个单词或句子产生例如作为矢量的嵌入110。在该示例中，输入数据106包括用于文本主体和用于第一实体的嵌入110。在示例中，所述矢量是嵌入。文本主体104的以及知识图100的实体或关系的嵌入是多维实体在相比之下例如更低维度的矢量空间中的表示。
20.设备108包括一个或多个处理器和至少一个用于指令的存储器，并且被构造为执行以下描述的方法。在该示例中，模型102被构造为确定用于知识图100的三元组t
12
，该三元组包括第一实体、第二实体及它们的关系。
21.参考图2描述了用于确定所述知识图的方法中的步骤。
22.在步骤202中提供知识图100的第一实体。可以从来自已经定义的知识图100的大量实体中选择所述第一实体。用户可以通过输入来预给定所述第一实体。
23.在步骤204中提供文本主体104。例如从数据库读取文本主体104。
24.在步骤206中提供用于模型102的输入数据106，所述输入数据是根据文本主体104和知识图100的第一实体而定义的。在该示例中，通过文本主体104（特别是文档集合或文本集合）的嵌入并通过所述第一实体的嵌入来定义模型102的输入数据106。
25.所述第一实体和文本主体104例如通过作为嵌入的单词矢量来表示。
26.例如，向来自所述第一实体和文本主体104的每个单词分配n维矢量空间中的单词矢量。
27.例如，向来自文本主体104的每个句子分配m维矢量空间中的句子矢量。矢量空间的维度也可以相同。
28.例如，针对文本主体104的每个单词和/或每个句子计算取决于上下文的矢量表示，该矢量表示取决于文本主体104的其他单词。取决于上下文的单词表示例如通过模型确定，该模型将单词表示计算为由所围绕的（umgeben）单词的表示组成的经加权的总和。
29.在步骤208中，利用模型102根据输入数据106确定针对第二实体的预测。
30.在步骤208中，利用模型102根据输入数据106来确定针对所述第一实体和第二实体之间的关系的预测。
31.例如，按照用于文本主体104的单词矢量表示第二实体还是第二实体的一部分来对该单词矢量分类。针对第二实体的预测定义例如特定的单词矢量，即特定的单词。模型102例如在输出端处针对来自n维矢量空间的单词矢量确定值。单词矢量的这些值形成关于单词矢量、即文本主体104的单词的值分布。可以通过softmax函数将所
述值分布映射到概率分布。预测例如将与针对其他单词矢量的其他预测相比具有最高值的单词矢量（即单词）定义为第二实体，即定义为三元组112的一部分。可以将多个单词矢量（即单词）分配给第二实体，其中将以下单词矢量（即单词）确定为第二实体的一部分，这些单词矢量的预测值超过阈值。
32.例如，根据来自文本主体104的句子在所述第一实体和第二实体之间包含何种关系，对该句子的大量单词矢量进行分类。所述关系例如定义了针对关系的预测。模型102例如在输出端处确定可能关系的值。这些值形成关于可能关系的值分布。可以通过softmax函数将该值分布映射到概率分布。针对关系的预测例如通过与其他可能的关系相比具有最高值的关系来定义。在该示例中将该关系用作三元组112的一部分。还可以确定以下关系，该关系的值超过阈值。
33.在该示例中，如果如下所述地确定出存在三元组112和针对该三元组的正确解释，则第一实体、第二实体和关系定义了用于知识图100的三元组112。
34.在步骤208中，利用模型102根据输入数据106确定针对解释s
t
的预测s
p
。
35.例如，根据来自文本主体104的句子矢量是否作为解释s
t
是相关的来对该句子矢量进行分类。模型102在输出端处为来自m维矢量空间的句子矢量确定值。这些值形成关于句子矢量（即文本主体104的句子）的值分布。可以通过softmax函数将该值分布映射到概率分布。预测s
p
将例如与其他句子矢量的其他预测相比具有最高值的句子矢量（即，句子）定义为用于所述三元组的解释s
t
。可以将多个句子矢量（即句子）分配给解释s
t
，其中将以下句子矢量（即句子）确定为解释s
t
的一部分，这些句子矢量的预测值超过阈值。
36.针对解释s
t
的预测s
p
或解释s
t
可以定义如下元数据，所述元数据可以被分配给知识图100中的三元组112。这些元数据可以标识正文文本104的区域或包括正文文本104的所述区域的副本或所述区域的一部分的副本。
37.在该示例中，在模型102的第一输出端处输出包括三元组112的输出，所述三元组即：第一实体、针对第二实体的预测和针对关系的预测。
38.在该示例中，在模型102的第二输出端处输出对文本主体104中至少一个区域的开始和结束进行定义的输出。在该示例中，通过针对解释s
t
的预测s
p
定义所述输出。针对解释s
t
的预测s
p
例如定义了文本主体104中所述至少一个区域的开始和结束。在该示例中，预测s
p
定义了针对所述区域的开始和结束的偏移（offset）。
39.文本主体104例如通过矩阵表示。例如，该矩阵的列表示单词矢量。这些单词矢量在所述矩阵中例如以与文本中的单词相同的排序（ordnung）来布置。在该示例中，所述矩阵中的列的索引明确地标识单词。第二输出例如是开始偏移和结束偏移。所述开始偏移例如是用于所述矩阵中以下索引的值，该索引明确地说明了在此开始所述解释的单词在文本中的位置。所述结束偏移例如是用于所述矩阵中以下索引的值，该索引明确地说明了在此结束所述解释的单词在文本中的位置。在所述模型内将所述解释例如定义为矢量或子矩阵，即定义为该区域的嵌入。起始和结束是例如文本中相应偏移的整数值。
40.在步骤210中，确定第一概率，模型102将所述第一概率分配给三元组112：。
41.第一概率可以取决于针对第二实体的预测的值与针对关系的预测的值的乘积。在该示例中，确定针对第二实体的预测的概率值与针对关系的预测的概率值的乘积。
42.在步骤210中确定第二概率，模型102将所述第二概率分配给针对解释s
t
的预测s
p
：。
43.可以根据如下值的乘积确定第二概率，其中模型102针对用于三元组112的解释s
t
的预测s
p
确定了这些值，这些值在该示例中是概率值。在该示例中，为作为针对解释s
t
的预测s
p
一部分的句子矢量确定第二概率。
44.在步骤212中，根据第一概率和第二概率确定三元组112的分类。
45.在该示例中，如果所述分类满足条件，则对于知识图100来说三元组112是相关的。
46.例如，如果第一概率超过第一阈值，并且第二概率超过第二阈值，则所述分类满足条件。对于由针对三元组112的输出和所述解释构成的组合，对于所述分类而言存在以下四种情况：
‑
三元组112是正确的，并且解释是正确的
‑
三元组112是正确的，但解释是错误的
‑
三元组112是错误的，但解释是正确的（在这里正确的含义是：对于正确的输出而言是正确的）
‑
三元组112是错误的，并且解释是错误的。在该示例中，所述第一阈值和所述第二阈值针对0到1之间范围内的概率值被定义，例如0.8或0.9。所述第一阈值和所述第二阈值可以通过其他值定义。可以通过彼此不同的值来定义所述第一阈值和所述第二阈值。
47.第一概率是对所述输出是正确的三元组112的度量，而第二概率是对用于所述输出的解释是正确的度量。在第一种情况下，所述分类满足条件。在后三种情况下，所述分类不满足条件。
48.在步骤214中，如果所述分类满足条件，则根据针对所述解释的预测s
p
来确定所述解释，并且根据所述第一实体、针对第二实体的预测和针对关系的预测确定用于所述知识图100的三元组112。在该示例中，如果所述分类满足条件，则在知识图100中确定包括所述三元组112的条目（eintrag）。
49.在该示例中，如果第一概率超过第一阈值并且第二概率
超过第二阈值，则录入三元组112。否则在该示例中丢弃三元组112。然后可以针对相同或不同的第一实体执行步骤202。
50.由此迭代地构建所述知识图。
51.参考图3，描述了用于训练用于确定知识图100的模型102的方法中的步骤。
52.在步骤302中提供知识图100的第一实体。在步骤302中提供知识图100的第二实体。在该示例中这是训练数据，其相互之间的关系是已知的。在步骤302中提供解释s
t
。这例如是正确解释s
t
的元数据。
53.在步骤304中提供文本主体104。所述文本主体有利地是如下文本主体104，对于该文本主体来说，针对所述第一实体和第二实体的关系的正确解释s
t
的元数据是已知的。
54.在步骤306中提供用于模型102的输入数据106。为此例如按照步骤206中描述的那样进行。
55.在步骤308中，利用模型102根据输入数据106来确定针对第二实体的预测。
56.在步骤308中，利用模型102根据输入数据106来确定针对所述第一实体与第二实体之间的关系的预测。
57.在步骤308中，利用模型102根据输入数据106来确定针对解释s
t
的预测s
p
。
58.为此，在该示例中按照步骤208中描述的那样处理（verfahren）。
59.在步骤310中确定第一概率，模型102将所述第一概率分配给训练中已知的正确三元组112。
60.为此，在示例中确定第一概率，其中= softmax()*softmax()表示模型102如步骤210中所描述地那样向训练中已知的由第二实体和关系构成的正确组合分派的概率。
61.在步骤310中确定模型102向训练中已知的解释s
t
分配的第二概率。
62.为此，在该示例中确定第二概率，其中=∏softmax(s
t
)表示如下概率，模型102如步骤210中所描述地将所述概率分派给所有相关解释，其中假设这些解释是彼此独立的。
63.在步骤312中确定针对第二实体的预测与第二实体之间的第一交叉熵ce1。在步骤312中确定针对关系的预测与关系之间的第二交叉熵ce2。在步骤312中确定针对解释s
t
的预测s
p
与解释s
t
之间的特别是用因子λ
sp
加权的第三交叉熵ce3。
64.在步骤314中，确定用于模型102的至少一个参数，其中针对所述至少一个参数，函数j满足条件。例如，根据大量参数确定用于函数j的大量值，其中函数j满足针对大量参数的值的条件，所述值与所述大量值其中的其他值相比是极值，特别是这些值中的最小值。函数j是损失函数，其是根据第一概率和第二概率而定义的。在该示
例中，损失函数j是根据由下列各项构成的总和而定义的：第一交叉熵ce1、第二交叉熵ce2、特别是加权了λ
sp
的第三交叉熵ce3以及第一概率与第二概率的特别是加权了λ
cc
的总和。
65.在该示例中，所述损失函数通过目标函数j
con
定义，所述目标函数j
con
具有用于损失函数j的其他超参数c1，c2，c3，可以对这些超参数进行优化：，其中对于所述训练，利用训练数据重复步骤302至314。
66.特别地提供训练数据，其中所述训练数据包括大量的由三元组112和分配给三元组112的解释s
t
组成的对，其中模型102包括分类器，根据所述训练数据训练所述分类器针对来自三元组112的第一实体确定针对关系的预测以及确定针对用于所述三元组112的解释s
t
的预测s
p
。所述分类器可以是人工神经网络，特别是深度人工神经网络。所述人工神经网络包括例如用于输入数据106的输入层和用于第一输出端和第二输出端的输出层。可以在所述输入层和所述输出层之间布置一个隐藏层或可以布置多个隐藏层。在该示例中，这些层的参数通过大量参数定义，其中针对这些参数，函数j在训练中满足条件。
67.应用例如在于材料分配的范畴内，并且这些应用旨在构建如下知识数据库，所述知识数据库包含关于材料及其关系的所有信息。这些信息可以从文本中提取，其中除了关于关系的信息之外附加地，作为解释还提取相关的句子部分，这些相关的句子部分导致了对所述信息的提取。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

用于确定知识图的设备和方法与流程

相关文献

最热文献