知识图谱构建方法、装置、电子设备及存储介质与流程

2023-03-31 23:46:59 来源：中国专利 TAG：

1.本公开涉及自然语言处理技术领域，尤其涉及一种知识图谱构建方法、装置、电子设备及存储介质。

背景技术：

2.知识图谱是一种以三元组为基本组成单位的符号语言，用于结构化地描述复杂真实世界的知识，即各类概念，实体之间的相互关系。通过对知识结构化表示，使得计算机系统可以计算和处理外部的常识知识和专业知识。
3.相关技术中对于知识图谱的构建，往往通过自然语言处理技术抽取文本中实体和实体关系的方式来构建。然而，由于对文本中实体和实体关系的抽取均需要深度学习模型的介入，为保证知识图谱构建的准确性，需要大量经过人工细致标注的语料数据来训练深度学习模型。这不仅影响知识图谱的构建效率，还会耗费大量人力成本。

技术实现要素：

4.有鉴于此，本公开提供一种知识图谱构建方法、装置、电子设备及存储介质，无需人工标注的样本数据参与，即可完成知识图谱的构建。
5.第一方面，提供一种知识图谱构建方法，包括：解析文本数据，生成文本数据的抽象语义表示图；根据抽象语义表示图，抽取文本数据中的第一实体和第一实体关系，第一实体和第一实体关系之间具有对应关系；根据第一实体和第一实体关系，构建目标知识图谱。
6.在一些实施例中，根据第一实体和第一实体关系，构建目标知识图谱，包括：对第一实体进行实体消歧，得到第二实体；根据第二实体和第一实体关系，构建目标知识图谱。
7.在一些实施例中，对第一实体进行实体消歧，得到第二实体，包括：根据第一实体与预设实体库中每个预设实体之间的字符串相似度，从预设实体库中筛选出多个第三实体；分别计算第一实体对应的抽象语义表示子图与多个第三实体各自对应的知识图谱子图之间的图相似度，抽象语义表示子图根据第一实体在抽象语义表示图中的邻接关系生成，知识图谱子图根据与知识图谱子图对应的第三实体在预设知识图谱中的邻接关系生成；将与抽象语义表示子图之间图相似度最高的知识图谱子图对应的第三实体与第一实体链接，得到第二实体。
8.在一些实施例中，根据第二实体和第一实体关系，构建目标知识图谱，包括：根据第一实体关系与预设实体关系库中每个实体关系的映射关系，将第一实体关系映射为第二实体关系，第二实体关系为存在于预设实体关系库中的实体关系；根据第二实体和第二实体关系，构建目标知识图谱。
9.在一些实施例中，目标知识图谱包括至少一个三元组，至少一个三元组中的每个三元组均包括头实体、关系和尾实体，其中，头实体和尾实体根据第一实体构建，关系根据第一实体关系构建；在根据第一实体和第一实体关系，构建目标知识图谱之后，还包括：对目标知识图谱中的至少一个三元组进行校验；将至少一个三元组中未通过校验的三元组从
目标知识图谱中剔除。
10.在一些实施例中，对目标知识图谱中的至少一个三元组进行校验，包括：针对至少一个三元组中的每个三元组，分别对三元组中的头实体、关系和尾实体进行掩码预测，得到三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率；根据三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率，得到三元组的存在概率；根据三元组的存在概率，校验三元组。
11.在一些实施例中，针对至少一个三元组中的每个三元组，分别对三元组中的头实体、关系和尾实体进行掩码预测，得到三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率，包括：针对至少一个三元组中的每个三元组，分别对三元组中的头实体、关系和尾实体进行掩码处理，得到头实体掩码三元组、关系掩码三元组和尾实体掩码三元组；将头实体掩码三元组、关系掩码三元组和尾实体掩码三元组分别输入预训练的掩码预测模型，得到三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率。
12.在一些实施例中，根据三元组的存在概率，校验三元组，包括：若三元组的存在概率不满足预设校验概率条件，则确定三元组未通过校验。
13.在一些实施例中，文本数据为非结构化文本数据。
14.第二方面，提供一种知识图谱构建装置，包括：解析模块，用于解析文本数据，生成文本数据的抽象语义表示图；抽取模块，用于根据抽象语义表示图，抽取文本数据中的第一实体和第一实体关系，第一实体和第一实体关系之间具有对应关系；构建模块，用于根据第一实体和第一实体关系，构建目标知识图谱。
15.第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述第一方面的方法。
16.第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面的方法。
17.本公开实施例提供的知识图谱构建方法，通过生成文本数据的抽象语义表示图，抽取文本数据中的第一实体和第一实体关系，从而使实体和实体关系在抽取的过程中，无需使用需要经过人工标注语料数据训练的深度学习模型，不仅提升了知识图谱的构建效率，还可节省大量人工成本。
附图说明
18.图1示出本公开实施例中一种知识图谱构建方法的系统架构示意图。
19.图2示出本公开实施例中一种知识图谱构建方法的流程示意图。
20.图3示出本公开实施例中一种抽象语义表示图的示意图。
21.图4示出本公开实施例中实体消歧的过程示意图。
22.图5示出本公开实施例中一种知识图谱校验方法的流程示意图。
23.图6示出本公开实施例中针对掩码预测模型的训练方法示意图。
24.图7示出本公开实施例中一种知识图谱构建装置的结构示意图。
25.图8示出本公开实施例中一种电子设备的结构示意图。
具体实施方式
26.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
27.此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
28.知识图谱是一种以三元组为基本组成单位的符号语言，用于结构化地描述复杂真实世界的知识，即各类概念，实体之间的相互关系。通过对知识结构化表示，使得计算机系统可以计算和处理外部的常识知识和专业知识，进而使知识图谱在人机交互，医疗，司法等领域中有着广泛的应用前景。
29.知识图谱的构建来源可以分为结构化文本(例如各类知识库)、半结构化文本以及非结构化文本。其中，基于非结构化文本构建知识图谱相比于结构化文本知识构建面临更多地挑战，需要将表述自由的非结构化文本中蕴含的知识完备的识别，理解并形式化的表示。在构建过程中涉及的对于文本的实体抽取、关系抽取、实体分类以及实体链接等工作均需要深度学习模型的介入，因此海量的高质量人工标注数据必不可少，由此导致相关技术中知识图谱的构建成本极高，需要投入巨大的人力物力。
30.有鉴于此，本公开提供的方案，通过生成文本数据的抽象语义表示图，抽取文本数据中的第一实体和第一实体关系，并构建三元组。在构建的三元组通过校验的情况下，将三元组用于知识图谱的构建。基于此，本公开实施例能够无监督的构架知识图谱，也就是说，本公开实施例提供的方法，无需过多的人力投入即可从海量文本中自动的构建真实准确的知识图谱，为下游应用提供强有力的知识支撑。
31.图1示出了可以应用于本公开实施例的知识图谱构建方法或知识图谱构建装置的示例性系统架构示意图。
32.如图1所示，该系统架构100可以包括终端设备101、构建装置102和知识库103。
33.终端设备101可以是各种电子设备，例如，智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、增强现实设备、虚拟现实设备等，但不局限于此。
34.示例性地，终端设备101上部署有可发起本公开提供的知识图谱构建方法的客户端，该客户端可以是应用程序、网页客户端、小程序客户端等，但并不限于此。此外，基于终端平台的不同，该客户端的具体形态也可以不同，比如，该客户端可以是手机客户端、pc客户端等。
35.构建装置102可以是能够执行本公开提供的知识图谱构建方法的电子设备，例如，集群、服务器、云平台等，但不局限于此。构建装置102可以通过有线或无线通信方式与终端设备101进行直接或间接地连接，本公开对此不做限制。
36.知识库103可以是部署有数据库的服务器，其上存储有知识图谱。值得注意的是，知识库103还可以是与构建装置102配置于同一服务器的不同虚拟模块，本公开对此不做限
制。
37.本领域技术人员可以知晓，图1中示出的终端设备、构建装置和知识库的数量仅仅是示意性的，根据实际需要，可以具有任意数目的终端设备、构建装置和知识库，本公开对此不做限制。
38.下面将结合附图及实施例对本示例实施方式进行详细说明。
39.首先，本公开实施例中提供了一种知识图谱构建方法，该方法可以由任意具备计算处理能力的电子设备执行。
40.图2示出本公开实施例中一种知识图谱构建方法的流程示意图，如图2所示，本公开实施例中提供的知识图谱构建方法包括如下步骤。
41.s201，解析文本数据，生成文本数据的抽象语义表示图。
42.需要说明的是，本公开实施例中的文本数据可以是非结构化文本数据。具体地，非结构化文本数据可以是无法用固定结构来逻辑表达实现的数据，例如，互联网中散落在论坛、微博或其他渠道的关于产品的各种评价内容。
43.需要说明的是，抽象语义表示(abstract meaning representation，amr)图是一种抽象的句子语义的表示方法，抽象语义表示图将句子的语义抽象为单根有向无环图，该抽象是指，将句子中的实体抽象为抽象语义表示图的节点，将实体之间的关系抽象为边，以边指代不同概念之间的语义关系。抽象语义表示图中，可以允许忽略虚词和由形态变化体现的较虚的语义(如冠词、单复数、时态等)，可以允许补充句子中省略或缺失的概念，从而更完整地表示句子的语义。其中，抽象语义表示图中的单根的目的是保证句子语义的整体性，“有向”是为了保证语义传递，“无环”是为了避免语义的传递陷入死循环。
44.示例性地，图3以文本数据“男孩想去学校”为例，示出了本公开实施例中的一种抽象语义表示图的示意图，其中，arg为核心语义角色，arg0为原型施事，arg1为原型受事。
45.如图3所示，抽象语义表示图包括至少一个节点以及至少一条边，每个节点指代词语所属的概念，抽象语义表示图中节点的数量可以等于句子对应的实体的数量。每条边指代不同实体之间的实体关系，每条边可以连接两个节点，可以指示这两个节点对应的实体之间的实体关系。
46.在一些实施例中，文本数据的抽象语义表示图可以通过编码文本数据，预测抽象语义表示图中的边或节点或预测生成图所需的动作来生成。
47.示例性地，本公开实施例可以使用序列到序列(sequence2sequence)模型，生成文本数据的抽象语义表示图。由于序列到序列模型可以很好的拓展到其他任务，因此可以借助多任务学习来结合其他相关任务的知识，如句法解析，语义依存分析等，提供更多的辅助信息来提升模型的泛化能力。
48.具体地，序列到序列模型由编码器(encoder)和解码器(decoder)构成。其中，编码器和解码器一般都是由循环神经网络(recurrent neural network,rnn)构成，常用长短期记忆(long short-term memory,lstm)神经网络。其中，在应用序列到序列模型生成文本数据的抽象语义表示图时，编码器和解码器均在大规模的无监督预料上通过掩码学习策略(例如通过bert模型)进行预训练，以此获取大规模语料中蕴含的先验知识，如句法结构，实体知识等。
49.值得注意的是，在上述对序列到序列模型预训练的过程中，使用的数据为公开数
据，无需额外的标注。
50.序列到序列模型的输入可以是文本数据本身。将序列化的文本数据通过编码器编码后，将文本数据的隐层表示传入解码器中进行解码，可以得到序列化后的抽象语义表示语义图。例如，向序列到序列模型输入“[cls]，男，孩，想，去，学，校，[sep]”(其中，[cls]和[sep]分别用于表示文本数据的开头和结尾)，可以得到序列化后的抽象语义表示语义图“想-00：arg0男孩-01：arg1学校-02
……”
。其中“00、01、02”为抽象语义图中的节点序号。arg为核心语义角色，示例性地，arg0为原型施事，arg1为原型受事。由于具体编码和解码过程为本领域技术人员公知，故本公开对此不再赘述。
[0051]
s202，根据抽象语义表示图，抽取文本数据中的第一实体和第一实体关系。
[0052]
需要说明的是，实体可以是人、事、物的抽象化对象，一般是名词。例如，“学生”、“语文课”、“航天员”等。实体关系可以是两个实体之间的关系，对应于两个实体。例如，乙是一个航天员，其中“乙”和“航天员”分别为两个实体，这两个实体之间的关系就是“职业”，即乙的职业是航天员。
[0053]
在一些实施例中，第一实体可以是抽象语义表示图中包含的节点代表的实体，第一实体关系可以是抽象语义表示图中包含的边代表的实体关系，第一实体和第一实体关系之间具有对应关系。
[0054]
示例性地，针对文本数据“男孩想去学校”，可以从序列化后的抽象语义表示语义图中抽取出第一实体“男孩”和“学校”，第一实体关系“想”和“去”。其中，“去”与“男孩”和“学校”均具有对应关系，“想”与“男孩”具有对应关系。
[0055]
s203，根据第一实体和第一实体关系，构建目标知识图谱。
[0056]
示例性地，为保证构建后的知识图谱的准确性，可以对第一实体进行实体消歧，得到第二实体，进而根据第二实体和第一实体关系，构建目标知识图谱。其中，第二实体为第一实体消歧后得到的标准实体。
[0057]
需要说明的是，对第一实体进行实体消歧的方式可以有多种，例如，通过词袋模型的方式进行实体消歧，通过语义分解的方式进行实体消歧。在本公开实施例中，考虑到通过抽象语义表示图抽取到的实体数量可能较为庞大，为了同时兼顾实体消歧的效率和准确度，提供了一种结合字符串相似度和图相似度的实体消歧方法。
[0058]
示例性地，本公开实施例中的实体消歧方法可以是：根据第一实体与预设实体库中每个预设实体之间的字符串相似度，可以从预设实体库中筛选出多个第三实体。随后分别计算第一实体对应的抽象语义表示子图与多个第三实体各自对应的知识图谱子图之间的图相似度。通过将与抽象语义表示子图之间图相似度最高的知识图谱子图对应的第三实体与第一实体链接，可以得到第二实体，从而完成实体消歧。
[0059]
需要说明的是，预设实体库中可以包含多个预设的标准实体，第三实体为从多个预设的标准实体中粗筛出的与第一实体关联的候选实体。
[0060]
示例性地，字符串相似度的计算方式可以采用如brute-force(bf)、jaccard和knuth-morris-pratt(kmp)等不同的字符串度量方式进行计算，本公开实施例对此不做限定。
[0061]
在一些实施例中，通过加权求和的方式融合不同方式得到的字符串相似度，可以选出与第一实体具有一定相似度的多个第三实体。例如，可以将与第一实体的字符串相似
度大于预设阈值的标准实体作为第三实体，也可以将全部标准实体中与第一实体的字符串相似度在前几名的标准实体作为第三实体，本公开实施例对此不做限定。
[0062]
示例性地，针对第一实体“男孩”，可以通过字符串相似度筛选出预设实体库中的“老男孩，男孩，男性”等作为第三实体。在此之后，还可以结合一些启发性的规则过滤出第三实体中一些明显不合适的实体。
[0063]
需要说明的是，抽象语义表示子图根据第一实体在抽象语义表示图中的邻接关系生成，知识图谱子图根据与知识图谱子图对应的第三实体在预设知识图谱中的邻接关系生成。
[0064]
示例性地，本公开实施例中的图相似度计算方式如下式(1)所示。
[0065][0066]
其中，e为从文本数据中抽取的第一实体；g(e)为e在s201中构建的抽象语义表示图中相临实体集合，即抽象语义表示子图；ei为从预设实体库中筛选出的各个第三实体，i为正整数；g(ei)为预设知识图谱中实体ei的相邻节点集合，即知识图谱子图；s(g(e),g(ei))用于表示g(e)和g(ei)之间的图相似度。
[0067]
示例性地，在针对g(e)和g(ei)的集合运算中，可以再次采用字符串相似度的方式判断g(e)和g(ei)中某对实体是否相等。
[0068]
通过图相似度的计算，可以利用文本数据中所蕴含的上下文实体信息指导实体链接。
[0069]
例如，针对文本数据“苹果发布了新手机”，结合相邻节点“苹果”和“手机”可以确定该文本数据中的“苹果”指代的是“苹果(公司)”。
[0070]
需要说明的是，实体之间的链接可以理解为将抽取到的第一实体，无歧义的正确的指向与其图相似度最高的第三实体的过程。也就是说，通过实体链接，可以将利用与第一实体图相似度最高的第三实体的内容来替换第一实体的内容，从而得到第二实体。例如，针对文本数据“苹果发布了新手机”中的实体“苹果”，通过实体链接，可以将其转换为“苹果(公司)”。此外，还可以为替换后的第一实体分配唯一标识，以区分具有歧义的词语。
[0071]
示例性地，图4以文本数据“苹果发布了新手机”为例，示出了本公开实施例中的实体消歧的过程示意图。如图4所示，针对文本数据“苹果发布了新手机”中的第一实体“苹果”，可以通过字符串相似度的方式，从预设实体库中筛选出“苹果(水果)”、“苹果(公司)”、“苹果(电影)”和“苹果(歌曲)”四个第三实体。随后通过图相似度的方式，结合上下文信息，确定与文本数据中的“苹果”之间图相似度最高的实体为“苹果(公司)”，从而将文本数据中的“苹果”链接至“苹果(公司)”，即将“苹果(公司)”作为第二实体。
[0072]
由于大量实体关系在句子是以动词为载体，而通过抽象语义表示抽出到大关系通常是实体间的动词。因此，为避免构建的知识图谱中有歧义产生，同时增加知识图谱中知识的可读性，还可以将抽取到的第一实体关系映射为预设实体关系库中的第二实体关系。其中，预设实体关系库中包含多个预设的标准实体关系。
[0073]
例如，针对文本数据“苹果发布了新手机”，可以抽取到两组对应的第一实体和第一实体关系，即“发布—苹果”、“发布—手机”，据此可以得到三元组“苹果—发布—手机”。根据上例可知，在实体消歧中，“苹果”用于指代“苹果(公司)”，而通过查询预设实体关系库
中的映射关系，可以查询到“发布”与“研发者”对应，即可以将三元组“苹果—发布—手机”转换为标准三元组“苹果(公司)—研发者—手机”，并根据该标准三元组构建知识图谱。
[0074]
在一些实施例中，若抽取到的第一实体关系无法映射至预设实体关系库中的实体关系，则可以根据该第一实体关系在文本数据中的出现频率或出现次数，来判断其是否为新增的实体关系。例如，可以设定当出现频率大于每1000字1次时，将其作为新增的实体关系，也可以设定当出现次数大于5次时，将其作为新增的实体关系。通过该方式，可以在文本数据中有效的挖掘出更多的潜在三元组。
[0075]
需要说明的是，三元组是知识谱图的基本单位，一个三元组中包含头实体、关系和尾实体。其中，这里的关系即头实体和尾实体之间的实体关系。通过将多个三元组之间的头尾相连，即可形成一张描述万物关系的知识图谱。
[0076]
示例性地，三元组中的头实体、关系和尾实体可以理解为句法中的主语、谓语和宾语。本公开实施例中的头实体和尾实体根据第一实体构建，关系根据第一实体关系构建。
[0077]
需要说明的是，本公开实施例中的“第一实体”、“第二实体”和“第三实体”仅是为了区分不同的实体，而不应理解为明示或暗示不同实体的顺序、相对重要性以及数量关系。“第一实体关系”、“第二实体关系”仅是为了区分不同的实体关系，而不应理解为明示或暗示不同节点的顺序、相对重要性以及数量关系。
[0078]
在一些实施例中，由于采用抽象语义表示图的方式相较于传统深度学习模型的方式，抽取准确率较低，因此为了保证知识图谱构建的准确性，本公开在构建知识图谱后，还增加了对目标知识图谱的校验操作，并仅将目标知识图谱中未通过校验的三元组从目标知识图谱中剔除，从而确保了目标知识图谱中知识的准确性。由此可见，本公开实施例能够在无需人工标注的语料数据参与的前提下，构建出具有高准确性的知识图谱。
[0079]
具体地，图5示出了本公开实施例中一种知识图谱校验方法的流程示意图。如图5所示，本公开实施例中的知识图谱校验方法包括如下步骤。
[0080]
s501，对目标知识图谱中的至少一个三元组进行校验。
[0081]
在一些实施例中，目标知识图谱的校验方式可以是掩码预测的方式。由于目标图谱中包含至少一个三元组，通过对至少一个三元组分别使用掩码预测的方式进行校验，即可完成对知识图谱的校验。
[0082]
下面将以目标知识图谱中的一个三元组为例，说明本公开实施例中对三元组的校验过程。
[0083]
通过分别对三元组中的头实体、关系和尾实体进行掩码预测，可以得到三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率。根据三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率，可以得到三元组的存在概率。根据三元组的存在概率，即可校验三元组。
[0084]
示例性地，掩码预测的具体方式可以是：针对至少一个三元组中的每个三元组，分别对三元组中的头实体、关系和尾实体进行掩码处理，得到头实体掩码三元组、关系掩码三元组和尾实体掩码三元组；将头实体掩码三元组、关系掩码三元组和尾实体掩码三元组分别输入预训练的掩码预测模型，得到三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率。
[0085]
需要说明的是，上述存在概率，可以理解为置信概率，即可靠程度的概率。例如，上
述三元组中头实体的存在概率，可以理解为头实体在三元组中存在的可靠程度，即将被掩码的头实体是作为目标知识图谱中三元组的头实体的概率。针对三元组中关系的存在概率、三元组中尾实体的存在概率以及三元组的存在概率，由于其理解方式与三元组中头实体的存在概率相似，本公开对此不再赘述。
[0086]
在一些实施例中，根据三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率，得到三元组的存在概率的方法，可以通过任意数学上的方式实现。例如，将头实体的存在概率、关系的存在概率和尾实体的存在概率依次相乘，作为三元组的存在概率。也可以将头实体的存在概率、关系的存在概率和尾实体的存在概率加权求和，作为三元组的存在概率。本公开实施例对此不做限定。
[0087]
需要说明的是，掩码预测可以理解为对部分特征进行掩码(mask)处理(或者称为遮盖处理)，以预测得到被遮盖部分的特征。
[0088]
同理，本公开实施例中对头实体、关系、尾实体进行掩码预测可以理解为对头实体、关系、尾实体随机进行掩码(mask)处理(或者称为遮盖处理)，，以预测得到被遮盖部分的头实体、关系或尾实体。
[0089]
需要说明的是，本公开实施例中的头实体掩码三元组，可以理解为将三元组中的头实体进行掩码处理后得到的三元组。关系掩码三元组，可以理解为将三元组中的关系进行掩码处理后得到的三元组。尾实体掩码三元组，可以理解为将三元组中的尾实体进行掩码处理后得到的三元组。
[0090]
在一些实施例中，掩码预测模型可以采用transformer编码器模型。
[0091]
示例性地，图6示出了针对掩码预测模型的训练方法示意图。其中，[cls]和[sep]分别用于表示文本数据的开头和结尾，w1用于表示文本数据中的字词，e
s,1
用于表示头实体，[mask]用于表示掩码，e
t,1
用于表示尾实体。
[0092]
如图6所示，将与文本数据拼接后的知识图谱中的全部三元组作为输入，同时送入模型，来构建知识间的依赖关系。其中文本数据为模型的全局记忆。学习的方式可以采用无监督的掩码预测策略，随机对知识中的实体和关系进行掩码预测，使得模型能够建模实体与实体，实体与实体关系间的信息交互过程，实现对实体和实体关系学习的联合建模。
[0093]
s502，将至少一个三元组中未通过校验的三元组从目标知识图谱中剔除。
[0094]
在一些实施例中，可以通过预设校验概率条件的方式对三元组进行剔除。
[0095]
示例性地，若三元组的存在概率不满足预设校验概率条件，则确定三元组未通过校验，进而将未通过校验的三元组从目标知识图谱中剔除。
[0096]
示例性地，预设校验概率条件可以是一个阈值，例如，将存在概率小于该阈值的三元组从目标知识图谱中剔除。也可以是一个概率范围，例如，将存在概率未落入该概率范围内的三元组从目标知识图谱中剔除。本公开实施例对此不做限定。
[0097]
值得注意的是，在本公开实施例中对掩码预测模型的训练过程中，使用的文本数据及三元组无需经过额外的标注。
[0098]
图7示出本公开实施例中一种知识图谱构建装置的结构示意图，如图7所示，该知识图谱构建装置700包括：解析模块701、抽取模块702和构建模块703。
[0099]
具体地，解析模块701用于，解析文本数据，生成所述文本数据的抽象语义表示图。抽取模块702用于，根据所述抽象语义表示图，抽取所述文本数据中的第一实体和第一实体
关系，所述第一实体和所述第一实体关系之间具有对应关系。构建模块703用于，根据所述第一实体和所述第一实体关系，构建目标知识图谱。
[0100]
在一些实施例中，构建模块703还用于，对第一实体进行实体消歧，得到第二实体；根据第二实体和第一实体关系，构建目标知识图谱。
[0101]
在一些实施例中，构建模块703还用于，根据第一实体与预设实体库中每个预设实体之间的字符串相似度，从预设实体库中筛选出多个第三实体；分别计算第一实体对应的抽象语义表示子图与多个第三实体各自对应的知识图谱子图之间的图相似度，抽象语义表示子图根据第一实体在抽象语义表示图中的邻接关系生成，知识图谱子图根据与知识图谱子图对应的第三实体在预设知识图谱中的邻接关系生成；将与抽象语义表示子图之间图相似度最高的知识图谱子图对应的第三实体与第一实体链接，得到第二实体。
[0102]
在一些实施例中，构建模块703还用于，根据第一实体关系与预设实体关系库中每个实体关系的映射关系，将第一实体关系映射为第二实体关系，第二实体关系为存在于预设实体关系库中的实体关系；根据第二实体和第二实体关系，构建目标知识图谱。
[0103]
在一些实施例中，知识图谱构建装置700还包括校验模块，目标知识图谱包括至少一个三元组，至少一个三元组中的每个三元组均包括头实体、关系和尾实体，其中，头实体和尾实体根据第一实体构建，关系根据第一实体关系构建。
[0104]
具体地，校验模块用于，对目标知识图谱中的至少一个三元组进行校验；将至少一个三元组中未通过校验的三元组从目标知识图谱中剔除。
[0105]
在一些实施例中，校验模块还用于，针对至少一个三元组中的每个三元组，分别对三元组中的头实体、关系和尾实体进行掩码预测，得到三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率；根据三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率，得到三元组的存在概率；根据三元组的存在概率，校验三元组。
[0106]
在一些实施例中，校验模块还用于，针对至少一个三元组中的每个三元组，分别对三元组中的头实体、关系和尾实体进行掩码处理，得到头实体掩码三元组、关系掩码三元组和尾实体掩码三元组；将头实体掩码三元组、关系掩码三元组和尾实体掩码三元组分别输入预训练的掩码预测模型，得到三元组中头实体的存在概率、三元组中关系的存在概率和三元组中尾实体的存在概率。
[0107]
在一些实施例中，校验模块还用于，若三元组的存在概率不满足预设校验概率条件，则确定三元组未通过校验。
[0108]
在一些实施例中，文本数据为非结构化文本数据。
[0109]
需要说明的是，上述实施例提供的知识图谱构建装置在用于知识图谱构建时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的知识图谱构建装置与知识图谱构建方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0110]
所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统
称为“电路”、“模块”或“系统”。
[0111]
下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例，不应对本公开实施例的功能和适用范围带来任何限制。
[0112]
如图8所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
[0113]
其中，存储单元存储有程序代码，程序代码可以被处理单元810执行，使得处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0114]
在一些实施例中，处理单元810可以执行上述方法实施例的如下步骤：解析文本数据，生成文本数据的抽象语义表示图；根据抽象语义表示图，抽取文本数据中的第一实体和第一实体关系，第一实体和第一实体关系之间具有对应关系；根据第一实体和第一实体关系，构建目标知识图谱。
[0115]
存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(rom)8203。
[0116]
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0117]
总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0118]
电子设备800也可以与一个或多个外部设备840(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备800交互的设备通信，和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口850进行。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0119]
通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
[0120]
在本公开的示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形
式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0121]
本公开中的计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0122]
在本公开中，计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0123]
可选地，计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0124]
在具体实施时，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0125]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0126]
此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。
[0127]
通过以上实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
[0128]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的
权利要求指出。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：信息处理装置、信息处理方法和程序与流程

知识图谱构建方法、装置、电子设备及存储介质与流程

相关文献

最热文献