一种实体链接方法及装置与流程

2022-04-02 02:23:46 来源：中国专利 TAG：

1.本技术涉及知识图谱技术领域，特别涉及一种实体链接方法及装置、计算设备和计算机可读存储介质。

背景技术：

2.随着互联网的迅速发展，网络上各类文本信息，其中包含了人名、地名和组织名等各种实体指称。由于自然语言表达的多样性，一个实体指称往往可以指向多个真实实体，因此，为了正确理解文本中的实体指称的真实含义，需要将文本中的实体指称链接到实体知识库中相应的无歧义实体上。
3.由于神经网络、深度学习的方法以其端到端、无需人工特征工程等优良特性，迅速在计算机视觉、自然语言处理的一些任务上得到应用，并取得了优于传统方法的结果。实体链接领域也不例外，通过浅层的词向量或者神经网络模型等方法，一定程度上提升了实体链接任务的效果，但至少存在效率不高、适用性有限，准确率不高等问题亟待解决。

技术实现要素：

4.有鉴于此，本技术实施例提供了一种实体链接方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。
5.根据本技术实施例的第一方面，提供了一种实体链接方法，包括：
6.将待链接文本输入预先训练的信息标注模型，获得所述信息标注模型输出的第一编码向量，所述第一编码向量表征所述待链接文本的实体指称；
7.基于所述第一编码向量以及所述待链接文本中包含的时间信息，从预先构建的知识图谱中筛选出与所述待链接文本相关的简历信息；
8.将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，所述第二编码向量表征所述简历信息的候选实体；
9.在确定所述第一编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接。
10.可选地，所述将待链接文本输入预先训练的信息标注模型，获得所述信息标注模型输出的第一编码向量，所述第一编码向量表征所述待链接文本的实体指称，包括：
11.将待链接文本输入所述信息标注模型，对所述待链接文本进行分词处理获得所述待链接文本的词单元，并对所述词单元进行预嵌入处理，得到所述词单元对应的词向量、句向量和位置向量；
12.对所述词单元对应的词向量、句向量以及位置向量进行加和，生成所述词单元对应的待链接向量；
13.所述信息标注模型的向量编码模块对所述待链接向量进行编码，获得中间编码向量；
14.所述向量标注模型的命名实体标注模块对所述待链接文本进行实体指称识别，并
根据识别结果对所述中间编码向量进行实体指称标注，生成所述第一编码向量。
15.可选地，所述将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，包括：
16.将所述简历信息输入所述向量编码模型，对所述简历信息进行分词处理获得所述简历信息的词单元，并对所述词单元进行预嵌入处理，得到所述词单元对应的词向量、句向量和位置向量；
17.对所述词单元对应的词向量、句向量以及位置向量进行加和，生成所述词单元对应的所述中间向量；
18.将所述中间向量输入所述信息标注模型的向量编码模块进行编码，获得所述第二编码向量。
19.可选地，所述基于所述第一编码向量以及所述待链接文本中包含的时间信息，从预先构建的知识图谱中筛选出与所述待链接文本相关的简历信息，包括：
20.对所述待链接文本进行预处理，获得所述待链接文本中包含的时间信息；
21.基于所述实体指称在预先构建的知识图谱中进行第一信息筛选，获得中间筛选信息；
22.基于所述时间信息，对所述中间筛选信息进行第二信息筛选，获得所述简历信息。
23.可选地，所述获得所述向量编码模型输出的第二编码向量之后，还包括：
24.将所述第一编码向量与所述第二编码向量进行拼接；
25.根据拼接获得的编码向量确定所述查询文本与所述简历描述信息间的匹配度；
26.在确定所述第一编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，则将所述实体指称与所述候选实体进行实体链接。
27.可选地，所述获得所述向量编码模型输出的第二编码向量之后，还包括：
28.将所述第一编码向量与所述第二编码向量进行拼接；
29.将拼接获得的编码向量输入所述向量编码模型的文本匹配模块，所述文本匹配模块对所述编码向量进行匹配度计算，并输出计算结果。
30.可选地，所述将所述实体指称与所述候选实体进行实体链接，包括：
31.对所述候选实体进行实体筛选，获得目标候选实体；
32.根据所述目标候选实体确定对应的目标关系以及所述目标候选实体的属性信息；
33.基于所述目标关系以及所述属性信息，将所述实体指称与所述候选实体进行实体链接。
34.可选地，所述实体链接方法，还包括：
35.确定所述待链接文本中各实体指称分别对应的位置向量；
36.将所述位置向量与所述第一编码向量进行融合，获得融合编码向量；
37.在确定所述融合编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接。
38.根据本技术实施例的第二方面，提供了一种实体链接装置，包括：
39.第一处理模块，被配置为将待链接文本输入预先训练的信息标注模型，获得所述信息标注模型输出的第一编码向量，所述第一编码向量表征所述待链接文本的实体指称；
40.筛选模块，被配置为基于所述第一编码向量以及所述待链接文本中包含的时间信
息，从预先构建的知识图谱中筛选出与所述待链接文本相关的简历信息；
41.第二处理模块，被配置为将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，所述第二编码向量表征所述简历信息的候选实体；
42.链接模块，被配置为在确定所述第一编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接。
43.根据本技术实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述实体链接方法的步骤。
44.根据本技术实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述实体链接方法的步骤。
45.本技术实施例中，通过将待链接文本输入预先训练的信息标注模型，获得所述信息标注模型输出的第一编码向量，所述第一编码向量表征所述待链接文本的实体指称，基于所述第一编码向量以及所述待链接文本中包含的时间信息，从预先构建的知识图谱中筛选出与所述待链接文本相关的简历信息，将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，所述第二编码向量表征所述简历信息的候选实体，在确定所述第一编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接；
46.实现了采用联合训练的方式同时完成实体识别和实体链接任务，并且通过对待链接文本中的信息进行预处理以提取时间信息，以利用时间信息以及实体标注信息对知识图谱中的简历信息进行筛选，提高了筛选结果的准确性，另外，在用于表征待链接文本中实体指称的第一编码向量与用于表征简历信息中候选实体的第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接，有利于提高链接效率，并有利于保证链接结果的准确性。
附图说明
47.图1是本技术实施例提供的计算设备的结构框图；
48.图2是本技术实施例提供的实体链接方法的流程图；
49.图3是本技术实施例提供的一种向量编码模块的架构示意图；
50.图4是本技术实施例提供的实体链接方法的实现过程示意图；
51.图5是本技术实施例提供的实体链接方法的处理过程流程图；
52.图6是本技术实施例提供的实体链接装置的结构示意图。
具体实施方式
53.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
54.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其
他含义。还应当理解，本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
55.应当理解，尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。
56.首先，对本发明一个或多个实施例涉及的名词术语进行解释。
57.知识图谱(knowledge graph，kg)：又称科学知识图谱，是图书情报学领域的概念，用于绘制、分析和显示学科或学术研究主体之间的相互联系，是揭示显示科学知识发展进程与结构关系的可视化工具。
58.entity(实体)：实体是知识图谱的基本单元，也是文本中承载信息的重要语言单位。
59.mention(提及)：自然文本中表达实体的语言片段。
60.实体链接：就是把文本中的mention链接到kg里的entity的任务。
61.在本技术中，提供了一种实体链接方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。
62.图1示出了根据本技术一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。
63.计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
64.在本技术的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本技术范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
65.计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
66.其中，处理器120可以执行图2所示实体链接方法中的步骤。图2示出了根据本技术一实施例的实体链接方法的流程图，包括步骤202至步骤208。
67.步骤202，将待链接文本输入预先训练的信息标注模型，获得所述信息标注模型输出的第一编码向量，所述第一编码向量表征所述待链接文本的实体指称。
68.本说明书实施例所述的实体链接方法可应用于政务、财经、军事等领域，所述信息
标注模型通过预训练模型实现，其中，预训练模型包括12个堆栈层，该12个堆栈层依次连接。每个堆栈层中还包括：自注意力层、第一规范层、前馈层以及第二规范层。将待链接文本作为输入集输入至信息标注模型的嵌入层，得到文本向量，然后将文本向量输入至第1个堆栈层，将第1个堆栈层的输出向量输入至第2个堆栈层
……
依次类推，最终得到最后一个堆栈层的输出向量。将最后一个堆栈层的输出向量作为每个词单元的表示向量输入至前馈层进行处理，得到输入集的编码向量。
69.进一步的，所述将待链接文本输入预先训练的信息标注模型，获得所述信息标注模型输出的第一编码向量，所述第一编码向量表征所述待链接文本的实体指称，具体可通过以下方式实现：
70.将待链接文本输入所述信息标注模型，对所述待链接文本进行分词处理获得所述待链接文本的词单元，并对所述词单元进行预嵌入处理，得到所述词单元对应的词向量、句向量和位置向量；
71.对所述词单元对应的词向量、句向量以及位置向量进行加和，生成所述词单元对应的待链接向量；
72.所述信息标注模型的向量编码模块对所述待链接向量进行编码，获得中间编码向量；
73.所述向量标注模型的命名实体标注模块对所述待链接文本进行实体指称识别，并根据识别结果对所述中间编码向量进行实体指称标注，生成所述第一编码向量。
74.在本说明书的一个实施例中，所述信息标注模型即命名实体识别(ner)模型，所述信息标注模型通过预训练模型(bert模型)实现，实际应用中，由于所述预训练模型可提供一些通用的语言学信息和一些通用领域的先验知识，因此，可基于预训练模型并结合其他的层结构来构建相应的模型，例如，预训练模型结合分类层即构建生成信息标注模型，为便于描述，本说明书实施例将所述信息标注模型中的bert模型统一称为向量编码模块。
75.在应用阶段，将查询文本(待链接文本)输入信息标注模型，所述信息标注模型中的嵌入层对所述待链接文本进行分词处理，获得所述待链接文本的词单元，并对所述词单元进行预嵌入处理，得到所述词单元对应的词向量、句向量和位置向量，再对所述词向量、句向量以及位置向量进行加和，生成待链接文本的词单元对应的待链接向量，将所述待链接文本输入所述信息标注模型的向量编码模块，以对所述待链接向量进行编码，获得中间编码向量，最后将所述中间编码向量输入分类层(命名实体标注模块)，以对所述中间编码向量进行实体指称标注，并输出带有实体指称标注信息的第一编码向量，所述第一编码向量表征所述待链接文本的实体指称(mention)。
76.具体的，实体指称即自然文本中表达实体的语言片段，以待链接文本(查询文本)为“张三为x市的某领导，他在x市工作时长为三年，并在y年获得优秀领导人称号”为例，所述待链接文本中的“张三”、“x市”、“某领导”、“他”以及“优秀领导人”均可作为实体指称。
77.本说明书实施例中，输入集可以采用以下格式：[[cls]，待链接文本，[sep]]。
[0078]
以给定的待链接文本为“张三是z游戏中的英雄”为例，可将所述待链接文本作为输入集，并以字符串的形式输入ner模型的向量编码模块，获取输出的中间编码向量；具体的示意图如图3所示，其中，嵌入层生成的输入向量(中间编码向量)，由下面3种向量求和而成：
[0079]
词单元向量——每个词单元对应的向量；
[0080]
句向量——每个词单元所属的句子向量；
[0081]
位置向量——每个词单元对应的位置所生成向量。
[0082]
例如，待链接文本为“张三是z游戏中的英雄”，对所述待链接进行分词处理，得到词单元集合[[cls]、张、三、是、z、游、戏、的、英、雄、[sep]]，其中，cls为句首标志符号，sep为分句标志符号，将上述词单元集合进行嵌入处理后输入至向量编码模块，将向量编码模块最后一个堆栈层的输出向量作为每个词单元的表示向量输入至前馈层进行处理，得到输入集的编码向量为[a1、a2、
……a10
、a
11
]。
[0083]
向量编码模块输出中间编码向量后，可通过分类层对中间编码向量中的每个字单元进行实体指称标注，以确定所述待链接文本中实体指称的开始或结束位置索引，其中，所述向量编码模块相当于是带有一些先验特征的一个编码器，通过向量编码模块对输入的待链接进行编码之后，由所述ner模型的分类层执行针对向量编码模块输出的中间编码向量的序列标注任务，即识别中间编码向量中每一个字符对应的标签类别，并根据类别进行信息标注，例如，对于非目标信息，即标注为o，对于目标信息，即标注为pr。
[0084]
根据标注结果即可确定所述待链接文本中有哪几个实体指称，以及各个实体指称的位置索引、各个实体指称在知识库中的id等。
[0085]
本说明书实施例通过向量编码模块对输入的待链接文本进行编码之后，由所述ner模型的分类层执行针对向量编码模块输出的中间编码向量的序列标注任务，有利于保证标注结果的准确性。
[0086]
步骤204，基于所述第一编码向量以及所述待链接文本中包含的时间信息，从预先构建的知识图谱中筛选出与所述待链接文本相关的简历信息。
[0087]
具体实施时，所述基于所述第一编码向量以及所述待链接文本中包含的时间信息，从预先构建的知识图谱中筛选出与所述待链接文本相关的简历信息，具体可通过以下方式实现：
[0088]
对所述待链接文本进行预处理，获得所述待链接文本中包含的时间信息；
[0089]
基于所述实体指称在预先构建的知识图谱中进行第一信息筛选，获得中间筛选信息；
[0090]
基于所述时间信息，对所述中间筛选信息进行第二信息筛选，获得所述简历信息。
[0091]
具体的，在确定待链接文本后，可对所述待链接文本进行预处理，以获得所述待链接文本中包含的时间信息，并根据所述时间信息以及所述第一编码向量中包含的实体指称标注信息在预先构建的知识图谱中进行信息筛选，获取与所述时间信息以及所述实体指称信息关联的简历信息。
[0092]
其中，所述预处理可以包括对所述待链接文本进行语义识别或对所述待链接文本进行关键词提取，以获取所述待链接文本中包含的时间信息，具体的处理方式可根据实际需求确定，在此不做任何限制。
[0093]
实际应用中，由于所述实体链接方法的应用场景中，所涉及的实体多为实际的人物名称，而知识图谱中存储有大量关于人物名称的简历信息，并且，简历信息中的个人基本情况、学历情况以及工作资历情况等均与时间相关，因此，在确定待链接文本中包含的实体指称以及时间信息后，结合实体指称和时间信息进行简历信息筛选，可获得更为准确的筛
选结果。
[0094]
步骤208，将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，所述第二编码向量表征所述简历信息的候选实体。
[0095]
具体的，所述向量编码模型即文本匹配模型，可通过预训练模型(bert模型)实现，为便于描述，本说明书实施例将所述信息标注模型中的bert模型统一称为向量编码模块。
[0096]
具体实施时，将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，具体可通过以下方式实现：
[0097]
将所述简历信息输入所述向量编码模型，对所述简历信息进行分词处理获得所述简历信息的词单元，并对所述词单元进行预嵌入处理，得到所述词单元对应的词向量、句向量和位置向量；
[0098]
对所述词单元对应的词向量、句向量以及位置向量进行加和，生成所述词单元对应的所述中间向量；
[0099]
将所述中间向量输入所述信息标注模型的向量编码模块进行编码，获得所述第二编码向量。
[0100]
具体的，向量编码模型对所述简历信息进行分词处理、预嵌入处理以及编码过程的具体实现方式与前述由信息标注模型对所述待链接文本进行处理的具体实现过程类似，在此不再赘述。
[0101]
步骤210，在确定所述第一编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接。
[0102]
具体的，在获得与所述待链接文本相关的简历信息后，可将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，所述第二编码向量表征所述简历信息的候选实体。
[0103]
考虑到预先构建的知识图谱中包含的实体可能存在重名的情况，根据实体指称以及时间信息进行简历信息筛选，获得的筛选结果中可能存在同一实体指称对应多个简历信息，因此，在获得待链接文本的第一编码向量以及简历信息对应的第二编码向量后，需计算第一编码向量以及第二编码向量间的匹配度，并将匹配度最高的简历信息中包含的实体作为候选实体，将所述候选实体与待链接文本中的实体指称进行实体链接即可。
[0104]
进一步的，获得所述向量编码模型输出的第二编码向量之后，实体指称与所述候选实体进行实体链接的过程，具体可通过以下方式实现：
[0105]
将所述第一编码向量与所述第二编码向量进行拼接；
[0106]
根据拼接获得的编码向量确定所述查询文本与所述简历描述信息间的匹配度；
[0107]
在确定所述第一编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接。
[0108]
另外，第一编码向量与所述第二编码向量间的匹配度可通过向量编码模型的文本匹配模块计算，具体可通过以下方式实现：
[0109]
将所述第一编码向量与所述第二编码向量进行拼接；
[0110]
将拼接获得的编码向量输入所述向量编码模型的文本匹配模块，所述文本匹配模块对所述编码向量进行匹配度计算，并输出计算结果。
[0111]
或者，还可通过以下方式实现：
[0112]
确定所述待链接文本中各实体指称分别对应的位置向量；
[0113]
将所述位置向量与所述第一编码向量进行融合，获得融合编码向量；
[0114]
在确定所述融合编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接。
[0115]
具体的，在获得信息标注模型输出的第一编码向量后，由于所述第一编码向量用于表征所述待链接文本的实体指称，因此，可确定所述待链接文本中包含的需要进行链接的实体，以及各实体对应的位置向量，例如：待链接文本为“李白是李xx的一首歌”，其中，“李白”是一个实体指称，并且“李白”在待链接文本中对应的位置向量即为[0 1 1 0 0 0 0 0 0 0 0 0]，在确定待链接文本中各实体指称对应的位置向量后，将位置向量与用于表征实体指称的第一编码向量进行融合，并将融合获得的编码向量与所述第二编码向量进行拼接，并将拼接结果输入所述文本匹配模型，所述文本匹配模型的分类层执行针对融合获得的编码向量与所述第二编码向量的二分类任务，以确定融合获得的编码向量与所述第二编码向量间的匹配度。
[0116]
在确定融合获得的编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接并输出链接结果，实际应用中，对于链接结果，可通过输出界面进行显示，或者，在确定所述融合编码向量与所述第二编码向量间的匹配度小于等于预设匹配度阈值的情况下，可通过人工介入的方式对查询文本中的实体指称进行判定，即判定与所述实体指称的信息较为相似或较为匹配的是哪个简历信息，可对判定结果对应的简历信息进行更新，并将更新后的简历信息中包含的实体作为候选实体，将所述候选实体与待链接文本中的实体指称进行实体链接，并在所述输出界面展示链接结果，或者，可将匹配度低于预设阈值的多个候选实体在所述输出界面进行显示。
[0117]
实际应用中，由于融合获得的编码向量与所述第二编码向量的长度可能不同，因此融合获得的编码向量和第二编码向量选择前后拼接的方式进行向量拼接，但具体的前后顺序并无具体限定。
[0118]
另外，采用冻结bert预训练模型浅层网络层，保留部分深层网络的方式接下游ner及文本匹配任务完成模型构建，有利于减少模型训练时间，提高训练效率，一定程度上可以提升算法模型的准确度。
[0119]
除此之外，在确定第一编码向量和第二编码向量之间的匹配度低于预设阈值，但高于标准值的情况下(例如在0.5～0.9或者0.5～0.8之间)，则需通过人工介入的方式对查询文本中的实体指称进行判定，即判定与所述实体指称的信息较为相似或较为匹配的是哪个简历信息，可对判定结果对应的简历信息进行更新，并将更新后的简历信息中包含的实体作为候选实体，将所述候选实体与待链接文本中的实体指称进行实体链接，并输出实体链接结果。
[0120]
此外，将所述实体指称与所述候选实体进行实体链接，具体可通过以下方式实现：
[0121]
对所述候选实体进行实体筛选，获得目标候选实体；
[0122]
根据所述目标候选实体确定对应的目标关系以及所述目标候选实体的属性信息；
[0123]
基于所述目标关系以及所述属性信息，将所述实体指称与所述候选实体进行实体链接。
[0124]
具体的，在实际应用中，同一个词在不同的上下文中表达不同的含义，会有不同的
意思，因此需要进行实体筛选，实体筛选的过程可以包括但不限于实体消歧、实体归一和指代消解，实体消歧的目的是将同一个词根据不同的上下文对应不同的实体，如对于李白，出现在关于歌曲的上下文语境中，则可以确定为歌名，出现在诗词相关的上下文语境中，则可以确定为诗人，同样的，在实际应用中，还有可能会出现两个词对应同一个实体的情况，如“北京”和“祖国的首都”，两个词虽然在字面上是两个不同的实体，但是实际指代的是相同的实体，还需要对多个候选实体进行实体归一(entity resolution)操作。
[0125]
指代消解(co-reference resolution)也是知识融合中的重要一步，在目标审核信息中，通常会有很多指代词如“他”、“它”、“她们”等等，知识融合还需要确定每个指代词对应的实体，如对于一句话“张三为x市的某领导，他在x市工作时长为三年，并在y年获得优秀领导人称号。”其中的“他”经过指代消解后，可以确定指代的具体是指“张三”。
[0126]
经过对候选实体的实体消歧、实体归一和指代消解等操作，可以确定目标候选实体，基于目标候选实体则可以确定与目标候选实体对应的目标关系和目标候选实体的属性信息，再给予所述目标关系以及所述属性信息，将所述实体指称与所述候选实体进行实体链接并输出链接结果即可。
[0127]
另外，本说明书实施例提供的实体链接方法的实现过程示意图如图4所示：图4中的命名实体识别(ner)模型用于对查询文本进行实体识别，文本匹配模型用于对两个向量的匹配度进行计算，并且所述命名实体识别模型以及所述文本匹配模型均可通过预训练模型(bert模型)实现。
[0128]
将标注数据输入命名实体识别(ner)模型以及文本匹配模型进行模型训练，两个模型采用联合训练的方式构建模型框架，其中ner模型为一个序列标注任务，文本匹配模型为文本匹配任务，采用多任务损失进行联合训练和优化。
[0129]
在应用阶段，将查询文本(待链接文本)输入信息标注模型，获得所述信息标注模型输出第一编码向量，所述第一编码向量表征所述待链接文本的实体指称(mention)，其中，将所述查询文本输入信息标注模型中的向量编码模块，由向量编码模块输出查询文本对应的中间编码向量，并将所述中间编码向量输入分类层，以对所述中间编码向量进行实体指称标注，并输出带有实体指称标注信息的第一编码向量。
[0130]
另外，在确定待链接文本后，可对所述待链接文本进行预处理，以获得所述待链接文本中包含的时间信息，并根据所述时间信息以及所述第一编码向量中包含的实体指称标注信息在预先构建的知识图谱中进行信息筛选，获取与所述时间信息以及所述实体指称信息关联的简历信息。
[0131]
在获得与所述待链接文本相关的简历信息后，可将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，所述第二编码向量表征所述简历信息的候选实体。
[0132]
考虑到预先构建的知识图谱中包含的实体可能存在重名的情况，在根据实体指称以及时间信息进行简历信息筛选获得的筛选结果中，可能包含同一实体指称对应的多个简历信息的情形，因此，在获得待链接文本的第一编码向量以及简历信息对应的第二编码向量后，需计算第一编码向量以及第二编码向量间的匹配度，并将匹配度最高的简历信息中包含的实体作为候选实体，将所述候选实体与待链接文本中的实体指称进行实体链接即可。
[0133]
本说明书实施例通过将待链接文本输入预先训练的信息标注模型，获得所述信息标注模型输出第一编码向量，所述第一编码向量表征所述待链接文本的实体指称，基于所述第一编码向量以及所述待链接文本中包含的时间信息，在预先构建的知识图谱中进行信息筛选，获得与所述待链接文本相关的简历信息，将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，所述第二编码向量表征所述简历信息的候选实体，在确定所述第一编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接。
[0134]
实现了采用联合训练的方式同时完成实体识别和实体链接任务，并且通过对待链接文本中的信息进行预处理以提取时间信息，以利用时间信息以及实体标注信息对知识图谱中的简历信息进行筛选，提高了筛选结果的准确性，另外，在用于表征待链接文本中实体指称的第一编码向量与用于表征简历信息中候选实体的第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接，有利于提高链接效率，并有利于保证链接结果的准确性。
[0135]
图5示出了本技术一实施例的实体链接方法的处理过程流程图，包括步骤502至步骤522。
[0136]
步骤502，将待链接文本输入信息标注模型。
[0137]
步骤504，获得所述信息标注模型输出第一编码向量，所述第一编码向量表征所述待链接文本的实体指称。
[0138]
步骤506，对所述待链接文本进行预处理，获得所述待链接文本中包含的时间信息。
[0139]
步骤508，基于所述实体指称在预先构建的知识图谱中进行第一信息筛选，获得中间筛选信息。
[0140]
步骤510，基于所述时间信息，对所述中间筛选信息进行第二信息筛选，获得简历信息。
[0141]
步骤512，将所述简历信息输入所向量编码模型，获得第二编码向量。
[0142]
具体的，所述第二编码向量表征所述简历信息的候选实体。
[0143]
步骤514，确定所述待链接文本中各实体指称分别对应的位置向量。
[0144]
步骤516，将所述位置向量与所述第一编码向量进行融合，获得融合编码向量。
[0145]
步骤518，将所述融合编码向量与所述第二编码向量进行向量拼接。
[0146]
步骤520，根据拼接获得的编码向量确定所述查询文本与所述简历描述信息间的匹配度。
[0147]
步骤522，在确定所述匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接并输出链接结果。
[0148]
本说明书实施例实现了采用联合训练的方式同时完成实体识别和实体链接任务，有利于提高链接效率，并有利于保证链接结果的准确性；通过对待链接文本中的信息进行预处理以提取时间信息，利用时间信息以及实体标注信息对知识图谱中的简历信息进行筛选，筛选结果的准确性。
[0149]
与上述方法实施例相对应，本技术还提供了实体链接装置实施例，图6示出了本技术一个实施例的实体链接装置的结构示意图。如图6所示，该装置600包括：
[0150]
第一处理模块602，被配置为将待链接文本输入预先训练的信息标注模型，获得所述信息标注模型输出的第一编码向量，所述第一编码向量表征所述待链接文本的实体指称；
[0151]
筛选模块604，被配置为基于所述第一编码向量以及所述待链接文本中包含的时间信息，从预先构建的知识图谱中筛选出与所述待链接文本相关的简历信息；
[0152]
第二处理模块606，被配置为将所述简历信息输入预先训练的向量编码模型，获得所述向量编码模型输出的第二编码向量，所述第二编码向量表征所述简历信息的候选实体；
[0153]
链接模块608，被配置为在确定所述第一编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接。
[0154]
可选地，所述第一处理模块602，包括：
[0155]
文本处理子模块，被配置为将待链接文本输入所述信息标注模型，对所述待链接文本进行分词处理获得所述待链接文本的词单元，并对所述词单元进行预嵌入处理，得到所述词单元对应的词向量、句向量和位置向量；
[0156]
待链接向量生成子模块，被配置为对所述词单元对应的词向量、句向量以及位置向量进行加和，生成所述词单元对应的待链接向量；
[0157]
编码子模块，被配置为对所述待链接向量进行编码，获得中间编码向量；
[0158]
标注子模块，被配置为对所述待链接文本进行实体指称识别，并根据识别结果对所述中间编码向量进行实体指称标注，生成所述第一编码向量。
[0159]
可选地，所述第二处理模块606，包括：
[0160]
简历信息处理子模块，被配置为将所述简历信息输入所述向量编码模型，对所述简历信息进行分词处理获得所述简历信息的词单元，并对所述词单元进行预嵌入处理，得到所述词单元对应的词向量、句向量和位置向量；
[0161]
中间向量生成子模块，被配置为对所述词单元对应的词向量、句向量以及位置向量进行加和，生成所述词单元对应的所述中间向量；
[0162]
第二编码向量生成子模块，被配置为将所述中间向量输入所述信息标注模型的向量编码模块进行编码，获得所述第二编码向量
[0163]
可选地，所述筛选模块604，包括：
[0164]
预处理子模块，被配置为对所述待链接文本进行预处理，获得所述待链接文本中包含的时间信息；
[0165]
第一筛选子模块，被配置为基于所述实体指称在预先构建的知识图谱中进行第一信息筛选，获得中间筛选信息；
[0166]
第二筛选子模块，被配置为基于所述时间信息，对所述中间筛选信息进行第二信息筛选，获得所述简历信息。
[0167]
可选地，所述实体链接装置，还包括：
[0168]
拼接子模块，被配置为将所述第一编码向量与所述第二编码向量进行拼接；
[0169]
确定子模块，被配置为根据拼接获得的编码向量确定所述查询文本与所述简历描述信息间的匹配度；
[0170]
在确定所述第一编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值
的情况下，则运行所述链接模块。
[0171]
可选地，所述实体链接装置，还包括：
[0172]
拼接模块，被配置为将所述第一编码向量与所述第二编码向量进行拼接；
[0173]
匹配度计算模块，被配置为将拼接获得的编码向量输入所述向量编码模型的文本匹配模块，所述文本匹配模块对所述编码向量进行匹配度计算，并输出计算结果。
[0174]
可选地，所述链接模块608，包括：
[0175]
目标候选实体确定子模块，被配置为对所述候选实体进行实体筛选，获得目标候选实体；
[0176]
信息确定子模块，被配置为根据所述目标候选实体确定对应的目标关系以及所述目标候选实体的属性信息；
[0177]
实体链接子模块，被配置为基于所述目标关系以及所述属性信息，将所述实体指称与所述候选实体进行实体链接。
[0178]
可选地，所述实体链接装置，还包括：
[0179]
位置向量确定模块，被配置为确定所述待链接文本中各实体指称分别对应的位置向量；
[0180]
融合模块，被配置为将所述位置向量与所述第一编码向量进行融合，获得融合编码向量；
[0181]
实体链接模块，被配置为在确定所述融合编码向量与所述第二编码向量间的匹配度大于预设匹配度阈值的情况下，将所述实体指称与所述候选实体进行实体链接。
[0182]
需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0183]
本技术一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的实体链接方法的步骤。
[0184]
本技术一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述实体链接方法的步骤。
[0185]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的实体链接方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述实体链接方法的技术方案的描述。
[0186]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0187]
所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所
述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0188]
需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本技术所必须的。
[0189]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0190]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本技术的内容，可作很多的修改和变化。本技术选取并具体描述这些实施例，是为了更好地解释本技术的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：编码调度方法、服务器及客户端和获取远程桌面的系统与流程

一种实体链接方法及装置与流程

相关文献

最热文献