一种信息抽取方法、装置、设备及存储介质与流程

2022-03-26 16:55:39 来源：中国专利 TAG：

1.本技术涉及自然语言处理技术领域，尤其涉及一种信息抽取方法、装置、设备及存储介质。

背景技术：

2.信息抽取是从自然语言文本中抽取有用信息的主要手段，其中，实体和实体关系抽取，是信息抽取中最受关注的业务领域。
3.常规的信息抽取方法通常是先从文本中抽取实体，然后再分析实体间的关系，从而确定实体关系。该处理过程较繁琐，需要两步处理才能确定实体及实体间关系。而且，上述常规的信息抽取方法，完全是依赖待抽取文本自身的内容进行实体识别及实体关系确定，对实体和实体关系的识别准确度不高。

技术实现要素：

4.基于上述技术现状，本技术实施例提出一种信息抽取方法，该方法能够一次性地从待抽取文本中抽取出实体并确定实体关系，并且其信息抽取准确度更高。
5.为了达到上述目的，本技术具体提出如下技术方案：
6.一种信息抽取方法，包括：
7.从预设的知识库中选出与待抽取文本相似的实体，作为候选实体；
8.根据所述待抽取文本中的各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征；其中，所述待抽取文本中的文本段，由所述待抽取文本中的单个字符或者两个以上连续字符组成，所述融合特征包括文本段特征和候选实体特征；
9.根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系。
10.可选的，所述从预设的知识库中选出与待抽取文本相似的实体，作为候选实体，包括：
11.通过将待抽取文本与预设的知识库进行匹配，从预设的知识库中选出与所述待抽取文本相似的知识三元组；
12.从选出的知识三元组中确定出与所述待抽取文本相似的实体，作为候选实体。
13.可选的，所述方法还包括：
14.利用与所述待抽取文本相关的信息，对所述待抽取文本进行信息扩充。
15.可选的，根据所述待抽取文本中的各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征，包括：
16.分别确定所述待抽取文本中的各个文本段的向量编码，以及各个候选实体的向量编码；
17.根据各个文本段的向量编码，以及各个候选实体的向量编码，确定各个候选实体与各个文本段的相似度；
18.根据各个文本段的向量编码、各个候选实体的向量编码，以及各个候选实体与各个文本段的相似度，确定各个文本段的融合特征。
19.可选的，在分别确定所述待抽取文本中的各个文本段的向量编码后，所述方法还包括：
20.根据所述待抽取文本中的各个文本段的向量编码，从各个文本段中，滤除非实体文本段。
21.可选的，根据各个文本段的向量编码，以及各个候选实体的向量编码，确定各个候选实体与各个文本段的相似度，包括：
22.对于每个文本段，分别利用该文本段的向量编码以及各个候选实体的向量编码，确定该文本段与各个候选实体的相似度；
23.对该文本段与各个候选实体的相似度进行归一化。
24.可选的，根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系，包括：
25.根据所述待抽取文本中的各个文本段的融合特征，从所述各个文本段中确定出实体文本段，以及确定各个实体文本段的实体类型和各个实体文本段之间的关系。
26.可选的，根据所述待抽取文本中的各个文本段的融合特征，从所述各个文本段中确定出实体文本段，以及确定各个实体文本段的实体类型和各个实体文本段之间的关系，包括：
27.根据所述待抽取文本中的各个文本段的融合特征对所述各个文本段进行分类，从所述各个文本段中确定出实体文本段并确定各个实体文本段的实体类型；
28.根据确定出的各个实体文本段的融合特征，确定各个实体文本段之间的关系。
29.可选的，根据所述待抽取文本中的各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征；以及，根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系，包括：
30.将所述待抽取文本以及所述各个候选实体分别输入预先训练的信息抽取模型，使所述信息抽取模型对所述待抽取文本进行文本段划分，并根据各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征；以及，根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系。
31.一种信息抽取装置，包括：
32.候选实体筛选单元，用于从预设的知识库中选出与待抽取文本相似的实体，作为候选实体；
33.特征提取单元，用于根据所述待抽取文本中的各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征；其中，所述待抽取文本中的文本段，由所述待抽取文本中的单个字符或者两个以上连续字符组成，所述融合特征包括文本段特征和候选实体特征；
34.信息抽取单元，用于根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系。
35.一种信息抽取设备，包括：
36.存储器和处理器；
37.所述存储器与所述处理器连接，用于存储程序；
38.所述处理器，用于通过运行所述存储器中的程序，实现上述的信息抽取方法。
39.一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的信息抽取方法。
40.本技术提出的信息抽取方法，借助预设的知识库对待抽取文本进行处理，能够一次性地确定待抽取文本中的实体，以及确定实体间关系。而且，在上述的信息抽取过程中，参考了从预设的知识库中提取的与待抽取文本相似的实体的信息，即参考了外部知识，该外部信息的加入，使得用于识别实体及实体关系的参考信息更丰富，因此其信息抽取准确度更高。
附图说明
41.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
42.图1是本技术实施例提供的一种信息抽取方法的流程示意图；
43.图2是本技术实施例提供的另一种信息抽取方法的流程示意图；
44.图3是本技术实施例提供的一种信息抽取装置的结构示意图；
45.图4是本技术实施例提供的一种信息抽取设备的结构示意图。
具体实施方式
46.本技术实施例技术方案适用于从自然语言文本中抽取实体及实体关系的应用场景，采用本技术实施例技术方案，能够更加准确、高效地从待抽取文本中抽取出实体，同时确定实体间的关系。
47.上述的待抽取文本，可以是任意的自然语言文本，例如其可以是用户发言、新闻稿件、产品介绍、文章著作、患者病例等各种文本，其中的患者病例，可以是病人或宠物到医院就诊时产生的电子病例等。可见，本技术实施例所提出的信息抽取方法，适用于任意格式、任意类型的自然语言文本，理论上，只要是处理设备能够处理的文本类型，都可以通过执行本技术实施例技术方案实现实体及实体关系抽取。
48.在常规的自然语言处理方案中，也有相应的实体及实体关系抽取方案。但是现有的实体及实体关系抽取方案通常是分两步执行，即先从文本中抽取实体，然后再分析确定实体之间的关系。上述的两步执行的信息抽取过程，其处理效率较低。
49.而且，常规的信息抽取方案，均是依据待抽取文本本身进行实体识别，以及确定实体关系。但是，由于待抽取文本的多样性和不可预知性，信息抽取模型完全基于待抽取文本自身进行实体及实体关系预测，往往会由于对待抽取文本的不熟悉而造成实体及实体关系识别错误，整体的信息抽取准确度不高。
50.针对上述技术问题，本技术实施例提出一种信息抽取方案，该方案能够同时确定待抽取文本中的实体和实体关系，并且，该方案能够结合知识库信息进行实体及实体关系预测，由于参考信息更丰富，因此其信息抽取准确度更高。
51.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
52.本技术实施例提出一种信息抽取方法，参见图1所示，该方法包括：
53.s101、从预设的知识库中选出与待抽取文本相似的实体，作为候选实体。
54.具体的，上述的预设的知识库，是指包含待识别文本所属领域的文本的数据库，或者是仅由待识别文本所属领域的文本信息构成的数据库，例如其可以是包含待识别文本所属领域的知识信息的知识图谱。示例性的，在该知识库中，信息以三元组的方式存储，以便于信息检索和查询。
55.上述的待抽取文本，即为需要从中抽取实体并确定实体关系的待处理文本，其具体可以是任意的自然语言文本，本技术实施例以患者电子病例作为待抽取文本为例，介绍从患者电子病例中抽取实体及实体关系的实现过程，从而对本技术实施例提出的信息抽取方法进行形象、具体的介绍。
56.作为一种示例性的实现方式，从待抽取文本中识别实体，然后以识别出的实体为检索条件，从预设的知识库中检索与识别出的实体相似的实体，即可作为候选实体。
57.作为另一种可选的实现方式，将待抽取文本与预设的知识库进行匹配，从该预设的知识库中选出与待抽取文本匹配的实体，即可作为候选实体。
58.具体而言，首先，通过将待抽取文本与预设的知识库进行匹配，从预设的知识库中选出与待抽取文本相似的知识三元组。
59.由于该预设的知识库中的信息以三元组的形式存储，因此，将待抽取文本与该预设的知识库进行匹配，能够从中选出与该待抽取文本相匹配的知识三元组。
60.示例性的，上述预设的知识库中不仅存储知识三元组，还存储各知识三元组中的实体及实体关系的特征向量。在此基础上，可以先提取该待抽取文本的特征向量，然后将该待抽取文本的特征向量，与知识库中的各个知识三元组的特征向量进行匹配，从中选出与该待抽取文本匹配的知识三元组。
61.本技术实施例利用预训练的bert模型对待抽取文本所属领域的大量语料进行识别训练，从而使其能够准确提取该领域的字或词的向量。然后，利用经过训练后的bert模型，对待抽取文本进行特征提取，得到待抽取文本的特征向量，还可以得到待抽取文本中的每个字或词的特征向量。其中，上述的bert模型的结构，可以参见常规技术方案中关于bert模型的介绍，此处不再详述。
62.然后，从选出的知识三元组中确定出与待抽取文本相似的实体，作为候选实体。
63.即，将通过上述的匹配处理选出从各个知识三元组中的实体，直接作为候选实体。
64.可以理解，通过上述处理所确定的候选实体，是从知识库中确定出的与待抽取文本相似的实体。由于知识库中的文本所属领域是与待抽取文本所属领域相同或包含待抽取文本所属领域的。因此，通过上述处理选出的候选实体，能够反映出，在待抽取文本中，有些内容是与这些候选实体相似的，也就是说，在待抽取文本中，有些内容也是能作为实体的。所以，上述的候选实体的选出，将对待抽取文本中的实体的确定提供参考。
65.s102、根据所述待抽取文本中的各个文本段以及各个候选实体，确定所述待抽取
文本中的各个文本段的融合特征。
66.具体的，通常情况下，待抽取文本中的实体，是待抽取文本中的单个字符，或者是由两个及两个以上的连续字符组成的词组，每个实体具体包含的字符数量并不固定。
67.在对待抽取文本进行实体抽取时，本技术实施例采用的策略时，先罗列待抽取文本中包含的所有的、不同长度的文本段，然后再通过验证各个文本段是否为实体，达到实体抽取的目的。
68.基于上述思路，本技术实施例首先对待抽取文本进行文本段划分，具体的划分策略是，以待抽取文本的每个字符作为起始字符，分别从待抽取文本中按照从前到后的顺序依次截取包含1个字符、2个连续字符、3个连续字符
……
n个连续字符的文本段，其中，n小于等于从作为起始字符的字符到待抽取文本最后一个字符的总的字符数量。这样，对于包含w个字符的文本，共可以从中划分出n＝w(w 1)/2个文本段。其中，第i个文本段被定义为从start(i)到end(i)所包含的所有的字符，start(i)为第i个文本段的第一个字符在待抽取文本中的位置，end(i)为第i个文本段的最后一个字符在待抽取文本中的位置。
69.例如，假设某一患者病例中有一文本句“今日早晨复拍x光片可见直肠处有高密度阴影”，该文本共有19个字符，按照上述介绍，可以从中划分出19*(19 1)/2＝190个文本段，举例如表1所示：
70.表1
71.编号文本段start(i)end(i)1今112今日123今日早134日225日早23
…………
72.可以理解，通过上述处理从待抽取文本中提取的各个文本段，涵盖了待抽取文本中的所有可能的字或词组，提取出的每个文本段，都有可能是实体词。
73.在从待抽取文本中提取得到各个文本段后，本技术实施例进一步获取各个文本段的特征向量，从而便于后续进行实体识别和实体关系确定。
74.与常规的通过模型直接确定文本段的特征向量所不同的，本技术实施例在确定提取得到的各个文本段的特征向量时，不仅以文本段自身信息为基础，还结合从知识库中提取得到的各个候选实体的信息，将两者共同用于确定各个文本段的特征向量。
75.通过上文介绍可知，上述的各个候选实体，是与待抽取文本中的某些内容相似度较高的实体，这些候选实体，可以用于判断待抽取文本中的内容是否为实体。示例性的，如果待抽取文本中的某一文本段的特征向量与某一候选实体的特征向量相似度较高，或者完全相同，则可以确定该文本段与该候选实体相同或相似，由此可以将该文本段确定为实体。
76.但是在实际情况中，一个文本段可能与多个候选实体相似，此时对于确定该文本段与其他文本段之间的关系时，往往无法直接确定。
77.为了便于从待抽取文本中确定实体，并同时确定实体关系，本技术实施例根据待抽取文本中的文本段，以及各个候选实体，确定待抽取文本中的各个文本段的特征，在该特
征中融合了文本段自身的特征信息以及候选实体特征信息，因此将该特征向量称为融合特征。
78.示例性的，对于从待抽取文本中提取的每个文本段，将该文本段的特征与各个候选实体的特征进行融合，具体例如，将该文本段的特征与其相似度较高的候选实体的特征进行融合，作为该文本段的融合特征。
79.具体的各个文本段的融合特征的提取过程，可以参见后文实施例的详细介绍。
80.可以理解的是，按照上述方式所确定的待抽取文本的文本段的融合特征，不仅包含了文本段自身信息，还包含了外部知识信息，具体是包含了与待抽取文本相似的实体词的信息。相对而言，每个文本段的融合特征所包含的信息更丰富，更加有利于识别文本段是否为实体，以及确定文本段之间的关系。
81.s103、根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系。
82.具体的，根据待抽取文本中的各个文本段的融合特征，对待抽取文本中的各个文本段进行分类，可以确定待抽取文本中的各个文本段是否为实体。
83.比如，假设文本段a的融合特征除了包含文本段a本身的特征之外，还包括与其相似的3个候选实体的特征；而文本段b的融合特征除了包含文本段b本身的特征之外，还包括与其相似的8个候选实体的特征。对比来看，文本段b的融合特征包含更多的实体特征成分，因此，相比较而言，文本段b比文本段a更有可能是实体。这也与常规意识中所理解的，如果一个词与众多的实体词相似，那么这个词本身是实体词的概率较大是相符合的，只不过在本技术实施例中借助文本的特征，通过技术手段将这一自然规律应用于实体识别。
84.同时，对于被分类为实体的各个文本段，根据这些文本段的融合特征，进一步分析其相互之间的关系，可以确定实体关系。
85.由此可见，本技术实施例能够一次性地确定待抽取文本中的实体，以及确定实体关系。
86.通过上述介绍可见，本技术实施例提出的信息抽取方法，借助预设的知识库对待抽取文本进行处理，能够一次性地确定待抽取文本中的实体，以及确定实体间关系。而且，在上述的信息抽取过程中，参考了从预设的知识库中提取的与待抽取文本相似的实体的信息，即参考了外部知识，该外部信息的加入，使得用于识别实体及实体关系的参考信息更丰富，因此其信息抽取准确度更高。
87.作为一种优选的实施方式，本技术实施例在对待抽取文本进行信息抽取之前，先对该待抽取文本进行信息扩充，然后对信息扩充后的待抽取文本再进行信息抽取。
88.具体而言，利用与待抽取文本相关的信息，对待抽取文本进行信息扩充。
89.其中，与待抽取文本相关的信息，是指与待抽取文本的内容相似或有关联的信息。
90.假设待抽取文本为患者电子病例，则通过分析、挖掘患者之前的诊疗数据，其中部分信息对于患者的疾病诊疗和病历信息补全非常有用，例如，患者之前购买的保健品、购买的食品、疫苗接种情况(如果医院有记录，主要是补充和校准病历上的最近接种疫苗情况)、诊疗记录(主要补充和校验既往病史)等信息。
91.利用与待抽取文本相关的信息，对待抽取文本进行信息扩充，能够使得待抽取文本的信息更加丰富，不仅有利于确定与待抽取文本真正相似的候选实体，还有利于确定待
抽取文本自身所包含的文本段的特征，从而有利于更加准确地识别待抽取文本中的实体和实体关系。
92.可以理解，相对而言，与待抽取文本相关的信息，也是除待抽取文本之外的外部信息。因此，利用与待抽取文本相关的信息，对待抽取文本进行信息扩充，实际上也是将外部信息用于对待抽文本进行信息抽取，有利于提高信息抽取的准确度。
93.作为一种可选的实施方式，参见图2所示，本技术实施例提出的信息抽取方法，在执行步骤s201后，通过执行步骤s202～s204，实现根据待抽取文本中的各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征。
94.步骤s202～s204的具体内容包括：
95.s202、分别确定所述待抽取文本中的各个文本段的向量编码，以及各个候选实体的向量编码。
96.示例性的，对于待抽取文本中的各个文本段，借助前文介绍的经过训练的bert模型，可以获取待抽取文本中的每个字符的特征向量。
97.然后，对于每个文本段，根据该文本段中包含的每个字符的特征向量，可以得到该文本段的特征向量，即得到该文本段的向量编码，比如，对该文本段包含的每个字符的特征向量进行拼接，即可作为该文本段的向量编码。
98.而在知识库中，除了存储知识三元组外，还对应存储每个三元组中的实体以及实体关系的向量。因此，直接从知识库中可以读取得到每个候选实体的特征向量，并将读取的特征向量作为候选实体的向量编码。
99.作为另一种可选的实施方式，本技术实施例借助前馈神经网络，确定各个文本段的向量编码。
100.例如，第i个文本段的向量编码si，可以通过如下算式得到：
[0101][0102][0103][0104]
其中，ffnn表示前馈神经网络运算，x
start(i)
表示第i个文本段的起始字符的特征向量，x
end(i)
表示第i个文本段的结束字符的特征向量，β
i,t
表示第i个文本段中的第t个字符的特征向量对该文本段的特征向量的贡献率，表示第i个文本段中的各个字符的特征向量对该文本段的特征向量的贡献，表示第i个文本段的长度，[]表示向量拼接。
[0105]
对于各个候选实体，可以从知识库中读取各个候选实体的特征向量，然后，将候选实体的特征向量输入上述的前馈神经网络，即可得到各个候选实体的向量编码。
[0106]
具体可参见如下算式：
[0107]
nj＝ffnn(kj),kj∈k
[0108]
其中，k表示各个候选实体的特征向量集合，kj表示从集合k中读取的第j个候选实
体的特征向量，nj表示第j个候选实体的向量编码。
[0109]
s203、根据各个文本段的向量编码，以及各个候选实体的向量编码，确定各个候选实体与各个文本段的相似度权重。
[0110]
具体的，如前文所述，各个候选实体，是从知识库中选出的与待抽取文本相似的实体，但是，并不明确各个候选实体，究竟是与待抽取文本中的哪个文本段相似的实体，也不明确各个候选实体与各个文本段的相似度。
[0111]
但实际上，一个候选实体可能只与某些文本段相似，因此其只对确定某些文本段是否为实体有实际作用或主要作用。也就是说，不同的候选实体，对于确定不同的文本段是否为实体的作用是不同的。理论上，如果一个候选实体与一个文本段越相似，那么这个文本段是实体的可能性越强。即，候选实体与文本段的相似度高低，能够直接反映该文本段是实体的可能性的高低。同时，候选实体与文本段的相似度越高，则该文本段作为与该候选实体相同类型的实体的可能性就越高。由此可见，文本段与各个候选实体的相似度，对于从待抽取文本的各个文本段中准确识别实体，以及在将文本段确定为实体时，进一步确定实体间关系，是有辅助作用的。
[0112]
因此，本技术实施例对各个候选实体与各个文本段的相似度进行度量。
[0113]
在具体实施时，对于每个文本段，首先借助前馈神经网络，利用该文本段的向量编码以及各个候选实体的向量编码，确定每个候选实体与该文本段的相似度，得到该文本段与每个候选实体的相似度。
[0114]
具体如以下公式所示：
[0115]
α
ij
＝ffnn([si,nj])
[0116]
其中，α
ij
表示第i个文本段与第j个候选实体的相似度，[si,nj]表示第i个文本段的向量编码与第j个候选实体的向量编码的拼接结果。
[0117]
然后，对该文本段与各个候选实体的相似度进行归一化。
[0118]
具体如以下公式所示：
[0119][0120]
其中，β
ij
表示第i个文本段与第j个候选实体的归一化相似度，表示第i个文本段与各个候选实体的相似度之和。
[0121]
s204、根据各个文本段的向量编码、各个候选实体的向量编码，以及各个候选实体与各个文本段的相似度权重，确定各个文本段的融合特征。
[0122]
具体的，对于每个文本段，将该文本段自身的向量编码，以及各个候选实体的向量编码对该文本段的融合特征的贡献量进行融合，即为该文本段的融合特征。其中，候选实体的向量编码对文本段的融合特征的贡献量，通过候选实体的向量编码乘以该候选实体与该文本段的相似度而确定。
[0123]
示例性的，通过按照如下公式的运算，确定第i个文本段的融合特征fi：
[0124][0125]
其中，si表示第i个文本段的向量编码，nj表示第j个候选实体的向量编码，β
ij
表示
第i个文本段与第j个候选实体的相似度，即为各个候选实体对第i个文本段的融合特征的贡献量。
[0126]
通过上述处理的介绍可以理解，待抽取文本的各个文本段的融合特征，不仅包含了文本段自身的信息，还包含了与该文本段相似的各个候选实体的信息，并且，根据各个候选实体与该文本段的相似度的不同，该文本段的融合特征中包含的各个候选实体的信息的比例不同。由于该文本段的融合特征包含了外部信息，因此更加有利于识别该文本段是否为实体，以及有利于确定该文本段是实体时的实体类型。
[0127]
进一步的，本技术实施例还提出，当执行步骤s202，分别确定待抽取文本中的各个文本段的向量编码后，根据待抽取文本中的各个文本段的向量编码，从各个文本段中，滤除非实体文本段，也就是滤除明显不可能是实体的文本段。
[0128]
示例性的，根据各个文本段的向量编码，借助前馈神经网络对各个文本段进行实体识别，对于识别概率较低的文本段，即为非实体文本段，将这些文本段滤除，可以降低后期进行实体抽取及实体关系抽取的工作量。
[0129]
比如，通过如下公式，对各个文本段进行实体识别，计算各个文本段的实体识别率ei：
[0130]ei
＝softmax(ffnn(si))
[0131]
其中，i的取值范围为从待抽取文本中提取的所有文本段的数量范围，si表示第i个文本段的向量编码。
[0132]
假设第i个文本段的ei小于0.4的文本段，即可判定其为非实体文本段，并可以将其滤除。
[0133]
另外，图2所示的实施例中的步骤s201、s205分别对应图1所示的方法实施例中的步骤s101、s103，其具体内容可参见图1实施例中的相应内容，此处不再重复。
[0134]
作为一种可选的实施方式，上述的根据待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系，具体是根据待抽取文本中的各个文本段的融合特征，从各个文本段中确定出实体文本段，以及确定各个实体文本段的实体类型和各个实体文本段之间的关系。
[0135]
具体的，上述的实体文本段，即作为实体的文本段。
[0136]
本技术实施例从待抽取文本的各个文本段中，选出能够作为实体的文本段，即达到了从待抽取文本中提取实体的目的。进一步的，分析提取出的各个实体文本段之间的关系，即可确定从待抽取文本中提取的各个实体的实体关系。
[0137]
示例性的，先根据待抽取文本中的各个文本段的融合特征对各个文本段进行实体分类，将各个文本段分类为实体文本段或非实体文本段，由此可以从各个文本段中确定出实体文本段，同时，根据各个实体文本段的融合特征，可以分析确定各个实体文本段的实体类型。例如，假设待抽取文本为患者电子病例，则抽取出的实体文本段的实体类型可能是人名、病症、病情等类型的实体。
[0138]
在从各个文本段中识别出实体文本段后，本技术实施例进一步根据各个实体文本段的融合特征，对各个实体文本段之间的关系进行识别、分类，从而确定各个实体文本段之间的关系，即确定从待抽取文本中提取的实体之间的关系。
[0139]
需要说明的是，本技术实施例所提出的信息抽取方法，追求一次性地从待抽取文本中提取实体，并确定实体关系，因此，虽然上述的处理过程是分步骤地，先从待抽取文本的各个文本段中识别实体文本段，然后再确定各个实体文本段之间的关系，但是，在实际应用中，上述的实体文本段的识别结果，以及各个实体文本段之间的关系的识别结果，可以同时输出。
[0140]
作为一种示例性的实施方式，本技术实施例预先训练实体抽取模型，该实体抽取模型可以基于前馈神经网络ffnn训练得到。该实体抽取模型以待抽取文本中的各个文本段的融合特征fi为输入，能够同时输出对每个文本段的实体分类结果以及对各个实体文本段的关系分类结果r
ij
。
[0141]
该实体抽取模型的运算公式如下：
[0142][0143]rij
＝softmax(ffnn[fi,fj,fiofj])
[0144]
其中，fi表示第i个文本段的融合特征，表示第i个文本段为实体文本段的概率，fiofj表示第i个实体文本段的融合特征与第j个实体文本段的融合特征的对应位置的特征元素相乘，r
ij
表示第i个实体文本段与第j个实体文本段的关系分类结果。
[0145]
上述的实体抽取模型，可以通过如下所示的交叉熵损失训练得到：
[0146][0147]
其中，表示实体标注标签，表示实体关系标注标签，s表示待抽取文本的所有的文本段集合，s
′
表示待抽取文本中的实体文本段集合。
[0148]
作为一种更加优选的实施方式，本技术实施例预先训练信息抽取模型，该模型可以示例性地通过前馈神经网络训练得到。
[0149]
该信息抽取模型以待抽取文本，以及与待抽取文本相似的候选实体为输入，其能够对待抽取文本进行文本段划分，并根据各个文本段以及各个候选实体，确定待抽取文本中的各个文本段的融合特征，以及，该信息抽取模型能够根据待抽取文本中的各个文本段的融合特征，确定待抽取文本中的各个实体，以及实体间的关系。
[0150]
基于上述的信息抽取模型，当实施本技术实施例提出的信息抽取方法时，只需要从预设的知识库中选出与待抽取文本相似的实体，作为候选实体，然后将待抽取文本以及各个候选实体输入上述训练得到的信息抽取模型即可，该模型能够输出从待抽取文本中提取的各个实体，并且输出提取的各个实体间的关系。
[0151]
上述的信息抽取模型可以分为文本处理模块、特征提取模块和实体抽取模块，其中，文本处理模块，用于对输入的待抽取文本进行划分，得到各个文本段；特征提取模块，用于根据从待抽取文本中划分出的各个文本段以及输入的各个候选实体，确定待抽取文本中的各个文本段的融合特征；实体抽取模块，用于根据待抽取文本中的各个文本段的融合特征，确定待抽取文本中的各个实体，以及实体间的关系。
[0152]
上述的文本处理模块、特征提取模块、实体抽取模块的具体工作内容，可参见上述的方法实施例中的相应处理内容。该实体抽取模块可以采用上述实施例所述的实体抽取模型。
[0153]
该信息抽取模型的训练过程，可以参照上述的实体抽取模型的训练过程，例如，可以借助训练上述的实体抽取模型时的交叉熵，训练该信息抽取模型。具体的训练过程不再详述。
[0154]
更进一步的，上述的信息抽取模型，还可以包括候选实体筛选模块，该模型以预设的知识库为基础，用于从该预设的知识库中选出与输入的待抽取文本相似的实体，作为候选实体。同时包含上述的候选实体筛选模块、文本处理模块、特征提取模块和实体抽取模块的信息抽取模型，成为了端到端的实体及实体关系抽取模型。只需要将待抽取文本输入该信息抽取模型，即可得到该模型输出的实体及实体关系抽取结果，从而进一步提高信息抽取效率。
[0155]
上述的候选实体筛选模块、文本处理模块、特征提取模块、实体抽取模块的具体工作内容，可参见上述的方法实施例中的相应处理内容。
[0156]
与上述的信息抽取方法相对应的，本技术实施例还提出一种信息抽取装置，参见图3所示，该装置包括：
[0157]
候选实体筛选单元100，用于从预设的知识库中选出与待抽取文本相似的实体，作为候选实体；
[0158]
特征提取单元110，用于根据所述待抽取文本中的各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征；其中，所述待抽取文本中的文本段，由所述待抽取文本中的单个字符或者两个以上连续字符组成，所述融合特征包括文本段特征和候选实体特征；
[0159]
信息抽取单元120，用于根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系。
[0160]
作为一种可选的实施方式，所述从预设的知识库中选出与待抽取文本相似的实体，作为候选实体，包括：
[0161]
通过将待抽取文本与预设的知识库进行匹配，从预设的知识库中选出与所述待抽取文本相似的知识三元组；
[0162]
从选出的知识三元组中确定出与所述待抽取文本相似的实体，作为候选实体。
[0163]
作为一种可选的实施方式，所述装置还包括：
[0164]
信息扩充单元，用于利用与所述待抽取文本相关的信息，对所述待抽取文本进行信息扩充。
[0165]
作为一种可选的实施方式，根据所述待抽取文本中的各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征，包括：
[0166]
分别确定所述待抽取文本中的各个文本段的向量编码，以及各个候选实体的向量编码；
[0167]
根据各个文本段的向量编码，以及各个候选实体的向量编码，确定各个候选实体与各个文本段的相似度；
[0168]
根据各个文本段的向量编码、各个候选实体的向量编码，以及各个候选实体与各个文本段的相似度，确定各个文本段的融合特征。
[0169]
作为一种可选的实施方式，所述装置还包括：文本段筛选单元，用于在分别确定所述待抽取文本中的各个文本段的向量编码后，根据所述待抽取文本中的各个文本段的向量
编码，从各个文本段中，滤除非实体文本段。
[0170]
作为一种可选的实施方式，根据各个文本段的向量编码，以及各个候选实体的向量编码，确定各个候选实体与各个文本段的相似度，包括：
[0171]
对于每个文本段，分别利用该文本段的向量编码以及各个候选实体的向量编码，确定该文本段与各个候选实体的相似度；
[0172]
对该文本段与各个候选实体的相似度进行归一化。
[0173]
作为一种可选的实施方式，根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系，包括：
[0174]
根据所述待抽取文本中的各个文本段的融合特征，从所述各个文本段中确定出实体文本段，以及确定各个实体文本段的实体类型和各个实体文本段之间的关系。
[0175]
作为一种可选的实施方式，根据所述待抽取文本中的各个文本段的融合特征，从所述各个文本段中确定出实体文本段，以及确定各个实体文本段的实体类型和各个实体文本段之间的关系，包括：
[0176]
根据所述待抽取文本中的各个文本段的融合特征对所述各个文本段进行分类，从所述各个文本段中确定出实体文本段并确定各个实体文本段的实体类型；
[0177]
根据确定出的各个实体文本段的融合特征，确定各个实体文本段之间的关系。
[0178]
作为一种可选的实施方式，根据所述待抽取文本中的各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征；以及，根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系，包括：
[0179]
将所述待抽取文本以及所述各个候选实体分别输入预先训练的信息抽取模型，使所述信息抽取模型对所述待抽取文本进行文本段划分，并根据各个文本段以及各个候选实体，确定所述待抽取文本中的各个文本段的融合特征；以及，根据所述待抽取文本中的各个文本段的融合特征，确定所述待抽取文本中的各个实体，以及实体间的关系。
[0180]
具体的，上述的信息抽取装置的各个单元的具体工作内容，请参见上述的信息抽取方法中的相应处理步骤的具体内容。
[0181]
本技术另一实施例还提出一种信息抽取设备，参见图4所示，该设备包括：
[0182]
存储器200和处理器210；
[0183]
其中，所述存储器200与所述处理器210连接，用于存储程序；
[0184]
所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的信息抽取方法。
[0185]
具体的，上述信息抽取设备还可以包括：总线、通信接口220、输入设备230和输出设备240。
[0186]
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：
[0187]
总线可包括一通路，在计算机系统各个部件之间传送信息。
[0188]
处理器210可以是通用处理器，例如通用中央处理器(cpu)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，asic)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、
分立硬件组件。
[0189]
处理器210可包括主处理器，还可包括基带芯片、调制解调器等。
[0190]
存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(randomaccess memory，ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
[0191]
输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
[0192]
输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。
[0193]
通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(ran)，无线局域网(wlan)等。
[0194]
处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本技术上述实施例所提供的信息抽取方法的各个步骤。
[0195]
本技术另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现本技术上述实施例所提供的信息抽取方法的各个步骤。
[0196]
具体的，上述的信息抽取设备的各个部分的具体工作内容，以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的信息抽取方法的各个实施例的内容，此处不再赘述。
[0197]
对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
[0198]
需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0199]
本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。
[0200]
本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
[0201]
本技术所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0202]
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者
也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
[0203]
另外，在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。
[0204]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0205]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0206]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0207]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种信息抽取方法、装置、设备及存储介质与流程

相关文献

最热文献