一种基于海量知识图谱及图嵌入的实体分类方法与系统与流程

2022-06-02 13:15:40 来源：中国专利 TAG：

1.本发明涉及自然语言处理的技术领域，更具体地，涉及一种基于海量知识图谱及图嵌入的实体分类方法与系统。

背景技术：

2.在如今信息爆炸的时代，每天都会有海量新的数据信息产生，深度挖掘数据的内在模式，对有效信息进行筛选与归纳，实现对数据的分门别类将能产生巨大的经济效能。
3.然而，实现数据的利用存在以下两个问题：一、收集的信息如何系统地、有组织地利用？二、如何挖掘数据的内在模式，实现不同场景下的分类任务应用？目前，针对问题一，可以采取构建针对垂直领域的数据库模式，然而，这样的模式忽略了有价值的跨领域数据，降低了数据的多样性，进而影响数据内在模式的挖掘及下游任务(如数据分类)的准确率和覆盖率。此时，知识图谱应运而生。
4.知识图谱将人物、地名、书名等专有名词表示为实体，将实体之间的内在联系表示为关系，实体之间结合关系，构成知识三元组。在知识图谱的应用领域，实体分类是指在自由文本中提取特征并用来分析，从而得出一个给定实体的具体类型，目前，粗粒度的实体分类是相对容易的，但对于细粒度的实体分类，是一个极具挑战性的工作。现有技术中公开了一种实体类别的确定方法及装置(如： modeling relational data with graph convolutional networks)，首先获取包含至少一个候选数据对的候选数据对集合，然后基于候选数据对中的实体的属性信息、实体的属性值和/或类别的属性信息，利用卷积神经网络判断所述至少一个候选数据对所包含的至少一个实体是否属于该候选数据对所包含的至少一个类别，如果是，则将该至少一个类别标记为该至少一个实体的类别。该方法从标注改进的角度确定实体的分类，扩大了实体的分类个数，提高实体的分类的精确度，从而解决实体分类粒度过粗、不准确的问题。然而，知识图谱相对于丰富多彩的现实世界，远远不可能完善，需不断进行更新与补充，此方案对于跨领域的海量知识而言，覆盖率低，通用性不高，因此并不适用，不利于有效信息的筛选与归纳。

技术实现要素：

5.为解决当前基于知识图谱进行实体分类的方式，准确率低、通用性不高的问题，本发明提出一种基于海量知识图谱及图嵌入的实体分类方法与系统，借助图嵌入模型生成知识图谱内各种实体的图嵌入，完成实体分类任务，并能清除分类任务结果杂音。
6.为了达到上述技术效果，本发明的技术方案如下(流程概要图见图4)：
7.一种基于海量知识图谱及图嵌入的实体分类方法，包括：
8.s1.获取n份语料文本，并对语料文本中的实体及实体关系进行标注，得到标注数据集；
9.s2.引入命名实体识别模型和关系抽取模型，并利用标注数据集训练测试命名实体识别模型和关系抽取模型，以进行对海量语料文本中的实体识别和关系抽取；然后以实
体和关系为基础，形成知识图谱；
10.s3.引入图嵌入模型，利用图嵌入模型进行知识图谱中关联实体节点预测训练任务，得到各实体节点的图嵌入信息；
11.s4.确定待分类的实体，计算实体的实体置信度；
12.s5.基于各实体节点的图嵌入信息及实体的实体置信度，利用分类器执行待分类实体的分类任务，并利用知识图谱进行再处理，得到最终实体分类结果。
13.在本技术方案中，从海量语料文本出发，引入命名实体识别模型和关系抽取模型以抽取实体和关系，并形成知识图谱，然后借助图嵌入模型生成知识图谱内各种实体的图嵌入信息，即使用向量表征一个实体，然后基于各实体节点的图嵌入信息及实体的实体置信度，实现实体节点的分类，最后利用知识图谱进行再处理，清除分类任务结果杂音，通用性强，提高了实体分类的准确率、召回率，便于实现大数据领域更好的业务分类效果。
14.优选地，以bert中文预训练模型为基础，在bert中文预训练模型的下游添加语料文本的命名实体识别和关系抽取任务，得到分别用于语料文本中实体识别和关系抽取的命名实体识别模型和关系抽取模型；命名实体识别模型和关系抽取模型用于对海量语料文本进行实体识别和关系抽取时，面对的海量语料文本是不断更新的，以实体和关系为基础形成的知识图谱也是不断更新的，保证了跨领域知识信息的丰富度，使得构建形成的知识图谱具有更好的通用性和覆盖率。
15.优选地，在步骤s2中，还能采用实体关系联合抽取模型进行联合抽取的方式，将语料文本中的实体识别和关系同时提取。
16.优选地，所述的图嵌入模型为deepwalk、randomwalk或line。
17.优选地，步骤s3所述的利用图嵌入模型进行知识图谱中关联实体节点预测训练任务的过程为：
18.s31.在知识图谱中选定初始实体节点，结合初始实体节点在知识图谱中的关系类型，利用图嵌入模型以初始实体节点预测终止尾节点；
19.s32.将预测终止尾节点的节点类型、节点名称和节点间关系分别与真实终止节点的节点类型、节点名称和节点间关系对比，判断是否正确，若正确，保留图嵌入模型当前的参数权重，执行步骤s33；否则，调整图嵌入模型的参数权重，返回步骤s31；
20.s33.基于图嵌入模型，由各个实体节点随机游走至知识图谱中的相邻实体节点，获取各个实体节点在知识图谱中的局部结构，从而得到每一个实体节点的图嵌入信息。
21.优选地，在步骤s4中，确定待分类的实体后，计算以该实体为初始实体节点的实体置信度，计算过程包括：
22.首先计算实体的关系置信度，表达式为：
23.关系置信度＝min(100，声量贡献知识置信度贡献)，
24.其中，声量贡献＝声量权重*(ln(vol)*10)，声量权重表示预设值，ln表示自然对数,vol表示实体在知识图谱数据中的声量；
25.知识置信度贡献＝知识置信度权重*声量系数*知识置信度；
26.其中，知识置信度权重取0.7，为预设值；知识
索引距离＝110-abs(初始节点索引-终止节点索引)，abs为绝对值函数，110为算法预设索引距离最大值；
27.然后，将该实体的所有关系置信度的按从大到小排序，取位于前三位的关系置信度，求平均值，以此作为实体的实体置信度。
28.优选地，在步骤s4之后，步骤s5之前还包括：从标注数据集中划分出训练集，根据每一个实体节点的图嵌入信息获得训练集中实体节点的图嵌入信息，基于图嵌入信息，利用训练集训练分类器，得到训练好的分类器。
29.优选地，在步骤s5中，基于实体的实体置信度，利用分类器执行待分类实体的分类任务时，设置分类阈值，对实体置信度大于分类阈值的待分类实体进行分类。
30.优选地，步骤s5所述的利用知识图谱进行再处理，得到最终实体分类结果的过程包括：
31.a.对于经分类器初步分类的初始实体节点，在知识图谱中确定其关系类型，利用图数据库存储的实体及关系信息，在知识图谱中查找该初始实体节点的别称，若别称与该初始实体节点同时被分类为同一类结果，且别称包含中文，该初始实体节点不包含中文，则删除该初始实体节点；
32.b.对于经分类器初步分类的初始实体节点，在知识图谱中确定其关系类型，在知识图谱中查找该初始实体节点的别称，若别称与该初始实体节点同时被分类为同一类结果，且别称不包含中文，该初始实体节点包含中文，则删除别称；
33.c.对于经分类器初步分类的初始实体节点，在知识图谱中确定其关系类型，在知识图谱中查找该初始实体节点的别称，若别称与该初始实体节点同时被分类为同一类结果，且别称与初始实体节点中均包含中文，则保留初始实体节点与别称中实体置信度较高的一个；
34.d.对于存在嵌套关系的待分类实体，保留实体置信度最高的一个；
35.e.为被去除的实体名称加入查询字段，作为保留名称的关键字，用于查询实体的信息。
36.本技术还提出一种基于海量知识图谱及图嵌入的实体分类系统，所述系统用于实现所述的基于海量知识图谱及图嵌入的实体分类方法，包括：
37.标注数据集获取模块单元，用于获取n份语料文本，并对语料文本中的实体及实体关系进行标注，得到标注数据集；
38.知识图谱构建单元，加载命名实体识别模型和关系抽取模型，并利用标注数据集训练测试命名实体识别模型和关系抽取模型，以进行对海量语料文本中的实体识别和关系抽取；然后以实体和关系为基础，形成知识图谱；
39.图嵌入信息获取单元，加载引入图嵌入模型，利用图嵌入模型进行知识图谱中关联实体节点预测训练任务，得到各实体节点的图嵌入信息；
40.实体置信度计算单元，用于确定待分类的实体，计算实体的实体置信度；
41.实体分类单元，基于各实体节点的图嵌入信息及实体的实体置信度，利用分类器执行待分类实体的分类任务，并利用知识图谱进行再处理，得到最终实体分类结果。
42.与现有技术相比，本发明技术方案的有益效果是：
43.本发明提出一种基于海量知识图谱及图嵌入的实体分类方法与系统，从海量语料文本出发，引入命名实体识别模型和关系抽取模型以抽取实体和关系，并形成知识图谱，然后借助图嵌入模型生成知识图谱内各种实体的图嵌入信息，即使用向量表征一个实体，然后基于各实体节点的图嵌入信息及实体的实体置信度，实现实体节点的分类，最后利用知识图谱进行再处理，清除分类任务结果杂音，通用性强，提高了准确率、召回率，便于实现大数据领域更好的业务分类效果。
附图说明
44.图1表示本发明实施例1中提出的基于海量知识图谱及图嵌入的实体分类方法的流程示意图；
45.图2表示应用本发明实施例1中提出的基于海量知识图谱及图嵌入的实体分类方构建的最终的明星知识图谱的示意图；
46.图3表示本发明实施例1完整流程的实施过程图；
47.图4表示本发明实施例3中提出的基于海量知识图谱及图嵌入的实体分类系统的结构图。
具体实施方式
48.附图仅用于示例性说明，不能理解为对本专利的限制；
49.为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；
50.对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。
51.下面结合附图和实施例对本发明的技术方案做进一步的说明。
52.附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；
53.实施例1
54.本实施例提出了一种基于海量知识图谱及图嵌入的实体分类方法，流程图参见图1，具体步骤包括：
55.s1.获取n份语料文本，并对语料文本中的实体及实体关系进行标注，得到标注数据集；此处的“n”是指足够多的语料文本，对应“大量”、“海量”，在获取语料文本后，用预先设置的标签进行依次标注，得到标注数据集。
56.s2.引入命名实体识别模型和关系抽取模型，并利用标注数据集训练测试命名实体识别模型和关系抽取模型，以进行对海量语料文本中的实体识别和关系抽取；然后以实体和关系为基础，形成知识图谱；
57.在本实施例中，以bert中文预训练模型为基础，在bert中文预训练模型的下游添加语料文本的命名实体识别和关系抽取任务，得到分别用于语料文本中实体识别和关系抽取的命名实体识别模型和关系抽取模型；命名实体识别模型和关系抽取模型用于对海量语料文本进行实体识别和关系抽取前，利用标注数据集对两个模型进行训练，在本实施例中，命名实体识别模型和关系抽取模型以长短期记忆网络lstm层和循环神经网络为基础，在训练完成后，用于实体识别和关系抽取。
58.命名实体识别模型和关系抽取模型用于对海量语料文本进行实体识别和关系抽取时，面对的海量语料文本是不断更新的，以实体和关系为基础形成的知识图谱也是不断更新的，保证了跨领域知识信息的丰富度，使得构建形成的知识图谱具有更好的通用性和覆盖率。
59.s3.引入图嵌入模型，利用图嵌入模型进行知识图谱中关联实体节点预测训练任务，得到各实体节点的图嵌入信息；
60.其中，所述的图嵌入模型可以为deepwalk、randomwalk或line，在本实施例中，图嵌入模型采用deepwalk，deepwalk可以按需生成随机游走，而且可拓展，生成随机游走的过程高效且平凡的并行化。
61.利用图嵌入模型进行知识图谱中关联实体节点预测训练任务的过程为：
62.s31.在知识图谱中选定初始实体节点，结合初始实体节点在知识图谱中的关系类型，利用图嵌入模型以初始实体节点预测终止尾节点；
63.s32.将预测终止尾节点的节点类型、节点名称和节点间关系分别与真实终止节点的节点类型、节点名称和节点间关系对比，判断是否正确，若正确，保留图嵌入模型当前的参数权重，执行步骤s33；否则，调整图嵌入模型的参数权重，返回步骤s31；
64.s33.基于图嵌入模型，由各个实体节点随机游走至知识图谱中的相邻实体节点，获取各个实体节点在知识图谱中的局部结构，从而得到每一个实体节点的图嵌入信息。
65.该过程在实际实施时即是图嵌入的训练，设以“刘德华”节点为初始节点，模型将根据关系类型，如“代言”，预测终止节点。将预测终止节点(“路易斯威登-品牌”)和真实节点(如真实节点“华仔-人名”)的节点类型、节点名称和节点间关系一一判断是否正确，以不断调整神经网络模型权重，得到更为准确的结果，当预测准确率没有提升时模型停止训练，得到各个节点的图嵌入。
66.完成图嵌入的训练后，针对不同的下游分类任务(如针对品牌实体进行的行业多分类、针对人名进行的是否明星二分类)进行分类，首先执行步骤s4:
67.s4.确定待分类的实体，计算实体的实体置信度；
68.在步骤s4中，确定待分类的实体后，计算以该实体为初始实体节点的实体置信度，计算过程包括：
69.首先计算实体的关系置信度，表达式为：
70.关系置信度＝min(100，声量贡献知识置信度贡献)，
71.其中，声量贡献＝声量权重*(ln(vol)*10)，声量权重表示预设值，ln表示自然对数,vol表示实体在知识图谱数据中的声量；
72.知识置信度贡献＝知识置信度权重*声量系数*知识置信度；
73.其中，知识置信度权重取0.7，为预设值；知识索引距离＝110-abs(初始节点索引-终止节点索引)，abs为绝对值函数，110为算法预设索引距离最大值；如刘德华出演了拆弹专家，初始节点为刘德华，在文本中索引为0，终止节点为拆弹专家，在文本中索引为6，则索引距离为6。
74.然后，将该实体的所有关系置信度的按从大到小排序，取位于前三位的关系置信度，求平均值，以此作为实体的实体置信度。
75.设具体实施时，基于步骤s1～s4所形成的知识图谱以及图嵌入实现的是明星分类，用于明星形象识别以及企业为明星匹配品牌宣传，判断实体类型为人名的节点是否为明星，在步骤s4之后，步骤s5之前还包括：从标注数据集中划分出训练集，根据每一个实体节点的图嵌入信息获得训练集中实体节点的图嵌入信息，基于图嵌入信息，利用训练集训练分类器，训练集数据即是有人工标注的数据，帮助模型学习如何分类。例如在该任务中，训练集数据标注哪些人名为明星或非明星，得到训练好的分类器。分类器是指在已有数据的基础上学会一个分类函数或构造出一个分类模型，该模型能够把数据纪录映射到给定类别中的某一个，从而可以应用于分类任务。总之，分类器是数据挖掘中对样本进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
76.s5.基于各实体节点的图嵌入信息及实体的实体置信度，利用分类器执行待分类实体的分类任务，并利用知识图谱进行再处理，得到最终实体分类结果。
77.基于实体的实体置信度，利用分类器执行待分类实体的分类任务时，设置分类阈值，对实体置信度大于分类阈值的待分类实体进行分类，即选择知识图谱中实体置信度大于阈值的人名节点进行分类，判断是否为明星，实体置信度越高代表该实体越可靠，在大量文本数据中出现，且与其他实体关系数量较多。
78.利用知识图谱进行再处理，得到最终实体分类结果的过程包括：
79.a.对于经分类器初步分类的初始实体节点，在知识图谱中确定其关系类型，利用图数据库存储的实体及关系信息，在知识图谱中查找该初始实体节点的别称，若别称与该初始实体节点同时被分类为同一类结果，且别称包含中文，该初始实体节点不包含中文，则删除该初始实体节点；
80.在本实施例中，提及在知识图谱中查找操作，均在数据库中进行，实体及其属性、实体间关系使用图关系库存储，如neo4j；
81.b.对于经分类器初步分类的初始实体节点，在知识图谱中确定其关系类型，在知识图谱中查找该初始实体节点的别称，若别称与该初始实体节点同时被分类为同一类结果，且别称不包含中文，该初始实体节点包含中文，则删除别称；
82.c.对于经分类器初步分类的初始实体节点，在知识图谱中确定其关系类型，在知识图谱中查找该初始实体节点的别称，若别称与该初始实体节点同时被分类为同一类结果，且别称与初始实体节点中均包含中文，则保留初始实体节点与别称中实体置信度较高的一个；
83.d.对于存在嵌套关系的待分类实体，保留实体置信度最高的一个；
84.e.为被去除的实体名称加入查询字段，作为保留名称的关键字，用于查询实体的信息。在本实施例中，对被分类为明星的人名(下称a)，按步骤进行下列后处理：以a为初始节点，关系类型为“别称”，在知识图谱中查找a的别称 b，若b和a同时被分类为明星，且b包含中文，a不包含中文，则删除a；以a为初始节点，关系类型为“别称”，在知识图谱中查找a的别称b，若b 和a同时被分类为明星，且b不包含中文，a包含中文，则删除b；以a为初始节点，关系类型为“别称”，在知识图谱中查找a的别称b，若b和a同时被分类为明星，且a和b均为中文，则保留a、b中置信度高的名称；对存在嵌套关系的名称(如刘德华和德华)，保留置信度
高的名称；被去除的实体名称加入查询字段，作为保留名称的关键字，用于查询实体的相关信息，然后输出最终的是否明星二分类结果，构建的最终的明星知识图谱的示意图可参见图2，以上过程的实施具体流程可参见图3。
85.实施例2
86.在本实施例中，除与实施例1相同的过程外，对于步骤s2中的实体识别与关系抽取，还能采用实体关系联合抽取模型进行联合抽取的方式，将语料文本中的实体识别和关系同时提取。具体做法可采用“end-to-end relation extractionusing lstms on sequences and tree structures”中提到的经典“end-to-end”模型或论文“joint extraction of entities and relations based on a novel tagging scheme”的模型进行联合抽取。
87.实施例3
88.如图4所示，本实施例提出一种基于海量知识图谱及图嵌入的实体分类系统，该系统用于实现实施例1或实施例2所述的基于海量知识图谱及图嵌入的实体分类方法，包括：
89.标注数据集获取模块单元，用于获取n份语料文本，并对语料文本中的实体及实体关系进行标注，得到标注数据集；“n”是指足够多的语料文本，对应“大量”、“海量”，在获取语料文本后，用预先设置的标签进行依次标注，得到标注数据集。
90.知识图谱构建单元，加载命名实体识别模型和关系抽取模型，并利用标注数据集训练测试命名实体识别模型和关系抽取模型，以进行对海量语料文本中的实体识别和关系抽取；然后以实体和关系为基础，形成知识图谱；
91.图嵌入信息获取单元，加载引入图嵌入模型，利用图嵌入模型进行知识图谱中关联实体节点预测训练任务，得到各实体节点的图嵌入信息；
92.实体置信度计算单元，用于确定待分类的实体，计算实体的实体置信度；
93.实体分类单元，基于各实体节点的图嵌入信息及实体的实体置信度，利用分类器执行待分类实体的分类任务，并利用知识图谱进行再处理，得到最终实体分类结果。。
94.显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种裂缝性地层计算安全钻井密度的方法

一种基于海量知识图谱及图嵌入的实体分类方法与系统与流程

相关文献

最热文献