基于知识库表示的知识图谱检索方法及系统与流程

2022-03-23 06:53:53 来源：中国专利 TAG：

1.本发明涉及知识库表示领域，尤其涉及一种基于知识库表示的知识图谱检索方法及系统。

背景技术：

2.现有知识库是基于知识且具有智能性的系统(或专家系统)。并不是所有具有智能的程序都拥有知识库，只有基于知识的系统才拥有知识库。许多应用程序都利用知识，其中有的还达到了很高的水平，但是，这些应用程序可能并不是基于知识的系统，它们也不拥有知识库。一般的应用程序与基于知识的系统之间的区别在于：一般的应用程序是把问题求解的知识隐含地编码在程序中，而基于知识的系统则将应用领域的问题求解知识显式地表达，并单独地组成一个相对独立的程序实体，知识库经常存在链接缺失问题，这限制了知识图谱在相关下游任务中的应用，为解决该问题，知识图谱补全任务应运而生。知识图谱补全旨在根据知识图谱中已有事实推断出新的事实，从而使得知识图谱更完整，知识图谱嵌入(knowledge graph embedding)是解决知识图谱补全问题的重要方法之一，它通过将知识图谱中的实体(entity)和关系(relation)嵌入到连续向量空间，从而在方便计算的同时保留知识图谱中的结构信息，roberta相较于原来的bert提出了一套重要的bert设计选择和训练策略，并引入了能够提高下游任务性能的备选方案，使用一个新的数据集ccnews，并确认使用更多的数据进行预训练可以进一步提高下游任务的性能；同时保持了bert可以提取词在句子中的关系特征，并且能在多个不同层次提取关系特征，进而更全面反映句子语义。

技术实现要素：

3.目前尚且没有一个统一完善的法律领域知识库，本发明的目的在于运用深度学习和知识图谱方法构建法律领域知识库。
4.为实现上述目的，本发明提供一种基于知识库表示的知识图谱检索方法，包括：
5.爬取现有网站储存的知识信息，解析并映射所述知识信息，得到预定义的法律领域知识库模型；
6.获取自然语言序列并根据所述自然语言序列得到自然语言问句；
7.训练预定义的所述法律领域知识库模型，得到预定义的所述法律领域知识库模型的实体表示和关系表示；
8.对所述自然语言问句进行预处理，生成所述自然语言问句的连续表示，记为qr，得到三元组表示；
9.对所述三元组进行评分计算得到评分结果，对所述评分结果转化为概率分布并通过教师模型和学生模型对所述评分结果进行优化，得到最终的所述法律领域知识库模型。
10.根据本发明的一个方面，所述得到预定义的法律领域知识库模型方法为：
11.爬取现有网站存储的所述知识信息，通过专家讨论预定义的知识概念模板解析并映射所述知识信息形成图形结构化数据，得到预定义的所述法律领域知识库模型。
12.根据本发明的一个方面，所述对所述自然语言问句进行预处理方法为:
13.构建问题-答案对数据集，根据所述数据集对所述自然语言问句进行预处理，根据所述数据集构建预设规则，根据所述预设规则过滤所述自然语言问句，排除与所述自然语言问句不相关的信息，根据roberta语言模型生成所述自然语言问句的连续表示，记为qr。
14.根据本发明的一个方面，根据所述实体表示、所述关系表示和所述qr得到头实体、qr、尾实体的三元组，所述三元组中的所述头实体为所述自然语言问句的话题实体，所述三元组中的所述尾实体是所述头实体的邻接节点。
15.根据本发明的一个方面，所述对所述三元组进行评分计算得到评分结果方法为：
16.根据complex对所述三元组进行评分，通过ppr算法得到所述评分结果；
[0017][0018]
其中，h代表所述头实体；
[0019]
r代表所述qr；
[0020]
t代表所述尾实体；
[0021]
re代表所述实体表示；
[0022]
k代表初始组别信息；
[0023]
d代表最终组别信息；
[0024]
e代表了评分数值。
[0025]
根据本发明的一个方面，对所述三元组评分时同时对所述三元组进行训练，得到推理路径并通过所述教师模型优化推理步骤中的所述概率分布，根据优化后的所述概率分布作为所述学生模型的监督信号进行学习，得到最终的所述法律领域知识库模型，通过所述法律领域知识库模型得到预测结果。
[0026]
根据本发明的一个方面，构建多任务架构的深度网络和softmax分类器的组合模型，根据所述教师模型将所述评分结果转化为概率分布，筛选出匹配实体，并生成所述推理路径。
[0027]
为实现上述目的，本发明提供一种基于知识库表示的知识图谱检索系统，包括：
[0028]
模型建立模块:爬取现有网站储存的知识信息，解析并映射所述知识信息，得到预定义的法律领域知识库模型；
[0029]
自然语言问句获取模块：获取自然语言序列并根据所述自然语言序列得到自然语言问句；
[0030]
模型训练模块：训练预定义的所述法律领域知识库模型，得到预定义的所述法律领域知识库模型的实体表示和关系表示；
[0031]
三元组生成模块：对所述自然语言问句进行预处理，生成所述自然语言问句的连续表示，记为qr，得到三元组表示；
[0032]
模型优化模块：对所述三元组进行评分计算得到评分结果，对所述评分结果转化为概率分布并通过教师模型和学生模型对所述评分结果进行优化，得到最终的所述法律领
域知识库模型。
[0033]
为实现上述目的，本发明提供一种电子设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现上述针对一种基于知识库表示的知识图谱检索方法。
[0034]
为实现上述目的，本发明提供一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述针对一种基于知识库表示的知识图谱检索方法。
[0035]
基于此，本发明的有益效果在于：
[0036]
1、实现一种对自然语言文本预处理的逻辑，可以将自然语言问句中的无关信息过滤掉，从而降低噪音对模型的影响；
[0037]
2、通过将自然语言问句映射到知识库表示中的关系空间，本发明实现了一种简便高效的知识库检索、预检索方法；
[0038]
3、运用三元组形式，对于训练数据的要求低，对于知识库本身的储存方式要求宽松。
附图说明
[0039]
图1示意性表示根据本发明的一种基于知识库表示的知识图谱检索方法的流程图；
[0040]
图2示意性表示根据本发明的一种基于知识库表示的知识图谱检索系统的流程图。
具体实施方式
[0041]
现在将参照示例性实施例来论述本发明的内容，应当理解，论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容，而不是暗示对本发明的范围的任何限制。
[0042]
如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”，术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。
[0043]
图1示意性表示根据本发明的一种基于知识库表示的知识图谱检索方法的流程图，如图1所示，根据本发明的一种基于知识库表示的知识图谱检索方法，包括以下步骤：
[0044]
101：爬取现有网站储存的知识信息，解析并映射所述知识信息，得到预定义的法律领域知识库模型；
[0045]
102：获取自然语言序列并根据所述自然语言序列得到自然语言问句；
[0046]
103：训练预定义的所述法律领域知识库模型，得到预定义的所述法律领域知识库模型的实体表示和关系表示；
[0047]
104：对所述自然语言问句进行预处理，生成所述自然语言问句的连续表示，记为qr，得到三元组表示；
[0048]
105：对所述三元组进行评分计算得到评分结果，对所述评分结果转化为概率分布并通过教师模型和学生模型对所述评分结果进行优化，得到最终的所述法律领域知识库模
型。
[0049]
根据本发明的一个实施方式，得到预定义的法律领域知识库模型方法为：
[0050]
爬取现有网站存储的知识信息，通过专家讨论预定义的知识概念模板解析并映射知识信息形成图形结构化数据，得到预定义的法律领域知识库模型。
[0051]
根据本发明的一个实施方式，对自然语言问句进行预处理方法为:
[0052]
构建问题-答案对数据集，根据数据集对自然语言问句进行预处理，根据数据集构建预设规则，根据预设规则过滤自然语言问句，排除与自然语言问句不相关的信息，根据roberta语言模型生成自然语言问句的连续表示，记为qr。
[0053]
根据本发明的一个实施方式，根据实体表示、关系表示和qr生成头实体、qr、尾实体的三元组，三元组中的头实体为自然语言问句的话题实体，三元组中的尾实体是头实体的邻接节点。
[0054]
根据本发明的一个实施方式，对三元组进行评分计算得到评分结果方法为：
[0055]
根据complex对所述三元组进行评分，通过ppr算法得到所述评分结果；
[0056][0057]
其中，h代表头实体；
[0058]
r代表qr；
[0059]
t代表尾实体；
[0060]
re代表实体表示；
[0061]
k代表初始组别信息；
[0062]
d代表最终组别信息；
[0063]
e代表了评分数值。
[0064]
根据本发明的一个实施方式，对三元组评分时同时对三元组进行训练，得到推理路径并通过教师模型优化推理步骤中的概率分布，根据优化后的概率分布作为学生模型的监督信号进行学习，得到最终的法律领域知识库模型，通过法律领域知识库模型得到预测结果。
[0065]
根据本发明的一个实施方式，构建多任务架构的深度网络和softmax分类器的组合模型，根据教师模型将评分结果转化为概率分布，筛选出匹配实体，并生成推理路径。
[0066]
预定义一种对法律领域知识库适用的采样数量，通过基于cuda编程的大规模数据库知识表示训练框架对预处理后的法律领域知识库进行预训练及超参数搜索优化，得到不多于500万个节点表示，不多于10000个关系类型表示，实现了对大规模法律图数据进行知识表示嵌入的方法，并通过了自定义的链接预测任务测试，定义了一套专有的法律领域知识图结构读取方法，该方法可以实现高速的采样、读取知识图中的三元组，同时可以高效率的返回推理路径，也就是能够高效率的推理多跳实体间的关系，通过roberta模型实现了将自然语言问题映射到知识库表示中的关系空间中的方法，实现了一种海量实体评分计算方式，同时支持排序模型，分类模型以及对比学习模型，具体来说，通过complex计算“头实体，
问题生成的表示，尾实体”的链接预测分数，使用教师模型和学生模型的方式构建了一个从文本特征向量中抽取文本上下文信息的模型，同时可以优化学生模型的中间表示，使得模型可以从双向推理路径中学习特征，使用通过优化的学生模型输出的特征通过全连接网络输出预测答案，通过模型的中间表示以及教师模型的推理结果，基于已经生成的答案生成推理路径。
[0067]
不仅如此，为实现上述发明目的，本发明还提供一种基于知识库表示的知识图谱检索系统，图2示意性表示根据本发明的一种基于知识库表示的知识图谱检索系统的流程图，如图2所示，根据本发明的一种基于知识库表示的知识图谱检索系统，包括：
[0068]
模型建立模块:爬取现有网站储存的知识信息，解析并映射知识信息，得到预定义的法律领域知识库模型；
[0069]
自然语言问句获取模块：获取自然语言序列并根据自然语言序列得到自然语言问句；
[0070]
模型训练模块：训练预定义的法律领域知识库模型，得到预定义的法律领域知识库模型的实体表示和关系表示；
[0071]
三元组生成模块：对自然语言问句进行预处理，生成自然语言问句的连续表示，记为qr，得到三元组表示；
[0072]
模型优化模块：对三元组进行评分计算得到评分结果，对评分结果转化为概率分布并通过教师模型和学生模型对评分结果进行优化，得到最终的法律领域知识库模型。
[0073]
根据本发明的一个实施方式，得到预定义的法律领域知识库模型方法为：
[0074]
爬取现有网站存储的知识信息，通过专家讨论预定义的知识概念模板解析并映射知识信息形成图形结构化数据，得到预定义的法律领域知识库模型。
[0075]
根据本发明的一个实施方式，对自然语言问句进行预处理方法为:
[0076]
构建问题-答案对数据集，根据数据集对自然语言问句进行预处理，根据数据集构建预设规则，根据预设规则过滤自然语言问句，排除与自然语言问句不相关的信息，根据roberta语言模型生成自然语言问句的连续表示，记为qr。
[0077]
根据本发明的一个实施方式，根据实体表示、关系表示和qr生成头实体、qr、尾实体的三元组，三元组中的头实体为自然语言问句的话题实体，三元组中的尾实体是头实体的邻接节点。
[0078]
根据本发明的一个实施方式，对三元组进行评分计算得到评分结果方法为：
[0079]
根据complex对所述三元组进行评分，通过ppr算法得到所述评分结果；
[0080][0081]
其中，h代表头实体；
[0082]
r代表qr；
[0083]
t代表尾实体；
[0084]
re代表实体表示；
[0085]
k代表初始组别信息；
[0086]
d代表最终组别信息；
[0087]
e代表了评分数值。
[0088]
根据本发明的一个实施方式，对三元组评分时同时对三元组进行训练，得到推理路径并通过教师模型优化推理步骤中的概率分布，根据优化后的概率分布作为学生模型的监督信号进行学习，得到最终的法律领域知识库模型，通过法律领域知识库模型得到预测结果。
[0089]
根据本发明的一个实施方式，构建多任务架构的深度网络和softmax分类器的组合模型，根据教师模型将评分结果转化为概率分布，筛选出匹配实体，并生成推理路径。
[0090]
预定义一种对法律领域知识库适用的采样数量，通过基于cuda编程的大规模数据库知识表示训练框架对预处理后的法律领域知识库进行预训练及超参数搜索优化，得到不多于500万个节点表示，不多于10000个关系类型表示，实现了对大规模法律图数据进行知识表示嵌入的方法，并通过了自定义的链接预测任务测试，定义了一套专有的法律领域知识图结构读取方法，该方法可以实现高速的采样、读取知识图中的三元组，同时可以高效率的返回推理路径，也就是能够高效率的推理多跳实体间的关系，通过roberta模型实现了将自然语言问题映射到知识库表示中的关系空间中的方法，实现了一种海量实体评分计算方式，同时支持排序模型，分类模型以及对比学习模型，具体来说，通过complex计算“头实体，问题生成的表示，尾实体”的链接预测分数，使用教师模型和学生模型的方式构建了一个从文本特征向量中抽取文本上下文信息的模型，同时可以优化学生模型的中间表示，使得模型可以从双向推理路径中学习特征，使用通过优化的学生模型输出的特征通过全连接网络输出预测答案，通过模型的中间表示以及教师模型的推理结果，基于已经生成的答案生成推理路径。
[0091]
为实现上述发明目的，本发明还提供一种电子设备，该电子设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，计算机程序被处理器执行时实现上述一种基于知识库表示的知识图谱检索方法。
[0092]
为实现上述发明目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述一种基于知识库表示的知识图谱检索方法。
[0093]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0094]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0095]
在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互
之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0096]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。
[0097]
另外，在本发明实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。
[0098]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0099]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0100]
应理解，本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：面向对象模糊聚类图像分割方法、系统、终端及存储介质与流程

基于知识库表示的知识图谱检索方法及系统与流程

相关文献

最热文献