基于深度学习的知识图谱构建方法、设备及存储介质与流程

2021-12-01 01:13:00 来源：中国专利 TAG：

1.本发明涉及深度学习的技术领域，尤其是涉及一种基于深度学习的知识图谱构建方法、设备及存储介质。

背景技术：

2.知识图谱(knowledge graph)通常指可揭示实体之间的关系的语义网络，其基于数据挖掘、信息处理、图形绘制等手段，利用可视化的图谱将复杂的知识领域形象地展示出来，可在一定程度上体现知识领域的发展规律。
3.随着大数据时代的发展，人们对于知识图谱的要求不再是简单的关系链，对知识图谱的完备度、准确性也有了较高的要求，但是相关技术中的知识图谱构建成本高且完备性较难保证，导致知识推理计算的准确度较低。

技术实现要素：

4.本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于深度学习的知识图谱构建方法，能够提高知识图谱的完整性和准确性。
5.本发明还提出一种电子控制设备。
6.本发明还提出一种计算机可读存储介质。
7.第一方面，本发明的一个实施例提供了基于深度学习的知识图谱构建方法，包括：
8.获取已构建知识图谱，并提取所述已构建知识图谱中的第一实体信息；
9.采集所述第一实体信息在所述已构建知识图谱中相关的信息以得到数据集合；
10.获取所述数据集合中与所述第一实体信息相关的多个自然段语句；
11.根据预设非监督深度学习模型将多个所述自然段语句进行分类以得到多个分类结果；
12.获取多个所述分类结果中所述分类结果符合预设条件的所述自然段语句以得到相关性语句，并根据所述相关性语句增加所述已构建知识图谱中与所述第一实体信息对应的第二实体信息、关系信息。
13.本发明实施例的基于深度学习的知识图谱构建方法至少具有如下有益效果：根据新获得的第二实体信息、关系信息修改已构建知识图谱中第一实体信息的关系结构，以不断完善已构建知识图谱，从而得到更加准确和完整的知识图谱。
14.根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，所述根据预设非监督深度学习模型将多个所述自然段语句进行分类以得到多个分类结果，包括：
15.所述预设非监督深度学习模型将多个所述自然段语句拆分为预设模式结构以得到语句模式结构，所述预设模式结构为第一实体信息和/或关系信息和/或第二实体信息；
16.根据所述预设非监督深度学习模型计算所述语句模式结构和所述第一实体信息的可信度；
17.根据所述多个自然段语句的语句模式结构以及对应的所述可信度确定所述分类
结果。
18.根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，所述预设条件包括：基准模式结构、预设可信度阈值。
19.根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，还包括：
20.若所述自然段语句的所述语句模式结构不符合所述基准模式结构，和/或所述可信度低于所述预设可信度阈值，则将对应的所述自然段语句剔除。
21.根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，所述获取多个所述分类结果中所述分类结果符合预设条件的所述自然段语句以得到相关性语句，并根据所述相关性语句增加所述已构建知识图谱中与所述第一实体信息对应的第二实体信息、关系信息，包括：
22.获取所述语句模式结构符合所述基准模式结构，且所述可信度大于所述预设可信度阈值的所述自然段语句以得到所述相关性语句；
23.根据所述相关性语句增加所述已构建知识图谱中与所述第一实体信息对应的第二实体信息、关系信息。
24.根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，所述根据所述相关性语句增加所述已构建知识图谱中与所述第一实体信息对应的第二实体信息、关系信息，包括：
25.提取所述相关性语句中与所述第一实体信息不同的所述第二实体信息；
26.提取所述相关性语句中与所述第一实体信息、所述第二实体信息关联的所述关系信息；
27.将提取的所述第二实体信息、所述关系信息增加到所述已构建知识图谱中的所述第一实体信息的图谱结构中。
28.根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，还包括：
29.采集符合所述基准模式结构的语句以得到语料训练集合；
30.将所述语料训练集合代入所述预设非监督深度学习模型以调节所述预设非监督深度学习模型的参数以得到优化后的所述预设非监督深度学习模型。
31.根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，所述预设非监督深度学习模型为屏蔽语言模型。
32.第二方面，本发明的一个实施例提供了电子控制设备:包括：
33.至少一个处理器，以及，
34.与所述至少一个处理器通信连接的存储器；其中，
35.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的基于深度学习的知识图谱构建方法。
36.第三方面，本发明的一个实施例提供了计算机可读存储介质:所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的基于深度学习的知识图谱构建方法。
37.本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在说明书以及
附图中所特别指出的结构来实现和获得。
附图说明
38.图1是本发明实施例中基于深度学习的知识图谱构建方法的一具体实施例流程示意图；
39.图2是本发明实施例中基于深度学习的知识图谱构建方法的另一具体实施例流程示意图；
40.图3是本发明实施例中基于深度学习的知识图谱构建方法的另一具体实施例流程示意图；
41.图4是本发明实施例中基于深度学习的知识图谱构建方法的另一具体实施例流程示意图；
42.图5是本发明实施例中基于深度学习的知识图谱构建方法的另一具体实施例流程示意图；
43.图6是本发明实施例中基于深度学习的知识图谱构建方法的另一具体实施例流程示意图；
44.图7是本发明实施例中电子控制设备的一具体实施例模块框图。
具体实施方式
45.以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。
46.在本发明的描述中，如果涉及到方位描述，例如“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。如果某一特征被称为“设置”、“固定”、“连接”、“安装”在另一个特征，它可以直接设置、固定、连接在另一个特征上，也可以间接地设置、固定、连接、安装在另一个特征上。
47.在本发明实施例的描述中，如果涉及到“若干”，其含义是一个以上，如果涉及到“多个”，其含义是两个以上，如果涉及到“大于”、“小于”、“超过”，均应理解为不包括本数，如果涉及到“以上”、“以下”、“以内”，均应理解为包括本数。如果涉及到“第一”、“第二”，应当理解为用于区分技术特征，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
48.随着互联网技术的发展，知识图谱也从人工制作转换成计算机程序自动生成的方式，但是传统计算机程序根据自动采集的信息构建信息资料库，然后根据信息资料库内的信息进行数据分析以确定语句中的实体信息和关系信息，然后根据实体信息和实体信息对应的关系信息自当搭建成知识图谱。但是根据一次性搭建完成的知识图谱的完整性和准确性偏低，因此需要不断加强知识图谱以构建更加完善且准确的知识图谱。
49.基于此，本技术公开了一种基于深度学习的知识图谱构建方法、设备及存储介质，
能够根据训练好的非监督深度学习模型加强已构建知识图谱，以得到更加完善且准确的知识图谱。
50.第一方面，参照图1，本发明实施例公开了一种基于深度学习的知识图谱构建方法，包括：
51.s100、获取已构建知识图谱，并提取已构建知识图谱中的第一实体信息；
52.s200、采集第一实体信息在已构建知识图谱中相关的信息以得到数据集合；
53.s300、获取数据集合中与第一实体信息相关的多个自然段语句；
54.s400、根据预设非监督深度学习模型将多个自然段语句进行分类以得到多个分类结果；
55.s500、获取多个分类结果中分类结果符合预设条件的自然段语句以得到相关性语句，并根据相关性语句增加已构建知识图谱中与第一实体信息对应的第二实体信息、关系信息。
56.从已构建知识图谱中提取第一实体信息，然后在数据集合中获取与第一实体信息相关的自然段语句，并根据预设非监督深度学习模型对自然段语句进行分类以得到分类结果，并判断分类结果是否符合预设条件，并获取分类结果符合预设条件的自然段语句以得到相关性语句，且相关性语句为最符合第一实体信息的语句，则根据相关性语句确定与第一实体信息对应的第二实体信息、关系信息，并根据新获得的第二实体信息、关系信息修改已构建知识图谱中第一实体信息的关系结构，以不断完善已构建知识图谱，从而得到更加准确和完整的知识图谱。
57.其中，根据预设时间间隔周期更新已构建知识图谱，以不断提高知识图谱的完整性和准确性。
58.参照图2，在一些实施例中，步骤s400包括：
59.s410、预设非监督深度学习模型将多个自然段语句拆分为预设模式结构以得到语句模式结构，预设模式结构为第一实体信息和/或关系信息和/或第二实体信息；
60.s420、根据预设非监督深度学习模型计算语句模式结构和第一实体信息的可信度；
61.s430、根据多个自然段语句的语句模式结构以及对应的可信度确定分类结果。
62.由于数据集合是通过采集已构建知识图谱中与第一实体信息相关的信息得到的，所以在已构建知识图谱中采集与第一实体信息相关的信息可以是第一实体信息相关的相关信息也可以是不同的第二实体信息。因此，根据预设非监督深度学习模型将多个自然段语句拆分成预设模式结构以得到语句模式结构，也即将自然段语句拆分成第一实体信息和/或关系信息和/或第二实体信息，以得到自然段语句的语句模式结构，且语句模式结构可以为第一实体信息和关系信息和/或第二实体信息。然后采用预设非监督深度学习模型计算每个自然段语句的语句模式结构与第一实体信息的可信度，也即将自然段语句拆分成关系信息和/或第二实体信息，然后计算关系信息、和/或第二实体信息与第一实体信息之间的可信度，然后根据多个自然段语句的语句模式结构以及自然段语句对应的可信度确定分类结果，计算得到自然段语句的分类结果以便于判断分类结果是否符合预设条件，进而判断多个自然段语句可以作为完善已构建知识图谱的自然段语句，从而提高已构建知识图谱的完整性和准确性。
63.例如：在数据集合中查找到与第一实体信息匹配的自然段语句，若第一实体信息为“周杰伦”，则在数据集合中查找与“周杰伦”匹配的自然段语句，若所查找得到与“周杰伦”相关的自然段语句有三个自然段语句，且分别为“周杰伦每天都饮用奶茶”、“周杰伦代言优乐美奶茶”、“周杰伦喜欢作曲”，然后将三个自然段语句分别拆分成预设模型结构以得到三个自然段语句的语句模式结构分别为“周杰伦饮用奶茶”、“周杰伦代言奶茶”、“周杰伦喜欢作曲”。然后通过预设非监督深度学习模型分别计算三个语句模式结构和“周杰伦”的可信度分别为0.8、0.6、0.7，然后根据三个自然段语句的语句模式结构和对应的可信度确定分类结果，则可以根据三个自然段语句的分类结果确定哪一个自然段语句来完善已构建知识图谱，从而提高已构建知识图谱的准确性和完整性。
64.在一些实施例中，预设条件包括：基准模式结构、预设可信度阈值。由于分类结果为自然段语句的语句模式结构和对应的可信度，因此判断分类结果是否符合预设条件，也即判断语句模式结构是否为基准模式结构，且可信度和预设可信度阈值比较。
65.参照图3，在一些实施例中，基于深度学习的知识图谱构建方法，还包括：
66.s600、若自然段语句的语句模式结构不符合基准模式结构，和/或可信度低于预设可信度阈值，则将对应的自然段语句剔除。
67.通过数据集合获取与第一实体信息匹配的自然段语句存储多个，但是为了提高已构建知识图谱的完整性和准确性并不是所有的自然段语句都可以用于修改已构建知识图谱，所以只能选择多个自然段语句中最符合要求的自然段语句。若自然段语句的语句模式结构不符合基准模式，也即无法根据该自然段语句来完善已构建知识图谱中与第一实体信息相关的关系结构，则需要将这类的自然段语句剔除。或者，自然段语句的可信度低于预设可信度阈值，也即表示该自然段语句与第一实体信息的相关性并不高，所以将该类自然段语句剔除既不会影响已构建知识图谱的准确性和完整性，还可以节省了参与后续筛查的自然段语句数量，从而提高自然段语句筛查效率。
68.参照图4，其中，步骤s500包括：
69.s510、获取语句模式结构符合基准模式结构，且可信度大于预设可信度阈值的自然段语句以得到相关性语句；
70.s520、根据相关性语句增加已构建知识图谱中与第一实体信息对应的第二实体信息、关系信息。
71.通过将多个自然段语句中语句模式结构不符合基准模式结构、和/或可信度低于预设可信度阈值的自然段语句剔除，则剩下的自然段语句的语句模式结构都是符合基准模式结构，且可信度都大于预设可信度阈值，则将剩下的自然段语句都定义为相关性语句，然后根据相关性语句作为可以完善已构建知识图谱的语句，从而提高已构建知识图谱的完整性和准确性。
72.例如，若预设可信度阈值为0.7，且自然段语句的语句模式结构分别为“周杰伦饮用奶茶”、“周杰伦代言奶茶”、“周杰伦喜欢作曲”，且三个语句模式结构和“周杰伦”的可信度分别为0.8、0.6、0.7，基准模式结构为第一实体信息关系信息第二实体信息，所以三个自然段语句的模式结构都符合基准模式结构，且可信度大于预设可信度阈值的自然段语句只有“周杰伦饮用奶茶”，所以将“周杰伦饮用奶茶”定义为相关性语句，然后根据“周杰伦饮用奶茶”来增加已构建知识图谱中与第一实体信息对应的第二实体信息、关系信息，从
而提高已构建知识图谱的准确性和完整性，以得到更加完整且准确的知识图谱。
73.参照图5，在一些实施例中，步骤s530包括：
74.s531、提取相关性语句中与第一实体信息不同的第二实体信息；
75.s532、提取相关性语句中与第一实体信息、第二实体信息关联的关系信息；
76.s533、将提取的第二实体信息、关系信息增加到已构建知识图谱中的第一实体信息的图谱结构中。
77.根据确定的相关性语句增加到已构建知识图谱中与第一实体信息相关的关系结构中，由于所获取的相关性语句的语句模式结构是符合基准模式结构，所以提取相关性语句中的第二实体信息和关系信息。在提取的关系信息、第二实体信息增加到已构建知识图谱中第一实体信息相关的图谱结构中以得到更加完整和准确的知识图谱。
78.例如，若相关性语句为“周杰伦饮用奶茶”，则从相关性语句中提取第二实体信息和关系信息分别为“奶茶”、“饮用”，然后在已构建知识图谱中增加语句模式结构为“周杰伦” “饮用” “奶茶”的信息，从而提高知识图谱的准确性和完整性。
79.参照图6，在一些实施例中，基于深度学习的知识图谱构建方法，还包括：
80.s700、采集符合基准模式结构的语句以得到语料训练集合；
81.s800、将语料训练集合代入预设非监督深度学习模型以调节预设非监督深度学习模型的参数以得到优化后的所述预设非监督深度学习模型。
82.为了提高预设非监督深度学习模型的准确性，需要定时更新语料训练集合，且语料训练集合所存储的语句都是定时采集第三方平台且满足基准模式结构的语句，以通过定时完善语料训练集合，则根据语料训练集合训练预设非监督深度学习模型，从而提高预设非监督深度学习模型计算可信度的准确性。其中，语料训练集合存储语句和可信度的匹配信息，然后将语句带入预设非监督深度学习模型以得到含有未知函数的可信度，然后根据语句匹配的可信度与含有未知函数的可信度确定函数的具体值，则根据函数的具体值确定预设非监督深度学习模型的参数，以提高非监督深度学习模型计算可信度的准确性。
83.其中，预设非监督深度学习模型为屏蔽语言模型。
84.预设非监督深度学习模型为屏蔽语言模型，在屏蔽语言建模中，我们通常屏蔽给定句子中特定可信度的单词，模型期望基于该句子中的其他单词预测这些被屏蔽的单词。因此，通过给定可信度的语句信息去调节屏蔽语言模型的参数以得到优化的屏蔽语言模型，则可以提高屏蔽语言模型计算出自然段语句与第一实体信息的可信度的准确性。
85.下面参考图1至图6以一个具体的实施例详细描述根据本发明实施例的基于深度学习的知识图谱构建方法。值得理解的是，下述描述仅是示例性说明，而不是对发明的具体限制。
86.从已构建知识图谱中提取第一实体信息，若第一实体信息为”周杰伦“，在数据集合中查找与“周杰伦”匹配的自然段语句，若所查找得到与“周杰伦”相关的自然段语句有三个自然段语句，且分别为“周杰伦每天都饮用奶茶”、“周杰伦代言优乐美奶茶”、“周杰伦喜欢作曲”，然后将三个自然段语句分别拆分成预设模型结构以得到三个自然段语句的语句模式结构分别为“周杰伦饮用奶茶”、“周杰伦代言奶茶”、“周杰伦喜欢作曲”。然后通过预设非监督深度学习模型分别计算三个语句模式结构和“周杰伦”的可信度分别为0.8、0.6、0.7。若预设可信度阈值为0.7，可信度大于预设可信度阈值的自然段语句只有“周杰伦
饮用奶茶”，所以将“周杰伦饮用奶茶”定义为相关性语句。从相关性语句中提取第二实体信息和关系信息分别为“奶茶”、“饮用”，然后在已构建知识图谱中增加语句模式结构为“周杰伦” “饮用” “奶茶”的信息，从而提高知识图谱的准确性和完整性。
87.第二方面，参照图7，本发明实施例还公开了一种电子控制设备，包括：至少一个处理器100，以及，与所述至少一个处理器100通信连接的存储器200；其中，所述存储器200存储有可被所述至少一个处理器100执行的指令，所述指令被所述至少一个处理器100执行，以使所述至少一个处理器100能够执行如第一方面所述的基于深度学习的知识图谱构建方法。
88.电子控制设备可以为移动终端设备，也可以为非移动终端设备。移动终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机、上网本、个人数字助理、cpe、ufi(无线热点设备)等；非移动终端设备可以为个人计算机、电视机、柜员机或者自助机等；本发明实施方案不作具体限定。
89.处理器100可以包括一个或多个处理单元，例如：处理器100可以包括应用处理器(application processor，ap)，调制解调处理器，图形处理器(graphics processing unit，gpu)，图像信号处理器(image signal processor，isp)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，dsp)，基带处理器，和/或神经网络处理器(neural
‑
network processing unit，npu)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。
90.存储器200为高速缓冲存储器。该存储器200可以保存处理器刚用过或循环使用的指令或数据。如果处理器100需要再次使用该指令或数据，可从所述存储器200中直接调用。避免了重复存取，减少了处理器100的等待时间，因而提高了系统的效率。
91.第三方面，本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的基于深度学习的知识图谱构建方法。
92.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
93.本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd
‑
rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。
94.上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：仿制药早期情报监测方法、装置、电子设备和存储介质与流程

基于深度学习的知识图谱构建方法、设备及存储介质与流程

相关文献

最热文献