融合知识图谱的模型预训练方法、系统、设备及存储介质与流程

2022-06-30 02:37:49 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，更具体地涉及一种融合知识图谱的模型预训练方法、系统、设备及存储介质。

背景技术：

2.知识图谱是结构化的信息，很容易从这种结构化的信息中抽取到有用的特征，且目前像图神经网络(graphneuralnetwork，简称gnn)和图卷积神经网络(graphconvolutionalnetwork，简称gcn)等目前已被证明可以有效的对图谱图结构信息进行建模，但训练gcn需要大量的特定任务的标记，获取这些标记数据往往比较昂贵，因此利用自监督的gcn对图谱数据进行预训练可以有效的较少数据标注的工作，这点和现有的预训练语言模型比较类似，那么将图谱数据用gcn进行编码后和预训练语言模型进行融合后可以很好的发挥出知识图谱和预训练语言模型的优点，可以将预训练好的模型应用到仅有少量标签的图谱数据中进行迁移学习，以产生大规模的知识图谱。
3.目前预训练语言模型主要分为自回归(autoregressive，ar)和自编码(autoencoding，ae)两种，以gpt为代表的ar模型主要利用前n个词的信息来预测第n 1个词，因此对于生成式任务有天然的优势，但其只考虑了单向的语义信息，遵循条件概率法则，且只能利用上文或者下文的信息，benign同时利用上下文的信息；而以bert(bidirectionalencoder representationsfortransformers)为代表的ae模型，通过mask(掩码)掉句子中的词并通过预测改词的方式去训练模型，可以利用上下文信息，但预测时没有进行mask，导致训练和预测的分布不一致。

技术实现要素：

4.为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述训练和预测的分布不一致的缺陷。
5.根据本发明实施例的第一方面，提供一种融合知识图谱的模型预训练方法，包括
6.获取针对需要实体识别的各种实体之间的知识图谱；
7.对所述知识图谱进行子图提取，得到提取到的子图；
8.对提取到的子图进行向量化，得到向量化后的子图；
9.分别根据训练集中的任意两个实体之间生成文本向量，将文本向量和向量化后的子图导入并构建实体关系抽取预训练模型，对所述实体关系抽取预训练模型进行训练，得到训练好的实体关系抽取预训练模型；
10.将待验证两个实体之间对实体关系输入训练好的实体关系抽取预训练模型，预测出该两个实体之间的关系。
11.优选地，所述对所述知识图谱进行子图提取，得到提取到的子图，包括：
12.在所述知识图谱中以节点作为中心，其一跳范围内的邻接节点和本身节点构成一个子图，一跳指的是邻接节点和当前节点通过一条边连接。
13.优选地，所述对提取到的子图进行向量化，得到向量化后的子图，包括：
14.对图结构进行向量化、对节点进行向量化和对边进行向量化，得到向量化后的子图，其中，图结构的向量化采用gcn进行建模，而节点的向量和边的向量化采用预训练语言模型，对于未知的词和边采用随机初始化的形式，通过对边的向量进行归一化的形式得到边的权重。
15.优选地，所述对所述实体关系抽取预训练模型进行训练，得到训练好的实体关系抽取预训练模型，包括：
16.通过以一定比例随机掩码掉节点或者边的信息，在训练过程中节点向量和边向量都会根据反向传播进行动态调整，最终会得到动态的边向量、节点向量以及子图的图结构向量，得到训练好的实体关系抽取预训练模型。
17.优选地，所述对所述实体关系抽取预训练模型进行训练，得到训练好的实体关系抽取预训练模型，包括：
18.通过预测当前子图边缘边的连通子图的方式，在训练过程中节点向量和边向量都会根据反向传播进行动态调整，最终会得到动态的边向量、节点向量以及子图的图结构向量，得到训练好的实体关系抽取预训练模型。
19.根据本发明实施例第二方面，提供了一种融合知识图谱的模型预训练系统，包括：
20.图谱模块，用于获取针对需要实体识别的各种实体之间的知识图谱；
21.子图模块，用于对所述知识图谱进行子图提取，得到提取到的子图；
22.向量化模块，用于对提取到的子图进行向量化，得到向量化后的子图；
23.训练模块，用于分别根据训练集中的任意两个实体之间生成文本向量，将文本向量和向量化后的子图导入并构建实体关系抽取预训练模型，对所述实体关系抽取预训练模型进行训练，得到训练好的实体关系抽取预训练模型；
24.预测模块，用于将待验证两个实体之间对实体关系输入训练好的实体关系抽取预训练模型，预测出该两个实体之间的关系。
25.根据本发明实施例的第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面提供的一种融合知识图谱的模型预训练方法的各种可能的实现方式中任一种可能的实现方式所提供的。
26.根据本发明实施例的第四方面，提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质上存储有可在处理器上运行的计算机程序，处理该计算机程序时实现如第一方面提供的一种融合知识图谱的模型预训练方法的各种可能的实现方式中任一种可能的实现方式所提供的。
27.本发明实施例提供的一种融合知识图谱的模型预训练方法、系统、设备及存储介质，可以有效的减少知识图谱搭建的成本，提供一种知识图谱预训练模型，很少的为下游任务提供丰富的背景知识，使得下游任务可以基于该大规模知识图谱预训练模型进行微调自动构建比较高质量的知识图谱。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。
29.图1为本发明实施例提供的一种融合知识图谱的模型预训练方法的流程图；
30.图2为本发明实施例提供的一种融合知识图谱的模型预训练方法实施过程图；
31.图3为本发明实施例提供的一种融合知识图谱的模型预训练系统的结构示意图；
32.图4为本发明实施例提供了一种电子设备的结构示意图。
具体实施方式
33.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
34.在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
35.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
36.在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
37.本发明主要解决目前预训练模型和知识图谱所蕴含的知识没有进行知识的融合而无法将知识进行最大化利用的问题，预训练模型只为知识图谱中的一些任务如实体识别、关系抽取等提供句子向量化的方法，而知识图谱中的知识和图结构信息没有为预训练模型的学习能力提供帮助。
38.图1为本发明实施例提供的一种融合知识图谱的模型预训练方法的流程图，如图1所示，该方法包括：
39.s110，获取针对需要实体识别的各种实体之间的知识图谱；
40.s120，对所述知识图谱进行子图提取，得到提取到的子图；
41.s130，对提取到的子图进行向量化，得到向量化后的子图；
42.s140，分别根据训练集中的任意两个实体之间生成文本向量，将文本向量和向量化后的子图导入并构建实体关系抽取预训练模型，对所述实体关系抽取预训练模型进行训练，得到训练好的实体关系抽取预训练模型；
43.s150，将待验证两个实体之间对实体关系输入训练好的实体关系抽取预训练模型，预测出该两个实体之间的关系。
44.本发明旨在解决(1)知识图谱数据较少，采用人工搭建知识图谱耗时耗力；(2)知识图谱和现有的预训练模型没有进行结合，使得结构化的信息和非结构化的文本信息无法进行衔接和融会贯通；(3)现有单向和双向预训练模型各有优缺点，非结构化的文本信息无法同时兼顾两者的优点。
45.图2为本发明实施例提供的一种融合知识图谱的模型预训练方法实施过程图，如图2所示，输入知识图谱，对知识图谱进行子图提取，子图提取即在知识图谱中以节点作为中心，其一跳范围内的邻接节点和本身节点构成一个子图，一跳指的是邻接节点和当前节点通过一条边连接。
46.对提取得到的子图进行向量化，其中包括图结构的向量化，节点的向量化和边的向量化，其中图结构的向量化采用gcn进行建模，而节点和边的向量化采用预训练语言模型，对于未知的词和边采用随机初始化的形式，通过对边的向量进行归一化的形式得到边的权重。
47.搭建整个知识图谱预训练模型，模型采用两种方法进行预训练。(1)通过以一定比例随机mask掉节点或者边的信息去预测被；(2)通过预测当前子图边缘边的连通子图的方式。
48.模型在训练过程中节点向量和边向量都会根据反向传播进行动态调整，最终会得到动态的边向量、节点向量以及子图的图结构向量。
49.保存预训练好的该子图的最优预训练模型，可以为后续任务提供小数据集的微调以生成更大规模的知识图谱。
50.本发明提出一种融合知识图谱的模型预训练方法，采用子图预测下一个子图以及对子图中的边或者节点进行mask的方式进行预训练，节点采用已有的预训练语言模型进行向量化，通过已有的知识图谱数据预训练出一个较好的知识图谱预训练模型。
51.将知识图谱和语言模型进行结合预训练，制定合适的训练方法和模型，能够让预训练语言模型不仅适用于常见的nlp的文本分类、句子对语义匹配、文本蕴含等任务，同时模型也能够处理知识图谱中的实体识别和关系抽取等任务，为基于知识图谱的下游任务提供可微调的基于大规模的预训练模型，解决目前构建多领域知识图谱语料缺少等问题，减少了图谱数据标注的成本。
52.图3为本发明实施例提供的一种融合知识图谱的模型预训练系统的结构示意图，如图3所示，该系统包括图谱模块310、子图模块320、向量化模块330、训练模块340和预测模块350，其中：
53.图谱模块310用于获取针对需要实体识别的各种实体之间的知识图谱；
54.子图模块320用于对所述知识图谱进行子图提取，得到提取到的子图；
55.向量化模块330用于对提取到的子图进行向量化，得到向量化后的子图；
56.训练模块340用于分别根据训练集中的任意两个实体之间生成文本向量，将文本向量和向量化后的子图导入并构建实体关系抽取预训练模型，对所述实体关系抽取预训练模型进行训练，得到训练好的实体关系抽取预训练模型；
57.预测模块350用于将待验证两个实体之间对实体关系输入训练好的实体关系抽取
预训练模型，预测出该两个实体之间的关系。
58.本实施例为与上述方法实施例相对应的系统实施例，详情请参考上述方法实施例，本系统实施例在此不再赘述。
59.图4为本发明实施例提供了一种电子设备的结构示意图，如图4所示，该设备包括：处理器(processor)401、通信接口(communicationsinterface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403上并可在处理器401上运行的计算机程序，以执行上述各实施例提供的一种融合知识图谱的模型预训练方法，例如包括：
60.获取针对需要实体识别的各种实体之间的知识图谱；
61.对所述知识图谱进行子图提取，得到提取到的子图；
62.对提取到的子图进行向量化，得到向量化后的子图；
63.分别根据训练集中的任意两个实体之间生成文本向量，将文本向量和向量化后的子图导入并构建实体关系抽取预训练模型，对所述实体关系抽取预训练模型进行训练，得到训练好的实体关系抽取预训练模型；
64.将待验证两个实体之间对实体关系输入训练好的实体关系抽取预训练模型，预测出该两个实体之间的关系。
65.此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
66.本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的一种融合知识图谱的模型预训练方法，例如包括：
67.获取针对需要实体识别的各种实体之间的知识图谱；
68.对所述知识图谱进行子图提取，得到提取到的子图；
69.对提取到的子图进行向量化，得到向量化后的子图；
70.分别根据训练集中的任意两个实体之间生成文本向量，将文本向量和向量化后的子图导入并构建实体关系抽取预训练模型，对所述实体关系抽取预训练模型进行训练，得到训练好的实体关系抽取预训练模型；
71.将待验证两个实体之间对实体关系输入训练好的实体关系抽取预训练模型，预测出该两个实体之间的关系。
72.以上所描述的电子设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下，即可以理解并实施。
73.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。
74.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于线性阈值的互补多主体影响力最大化方法与流程

融合知识图谱的模型预训练方法、系统、设备及存储介质与流程

相关文献

最热文献