一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

知识图谱补全方法、装置、电子设备和存储介质与流程

2022-10-13 04:50:03 来源:中国专利 TAG:


1.本技术涉及神经网络技术领域,特别是涉及一种知识图谱补全方法、装置、电子设备和存储介质。


背景技术:

2.知识图谱(knowledge graph,kg)因其优秀的可解释性和强大的语义识别处理能力,成为大数据时代极为重要的一种知识表示方式。
3.知识图谱现普遍存在的缺陷之一是其不完整性,这限制了知识图谱技术的发展及应用。面向知识图谱的知识推理可以根据知识图谱中现有的知识进行推理,得到新的知识,达到知识图谱补全(knowledge graph completion,kgc)的作用,这对弥补知识图谱不完整性的缺陷具有重要意义,因此面向知识图谱的知识推理受到国内外研究者的重视,成为知识图谱技术体系中的热点研究问题。
4.但由于受制于数据的丰富性,也即知识图谱的构建来源并不十分充分,并且由于知识抽取的方法以及知识推理方法的性能有限,导致对一些隐含知识不能充分挖掘,进而导致在知识图谱补全过程中推理精度较低,补全后的知识图谱精度较差。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够提高知识图谱补全精度的知识图谱补全方法、装置、电子设备和存储介质。
6.第一方面,本技术提供了一种知识图谱补全方法,所述方法包括:
7.获取待处理语料数据;
8.通过预测模型对所述待处理语料数据进行预测处理,得到所述待处理语料数据对应的预测结果,所述预测模型包括至少一个可微神经计算机dnc模型,在存在多个所述dnc模型的情况下,所述多个dnc模型呈堆叠结构;
9.根据所述待处理语料数据及所述预测结果对待补全知识图谱进行补全,得到补全后的知识图谱。
10.根据本公开实施例提供的知识图谱补全方法,由于dnc模型将神经网络参数和记忆容量分离,可以增加网络容量,且将dnc模型堆叠化,可以增加超参规模,增大模型表示空间,可以具有较好的推理和问答效果,面向问答系统任务,有效降低了平均单词错误率和综合平均单词错误率,提高了知识图谱补全精度。
11.在其中一个实施例中,所述dnc模型包括控制器和记忆体,所述通过预测模型对所述待处理语料数据进行预测处理,得到所述待处理语料数据对应的预测结果,包括:
12.针对所述待处理语料数据中任一时间步t,采用基于内容的寻址操作,从所述记忆体中读取时间步t-1对应的记忆信息,得到对应的记忆体读向量r
t-1

13.通过所述控制器对所述待处理语料数据中所述时间步t对应的语料数据x
t
、所述记忆体读向量r
t-1
进行预测处理,得到对应的控制器输出向量v
t

14.采用基于内容的寻址操作,从所述记忆体中读取所述时间步t对应的记忆信息,得到对应的记忆体读向量r
t

15.通过所述控制器输出向量v
t
和所述记忆体读向量r
t
,得到所述时间步t对应的输出向量y
t

16.在所述时间步t为所述待处理语料数据中的最后一个时间步的情况下,确定所述时间步t对应的输出向量y
t
为所述待处理语料数据对应的最终向量表示;
17.通过所述待处理语料数据对应的最终向量表示,得到所述待处理语料数据对应的预测结果。
18.根据本公开实施例提供的知识图谱补全方法,可以去除dnc模型中的冗余结构,减少不必要的系统资源消耗,增强模型效率。
19.在其中一个实施例中,所述采用基于内容的寻址操作,从所述记忆体中读取所述时间步对应的记忆信息,得到对应的记忆体读向量r
t
,包括:
20.根据所述时间步t对应的语料数据x
t
,对所述记忆体中存储的记忆信息进行更新;
21.采用基于内容的寻址操作,从更新后的所述记忆体中读取所述时间步t对应的记忆信息,得到对应的记忆体读向量r
t

22.根据本公开实施例提供的知识图谱补全方法,预测模型中各dnc模型将时序记忆链接及其相关部件进行移除,记忆体存储矩阵的寻址方式将只使用基于内容的寻址,可以提高模型预测效率。
23.在其中一个实施例中,所述记忆体包括项目记忆体及关系记忆体,所述项目记忆体用于通过门控联想记忆存储输入的语料数据,所述关系记忆体用于存储所述语料数据之间的关系。
24.根据本公开实施例提供的知识图谱补全方法,通过对原有注意力机制的分析,引入双记忆体结构对注意力机制进行增强,增强了模型的推理能力。
25.在其中一个实施例中,记忆体读向量包括项目记忆信息及关系记忆信息,所述采用基于内容的寻址操作,从更新后的所述记忆体中读取所述时间步t对应的记忆信息,得到对应的记忆体读向量r
t
,包括:
26.采用基于内容的寻址操作,从更新后的所述项目记忆体中读取所述时间步t对应的项目记忆信息,以及从更新后的所述关系记忆体重读取所述时间步t对应的关系记忆信息。
27.根据本公开实施例提供的知识图谱补全方法,通过对原有注意力机制的分析,引入双记忆体结构对注意力机制进行增强,增强了模型的推理能力。
28.在其中一个实施例中,所述根据所述时间步t的语料数据x
t
,对所述记忆体中存储的记忆信息进行更新,包括:
29.根据所述时间步t的语料数据x
t
对所述项目记忆体中存储的时间步t-1的项目记忆信息进行更新,得到更新后的项目记忆体,所述更新后的项目记忆体存储时间步t的项目记忆信息;
30.根据所述时间步t的语料数据x
t
及所述关系记忆体中存储的时间步t-1的关系记忆信息,及确定目标关系向量;
31.根据所述目标关系向量、所述时间步t的项目记忆信息及所述时间步t的语料数据
x
t
,确定目标项目向量;
32.根据所述目标项目向量对所述关系记忆体中存储的时间步t-1的关系记忆信息进行更新,得到更新后的关系记忆体,所述更新后的关系记忆体存储时间步t的关系记忆信息。
33.根据本公开实施例提供的知识图谱补全方法,本公开实施例提供的知识图谱补全方法,对可微神经计算机dnc模型的冗余结构进行简化,并通过对原有注意力机制的分析,引入双记忆体结构对注意力机制进行增强。此外,模型进行了堆叠化处理,采用双层结构,增强了模型的推理能力。
34.第二方面,本技术还提供了一种知识图谱补全装置,所述装置包括:
35.获取模块,用于从待补全知识图谱中获取待处理语料数据;
36.预测模块,用于通过预测模型对所述待处理语料数据进行预测处理,得到所述待处理语料数据对应的预测结果,所述预测模型包括至少一个可微神经计算机dnc模型,在存在多个所述dnc模型的情况下,所述多个dnc模型呈堆叠结构;
37.补全模块,用于根据所述待处理语料数据及所述预测结果补全所述待补全知识图谱,得到补全后的知识图谱。
38.在其中一个实施例中,所述dnc模型包括控制器和记忆体,所述预测模块,还用于:
39.针对所述待处理语料数据中任一时间步t,采用基于内容的寻址操作,从所述记忆体中读取时间步t-1对应的记忆信息,得到对应的记忆体读向量r
t-1

40.通过所述控制器对所述待处理语料数据中所述时间步t对应的语料数据x
t
、所述记忆体读向量r
t-1
进行预测处理,得到对应的控制器输出向量v
t

41.采用基于内容的寻址操作,从所述记忆体中读取所述时间步t对应的记忆信息,得到对应的记忆体读向量r
t

42.通过所述控制器输出向量v
t
和所述记忆体读向量r
t
,得到所述时间步t对应的输出向量y
t

43.在所述时间步t为所述待处理语料数据中的最后一个时间步的情况下,确定所述时间步t对应的输出向量y
t
为所述待处理语料数据对应的最终向量表示;
44.通过所述待处理语料数据对应的最终向量表示,得到所述待处理语料数据对应的预测结果。
45.在其中一个实施例中,所述预测模块,还用于:
46.根据所述时间步t对应的语料数据x
t
,对所述记忆体中存储的记忆信息进行更新;
47.采用基于内容的寻址操作,从更新后的所述记忆体中读取所述时间步t对应的记忆信息,得到对应的记忆体读向量r
t

48.在其中一个实施例中,所述记忆体包括项目记忆体及关系记忆体,所述项目记忆体用于通过门控联想记忆存储输入的语料数据,所述关系记忆体用于存储所述语料数据之间的关系。
49.在其中一个实施例中,所述预测模块,还用于:
50.采用基于内容的寻址操作,从更新后的所述项目记忆体中读取所述时间步t对应的项目记忆信息,以及从更新后的所述关系记忆体重读取所述时间步t对应的关系记忆信息。
51.在其中一个实施例中,记忆体读向量包括项目记忆信息及关系记忆信息,所述预测模块,还用于:
52.根据所述时间步t的语料数据x
t
对所述项目记忆体中存储的时间步t-1的项目记忆信息进行更新,得到更新后的项目记忆体,所述更新后的项目记忆体存储时间步t的项目记忆信息;
53.根据所述时间步t的语料数据x
t
及所述关系记忆体中存储的时间步t-1的关系记忆信息,及确定目标关系向量;
54.根据所述目标关系向量、所述时间步t的项目记忆信息及所述时间步t的语料数据x
t
,确定目标项目向量;
55.根据所述目标项目向量对所述关系记忆体中存储的时间步t-1的关系记忆信息进行更新,得到更新后的关系记忆体,所述更新后的关系记忆体存储时间步t的关系记忆信息。
56.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项知识图谱补全方法。
57.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项知识图谱补全方法。
58.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一项知识图谱补全方法。
59.上述知识图谱补全方法、装置、电子设备和存储介质,可以获取待处理语料数据,通过预测模型对待处理语料数据进行预测处理,得到待处理语料数据对应的预测结果,预测模型包括至少一个可微神经计算机dnc模型,在存在多个dnc模型的情况下,多个dnc模型呈堆叠结构,根据待处理语料数据及预测结果对待补全知识图谱进行补全,可以得到补全后的知识图谱。根据本公开实施例提供的知识图谱补全方法、装置、电子设备和存储介质,由于dnc模型将神经网络参数和记忆容量分离,能够增加网络容量,且通过将dnc模型堆叠化,能够增加超参规模,增大模型表示空间,进而可以有效降低平均单词错误率和综合平均单词错误率,因此可以有效提高预测精度,提高知识图谱的补全精度。
60.示例性的,补全后的知识图谱应用于面向问答系统任务时,可以具有较好的推理和问答效果。
附图说明
61.图1为一个实施例中知识图谱补全方法的流程图;
62.图2为一个实施例中dnc模型的示意图;
63.图3为一个实施例中dnc模型的示意图;
64.图4为一个实施例中知识图谱补全方法的流程图;
65.图5为一个实施例中知识图谱补全方法的流程图;
66.图6为一个实施例中dnc模型的示意图;
67.图7为一个实施例中知识图谱补全方法的流程图;
68.图8为一个实施例中知识图谱补全方法的示意图;
69.图9为一个实施例中知识图谱补全方法的示意图;
70.图10为一个实施例中知识图谱补全装置的结构框图;
71.图11为一个实施例中计算机设备的内部结构图。
具体实施方式
72.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
73.图1是根据一示例性实施例示出的一种知识图谱补全方法的流程图,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
74.步骤102,获取待处理语料数据。
75.本公开实施例中,待处理语料数据可以为已预处理为词向量表示的语料数据。以问答系统为例,该待处理语料数据可以为待进行答案预测的输入语句信息所对应的词向量表示。
76.步骤104,通过预测模型对待处理语料数据进行预测处理,得到待处理语料数据对应的预测结果,预测模型包括至少一个可微神经计算机dnc模型,在存在多个dnc模型的情况下,多个dnc模型呈堆叠结构。
77.本公开实施例中,可以将待处理语料数据输入预测模型进行处理,得到待处理语料数据对应的预测结果,仍以问答系统为例,该预测结果可以为待预处理语料数据对应的答案。
78.其中,预测模型包括至少一个dnc(differentiable neural computer,可微神经计算机)模型,在存在多个dnc模型的情况下,多个dnc模型呈堆叠结构。dnc模型主要包括控制器以及记忆体等辅助存储相关的部件,由于dnc控制器的本质为循环神经网络,因此dnc模型可以在时序上进行等效展开。且由于其体系结构中具有独立的记忆体等辅助存储部件,故而dnc模型可以选择性地对时间耦合进行消除和恢复,也即记忆体等辅助存储部件的引入使得dnc模型在时序上具有了解耦的功能。
79.参照图2所示,时间上看来,时序展开的dnc模型网络隐层之间的联系需要经过记忆体,即每个时刻中都存在着同记忆体的交互操作;空间上看来,增加的记忆体等辅助存储结构降低了模型的时序依赖性。
80.在预测模型包括多个dnc模型的情况下,多个dnc模型呈堆叠结构,堆叠的dnc模型在时序展开后参照图3所示。dnc模型堆叠化显著增加了预测模型超参数的规模,使得预测模型具有足够大的参数来形成一个潜在大的表示空间,且堆叠化的dnc模型中,单层的配置和操作可以相互独立,通过协调合作,使得整体可以形成一个比单独运行更高效的系统,也即dnc模型堆叠化使得模型的配置更加灵活,可以构建一个更为强大的异构系统,进而将dnc模型堆叠化会带来更好的学习和推理效果。
81.步骤106,根据待处理语料数据及预测结果对待补全知识图谱进行补全,得到补全
后的知识图谱。
82.本公开实施例中,在得到待处理语料数据的预测结果之后,可以根据待处理语料数据及其预测结果构建对应的三元组,进而通过构建的三元组对待补全知识图谱进行补全。
83.基于本公开实施例提供的知识图谱补全方法,可以获取待处理语料数据,通过预测模型对待处理语料数据进行预测处理,得到待处理语料数据对应的预测结果,预测模型包括至少一个可微神经计算机dnc模型,在存在多个dnc模型的情况下,多个dnc模型呈堆叠结构,根据待处理语料数据及预测结果对待补全知识图谱进行补全,可以得到补全后的知识图谱。根据本公开实施例提供的知识图谱补全方法,由于dnc模型将神经网络参数和记忆容量分离,能够增加网络容量,且通过将dnc模型堆叠化,能够增加超参规模,增大模型表示空间,进而可以有效降低平均单词错误率和综合平均单词错误率,因此可以有效提高预测精度,提高知识图谱的补全精度,示例性的,补全后的知识图谱应用于面向问答系统任务时,可以具有较好的推理和问答效果。
84.在一示例性的实施例中,dnc模型包括控制器和记忆体,参照图4所示,上述步骤104中,通过预测模型对待处理语料数据进行预测处理,得到待处理语料数据对应的预测结果,包括:
85.步骤402,针对待处理语料数据中任一时间步t,采用基于内容的寻址操作,从记忆体中读取时间步t-1对应的记忆信息,得到对应的记忆体读向量r
t-1

86.步骤404,通过控制器对待处理语料数据中时间步t对应的语料数据x
t
、记忆体读向量r
t-1
进行预测处理,得到对应的控制器输出向量v
t

87.步骤406,采用基于内容的寻址操作,从记忆体中读取时间步t对应的记忆信息,得到对应的记忆体读向量r
t

88.步骤408,通过控制器输出向量v
t
和记忆体读向量r
t
,得到时间步t对应的输出向量y
t

89.步骤410,在时间步t为待处理语料数据中的最后一个时间步的情况下,确定时间步t对应的输出向量y
t
为待处理语料数据对应的最终向量表示;
90.步骤412,通过待处理语料数据对应的最终向量表示,得到待处理语料数据对应的预测结果。
91.举例来说,dnc模型的输出是控制器网络的输出向量和记忆体读取向量的加权和,即dnc的模型效果受控制器和记忆体的共同作用。举例来说,当应用于问答系统时,由于问答系统任务对于恢复序列的需求很低,故dnc模型在问答系统等任务中主要使用了基于内容的寻址方式,同时,针对问答系统数据,时序记忆链接是系统资源消耗的主要驱动因素。
92.为了使模型效率更高,本技术实施例中dnc模型可以将时序记忆链接及其相关部件进行移除,移除后记忆体只使用基于内容的寻址进行寻址。其中,基于内容的寻址过程中,控制器发出的查找键向量同记忆体中存储矩阵中每个位置存储的元素计算余弦相似度,以基于余弦相似度评估内容相似性,而余弦相似度对应的相似度分数本质上是一种权重,用来对读写头进行控制,进而通过读写头读取记忆体中的记忆信息,得到对应的记忆体读向量r
t-1

93.示例性的,dnc模型移除了时序记忆链接结构,去掉了释放门、分配门(本质为参数
项),控制器和记忆体交互过程使用的寻址机制仅保留基于内容的寻址。结构简化前,控制器和记忆体的交互过程使用多种方式结合的寻址机制,例如:读取记忆信息时,使用基于内容的寻址以及时序记忆链接来定位;写入记忆信息时,使用基于内容的寻址以及动态寻址来定位。其中动态寻址结合了释放列表,释放列表即记忆体中已释放或还未利用的存储位置。释放列表的计算又有释放门的参与。分配门参与了写入权重、读取权重、时序记忆链接的计算。也即结构简化后,dns模型主要包括控制器和记忆体。
94.示例性的,以预测模型将lstm(long short-term memory network,长短时记忆)网络作为控制器为例,对待处理语料数据中时间步t对应的语料数据x
t
和记忆体中获取的记忆体读向量r
t-1
进行处理,得到控制器输出向量v
t
。以controller(
·
)表示控制器处理过程,这一过程可表示为公式(一)。
[0095]vt
=controller([x
t
;r
t-1
])
ꢀꢀ
公式(一)
[0096]
示例性的,控制器网络使用细胞状态(也称单元状态、内部状态)c
t
来记录记忆信息,使用门控机制对细胞状态进行修改,并控制记忆信息的累积速率。门控机制将接收到的向量转换为0到1之间的实数向量,此处涉及三种乘法门:遗忘门f
t
、输入门i
t
以及输出门o
t
。遗忘门f
t
确定了细胞状态丢弃记忆信息的程度,即上一时刻的细胞状态c
t-1
可以保留多少到当前时刻c
t
,参照公式(二);输入门i
t
确定了细胞状态保存新的输入信息的程度,即当前时刻网络的输入可以保留多少到细胞状态c
t
,参照公式(三);输出门o
t
确定了细胞状态输出记忆信息的程度,即细胞状态c
t
可以输出多少到当前的输出值h
t
,参照公式(四)。t时刻语料数据为x
t
,令x
t
=[x
t
;w
t-1rt-1
],x
t
表示结合了记忆体中时间步t-1对应的读向量的网络输入信息。
[0097]ft
=σ(wf[h
t-1
;x
t
] bf)
ꢀꢀ
公式(二)
[0098]it
=σ(wi[h
t-1
;x
t
] bi)
ꢀꢀ
公式(三)
[0099]ot
=σ(wo[h
t-1
;x
t
] bo)
ꢀꢀ
公式(四)
[0100]
其中σ(
·
)是sigmoid函数,wf、wi、wo分别代表权重矩阵,[



]表示向量的连接操作,bf、bi、bo分别表示遗忘门的偏置项。
[0101]
细胞状态c
t
结合了上一时刻的细胞状态c
t-1
以及当前输入产生的候选细胞状态也即历史记忆信息和当前新的记忆信息进行了组合,参照下述公式(五)和公式(六)。
[0102][0103][0104]
其中tanh(
·
)是tanh激活函数,

是哈达玛积(hadamard product)运算,即按元素乘,wc用于表征细胞状态的权重矩阵,bc用于表征细胞状态的偏置项,i
t
用于表征时间步t的输入门向量。
[0105]
输出门和细胞状态共同确定隐藏状态(或称外部状态)h
t
,控制器网络在每一个时刻生成一个输出向量v
t
,参照下述公式(七)和公式(八)。
[0106]ht
=o
t

tanh(c
t
)
ꢀꢀ
公式(七)
[0107][0108]
其中l代表了模型堆叠层数,也即dnc模型的个数,wy用于表征控制器输出的权重
矩阵。
[0109]
在每一个时刻,预测模型将控制器输出向量v
t
和记忆体读向量r
t
结合,得到输出向量y
t
,参照下述公式(九)。当时间步t为待处理语料数据中的最后一个时间步的情况下,可以将输出向量y
t
视为整个序列(或者待处理语料数据)的最终向量表示。
[0110]yt
=v
t
wr[r
t1
;r
t2
;...;r
tr
]
ꢀꢀ
公式(九)
[0111]
其中,r用于表征记忆体读向量r
t
的个数。
[0112]yt
再通过softmax分类器进行归一化处理,获取输出属于各词向量的概率向量,获得最高概率的词向量作为预测结果,参照下述公式(十)。
[0113][0114]
其中,ya用于表征输出属于a词向量的概率;ya代表输出向量a位置的值;其中,a、j都为遍历变量,指代输出向量的位置数。
[0115]
根据本公开实施例提供的知识图谱补全方法,可以去除dnc模型中的冗余结构,减少不必要的系统资源消耗,增强模型效率。
[0116]
在一示例性实施例中,参照图5所示,步骤406中,采用基于内容的寻址操作,从记忆体中读取时间步对应的记忆信息,得到对应的记忆体读向量r
t
,包括:
[0117]
步骤502,根据时间步t的语料数据x
t
,对记忆体中存储的记忆信息进行更新;
[0118]
步骤504,采用基于内容的寻址操作,从更新后的记忆体中读取时间步t对应的记忆信息,得到对应的记忆体读向量r
t

[0119]
在一个实施例中,记忆体包括项目记忆体及关系记忆体,项目记忆体可以用于通过门控联想记忆存储输入的语料数据,关系记忆体用于存储语料数据之间的关系。
[0120]
本公开实施例提供的知识图谱补全方法,通过对原有注意力机制的分析,引入双记忆体结构对注意力机制进行增强,增强了模型的推理能力。
[0121]
本公开实施例中,经过对dnc模型注意力机制的分析,发现原有的辅助存储设置对于关系表示无法进行存储,这不利于关系表示的复用。此外,记忆信息关系表示的计算不够丰富,这对信息的表达效果产生了制约。针对这些不足,本发明对原有注意力机制进行增强,对辅助存储部件作出更改。具体地,引入基于神经动力学的联想记忆(associative memory)模型,对关系记忆单独存储,将原有记忆体部件更新为双记忆体结构,也即记忆体包括项目记忆体和关系记忆体。
[0122]
项目记忆是指对一件事物或事情是否发生过的记忆,用于对输入的语料数据进行相应存储;关系记忆则是对如事物的位置、事情的顺序等具体细节的关系的记忆,也即用于存储输入的语料数据之间的关系。其中,项目记忆体可以通过使用门控联想记忆,可以选择性对输入的语料数据进行编码存储。其中,门控联想记忆的本质为基于内容的寻址。
[0123]
此外,项目记忆体可以同关系记忆体中的记忆信息进行运算,生成新的关系记忆信息,以对关系记忆体中存储的记忆信息进行更新。由于关系记忆体中的记忆信息维度更高,因此两个记忆体之间的交互(运算过程)借助了外积操作构造异的门控联想记忆来表征项目以及项目之间的关系,其中结合了增强注意力机制的堆叠型双记忆体模型结构如图6所示。
[0124]
根据本公开实施例提供的知识图谱补全方法,预测模型中各dnc模型将时序记忆
链接及其相关部件进行移除,记忆体存储矩阵的寻址方式将只使用基于内容的寻址,可以提高模型预测效率。
[0125]
在一个示例中,记忆体读向量包括项目记忆信息及关系记忆信息,步骤406中,采用基于内容的寻址操作,从更新后的记忆体中读取时间步t对应的记忆信息,得到对应的记忆体读向量r
t
,包括:
[0126]
采用基于内容的寻址操作,从更新后的项目记忆体中读取时间步t对应的项目记忆信息,以及从更新后的关系记忆体重读取时间步t对应的关系记忆信息。
[0127]
本公开实施例中,两个记忆体的读取权重定义为公式(十一)。
[0128][0129]
其中为读取键向量,为读取强度,m
t
用于表征记忆体这种时间步t对应的存储矩阵,cd(
·
)为基于内容的寻址操作,具体可以参照公式(十二)所示。
[0130][0131]
双记忆体模块接收控制器网络的门控状态以及输入向量
x
,通过sam算子生成项目记忆体中的读向量ri和关系记忆体中的读向量rr,并对双记忆体矩阵状态和(项目记忆体中时间步t的矩阵状态为关系记忆体中时间步t的矩阵为)进行更新。以two_memory(
·
)表示双记忆体部件处理过程,具体可以参照公式(十三)所示。
[0132]
(ri,rr;mi,mr)=two_memory(f;i;x)
ꢀꢀ
公式(十三)
[0133]
其中,f和i分别用于表征控制器这种遗忘门向量和输入门向量,mi为项目记忆体中的矩阵状态,mr为关系记忆体中的矩阵状态。
[0134]
根据本公开实施例提供的知识图谱补全方法,通过对原有注意力机制的分析,引入双记忆体结构对注意力机制进行增强,增强了模型的推理能力。
[0135]
在一个实施例中,参照图7所示,上述步骤502,根据时间步t的语料数据x
t
,对记忆体中存储的记忆信息进行更新,包括:
[0136]
步骤702,根据时间步t的语料数据x
t
对项目记忆体中存储的时间步t-1的项目记忆信息进行更新,得到更新后的项目记忆体,更新后的项目记忆体存储时间步t的项目记忆信息;
[0137]
步骤704,根据时间步t的语料数据x
t
及关系记忆体中存储的时间步t-1的关系记忆信息,确定目标关系向量;
[0138]
步骤706,根据目标关系向量、时间步t的项目记忆信息及时间步t的语料数据x
t
,确定目标项目向量;
[0139]
步骤708,根据目标项目向量对关系记忆体中存储的时间步t-1的关系记忆信息进行更新,得到更新后的关系记忆体,更新后的关系记忆体存储时间步t的关系记忆信息。
[0140]
本公开实施例中,可以分别使用和代表项目记忆体和关系记忆体中时间步t存储的记忆信息,记忆信息可以存储矩阵状态的形式存储,则在t时刻,和的更新可以表示为下述公式(十四)至公式(十七)。
[0141][0142][0143][0144][0145]
其中fnni(
·
)代表前馈神经网络,表示外积操作,η1和η2为超参数,sam(
·
)为门控联想记忆操作。其中,门控联想记忆操作可以将项目记忆体状态线性映射到不同空间,分别生成查询矩阵q、键矩阵k、值矩阵v,sam(
·
)操作返回高维关系表示,参照下述公式(十八)至公式(二十一)。
[0146][0147][0148][0149][0150]
其中,a和j都为对应矩阵中向量序列的位置,n
kv
用于表征键矩阵/值矩阵中向量的数量。
[0151]
其中,采用查询-键-值模式的自注意力机制通常使用点积操作对q-k-v进行处理,得到注意力的评分,表示各位置的编码对于其他位置的重视程度。而在上述双记忆体结构注意力机制中,使用了结合外积操作的门控联想记忆(self-attentive associative memory,sam)算子。外积操作可以保留向量之间的元素级交互信息,具有丰富的表示学习能力,这对于构建高维关系的表示至关重要。
[0152]
本公开实施例提供的知识图谱补全方法,对可微神经计算机dnc模型的冗余结构进行简化,并通过对原有注意力机制的分析,引入双记忆体结构对注意力机制进行增强。此外,模型进行了堆叠化处理,采用双层结构,增强了模型的推理能力。
[0153]
在本公开的一个实施例中,可以将归一化技术应用到控制器中,以有效提高预测模型的训练效率。具体地,归一化通常可以带来至少如下优化:尺度不变性更好、优化地形更平滑。具体地,预测模型的输入经过层层的计算,以及训练时模型参数的更新会使靠近输出层输出的分布出现较大的变化,这种不稳定性现象被称为内部协变量偏移(internal covariate shift),通过归一化将各层的输入调整为标准正态分布,可以使其具有较好的尺度不变性,可以更高效地进行参数初始化。优化地形(optimization landscape)是指高维空间中损失函数的曲面形状,归一化技术使得网络的优化地形更趋于平滑,同时使得梯度变化更为稳定,提高收敛速度。
[0154]
示例性的,由于循环神经网络的输入分布具有动态变化的特点,本技术可以选用层归一化(layer normalization,ln)方法对各层输入进行归一化处理,层归一化被应用在激活函数之前的中间层,对中间层的所有神经元的输入进行归一化。
[0155]
经分析得知,dnc模型的性能表现同记忆体影响率有关。模型不收敛时,记忆体通
常具有较小的影响率;而记忆体影响率较大时,模型一般会取得较好的性能结果,因此,保证记忆体高影响率是有必要的。通过在控制器和输出之间的连接中使用丢弃法,可以降低连接数量,从而增强记忆体的高影响率。丢弃法是一种网络正则化(regularization)方法,正则化方法主要作用是提高神经网络的泛化能力,限制模型复杂度,避免过拟合等。参照图8所示,丢弃法通过随机丢弃部分神经元及其对应的连接来实现正则化。
[0156]
在本公开的一个实施例中,dnc模型的输出为由控制器的输出和记忆体读取向量的加权和,即dnc模型的输出受控制器和记忆体的共同作用。在确定记忆体对dnc模型的影响率的情况下,可以将记忆体的输出同dnc模型的整体输出的比值定义为记忆体影响率,该记忆体影响率用于表示记忆体在dnc模型的输出中发挥作用的大小,具体可以参照下述公式(二十二)所示。
[0157][0158]
其中,mean(
·
)函数表示求向量的元素均值,inm表示记忆体影响率。
[0159]
有研究者分析表明,记忆体的高使用率和任务的良好结果具有较强的相关性。因此,记忆体影响率作为部件参与度的表示指标,可以衡量模型的整体性能。参照图9所示,在问答数据集babi任务1样本上进行实验,dnc模型的释放门、分配门发挥作用较低,这表明dnc模型在问答系统任务中主要使用了基于内容的寻址方式,而且时序记忆链接对实验结果的影响较小。这是因为问答系统任务对于恢复序列的需求很低。同时,针对问答系统数据,时序记忆链接是系统资源消耗的主要驱动因素。
[0160]
因此,面向问答系统任务,为了使模型效率更高,dnc模型将时序记忆链接及其相关部件进行移除,记忆体存储矩阵的寻址方式将只使用基于内容的寻址。
[0161]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0162]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的知识图谱补全方法的知识图谱补全装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个知识图谱补全装置实施例中的具体限定可以参见上文中对于知识图谱补全方法的限定,在此不再赘述。
[0163]
在一个实施例中,如图10所示,提供了一种知识图谱补全装置,包括:获取模块1002、预测模块1004和补全模块1006,其中,
[0164]
获取模块1002,用于从待补全知识图谱中获取待处理语料数据;
[0165]
预测模块1004,用于通过预测模型对所述待处理语料数据进行预测处理,得到所述待处理语料数据对应的预测结果,所述预测模型包括至少一个可微神经计算机dnc模型,在存在多个所述dnc模型的情况下,所述多个dnc模型呈堆叠结构;
[0166]
补全模块1006,用于根据所述待处理语料数据及所述预测结果补全所述待补全知
识图谱,得到补全后的知识图谱。
[0167]
基于本公开实施例提供的知识图谱补全装置,可以获取待处理语料数据,通过预测模型对待处理语料数据进行预测处理,得到待处理语料数据对应的预测结果,预测模型包括至少一个可微神经计算机dnc模型,在存在多个dnc模型的情况下,多个dnc模型呈堆叠结构,根据待处理语料数据及预测结果对待补全知识图谱进行补全,可以得到补全后的知识图谱。根据本公开实施例提供的知识图谱补全装置,由于dnc模型将神经网络参数和记忆容量分离,能够增加网络容量,且通过将dnc模型堆叠化,能够增加超参规模,增大模型表示空间,进而可以有效降低平均单词错误率和综合平均单词错误率,因此可以有效提高预测精度,提高知识图谱的补全精度。示例性的,补全后的知识图谱应用于面向问答系统任务时,可以具有较好的推理和问答效果。
[0168]
在其中一个实施例中,所述dnc模型包括控制器和记忆体,所述预测模块1004,还用于:
[0169]
针对所述待处理语料数据中任一时间步t,采用基于内容的寻址操作,从所述记忆体中读取时间步t-1对应的记忆信息,得到对应的记忆体读向量r
t-1;
[0170]
通过所述控制器对所述待处理语料数据中所述时间步t对应的语料数据x
t
、所述记忆体读向量r
t-1
进行预测处理,得到对应的控制器输出向量v
t

[0171]
采用基于内容的寻址操作,从所述记忆体中读取所述时间步t对应的记忆信息,得到对应的记忆体读向量r
t

[0172]
通过所述控制器输出向量v
t
和所述记忆体读向量r
t
,得到所述时间步t对应的输出向量y
t

[0173]
在所述时间步t为所述待处理语料数据中的最后一个时间步的情况下,确定所述时间步t对应的输出向量y
t
为所述待处理语料数据对应的最终向量表示;
[0174]
通过所述待处理语料数据对应的最终向量表示,得到所述待处理语料数据对应的预测结果。
[0175]
在其中一个实施例中,所述预测模块1004,还用于:
[0176]
根据所述时间步t对应的语料数据x
t
,对所述记忆体中存储的记忆信息进行更新;
[0177]
采用基于内容的寻址操作,从更新后的所述记忆体中读取所述时间步t对应的记忆信息,得到对应的记忆体读向量r
t

[0178]
在其中一个实施例中,记忆体读向量包括项目记忆信息及关系记忆信息,所述记忆体包括项目记忆体及关系记忆体,所述项目记忆体用于通过门控联想记忆存储输入的语料数据,所述关系记忆体用于存储所述语料数据之间的关系。
[0179]
在其中一个实施例中,所述预测模块1004,还用于:
[0180]
采用基于内容的寻址操作,从更新后的所述项目记忆体中读取所述时间步t对应的项目记忆信息,以及从更新后的所述关系记忆体重读取所述时间步t对应的关系记忆信息。
[0181]
在其中一个实施例中,所述预测模块1004,还用于:
[0182]
根据所述时间步t的语料数据x
t
对所述项目记忆体中存储的时间步t-1的项目记忆信息进行更新,得到更新后的项目记忆体,所述更新后的项目记忆体存储时间步t的项目记忆信息;
[0183]
根据所述时间步t的语料数据x
t
及所述关系记忆体中存储的时间步t-1的关系记忆信息,及确定目标关系向量;
[0184]
根据所述目标关系向量、所述时间步t的项目记忆信息及所述时间步t的语料数据x
t
,确定目标项目向量;
[0185]
根据所述目标项目向量对所述关系记忆体中存储的时间步t-1的关系记忆信息进行更新,得到更新后的关系记忆体,所述更新后的关系记忆体存储时间步t的关系记忆信息。
[0186]
上述知识图谱补全装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0187]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种知识图谱补全方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0188]
本领域技术人员可以理解,图11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0189]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0190]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0191]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0192]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0193]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器
(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0194]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0195]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献