一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于改进TextRank的知识图谱补全方法和装置

2022-12-02 23:44:27 来源:中国专利 TAG:

技术特征:
1.一种基于改进textrank的知识图谱补全方法,其特征在于,所述方法包括:获取智能问答系统知识图谱中多个三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本;将多个所述三元组作为正样本集,并根据所述正样本采用替换法构造负样本,得到负样本集;将所述正样本集和所述负样本集作为样本集;将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进textrank方式,利用实体名的覆盖率、句子位置以及句子相似度对句子权重进行调整,根据得到的最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列;将所述输入序列输入到序列编码层中,采用albert编码器对所述输入序列进行特征提取和特征编码,得到具有上下位语义特征的特征矩阵;将所述特征矩阵输入到特征增强层,采用平均池化层和bigru层对所述特征矩阵进行特征增强,得到增强特征矩阵;将所述增强特征矩阵输入到所述多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。2.根据权利要求1所述的方法,其特征在于,将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进textrank方式,利用实体名的覆盖率、句子位置以及句子相似度对句子权重进行调整,根据得到的最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列,包括:对头实体的文本描述进行分词预处理,得到头实体的多个句子;将所述头实体的多个句子作为图顶点,并计算不同图顶点之间的相似度,得到相似度矩阵;根据所述图顶点和所述相似度矩阵,构造textrank图模型;根据所述相似度矩阵和所述textrank图模型,得到句子权重矩阵;根据每个句子包含的实体名数量、句子的单词数,得到句子的实体覆盖率矩阵;根据原本实体描述文本段所包含的句子数量和当前句子在段落中的索引,得到句子位置矩阵;对所述实体覆盖率矩阵和所述句子位置矩阵进行归一化处理;根据预设权重值、归一化处理后的实体覆盖率矩阵和句子位置矩阵对所述句子权重矩阵进行修正,得到最终句子权重矩阵;根据所述最终句子权重矩阵对句子进行排序,权重较高的预设数量个句子作为头实体的摘要描述;对尾实体的文本描述信息输入到文本摘要层中,得到尾实体的摘要描述;将所述头实体的摘要描述、所述尾实体的摘要描述以及头实体与尾实体之间的关系文本进行拼接,得到输入序列。3.根据权利要求2所述的方法,其特征在于,根据所述相似度矩阵和所述textrank图模型,得到句子权重矩阵,包括:
设置每个句子的权重初始值为相同的数,其中所有句子的权重之和为1;根据每个句子的权重初始值、所述相似度矩阵以及所述textrank图模型,得到句子权重矩阵;句子权重计算公式为:其中,tr(x
i
)为第i句的权重值,w
ji
∈sd为第j个顶点到第i个顶点之间的相似度,sd为相似度矩阵;in(x)表示指向句子x的句子集合,out(x)为句子x指向的句子集合,d为阻尼系数。4.根据权利要求2所述的方法,其特征在于,将所述头实体的多个句子作为图顶点,并计算不同图顶点之间的相似度,得到相似度矩阵,步骤中不同图顶点之间的相似度的表达式为:其中,w
ab
为句子a对应的顶点与句子b对应的顶点之间的相似度,seq
a
和seq
b
分别代表句子a和句子b,|seq
a
|、|seq
b
|分别为句子a和句子b包含的单词数,t
k
为句子a和句子b中重叠的词汇。5.根据权利要求2所述的方法,其特征在于,根据预设权重值、归一化处理后的实体覆盖率矩阵和句子位置矩阵对所述句子权重矩阵进行修正,得到最终句子权重矩阵,得到最终句子权重矩阵,步骤中所述最终句子权重矩阵的表达式为:b=b
f
·
(αw
e
βw
p
)
t
其中,b为最终句子权重矩阵,b的维度为1
×
n,b
f
为句子权重矩阵,
·
表示矩阵点乘,α,β分别为两种特征矩阵的权重,且α β=1,w
e
为归一化的实体覆盖率矩阵,w
p
为归一化的句子位置矩阵。6.根据权利要求1所述的方法,其特征在于,特征增强层包括:平均池化层和bigru层;bigru是在隐层同时有一个正向gru和反向gru,所述正向gru用于捕获上文的特征信息,所述反向gru用于捕获下文的特征信息;将所述特征矩阵输入到特征增强层,采用平均池化层和bigru层对所述特征矩阵进行特征增强,得到增强特征矩阵,包括:将所述特征矩阵输入到特征增强层的平均池化层中,得到池化特征矩阵;将所述池化特征矩阵输入到所述bigru层中,利用正向gru捕获上文的特征信息,利用反向gru捕获下文的特征信息,得到增强特征矩阵。7.根据权利要求1所述的方法,其特征在于,链接预测任务包括全连接层和softmax激活函数、关系预测任务包括全连接层和softmax激活函数;相关性排序任务包括全连接层和sigmoid激活函数;将所述增强特征矩阵输入到所述多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统的问答任务,包括:
将所述性增强特征矩阵输入到所述链接预测任务的全连接层中,将得到的输出结果采用softmax函数激活后,得到链接预测得分,根据所述链接预测得分采用二进制交叉熵损失函数计算链接预测任务的损失函数,通过梯度下降算法优化链接预测任务的参数,得到最优链接预测结果;将所述性增强特征矩阵输入到所述关系预测任务的全连接层中,将得到的输出结果采用softmax函数激活后,得到关系预测得分,根据所述关系预测得分采用交叉熵损失函数,确定关系预测任务的损失函数,通过梯度下降算法优化关系预测任务的参数,得到最优关系预测结果;将所述性增强特征矩阵输入到所述相关性排序任务的全连接层中,将得到的输出结果采用sigmoid函数激活后,得到相关性排序任务得分,根据所述关系预测得分采用边际损失函数,确定相关性排序任务的损失函数,通过梯度下降算法优化相关性排序任务的参数,得到最优相关性排序结果;根据所述最优链接预测结果、所述最优关系预测结果以及所述最优相关性排序结果,确定三元组中缺失的另一实体,完成智能问答系统的问答任务。8.一种基于改进textrank的知识图谱补全装置,其特征在于,所述装置包括:数据获取模块,用于获取智能问答系统知识图谱中多个三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本;将多个所述三元组作为正样本集,并根据所述正样本采用替换法构造负样本,得到负样本集;将所述正样本集和所述负样本集作为样本集;头实体和尾实体的描述摘要抽取模块,用于将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进textrank方式,利用实体名的覆盖率、句子位置以及句子相似度对句子权重进行调整,根据得到的最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列;特征提取模块,用于将所述输入序列输入到序列编码层中,采用albert编码器对所述输入序列进行特征提取和特征编码,得到具有上下位语义特征的特征矩阵;将所述特征矩阵输入到特征增强层,采用平均池化层和bigru层对所述特征矩阵进行特征增强,得到增强特征矩阵;知识图谱补全模块,将所述增强特征矩阵输入到所述多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统的问答任务。9.根据权利要求8所述的装置,其特征在于,头实体和尾实体的描述摘要抽取模块,还用于对头实体的文本描述进行分词预处理,得到头实体的多个句子;将所述头实体的多个句子作为图顶点,并计算不同图顶点之间的相似度,得到相似度矩阵;根据所述图顶点和所述相似度矩阵,构造textrank图模型;根据所述相似度矩阵和所述textrank图模型,得到句子权重矩阵;根据每个句子包含的实体名数量、句子的单词数,得到句子的实体覆盖率矩阵;根据原本实体描述文本段所包含的句子数量和当前句子在段落中的索引,得到句子位置矩阵;根据预设权重值、归一化处理后的实体覆盖率矩阵和句子位置矩阵对所述句子权重矩阵进行修正,得到最终句子权重矩阵;根据最终句子权重矩阵对句子进行排序,权重较
高的预设数量个句子作为头实体的摘要描述;对尾实体的文本描述信息输入到文本摘要层中,得到尾实体的摘要描述;将头实体的摘要描述、尾实体的摘要描述以及头实体与尾实体之间的关系文本进行拼接,得到输入序列。10.根据权利要求8所述的装置,其特征在于,头实体和尾实体的描述摘要抽取模块,还用于设置每个句子的权重初始值为相同的数,其中所有句子的权重之和为1;根据每个句子的权重初始值、所述相似度矩阵以及所述textrank图模型,得到句子权重矩阵;句子权重矩阵的元素计算公式为其中,tr(x
i
)为第i句的权重值,w
ji
∈sd为第j个顶点到第i个顶点之间的相似度,sd为相似度矩阵;in(x)表示指向句子x的句子集合,out(x)为句子x指向的句子集合,d为阻尼系数。

技术总结
本申请涉及知识图谱技术领域一种基于改进TextRank的知识图谱补全方法和装置。该方法通过获取知识问答系统知识图谱中三元组的头尾实体的文本描述信息,及实体关系文本;采用替换法构造负样本,将三元组和负样本作为样本集;采用改进TextRank提取样本集中三元组的头尾实体的描述摘要,将描述摘要和实体关系文本拼接后输入ALBERT编码器,并将得到的具有上下位语义特征的特征矩阵经过平均池化和BiGRU层进行特征增强,根据增强特征矩阵采用多任务学习方式,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。采用本方法对智能问答系统知识图谱进行补全,可提高智能问答系统搜索结果精准度,实现所答即所问。实现所答即所问。实现所答即所问。


技术研发人员:张骁雄 田昊 丁鲲 刘茗 杨琴琴 刘姗姗 蒋国权 刘浏
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:2022.08.30
技术公布日:2022/12/1
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献