一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于关键短语的知识图谱可视化方法及系统与流程

2022-10-29 03:59:43 来源:中国专利 TAG:

技术特征:
1.一种基于关键短语的知识图谱可视化方法,其特征在于,包括:对文本进行预处理得到分词结果,并基于分词结果获取高频词及提取实体,并构建实体间的共现关系;运用关键词提取算法从高频词中找出关键词,将相邻关键词进行融合,得到候选关键短语;将分词结果进行重组得到新短语,将新短语与候选关键短语进行排序得到最终关键短语;对文本抽取事件三元组,过滤出与实体相关的事件三元组,根据所述构建的事件三元组,建立最终关键短语、高频词和实体三者之间的关系;将实体间的共现关系,以及最终关键短语、高频词和实体三者之间的关系进行图谱化展示。2.根据权利要求1所述的基于关键短语的知识图谱可视化方法,其特征在于,所述对文本进行预处理得到分词结果的过程,包括:移除文本中括号内的信息,去除噪声;将文本进行短句切分处理,得到多个句子;对句子进行分词处理得到分词结果。3.根据权利要求1所述的基于关键短语的知识图谱可视化方法,其特征在于,所述提取实体,并构建实体间的共现关系的过程,包括:在文本中查找提取的实体并标记其类型,进行命名实体识别;从文本中抽取至少两个实体之间的语义关系,作为直接共现关系;利用具有大量实体与关系构成的知识库对文本中实体进行关系标注,得到实体之间的推理共现关系;所述直接共现关系和推理共现关系共同组成实体之间的共现关系。4.根据权利要求3所述的基于关键短语的知识图谱可视化方法,其特征在于,所述从文本中抽取至少两个实体之间的语义关系,包括实体之间关系抽取和实体属性抽取,其中:实体之间关系抽取是采取监督学习或远程监督学习的方式抽取实体之间的关系;实体属性抽取是对实体的特征和性质进行抽取。5.根据权利要求1所述的基于关键短语的知识图谱可视化方法,其特征在于,运用关键词提取算法从高频词中找出关键词,将相邻关键词进行融合,得到候选关键短语的过程,包括:采用tf-idf算法从高频词中找出碎片化的关键词,将在文本中相邻的碎片化的关键词进行合并得到关键短语,根据权重对关键短语进行排序调整,去除意义相同的短语,得到候选关键短语;所述权重包括关键短语的词性权重、位置权重、长度权重以及主题突出度权重。6.根据权利要求5所述的基于关键短语的知识图谱可视化方法,其特征在于,所述融合得到候选关键短语的条件,包括:短语的token长度不超过预设长度阈值;关键短语中不可出现超过预设数个的虚词;关键短语的两端token不可是虚词和停用词;关键短语中停用词数量不可超过预设个数;运用mmr算法计算短语重复度,进而去掉意义相同的关键短语,所述token为词汇,包括关键词,以及关键词相应的虚词、停用词。
7.根据权利要求1所述的基于关键短语的知识图谱可视化方法,其特征在于,所述将新短语与候选关键短语进行排序得到最终关键短语,使用lda主题模型进行计算权重并排序,包括:预训练lda模型,其包括对文本进行分类,并进行主题预测;使用预训练好的lda模型,计算文本的主题概率分布以及每一个关键短语与新短语的在不同主题下的概率分布,将得到的概率分布作为最终权重;将所述关键短语与新短语在不同主题下的最终权重,由大到小进行排序,得到不同主题分别对应的最终关键短语。8.一种基于关键短语的知识图谱可视化系统,其特征在于,包括:文本预处理模块,对文本进行预处理得到分词结果,并基于分词结果获取高频词及提取实体,并构建实体间的共现关系;关键词融合模块,运用关键词提取算法从高频词中找出关键词,将相邻关键词进行融合,得到候选关键短语;短语重组模块,用于将分词结果进行重组得到新短语,将新短语与候选关键短语进行排序得到最终关键短语;关系建立模块,用于对文本抽取事件三元组,过滤出与实体相关的事件三元组,并根据所述构建的事件三元组,建立最终关键短语、高频词和实体之间的关系;图谱化展示模块,用于将实体间的共现关系以及最终关键短语、高频词和实体之间的关系进行图谱化展示。9.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7任一项所述的基于关键短语的知识图谱可视化方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-7任一项所述的基于关键短语的知识图谱可视化方法。

技术总结
本发明提供一种基于关键短语的知识图谱可视化方法及系统,方法包括:对文本进行预处理得到分词结果,并基于分词结果获取高频词及提取实体,构建实体间的共现关系;运用关键词提取算法从高频词中找出关键词,将相邻关键词进行融合,得到候选关键短语;将分词结果重组得到新短语,将新短语与候选关键短语排序得到最终关键短语;对文本抽取事件三元组,根据构建的事件三元组,建立最终关键短语、高频词和实体三者之间的关系;将实体间的共现关系,和最终关键短语、高频词和实体三者之间的关系进行图谱化展示。本发明可以快速直观地了解当前文本的关键词以及知识结构体系,能全面捕捉文章的关键信息。章的关键信息。章的关键信息。


技术研发人员:胡泽婷 郭曼 路兴
受保护的技术使用者:北京易华录信息技术股份有限公司
技术研发日:2022.08.19
技术公布日:2022/10/27
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献