一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向情报搜索需求的结构化本体构建及应用方法与流程

2022-03-26 06:33:34 来源:中国专利 TAG:


1.本发明属于自然语言处理技术领域,具体涉及一种面向情报搜索需求的结构化本体构建及应用方法。


背景技术:

2.随着互联网技术的高速发展,开源情报的各种数据越来越多,并逐步呈现出一种海量、杂乱无章、信息量密度低、信息过剩的特点,极大地阻碍了情报搜索、分析的效率与性能。情报分析人员在接到一个特定对象分析任务时,通常缺乏一个有效的搜索引导,浪费了大量时间,整体效益较低。
3.当前,针对情报搜索需求的传统解决方案,绝大多数都是基于关键词或者关键词扩展的方法展开,然后通过关键词模糊搜索以及文档相关性计算的方式,将与该关键词相关度最高的文档作为搜索结果返回。这种传统方式存在两个典型的不足:
4.(1)搜索行为缺乏目的性:以单纯的关键词或关键词同义扩展作为查询条件的方法,只能以一个单维度的条件进行查询。为了得到更具细致的查询结果,需要用户自行进行关键词列举和组合,而这种列举和组合的工作需要大量的背景和先验知识。
5.(2)搜索结果缺乏立体性:当前基于关键词的情报搜索结果,只是对某个情报搜索关键词进行模糊匹配得到的简单聚合结果,无法得到关于该关键词更细分的信息。用户还需要在此基础上进一步地进行总结、归纳。


技术实现要素:

6.为了解决上述问题,本发明提供了一种面向情报搜索需求的结构化本体构建及应用方法,包括如下步骤:
7.情报结构化术语的构建,挖掘出情报搜索需求中具有代表性的词语集合,作为结构化本体构建的数据来源;
8.情报结构化本体的构建,挖掘出情报搜索需求的结构化本体模型,情报本体模型包括实体类型、实体属性类型、实体关系类型等信息;
9.情报结构化本体的应用,基于构建好的情报结构化本体,针对用户搜索的问句,通过实体识别的方式,对实体的属性维度进行返回。
10.进一步的,所述情报结构化术语的构建具体包括以下步骤:
11.针对情报搜索需求,通过专家制定、人工收集和从垂直网站解析的方法,形成领域术语词典库;
12.针对情报搜索需求,通过爬虫采集、人工收集的方式,形成情报搜索需求非结构化文本语料库;
13.对情报搜索需求非结构化文本语料库,使用术语抽取模型,挖掘出情报搜索需求术语词典库;
14.将收集到的情报搜索需求非机构化文本语料库,结合开放的百科类数据,使用模
型进行训练,形成情报搜索需求词向量文件;
15.根据情报搜索需求词向量文件,计算每个词与其扩展词之间的相似度,保留相似度高于阈值的词语,所有相似度高于阈值的词语即构成情报搜索需求术语词典库。
16.进一步的,将情报搜集需求术语词典库作为输入,对所述情报搜集需求术语词典库内的每一个词,使用同义词库进行术语扩展,即得到每个词的扩展词。
17.进一步的,所述情报结构化本体的构建包括以下步骤:
18.根据情报搜索需求术语词典库,利用百科类网站构建百科类属性集合和百科类上位概念集合;
19.在获取的公开情报非结构化文本中,挖掘实体属性集合以及实体上位概念集合;
20.将百科类属性集合、百科类上位概念集合、实体属性集合和实体上位概念集合进行合并,去重后进行归一化;
21.将归一化的结果按照本体存储结构进行转换,最终得到情报结构化本体。
22.进一步的,构建百科类属性集合具体包括以下步骤:
23.以情报搜索需求术语词典库作为输入,遍历所述情报搜索需求术语词典库中的每个词条;
24.请求百科类网站,得到所述词条的百科页面;
25.解析百科页面的属性框信息,将属性框中的属性名称作为所述词条的第一属性集合;
26.解析百科页面的目录信息,将目录信息中的层级名称作为所述词条的第二属性集合;
27.将所述第一属性集合和所述第二属性集合进行合并,即得到所述词条对应的属性集合;
28.将全部所述词条的属性集合进行合并,进而得到百科类的属性集合。
29.进一步的,构建百科类上位概念集合具体包括以下步骤:
30.以情报搜索需求术语词典库作为输入,遍历所述情报搜索需求术语词典库中的每个词条;
31.请求百科类网站,得到所述词条的百科页面;
32.解析所述词条百科页面中的标签和所属领域的标签,作为所述词条的第一概念集合;
33.对所述词条进行分词处理,如果所述词条为名词性结尾,则将所述词条最后一个名词作为所述词条的第二概念集合;
34.将所述第一概念集合和所述第二概念集合进行合并,得到所述词条对应的上位概念集合;
35.将全部所述词条的上位概念集合进行合并,进而得到百科类的上位概念集合。
36.进一步的,所述情报结构化本体的应用包括以下步骤:
37.将情报搜索需求术语词典库和情报结构化本体进行集合,然后使用数据库进行存储;
38.将情报结构化术语库中的术语名称与本体概念名称存储至全文搜索数据库中,作为用户搜索的索引数据库;
39.基于构建好的情报结构化术语库进行实体识别,针对用户输入的实体,从情报结构化本体库中获取所述实体的类型及属性信息;
40.将实体类型及属性信息的信息进行返回,并利用可视化方法进行索引目录展示;
41.点击索引目录后,利用实体名称以及所选属性作为检索关键词,在收集到的非结构化情报文本中进行检索,得到相关的检索结果,并进行聚合展示。
42.进一步的,所述从情报结构化本体库中获取所述实体的类型及属性信息具体包括以下步骤:
43.用户输入中若能准确地找到术语库中的实体,则直接从情报结构化本体库中获取该实体的类型及属性信息;
44.用户输入中若无法准确地找到术语库中的实体,则利用用户输入得到近似实体,从情报结构化本体库中获取近似实体的类型及属性信息。
45.进一步的,利用用户输入得到近似实体具体包括以下步骤:
46.将用户输入的问句与所述全文搜索数据库进行搜索匹配;
47.记录相似度大于阈值的实体名称;
48.将所述实体名称链接至术语库中即得到近似实体。
49.本发明的有益效果在于:本发明提供了一种面向情报搜索需求的本体构建及应用方法,能够集合多方数据,快速挖掘出适合情报搜索需求的术语和本体数据;基于构建好的术语和本体数据,可以有效增强当前情报搜索和分析的目的性和立体性,有效增强用户情报搜索的分析效率。
附图说明
50.图1.本发明的流程示意图。
具体实施方式
51.下面结合附图和实施例对本发明作进一步的描述,下列实施例仅用于解释本发明的发明内容,不用于限定本发明的保护范围。
52.本发明为了面向情报搜索需求搜索场景,提供一种快速、高效的本体建模方法,形成适用于情报搜索需求的本体知识库(先验知识),并以此为基础进行实际搜索应用验证,自动对用户搜索关键词涉及到的信息维度进行搜索引导、结果聚合,以提高辅助情报分析人员的情报搜索、情报信息聚合和情报分析能力。如图1所示,具体步骤如下:
53.步骤1、情报结构化术语库构建。
54.旨在挖掘出情报搜索需求领域中具有代表性的词语集合,这些词语明显代表了情报分析人员可能搜索的关键词或者问句形式。该构建方式包括如下5个子步骤:
55.1.1、针对情报搜索需求,通过专家制定、人工收集、从垂直网站解析等方法,形成领域术语词典库。
56.1.2、针对情报搜索需求,通过爬虫采集、人工收集的方式,形成非情报搜索需求非结构化文本语料库。
57.1.3、对情报搜索需求非结构化文本语料库,使用crf术语等抽取模型,挖掘出情报搜索需求术语词典库。
58.1.4、将收集到的情报搜索需求非结构化文本语料库、开放的百科类数据,实用word2vec模型进行训练,形成情报搜索需求词向量文件。
59.1.5、将步骤1.1、1.3形成的情报搜索需求术语词典库作为输入,对该词典库中的每个词,使用构建好的同义词库进行术语扩展,并使用步骤
60.1.4得到的词向量文件,通过计算词语之间的相似度,将高于相似度阈值的词语保留,最终得到情报搜索需求术语词典库。
61.步骤2、情报结构化本体构建。
62.旨在挖掘出情报搜索需求领域的结构化本体模型,本体模型包括实体类型、实体属性类型、实体关系类型等信息,代表了情报搜索需求中的立体搜索维度。情报结构化本体形式表示为{o,c,r,a},其中:o表示情报搜索需求概念本体集,c表示情报搜索需求概念集,r表示情报搜索需求所有关系的集合,a表示情报搜索需求所有属性的集合。在具体实现上,包括如下15个子步骤:
63.2.1、针对情报搜索需求,专家制定与人工收集现有的本体,如从cnschema.org、freebase,作为已有的结构化本体集合;
64.2.2、以情报结构化术语库构建中得到的情报搜索需求术语词典库,作为输入,遍历其中的每个词条,分别在百度百科等百科网站中执行步骤2.3-2.9的操作;
65.2.3、请求百科网站,得到该词条的百科页面;
66.2.4、解析该百科页面的infobox属性框信息,将该属性框中的属性名称作为该词条的属性集合。如百度百科中的“波音737客机”,得到属性集合为{“中文名”、“外文名”、“国家”、“飞机名称”};
67.2.5、解析该百科页面的目录信息,将目录信息中的层级名称作为该词条的属性集合。如百度百科中的“波音737客机”,得到的属性集合为{“发展沿革”、“技术特点”、“总体评价”};
68.2.6、将步骤2.4与步骤2.5得到的属性集合结果进行合并,形成该词条对应的属性集合;
69.2.7、解析该词条百科页面中的标签、所属领域标签,作为该词条的上位概念集合;
70.2.8、对该词条进行分词处理,若该词条为名词性结尾,则将该词条最后一个名词作为该词条的概念集合;
71.2.9、将步骤2.7、步骤2.8得到的概念集合进行合并,得到该词条所属的上位概念集合。
72.2.10、将多个百科来源的上位概念集合、属性集合进行合并,得到百科类的上位概念集合、属性集合。
73.2.11、在获取的公开情报非结构化文本中,通过设定实体属性启发式挖掘规则(如“a的b”),挖掘实体属性集合;
74.2.12、在获取的公开情报非结构化文本中,通过设定实体上位启发式挖掘规则(如“a是b的一种”、“a是一种b”),挖掘实体上位概念集合;
75.2.13、将步骤2.10、2.11、2.12得到的集合进行合并,去重以及归一化,归一化的方法采用名称相似度计算和名称同义词库映射来实现。
76.2.14、将步骤2.13中得到的结果,按照本体存储结构进行转化,最终形成情报结构
化本体。
77.步骤3、情报结构化本体的应用。
78.旨在基于构建好的情报结构化本体,面向用户搜索需求,对问句搜索和答案返回进行干预,使得用户搜索更具备针对性和明确性,并在搜索结果的聚合和展示上更具层次性。在具体实现上,包括如下8个子步骤:
79.3.1、将情报结构化术语库构建步骤得到的情报搜索需求术语词典库、情报结构化本体构建步骤得到的情报结构化本体集合,使用mongodb等数据库进行存储。
80.3.2、将情报结构化术语库中的术语名称与本体概念名称存储至elasticsearch全文搜索数据库当中,作为用户搜索的索引数据库。
81.3.3、针对用户的输入,基于构建好的情报结构化术语库进行实体识别,并将用户输入中的实体链接至术语库当中。存在两种情况,分别执行步骤3.4、3.5;
82.3.4、用户问句中能够准确地找到术语库中的实体,则直接执行步骤3.6;
83.3.5、若用户问句中无法准确找到术语库中的实体,则将用户问句与步骤2建立的elastic-search全文搜索数据库进行搜索匹配,并设置相似度阈值,并将大于某个阈值的实体作为准确的实体名称,并链接至术语库当中。
84.3.6、从情报结构化本体库中获取该实体的本体信息,包括实体的类型及属性信息。
85.3.7、将实体类型及属性信息的信息进行返回,并利用可视化方法进行索引目录展示。
86.3.8、点击索引目录后,利用实体名称以及所选属性作为检索关键词,在收集到的非结构化情报文本中进行检索,得到相关的搜索结果,并进行聚合展示。
87.综上,仅为本发明之较佳实施例,不以此限定本发明的保护范围,凡依本发明专利范围及说明书内容所作的等效变化与修饰,皆为本发明专利涵盖的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献