一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种通用文档数据灵活检索系统及方法与流程

2022-02-24 16:58:01 来源:中国专利 TAG:


1.本发明涉及一种数据检索的关联分析,尤其是一种通用文档数据灵活检索关联分析,属于检索分析领域。


背景技术:

2.随着人类社会科学技术的不断进步,互联网技术、计算机技术的快速发展,在各个行业、政府部门都建立了多个业务系统,这些业务系统产生了大量、多种类的文档数据。如何能够依据不同的需求对这些数据进行灵活、快速的处理、检索,发现文档数据之间的隐性价值关系,是当前急需解决的问题。
3.为了解决这些问题,当前市面上出现了多种文档数据检索系统,比如文档名称检索、文档内容检索等,但其主要原理是对单个文件按标题或内容进行精确或模糊检索;对于这类数据检索工具,由于检索的数据只能基于单个文档(检索效率低)且数据检索维度单一(检索不灵活),在检索过程中不对相关文档进行处理,难以发现相关文档中的隐含价值信息,导致检索后信息不全,难以获得更好的检索体验。
4.此外,传统的检索方式对于检索结果只能查看详情,不能对其内容深层次分析,因此这类文档数据检索系统具有检索效率低、操作不灵活、数据分析层次不深入等问题;
5.由于上述问题的存在,本发明人对现有文档检索软件的检索技术进行深入研究和分析,以期待研制出可以可对任意文件进行检索、灵活定义检索规则及输出结果、实现输入一个或多个关键词从各类型文档中检索结果、同时基于解析规则获取的关键实体与定义的关联权重实现文档关联拓展,进一步发现相关文档中隐含的价值的通用文档数据灵活检索系统及方法。


技术实现要素:

6.为了克服上述问题,本发明人进行了锐意研究,一方面,设计出一种通用文档数据灵活检索系统,包括数据层1、应用层2和展现层3,
7.所述数据层1存储文件索引信息和配置信息;
8.所述应用层2对文件进行检索;
9.所述展现层3对检索结果进行展示。
10.进一步地,所述数据层1包括文档索引库11和系统配置数据库12,
11.所述文档索引库11存储文件索引信息,所述文件索引信息包括文件名称、文件内容、规则实体、文件类型;
12.所述系统配置数据库12存储系统产生的配置数据,包括任务信息表121、标签信息表122和解析规则表123;
13.所述应用层2具有文件上传模块21、解析规则模块22和任务管理模块23,
14.所述文件上传模块21,将文件上传存储至服务器中,并将上传文件的信息传递到任务管理模块23,
15.所述解析规则模块22,配置解析规则信息,并将解析规则信息存储至解析规则表123,供任务管理模块23获取,
16.所述任务管理模块23,接收文件上传模块21传递的文件信息,按照任务信息表121中的任务执行规则对上传至服务器的文件进行任务处理获得任务信息,将任务信息传递至任务信息表121,由任务信息表121进行存储。
17.在一个优选的实施方式中,所述文件索引信息包括文件标签,所述应用层2具有标签配置模块24。
18.根据本发明,所述任务信息表121存储上传文件的任务信息,所述所述上传文件的任务信息表包括文件类型、文件大小、文件存储路径、任务状态、任务执行规则,
19.所述标签信息表122存储上传文件处理中使用的标签信息,所述标签信息包括标签id、标签名称、标签描述;
20.所述解析规则表123存储上传文件处理中使用的解析规则信息,所述解析规则表123包括规则id、规则名称、规则描述、规则表达式。
21.优选地,所述标签信息包括上级标签id。
22.根据本发明一个优选的实施方式,所述系统配置数据库12包括关联权重表124,所述关联权重表124存储关联分析使用的关联权重规则信息,所述关联权重规则信息用以描述不同文档之间的关联度;
23.所述应用层2具有关联权重模块25。
24.在一种优选的实施方式中,所述展现层3具有文档灵活检索模块31、文档标签检索模块32,
25.所述文档灵活检索模块31,基于索引信息灵活定义组合检索规则,进行检索,将检索结果进行显示,
26.所述文档标签检索模块32,基于索引信息中的文件标签进行分类检索,将检索结果进行显示。
27.进一步地,展现层3具有文档关联分析模块33,获取文档灵活检索的检索结果或文档标签检索的检索结果,从文档索引库11中提取检索结果涉及的文件索引信息,进行展示。
28.另一方面,本发明还提供了一种通用文档数据灵活检索方法,包括以下步骤:
29.s1、对文件进行上传,并根据任务执行规则对上传的文件进行处理,获得任务信息;
30.s2、设置配置解析规则信息、标签分析配置信息和关联权重信息;
31.s3、进行文件任务处理,生成文件索引信息;
32.s4、进行文档灵活检索或文档标签检索。
33.在一个优选的实施方式中,在步骤s4后具有步骤s5、进行文档关联分析:获取文档灵活检索的检索结果或文档标签检索的检索结果,从文档索引库中提取相关文件索引信息,进行展示。
34.本发明提供的一种通用文档数据灵活检索系统及方法的有益效果在于:
35.第一、本发明通过文件上传模块可以对业务中涉及的各类文档进行上传,使得本发明不拘泥于单一文件类型,可以对不同的文件进行处理,可以对处理后的文档索引库按照不同规则进行检索;
36.第二、本发明通过文档标签检索模块模块可以根据业务定义的不同标签进行分别检索,满足业务文件种类检索多样化需求,提高了该系统的实用性;
37.第三、本发明通过文件灵活检索模块可以实现基于文件名称、内容、类型、索引时间等进行灵活定义组合检索规则进行精确检索或模糊检索,快速帮助用户从海量文档中命中需要的结果,提供了业务人员工作效率。
38.第四、本发明通过文档关联分析模块可以在文档标签检索或文档灵活检索结果数据的基础上基于索引库中存储的文档规则实体进行权重分析后关联相关文档,分析检索结果数据相关的文档或者热点实体,对相关文档按照相关度高低取前十进行列表展示,对热点实体按照权重高低进行词云展示,点击词云中单个词组可以进行检索包含该词的文档,进一步扩大数据关联范围,层层深入实现数据的深层次关联分析,发现相关文档数据中隐含的价值信息,便于业务人员进行深度数据分析和数据挖掘工作。
附图说明
39.图1示出根据本发明一种优选实施方式的通用文档数据灵活检索系统的结构示意图;
40.图2示出根据本发明一种优选实施方式的通用文档数据灵活检索系统的系统配置库的数据表示意图;
41.图3示出根据本发明一种优选实施方式的通用文档数据灵活检索方法流程图;
42.图4示出根据本发明一种优选实施方式的通用文档数据灵活检索方法结构示意图;
43.图5示出实施例1中词云示意图。
具体实施方式
44.下面通过附图和优选实施方式对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
45.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
46.一方面,本发明提供了一种通用文档数据灵活检索系统,如图1所示,该检索系统包括数据层1、应用层2和展现层3。
47.所述数据层1包括文档索引库11和系统配置数据库12。
48.所述文档索引库11用于获得并存储文件索引信息。
49.所述文件为多个企事业单位通过网络或其它设备上传至通用文档数据灵活检索系统。
50.进一步地,所述文件索引信息包括索引id、文件名称、文件内容、文件标签、规则实体、文件类型和索引时间。
51.在本发明中,一个文件可以具有多个文件标签和多个规则实体,以更好的对文件进行描述。
52.所述系统配置数据库12用以存储系统产生的配置数据,是系统的核心数据库,如
图2所示,所述系统配置数据库12包括任务信息表121、标签信息表122、解析规则表123和关联权重表124,分别存储不同种类的配置数据。
53.在本发明中,所述任务信息表121用于存储上传文件的任务信息,所述上传文件的任务信息包括任务id、文件类型、文件大小、文件存储路径、任务状态、任务执行规则、上传时间、任务完成时间。
54.所述任务id,用于标记不同的任务,每个任务的id均不同;
55.所述文件类型,用于记录上传的文件类别;
56.所述文件大小,用于记录上传文件的大小;
57.所述文件存储路径,用于记录上传文件的位置;
58.所述任务状态,用于记录上传文件的任务处理状态,所述任务处理状态是指该处理任务的执行情况,包括未处理、处理中、已完成、处理异常四种状态;
59.所述任务执行规则,用于记录上传文件执行任务的规则,所述执行任务的规则是指该任务的执行方式,可以根据需求进行自定义,包括即时执行、定时执行;即时执行指文件上传完成就开始进行任务处理,定时执行指文件上传完成后根据设置的执行时间进行执行,执行时间可以定义到几号几时几分。;
60.所述上传时间,用于记录上传文件的创建时间。
61.任务执行规则的设置,使得检索更加灵活,不仅能够针对现有的文档索引库进行检索,还能够实现定时检索,使得后续上传到文档索引库的文档信息能够被检索,极大的提高了检索准确率。
62.在一个优选地实施方式中,所述上传文件的任务信息还包括任务完成时间,用于记录上传文件任务处理执行完成时间。
63.任务完成用于标记上传完成任务执行完成的具体时间,结合任务创建时间分析文件处理使用的时长,进一步分析系统的处理效率,为系统的优化提供基础。
64.在本发明中,所述标签信息表122,存储标签分析配置信息,所述标签分析配置信息包括标签id、标签名称、标签描述和上级标签id;
65.所述标签id,用于标记不同的标签,
66.所述标签名称,用于记录文件的标签类别,
67.所述标签描述,用于记录标签的具体信息;
68.所述上级标签id,用于记录标签的上一级别标签id,所述上一级别标签id为包含本标签描述内容或能够概括本标签描述内容的标签id,例如某标签描述为北京大学软件工程专业,则其上一级标签可以是标签描述为北京大学软件学院,或者是北京大学,或者是软件专业等。
69.通过上级标签id的设置,实现了标签之间的快速关联,从而为文件的快速关联提供基础,使得检索更加灵活,同时能够实现检索的层层深入。
70.在一个优选的实施方式中,所述标签分析配置信息还包括上级标签id,用于记录标签所属的父级标签id。
71.在本发明中,所述解析规则表123,用于存储上传文件处理中使用的解析规则信息,所述解析规则信息包括规则id、规则名称、规则描述和规则表达式;
72.所述规则id,用于标记不同规则的分类,
73.所述规则名称,用于记录解析规则的名称,
74.所述规则描述,用于记录规则的具体信息;
75.在一个优选的实施方式中,所述解析规则信息还包括规则表达式,用于记录文件处理中具体的解析规则。
76.通过规则表达式,能够快速完成解析,且解析规则统一,对于不同的规则实体,是需要设置一次规则表达式,即可实现规则实体的识别,从而使得识别出的规则实体具有高度统一性,便于后续的文档关联分析。
77.在本发明中,所述关联权重表124,用于存储关联分析使用的关联权重规则信息,所述关联权重规则信息用以描述不同文档之间的关联度,使得在检索过程中不仅仅考虑单个文档或单个检索词,而是以关联拓展的方式对其它关联词或相关文档进行检索,从而进一步发现相关文档中隐含的价值信息。
78.优选地,所述关联权重规则信息包括权重id、权重名称、权重描述和权重阈值;
79.所述权重id,用于标记不同的权重分类,
80.所述权重名称,用于记录权重规则的名称,
81.所述权重描述,用于记录权重的具体信息;
82.所述关联权重规则信息还包括权重阈值,用于记录实体出现频次阈值。
83.根据本发明一种优选的实施方式,所述关联权重包括两种,分别为:
84.权重一,表示检索结果文档中规则实体的出现频次,当低于权重一阈值时,将其抛弃,不再作为规则实体;
85.权重二,表示关联文档中规则实体总数,当低于权重二阈值时,将关联文档过滤,不再作为检索结果的关联文档。
86.根据本发明,所述应用层2具有文件上传模块21、解析规则模块22、任务管理模块23、标签配置模块24和关联权重模块25。
87.具体的,所述文件上传模块21,将文件上传存储至服务器中,并将上传文件的信息传递到任务管理模块23,进一步地,所述上传文件的信息包括文件名称、上传文件的创建时间和文件存储路径。
88.本发明通过文件上传模块可以对业务中涉及的各类文档进行上传,使得本发明不拘泥于单一文件类型,可以对不同的文件进行处理,从而实现对文档预处理,将文档相关信息预存在文档索引库中,进而实现对处理后的文档索引库按照不同规则进行检索。
89.所述解析规则模块22,配置解析规则信息,并将解析规则信息存储至解析规则表123,以供任务管理模块23获取。
90.所述标签配置模块24,配置标签分析配置信息,并将标签分析配置信息存储至标签信息表122,以供任务管理模块23获取。
91.所述任务管理模块23,接收文件上传模块21传递的文件信息,按照任务信息表121中的任务执行规则对上传至服务器的文件进行任务处理获得任务信息,将任务信息传递至任务信息表121,由任务信息表121进行存储。
92.进一步地,所述任务管理模块23,获取标签信息表122中存储的标签分析配置信息,按照标签分析配置信息对上传至服务器的文件进行标签分析,获得文件对应的文件标签;
93.所述任务管理模块23,获取解析规则表123中存储的解析规则信息,按照解析规则信息对上传至服务器的文件进行规则解析处理,获得文件对应的规则实体;
94.更进一步地,任务管理模块23综合文件上传模块21传递的文件信息以及获得的文件标签、规则实体,生成文件索引信息,将文件索引信息存储在文件索引库11中。
95.所述关联权重模块25,设置关联权重信息,并将关联权重规则信息存储至关联权重表124,以供展现层3获取。
96.根据本发明,所述展现层3具有文档灵活检索模块31、文档标签检索模块32和文档关联分析模块33。
97.具体的,所述文档灵活检索模块31,获取文档索引库11存储的索引信息,基于索引信息中的文件名称、文件内容、文件类型、索引时间等信息,灵活定义组合检索规则后进行精确检索或模糊检索,产生检索结果,将检索结果以列表或图标的形式进行显示。
98.所述灵活定义组合检索规则是指将文件索引信息中的一个或多个信息进行检索,更优选地,将多个信息进行与、或、非中一种或多种的组合。
99.优选地,在灵活定义组合检索规则中,对文件索引信息中的文件名称、文件内容、文件类型、索引时间信息进行检索。
100.本发明通过文件灵活检索模块可以实现基于文件名称、文件内容、文件类型、文件索引时间等进行灵活定义组合检索规则进行精确检索或模糊检索,能够快速帮助用户从海量文档中命中需要的结果,提高了业务人员工作效率。
101.所述文档标签检索模块32,获取文档索引库11存储的索引信息,基于索引信息中的文件标签进行分类检索,产生检索结果,将检索结果以列表或图标的形式进行显示。
102.本发明通过文档标签检索模块可以根据业务定义的不同标签进行分别检索,满足业务文件种类检索多样化需求,提高了该系统的实用性。
103.所述文档关联分析模块33,获取文档灵活检索的检索结果或文档标签检索的检索结果,从文档索引库11中提取相关文件索引信息,进行展示。
104.具体地,所述文档关联分析模块33,获取文档灵活检索的检索结果或文档标签检索的检索结果,以及文档索引库11存储的涉及检索结果的文件索引信息和关联权重表124中存储的关联权重信息,对索引信息中的规则实体进行权重分析,确定展示的规则实体,对规则实体进行分析获得关联相关文档。
105.所述分析为获取文件索引信息中的规则实体、规则实体对出现的频次以及含有相同规则实体的相关文件。
106.进一步地,对相关文档按照出现频次从高到低进行列表展示,对规则实体按照出现频次从高到低取进行词云展示,更进一步地,点击词云中单个词组可以进行检索包含该词的文档。
107.本发明还提供一种通用文档数据灵活检索方法,该方法利用上述检测系统实现,如图3所示,包括以下步骤:
108.s1、对文件进行上传,并根据任务执行规则对上传的文件进行处理,获得任务信息。
109.具体地,通过文件上传模块21将业务相关的文件上传到服务器,文件上传模块21将上传文件的信息传递到任务管理模块23,任务管理模块23根据任务执行规则对文件进行
处理获得任务信息,将任务信息存储到任务信息表121;
110.进一步地,在文件上传时对任务执行规则进行设置,任务管理模块对任务执行规则进行编辑,修改确定执行规则的具体时间和方式,所述方式包括立即执行或定时执行。
111.s2、设置配置解析规则信息、标签分析配置信息和关联权重信息。
112.具体地,通过标签配置模块24设置不同的标签分析规则,并将设置的标签分析规则存储至标签信息表122;
113.通过解析规则模块22设置不同的解析规则信息,并将设置的解析规则信息存储至解析规则表123;
114.通过关联权重模块25设置关联权重规则信息,并将设置的关联权重规则信息存储至关联权重表124。
115.在本发明中,所述标签分析配置信息和解析规则信息可以根据业务需求自由更改,对此不作特别限制。
116.在一个优选的实施方式中,所述关联权重规则信息包括关联权重包括权重一和权重二,分别为:
117.权重一,表示检索结果文档中规则实体的出现频次,当低于权重一阈值时,将其抛弃,不再作为规则实体;
118.权重二,表示关联文档中规则实体总数,当低于权重二阈值时,将关联文档过滤,不再作为检索结果的关联文档。
119.s3、进行文件任务处理,生成文件索引信息。
120.优选地,根据标签分析规则对上传的文件进行标签分析,获得文件标签;和/或
121.根据解析规则信息对上传的文件进行规则解析处理,获得规则实体;
122.结合文件标签和/或规则实体和任务信息,生成文件索引信息。
123.具体地,任务管理模块23获取存储在标签信息表122中的标签分析配置信息,根据标签分析配置信息对上传的文件进行标签分析,获得标签信息;
124.任务管理模块23获取存储在解析规则表123中的解析规则信息,根据解析规则信息对上传的文件进行标签分析,获得规则实体;
125.任务管理器23结合标签信息、规则实体以及步骤s1中获得的任务信息,生成文件索引信息,并存储至文档索引库11。
126.s4、进行文档灵活检索或文档标签检索。
127.所述文档灵活检索,按照灵活定义组合检索规则对文件索引信息进行精确检索或模糊检索,产生检索结果,进而将检索结果以列表或图标的形式进行显示。
128.进一步地,所述灵活定义组合检索规则是指将文件索引信息中的一个或多个信息进行检索,更优选地,将多个信息进行与、或、非中一种或多种的组合。
129.优选地,在灵活定义组合检索规则中,对文件索引信息中的文件名称、文件内容、文件类型、索引时间信息进行检索。
130.具体地,在获取灵活定义组合检索规则后,文档灵活检索模块31获取文档索引库11中存储的文件索引信息,按照灵活定义组合检索规则对文件索引信息进行检索,产生检索结果。
131.所述文档标签检索,按照文件标签对文件索引信息进行标签检索,产生检索结果,
进而将检索结果以列表或图标的形式进行显示。
132.具体地,文档标签模块32获取文档索引库11存储的索引信息,基于索引信息中的文件标签进行分类检索,产生检索结果。
133.优选地,所述检索结果为文件名称、索引id或文件存储地址,通过检索结果能够调用文件。
134.s5、进行文档关联分析:获取文档灵活检索的检索结果或文档标签检索的检索结果,从文档索引库中提取相关文件索引信息,进行展示。
135.进一步地,获取文档灵活检索的检索结果或文档标签检索的检索结果,从文档索引库中提取检索结果涉及的文件索引信息,获取文件索引信息中的规则实体及规则实体对应出现的频次,按照频次从高到低依次将规则实体展示。
136.优选地,在展示之前,将规则实体出现的频次与关联权重表中的阈值进行比对,当频次大于阈值时才进行展示。
137.具体地,文档关联分析模块33获取文档灵活检索的检索结果或文档标签检索的检索结果和关联权重表124中的权重一阈值,从文档索引库11中查找检索结果文件的规则实体,统计所有涉及的规则实体及规则实体出现的频次,当规则实体出现的频次大于权重一阈值时,将规则实体进行展示,优选进行词云展示。
138.优选地,对频次满足权重一阈值的规则实体进行二次检索,检索出其它含有相同规则实体的文件,将这些文件称为相关文件,并进行展示。
139.更优选地,通过权重二对相关文件进行过滤,当相关文件中规则实体数大于权重二阈值时,将相关文件进行展示。
140.在一个更优选的实施方式中,通过点击词云中的单个词组能够对该词进行文档关联分析,从而进一步扩大数据关联范围,层层深入实现数据的深层次关联分析,发现相关文档数据中隐含的价值信息。
141.根据本发明一个优选的实施方式,所述权重一阈值为20~40,优选30;所述权重二阈值为5~15,优选10,通过大量的实践与调整,上述阈值下,关联检索结果的关联性较高,且检索出的隐含价值信息多。
142.在一个更优选的实施方式中,在根据检索文档的文本大小进行阈值的设定,进一步地,根据文本包含字符的数量大小设定阈值的权重比例,优选地,对于2000以下的字符文本权重一阈值设定为20,权重二阈值设定为5,对于2000~5000的字符文本权重一阈值设定为30,权重二阈值设定为10,对于5000以上的字符文本权重一阈值设定为40,权重二阈值设定为15。
143.在一个优选的实施方式中,通过标签树的方式对检索结果的标签进行展示,将检索结果的标签id以及上级标签id按层级进行树形展示,以更清晰的观察检索结果中各文件的关联关系。
144.在一个优选的实施方式中,所述通用文档数据灵活检索方法,还可以包括以下步骤:
145.s6、将步骤s5中获得的规则实体作为检索条件,重复步骤s4~s5,进行检索。
146.将获得的规则实体作为检索条件进行检索,使得检索可以层层深入,循环关联分析,进一步发现数据中隐含的价值信息。
147.实施例
148.实施例1
149.业务数据文档1:小明个人简历.doc,业务数据文档2:小明教育经历.pdf,业务数据文档3:小明学习成绩.xls,具体内容示例如下:
150.文档1小明个人简历.doc
151.内容示例:
152.小明年龄18岁,出生于1982年10月11日,户籍地北京市,家住常春藤小区11号楼7门204室,联系方式1342629***9,邮箱xiaoming@126.com,2016年毕业于北京大学计算机系,目前就职于百度科技有限公司研发中心,担任高级开发工程师一职。
153.文档2小明教育经历.pdf
154.小明,联系方式1342629***9,邮箱xiaoming@126.com,1997-2000年在北大附中初中部读书,成绩优异;2000-2002年在北大附中高中部读书,成绩优异,热爱计算机;2002-2006年在北京大学读书,在计算机系学习软件工程专业,期间代表学校参加多次比赛,成绩优异。
155.内容示例:
156.文档3小明学习成绩.xls
157.内容示例:
158.小明北京大学2006年各科成绩表
159.序号姓名专业课程分数1小明软件工程专业计算机原理982小明软件工程专业java编程1003小明软件工程专业数据库原理964小明软件工程专业web应用开发100
160.s1、文件上传,通过文件上传模块21将文档1、文档2、文档3上传至服务器,并将文档信息传递到任务管理模块23,任务管理模块23根据任务执行规则对文件进行处理获得任务信息,将任务信息存储到系统配置库表121;
161.s2、设置配置解析规则信息、标签分析配置信息和关联权重信息,其中,
162.标签分析规则如下:
163.标签一:
164.标签名称:北京大学;
165.标签描述:用于标准文档中涉及北京大学的信息;
166.上级标签id:组织机构id;
167.标签二:
168.标签名称:软件工程专业,
169.标签描述:用于标注软件工程专业的信息;
170.上级标签id:大学专业id;
171.解析规则信息信息如下:规则一:
172.规则名称:手机号提取,
173.规则描述:提取文件中涉及的手机号信息,
174.规则表达式:[1][358]\\d{9}
[0175]
规则二:
[0176]
规则名称:邮箱提取
[0177]
规则描述:提取文件中涉及的邮箱账号,
[0178]
规则表达式:\w[-\w. ]*@([a-za-z0-9][-a-za-z0-9] \.) [a-za-z]{2,14}
[0179]
关联权重规则信息如下:
[0180]
权重一:
[0181]
权重名称:检索结果包含规则实体权重,
[0182]
权重描述:用于对检索结果文档包含所有规则实体出现频次阈值过滤,
[0183]
权重阈值:30
[0184]
权重二:
[0185]
权重名称:关联文档包含规则实体权重
[0186]
权重描述:用于对关联单个文档包含过滤规则实体出现频次阈值过滤,
[0187]
权重阈值:10
[0188]
s3、进行文件任务处理,存储至文档索引库11的内容如下;
[0189]
文档1处理结果:
[0190]
文件名称:小明个人简历
[0191]
文件内容:内容ik分词处理
[0192]
文件标签:北京大学
[0193]
规则实体:1342629***9,xiaoming@126.com
[0194]
文件类型:doc
[0195]
索引时间:xxxx年xx月xx日
[0196]
文档2处理结果:
[0197]
文件名称:小明教育经历
[0198]
文件内容:内容ik分词处理
[0199]
文件标签:北京大学,软件工程专业
[0200]
规则实体:1342629***9,xiaoming@126.com
[0201]
文件类型:pdf
[0202]
索引时间:xxxx年xx月xx日
[0203]
文档3处理结果:
[0204]
文件名称:小明学习成绩
[0205]
文件内容:内容ik分词处理
[0206]
文件标签:北京大学,软件工程专业
[0207]
规则实体:
[0208]
文件类型:xls
[0209]
索引时间:xxxx年xx月xx日
[0210]
s4、进行文档灵活检索或文档标签检索,其中,文档灵活检索模块31获取文档索引库11的结果,基于文件名称、内容、类型、索引时间等进行灵活定义组合检索规则进行精确检索或模糊检索,产生检索结果,进而将检索结果以列表或图标的形式进行显示;
[0211]
例如:
[0212]
输入小明且软件工程专业,可以返回文档2,文档3;
[0213]
输入小明或软件工程专业,可以返回文档1、文档2、文档3;
[0214]
输入小明,文件类型选择pdf,可以返回文档2;
[0215]
输入学习成绩,可以范围文档3;
[0216]
,文档标签模块32获得文档索引库11的结果,按照不同的标签进行分类检索,产生检索结果,进而将检索结果以列表或图标的形式进行显示;
[0217]
例如:
[0218]
基于已配置的标签列表,点击北京大学,可以返回文档1、文档2、文档3;点击软件工程专业,可以返回文档2,文档3;
[0219]
s5、文档关联分析,文档关联分析模块33基于文档索引库11中的索引信息和文档灵活检索的检索结果或文档标签检索的检索结果,获取文件索引信息中的规则实体及规则实体对应出现的频次,通过权重规则模块25配置的权重一进行频次过滤,对满足权重一的规则实体基于文档索引库11进行关联相关文档,对于关联出的文档分析每个文档包含的规则实体中与满足过滤条件的实体数量,进一步通过权重二配置的阈值对满足实体数量的文档进行过滤,将满足权重一过滤的规则实体通过词云方式进行展示,将满足权重二过滤出的相关文档通过列表进行展示,同时可以点击词云中的每个词组进行文档检索,输出相关文档结果列表。其中权重一阈值为30,权重二阈值为10。例如:基于s4输出入“常春藤小区”,检索结果包括文档1在内的多个文档,基于返回文档中包含的所有规则实体例如手机号1342629***9、邮箱xiaoming@126.com等更多实体进行分组统计分析获取满足权重一出现30次以上的所有的规则实体,基于满足30次以上的规则实体进行相关文档检索,对检索出的每个文档包含的规则实体进行统计分析,把包含权重一提取的规则实体出现权重二阈值10次以上的文档进行提取进行相关文档展示,同时对权重一提取的出现30次以上的规则实体进行词云展示,如图2所示,其中,词云实体出现频次越多,字体越大,点击每个词云词组可以进一步进行关联检索。
[0220]
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“前”、“后”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0221]
以上结合优选实施方式和范例性实例对本发明进行了详细说明。不过需要声明的是,这些具体实施方式仅是对本发明的阐述性解释,并不对本发明的保护范围构成任何限制。在不超出本发明精神和保护范围的情况下,可以对本发明技术内容及其实施方式进行各种改进、等价替换或修饰,这些均落入本发明的保护范围内。本发明的保护范围以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献