一种数据提取方法及系统与流程

2021-12-04 02:41:00 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，具体来说，涉及一种数据提取方法及系统，尤其是，一种基于可视化鼠标拖拽选择的word文档数据提取方法及系统。

背景技术：

2.由于传统办公统计数据以及文件上报通常使用word文档，如果要从产生出的大量批量文档中统计结构化数据以及内容文字，需要分别查看各篇文档粘贴数据，会非常费事费力。
3.通常企业或政府的文档又遵循一定的规则结构或模板，一些办公辅助系统可为特定文档定制化开发批量录入的方式。但是这种系统通用性不强，对于新的结构word需要重新定制，且不满足用户可操作性。
4.针对相关技术中的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.为了解决相关技术中的上述问题，本发明提出一种数据处理方法及系统。
6.本发明的技术方案是这样实现的：根据本发明的一个方面，提供了一种数据处理方法。
7.该数据处理方法包括：对用户上传的样例文档进行预处理，得到可视化页面文档；根据用户的选择，通过鼠标拖拽在可视化页面文档中选择要提取内容，并根据该提取内容，判断内容上下文关联性，生成提取规则模板；根据生成的提取规则模板，对上传的相同结构或类似的文档进行批量数据提取，并将提取的数据，按照预先配置的数据对应关系保存至结构化数据库中。
8.其中，对用户上传的样例文档进行预处理，得到可视化页面文档包括：接收或选择用户上传的样例文档，并将该样例文档转化为html格式页面文档，得到可视化页面文档。
9.其中，根据用户的选择，通过鼠标拖拽在可视化页面文档中选择要提取内容包括：在可视化页面文档中，从鼠标点击开始位置触发点击事件，判断被点击文字所处节点位置，记录为起始节点；鼠标拖拽直到放开触发结束事件，判断鼠标结束位置所处节点位置，记录为结束节点；将起始节点与结束节点之间的内容，确定为要提取的内容。
10.其中，根据该提取内容，判断内容上下文关联性，生成提取规则模板包括：根据提取内容，判断与该选取内容相对应的兄弟段落标签和父级段落标签，并从兄弟段落标签和父级段落标签中查找有无预置词库中的段落标识，所述段落标识包括段落开始标识和段落结束标识；在查找结果为无段落标识的情况下，将提取内容的开头字符和结尾字符作为标签，形成段落标签，并将该段落标签作为提取规则；在查找结果为有段落标识的情况下，将段落开始标识和段落结束标识作为提取规则。
11.此外，该数据处理方法还包括：根据提取内容，确定与提取内容相关的特征文字，
并将该特征文字作为提取特征关键字；根据提取特征关键字，确定特征关键字提取元素，并对特征关键字提取元素进行组合，形成提取规则；其中，所述关键字提取元素包括以下至少之一：特征关键字的开始位置、特征关键字的结束位置、是否包含特征关键字、匹配特征关键字的数量以及序列位置。
12.其中，预先配置的数据对应关系的配置方式包括：读取数据库中的表字段信息，并为每个表字段选择对应的文档提取的信息字段，生成一对一的配置关系；其中，所述表字段信息包括：字段名信息、字段类型信息和/或字段长度信息。
13.根据本发明的另一个方面，提供了一种数据处理系统。
14.该数据处理系统包括：预处理模块，用于对用户上传的样例文档进行预处理，得到可视化页面文档；提取规则生成模块，用于根据用户的选择，通过鼠标拖拽在可视化页面文档中选择要提取内容，并根据该提取内容，判断内容上下文关联性，生成提取规则模板；批量提取模块，用于根据生成的提取规则模板，对上传的相同结构或类似的文档进行批量数据提取；存储模块，用于将提取的数据，按照预先配置的数据对应关系保存至结构化数据库中。
15.其中，所述预处理模块对用户上传的样例文档进行预处理，得到可视化页面文档时，通过接收或选择用户上传的样例文档，并将该样例文档转化为html格式页面文档，得到可视化页面文档。
16.其中，所述提取规则生成模块在根据用户的选择，通过鼠标拖拽在可视化页面文档中选择要提取内容时，通过在可视化页面文档中，从鼠标点击开始位置触发点击事件，判断被点击文字所处节点位置，记录为起始节点；并在鼠标拖拽直到放开后触发结束事件，判断鼠标结束位置所处节点位置，记录为结束节点；将起始节点与结束节点之间的内容，确定为要提取的内容；且，所述提取规则生成模块在根据该提取内容，判断内容上下文关联性，生成提取规则模板时，根据提取内容，判断与该选取内容相对应的兄弟段落标签和父级段落标签，并从兄弟段落标签和父级段落标签中查找有无预置词库中的段落标识，所述段落标识包括段落开始标识和段落结束标识；在查找结果为无段落标识的情况下，将提取内容的开头字符和结尾字符作为标签，形成段落标签，并将该段落标签作为提取规则；在查找结果为有段落标识的情况下，将段落开始标识和段落结束标识作为提取规则；且，所述提取规则生成模块在根据提取内容，确定与提取内容相关的特征文字，并将该特征文字作为提取特征关键字；根据提取特征关键字，确定特征关键字提取元素，并对特征关键字提取元素进行组合，形成提取规则；其中，所述关键字提取元素包括以下至少之一：特征关键字的开始位置、特征关键字的结束位置、是否包含特征关键字、匹配特征关键字的数量以及序列位置。
17.其中，所述存储模块中预先配置的数据对应关系的配置方式包括：读取数据库中的表字段信息，并为每个表字段选择对应的文档提取的信息字段，生成一对一的配置关系；其中，所述表字段信息包括：字段名信息、字段类型信息和/或字段长度信息。
18.有益效果：本发明通过利用鼠标拖拽选择文档数据，并根据选择的文档数据上下
文的关联性以及特征关键字生成对应的提取规则，从而能够该提取规则批量的处理相同结构或类似的文档，进而大大的提高了文档数据的处理效率。
19.此外，由于提取规则是基于鼠标拖拽选择的文档数据及其向关联性进行生成的，因此，便捷的根据上传的数据文档进行快速生成，大大减少开发人员和业务人员提取文档中关键内容的处理速度，且采用低代码的方式减轻了学习成本。而通过批量化的处理方式则提高运行效率和大批量文档的一键处理。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1是根据本发明实施例的数据处理方法的流程示意图；图2是根据本发明实施例的数据处理系统的结构示意图；图3是根据本发明实施例的基于word文档进行数据提取的流程示意图；图4是根据本发明实施例的可视化拖拽部分逻辑示意图；图5是根据本发明实施例的批量执行提取信息的示意图；图6是根据本发明实施例的数据存储时提取匹配逻辑示意图。
具体实施方式
22.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。
23.根据本发明的实施例，提供了一种数据处理方法。
24.如图1所示，根据本发明实施例的数据处理方法包括：步骤s101，对用户上传的样例文档进行预处理，得到可视化页面文档；步骤s103，根据用户的选择，通过鼠标拖拽在可视化页面文档中选择要提取内容，并根据该提取内容，判断内容上下文关联性，生成提取规则模板；步骤s105，根据生成的提取规则模板，对上传的相同结构或类似的文档进行批量数据提取，并将提取的数据，按照预先配置的数据对应关系保存至结构化数据库中。
25.其中，对用户上传的样例文档进行预处理，得到可视化页面文档包括：接收或选择用户上传的样例文档，并将该样例文档转化为html格式页面文档，得到可视化页面文档。
26.其中，根据用户的选择，通过鼠标拖拽在可视化页面文档中选择要提取内容包括：在可视化页面文档中，从鼠标点击开始位置触发点击事件，判断被点击文字所处节点位置，记录为起始节点；鼠标拖拽直到放开触发结束事件，判断鼠标结束位置所处节点位置，记录为结束节点；将起始节点与结束节点之间的内容，确定为要提取的内容。
27.其中，根据该提取内容，判断内容上下文关联性，生成提取规则模板包括：根据提取内容，判断与该选取内容相对应的兄弟段落标签和父级段落标签，并从兄弟段落标签和
父级段落标签中查找有无预置词库中的段落标识，所述段落标识包括段落开始标识和段落结束标识；在查找结果为无段落标识的情况下，将提取内容的开头字符和结尾字符作为标签，形成段落标签，并将该段落标签作为提取规则；在查找结果为有段落标识的情况下，将段落开始标识和段落结束标识作为提取规则。
28.此外，该数据处理方法还包括：根据提取内容，确定与提取内容相关的特征文字，并将该特征文字作为提取特征关键字；根据提取特征关键字，确定特征关键字提取元素，并对特征关键字提取元素进行组合，形成提取规则；其中，所述关键字提取元素包括以下至少之一：特征关键字的开始位置、特征关键字的结束位置、是否包含特征关键字、匹配特征关键字的数量以及序列位置。
29.其中，预先配置的数据对应关系的配置方式包括：读取数据库中的表字段信息，并为每个表字段选择对应的文档提取的信息字段，生成一对一的配置关系；其中，所述表字段信息包括：字段名信息、字段类型信息和/或字段长度信息。
30.根据本发明的实施例，提供了一种数据处理系统。
31.如图2所示，根据本发明实施例的数据处理系统包括：预处理模块201，用于对用户上传的样例文档进行预处理，得到可视化页面文档；提取规则生成模块203，用于根据用户的选择，通过鼠标拖拽在可视化页面文档中选择要提取内容，并根据该提取内容，判断内容上下文关联性，生成提取规则模板；批量提取模块205，用于根据生成的提取规则模板，对上传的相同结构或类似的文档进行批量数据提取；存储模块207，用于将提取的数据，按照预先配置的数据对应关系保存至结构化数据库中。
32.其中，所述预处理模块201对用户上传的样例文档进行预处理，得到可视化页面文档时，通过接收或选择用户上传的样例文档，并将该样例文档转化为html格式页面文档，得到可视化页面文档。
33.其中，所述提取规则生成模块203在根据用户的选择，通过鼠标拖拽在可视化页面文档中选择要提取内容时，通过在可视化页面文档中，从鼠标点击开始位置触发点击事件，判断被点击文字所处节点位置，记录为起始节点；并在鼠标拖拽直到放开后触发结束事件，判断鼠标结束位置所处节点位置，记录为结束节点；将起始节点与结束节点之间的内容，确定为要提取的内容；且，所述提取规则生成模块203在根据该提取内容，判断内容上下文关联性，生成提取规则模板时，根据提取内容，判断与该选取内容相对应的兄弟段落标签和父级段落标签，并从兄弟段落标签和父级段落标签中查找有无预置词库中的段落标识，所述段落标识包括段落开始标识和段落结束标识；在查找结果为无段落标识的情况下，将提取内容的开头字符和结尾字符作为标签，形成段落标签，并将该段落标签作为提取规则；在查找结果为有段落标识的情况下，将段落开始标识和段落结束标识作为提取规则；且，所述提取规则生成模块203在根据提取内容，确定与提取内容相关的特征文字，并将该特征文字作为提取特征关键字；根据提取特征关键字，确定特征关键字提取元素，并对特征关键字提取元素进行组合，形成提取规则；其中，所述关键字提取元素包括以下至少之一：特征关键字的开始位置、特征关键字的结束位置、是否包含特征关键字、匹配
特征关键字的数量以及序列位置。
34.其中，所述存储模块207中预先配置的数据对应关系的配置方式包括：读取数据库中的表字段信息，并为每个表字段选择对应的文档提取的信息字段，生成一对一的配置关系；其中，所述表字段信息包括：字段名信息、字段类型信息和/或字段长度信息。
35.为了方便理解本发明的上述技术方案，以下以word文档为例，对本发明的上述技术方案进行详细说明。
36.如图3
‑
6所示，本发明在处理word文档时，可分为以下步骤：1.文档可视化处理部分：用户上传样例文档，为了能让文档从只能从office类软件中查看转化成普通网页端也能查看样式，则将样例word文档转化为html格式。2.提取内容规则鼠标拖拽编辑部分：将转化后的html显示在页面是让用户自由选择要提取内容，判断内容上下文关联生成提取规则以及配置进入数据库规则。3.批量执行部分：上传相同结构或类似的word文档，批量执行模块执行提取规则，按顺序逻辑与的方式依次执行配置，分层剥离，锁定被各文档中的提取内容。4.数据入库部分：根据入库规则将被提取内容放入数据库表各个字段中。
37.其中，鼠标选中被提取文字或段落时，从鼠标点击开始位置触发点击事件判断被点击文字所处dom节点位置记录起始节点，鼠标拖拽直到放开判断鼠标结束位置，记录结束dom节点。
38.而通过上下文判断选中文字上下文特征时，特征条件则分为开始和结束条件，并且每开始和结束条件都带有匹配第几次出现该关键字的判断，用来断定同一段落中出现相同关键的唯一判断条件。此外，还带有是否包含开始和结束关键标识的选项用来在解析时通知解析器是否将前后关键字也纳入到提取信息当中。
39.当鼠标拖拽选取结束后程序会智能判断选取的信息上下文，具体如下：确定段落标识：从选中文字的兄弟标签和父级标签中寻找有无预置词库(预制词库中已经加入了常见的段落开始标识)中关键段落标志，如：(1),一、等段落开始性标识，或段落结束性的标识，如：<p>标签标识。当具有段落标识将段落标识记录进规则内，如结束标签是段落结尾，默认是不启用结束标识的，解析程序会自动从开头文字获取到段落结尾。如果无此类明显标识则以选中文字开头和结尾字符作为标签的段落规则。
40.单个字段的规则：将以何种特征文字开始或结束，和通段落中要匹配第几个相同的特征文字，还有是否包含特征文字，共两组六种匹配条件组合成为一个提取信息的提取规则。
41.如，采用如下编码形式：{提取字段名称: ,开始条件:{
ꢀꢀꢀꢀꢀ
以何文字开始:,匹配第几个:,是否包含:},结束条件:
{以何文字结束: ,
ꢀꢀꢀꢀꢀꢀ
匹配第几个: ,
ꢀꢀꢀꢀꢀ
是否包含:}}最后，将寻找到得标签规则按照头尾成对的原则生成的各个字段的json提取规则结合起来就是信息的提取规则。
42.而对于批量执行部分时，批量执行之前首先用户上传多篇结构相同或类似的word文档，后台将多篇文档按任务拆分目录存入服务器，并且转化成html格式，保存html的相对路径。
43.后台读取可视化鼠标拖拽生成的json提取规则。顺序解析每一篇word文档：每个采集字段都有成对的开始标志规则和结束标志规则，共设置三种开始标志和四种结束标志。规则中还有指明包含与不包含标志文字。
44.以文字开始(不包含)和段落结束为例，首先读取开始标志从全篇文档中读取到包含开始标志的节点，记录节点。从当前节点向外寻找父级节点，直到找到段落结束标签，然后拿到整个段落中的内容。之后从整个段落内容中找到规则中的开始标志，从开始标志开始截取之后的内容，最后判断规则中是否包含标志的标记，从截取之后的内容中再把开始标志截取出去。
45.对于存储部分来说，在批量执行前会提供配置提取字段和数据库字段的对应关系的界面，配置的具体过程如下：通过读取目标数据库表字段信息（包括字段名,字段类型和字段长度信息等）,再对应每个表字段通过下拉选择列表选择对应的文档提取的信息字段，生成一对一的配置关系并保存到批量执行规则中。通过读取批量执行规则中提取字段和数据库字段的对应关系，在内容提取完成之后对应存入数据库字段中。
46.存储入库是数据流转，数据结构化，数据可实际应用的重要组成部分。通过配置字段和数据库对应规则，可将数据流转到任意数据库表中，可选择所有或某些提取字段，对应数据库存储关系，包括配置固定内容、填补空白字段等功能。在入库过程中对应字符与字段长度，格式不符判断入库过程的正常状态，对于异常存储记录日志，便于追溯执行过程。
47.综上所述，借助于本发明的上述技术方案，本发明通过利用鼠标拖拽选择文档数据，并根据选择的文档数据上下文的关联性以及特征关键字生成对应的提取规则，从而能够该提取规则批量的处理相同结构或类似的文档，进而大大的提高了文档数据的处理效率。此外，由于提取规则是基于鼠标拖拽选择的文档数据及其向关联性进行生成的，因此，便捷的根据上传的数据文档进行快速生成，大大减少开发人员和业务人员提取文档中关键内容的处理速度，且采用低代码的方式减轻了学习成本。而通过批量化的处理方式则提高运行效率和大批量文档的一键处理。
48.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：词汇展示方法、装置、电子设备及存储介质与流程

一种数据提取方法及系统与流程

相关文献

最热文献