一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据提取方法及系统与流程

2021-12-04 02:41:00 来源:中国专利 TAG:

技术特征:
1.一种数据处理方法,其特征在于,包括:对用户上传的样例文档进行预处理,得到可视化页面文档;根据用户的选择,通过鼠标拖拽在可视化页面文档中选择要提取内容,并根据该提取内容,判断内容上下文关联性,生成提取规则模板;根据生成的提取规则模板,对上传的相同结构或类似的文档进行批量数据提取,并将提取的数据,按照预先配置的数据对应关系保存至结构化数据库中。2.根据权利要求1所述的数据处理方法,其特征在于,对用户上传的样例文档进行预处理,得到可视化页面文档包括:接收或选择用户上传的样例文档,并将该样例文档转化为html格式页面文档,得到可视化页面文档。3.根据权利要求2所述的数据处理方法,其特征在于,根据用户的选择,通过鼠标拖拽在可视化页面文档中选择要提取内容包括:在可视化页面文档中,从鼠标点击开始位置触发点击事件,判断被点击文字所处节点位置,记录为起始节点;鼠标拖拽直到放开触发结束事件,判断鼠标结束位置所处节点位置,记录为结束节点;将起始节点与结束节点之间的内容,确定为要提取的内容。4.根据权利要求3所述的数据处理方法,其特征在于,根据该提取内容,判断内容上下文关联性,生成提取规则模板包括:根据提取内容,判断与该选取内容相对应的兄弟段落标签和父级段落标签,并从兄弟段落标签和父级段落标签中查找有无预置词库中的段落标识,所述段落标识包括段落开始标识和段落结束标识;在查找结果为无段落标识的情况下,将提取内容的开头字符和结尾字符作为标签,形成段落标签,并将该段落标签作为提取规则;在查找结果为有段落标识的情况下,将段落开始标识和段落结束标识作为提取规则。5.根据权利要求4所述的数据处理方法,其特征在于,还包括:根据提取内容,确定与提取内容相关的特征文字,并将该特征文字作为提取特征关键字;根据提取特征关键字,确定特征关键字提取元素,并对特征关键字提取元素进行组合,形成提取规则;其中,所述关键字提取元素包括以下至少之一:特征关键字的开始位置、特征关键字的结束位置、是否包含特征关键字、匹配特征关键字的数量以及序列位置。6.根据权利要求5所述的数据处理方法,其特征在于,预先配置的数据对应关系的配置方式包括:读取数据库中的表字段信息,并为每个表字段选择对应的文档提取的信息字段,生成一对一的配置关系;其中,所述表字段信息包括:字段名信息、字段类型信息和/或字段长度信息。7.一种数据处理系统,其特征在于,包括:预处理模块,用于对用户上传的样例文档进行预处理,得到可视化页面文档;
提取规则生成模块,用于根据用户的选择,通过鼠标拖拽在可视化页面文档中选择要提取内容,并根据该提取内容,判断内容上下文关联性,生成提取规则模板;批量提取模块,用于根据生成的提取规则模板,对上传的相同结构或类似的文档进行批量数据提取;存储模块,用于将提取的数据,按照预先配置的数据对应关系保存至结构化数据库中。8.根据权利要求7所述的数据处理系统,其特征在于,所述预处理模块对用户上传的样例文档进行预处理,得到可视化页面文档时,通过接收或选择用户上传的样例文档,并将该样例文档转化为html格式页面文档,得到可视化页面文档。9.根据权利要求8所述的数据处理系统,其特征在于,所述提取规则生成模块在根据用户的选择,通过鼠标拖拽在可视化页面文档中选择要提取内容时,通过在可视化页面文档中,从鼠标点击开始位置触发点击事件,判断被点击文字所处节点位置,记录为起始节点;并在鼠标拖拽直到放开后触发结束事件,判断鼠标结束位置所处节点位置,记录为结束节点;将起始节点与结束节点之间的内容,确定为要提取的内容;且,所述提取规则生成模块在根据该提取内容,判断内容上下文关联性,生成提取规则模板时,根据提取内容,判断与该选取内容相对应的兄弟段落标签和父级段落标签,并从兄弟段落标签和父级段落标签中查找有无预置词库中的段落标识,所述段落标识包括段落开始标识和段落结束标识;在查找结果为无段落标识的情况下,将提取内容的开头字符和结尾字符作为标签,形成段落标签,并将该段落标签作为提取规则;在查找结果为有段落标识的情况下,将段落开始标识和段落结束标识作为提取规则;且,所述提取规则生成模块在根据提取内容,确定与提取内容相关的特征文字,并将该特征文字作为提取特征关键字;根据提取特征关键字,确定特征关键字提取元素,并对特征关键字提取元素进行组合,形成提取规则;其中,所述关键字提取元素包括以下至少之一:特征关键字的开始位置、特征关键字的结束位置、是否包含特征关键字、匹配特征关键字的数量以及序列位置。10.根据权利要求9所述的数据处理系统,其特征在于,所述存储模块中预先配置的数据对应关系的配置方式包括:读取数据库中的表字段信息,并为每个表字段选择对应的文档提取的信息字段,生成一对一的配置关系;其中,所述表字段信息包括:字段名信息、字段类型信息和/或字段长度信息。

技术总结
本发明公开了一种数据处理方法及系统,该方法包括:对用户上传的样例文档进行预处理,得到可视化页面文档,其中,所述样例文档类型为Word文档类型;根据用户的选择,通过鼠标拖拽在可视化页面文档中选择要提取内容,并根据该提取内容,判断内容上下文关联性,生成提取规则模板;根据生成的提取规则模板,对上传的相同结构或类似的文档进行批量数据提取,并将提取的数据,按照预先配置的数据对应关系保存至结构化数据库中。发明通过利用鼠标拖拽选择文档数据,并根据选择的文档数据上下文的关联性以及特征关键字生成对应的提取规则,从而能够该提取规则批量的处理相同结构或类似的文档,进而大大的提高了文档数据的处理效率。进而大大的提高了文档数据的处理效率。进而大大的提高了文档数据的处理效率。


技术研发人员:于斌 汤华 贾晓光 李圣亮 寇志刚
受保护的技术使用者:中关村科技软件股份有限公司
技术研发日:2021.11.08
技术公布日:2021/12/3
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献