一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向网页表格规范化处理的系统和方法与流程

2022-04-24 22:43:40 来源:中国专利 TAG:
1.本发明涉及互联网数据加工
技术领域
:,具体地,涉及面向网页表格规范化处理的系统和方法,更为具体地,涉及面向互联网网页表格数据规范化处理的系统和方法。
背景技术
::2.随着时代的发展,数据呈爆炸式增长,每日新增的互联网数据数以万计,而其中网页表格占比很大,相较于非结构化的网页文本数据来说,网页表格数据信息更加容易提取,所以基于表格的信息抽取应用更加广泛。但是网页表格数据披露方式没有统一的标准,因此日常开发中经常遇到各种形形色色的网页表格解析,传统方式针对每一种表格类型都开发一套解析方案,严重增加开发周期及后期表格维护的工作量。3.为解决以上问题,本发明提供一种面向网页表格规范化处理的系统和方法,涵盖了几乎所有的表格操作,可完全覆盖表格的任何抽取需求,最大化节省了开发效率和开发成本。同时,在人机交互上也做了较出色的功能,支持表格的每一步操作,都实时呈现出当前操作后的表格风貌,便于对结果进行实时纠正,同时对于不熟悉网页表格的用户,最大化降低使用门槛。技术实现要素:4.针对现有技术中的缺陷,本发明的目的是提供一种面向网页表格规范化处理的方法及系统。5.根据本发明提供的一种面向网页表格规范化处理的方法,包括:6.步骤s1:打开网页表格和/或csv表格;7.步骤s2:对打开的表格进行预处理,得到预处理后的表格;8.步骤s3:将预处理后的表格结合相应的表格处理功能生成最终处理后的表格,并将对表格操作的各种指令集保存至配置文件中;9.步骤s4:当后期表格需要重复执行相同操作时,加载配置文件,由itable读取配置文件中的指令集逐一操作将表格直接转变为前期用户设计的操作结果。10.优选地,所述步骤s2采用:11.步骤s2.1:从html表格或csv中读取表格数据,删除网页表格中基本样式标签;12.步骤s2.2:获取表格结构相关的各属性特征值,结合属性特征值对表格进行归一化处理;13.步骤s2.3:对表格行列格式进行重组,确保每一行每一列的行列数全部相同。14.优选地,所述表格处理功能包括:删除行、行日期转换、删除空白表头行、插入行、按行合并表、行替换、移动行、行平均值、合并行、行筛选、删除空白数据行、按行填充、拆分列、列日期转换、删除空白表头列、列平均值、日期增减、表拆分、指标样式二、删除空白数据列、指标样式、按列合并表、列筛选、插入列、合并列、扩大缩小、移动列、删除列、列替换、数据重组、行列扩展、日期转月底以及行列互换。15.优选地,所述步骤s3采用:将对表格操作的各种指令集保存至.cfg配置文件中,用于存储操作记录便于后续重新执行该操作。16.优选地,配置文件以文件的方式进行存储,采用自定义存储结构结合xml和tree思想构建包含嵌套结构及父子关联的层级结构;通过子节点能快速定位父节点,通过父节点能获取所有子节点,实现包括指定位置插入以及指定位置删除操作。17.优选地,实时查看表格的处理结果;在表格处理界面中包括操作记录区域,显示当前文本内容进行的所有操作,并可以对操作记录进行调整。18.根据本发明提供的一种面向网页表格规范化处理的系统,包括:19.模块m1:打开网页表格和/或csv表格;20.模块m2:对打开的表格进行预处理,得到预处理后的表格;21.模块m3:将预处理后的表格结合相应的表格处理功能生成最终处理后的表格,并将对表格操作的各种指令集保存至配置文件中;22.模块m4:当后期表格需要重复执行相同操作时,加载配置文件,由itable读取配置文件中的指令集逐一操作将表格直接转变为前期用户设计的操作结果。23.优选地,所述模块m2采用:24.模块m2.1:从html表格或csv中读取表格数据,删除网页表格中基本样式标签;25.模块m2.2:获取表格结构相关的各属性特征值,结合属性特征值对表格进行归一化处理;26.模块m2.3:对表格行列格式进行重组,确保每一行每一列的行列数全部相同。27.优选地,所述表格处理功能包括:删除行、行日期转换、删除空白表头行、插入行、按行合并表、行替换、移动行、行平均值、合并行、行筛选、删除空白数据行、按行填充、拆分列、列日期转换、删除空白表头列、列平均值、日期增减、表拆分、指标样式二、删除空白数据列、指标样式、按列合并表、列筛选、插入列、合并列、扩大缩小、移动列、删除列、列替换、数据重组、行列扩展、日期转月底以及行列互换。28.优选地,所述模块m3采用:将对表格操作的各种指令集保存至.cfg配置文件中,用于存储操作记录便于后续重新执行该操作;29.配置文件以文件的方式进行存储,采用自定义存储结构结合xml和tree思想构建包含嵌套结构及父子关联的层级结构;通过子节点能快速定位父节点,通过父节点能获取所有子节点,实现包括指定位置插入以及指定位置删除操作。30.与现有技术相比,本发明具有如下的有益效果:31.1、本发明提供了一种网页表格处理的可视化界面,方便参数设置及结果预览;32.2、本发明提供了一种面向网页表格规范化处理的系统和方法,解决了各种网页表格类型的通用化预处理,可处理的表格类型包括但不限于一般表格,嵌套表格,合并单元格等;33.3、自定义内部数据存储结构,将网页表格进行结构化存储,针对所有预处理操作,后台生成定制化cfg配置文件,以便后续开发直接调用;34.4、本发明实现表格的各种常规及特色操作,极大简化了日常开发,同时配置可视化界面,表格处理结果可实时查看,方便非开发人员使用,提高网页表格处理效率。附图说明35.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:36.图1为表格规范化处理流程图。37.图2为cfg文件自定义数据结构示意图。具体实施方式38.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。39.本发明提供了一种面向网页表格规范化处理的方法及系统,考虑到可复用性,本发明设计了一套指令配置文件,针对表格的一系列操作生成操作指令的配置文件,实现一处设计处处使用。40.实施例141.根据本发明提供的一种面向网页表格规范化处理的方法,如图1至2所示,包括:42.步骤s1:打开网页表格和/或csv表格;43.步骤s2:对打开的表格进行预处理,得到预处理后的表格;44.步骤s3:将预处理后的表格结合相应的表格处理功能生成最终处理后的表格,并将对表格操作的各种指令集保存至配置文件中;45.步骤s4:当后期表格需要重复执行相同操作时,加载配置文件,由itable读取配置文件中的指令集逐一操作将表格直接转变为前期用户设计的操作结果。46.具体地,所述步骤s2采用:47.步骤s2.1:从html表格或csv中读取表格数据,删除网页表格中基本样式标签;删除基本样式标签,这种标签对于信息读取没有实质意义,且增加识别复杂度。48.步骤s2.2:获取表格结构相关的各属性特征值,结合属性特征值对表格进行归一化处理(如合并行合并列等情况);49.步骤s2.3:对表格行列格式进行重组,确保每一行每一列的行列数全部相同。具体地,识别网页表格各种跨行跨列的单元格进行展开补充单元格(可选择自身值或者空值进行扩展单元格),使得整个table每行每列个数全部相同,为构建自定义存储结构做好先决条件。50.具体地,所述表格处理功能包括:删除行、行日期转换、删除空白表头行、插入行、按行合并表、行替换、移动行、行平均值、合并行、行筛选、删除空白数据行、按行填充、拆分列、列日期转换、删除空白表头列、列平均值、日期增减、表拆分、指标样式二、删除空白数据列、指标样式、按列合并表、列筛选、插入列、合并列、扩大缩小、移动列、删除列、列替换、数据重组、行列扩展、日期转月底以及行列互换。51.具体地,所述步骤s3采用:将对表格操作的各种指令集保存至.cfg配置文件中,用于存储操作记录便于后续重新执行该操作。52.具体地,配置文件以文件的方式进行存储,采用自定义存储结构结合xml和tree思想构建包含嵌套结构及父子关联的层级结构;通过子节点能快速定位父节点,通过父节点能获取所有子节点,实现包括指定位置插入以及指定位置删除操作。53.具体地,实时查看表格的处理结果;在表格处理界面中包括操作记录区域,显示当前文本内容进行的所有操作,并可以对操作记录进行调整,例如:修改操作顺序。54.根据本发明提供的一种面向网页表格规范化处理的系统,包括:55.模块m1:打开网页表格和/或csv表格;56.模块m2:对打开的表格进行预处理,得到预处理后的表格;57.模块m3:将预处理后的表格结合相应的表格处理功能生成最终处理后的表格,并将对表格操作的各种指令集保存至配置文件中;58.模块m4:当后期表格需要重复执行相同操作时,加载配置文件,由itable读取配置文件中的指令集逐一操作将表格直接转变为前期用户设计的操作结果。59.具体地,所述模块m2采用:60.模块m2.1:从html表格或csv中读取表格数据,删除网页表格中基本样式标签;删除基本样式标签,这种标签对于信息读取没有实质意义,且增加识别复杂度。61.模块m2.2:获取表格结构相关的各属性特征值,结合属性特征值对表格进行归一化处理(如合并行合并列等情况);62.模块m2.3:对表格行列格式进行重组,确保每一行每一列的行列数全部相同。具体地,识别网页表格各种跨行跨列的单元格进行展开补充单元格(可选择自身值或者空值进行扩展单元格),使得整个table每行每列个数全部相同,为构建自定义存储结构做好先决条件。63.具体地,所述表格处理功能包括:删除行、行日期转换、删除空白表头行、插入行、按行合并表、行替换、移动行、行平均值、合并行、行筛选、删除空白数据行、按行填充、拆分列、列日期转换、删除空白表头列、列平均值、日期增减、表拆分、指标样式二、删除空白数据列、指标样式、按列合并表、列筛选、插入列、合并列、扩大缩小、移动列、删除列、列替换、数据重组、行列扩展、日期转月底以及行列互换。64.具体地,所述模块m3采用:将对表格操作的各种指令集保存至.cfg配置文件中,用于存储操作记录便于后续重新执行该操作。65.具体地,配置文件以文件的方式进行存储,采用自定义存储结构结合xml和tree思想构建包含嵌套结构及父子关联的层级结构;通过子节点能快速定位父节点,通过父节点能获取所有子节点,实现包括指定位置插入以及指定位置删除操作。66.具体地,实时查看表格的处理结果;在表格处理界面中包括操作记录区域,显示当前文本内容进行的所有操作,并可以对操作记录进行调整,例如:修改操作顺序。67.实施例268.实施例2是实施例1的优选例69.针对上述现有网页表格处理中的缺陷,本发明要解决的技术问题体现在以下几点:70.1)提供一种网页表格处理的可视化界面,方便参数设置及结果预览。71.2)提供一种面向网页表格规范化处理的系统和方法,在于解决各种网页表格类型的通用化预处理,可处理的表格类型包括但不限于一般表格,嵌套表格,合并单元格等。72.3)自定义内部数据存储结构,将网页表格进行结构化存储,针对所有预处理操作,后台生成定制化cfg配置文件,以便后续开发直接调用。具体流程图见附图1。73.本发明提供了一种面向网页表格规范化处理的系统和方法,将网页表格进行结构化存储,同时提供可视化窗口界面,方便人员进行查看和配置处理。本系统主要包含以下功能模块:74.1、删除行(列):支持指定行(列)号删除、指定起点和结束位置全部删除75.2、行(列)日期转换:对某一行(某一列)单元格日期进行格式化转换76.3、删除空白表头行(列):对某一行(列)第一个单元格内容为空的整行(列)删除77.4、插入行(列):指定位置处扩充一行(列)数据,数据可以指定设置78.5、按行(列)合并表:支持多个表格进行跨行(列)合并79.6、行(列)替换:指定某一行(列)内容进行统一正则替换80.7、移动行(列):交换整行(列)数据的位置81.8、行(列)平均值:计算起始行(列)和结束行(列)数值的平均值或指定行(列)平均值82.9、合并行(列):支持动态检测表头跨行(列)进行自动合并及指定行(列)合并10、行(列)筛选:筛选出符合要求的列(行)83.11、删除空白数据行(列):删除某行(列)数据都为空的整行(列)记录84.12、按行填充:支持指定范围行内空单元格用最左侧的数值全部填充85.13、拆分列:将指定列拆分成多列86.14、日期增减:将指定日期列数据进行日期增减87.15、表拆分:表格拆分成多个表格拼接88.16、指标样式(二):对第一列数据填充其父节点内容89.17:扩大缩小:对指定列数值进行算术运算90.18:数据重组:对表格进行行列属性归属,类似于行列换行91.19:行列扩展:对表格跨行跨列进行数据展开,完全还原表格完整行数和列数92.20:日期转为月底:将日期变更为当月最后一天93.21:行列互换:将行列进行转换94.以上功能模块可根据不同的表格类型进行灵活配置选择。95.以下为系统及功能具体说明96.系统界面主要由菜单、功能按钮、操作记录、工作区和信息提示区几部分组成。97.1、菜单:98.1.1文件99.打开:该菜单用于打开一个后缀名为.cfg的配置文件。该类文件可以由保存功能保存也可通过复制结果区的结果,自行保存为.cfg文件。100.保存:将结果区的内容保存一个.cfg文件,用于存储操作记录便于以后重新执行该操作。101.1.2设置,打开网页表格和/或csv表格;102.网页表格:指定内容区的文本格式为网页格式文本;103.csv表格:指定内容区的文本格式为csv格式文本;104.功能按钮105.功能按钮包括:删除行、行日期转换、删除空白表头行、插入行、按行合并表、行替换、移动行、行平均值、合并行、行筛选、删除空白数据行、按行填充、拆分列、列日期转换、删除空白表头列、列平均值、日期增减、表拆分、指标样式二、删除空白数据列、指标样式、按列合并表、列筛选、插入列、合并列、扩大缩小、移动列、删除列、列替换、数据重组、行列扩展、日期转月底、行列互换。106.2.1行操作107.对于数据行的操作多数在第一行,下面分别说明一下每个操作的功能。108.2.1.1按行填充109.从htmltable或csv中读取的表格数据,如果表头存在多行,而抽取结果需要把表头上一行的表头名称带到下一行中时,但读取的结果只有第一个单元格有数据,就可以使用该功能进行表头的复制。110.功能配置信息包括:开始行、结束行、行号。111.参数说明:112.开始行:表示从第几行开始进行填充。113.结束行:表示填充到第几行。114.行号:指定填充的行号。115.2.1.2行替换116.该功能用于对一行中的数据进行正则替换。117.如将第一行的空格替换为空(即删除空格)118.参数说明:119.行号:要替换的数据所在的行120.原字符串:被替换的文本或者正则121.替换为:替换为字符串或者引用了元表达式内容的表达式122.2.1.3行平均值123.该功能用于对指定的列按行求取平均值,并将平均值的结果作为一行添加在数据的最后。124.配置信息包括:行名称、开始行、结束行、行号和精确度。125.参数说明:126.行名称:平均值行的名称。127.开始行:连续行的开始行行。128.结束行:连续行的结束行号。129.行号:指定的行号。130.精确度:对结果进行舍入。131.2.1.4按行合并表132.该功能可以将内容区域内的多个表格合并成一个表格,该功能只有一个必选参数,默认是保留每个表格的所有行,否则只保留第一个表格的所有行,和其余表格的非首行数据。133.2.1.5删除空白数据行134.该功能用于删除除了表格中没有数据的行,没有参数。135.2.1.6插入行136.用于向表格中的指定行号位置插入一行,并使用指定的值来填充表格的每个列。137.2.1.7合并行138.该功能用于将多个连续的行内容合并成一行。139.如:将第一行和第二行内容和并,值之间用符号隔开140.配置信息包括开始行、结束行和连接符。141.参数说明:142.开始行:合并的起始行号。143.结束行:合并的结束行号。144.连接符:值之间的连接符。145.2.1.8删除空白表头行146.该功能用于删除表格中所有第一列为空的行。147.2.1.9移动行148.该功能用于将两行的位置进行对调,但也可以只填一个参数。149.配置信息包括:行号标识1、行号标识2150.参数说明:151.行号标识1:将该行号的行与行号标识2行号的行位置进行对调,如果行号标识2没有任何值,则将该行号所在的行移至首行。152.行号标识2:将该行号的行与行号标识1行号的行位置进行对调,如果行号标识1没有任何值,则将该行号所在的行移至尾行。153.2.1.10删除行154.该功能用于从表格中按照行号删除不需要的记录。155.配置信息包括:开始行、结束行和行号。156.参数说明:157.开始行:从指定的行号开始删除158.结束行:到指定的行号结束159.行号:删除指定的行号160.2.1.11行(列)日期转换161.将行或者列中的日期转为指定的日期格式。162.配置信息包括:行号、原格式和目标格式。163.参数说明:164.行/列号:指定要进行转换的行号或者列号165.原格式:原日期格式166.目标格式:要转为的目标格式167.类型:指定转换是在行或者列上执行168.2.1.12行筛选169.该功能用于筛选符合条件的数据列。170.配置信息包括:行号、必须包含和不得包含。171.参数说明:172.行号:过滤的行号173.必须包含:必须包含的字符174.不得包含:不得包含的字符175.2.2列操作176.2.2.1拆分列177.用于把一列中的内容按照一定的格式拆分成两列,并同时给列指定列名称,该功能还可用于列复制。178.配置信息包括:列号、列名一、列名二和拆分正则。179.参数说明:180.列号:指定拆分列的列号181.列名一:拆分后第一列的名称182.列名二:拆分后第二列的名称183.拆分正则:数据拆分的正则184.2.2.2移动列185.该功能和移动行的功能一样,不同的是,该操作时在列上执行,有关参数的详细信息同移动行186.2.2.3删除空白数据列187.该功能用于删除表格中没有数据的列,与删除空白数据行类似。188.2.2.4指标样式二189.该功能用于将指标中的上级指标加到子级指标的前面。190.配置信息包括:关键字和连接符。191.参数说明:192.关键字:上级指标名称或者关键字193.连接符:上级指标与当前指标连接的分隔符194.2.2.5列替换195.该功能用于对一列中的数据进行正则替换。该功能与行替换一样,只是操作时在列上执行的。196.2.2.6列筛选197.该功能用于筛选符合条件的数据行。198.配置信息包括:列号、必须包含和不得包含。199.参数说明:200.列号:过滤的列号201.必须包含:必须包含的字符202.不的包含:不得包含的字符203.2.2.7扩大缩小204.主要用于处理网页中披露的数据单位和实际入库时需要的单位不一致的问题,由于单位不同,数值之间存在换算关系,就可以使用该功能完成这个换算。205.配置信息包括:列号、操作、值和精确度。206.参数说明:207.列号:指定操作的列号208.操作:指定操作的类型,加减乘除。209.值:乘以,除以,加上,减去的值210.精确度:操作结果保留的小数位数211.2.2.8列平均值212.该功能用于对指定的行按列求取平均值,并将平均值的结果作为一列添加在数据的最后。该功能与行平均值相同,只是操作在列上进行。213.2.2.9删除空白表头列214.该功能用于删除表格中所有第一行为空的列。该功能与删除空白表头行相同,只是操作在列上进行。215.2.2.10指标样式216.该功能的作用与指标样式二相同,但参数不同,该功能更加精确的指定了一行记录的上级指标所在的行号。217.配置信息包括:连接符和层级样式。218.参数说明:219.连接符:上级指标与当前指标连接的分隔符220.层级样式:数字描述了列号的上级指标所在的列号。221.2.2.11按列合并表222.该功能是将多个表格数据合并成一个表格,功能只有一个参数,是否保留除第一个表意外的其他表的第一列数据。223.2.2.12日期增减224.该功能主要用于对日期进行操作。225.配置信息包括:列号、原格式、目标格式、类型和增减值。226.参数说明:227.列号:指定执行操作的列228.原格式:原日期格式229.目标格式:转换后的日期格式230.类型:指定增减在年份,月份,日等中的一个上执行。231.增减值:数值,正数表示加,负数表示减。232.2.2.13删除列233.该功能用于从表格中按照列号删除不需要的记录,该功能与删除行的功能相同。234.2.2.14表拆分235.该共用于将一个表格拆分成多个表格。236.配置信息包括:列号和保留首页。237.参数说明:238.列号:指定从那列或者那几列开始拆分表239.保留首列:拆分出来的表是否保留原表的第一列数据240.2.2.15插入列241.用于向表格中的指定列号位置插入一列,并使用指定的值来填充表格的每个行。该功能与插入行的功能相同。242.2.2.16合并列243.该功能用于将多个连续的列内容合并成一列。该功能与合并行的功能相同。244.2.3全表操作245.2.3.1数据重组246.对于网页上的有些数据,只有指标名称和当期值,但网页上的形式并不能直接入库,因为指标在表头中,需要对这个表格的数据进行重新组合才能进行入库,就可以使用此功能。247.配置信息包括:表头一、表头二、表头三、列号和行号。248.参数说明:249.表头一:重组之后第一列的名称250.表头二:重组之后第二列的名称251.表头三:重组之后第三列的名称252.列号:重组使用的数据所在的列253.行号:重组使用的数据所在的行254.2.3.2行列互换255.该功能用于对表格的行和列进行转置,属于无参功能。256.2.3.3行列扩展257.该功能主要用于处理从网页中抓取回来的数据,由于网页中的表格会有表头多个单元格合并的情况,但真正抓取的时候又需要把多个合并的单元格进行恢复,并且为恢复后的单元格填充内容,就需要使用该功能。参数的两个值表示扩展出来的单元格内容是留空还是使用同样的值。258.配置信息包括:纵向填充类型和横向填充类型。259.参数说明:260.纵向填充类型:对于rowspan值的填充方式261.横向填充类型:对于colspan值的填充方式262.2.3.4日期转为月底263.该功能主要用于月度数据抓取结果,把日期转为日期转为月底。该功能界面和行列日期转换一样,可参考那个功能的说明。264.3、内容区265.该区域用于接收原始文本输入,如html或者csv文件中的文本内容,展示原始文件中的文本内容。266.4、结果区267.该区域用于展示操作历史的文本信息,直接在此处粘贴配置的文本信息可以直接在配置标签页中查看。268.5、工作区269.该区域用于添加,修改操作,并同时展示当前选中的操作结果。270.5.1操作记录271.该列表显示对当前文本内容进行的所有操作,如果一个操作有参数的话,双击或者选择操作记录后点击【修改】按钮,都可以弹出该操作的配置界面。通过【删除】按钮可以删除选中的操作记录。通过【上移】可以将一个选择的操作向上移动,【下移】可以将一个选中的操作向下移动。272.本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。273.以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本技术的实施例和实施例中的特征可以任意相互组合。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献