一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向电子表格的形式化校验规则的描述方法与流程

2022-12-20 22:54:50 来源:中国专利 TAG:


1.本发明涉及电子表格技术领域,具体涉及一种面向电子表格的形式化校验规则的描述方法。


背景技术:

2.电子表格可以被用来制作板面较为复杂的电子表单,在诸多领域中都有广泛的应用。例如:实验原始数据表单,行政公文中用于采集信息的表单,以及一些专用工业软件中数据的导出表单等。电子表格内的数据可以通过人工、半自动或全自动的方法,实现信息提取和处理。
3.但是由于表格的生成来源不同,表格的格式一致性以及数据合法性都会存在一定的问题。这些问题会影响表格数据提取和处理的成功率。因此在处理电子表格数据前,应首先对电子表格进行自动化地形式化校验,可以提高后期对于表格数据抽取和处理的成功率。
4.据目前所知,对于电子表单的校验目前有一些成熟的商业化方案,但是这些方案仅能处理版面固定的电子表格,对于非固定版面表格的校验能力有限。在很多信息系统中,可以直接进行表单的填写、校验和处理。但是这些表单都是在专用的封闭系统中进行校验和处理的:可处理的表单格式都是预定义的,校验方法也是固化在程序中的。无法处理通用的电子表格中的数据。此外,还有一些研究对于某些特定的电子表格,能够进行自动化的校验,但是不具备泛化能力。
5.因此,现有的方法存在的缺陷为:
6.1)无法处理通用的电子表格中的数据;
7.2)不能够更加灵活的兼容各种电子表格的版面样式。
8.现有技术,专利文献cn110347999a公开了“一种表格数据校验的方法和装置”,通过获取表格数据;基于所述表格数据,创建模型对象,所述模型对象包括与所述表格数据对应的属性名称;为所述模型对象中的属性名称添加注解,当表格数据变动后,只需要增删模型对象中各个属性名称上的注解,根据所述注解确定对应的校验规则;根据所述模型对象中属性名称的注解对应的校验规则,校验所述表格数据。无需修改表格数据导入导出的核心代码逻辑,降低了表格数据校验开发中的工作量,节省了开发成本,进而方便了表格数据的导入导出。专利文献cn114510912a公开了“基于分布式系统对电子表格进行分类的方法和系统及介质”,接收分布式系统上各个用户端所发送的电子表格;将任务列表中的各个电子表格进行过滤处理;解析过滤处理后的电子表格的表达结构;将样本数据集中的每一个样本数据转换成所对应的样本结构;对所述电子表格的表达结构和样本数据集所形成的样本结构集进行相似度匹配;基于第一样本结构解析出所述电子表格在样本结构集中所对应的样本数据;将各个电子表格中的每一电子表格分发到所对应样本数据所关联的电子表格分类库。本发明实施例可以对无效电子表格进行去冗余处理,以及针对电子表格内容进行快速有效的分类,对不同终端所提交的电子表格进行有效管理。
9.综上所述,现有的方法无法处理通用的电子表格中的数据,且不能够更加灵活的兼容各种电子表格的版面样式。


技术实现要素:

10.本发明解决了现有的方法无法处理通用的电子表格中的数据,且不能够更加灵活的兼容各种电子表格的版面样式的问题。
11.本发明所述的一种面向电子表格的形式化校验规则的描述方法,所述描述方法包括:
12.所述电子表格的表单包括基础项、复合项和列表项;
13.所述基础项使用标签simple-item来描述;
14.所述simple-item包括子标签value-ref;所述子标签value-ref不与子标签value同时使用;
15.所述子标签value-ref建立电子表格内数据的交叉引用;
16.所述复合项使用标签complex-item来描述;
17.所述列表项使用标签list-item来描述。
18.进一步地,在本发明的一个实施例中,所述基础项的宽度为1,高度为1。
19.进一步地,在本发明的一个实施例中,所述标签simple-item具有一个属性id;
20.所述属性id的值为英文或数字构成的字符串,且首字符为英文字母。
21.进一步地,在本发明的一个实施例中,所述标签simple-item还包括子标签value、子标签x、子标签y、子标签x-ref、子标签x-bias、子标签y-ref和子标签y-bias。
22.进一步地,在本发明的一个实施例中,所述复合项包括基本项、复合项和列表项标签;
23.所述复合项包括子标签x、子标签y、子标签x-ref、子标签y-bias、子标签simple-item和子标签list-item。
24.进一步地,在本发明的一个实施例中,所述复合项的宽度计算方法为:
25.max
内部各项横坐标 宽度

min
内部各项横坐标

26.所述复合项的高度计算方法为:
27.max
内部各项纵坐标 高度

min
内部各项纵坐标

28.进一步地,在本发明的一个实施例中,所述列表项包括子标签type、子标签orientation、子标签width、子标签height、子标签x-ref、子标签y-bias和子标签template。
29.进一步地,在本发明的一个实施例中,所述数据的交叉引用包括值引用、列表宽度、高度的引用和公式引用。
30.进一步地,在本发明的一个实施例中,所述子标签value-ref包括子标签id-ref、子标签type和子标签formulation。
31.进一步地,在本发明的一个实施例中,所述子标签formulation引用的id处于列表项的子标签template中,则使用该id无法直接作为值进行引用,能够使用聚合函数进行操作;
32.所述聚合函数包括sum、average、min、max和middle。
33.本发明解决了现有的方法无法处理通用的电子表格中的数据,且不能够更加灵活的兼容各种电子表格的版面样式的问题。具体有益效果包括:
34.本发明所述的一种面向电子表格的形式化校验规则的描述方法,可以对目前通行的电子表格文件进行校验,同时能够更加灵活的兼容各种电子表格的版面样式(固定、非固定),提高了计算机程序对电子表格形式化校验的灵活性。
附图说明
35.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
36.图1是具体实施方式所述的基础项子标签图。
37.图2是具体实施方式所述的复合项子标签图。
38.图3是具体实施方式所述的列表项子标签图。
39.图4是具体实施方式所述的increment项子标签图。
40.图5是具体实施方式所述的value-ref子标签可包含的子标签图。
41.图6是具体实施方式所述的函数图。
具体实施方式
42.下面结合附图将对本发明的多种实施方式进行清楚、完整地描述。通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
43.本实施方式所述的一种面向电子表格的形式化校验规则的描述方法,所述描述方法包括:
44.所述电子表格的表单包括基础项、复合项和列表项;
45.所述基础项使用标签simple-item来描述;
46.所述simple-item包括子标签value-ref;所述子标签value-ref不与子标签value同时使用;
47.所述子标签value-ref建立电子表格内数据的交叉引用;
48.所述复合项使用标签complex-item来描述;
49.所述列表项使用标签list-item来描述。
50.本实施方式中,所述基础项的宽度为1,高度为1。
51.本实施方式中,所述标签simple-item具有一个属性id;
52.所述属性id的值为英文或数字构成的字符串,且首字符为英文字母。
53.本实施方式中,所述标签simple-item还包括子标签value、子标签x、子标签y、子标签x-ref、子标签x-bias、子标签y-ref和子标签y-bias。
54.本实施方式中,所述复合项包括基本项、复合项和列表项标签;
55.所述复合项包括子标签x、子标签y、子标签x-ref、子标签y-bias、子标签simple-item和子标签list-item。
56.本实施方式中,所述复合项的宽度计算方法为:
57.max
内部各项横坐标 宽度

min
内部各项横坐标

58.所述复合项的高度计算方法为:
59.max
内部各项纵坐标 高度

min
内部各项纵坐标

60.本实施方式中,所述列表项包括子标签type、子标签orientation、子标签width、子标签height、子标签x-ref、子标签y-bias和子标签template。
61.本实施方式中,所述数据的交叉引用包括值引用、列表宽度、高度的引用和公式引用。
62.本实施方式中,所述子标签value-ref包括子标签id-ref、子标签type和子标签formulation。
63.本实施方式中,所述子标签formulation引用的id处于列表项的子标签template中,则使用该id无法直接作为值进行引用,能够使用聚合函数进行操作;
64.所述聚合函数包括sum、average、min、max和middle。
65.本实施方式基于本发明所述的一种面向电子表格的形式化校验规则的描述方法,提供一种实际的实施方式:
66.通过定义一套形式化的电子表格校验规则描述方法,对电子表格的格式约束和内容约束。并作为表格形式化校验算法的输入用于校验指定的电子表格,采用可扩展标记语言实现(xml)。
67.1.基本元素
68.电子表格中的表单有如下三种基本元素:基础项、复合项和列表项。
69.基础项:指的是电子表格中某一单一表格中的内容。
70.复合项:若干个内容相关的基础项或列表项可构成一个复合项。例如:个人信息复合项由姓名、性别和年龄等基础项构成。
71.列表项:指的是电子表格中若干个并列等价的项目集合,其中每个项目可以是一个基础项、也可以是一个复合项。列表项可以为固定长度、也可以为可变长度,可以横向扩展,也可以是纵向扩展。
72.2.基础项的描述方法
73.使用标签simple-item来描述一个基础项,该标签可以具有一个属性id,作为该标签的全局唯一标识。id属性的值必须为英文(大小写均可)或数字构成的字符串,首字符必须为英文字母。simple-item内部包含若干个子标签,如图1所示。基础项的宽度为1,高度为1。
74.3.复合项描述方法
75.使用标签《complex-item》来描述一个复合项,该标签可以具有一个属性id,作为该标签的全局唯一标识。如图2所示,其内部包含若干个基本项、复合项或列表项标签。其宽度和高度不通过标签显式给出,可以通过其内部包含的项的位置进行动态计算。
76.宽度计算方法:max(内部各项横坐标 宽度)

min(内部各项横坐标);
77.高度计算方法:max(内部各项纵坐标 高度)

min(内部各项纵坐标)。
78.4.列表项描述方法
79.使用标签《list-item》来描述一个列表项,该标签可以具有一个属性id,作为该标签的全局唯一标识。其内部包含若干个子标签,见图3所示。
80.如果template是一个complex-item标签,则complex标签内可以包含一个increment标签。这时increment标签也表示一个基础项。除没有value子标签外,其他的子
标签用法和simple-item相同。increment用于描述一类特殊的基础项,即列表序号,用来描述列表中每一项的序号,使用start描述初始值,用step描述自增步长。increment标签下的子标签如图4所示。
81.5.对数据的交叉引用的约束
82.在simple-item中可以包含一个子标签value-ref。该标签不能和value子标签同时使用。value-ref标签主要用于建立电子表格内数据的交叉引用。数据交叉引用主要有以下几种情况:值引用,列表宽度和高度的引用和公式引用。
83.值引用:当前基础项的值与某一个基础项值始终保持一致。
84.宽/高度引用:当前基础项的值等于某一项的宽/高度。
85.公式引用:当前基础项的值可以通过某几个列表的值和宽/高值,然后经过数学公式计算得到。
86.value-ref子标签可包含的子标签如图5所示。
87.formulation的说明:
88.id.value:id必须为基础项id,表示使用了该基础项的值,其值应确保能转换为数字类型;
89.id.width:id必须为列表项id,表示使用该列表项的宽度值;
90.id.height:id必须为列表项id,表示使用该列表项的高度值;
91.可以使用的运算符包括: 、-、*、/、%,可以使用的函数如图6所示。
92.如果在formulation引用的id处于列表项的template中,则使用这个id无法直接作为值进行引用,但可以使用聚合函数进行操作,聚合函数包括:
93.(id.value):求和;
94.average(id.value):求均值;
95.min(id.value):求最小值;
96.max(id.value):求最大值;
97.middle(id.value):求中值。
98.formulation标签的内容可以使用以上数据引用方式配合运算符、函数以及聚合函数,描述当前基础项的值与其他引用项值之间的复杂引用约束关系。
99.以上对本发明所提出的一种面向电子表格的形式化校验规则的描述方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献