一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文档审核方法及其相关设备与流程

2022-03-31 08:18:25 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,尤其涉及一种文档审核方法及其相关设备。


背景技术:

2.对于一些行业(例如,审计行业等)来说,这些行业的从业者(例如,会计师、律师等)可以为客户提供一些文档撰写服务(例如,审计报告等)。另外,为了提高文档撰写服务效果,可以在这些从业者撰写完成一个文档之后,可以由相关人员针对该文档进行审核,如此能够尽可能地避免客户所接收的文档中出现错误,从而能够提高文档撰写服务效果。
3.然而,因上述人工审核过程存在缺陷,导致文档审核效果较差,从而导致文档撰写服务效果较差。


技术实现要素:

4.本技术实施例的主要目的在于提供一种文档审核方法及其相关设备,能够提高文档审核效果。
5.本技术实施例提供了一种文档审核方法,所述方法包括:
6.获取待检测文档;
7.根据所述待检测文档的属性描述信息,确定待使用审核规则;
8.按照所述待使用审核规则,对所述待检测文档进行审核处理,得到文档审核结果。
9.在一种可能的实施方式中,所述根据所述待检测文档的属性描述信息,确定待使用审核规则,包括:
10.从预设映射关系中查找所述属性描述信息对应的候选审核规则,确定为待使用审核规则;其中,所述预设映射关系包括所述属性描述信息与所述属性描述信息对应的候选审核规则之间的对应关系。
11.在一种可能的实施方式中,所述属性描述信息包括文档模板描述信息和/或公司行业归属信息。
12.在一种可能的实施方式中,所述方法还包括:
13.获取目标用户针对所述待检测文档提供的待使用属性信息;其中,所述待使用属性信息包括所述待检测文档的属性描述信息。
14.在一种可能的实施方式中,所述文档审核结果的确定过程,包括:
15.对所述待检测文档进行要素抽取处理,得到待使用要素信息;
16.根据所述待使用要素信息和所述待使用审核规则,确定文档审核结果。
17.在一种可能的实施方式中,所述对所述待检测文档进行要素抽取处理,得到待使用要素信息,包括:
18.按照预先构建的文档内容索引模板,对所述待检测文档进行要素抽取处理,得到待使用要素信息。
19.在一种可能的实施方式中,所述待使用要素信息的确定过程,包括:
20.若确定所述待检测文档中存在满足第三条件的第五表格,则按照所述第三条件对应的预设表格要素提取规则,从所述第五表格中抽取至少一个表格要素信息;
21.根据所述至少一个表格要素信息,确定所述待使用要素信息。
22.在一种可能的实施方式中,所述表格要素信息包括第一表格值和所述第一表格值的标识信息;其中,所述第一表格值的标识信息是根据所述第五表格的表格标识、待使用行名称、以及待使用列名称确定的;所述待使用行名称是指所述第一表格值在所述第五表格中所处表格行的行名称;所述待使用列名称是指所述第一表格值在所述第五表格中所处表格列的列名称。
23.在一种可能的实施方式中,所述待使用审核规则包括m条待确认规则;其中,m为正整数;
24.所述根据所述待使用要素信息和所述待使用审核规则,确定文档审核结果,包括:
25.从所述待使用要素信息中查询第m条待确认规则对应的要素描述信息;其中,m为正整数,m≤m;
26.根据所述第m条待确认规则和所述第m条待确认规则对应的要素描述信息,确定所述第m条待确认规则对应的规则确认结果;其中,m为正整数,m≤m;
27.根据第1条待确认规则对应的规则确认结果至第m条待确认规则对应的规则确认结果,确定所述文档审核结果。
28.在一种可能的实施方式中,所述方法还包括:
29.根据所述待检测文档,初始化待处理文档内容;
30.判断所述待处理文档内容中是否存在满足第一条件的第一表格;
31.在确定所述待处理文档内容中存在满足第一条件的第一表格时,根据所述第一表格的文档位置,从所述待处理文档内容中确定满足第二条件的第二表格;
32.将所述第一表格与所述第二表格进行表格合并处理,得到第三表格;
33.根据所述第三表格,更新所述待处理文档内容,并继续执行所述判断所述待处理文档内容中是否存在满足第一条件的第一表格的步骤;
34.所述按照所述待使用审核规则,对所述待检测文档进行审核处理,得到文档审核结果,包括:
35.在确定所述待处理文档内容中不存在满足第一条件的第一表格时,按照所述待使用审核规则,对所述待处理文档内容进行审核处理,得到文档审核结果。
36.在一种可能的实施方式中,所述第三表格的确定过程,包括:
37.将所述第一表格的表头和所述第二表格的表头进行比较,得到共有表头;
38.删除所述第一表格中共有表头,得到第四表格;
39.按照所述公共表头对应的预设拼接位置,将所述第四表格与所述第二表格进行拼接处理,得到第三表格。
40.在一种可能的实施方式中,所述方法还包括:
41.根据所述文档审核结果,对所述待检测文档进行错误标记处理,得到标记后文档;
42.和/或,
43.根据所述文档审核结果,生成待使用审核报告。
44.本技术实施例还提供了一种文档审核装置,包括:
45.文档获取单元,用于获取待检测文档;
46.规则确定单元,用于根据所述待检测文档的属性描述信息,确定待使用审核规则;
47.文档审核单元,用于按照所述待使用审核规则,对所述待检测文档进行审核处理,得到文档审核结果。
48.本技术实施例还提供了一种设备,所述设备包括:处理器、存储器、系统总线;
49.所述处理器以及所述存储器通过所述系统总线相连;
50.所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本技术实施例提供的文档审核方法的任一实施方式。
51.本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本技术实施例提供的文档审核方法的任一实施方式。
52.本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本技术实施例提供的文档审核方法的任一实施方式。
53.基于上述技术方案,本技术具有以下有益效果:
54.本技术提供的技术方案中,在获取到待检测文档(例如,用于生成审计报告的财务报表、以及报表附注等文档)之后,先根据该待检测文档的属性描述信息(例如,审计模板或者公司行业等),确定待使用审核规则;再按照该待使用审核规则,对该待检测文档进行审核处理,得到文档审核结果,如此能够实现针对文档数据自动地进行文档审核处理,从而能够有效地克服人工审核所存在的缺陷,进而有利于提高文档审核效果。
附图说明
55.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
56.图1为本技术实施例提供的一种文档审核方法的流程图;
57.图2为本技术实施例提供的一种文档审核的流程示意图;
58.图3为本技术实施例提供的一种文档内容索引模板的示意图;
59.图4为本技术实施例提供的一种表格的示意图;
60.图5为本技术实施例提供的一种标记后文档的示意图;
61.图6为本技术实施例提供的一种超长表格的示意图;
62.图7为本技术实施例提供的一种第三表格的示意图;
63.图8为本技术实施例提供的一种第三条件对应的预设表格要素提取规则的示意图;
64.图9为本技术实施例提供的另一种表格的示意图;
65.图10为本技术实施例提供的一种算子的示意图;
66.图11为本技术实施例提供的一种文档审核装置的结构示意图。
具体实施方式
67.发明人在针对文档审核的研究中发现,对于一个审计报告(或者,用于生成审计报告的财务报表、以及报表附注等)来说,因该审计报告内容多且信息繁杂,使得该审计报告需要由多名会计师共同协作审核,从而导致该审计报告的审核效率比较低,从而导致针对审计报告的人工审核效果比较差。
68.需要说明的是,上述“审计报告”的业务背景如下:审计行业的会计师事务所每年都要为各种企业客户出具年报对应的审计报告、半年报对应的审计报告、以及季报对应的审计报告,以向市场证明年报、半年报和季报的信息真实可信,并及时就审计过程中发现的问题进行披露。
69.基于上述发现,为了解决背景技术部分所示的技术问题,本技术实施例提供了一种文档审核方法,该方法可以包括:在获取到待检测文档(例如,用于生成审计报告的财务报表、以及报表附注等文档)之后,先根据该待检测文档的属性描述信息(例如,审计模板或者公司行业等),确定待使用审核规则;再按照该待使用审核规则,对该待检测文档进行审核处理,得到文档审核结果,如此能够实现针对文档数据自动地进行文档审核处理,从而能够有效地克服人工审核所存在的缺陷,进而有利于提高文档审核效果。
70.另外,本技术实施例不限定文档审核方法的执行主体,例如,本技术实施例提供的文档审核方法的执行主体可以是终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(personal digital assitant,pda)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
71.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
72.方法实施例一
73.参见图1,该图为本技术实施例提供的一种文档审核方法的流程图。
74.本技术实施例提供的文档审核方法,包括s1-s3:
75.s1:获取待检测文档。
76.上述“待检测文档”是指需要进行审核处理的文档数据;而且本技术实施例不限定该“待检测文档”,例如,当本技术实施例提供的文档审核方法应用于审计领域时,该“待检测文档”可以包括审计文档。
77.上述“审计文档”是指审计领域的文档数据;而且本技术实施例不限定该“审计文档”,例如,该“审计文档”可以包括审计报告。又如,上述“审计文档”也可以包括用于生成审计报告的财务报表、以及报表附注。其中,上述“财务报表、以及报表附注”是指由大量审计底稿生成的文档数据;而且该“财务报表、以及报表附注”可以被用于生成审计报告。
78.需要说明的是,因上述“财务报表、以及报表附注”不仅记录有审计报告中所记录的信息,还记录有大量未被记录至该审计报告的信息,使得该“财务报表、以及报表附注”能够更准确地表示出该审计报告所携带的审计信息,故为了提高审计报告的审核效果,可以将用于生成该审核报告的财务报表、以及报表附注,确定为上述“待检测文档”,以便后续能够借助针对该“财务报表、以及报表附注”的审核过程,实现针对该审核报告的审核过程。
79.还需要说明的是,上述“报表”可以是excel文档;而且上述“报表附注”可以是word文档。
80.另外,本技术实施例不限定上述“待检测文档”的获取过程,例如,其具体可以包括:从预设存储空间中读取上述“待检测文档”。又如,上述“待检测文档”还可以由用户借助人机交互方式上传至终端设备,以使终端设备(或者,能够与该终端设备进行数据通信的服务器)能够获取到该“待检测文档”。
81.s2:根据待检测文档的属性描述信息,确定待使用审核规则。
82.上述“待检测文档的属性描述信息”用于描述该待检测文档的属性;而且本技术实施例不限定该“待检测文档的属性描述信息”,例如,其具体可以包括该待检测文档的文档模板描述信息、以及该待检测文档的公司行业归属信息中的至少一个。
83.上述“待检测文档的文档模板描述信息”用于描述该待检测文档所使用的文档模板;而且本技术实施例不限定该“待检测文档的文档模板描述信息”,例如,其可以包括待检测文档所使用的文档模板的特征、该文档模板的名称、以及该文档模板的标识中的至少一个。
84.需要说明的是,本技术实施例不限定上述“待检测文档所使用的文档模板”,例如,当本技术实施例提供的文档审核方法应用于审计领域时,该“待检测文档所使用的文档模板”可以是任一种审计模板(例如,国资委/上市公司模板、ipo(首次公开募股,initial public offering)模板、或者中小企业模板等审计模板)。
85.上述“待检测文档的公司行业归属信息”用于描述该待检测文档所属企业的行业;而且本技术实施例不限定该“待检测文档所属企业的行业”,例如,其可以是房地产、金融、农林牧渔、白色家电、或者投资运营等行业。
86.需要说明的是,对于上述“待检测文档所属企业”来说,若待检测文档包括审计报告,则该审计报告是针对该“待检测文档所属企业”出具的;若待检测文档包括财务报表、以及报表附注,则针对该“待检测文档所属企业”所出具的审计报告可以利用该“待检测文档”生成。
87.另外,本技术实施例不限定上述“待检测文档的属性描述信息”的获取方式,例如,其具体可以包括:获取目标用户针对待检测文档提供的待使用属性信息;其中,待使用属性信息包括该待检测文档的属性描述信息。
88.上述“目标用户”用于表示待使用属性信息的提供者;而且本技术实施例不限定该“目标用户”,例如,其可以是上述“待检测文档”的撰写者、上传者或者审核者。
89.需要说明的是,“撰写者”是指撰写待检测文档的人;“上传者”是指将待检测文档上传至终端设备的人;“审核者”是指负责针对待检测文档进行审核处理的人。另外,本技术实施例不限定“撰写者”、“上传者”以及“审核者”之间的关联关系,例如,这三者可以为同一个人;或者,这三者互不相同。又如,上述“撰写者”以及“上传者”为同一个人(例如,张三),且上述“审核者”是另一个人(例如,李四)。还如,“上传者”以及“审核者”同为一个人(例如,李四),且上述“撰写者”是另一个人(例如,张三)。
90.上述“待使用属性信息”用于描述待检测文档的相关属性(例如,文档模板描述信息、公司行业归属信息等),以使该“待使用属性信息”包括上文“待检测文档的属性描述信息”。
91.另外,本技术实施不限定上述“待使用属性信息”的提供方式,例如,可以由目标用户通过在终端设备上针对待检测文档的一些属性进行选择操作(例如,图2所示的“选择审计模板”、选择“公司行业”)的方式进行实施。
92.基于上述“待检测文档的属性描述信息”的相关内容可知,当需要针对待检测文档进行审核处理时,可以由目标用户在终端设备上借助预设输入设备(例如,键盘、鼠标、触控屏等),向该终端设备提供该待检测文档的待使用属性信息,以使终端设备(或者,能够与该终端设备进行数据通信的服务器),能够从该待使用属性信息中获取到该待检测文档的属性描述信息,以便后续能够基于该待检测文档的属性描述信息,确定出在对该待检测文档进行审核处理时所需使用的审核规则(也就是,上文“待使用审核规则”)。
93.上文“待使用审核规则”是指在对待检测文档进行审核处理时所需使用的审核规则;而且本技术实施例不限定上述“待使用审核规则”,例如,其可以包括:文档格式检查规则、实体名称一致性检查规则、报表/附注一致性检查规则、数字勾稽关系检查规则、以及要素完整性检查规则中的至少一个。
94.上述“文档格式检查规则”用于针对待检测文档进行文档格式检查(如图2所示的“文档格式检查”);而且该“文档格式检查”可以包括:检查一到四级标题格式的使用是否正确,检查标题序号编码的正确性,检查页码编码的正确性,检查超长表格的跨页显示是否正确等。
95.上述“实体名称一致性检查规则”用于针对待检测文档进行实体名称检查(如图2所示的“实体名称检查”);而且该“实体名称检查”可以包括:检查待检测文档中实体名称是否具有一致性(也就是,判断待检测文档中同一家企业的名称和简写在该待检测文档中是否始终保持一致)。
96.需要说明的是,当本技术实施例提供的文档审核方法应用于审计领域时,上述“实体名称”可以是待检测文档所涉及到的各种企事业单位的名称(或简写)。另外,审计文档要求同一家企业的名称和简写在文档中应该始终保持一致。此外,实体名称可以借助自然语言处理(natural language processing,nlp)技术进行抽取。
97.上述“报表/附注一致性检查规则”用于针对待检测文档进行跨文档一致性检查(如图2所示的“跨文档一致性检查”);而且该“跨文档一致性检查”可以包括:检查待检测文档中财务报表所记录的内容与报表附注中所记录的内容是否保持一致。
98.需要说明的是,当本技术实施例提供的文档审核方法应用于审计领域时,通常要求财务报表所记录的内容(例如,货币资金,应收账款)与报表附注中所记录的内容保持一致。
99.上述“数字勾稽关系检查规则”用于针对待检测文档进行勾稽关系检查(如图2所示的“勾稽关系检查”);而且该“勾稽关系检查”可以包括:针对待检测文档中各种表格内和跨表格的数字之间的计算逻辑进行检查,以保证前后数字对齐,账目做平。
100.上述“要素完整性检查规则”用于针对待检测文档进行完整性检查(如图2所示的“完整性检查”);而且该“完整性检查”可以包括:检查待检测文档是否覆盖了该待检测文档所属企业对应的审计文档必填要素。需要说明是,上述“审计报告必填要素”是预先根据上述“待检测文档所属企业”的企业分类以及行业进行确定的。
101.另外,本技术实施例不限定上述“待使用审核规则”的确定过程(也就是,s2的实施
方式),例如,其具体可以包括:从预先构建的预设映射关系中查找上述“待检测文档的属性描述信息”对应的候选审核规则,确定为待使用审核规则。
102.上述“预设映射关系”用于记录各个属性描述信息与各个候选审核规则之间的对应关系。例如,上述“预设映射关系”可以包括:第1个属性描述信息与第1个候选审核规则之间的对应关系、第2个属性描述信息与第2个候选审核规则之间的对应关系、
……
、以及第i个属性描述信息与第i个候选审核规则之间的对应关系。其中,i为正整数。其中,上述“属性描述信息”包括文档模板描述信息和公司行业归属信息中的至少一个。
103.可见,在获取到上述“待检测文档的属性描述信息”之后,可以将该“待检测文档的属性描述信息”与预设映射关系中的i个属性描述信息分别进行匹配,以便在确定该“待检测文档的属性描述信息”与该预设映射关系中的第i个属性描述信息匹配成功时,将该第i个属性描述信息对应的第i个候选审核规则,确定为待使用审核规则。其中,i∈{1,2,3,
……
,i}。基于此可知,上述“预设映射关系”包括上述“待检测文档的属性描述信息”与待使用审核规则(也就是,上述“待检测文档的属性描述信息”对应的候选审核规则)之间的对应关系。
104.需要说明的是,本技术实施例不限定上述“候选审核规则”的生成过程,例如,可以通过人工汇总的方式进行实施。例如,当本技术实施例提供的文档审核方法应用于审计领域时,可以由相关人员针对在对审计文档进行质量检查时所需检查的数千个检查点进行归类汇总,得到上述“候选审核规则”。
105.还需要说明的是,本技术实施例不限定上述“预设映射关系”的构建过程,例如,可以通过人工构建的方式进行实施。
106.基于上述s2的相关内容可知,对于待检测文档来说,在获取到该待检测文档的属性描述信息之后,先可以从预先构建的预设映射关系中查找与该“待检测文档的属性描述信息”具有对应关系的候选审核规则;再将查找到的候选审核规则,确定为待使用审核规则,以便后续能够按照该待使用审核规则,对该待检测文档进行文档审核处理。
107.s3:按照待使用审核规则,对待检测文档进行审核处理,得到文档审核结果。
108.上述“文档审核结果”用于描述待检测文档中存在的错误(例如,文档格式错误、实体名称不一致错误、财务报表与报表附注中内容不一致错误、数字勾稽关系错误、审计文档中必填要素缺漏错误等)。
109.另外,本技术实施例不限定上述“文档审核结果”的确定过程,例如,可以借助预先构建的具有文档审核功能的机器学模型进行实施。
110.此外,为了提高文档审核效果,本技术实施例还提供了确定上述“文档审核结果”的另一种可能的实施方式,其具体可以包括步骤11-步骤12:
111.步骤11:对待检测文档进行要素抽取处理,得到待使用要素信息。
112.上述“要素抽取处理”用于针对待检测文档进行结构上索引化,以使该待检测文档能够被大量结构化数据进行表示,如此能够实现针对该待检测文档的文档内容结构化。
113.上述“待使用要素信息”用于表示待检测文档中所记录的要素内容;而且该“待使用要素信息”能够通过结构化形式表示该待检测文档。
114.另外,本技术实施例不限定上述“待使用要素信息”,例如,其可以包括至少一个要素描述信息。其中,上述“要素描述信息”可以包括待抽取要素、该待抽取要素的数值、以及
该待抽取要素的位置描述数据中的至少一个。
115.上述“待抽取要素”用于描述需要从待检测文档中抽取的参数信息;而且本技术实施例不限定该“待抽取要素”,例如,其可以是公司名称、金额等参数信息。
116.上述“待抽取要素的数值”是指上述“待抽取要素”在待检测文档中所具有的数值(例如,xxx有限公司、一万元等)。
117.需要说明的是,上述“待抽取要素”与上述“待抽取要素的数值”可以构成一个键值对,以便后续能够在文档审核过程中使用该键值对。
118.上述“待抽取要素的位置描述数据”用于描述上述“待抽取要素的数值”在待检测文档中所处位置;而且本技术实施例不限定该“待抽取要素的位置描述数据”,例如,其可以是第10页第3段第2行第10个字符至第15个字符等。
119.本技术实施例不限定步骤11的实施方式,例如,其可以借助预先构建的具有要素抽取功能的机器学模型进行实施。又如,为了提高要素抽取效果,步骤11具体可以包括:按照预先构建的文档内容索引模板,对待检测文档进行要素抽取处理,得到待使用要素信息。
120.上述“文档内容索引模板”用于记录待检测文档中各个标题下需要被抽取的参数信息。也就是,上述“文档内容索引模板”可以包括:待检测文档中各个标题下的待抽取要素。
121.另外,本技术实施例不限定上述“文档内容索引模板”的表示方式,例如,上述“文档内容索引模板”可以采用树形索引表形式(如图3所示)进行表示。需要说明的是,对于图3所示的文档内容索引模板来说,其可以包括至少一个一级标题(如,以t06作为标题标识的一级标题)。其中,每个一级标题可以下分至少一个二级标题(例如,以t0601作为标题标识的二级标题),而且这些二级标题分别依附于其对应的一级标题。每个二级标题可以下分至少一个三级标题(例如,以t060101作为标题标识的三级标题),而且这些三级标题分别依附于其对应的二级标题。
122.此外,本技术实施例不限定上述“文档内容索引模板”的构建过程,例如,其具体可以为:由相关人员对大量审计文档的文档内容索引进行汇总、规范、以及整理,得到该“文档内容索引模板”,以使该“文档内容索引模板”能够描述出任意一个审计文档的信息骨架,从而使得该“文档内容索引模板”能够表示出任意一个审计文档的文档内容索引,以便后续能够借助该“文档内容索引模板”,针对任意一个审计文档进行要素抽取处理。
123.本技术实施例也不限定上述“文档内容索引模板”的使用过程,例如,其具体可以包括:在获取到待检测文档之后,按照该文档内容索引模板中所记录的各个标题下需要被抽取的参数信息,对该待检测文档进行要素抽取处理,得到待使用要素信息,以使该待使用要素信息包括大量结构化数据,从而使得该待使用要素信息能够以结构化方式表示该待检测文档。
124.基于上述步骤11的相关内容可知,在获取到待检测文档之后,可以按照预先构建的文档内容索引模板,对该待检测文档进行要素抽取处理,得到待使用要素信息,以使该待使用要素信息能够包括大量结构化数据,从而使得该待使用要素信息能够以结构化方式表示该待检测文档,如此能够实现针对该待检测文档的文档内容结构化。
125.步骤12:根据待使用要素信息和待使用审核规则,确定文档审核结果。
126.本技术实施例不限定步骤12的实施方式,例如,当上述“待使用审核规则”包括m条
待确认规则时,步骤12具体可以包括步骤121-步骤123:
127.步骤121:从待使用要素信息中查询第m条待确认规则对应的要素描述信息。其中,m为正整数,m≤m。
128.上述“第m条待确认规则”用于针对待检测文档进行第m项检查,以确认该待检测文档是否能够通过该第m项检查。
129.上述“第m条待确认规则对应的要素描述信息”是指在待检测文档中记录的与该第m条待确认规则相关的文档内容。为了便于理解,下面结合示例进行说明。
130.假设,上述“第m条待确认规则”为:应收款表中期末余额下按单项计提坏账准备金额加上按组合计提坏账准备金额应该等于合计;上述“待检测文档”包括图4所示的表格;上述“待使用要素信息”包括第一要素描述信息、第二要素描述信息、以及第三要素描述信息;第一要素描述信息包括第一键值对(报表附注中应收款表的期初余额下按单项计提坏账准备金额,8,729,708,190.67 587,164,022.77);第二要素描述信息包括第二键值对(报表附注中应收款表的期初余额下按组合计提坏账准备金额,28,147,520,514.69);第三要素描述信息包括第三键值对(报表附注中应收款表的期初余额下合计,37,464,392,728.13)。
131.作为示例,基于上述假设可知,上述“第m条待确认规则对应的要素描述信息”可以包括第一要素描述信息、第二要素描述信息以及第三要素描述信息,以便后续能够基于这三个要素描述信息,确定待检测文档是否满足该第m条待确认规则。
132.步骤122:根据第m条待确认规则和该第m条待确认规则对应的要素描述信息,确定该第m条待确认规则对应的规则确认结果。其中,m为正整数,m≤m。
133.上述“第m条待确认规则对应的规则确认结果”用于表示待检测文档是否满足该第m条待确认规则,从而能够表示出该待检测文档是否通过第m项检查。
134.可见,在获取到第m条待确认规则对应的要素描述信息之后,可以将该第m条待确认规则对应的要素描述信息代入该第m条待确认规则,得到该第m条待确认规则对应的规则确认结果,以使该规则确认结果用于表示上述“待检测文档”是否满足该第m条待确认规则。为了便于理解,下面结合示例进行说明。
135.作为示例,当上述“第m条待确认规则”为应收款表中期初余额下按单项计提坏账准备金额加上按组合计提坏账准备金额应该等于合计,且上述“第m条待确认规则”对应的要素描述信息可以包括第一要素描述信息、第二要素描述信息以及第三要素描述信息时,因(8,729,708,190.67 587,164,022.77) 28,147,520,514.69=37,464,392,728.13,使得上述“待检测文档”满足该第m条待确认规则,故该第m条待确认规则对应的规则确认结果可以表示该“待检测文档”通过该第m条待确认规则所代表的检查项目(也就是,第m项检查)。
136.步骤123:根据第1条待确认规则对应的规则确认结果至第m条待确认规则对应的规则确认结果,确定文档审核结果。
137.本技术实施例中,在获取到m条待确认规则对应的规则确认结果之后,可以针对该m条待确认规则对应的规则确认结果进行汇总处理(尤其是,汇总那些表示未满足的待确认规则),得到文档审核结果,以使该文档审核结果能够准确地表示出待检测文档中那些文档内容存在问题。
138.另外,为了进一步提高文档审核效果,本技术实施例还通过了步骤123的另一种可能的实施方式,其具体可以包括步骤1231-步骤1233:
139.步骤1231:根据m条待确认规则对应的规则确认结果,从该m条待确认规则中确定满足第四条件的f个目标规则。其中,f为正整数。
140.上述“第四条件”可以预先设定。例如,“第四条件”可以为:规则确认结果表示未通过检查。可见,对于第m条待确认规则来说,如果该第m条待确认规则对应的规则确认结果表示待检测文档未通过该第m条待确认规则所代表的检查项目,则将该第m条待确认规则确定为目标规则;如果该第m条待确认规则对应的规则确认结果表示待检测文档通过该第m条待确认规则所代表的检查项目,则舍弃该第m条待确认规则即可。其中,m为正整数,m≤m。
141.上述“目标规则”是指达到第四条件的待确认规则。
142.步骤1232:从待使用映射关系中查找第f个目标规则对应的重要等级。其中,f为正整数,f≤f。
143.上述“待使用映射关系”用于记录各个候选审核规则对应的重要等级。可见,上述“待使用映射关系”包括第e个候选审核规则与该第e个候选审核规则对应的重要等级之间的对应关系。其中,e为正整数,e≤e,e为正整数,e表示上述“候选审核规则”的个数。
144.本技术实施例不限定步骤1232的实施方式,例如,其具体可以包括:将第f个目标规则与待使用映射关系中至少一个候选审核规则进行匹配处理,以便在确定该待使用映射关系中存在与该第f个目标规则匹配成功的候选审核规则时,将该匹配成功的候选审核规则对应的重要等级,确定为该第f个目标规则对应的重要等级。
145.步骤1233:根据第f个目标规则对应的重要等级,确定该第f个目标规则的错误告警等级。其中,f为正整数,f≤f。
146.上述“错误告警等级”用于描述一个文档错误的严重程度;而且本技术实施例不限定该“错误告警等级”,例如,其可以为存疑、普通、严重、或者高危等。
147.另外,上述“第f个目标规则的错误告警等级”与上述“第f个目标规则对应的重要等级”之间正相关。也就是,上述“第f个目标规则对应的重要等级”越高,则该“第f个目标规则的错误告警等级”也越高,从而表示该第f个目标规则所呈现的错误严重程度越高。
148.步骤1233:根据f个目标规则以及该f个目标规则的错误告警等级,确定文档审核结果。
149.本技术实施例中,在获取到待检测文档未满足的f个目标规则及其错误告警等级之后,可以根据该f个目标规则以及该f个目标规则的错误告警等级,确定文档审核结果,以使该文档审核结果不仅能够表示出待检测文档中那些文档内容存在问题,还能够表示出该待检测文档中这些问题的严重程度。
150.基于上述步骤11至步骤12的相关内容可知,在获取到待检测文档对应的待使用审核规则之后,可以借助要素抽取处理方式,实现针对该待检测文档的审核过程,如此有利于提高文档审核效果。
151.基于上述s1至s3的相关内容可知,对于本技术实施例提供的文档审核方法来说,在获取到待检测文档(例如,用于生成审计报告的财务报表、以及报表附注等文档)之后,先根据该待检测文档的属性描述信息(例如,审计模板或者公司行业等),确定待使用审核规则;再按照该待使用审核规则,对该待检测文档进行审核处理,得到文档审核结果,如此能够实现针对文档数据自动地进行文档审核处理,从而能够有效地克服人工审核所存在的缺陷,进而有利于提高文档审核效果。
152.方法实施例二
153.实际上,为了便于上述“待检测文档”的撰写者(或者,审核者)准确地获知该“待检测文档”那些地方存在错误,本技术实施例还提供了文档审核方法的另一种可能的实施方式,在该实施方式中,该文档审核方法除了包括上述s1-s3以外,可以还包括s4:
154.s4:根据文档审核结果,对待检测文档进行错误标记处理,得到标记后文档。
155.上述“标记后文档”是指携带有错误标记的待检测文档;而且本技术实施例不限定该“标记后文档”,例如,其可以包括图5所示的文档内容。
156.另外,本技术实施例不限定s4的实施方式,例如,当文档审核结果中存在待标记错误时,s4可以包括s41-s42:
157.s41:确定待标记错误的文档标记位置。
158.上述“待标记错误”用于代表文档审核结果中的任意一个文档错误。
159.上述“待标记错误的文档标记位置”用于表示该待标记错误在待检测文档中被标记的位置。
160.另外,本技术实施例不限定上述“待标记错误的文档标记位置”的确定过程,例如,当上述“待标记错误”表示待检测文档不满足第f个目标规则,第f个目标规则对应的要素描述信息包括第四要素描述信息,且该第四要素描述信息包括第四键值对以及该第四键值对对应的文档位置时,将上述“第四键值对对应的文档位置”,确定为该待标记错误的文档标记位置。
161.需要说明的是,上述“第四键值对对应的文档位置”用于表示该“第四键值对”中值(例如,图5中“15,801,164.63”)在待检测文档中所处位置。
162.s42:按照待标记错误的文档标记位置,将该待标记错误添加至待检测文档,得到标记后文档。
163.基于上述s4的相关内容可知,在获取到文档审核结果之后,可以将该文档审核结果中所记录的各个错误分别标记至待检测文档中,得到标记后文档,以便后续该待检测文档的撰写者(或者,审核者)能够从该标记后文档中准确地获知该待检测文档中哪些文档内容发生错误,如此有利于提高用户体验。
164.方法实施例三
165.对于一些情况来说,有时需要针对多个文档数据的审核结果进行汇总报告,故为了满足该用户需求,本技术实施例还提供了文档审核方法的又一种可能的实施方式,在该实施方式中,该文档审核方法除了包括上述全部步骤或者部分步骤以外,可以还包括s5:
166.s5:根据文档审核结果,生成待使用审核报告。
167.上述“待使用审核报告”用于描述至少一个待检测文档的审核结果;而且本技术实施例不限定该“待使用审核报告”的表示方式,例如,其可以采用可视化图表 详情汇总的方式进行表示。
168.另外,本技术实施例不限定s5的实施方式,例如,其具体可以包括:在获取到d个待检测文档的文档审核结果之后,可以针对该d个待检测文档的文档审核结果进行统计分析处理,得到待使用审核报告,以使该待使用审核报告能够形象地表示出该d个待检测文档中存在的错误,以便后续能够利用该待使用审核报告进行其他评估过程(例如,一个撰写者的撰写水平变化趋势,多个撰写者的综合撰写水平等)。其中,d为正整数。
169.需要说明的是,本技术实施例不限定上述“d个待检测文档”,例如,其可以包括:由一个撰写者在d个不同时间段下撰写的文档数据。又如,“d个待检测文档”可以包括:由多个撰写者在同一时间段下撰写的文档数据。
170.基于上述s5的相关内容可知,对于一些情况来说,在获取到一些待检测文档的文档审核结果之后,可以针对这些待检测文档的文档审核结果进行统计分析处理,得到待使用审核报告,以使该待使用审核报告能够准确地表示出这些待检测文档中存在的错误,从而使得该待使用审核报告能够准确地表示出这些待检测文档的撰写水平。
171.方法实施例四
172.实际上,一些文档数据中可能会存在超长表格。然而,因这些文档数据的页面尺寸有限,使得该超长表格无法在一页文档中进行完整显示,故为了更好地显示该超长表格,通常会将该超长表格分割成多个子表格,并将这些子表格分别显示在不同页文档中(如图6所示),如此易导致针对该超长表格的审核过程十分艰难。基于此,为了克服这个问题,本技术实施例还提供了文档审核方法的再一种可能的实施方式,在该实施方式中,该文档审核方法除了包括上述部分步骤以外,可以还包括s7-s12:
173.s7:根据待检测文档,初始化待处理文档内容。
174.上述“待处理文档内容”用于表示在针对待检测文档进行审核处理时所需使用的文档内容(例如,字符内容以及表格内容等)。
175.另外,本技术实施例不限定s7的实施方式,例如,其具体可以为:直接将该待检测文档,确定为待处理文档内容。
176.需要说明的是,因待检测文档始终会受到页面尺寸限制,使得无法在该待检测文档中实现恢复超长表格的目的,故为了克服该困难,可以先利用该待检测文档,初始化一个不受页面尺寸限制的待处理文档内容,以使该待处理文档内容包括该待检测文档中文档内容,以便后续能够在该待处理文档内容中实现恢复超长表格的目的。
177.s8:判断待处理文档内容中是否存在满足第一条件的第一表格;若是,则执行s9-s11;若否,则执行s12。
178.上述“第一条件”是指超长表格中非首个子表格进行文档显示时所达到的条件;而且本技术实施例不限定该“第一条件”,例如,其具体可以包括:第一表格对应的预设检测位置上存在预设检测字符(例如,续上表,接上表,续,接等)。
179.需要说明的是,本技术实施例不限定上述“预设检测位置”,例如,如图6所示,当上述“预设检测位置”是指图6中“续上表”所处位置,且第一表格是指图6中第2个表格时,该“预设检测位置”与第一表格的表格位置相邻,且该“预设检测位置”比第一表格的表格位置靠前。其中,“第一表格的表格位置”用于表示该第一表格在待处理文档内容中所处位置。
180.上述“第一表格”是指在待处理文档内容中存在的且满足第一条件的表格,以使该“第一表格”用于表示一个超长表格中非首个子表格。
181.s9:根据第一表格的表格位置,从待处理文档内容中确定满足第二条件的第二表格。
182.上述“第二条件”可以预先设定。例如,“第二条件”具体可以为:第二表格的表格位置与上述“第一表格的表格位置”之间的距离差值最小,且该第二表格的表格位置比上述“第一表格的表格位置”靠前。
183.上述“第二表格”是指在待处理文档内容中存在的且满足第二条件的表格,以使该“第二表格”用于记录一个超长表格中位于该第一表格之前的表格内容。
184.另外,本技术实施例不限定上述“第二表格”,例如,当上述“第一表格”为一个超长表格中第2个子表格(如图6所示的第2个表格等)时,则该“第二表格”是指该超长表格中第1个子表格(如图6所示的第1个表格等)。又如,当上述“第一表格”为一个超长表格中第y个子表格时,则该“第二表格”是由该超长表格中第1个子表格至第y-1个子表格拼接得到的;其中,y为正整数,3≤y≤y,y表示上述“一个超长表格”被分割成的子表格的个数。
185.此外,本技术实施例不限定上述“第二表格”的确定过程,例如,其具体可以包括:在待处理文档内容中,以第一表格的表格位置作为表格搜索起始位置,从开始往前进行表格搜索,以便将搜索到的第一个表格,确定为上述“第二表格”。
186.s10:将第一表格与第二表格进行表格合并处理,得到第三表格。
187.上述“第三表格”是由第一表格与第二表格进行拼接得到的,以使该“第三表格”用于表示第一表格与第二表格携带的表格内容(如图7所示)。例如,当上述“第一表格”为一个超长表格中第x个子表格时,则该“第三表格”时由超长表格中第1个子表格至第x个子表格拼接得到的。其中,x为正整数,2≤x≤y,y表示上述“一个超长表格”被分割成的子表格的个数。
188.另外,本技术实施例不限定上述“第三表格”的确定过程,例如,其具体可以包括步骤21-步骤23:
189.步骤21:将第一表格的表头和第二表格的表头进行比较,得到共有表头。
190.上述“共有表头”是指第一表格与第二表格所共有的表头列(例如,图6所示的两个表格中第1列所示的表头)或者表头行。
191.步骤22:删除第一表格中共有表头,得到第四表格。
192.本技术实施例中,在确定出共有表头之后,可以将该共有表头从第一表格中删除,得到第四表格,以使该第四表格不包括该共有表头,只包括该第一表格中非共有表头以外的其他表格内容。
193.步骤23:按照公共表头对应的预设拼接位置,将第四表格与第二表格进行拼接处理,得到第三表格。
194.上述“公共表头对应的预设拼接位置”可以预先设定。例如,若“公共表头”为第二表格中一列数据,则可以将该第二表格中最后一列的右边框位置,确定为该“公共表头对应的预设拼接位置”。又如,若“公共表头”为第二表格中一行数据,则可以将该第二表格中最后一行的下边框位置,确定为该“公共表头对应的预设拼接位置”。
195.可见,如图6和图7所示,若“公共表头”为第二表格中一列数据,则在获取到第四表格之后,可以将该第四表格拼接至该第二表格中最后一列的右边,得到第三表格(如图7所示的表格),以使该第三表格用于准确地表示出上述“第一表格”以及“第二表格”的表格内容。
196.基于上述s10的相关内容可知,在获取到第二表格之后,可以将该第二表格与第一表格进行表格合并处理,得到第三表格,以使该第三表格包括上述“第一表格”以及“第二表格”的表格内容。
197.s11:根据第三表格,更新待处理文档内容,并返回执行s8。
198.本技术实施例不限定待处理文档内容的更新过程,例如,其具体可以包括:在获取到第三表格之后,可以先将第一表格、第二表格、以及位于第一表格与该第二表格之间的预设检测字符从待处理文档内容中删除;再按照上述“第一表格”的表格位置(或者,上述“第二表格”的表格位置),将第三表格添加至待处理文档内容,得到更新后的待处理文档内容,以使更新后的待处理文档内容包括该第三表格,但不再包括该第一表格、第二表格、以及位于第一表格与该第二表格之间的预设检测字符,以便后续能够基于更新后的待处理文档内容,继续执行s8及其后续步骤,如此能够实现针对超长表格进行恢复的目的。
199.s12:按照待使用审核规则,对待处理文档内容进行审核处理,得到文档审核结果。
200.本技术实施例中,在确定待处理文档内容中不存在满足第一条件的第一表格之后,可以确定该待处理文档内容中不存在超长表格被分割现象,从而可以确定该待处理文档内容中各个表格均是一个完整的表格,故可以直接按照待使用审核规则,对该待处理文档内容进行审核处理,得到文档审核结果,以使该文档审核结果能够更好地表示出上文“待检测文档”中存在的错误。
201.需要说明的是,s12可以采用s3的任一实施方式进行实施,只需将该s3的任一实施方式中“待检测文档”替换为“待处理文档内容”即可。
202.基于上述s7至s12的相关内容可知,在获取到待检测文档之后,可以借助对不受页面尺寸约束的待处理文档内容中多个子表格进行合并的方式,实现针对该待检测文档中超长表格的恢复处理过程,如此能够有效地避免因超长表格被分割成多个子表格而导致的审核困难,从而有利于提高审核效果。
203.方法实施例五
204.实际上,一些文档数据中可能会存在表头十分复杂的表格(如图6所示的各个表格),使得针对该表格的要素提取过程比较艰难。基于此,为了克服这个问题,本技术实施例还提供了确定上述“待使用要素信息”的一种可能的实施方式,其具体可以包括步骤31-步骤32:
205.步骤31:若确定待检测文档中存在满足第三条件的第五表格,则按照该第三条件对应的预设表格要素提取规则,从第五表格中抽取至少一个表格要素信息。
206.上述“第三条件”可以预先设定。例如,“第三条件”具体可以为:包括多层嵌套表头(例如,类似于图6所示的“期初余额下账面余额下金额”的三层嵌套表头)。
207.上述“第五表格”是指满足第三条件的表格。
208.上述“第三条件对应的预设表格要素提取规则”是指针对满足第三条件的表格所采用的要素提取规则;而且本技术实施例不限定该“第三条件对应的预设表格要素提取规则”,例如,其具体可以为:根据第五表格中行名以及列名,确定该第五表格中各个表格值的标识信息。为了便于理解,下面结合图6以及图8进行说明。
209.作为示例,对于图6中表格值“27,577,113,388.43”来说,可以利用该表格值在图6所示的表格中所处行的行名以及所处列的列名进行标识,得到该表格值的标识信息(也就是,图8所示的“附注_t060402_按组合计提坏账准备_期初余额##账面余额##金额”),以使该表格值的标识信息能够唯一表示该表格值,以便后续该表格值以及该表格值的标识信息能够组成一个键值对(附注_t060402_按组合计提坏账准备_期初余额##账面余额##金额,27,577,113,388.43),并基于该键值对及其该键值对对应的文档位置,生成一个要素描述
信息(也就是,上文所示的“表格要素信息”)。
210.上述“表格要素信息”是指从第五表格中抽取的要素描述信息,以使该“表格要素信息”用于描述该第五表格中记录的要素内容;而且本技术实施例不限定该“表格要素信息”,例如,其可以包括第一表格值、该第一表格值的标识信息、以及该第一表格值的位置描述信息中的至少一个。
211.上述“第一表格值”是指第五表格中记录的数值(例如,“27,577,113,388.43”)。
212.上述“第一表格值的标识信息”用于唯一标识该第一表格值;而且该“第一表格值的标识信息”可以根据第五表格的表格标识(例如,图8所示的“附注_t060402”)、待使用行名称(例如,图8所示的“按组合计提坏账准备”)、以及待使用列名称(例如,图8所示的“期初余额##账面余额##金额”)确定的。其中,待使用行名称是指第一表格值在第五表格中表格行的行名称。待使用列名称是指第一表格值在第五表格中表格列的列名称。
213.需要说明的是,上述“第一表格值的标识信息”相当于上文“待抽取要素”,且上述“第一表格值”相当于上文“待抽取要素的数值”。
214.上述“第一表格值的位置描述信息”用于描述该第一表格值在待检测文档中所处位置。
215.步骤32:根据至少一个表格要素信息,确定待使用要素信息。
216.本技术实施中,在从第五表格中抽取出至少一个表格要素信息之后,可以将该至少一个表格要素信息、以及从待检测文档中除了该第五表格以外其他文档内容中抽取的要素描述信息进行汇总,得到待使用要素信息,以使该待使用要素信息能够更准确地表示出该待检测文档。
217.基于上述步骤31至步骤32的相关内容可知,在一些情况下,可以针对待检测文档中特殊文档内容(例如,具有复杂表头的表格),采用特殊的要素提取方式,得到该特殊文档内容所携带的要素内容,如此有利于提高要素提取效果,从而有利于提高文档审核效果。
218.方法实施例六
219.在一些情况下,可能需要针对一些表格(如图9所示的表格)进行子行子列相加。例如,对于图9所示的固定资产情况表格来说,该表格包括3级标题;其中,(1)、(2)、(3)等均为三级标题,小写阿拉伯数字(例如,1,2,3,
……
等)为二级标题,大写汉字数字(例如,一、二、三、
……
等)为一级标题;而且针对该“固定资产情况”表格所使用的审核规则,通常可以包括以下三个规则:
220.规则1:三级标题下数值应该加起来等于其上一级的二级标题下数值。例如,如图9所示,房屋及建筑物那一列中“(1)购置”下数值(例如,135,922.33)、“(2)在建工程转入”下数值(例如,15,665,242.31)、以及“(3)企业合并增加”下数值(例如,0)之间的和值,应该等于“2.本期增加金额”(例如,15,801,164.63)。
221.规则2:各行横向相加等于合计。
222.规则3:各一级标题下的期初余额加减本期增减金额等于期末余额。
223.基于上述分析可知,在对一个文档数据(例如,待检测文档)进行审核处理时,可能会遇到图9所示的表格,故可以预先设定一种特殊的算子(例如,图10所示的levelsum),以使该算子能够实现“子标题的各项值相加等于上一级子标题的合计(也就是,三级加和总等于其对应的二级,二级加和总等于其对应的一级)”这一计算逻辑,以便后续在针对类似于
图9所示的表格进行审核处理时,能够直接调用该算子即可,如此有利于提高文档审核效率。
224.方法实施例七
225.实际上,一些文档数据可能会存在版本兼容问题。基于此,为了提高文档审核效果,本技术实施例还提供了获取上述“待检测文档”的另一种可能的实施方式,其具体可以包括步骤41-步骤44:
226.步骤41:在获取到第一文档数据之后,判断该第一文档数据的版本信息是否满足预设版本条件,若是,则执行步骤42;若否,则执行步骤43-步骤44。
227.上述“第一文档数据的版本信息”用于描述该第一文档数据的文档版本(例如,2003版word、2007版word、2010版word、2003版excel、2007版excel、2010版excel等)。
228.上述“预设版本条件”可以预先设定。例如,上述“预设版本条件”可以包括2010版word和2010版excel。可见,当上述“第一文档数据”包括财务报表和报表附注时,可以判断该财务报表的版本信息是否为2010版excel,并判断该报表附注的版本信息是否为2010版word;若确定该财务报表的版本信息为2010版excel且确定该报表附注的版本信息为2010版word,则可以确定该第一文档数据的版本信息满足预设版本条件;若确定该财务报表的版本信息不是2010版excel,或者确定该报表附注的版本信息不是2010版word,则可以确定该第一文档数据的版本信息不满足预设版本条件。
229.步骤42:根据第一文档数据,确定待检测文档。
230.本技术实施例不限定步骤42的实施方式,例如,其具体可以包括:直接将该第一文档数据,确定为待检测文档。又如,其可以下文所示的步骤51-步骤53的任一实施方式进行实施,只需将下文所示的步骤51-步骤53的任一实施方式中“第二文档数据”替换为“第一文档数据”即可。
231.步骤43:对第一文档数据进行兼容性处理,得到兼容文档数据。
232.上述“兼容性处理”用于转换一个文档数据的文档版本;而且本技术实施例不限定该“兼容性处理”,例如,其可以包括:将一个财务报表转换至目标excel版本(例如,2010版excel);和/或,将一个报表附注转换至目标word版本(例如,2010版word)。
233.可见,对于不满足预设版本条件的第一文档数据来说,如果该第一文档数据中财务报表不是目标excel版本,则可以将该第一文档数据中财务报表转换至目标excel版本;如果该第一文档数据中报表附注不是目标word版本,则可以将该第一文档数据中报表附注转换至目标word版本。
234.上述“兼容文档数据”是指针对第一文档数据进行兼容性处理得到的文档数据,以使该“兼容文档数据”满足预设版本条件。
235.步骤44:根据兼容文档数据,确定待检测文档。
236.本技术实施例不限定步骤44的实施方式,例如,其具体可以包括:直接将该兼容文档数据,确定为待检测文档。又如,其可以下文所示的步骤51-步骤53的任一实施方式进行实施,只需将下文所示的步骤51-步骤53的任一实施方式中“第二文档数据”替换为“兼容文档数据”即可。
237.基于上述步骤41至步骤44的相关内容可知,在获取到一个文档数据之后,可以针对该文档数据进行兼容性处理,得到待检测文档,如此能够解决因办公软件(office)不同
版本兼容性问题而对文档审核造成的不良影响,如此有利于提高文档审核效果。
238.实际上,一些文档数据可能会因某些原因(例如,不属于审计报告、财务报表和报表附注;或者,文档内容不完整等)而导致这些文档数据无法被审核。基于此,为了避免审核资源浪费,本技术实施例还提供了获取上述“待检测文档”的又一种可能的实施方式,其具体可以包括步骤51-步骤53:
239.步骤51:判断第二文档数据是否满足预设审核条件,若是,则执行步骤52;若否,则执行步骤53。
240.上述“预设审核条件”可以预先设定。例如,上述“预设审核条件”可以包括:属于目标文档类型(例如,审计报告、财务报表和报表附注),且文档内容完整。
241.步骤52:将第二文档数据,确定为待检测文档。
242.步骤53:生成告警信息,并将该告警信息发送给第二文档数据的相关人员(例如,撰写者或者审核者)。
243.上述“告警信息”用于表示第二文档数据不满足预设审核条件。
244.基于上述步骤51至步骤53的相关内容可知,在获取到一个文档数据之后,可以针对该文档数据进行文档类型以及文档内容完整性进行检查,以便针对不满足预设审核条件的文档数据进行拦截告警,如此能够避免针对无效文档进行审核处理,从而能够有效地避免审核资源浪费,进而有利于提高文档审核体验。
245.需要说明的是,图2所示的“文档预处理”可以包括上述步骤41-步骤44,和/或,上述步骤51-步骤53。
246.基于上述方法实施例提供的文档审核方法,本技术实施例还提供了一种文档审核装置,下面结合附图进行解释和说明。
247.装置实施例
248.装置实施例对文档审核装置进行介绍,相关内容请参见上述方法实施例。
249.参见图11,该图为本技术实施例提供的一种文档审核装置的结构示意图。
250.本技术实施例提供的文档审核装置1100,包括:
251.文档获取单元1101,用于获取待检测文档;
252.规则确定单元1102,用于根据所述待检测文档的属性描述信息,确定待使用审核规则;
253.文档审核单元1103,用于按照所述待使用审核规则,对所述待检测文档进行审核处理,得到文档审核结果。
254.在一种可能的实施方式中,所述规则确定单元1102,具体用于:从预设映射关系中查找所述属性描述信息对应的候选审核规则,确定为待使用审核规则;其中,所述预设映射关系包括所述属性描述信息与所述属性描述信息对应的候选审核规则之间的对应关系。
255.在一种可能的实施方式中,所述属性描述信息包括文档模板描述信息和/或公司行业归属信息。
256.在一种可能的实施方式中,所述文档审核装置1100还包括:
257.属性获取单元,用于获取目标用户针对所述待检测文档提供的待使用属性信息;其中,所述待使用属性信息包括所述待检测文档的属性描述信息。
258.在一种可能的实施方式中,所述文档审核单元1103,包括:
259.要素抽取子单元,用于对所述待检测文档进行要素抽取处理,得到待使用要素信息;
260.结果确定子单元,用于根据所述待使用要素信息和所述待使用审核规则,确定文档审核结果。
261.在一种可能的实施方式中,所述要素抽取子单元,具体用于:按照预先构建的文档内容索引模板,对所述待检测文档进行要素抽取处理,得到待使用要素信息。
262.在一种可能的实施方式中,所述要素抽取子单元,具体用于:若确定所述待检测文档中存在满足第三条件的第五表格,则按照所述第三条件对应的预设表格要素提取规则,从所述第五表格中抽取至少一个表格要素信息;根据所述至少一个表格要素信息,确定所述待使用要素信息。
263.在一种可能的实施方式中,所述表格要素信息包括第一表格值和所述第一表格值的标识信息;其中,所述第一表格值的标识信息是根据所述第五表格的表格标识、待使用行名称、以及待使用列名称确定的;所述待使用行名称是指所述第一表格值在所述第五表格中所处表格行的行名称;所述待使用列名称是指所述第一表格值在所述第五表格中所处表格列的列名称。
264.在一种可能的实施方式中,所述待使用审核规则包括m条待确认规则;其中,m为正整数;
265.所述结果确定子单元,具体用于:从所述待使用要素信息中查询第m条待确认规则对应的要素描述信息;其中,m为正整数,m≤m;根据所述第m条待确认规则和所述第m条待确认规则对应的要素描述信息,确定所述第m条待确认规则对应的规则确认结果;其中,m为正整数,m≤m;根据第1条待确认规则对应的规则确认结果至第m条待确认规则对应的规则确认结果,确定所述文档审核结果。
266.在一种可能的实施方式中,所述文档审核装置1100还包括:
267.超长表格恢复单元,用于根据所述待检测文档,初始化待处理文档内容;判断所述待处理文档内容中是否存在满足第一条件的第一表格;在确定所述待处理文档内容中存在满足第一条件的第一表格时,根据所述第一表格的文档位置,从所述待处理文档内容中确定满足第二条件的第二表格;将所述第一表格与所述第二表格进行表格合并处理,得到第三表格;根据所述第三表格,更新所述待处理文档内容,并继续执行所述判断所述待处理文档内容中是否存在满足第一条件的第一表格的步骤;
268.所述文档审核单元1103,具体用于:在确定所述待处理文档内容中不存在满足第一条件的第一表格时,按照所述待使用审核规则,对所述待处理文档内容进行审核处理,得到文档审核结果。
269.在一种可能的实施方式中,所述第三表格的确定过程,包括:将所述第一表格的表头和所述第二表格的表头进行比较,得到共有表头;删除所述第一表格中共有表头,得到第四表格;按照所述公共表头对应的预设拼接位置,将所述第四表格与所述第二表格进行拼接处理,得到第三表格。
270.在一种可能的实施方式中,所述文档审核装置1100还包括:
271.错误标记单元,用于根据所述文档审核结果,对所述待检测文档进行错误标记处理,得到标记后文档。
272.在一种可能的实施方式中,所述文档审核装置1100还包括:
273.报告生成单元,用于根据所述文档审核结果,生成待使用审核报告。
274.进一步地,本技术实施例还提供了一种设备,包括:处理器、存储器、系统总线;
275.所述处理器以及所述存储器通过所述系统总线相连;
276.所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述文档审核方法的任一种实现方法。
277.进一步地,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述文档审核方法的任一种实现方法。
278.进一步地,本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述文档审核方法的任一种实现方法。
279.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
280.需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
281.还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
282.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献