一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种标准文件生成方法、装置、设备及存储介质与流程

2022-02-20 01:08:25 来源:中国专利 TAG:


1.本发明涉及大数据处理技术领域,尤其涉及一种标准文件生成方法、装置、设备及存储介质。


背景技术:

2.随着互联网技术的发展,数据的应用已经渗透到各行各业,基于大数据技术的数据分析处理,对社会各行业具有深远影响。目前很多智慧金融场景下,需要查询市场主体的交易流水数据并将市场主体的交易流水数据导入预设系统,以进行相关数据分析。
3.发明人发现,由于不同市场主体具有不同的交易流水数据格式,大部分交易流水数据格式与预设系统中的模板格式不同,因此在将交易流水数据导入预设系统时,一般是工作人员将需要导入的交易流水数据手动录入到预设系统中,但人工处理的方式的处理效率低、人工成本高,因此出现了针对某个具体的市场主体(如某个银行)的交易流水数据格式,开发出固定的文件解析逻辑,不同市场主体具有文件解析逻辑,以将交易流水数据转化为标准格式。但固定的文件解析逻辑难以适应市场的快速变化,文件解析逻辑更新成本较高,数据导入效率较低。例如,当需要接入新的市场主体交易流水数据,或交易流水数据格式变化时,需要重新设计文件解析逻辑,代码设计量大、更新频繁,导致数据导入的成本较高、效率较低。


技术实现要素:

4.本发明提供一种标准文件生成方法、装置、设备及存储介质,以解决现有技术中,固定的文件解析逻辑难以适应市场的快速变化,导致数据导入的成本较高、效率较低的问题。
5.提供一种标准文件生成方法,包括:
6.于获取待处理的交易流水文件,并对交易流水文件进行解析,以获得交易流水文件中所有的表头字段;
7.基于字段映射规则库对表头字段进行标准字段的映射匹配,以获得所有表头字段的匹配结果;
8.将所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整;
9.若需要对表头字段的匹配结果进行调整,则根据用户的输入信息对所有表头字段的匹配结果进行调整,以获得调整结果,调整结果包括所有表头字段和表头字段对应的标准字段;
10.将交易流水文件中的表头字段替换为对应标准字段,以获得标准文件,并根据调整结果对字段映射规则库进行更新。
11.提供一种标准文件生成装置,包括:
12.解析模块,用于获取待处理的交易流水文件,并对交易流水文件进行解析,以获得
交易流水文件中所有的表头字段;
13.匹配模块,用于基于字段映射规则库对表头字段进行标准字段的映射匹配,以获得所有表头字段的匹配结果;
14.展示模块,用于将所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整;
15.调整模块,用于若需要对表头字段的匹配结果进行调整,则根据用户的输入信息对所有表头字段的匹配结果进行调整,以获得调整结果,调整结果包括所有表头字段和表头字段对应的标准字段;
16.更新模块,用于将交易流水文件中的表头字段替换为对应标准字段,以获得标准文件,并根据调整结果对字段映射规则库进行更新。
17.提供一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述标准文件生成方法的步骤。
18.提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述标准文件生成方法的步骤。
19.上述标准文件生成方法、装置、设备及存储介质所提供的一个方案中,通过获取待处理的交易流水文件,并对交易流水文件进行解析,以获得交易流水文件中所有的表头字段;然后基于字段映射规则库对表头字段进行标准字段的映射匹配,以获得所有表头字段的匹配结果;再将所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整;若需要对表头字段的匹配结果进行调整,则根据用户的输入信息对所有表头字段的匹配结果进行调整,以获得调整结果,调整结果包括所有表头字段和表头字段对应的标准字段;最后将交易流水文件中的表头字段替换为对应标准字段,以获得标准文件,并根据调整结果对字段映射规则库进行更新;本发明中,通过预先为标准字段配置映射关系,可以实现对交易流水文件中表头字段的自动匹配,进而使用户校正匹配结果,无需开发特定的文件解析逻辑即可实现不同格式的交易流水数据转化和导入,能够兼容不同市场主体的交易流水文件,同时还可以自动更新字段映射规则库,无需频繁重新设计文件解析逻辑,降低了数据导入的成本并提高了数据导入的效率。
附图说明
20.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1是本发明一实施例中标准文件生成方法的一应用环境示意图;
22.图2是本发明一实施例中标准文件生成方法的一流程示意图;
23.图3是图2中步骤s30的一实现流程示意图;
24.图4是图2中步骤s10的一实现流程示意图;
25.图5是图4中步骤s11的一实现流程示意图;
26.图6是图4中步骤s13的一实现流程示意图;
27.图7是图2中步骤s20的一实现流程示意图;
28.图8是图2中步骤s20的另一实现流程示意图;
29.图9是本发明一实施例中标准文件生成装置的一结构示意图;
30.图10是本发明一实施例中计算机设备的一结构示意图。
具体实施方式
31.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
32.本发明实施例提供的标准文件生成方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。服务器通过获取终端设备发送的待处理的交易流水文件,并对交易流水文件进行解析,以获得交易流水文件中所有的表头字段;然后在字段映射规则库对表头字段进行标准字段的映射匹配,以获得所有表头字段的匹配结果;再将所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整;若需要对表头字段的匹配结果进行调整,则根据用户的输入信息对所有表头字段的匹配结果进行调整,以获得调整结果,调整结果包括所有表头字段和表头字段对应的标准字段;最后将交易流水文件中的表头字段替换为对应标准字段,以获得标准文件,并根据调整结果对字段映射规则库进行更新。通过预先为标准字段配置映射关系,可以实现对交易流水文件中表头字段的自动匹配,进而使用户校正匹配结果,无需开发特定的文件解析逻辑即可实现不同格式的交易流水数据转化和导入;能够兼容不同市场主体的交易流水文件,同时还可以自动更新字段映射规则库,无需频繁重新设计文件解析逻辑,降低了数据导入的成本并提高了数据导入的效率,进而加快了智慧金融的发展,加快了智慧城市进程。
33.其中,字段映射规则库、交易流水文件等数据存储在服务器的区块链数据库中,以便在进行标准文件生成时,可以直接将相关数据进提取,方便快捷。
34.本实施例中的区块链数据库存储于区块链网络中,用于存储于标准文件生成方法中用到、生成的数据,如字段映射规则库、交易流水文件等相关数据。本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。将数据库部署于区块链可提高数据存储的安全性。
35.其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
36.在一实施例中,如图2所示,提供一种标准文件生成方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
37.s10:获取待处理的交易流水文件,并对交易流水文件进行解析,以获得交易流水文件中所有的表头字段。
38.首先,获取待处理的交易流水文件,并采用预设解析工具对交易流水文件进行解析,以获得交易流水文件中所有的表头字段。需要理解的是,交易流水文件为某市场主体(如银行)与他人的交易记录,交易流水文件中的交易流水数据一般为表格数据,包括表头(如交易流水号、账号、交易日期、交易时间、发生额、余额、借贷标志、对方账号、对方户名、对方银行),以及表头对应的流水数据。
39.其中,待处理的交易流水文件为用户手动输入的交易流水文件,也可以是通过机器人流程自动化(robotic process automation,简称rpa)系统,从对应市场主体的系统(如银行的后台系统)中自动抓取的交易流水文件。由于rpa系统只要有数据就可以7*24小时不间断工作,通过rpa系统抓取交易流水文件,进而进行标准化处理以进行数据导入,这样可以大大地降低人工成本,提高工作效率。
40.s20:基于字段映射规则库对表头字段进行标准字段的映射匹配,以获得所有表头字段的匹配结果。
41.在获取交易流水文件中所有的表头字段之后,基于字段映射规则库对表头字段进行标准字段的映射匹配,以获得表头字段的匹配结果,对所有表头字段的标准字段进行映射匹配,从而获得所有表头字段的匹配结果。其中,字段映射规则库包括多个标准字段和标准字段对应的预设字段,预设字段根据历史交易流水文件的表头字段确定。标准字段为预设设定的交易流水导入模板的标准化字段,一个标准字段至少对应有一个预设字段。
42.例如,某银行的历史交易流水文件的表头字段包括交易流水号、账号、交易日期、交易时间、发生额、余额、借贷标志、对方账号、对方户名、对方银行等,则与上述表头字段对应的表头字段可以分别为:交易流水号、交易账号、交易日期、交易金额、账户余额、借贷标志、对方账号等;在确定交易流水导入模板的标准化字段之后,选取部分银行的历史交易流水文件中对应的表头字段,与标准字段进行映射绑定,并存储在字段映射规则库中,以便在进行交易流水文件的标准化处理时,直接对表头字段进行自动映射匹配,获得匹配结果。
43.s30:将所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整。
44.在获得所有表头字段的匹配结果之后,将交易流水文件中所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整。其中,在对表头字段的匹配结果进行页面展示时,需要对表头字段与匹配结果同时进行展示,且表头字段与匹配结果一一对应,以方便用户对匹配结果进行页面预览,并根据预览页面对匹配结果从而进行查漏补缺,从而及时将匹配不上或者匹配错误的字段进行补充、调整。
45.s40:若需要对表头字段的匹配结果进行调整,则根据用户的输入信息对所有表头字段的匹配结果进行调整,以获得调整结果。
46.在将所有表头字段的匹配结果进行页面展示之后,若确定用户需要对表头字段的匹配结果进行调整,表示表头字段存在匹配错误或者未匹配上的情况,用户需要对表头字段的匹配结果进行调整,则获取用户的输入信息,并根据输入信息对所有表头字段的匹配结果进行调整,以获得调整结果。其中,调整结果包括所有表头字段和表头字段对应的标准字段。用户的输入信息一般为根据交易流水文件的实际情况,输入匹配错误或者未匹配上标准字段的表头字段实际对应的标准字段。
47.例如,表头字段为发生额,在字段映射规则库对该表头字段进行标准字段的映射匹配后,未匹配到标准字段,此时该表头字段的匹配结果为空或者0(表示无),用户在浏览页面展示结果之后,发现该表头字段未匹配上标准字段,而在实际使用中,发生额实际对应的标准字段为交易金额,则用户向系统发送调整指令,将发生额对应的匹配结果(即标准字段)调整为交易金额,在调整完成之后,获得所有表头字段和表头字段对应的标准字段,即为调整结果。
48.s50:将交易流水文件中的表头字段替换为对应标准字段,以获得标准文件,并根据调整结果对字段映射规则库进行更新。
49.在获取用户的输入信息,并根据输入信息对所有表头字段的匹配结果进行调整,以获得调整结果之后,根据调整结果中表头字段与标准字段的对应关系,将交易流水文件中的表头字段替换为对应标准字段,即可获得标准化处理后的标准文件,此时可将该标准文件导入到预设数据库中,以便后续进行数据分析。
50.同时,在获取用户的输入信息,并根据输入信息对所有表头字段的匹配结果进行调整,以获得调整结果之后,还需要根据调整结果中表头字段和表头字段对应的标准字段,对字段映射规则库进行更新。在用户对表头字段的匹配结果进行页面预览时,对于未匹配上标准字段或者匹配错误的表头字段,用户可以手动调整表头字段对应的标准字段,即新增或者改变表头字段与标准字段的映射关系,然后把调整后的字段映射关系更新到字段映射规则库中,当下次再上传同一市场主体的交易流水文件时,就无需再调整表头字段与标准字段的映射关系,可以直接进行交易流水文件导入,减少了重复操作的可能,实现数据快速导入,提高了数据导入效率。且通过线上手工修改字段映射关系来兼容新的交易流水文件导入,无需进行文件分析逻辑的更新,降低了更新成本,提高了数据导入效率。
51.其中,预设数据库,为需要导入交易流水文件数据的数据库,比如,企业的内部系统的数据库等。
52.本实施例中,设计的标准文件导入程序,既有自动化的数据导入功能,也保留了人工调整容错的入口,一套程序可以适配不同市场主体(如银行)交易流水文件的导入功能,并且有字段映射关系配置的记忆功能,同一市场主体交易流水文件的导入,只需要配置一次字段映射关系,后续再导入同样格式的市场主体交易流水文件时,程序可以根据之前已配置好的字段映射关系来自动处理文件,无需更改程序代码,成本低且效率高。当市场主体的交易流水文件的表头字段或者格式有变化时,可以用户浏览匹配结果时对字段映射关系的配置进行调整,完成段映射关系的更新,即可完成兼容后续改变后的交易流水文件,更新快速简单。
53.本实施例中,通过获取待处理的交易流水文件,并对交易流水文件进行解析,以获得交易流水文件中所有的表头字段;然后基于字段映射规则库对表头字段进行标准字段的映射匹配,以获得所有表头字段的匹配结果;再将所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整;若需要对表头字段的匹配结果进行调整,则根据用户的输入信息对所有表头字段的匹配结果进行调整,以获得调整结果,调整结果包括所有表头字段和表头字段对应的标准字段;最后将交易流水文件中的表头字段替换为对应标准字段,以获得标准文件,并根据调整结果对字段映射规则库进行更新;通过预先为标准字段配置映射关系,可以实现对交易流水文件中表头字
段的自动匹配,进而使用户校正匹配结果,无需开发特定的文件解析逻辑即可实现不同格式的交易流水数据转化和导入,能够兼容不同市场主体的交易流水文件,同时还可以实现字段映射规则库的自动更新,无需频繁重新设计文件解析逻辑,降低了数据导入的成本并提高了数据导入的效率。
54.在一实施例中,如图3所示,步骤s30中,即将所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整,具体包括如下步骤:
55.s31:将所有表头字段的匹配结果进行页面展示,并提示用户浏览表头字段的匹配结果。
56.在获得所有表头字段的匹配结果之后,将所有表头字段的匹配结果进行页面展示,并提示用户浏览表头字段的匹配结果。其中,提示用户浏览表头字段的匹配结果可以是语音提示、文字提示和震动提示的一种或者多种。
57.s32:确定是否接收到用户对表头字段的匹配结果的调整指令。
58.在将所有表头字段的匹配结果进行页面展示之后,需要确定是否接收到用户对表头字段的匹配结果的调整指令。其中,调整指令可以通过展示页面的调整按钮发送。
59.在展示页面设有调整按钮,用户通过点击调整按钮,向服务器发送调整指令,服务器接收到调整指令之后,将展示页面调整为可编辑状态,以实现对展示页面中表头字段的匹配结果的调整。
60.其中,展示页面上的调整按钮可以为一个,用户点击该调整按钮后即可对展示页面中的文字进行编辑,输入字段信息以调整对表头字段的匹配结果;展示页面上的调整按钮还可以包括多个,每一表头字段的匹配结果均可对应一个调整按钮,以便有针对性地对匹配结果进行编辑调整,减少数据计算量和服务器负载。
61.s33:若接收到用户对表头字段的匹配结果的调整指令,则确定需要对表头字段的匹配结果进行调整。
62.在确定是否接收到用户对表头字段的匹配结果的调整指令之后,若接收到用户对表头字段的匹配结果的调整指令,表示表头字段未匹配上标准字段或者标准字段匹配错误,匹配结果不准确,则确定需要对表头字段的匹配结果进行调整。服务器在接收到用户对表头字段的匹配结果的调整指令之后,确定需要对表头字段的匹配结果进行调整,此时将展示页面调整为可编辑状态,以便用户输入对应信息,以直接对表头字段的标准字段进行编辑调整。
63.s34:若未接收到用户对表头字段的匹配结果的调整指令,则确定不需要对表头字段的匹配结果进行调整。
64.在确定是否接收到用户对表头字段的匹配结果的调整指令之后,若未接收到用户对表头字段的匹配结果的调整指令,表示表头字段的匹配结果正确无误,每一表头字段均匹配有准确的标准字段,则确定不需要对表头字段的匹配结果进行调整,即无需对匹配结果进行修改,可以直接将交易流水文件中的表头字段替换为对应的标准字段,生成标准文件,然后将标准文件导入预设数据库,以便后续进行数据分析。
65.本实施例中,通过将所有表头字段的匹配结果进行页面展示,并提示用户浏览表头字段的匹配结果,再确定是否接收到用户对表头字段的匹配结果的调整指令,若接收到
用户对表头字段的匹配结果的调整指令,则确定需要对表头字段的匹配结果进行调整;若未接收到用户对表头字段的匹配结果的调整指令,则确定不需要对表头字段的匹配结果进行调整,明确了将所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整的具体过程,为后续根据调整结果确定交易流水文件,并对对字段映射规则库进行更新提供了基础。
66.在一实施例中,如图4所示,步骤s10中,即对交易流水文件进行解析,以获得交易流水文件中所有的表头字段,具体包括如下步骤:
67.s11:确定交易流水文件是否满足预设格式要求。
68.在获取待处理的交易流水文件之后,对交易流水文件进行解析之前,还需要确定交易流水文件是否满足预设格式要求,以根据确定结果确定是否需要对交易流水文件的文件格式进行转换,进而执行解析操作。
69.s12:若交易流水文件满足预设格式要求,则采用预设解析工具对交易流水文件进行解析,以解析获得交易流水文件中所有的表头字段。
70.在确定交易流水文件是否满足预设格式要求之后,若交易流水文件满足预设格式要求,表示交易流水文件的文件格式无需转换,可以直接进行解析,则采用预设解析工具对交易流水文件进行解析,以解析获得交易流水文件中所有的表头字段。其中,预设格式要求中的预设格式为预设解析工具所难处理的格式。
71.其中,预设解析工具可以为easy-excel解析工具,由于easy-excel解析工具仅能处理excel格式或csv格式的数据文件,因此,预设格式为excel格式或csv格式,即若交易流水文件的文件格式为excel格式或csv格式,则确定交易流水文件满足预设格式要求,反之,若交易流水文件的文件格式不为excel格式,也不为csv格式,则确定交易流水文件不满足预设格式要求。
72.本实施例中,预设解析工具为easy-excel解析工具、若交易流水文件的文件格式为excel格式或csv格式,则确定交易流水文件满足预设格式要求,仅为示例性说明,在其他,预设解析工具还可以是其他工具,确定交易流水文件满足预设格式要求的方式还可以是其他,在此不再赘述。
73.s13:若交易流水文件未满足预设格式要求,则对交易流水文件进行格式转换,以获得满足预设格式要求的交易流水文件。
74.在确定交易流水文件是否满足预设格式要求之后,若交易流水文件不满足预设格式要求,表示需要对交易流水文件的文件格式进行转换,以获得满足预设格式要求的交易流水文件,以便后续进行文件解析。
75.s14:采用预设解析工具对预设格式下的交易流水文件进行解析,以解析获得交易流水文件中所有的表头字段。
76.在对交易流水文件进行格式转换,以获得满足预设格式要求的交易流水文件之后,采用预设解析工具对预设格式下的交易流水文件进行解析,以解析获得交易流水文件中所有的表头字段。
77.例如,若交易流水文件的文件格式不为excel格式,则需要将交易流水文件的文件格式进行转换,以获得excel格式的交易流水文件,然后采用预设解析工具对预设格式下的交易流水文件进行解析,以解析获得交易流水文件中所有的表头字段。
78.本实施例中,通过确定交易流水文件是否满足预设格式要求;若交易流水文件满足预设格式要求,则采用预设解析工具对交易流水文件进行解析,以解析获得交易流水文件中所有的表头字段;若交易流水文件未满足预设格式要求,则对交易流水文件进行格式转换,以获得满足预设格式要求的交易流水文件,然后采用预设解析工具对预设格式下的交易流水文件进行解析,以解析获得交易流水文件中所有的表头字段,明确了对交易流水文件进行解析,以获得交易流水文件中所有的表头字段的具体过程,在获得待处理的交易流水文件之后,先对交易流水文件进行格式校验,仅当交易流水文件的文件格式满足要求时,再进行解析处理,减少了因文件格式不对无法处理的可能,可以实现不同格式类型的导入,能够处理更多数据。
79.在一实施例中,如图5所示,步骤s11中,即确定交易流水文件是否满足预设格式要求,具体包括如下步骤:
80.s111:确定交易流水文件的文件格式是否为目标文件格式;
81.s112:若交易流水文件的文件格式为目标文件格式,则确定交易流水文件的大小是否大于预设文件大小;
82.s113:若交易流水文件的大小小于或者等于预设文件大小,则确定交易流水文件满足预设格式要求。
83.其中,目标文件格式可以是excel格式或csv格式,预设文件大小可以是10m,在获取待处理的交易流水文件之后,确定交易流水文件的文件格式是否为excel格式或csv格式;若交易流水文件的文件格式为excel格式或csv格式,表示交易流水文件的文件格式满足格式要求,则进一步确定交易流水文件的大小是否大于预设文件大小;若交易流水文件的大小小于或者等于10m,表示交易流水文件的文件大小满足大小限定,则确定交易流水文件满足预设格式要求。
84.在确定交易流水文件的文件格式是否为目标文件格式之后,若交易流水文件的文件格式不为目标文件格式(excel格式或csv格式),表示交易流水文件的文件格式无法进行文件解析,则确定交易流水文件不满足预设格式要求。在确定交易流水文件的大小是否大于预设文件大小之后,若交易流水文件的大小大于预设文件大小(10m),表示交易流水文件过大,可能无法正常进行文件解析或者文件解析速度较慢,则确定交易流水文件不满足预设格式要求。
85.本实施例中,目标文件格式可以是excel格式或csv格式,预设文件大小可以是10m仅为示例性说明,在其他实施例中,目标文件格式还可以是其他文件格式,预设文件大小还可以是其他文件大小,在此不再赘述。
86.本实施例中,预设文件大小可以自定义,用户在导入交易流水文件时,可以手动设置预设文件大小。
87.本实施例中,通过确定交易流水文件的文件格式是否为目标文件格式,若交易流水文件的文件格式为目标文件格式,则确定交易流水文件的大小是否大于预设文件大小;若交易流水文件的大小小于或者等于预设文件大小,则确定交易流水文件满足预设格式要求,明确了确定交易流水文件是否满足预设格式要求的具体过程,仅当交易流水文件的文件格式和文件大小均满足要求时,不才确定交易流水文件为满足预设格式,减少了因流水数据过大导致解析工具无法快速解析的可能,提高了文件解析的效率,进而提高了数据导
入的效率。
88.在一实施例中,如图6所示,步骤s13中,即对交易流水文件进行格式转换,以获得满足预设格式要求的交易流水文件,具体包括如下步骤:
89.s131:对交易流水文件进行表格图像识别,以确定交易流水文件中的电子表格。
90.在确定交易流水文件未满足预设格式要求之后,表示交易流水文件可能为图片、pdf或者word等格式,不能直接解析,需要将交易流水文件转换为可以直接解析的文件格式(excel),则需要对交易流水文件进行表格图像识别,以获得交易流水文件中的电子表格,即将交易流水文件
91.其中,对交易流水文件进行表格图像识别,以确定交易流水文件中的电子表格,包括:
92.a.采用预设分割模型对交易流水文件进行图像分割,以获得交易流水文件的分割结果;
93.其中,预设分割模型为根据大量训练数据进行训练后的深度学习图像分割模型,其中,每一训练数据对应有标签,标签包括横向线、竖向线、横向不可见线、竖向不可见线等4种表格线标签的一种或者多种。由于在一个表格图像中,每个像素可能同时属于多种表格线标签,这是因为线和线之间有交点,交点处的像素是同属多条表线,因此在一训练数据可以对应有多个标签,各种标签之间并不互斥。
94.采用预设分割模型对交易流水文件中的表格图像,进行深度学习的图像分割,以获得交易流水文件的多个分割结果。其中,图像分割旨在对表格图像的每个像素赋予标签,分割任务有多标签,每个像素可能属于横线、竖线、不可见横线、不可见竖线。即图像分割的目的是对表格图像中不同类型的表格线进行标注,获得所有表格线的标签,表格线的标签可能为横向线、竖向线、横向不可见线、竖向不可见线等任一种或者多种。即以获得交易流水文件的多个分割结果中,每一个分割结果对应标注有一类表格线,每个分割结果为对某一类表格线标注有对应标签的图像。采用预设分割模型进行图像分割,具有较好的分割速度和准确性。
95.b.对多个分割结果进行几何分析,以确定交易流水文件中表格的框线;
96.在获得交易流水文件的分割结果之后,对多个分割结果进行几何分析,以确定交易流水文件中表格的框线。
97.具体地,先对每一分割结果设定阈值(如0.5)进行二值化,转成几张二值化图,每一个二值化图分别表示每种表格线所属的像素;然后对每个二值化图求连通区域,并对连通区域进行过滤,将长度太小的连通区域丢弃,获得多个有效连通区域;对每个有效连通区域分别拟合折线,即可得到大量线段;对线段的角度进行统计,获得各线段与x轴的夹角,并确定横、竖两种线段与x轴的夹角均值是否分别接近0和90度,若否,则认为识别失败并终止;若是,则保留该线段并过滤掉角度偏离均值3个标准差以上的线段,获得多个目标线段;应用disjointset算法将多个目标线段合并为直线,以获得交易流水文件中表格的一种框线;以上述步骤遍历所有分割结果,以获得交易流水文件中表格所有的框线。
98.c.对交易流水文件进行校正,获得校正后的校正文件;
99.由于图像生成过程中可能存在一定角度的倾斜,为便于后续处理和提高文字识别的质量,需要将交易流水文件进行倾斜校正。其中,校正方法使用投影变换,也即拟合一个
单应矩阵h,使得hx=x',x的每一列是在每条直线上以固定距离采样的点的齐次坐标,x'的对应列是该点校正后的齐次坐标。横线校正至水平,也即线上所有点的y坐标一致;竖线校正至竖直,也即线上所有点的x坐标一致;最后将求得的投影变换应用到交易流水文件中,以获得文字和表格线均校正后的校正文件。
100.d.根据表格的框线确定校正文件中每个单元格的坐标信息,以获得电子表格信息;
101.在确定表格的框线后,将表格的框线分类我横线和竖线;对所有的横线按从上至下的排序,相邻横线形成一行,计算相邻横线的y坐标差值,即可获得表格中每一行的行高;对所有的竖线按从左至由的排序,相邻竖线形成一列,计算相邻竖线的x坐标差值,即可获得表格中每一列的列宽。
102.然后根据每一行的行高和每一列的列宽列举所有的单元格候选,对所有单元格按面积从小到大排序。接着遍历排序好的候选单元格,去判断单元格上下左右的框线是否都真实存在,若存在,则此单元格就在原表格图像存在,从而确定每一个单元格的上下左右四个坐标,作为每个单元格的坐标信息,从而获得电子表格,即该电子表格包括每个单元格的坐标信息。
103.s132:对交易流水文件进行文字识别,以获得交易流水文件中的字符和字符的坐标。
104.在对交易流水文件进行校正,获得校正后的校正文件之后,还需要对交易流水文件进行文字识别(ocr识别),以获得交易流水文件中的字符和字符的坐标。
105.s133:根据字符的坐标,将交易流水文件中的字符匹配至电子表格,以获得交易流水数据表。
106.在获取电子表格和字符的坐标之后,根据电子表格中每个单元格的坐标信息和字符的坐标,将字符匹配至表格中对应的单元格,以获得交易流水数据表,即交易流水数据表的文件格式为excel格式。
107.s134:将交易流水数据表压缩至预设文件大小,以获得满足预设格式要求的交易流水文件。
108.在获得交易流水数据表之后,将交易流水数据表压缩至预设文件大小,以获得满足预设格式要求的交易流水文件。
109.本实施例中,通过对交易流水文件进行表格图像识别,以获得交易流水文件中的电子表格,然后对交易流水文件进行文字识别,以获得交易流水文件中的字符和字符的坐标,再根据字符的坐标,将交易流水文件中的字符匹配至电子表格,以获得交易流水数据表,最后将交易流水数据表压缩至预设文件大小,以获得满足预设格式要求的交易流水文件,明确了对交易流水文件进行格式转换,以获得满足预设格式要求的交易流水文件的过程,可以快速、准确地将待处理交易流水文件转化为符合要求的文件,为后续对交易流水文件进行文件解析提供了基础。
110.在一实施例中,如图7所示,步骤s20中,即基于字段映射规则库对表头字段进行标准字段的映射匹配,以获得所有表头字段的匹配结果,具体包括如下步骤:
111.s21:确定交易流水文件所属的市场主体名称。
112.在获得交易流水文件之后,确定交易流水文件所属的市场主体名称。例如,交易流
水文件中存在某某银行的字段或者图标,表示该交易流水文件为某某银行的交易流水文件,则该交易流水文件所属的市场主体名称为某某银行。
113.s22:确定字段映射规则库中是否存在市场主体名称的标准表头模板。
114.在确定交易流水文件所属的市场主体名称之后,确定字段映射规则库中是否存在市场主体名称的标准表头模板。其中,标准表头模板包括多个标准字段。
115.例如,确定交易流水文件所属的市场主体名称为某某银行,则在字段映射规则库查找是否存储有该市场主体名称对应的标准表头模板。
116.s23:若字段映射规则库中存在市场主体名称的标准表头模板,则将标准表头模板作为所有表头字段的匹配结果。
117.在确定字段映射规则库中是否存在市场主体名称的标准表头模板之后,若字段映射规则库中存在市场主体名称的标准表头模板,表示字段映射规则库存储有该市场主体的标准表头模板,不需要进行逐个表头字段的映射匹配,则将标准表头模板作为所有表头字段的匹配结果。
118.例如,交易流水文件所属的市场主体为某某银行,在解析出交易流水文件所属的市场主体名称之后,查找字段映射规则库是否存在某某银行的准表头模板,若存在,则直接拉取该银行的准表头模板对应的多个标准字段,作为所有表头字段的匹配结果。
119.本实施例中,字段映射规则库中还可以按照市场主体名称进行标准表头模板存储,每个标准表头模板存储有多个与市场主体交易流水文件的表头字段对应的标准字段,在确定市场主体名称之后,若字段映射规则库中存储有该市场主体的标准表头模板,则直接将该标准表头模板对应的多个标准字段,作为所有表头字段的匹配结果;当用户在预览页面对表头字段对应的匹配结果进行调整之后,则对应调整字段映射规则库中的该标准表头模板,实现自动更新。
120.本实施例中,通过确定交易流水文件所属的市场主体名称,再确定字段映射规则库中是否存在市场主体名称的标准表头模板,标准表头模板包括多个标准字段,若字段映射规则库中存在市场主体名称的标准表头模板,则将标准表头模板作为所有表头字段的匹配结果,明确了在字段映射规则库对表头字段进行标准字段的映射匹配,以获得所有表头字段的匹配结果的具体过程,当存在标准表头模板时,直接拉取模板作为匹配结果,方便快捷,无需对表头字段进行一一匹配,提高了匹配效率。
121.在一实施例中,如图8所示,步骤s22之后,即确定字段映射规则库中是否存在市场主体名称的标准表头模板之后,该方法具体包括如下步骤:
122.s24:若字段映射规则库中不存在市场主体名称的标准表头模板,则确定字段映射规则库是否存在表头字段。
123.在确定字段映射规则库中是否存在市场主体名称的标准表头模板之后,若字段映射规则库中不存在市场主体名称的标准表头模板,表示字段映射规则库未存储有该市场主体的标准表头模板,需要进行逐个表头字段的映射匹配,则确定字段映射规则库是否存在表头字段。
124.s25:若字段映射规则库存在表头字段,则将表头字段对应的标准字段作为表头字段的匹配结果。
125.在确定字段映射规则库是否存在表头字段之后,若字段映射规则库存在表头字
段,则将表头字段对应的标准字段作为表头字段的匹配结果。
126.s26:若字段映射规则库不存在表头字段,则将表头字段的匹配结果记为0,以获得所有表头字段的匹配结果。
127.在确定字段映射规则库是否存在表头字段之后,若字段映射规则库不存在表头字段,则将表头字段的匹配结果记为0。
128.然后,重复执行上述步骤s24-步骤s26,遍历所有的表头字段,以获得所有表头字段的匹配结果。
129.本实施例中,确定字段映射规则库中是否存在市场主体名称的标准表头模板之后,若字段映射规则库中不存在市场主体名称的标准表头模板,则确定字段映射规则库是否存在表头字段;若字段映射规则库存在表头字段,则将表头字段对应的标准字段作为表头字段的匹配结果;若字段映射规则库不存在表头字段,则将表头字段的匹配结果记为0;遍历所有的表头字段,以获得所有表头字段的匹配结果,明确了确定字段映射规则库中是否存在市场主体名称的标准表头模板之后,进行标准字段的匹配过程,为获得所有表头字段的匹配结果提供了基础。
130.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
131.在一实施例中,提供一种标准文件生成装置,该标准文件生成装置与上述实施例中标准文件生成方法一一对应。如图9所示,该标准文件生成装置包括解析模块901、匹配模块902、展示模块903、调整模块904和更新模块905。各功能模块详细说明如下:
132.解析模块901,用于获取待处理的交易流水文件,并对交易流水文件进行解析,以获得交易流水文件中所有的表头字段;
133.匹配模块902,用于基于字段映射规则库对表头字段进行标准字段的映射匹配,以获得所有表头字段的匹配结果;
134.展示模块903,用于将所有表头字段的匹配结果进行页面展示,以使用户根据页面展示结果确定是否需要对表头字段的匹配结果进行调整;
135.调整模块904,用于若需要对表头字段的匹配结果进行调整,则根据用户的输入信息对所有表头字段的匹配结果进行调整,以获得调整结果,调整结果包括所有表头字段和表头字段对应的标准字段;
136.更新模块905,用于将交易流水文件中的表头字段替换为对应标准字段,以获得标准文件,并根据调整结果对字段映射规则库进行更新。
137.进一步地,调整模块904具体用于:
138.将所有表头字段的匹配结果进行页面展示,并提示用户浏览表头字段的匹配结果;
139.确定是否接收到用户对表头字段的匹配结果的调整指令;
140.若接收到用户对表头字段的匹配结果的调整指令,则确定需要对表头字段的匹配结果进行调整;
141.若未接收到用户对表头字段的匹配结果的调整指令,则确定不需要对表头字段的匹配结果进行调整。
142.进一步地,解析模块901具体用于:
143.确定交易流水文件是否满足预设格式要求;
144.若交易流水文件满足预设格式要求,则采用预设解析工具对交易流水文件进行解析,以解析获得交易流水文件中所有的表头字段;
145.若交易流水文件未满足预设格式要求,则对交易流水文件进行格式转换,以获得满足预设格式要求的交易流水文件;
146.采用预设解析工具对预设格式下的交易流水文件进行解析,以解析获得交易流水文件中所有的表头字段。
147.进一步地,解析模块901具体还用于:
148.确定交易流水文件的文件格式是否为目标文件格式;
149.若交易流水文件的文件格式为目标文件格式,则确定交易流水文件的大小是否大于预设文件大小;
150.若交易流水文件的大小小于或者等于预设文件大小,则确定交易流水文件满足预设格式要求。
151.进一步地,解析模块901具体还用于:
152.对交易流水文件进行表格图像识别,以获取交易流水文件中的电子表格信息;
153.对交易流水文件进行文字识别,以获得交易流水文件中的字符和字符的坐标;
154.根据字符的坐标,将交易流水文件中的字符匹配至电子表格中,以获得交易流水数据表;
155.将交易流水数据表压缩至预设文件大小,以获得满足预设格式要求的交易流水文件。
156.进一步地,匹配模块902具体用于:
157.确定交易流水文件所属的市场主体名称;
158.确定字段映射规则库中是否存在市场主体名称的标准表头模板,标准表头模板包括多个标准字段;
159.若字段映射规则库中存在市场主体名称的标准表头模板,则将标准表头模板作为所有表头字段的匹配结果。
160.进一步地,确定字段映射规则库中是否存在市场主体名称的标准表头模板之后,匹配模块902具体还用于:
161.若字段映射规则库中不存在市场主体名称的标准表头模板,则确定字段映射规则库是否存在表头字段;
162.若字段映射规则库存在表头字段,则将表头字段对应的标准字段作为表头字段的匹配结果;
163.若字段映射规则库不存在表头字段,则将表头字段的匹配结果记为0,以获得所有表头字段的匹配结果。
164.关于标准文件生成装置的具体限定可以参见上文中对于标准文件生成方法的限定,在此不再赘述。上述标准文件生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的
操作。
165.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储标准文件生成方法用到、生成的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标准文件生成方法。
166.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述标准文件生成方法的步骤。
167.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述标准文件生成方法的步骤。
168.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
169.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
170.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献