一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据校正方法、装置、电子设备及存储介质与流程

2023-01-02 15:21:49 来源:中国专利 TAG:


1.本发明涉及数据治理技术领域,尤其涉及一种数据校正方法、装置、电子设备及存储介质。


背景技术:

2.随着信息技术的发展,互联网、云服务、物联网等各种新兴信息技术与医疗行业进行融合,其中,大数据系统的应用更是为健康医疗行业带来了前所未有的技术突破。随着大数据技术的不断发展,数据治理在医疗行业中的地位也越来越重要。
3.医疗机构的信息建设规模庞大,系统众多且复杂,需多系统协同工作,在此过程中,接口对接、结构转换均难以避免,一些特殊字符的处理不当极易造成信息错位,从而导致与数据字段相对应的内容缺失相应的信息,因此,在数据治理过程中还需要采取一系列的数据校正方法,以达到预期的数据治理效果。
4.目前,现有的数据校正方法通常采用人工审核,需要工作人员手动筛选错误数据并进行校正,极易出现漏查和筛选错误的问题,并且,实用性、灵活性和规范性不高。


技术实现要素:

5.本发明提供了一种数据校正方法、装置、电子设备及存储介质,以实现错误数据的自动化校正,降低了数据治理过程中的人工参与率,提高了数据治理效率。
6.根据本发明的一方面,提供了一种数据校正方法,该方法包括:获取待校正数据;其中,所述待校正数据是基于预设数据格式模板整理后得到的;当检测到与所述待校正数据相对应的至少一个字段为目标特征字段时,则确定与各所述目标特征字段相对应的数据值是否为空值;若是,针对各所述目标特征字段,基于预设滑动窗口沿着目标滑动方向在所述待校正数据上进行滑动,并在检测到所述预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将所述数据片段写入至所述当前目标特征字段中;若否,针对各所述目标特征字段,当检测到与当前目标特征字段相对应的数据值不符合预设数据特征时,则基于预设数据校正规则对所述数据值进行数据校正,并基于校正后的数据值对所述当前目标特征字段的数据值进行更新。
7.根据本发明的另一方面,提供了一种数据校正装置,该装置包括:数据获取模块,用于获取待校正数据;其中,所述待校正数据是基于预设数据格式模板整理后得到的;数据值判断模块,用于当检测到与所述待校正数据相对应的至少一个字段为目标特征字段时,则确定与各所述目标特征字段相对应的数据值是否为空值;数据片段检测模块,用于若是,针对各所述目标特征字段,基于预设滑动窗口沿着目标滑动方向在所述待校正数据上进行滑动,并在检测到所述预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将所述数据片段写入至所述当前目
标特征字段中;数据值校正模块,用于若否,针对各所述目标特征字段,当检测到与当前目标特征字段相对应的数据值不符合预设数据特征时,则基于预设数据校正规则对所述数据值进行数据校正,并基于校正后的数据值对所述当前目标特征字段的数据值进行更新。
8.根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据校正方法。
9.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据校正方法。
10.本发明实施例的技术方案,通过获取待校正数据,然后,当检测到与待校正数据相对应的至少一个字段为目标特征字段时,则确定与各目标特征字段相对应的数据值是否为空值,进一步的,若是,针对各目标特征字段,基于预设滑动窗口沿着目标滑动方向在待校正数据上进行滑动,并在检测到预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将数据片段写入至当前目标特征字段中,若否,针对各目标特征字段,当检测到与当前目标特征字段相对应的数据值不符合预设数据特征时,则基于预设数据校正规则对数据值进行数据校正,并基于校正后的数据值对当前目标特征字段的数据值进行更新,解决了现有数据校正方法中所存在的漏查和筛选错误,以及,实用性、灵活性和规范性不高等问题,实现了错误数据的自动化校正,降低了数据治理过程中的人工参与率,提高了数据治理效率。
11.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
13.图1是根据本发明实施例一提供的一种数据校正方法的流程图;图2是根据本发明实施例一提供的一种数据校正方法的流程图;图3是根据本发明实施例二提供的一种数据校正方法的流程图;图4是根据本发明实施例三提供的一种数据校正装置的结构示意图;图5是实现本发明实施例的数据校正方法的电子设备的结构示意图。
具体实施方式
14.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的
附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
15.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
16.可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本发明所涉及个人信息的类型、使用范围以及使用场景等告知用户并获得用户的授权。
17.实施例一图1是本发明实施例一提供的一种数据校正方法的流程图,本实施例可适用于数据治理过程中所出现数据值错位以及数据值不符合预设数据特征的情况,该方法可以由数据校正装置来执行,该数据校正装置可以采用硬件和/或软件的形式实现,该数据校正装置可配置于终端和/或服务器中。如图1所示,该方法包括:s110、获取待校正数据。
18.其中,待校正数据是基于预设数据格式模板整理后得到的。
19.在本实施例中,在进行数据治理之前,可以获取大量的业务数据,在这些业务数据中可能会存在一些由于信息错位,而导致数据的任意字段缺失相应的信息的情况,可以将这些字段缺失信息的数据作为待校正数据,即待校正数据可以为需要进行数据校正的数据。预设数据格式模板可以是预先设置的,用于将不同系统中业务数据进行标准化整理的模板。需要说明的是,预设数据格式模板中每个字段的名称以及排列顺序可以是系统自动设定的,也可以是工作人员人为操作后确定的,同时,在应用过程中,每个字段的名称以及排列顺序可以是处于动态更新状态的。示例性的,预设数据格式模板中的字段可以包括:编号、姓名、性别、年龄、地址以及固定电话等。
20.在实际应用中,进行数据治理时,可以将不同系统的业务数据进行数据汇总,以基于汇总后的数据进行数据治理。由于各业务系统在存储业务数据时所采用的模板各不相同,若直接进行数据治理,可能会对数据治理效率产生影响,因此,在将各业务系统的业务数据进行汇总之后,还可以根据预设设置的统一模板对各业务数据进行标准化处理,从而可以基于处理的业务数据确定待校正数据。
21.需要说明的是,在使用本发明实施例的技术方案之前已依法告知用户所获取的信息以及用途等,并得到用户授权。
22.在上述各技术方案的基础上,还包括:获取与至少一个业务系统相对应的待治理数据,并确定各所述待治理数据的至少一个待治理字段;基于预设数据格式模板对各待治理字段进行标准化处理,并将处理后的各待治理数据整合,得到待校正数据。
23.在本实施例中,业务系统可以为用于存储目标区域内的全部业务数据的系统。示例性的,当业务数据为医疗领域的数据时,业务系统可以为医疗数据存储系统,相应的,目标区域可以为医疗机构、城市或者省份。在实际应用中,对于处于不同目标区域的业务系统,其数据存储格式也会随之不同,因此,在将各业务系统的数据汇总之后,可以将这些数据按照预先设置的同一格式进行整理,以便可以提高数据治理效率。待治理数据可以为各业务系统中存储的,需要进行数据治理的数据。待治理字段可以为待治理数据中所包含的,需要进行字段名称标准化的字段。示例性的,待治理字段可以为“姓名”,在不同的业务系统中,对于“姓名”字段的字段名称可以是不同的,例如,可以包括“xing ming”、“xm”、“名字”或“name”等。
24.需要说明的是,待治理字段可以基于预设数据格式模板进行确定,具体来说,可以将预设数据格式模板中所包含的字段与各待治理数据的字段进行比对,并将各待治理数据中与预设数据格式模板中的各字段匹配的字段作为待治理字段。
25.在具体实施中,可以将各业务系统中需要进行数据治理的待治理数据汇总起来,并确定各待治理数据中的至少一个待治理字段,同时,根据预先设置的预设数据格式模板,确定该模板中各字段的字段名称以及字段排列顺序,进一步的,根据预设数据格式模板中各字段的字段名称以及字段排列顺序,对各待治理数据中的各待治理字段进行标准化处理,以使各待治理数据中的各待治理字段的字段名称和字段排列顺序可以与预设数据格式模板中的一致,然后,将处理后的各待治理数据整合在一起,对整合后的数据进行检测,确定数据值存在错位情况,或缺失数据值的数据,并将这些数据确定为待校正数据。
26.s120、当检测到与待校正数据相对应的至少一个字段为目标特征字段时,则确定与各目标特征字段相对应的数据值是否为空值,若是,则执行s130,若否,则执行s140。
27.在本实施例中,目标特征字段可以为数据值具有一定数据特征的字段。需要说明的是,待校正数据中可以包括多个字段,在这些字段中,有些字段的数据值会存在与其相对应的数据特征,在实际应用过程中,可以基于数据特征确定数据值是否与其对应的字段相符,可以将这些数据值具有一定数据特征的字段作为目标特征字段。示例性的,数据特征可以包括编号a(数字)、编号b(数字 特殊符号)、编号c(数字 字母)、编号d(数字 字母 特殊符号)、条形码a(upc)、条形码b(code 3)、条形码c(code 128)、条形码d(codabar)、金额、日期、时间、日期 时间、地址、电子邮箱、icd-10、icd-9-cm-3、atc、整数值、符点值以及逻辑值等。
28.在实际应用中,在获取待校正数据之后,即可对待校正数据中所包含的各字段进行检测,将各字段中相应数据值存在一定数据特征的字段筛选出来,以确定待校正数据中的各目标特征字段,进一步的,可以对与各目标特征字段相对应的数据值进行检测,判断各数据值是否为空值,并基于判断结果,确定相应的数据校正措施。
29.可选的,检测到与待校正数据相对应的至少一个字段为目标特征字段,包括:确定预设数据格式模板中的至少一个特征字段;当接收到待校正数据时,将待校正数据中与各特征字段相匹配的字段作为目标特征字段。
30.在本实施例中,为了可以使终端设备基于数据值的数据特征自动实现数据校正过程,对于预设数据格式模板中的各字段,可以将具有一定数据特征的字段确定为特征字段,进一步的,当接收到待校正数据时,可以基于预先确定的各特征字段与待校正数据的各字
段进行匹配,并将待校正数据中与各特征字段相匹配的字段确定为目标特征字段。示例性的,对于“姓名”字段,由于其对应的数据值为2个或2个以上的汉字,在各字段中属于具有一定数据特征的字段,因此,可以将此字段作为特征字段;对于“年龄”字段,由于其对应的数据值可以为0-150的数字,在各字段中属于具有一定数据特征的字段,因此,可以将此字段作为特征字段。
31.进一步的,在确定待校正数据中所包含的各目标特征字段之后,即可对于各目标特征字段相对应的数据值进行检测,判断各数据值是否为空值,从而可以基于判断结果,确定具体的数据校正措施。
32.需要说明的是,对于待校正数据中不属于目标特征字段的字段,可以不对这些字段的数据值进行处理,直接保留其原始数据值。
33.s130、针对各目标特征字段,基于预设滑动窗口沿着目标滑动方向在待校正数据上进行滑动,并在检测到预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将数据片段写入至当前目标特征字段中。
34.在本实施例中,若与目标特征字段相对应的数据值为空值,即可通过预设滑动窗口对该目标特征字段进行数据校正。其中,预设滑动窗口可以为预先设置的,用于对候选数据值进行圈定的可滑动搜索区域。目标滑动方向可以为基于用户需求或系统需求设定的,预设滑动窗口的滑动方向。示例性的,目标滑动方向可以为从待校正数据的首个字段开始,滑动至待校正数据的最后一个字段。数据片段可以为预设滑动窗口中所包含的数据值划分之后的数据值片段。预设数据特征可以为预先设置的,用于对特征字段的数据值进行校验的特征准则。需要说明的是,预设数据特征可以与特征字段相匹配,可以确定特征字段的同时,确定与各特征字段相对应的数据特征,并将各特征字段与相应的数据特征对应存储在数据校正系统中的存储空间中,以便可以在对与各特征字段相对应的数据值进行校验时,可以随时调用。
35.在实际应用中,若检测到与各目标特征字段相对应的数据值为空值时,可以确定相应目标特征字段出现了数据值错位的情况,此时,为了可以在此目标特征字段的左右两侧搜寻到相应的数据值,可以构建预设滑动窗口,以使预设滑动窗口可以在待校正数据上进行滑动,从而可以对与目标特征字段相对应的数据值进行搜寻。
36.基于此,在基于预设滑动窗口沿着目标滑动方向在待校正数据上进行滑动之前,还包括:针对各目标特征字段,基于当前目标特征字段和预设校正半径,构建预设滑动窗口。
37.其中,预设校正半径可以为预先设置的,用于对预设滑动窗口的大小进行限定的半径。示例性的,预设校正半径可以两个字段所对应的距离。
38.在实际应用过程中,在确定与各目标特征字段相对应的数据值为空值后,针对各目标特征字段,可以以当前目标特征字段为中心,以预设校正半径为半径,构建与当前目标特征字段相对应的预设滑动窗口,以基于预设滑动窗口在滑动过程中所圈定的数据值,确定与当前目标特征字段相对应的数据值。示例性的,若预设校正半径可以两个字段所对应的距离,则预设滑动窗口可以为以当前目标特征字段为中心,以当前目标特征字段的左右两个字段为半径的矩形框。
39.进一步的,在构建预设滑动窗口之后,由于与当前目标特征字段相对应的数据值
可以在预设校正半径之外的其他字段上,因此,可以将预设滑动窗口在待校正数据基于目标滑动方向进行滑动,并在滑动的过程中,对预设滑动窗口中的数据值进行拆分,并确定拆分后的数据片段是否与当前目标特征字段相对应的预设数据特征,当检测到任一数据片段与当前目标特征字段所对应的预设数据特征相匹配时,即可将此数据片段写入至与当前目标特征字段相对应的数据值所在位置处。
40.可选的,在检测到预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将数据片段写入至所述当前目标特征字段中,包括:基于数据值拆分准则,对预设滑动窗口中的数据值进行拆分,得到至少一个数据片段;将各数据片段与当前目标特征字段所对应的预设数据特征进行匹配,并在检测到数据片段符合预设数据特征时,将数据片段写入至当前目标特征字段中。
41.其中,数据值拆分准则可以为基于自然语言处理(natural language processing,nlp)技术所设定的分词准则。
42.在具体实施中,在将预设滑动窗口基于目标滑动方向在待校正数据上滑动的过程中,由于预设滑动窗口中会包括多个字段的数据值,因此,在获取预设滑动窗口中的全部数据值后,可以根据数据值拆分准则,对预设滑动窗口中的数据值进行拆分,可以得到至少一个数据片段,进一步的,可以将各数据片段与当前目标特征字段所对应的预设数据特征进行匹配,当检测到数据片段符合预设数据特征时,即可将此数据片段写入与当前目标特征字段相对应的数据值所在位置处,从而可以实现待校正数据的数据校正。
43.s140、针对各目标特征字段,当检测到与当前目标特征字段相对应的数据值不符合预设数据特征时,则基于预设数据校正规则对数据值进行数据校正,并基于校正后的数据值对当前目标特征字段的数据值进行更新。
44.在本实施例中,若检测到与各目标特征字段相对应的数据值不为空值时,则可以确定此数据值是否符合预设数据特征,当检测到数据值不符合与相应目标特征字段相对应的预设数据特征时,即可基于预设数据校正规则对数据值进行校正。其中,预设数据校正规则可以为以预设数据特征为基础所设置的,用于对数据值进行校正的规则。在实际应用过程中,在将数据录入至业务系统中,或者是在执行数据标准化处理过程中,由于一些数据值所具有的特性使其非常容易发生字符转换的情况,可能会导致数据值不符合预设数据特征。示例性的,数字类型的数据值和英文字母类型的数据在手写或系统识别过程中,容易出现数字和英文字母混淆的情况,例如,数字“1”与英文字母“i”混淆、数字“2”与英文字母“z/z”混淆、数字“0”与英文字母“o/o”混淆等。
45.在具体实施中,当检测到与各目标特征字段相对应的数据值不为空值时,针对各目标特征字段,即可继续检测此数据值是否与当前目标特征字段所对应的预设数据特征相匹配,当检测到此数据值与相应的预设数据特征不匹配时,可以对数据值中每一个字符进行进一步检测,确定不符合预设数据特征的至少一个字符,然后,基于预设校正规则对这些字符进行校正,并基于校正后的数据值对当前目标特征字段的数据值进行更新,以实现待校正数据的数据校正。
46.需要说明的是,在基于预设校正规则对不符合预设数据特征的各字符进行校正时,由于会存在校正一次后,还是不符合预设数据特征的情况,因此,可以进行多次校正,并且在每次校正后均可以将校正后的数据值与预设数据特征进行匹配,从而可以将与预设数
据特征相匹配的数据值更新至相应的位置处。
47.基于此,在基于预设数据校正规则对数据值进行数据校正之后,还包括:将校正后的数据值与相应的预设数据特征进行匹配,当检测到校正后的数据值与预设数据特征不匹配时,则重复执行数据校正步骤,直至校正后的数据值与预设数据特征匹配成功。
48.在具体实施中,在基于预设校正规则对数据值进行校正后,可以将校正后的数据值与相应的预设数据特征进行匹配,确定校正后的数据值是否符合相应的预设数据特征,若不符合,还可以基于预设校正规则对数据值进行再次校正,并在校正之后再次与相应的预设数据特征进行匹配,确定此次校正后的数据值是否符合相应的预设数据特征,若检测到校正后的数据值与相应的预设数据特征相匹配时,此时,可以将此数据值更新至相应目标特征字段的数据值所在位置处,从而可以完成对待校正数据中数据值不符合预设数据特征的数据校正过程。
49.示例性的,可以结合图2,对本实施例所提供的数据校正方法的具体执行过程进行说明:1、获取待治理数据,并确定待治理数据中所包含的至少一个待治理字段;2、基于预设数据格式模板对各待治理字段进行标准化处理,并确定待校正数据;3、确定待校正数据中的各字段是否为目标特征字段,若是,则执行步骤4,若否,则执行步骤7;4、确定与各目标特征字段相对应的数据值是否为空值,若是,则执行步骤5,若否,则执行步骤6;5、对数据值进行数据校正;6、确定数据值是否符合相应的预设数据特征,若否,则执行步骤5,若否,则执行步骤7;7、将数据值写入对应的目标特征字段中。
50.本发明实施例的技术方案,通过获取待校正数据,然后,当检测到与待校正数据相对应的至少一个字段为目标特征字段时,则确定与各目标特征字段相对应的数据值是否为空值,进一步的,若是,针对各目标特征字段,基于预设滑动窗口沿着目标滑动方向在待校正数据上进行滑动,并在检测到预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将数据片段写入至当前目标特征字段中,若否,针对各目标特征字段,当检测到与当前目标特征字段相对应的数据值不符合预设数据特征时,则基于预设数据校正规则对数据值进行数据校正,并基于校正后的数据值对当前目标特征字段的数据值进行更新,解决了现有数据校正方法中所存在的漏查和筛选错误,以及,实用性、灵活性和规范性不高等问题,实现了错误数据的自动化校正,降低了数据治理过程中的人工参与率,提高了数据治理效率。
51.实施例二图3是本发明实施例二提供的一种数据校正方法的流程图,在前述实施例的基础上,还可以在基于预设滑动窗口确定与目标特征字段相对应的数据片段之后,确定数据片段与相应目标特征字段之间的偏移量,以基于偏移量对确定其他数据值的字段位置。其具体的实施方式可以参见本实施例技术方案。其中,与上述实施例相同或者相应的技术术语在此不再赘述。
52.如图3所示,该方法包括:s210、获取待校正数据。
53.s220、当检测到与待校正数据相对应的至少一个字段为目标特征字段时,则确定与各目标特征字段相对应的数据值是否为空值,若是,则执行s230-s270,若否,则执行s280。
54.s230、针对各目标特征字段,基于预设滑动窗口沿着目标滑动方向在待校正数据上进行滑动,并在检测到预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将数据片段写入至当前目标特征字段中。
55.s240、基于数据片段所对应的字段以及当前目标特征字段,确定目标偏移量和数据值偏移方向。
56.在本实施例中,目标偏移量可以为数据片段所对应的字段以及当前目标特征字段之间相差的字段所对应的距离。示例性的,若数据片段所对应的字段在待校正数据中的第二个字段,若当前目标特征字段在待校正数据中的第四个字段时,则目标偏移量为两个字段所对应的距离。数据值偏移方向可以为由数据片段移动至与当前目标特征字段相对应的数据值时的方向,即由数据片段指向与当前目标特征字段相对应的数据值所对应的方向。
57.在实际应用中,当在预设滑动窗口中确定与当前目标特征字段所对应的预设数据特征相匹配的数据片段时,可以确定此数据片段在当前时刻所对应的字段,进一步的,根据数据片段在当前时刻所对应的字段以及当前目标特征字段,确定两个字段之间的目标偏移量以及将数据片段移动至当前目标特征字段中的数据值偏移方向。
58.s250、根据数据值偏移方向,对待校正数据中的各字段进行遍历处理,当检测到第一目标字段与当前目标特征字段之间的偏移量不小于目标偏移量时,则将目标字段作为第一校正字段。
59.需要说明的是,对于各待校正数据,若其中一个字段出现数据值错位情况,与此字段相邻的其他字段也有可能出现相同的数据值错位情况,同时,对于除此字段之外的其他字段,可以是全部字段均出现数据值错位情况,也可以是部分字段出现数据值错位情况,因此,可以对待校正数据中的各字段进行遍历处理,以确定相应的数据值偏移范围。
60.在本实施例中,由于待校正数据中包含多个字段,当将任意字段下的数据值平移至所属待校正数据中的另一字段下时,相应的,会将之前在另一字段下的数据值移动至其他字段下,导致待校正数据中的其他字段也有可能发生一定的偏移,此时,则可以基于目标偏移量以及数据值偏移方向,确定发生位置偏移的数据值,从而可以确定数据值偏移范围。
61.在实际应用中,在确定数据值偏移方向后,可以以当前目标特征字段为起点,对待校正数据中与数据值偏移方向相一致的各字段进行遍历处理,当检测到第一目标字段与当前目标特征字段之间的偏移量不小于目标偏移量时,可以将第一目标字段作为第一校正字段。
62.s260、对背离数据值偏移方向的各字段进行遍历处理,当检测到第二目标字段所对应的当前数据值符合相应的预设数据特征时,则将第二目标字段作为第二校正字段。
63.需要说明的是,为了可以确定待校正数据中发生数据值偏移的字段,可以通过检测各字段中的数据值是否符合相应的预设数据特征来确定。
64.在实际应用中,在确定数据值偏移方向后,可以以当前目标特征字段为起点,对待校正数据中背离数据值偏移方向的各字段进行遍历处理,确定各字段所对应的数据值是否符合相应的预设数据特征,并在检测到第二目标字段所对应的当前数据值,即未进行数据校正之前的数据值,与相应的预设数据特征相匹配时,则可以将第二目标字段作为第二校正字段。
65.s270、基于第一校正字段和第二校正字段,构建目标偏移区域,以基于目标偏移区
域对待校正数据进行校正处理。
66.在本实施例中,目标偏移区域可以为待校正数据中各数据值需要进行位置偏移的范围,即目标偏移区域中的各数据值均需要进行数据校正。
67.在实际应用中,在确定第一校正字段和第二校正字段后,则可以以第一校正字段和第二校正字段为边界,构建相应的目标偏移区域,进一步的,基于目标偏移量和数据值偏移方向,对目标偏移区域中的数据值进行字段位置调整,以便可以完成对待校正数据的数据校正过程。
68.s280、针对各目标特征字段,当检测到与当前目标特征字段相对应的数据值不符合预设数据特征时,则基于预设数据校正规则对数据值进行数据校正,并基于校正后的数据值对当前目标特征字段的数据值进行更新。
69.本发明实施例的技术方案,通过获取待校正数据,然后,当检测到与待校正数据相对应的至少一个字段为目标特征字段时,则确定与各目标特征字段相对应的数据值是否为空值,若是,则针对各目标特征字段,基于预设滑动窗口沿着目标滑动方向在待校正数据上进行滑动,并在检测到预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将数据片段写入至当前目标特征字段中,进一步的,确定目标偏移量和数据值偏移方向,并基于目标偏移量和数据值偏移方向构建目标偏移区域,以基于目标偏移区域对待校正数据进行校正处理,若否,则针对各目标特征字段,当检测到与当前目标特征字段相对应的数据值不符合预设数据特征时,则基于预设数据校正规则对数据值进行数据校正,并基于校正后的数据值对当前目标特征字段的数据值进行更新,解决了现有数据校正方法中所存在的漏查和筛选错误,以及,实用性、灵活性和规范性不高等问题,实现了错误数据的自动化校正,降低了数据治理过程中的人工参与率,提高了数据治理效率。
70.实施例三图4是本发明实施例三提供的一种数据校正装置的结构示意图。如图4所示,该装置包括:数据获取模块310、数据值判断模块320、数据片段检测模块330以及数据值校正模块340。
71.其中,数据获取模块310,用于获取待校正数据;其中,所述待校正数据是基于预设数据格式模板整理后得到的;数据值判断模块320,用于当检测到与所述待校正数据相对应的至少一个字段为目标特征字段时,则确定与各所述目标特征字段相对应的数据值是否为空值;数据片段检测模块330,用于若是,针对各所述目标特征字段,基于预设滑动窗口沿着目标滑动方向在所述待校正数据上进行滑动,并在检测到所述预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将所述数据片段写入至所述当前目标特征字段中;数据值校正模块340,用于若否,针对各所述目标特征字段,当检测到与当前目标特征字段相对应的数据值不符合预设数据特征时,则基于预设数据校正规则对所述数据值进行数据校正,并基于校正后的数据值对所述当前目标特征字段的数据值进行更新。
72.本发明实施例的技术方案,通过获取待校正数据,然后,当检测到与待校正数据相对应的至少一个字段为目标特征字段时,则确定与各目标特征字段相对应的数据值是否为空值,进一步的,若是,针对各目标特征字段,基于预设滑动窗口沿着目标滑动方向在待校
正数据上进行滑动,并在检测到预设滑动窗口中的数据片段与当前目标特征字段所对应的预设数据特征相匹配时,将数据片段写入至当前目标特征字段中,若否,针对各目标特征字段,当检测到与当前目标特征字段相对应的数据值不符合预设数据特征时,则基于预设数据校正规则对数据值进行数据校正,并基于校正后的数据值对当前目标特征字段的数据值进行更新,解决了现有数据校正方法中所存在的漏查和筛选错误,以及,实用性、灵活性和规范性不高等问题,实现了错误数据的自动化校正,降低了数据治理过程中的人工参与率,提高了数据治理效率。
73.可选的,所述装置还包括:待治理数据获取模块和字段标准化处理模块。
74.待治理数据获取模块,用于获取与至少一个业务系统相对应的待治理数据,并确定各所述待治理数据的至少一个待治理字段;字段标准化处理模块,用于基于预设数据格式模板对各所述待治理字段进行标准化处理,并将处理后的各所述待治理数据整合,得到待校正数据。
75.可选的,数据值判断模块320包括:特征字段确定单元和目标特征字段确定单元。
76.特征字段确定单元,用于确定所述预设数据格式模板中的至少一个特征字段;目标特征字段确定单元,用于当接收到所述待校正数据时,将所述待校正数据中与各所述特征字段相匹配的字段作为所述目标特征字段。
77.可选的,所述装置还包括:预设滑动窗口构建模块。
78.预设滑动窗口构建模块,用于在所述基于预设滑动窗口沿着目标方向在所述待校正数据上进行滑动之前,针对各所述目标特征字段,基于当前目标特征字段和预设校正半径,构建预设滑动窗口。
79.可选的,数据片段检测模块330包括:数据值拆分单元和数据片段检测单元。
80.数据值拆分单元,用于基于数据值拆分准则,对所述预设滑动窗口中的数据值进行拆分,得到至少一个数据片段;数据片段检测单元,用于将各所述数据片段与所述当前目标特征字段所对应的预设数据特征进行匹配,并在检测到所述数据片段符合预设数据特征时,将所述数据片段写入至所述当前目标特征字段中。
81.可选的,所述装置还包括:目标偏移量确定模块、第一校正字段确定模块、第二校正字段确定模块以及目标偏移区域构建模块。
82.目标偏移量确定模块,用于基于所述数据片段所对应的字段以及所述当前目标特征字段,确定目标偏移量和数据值偏移方向;第一校正字段确定模块,用于根据所述数据值偏移方向,对所述待校正数据中的各字段进行遍历处理,当检测到目标字段与所述当前目标特征字段之间的偏移量不小于目标偏移量时,则将所述目标字段作为第一校正字段;第二校正字段确定模块,用于对背离所述数据值偏移方向的各字段进行遍历处理,当检测到目标字段所对应的当前数据值符合相应的预设数据特征时,则将所述目标字段作为第二校正字段;目标偏移区域构建模块,用于基于所述第一校正字段和所述第二校正字段,构建目标偏移区域,以基于所述目标偏移区域对所述待校正数据进行校正处理。
83.可选的,所述装置还包括:数据值匹配模块。
84.数据值匹配模块,用于在所述基于预设数据校正规则对所述数据值进行数据校正之后,将校正后的数据值与相应的预设数据特征进行匹配,当检测到校正后的数据值与所述预设数据特征不匹配时,则重复执行数据校正步骤,直至校正后的数据值与所述预设数据特征匹配成功。
85.本发明实施例所提供的数据校正装置可执行本发明任意实施例所提供的数据校正方法,具备执行方法相应的功能模块和有益效果。
86.实施例四图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
87.如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
88.电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
89.处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据校正方法。
90.在一些实施例中,数据校正方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的数据校正方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据校正方法。
91.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器
可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
92.用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
93.在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
94.为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
95.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
96.计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
97.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
98.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明
的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献