一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据脱敏方法和装置与流程

2021-12-07 21:17:00 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种数据脱敏方法和装置。


背景技术:

2.数据脱敏,是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
3.在现有技术中,主要存在以下两种数据脱敏方法:一、基于汉字内码的加密算法与数字加拢变换映射加密算法的数据脱敏;二、基于des/rc2加密算法或单向散列值加密算法的数据脱敏方法。
4.在实现本发明的过程中,本发明的发明人发现现有数据脱敏方法至少存在以下缺陷:第一、现有两种数据脱敏方法都依赖于密钥,一旦密钥泄漏,会导致脱敏数据被还原;第二、现有两种数据脱敏方法的计算量都很大,性能较差;第三、现有两种数据脱敏方法是对整个返回数据进行加密,不能实现局部脱敏,对于一些返回数据为非结构化的数据而言,如果进行全区域数据脱敏,必然会破坏数据结构,导致脱敏后的数据不能使用。


技术实现要素:

5.有鉴于此,本发明提供一种数据脱敏方法和装置,无需依赖密钥,提高了脱敏处理的安全性,能够减小脱敏处理的计算量,提高系统性能,支持局部脱敏。
6.为实现上述目的,根据本发明的一个方面,提供了一种数据脱敏方法。
7.本发明的数据脱敏方法包括:获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项;在所述待处理数据中存在需脱敏的数据项的情况下,根据所述需脱敏的数据项的原始赋值字符查询映射表,以得到与之对应的脱敏后的字符;其中,所述映射表包括原始赋值字符与脱敏后的字符之间的映射关系;将所述待处理数据中需脱敏的数据项的原始赋值字符替换为脱敏后的字符,以得到脱敏后的数据。
8.可选地,所述获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项包括:在接收到数据获取请求后,将所述数据获取请求发送至目标服务器,以从所述目标服务器获取对应的响应数据,并将所述响应数据作为待处理数据;根据所述数据获取请求的标识查询脱敏元数据配置信息;若获取到与所述访问请求的标识对应的需脱敏的数据项描述信息,确认所述待处理数据中存在需脱敏的数据项;若获取不到与所述访问请求的标识对应的需脱敏的数据项描述信息,确认所述待处理数据中不存在需脱敏的数据项。
9.可选地,所述方法还包括:在所述根据所述需要脱敏的数据项的原始赋值字符查询映射表之前,根据所述需脱敏的数据项描述信息从所述待处理数据中获取需脱敏的数据项的原始赋值字符。
10.可选地,根据如下方式生成或更新所述映射表:从样本数据中提取需脱敏的数据项的原始赋值字符;按照预设的排序指标对所述原始赋值字符分别进行升序排序和降序排
序,以得到第一字符序列和第二字符序列;将所述第一字符序列中的字符与所述第二字符序列中位于同一排序位置的字符进行一一映射,并将得到的映射关系作为原始赋值字符与脱敏后的字符之间的映射关系;根据所述原始赋值字符与脱敏后的字符之间的映射关系生成或更新所述映射表。
11.可选地,所述预设的排序指标包括:原始赋值字符的出现次数;所述按照预设的排序指标对所述原始赋值字符分别进行升序排序和降序排序,以得到第一字符序列和第二字符序列包括:对提取出的原始赋值字符的出现次数进行统计;将原始赋值字符存储至数据容器中,并通过所述数据容器对原始赋值字符按照出现次数进行升序排序;其中,所述数据容器包括以出现次数为键、以原始赋值字符为值的键值对;将所述数据容器中的键值对的值进行正向输出,以得到第一字符序列;将所述数据容器中的键值对的值进行反向输出,以得到第二字符序列。
12.可选地,所述对提取出的原始赋值字符的出现次数进行统计包括:按照字符类型将提取出的原始赋值字符划分为多个类别;对同一类别下的每个原始赋值字符,计算该原始赋值字符在样本数据中的出现次数,并获取该原始赋值字符的历史累计出现次数;若获取到该原始赋值字符的历史累计出现次数,则将该原始赋值字符在样本数据中的出现次数与历史累计出现次数之和作为所述原始赋值字符的出现次数;若获取不到该原始赋值字符的历史累计出现次数,则将该原始赋值字符在样本数据中的出现次数作为所述原始赋值字符的出现次数。
13.可选地,所述方法还包括:在所述根据所述原始赋值字符与脱敏后的字符之间的映射关系生成映射表之后,将所述映射表存储于内存数据库中;以及,在所述根据所述需脱敏的数据项的原始赋值字符查询映射表之前,将所述内存数据库中的映射表加载至内存中。
14.为实现上述目的,根据本发明的另一个方面,提供了一种数据脱敏装置。
15.本发明的数据脱敏装置包括:获取与判断模块,用于获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项;查询模块,用于在所述待处理数据中存在需脱敏的数据项的情况下,根据所述需脱敏的数据项的原始赋值字符查询映射表,以得到与之对应的脱敏后的字符;其中,所述映射表包括原始赋值字符与脱敏后的字符之间的映射关系;脱敏模块,将所述待处理数据中需脱敏的数据项的原始赋值字符替换为脱敏后的字符,以得到脱敏后的数据。
16.为实现上述目的,根据本发明的再一个方面,提供了一种电子设备。
17.本发明的电子设备,包括:一个或多个处理器;以及,存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的数据脱敏方法。
18.为实现上述目的,根据本发明的又一个方面,提供了一种计算机可读介质。
19.本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明的数据脱敏方法。
20.上述发明中的一个实施例具有如下优点或有益效果:通过预先构建包括原始赋值字符与脱敏后的字符之间的映射关系的映射表,并通过获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项,在所述待处理数据中存在需脱敏的数据项的情况下,
根据所述需脱敏的数据项的原始赋值字符查询映射表以得到与之对应的脱敏后的字符,将所述待处理数据中需脱敏的数据项的原始赋值字符替换为脱敏后的字符,以得到脱敏后的数据这些处理步骤,使得数据脱敏无需依赖密钥,提高了脱敏处理的安全性,另外能够减小脱敏处理的计算量,提高系统性能,支持局部脱敏。
21.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
22.附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
23.图1是根据本发明第一实施例的数据脱敏方法的主要流程示意图;
24.图2是根据本发明第二实施例的数据脱敏方法的主要流程示意图;
25.图3是根据本发明第三实施例的生成或更新映射表的主要流程示意图;
26.图4是根据本发明第四实施例的数据脱敏装置的主要模块示意图;
27.图5是本发明实施例可以应用于其中的示例性系统架构图;
28.图6是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
29.以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
30.需要指出的是,在不影响本发明实施的情况下,本发明中的各个实施例以及实施例中的技术特征可以相互组合。
31.图1是根据本发明第一实施例的数据脱敏方法的主要流程示意图。如图1所示,本发明实施例的数据脱敏方法包括:
32.步骤s101:获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项。
33.在一个可选实施方式中,步骤s101包括:在接收到数据获取请求后,将所述数据获取请求发送至目标服务器,以从所述目标服务器获取对应的响应数据,并将所述响应数据作为待处理数据,然后判断所述待处理数据中是否存在需脱敏的数据项。例如,在涉及用户终端、反向代理服务器、以及目标服务器的应用场景下,反向代理服务器在接收到用户终端的数据获取请求后,可将所述数据获取请求发送至目标服务器,并接收目标服务器返回的响应数据。
34.进一步,在上述可选实施方式中,可根据如下方式判断所述待处理数据中是否存在需脱敏的数据项:根据所述数据获取请求的标识查询脱敏元数据配置信息;若从所述脱敏元数据配置信息中获取到与所述访问请求的标识对应的需脱敏的数据项描述信息,确认所述待处理数据中存在需脱敏的数据项;若获取不到与所述访问请求的标识对应的需脱敏的数据项描述信息,确认所述待处理数据中不存在需脱敏的数据项。
35.其中,所述脱敏元数据配置信息包括:预先配置的数据获取请求标识、以及预先配置的需脱敏的数据项描述信息。进一步,所述预先配置的数据获取请求的标识可以为该请
求的url(统一资源定位符,又称网络地址)、url中的路径标识符、或者该请求的其他标识,所述预先配置的需脱敏的数据项描述信息可以为需脱敏的数据项的路径信息、或者需脱敏的数据项的其他标识。具体实施时,根据应用场景的不同,所述需脱敏的数据项的路径信息可以有不同的形式。例如,在对json(json,是一种轻量级的数据交换格式)格式数据进行脱敏时,所述需脱敏的数据项的路径信息可采用jsonpath表达式(jsonpath表达式,用于描述json格式的数据所在路径的表达式);在对xml(xml,中文名为可扩展标记语言,是一种通用的数据交换格式)格式数据或html(html,中文名为超文本标记语言)格式数据进行脱敏时,所述需脱敏的数据项的路径信息可采用xpath表达式(xpath表达式,用于描述xml或html格式数据所在路径的表达式)。
36.在另一个可选实施方式中,步骤s101包括:根据预先设置的数据获取任务获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项。进一步,在上述可选实施方式中,可根据如下方式判断所述待处理数据中是否存在需脱敏的数据项:将待处理数据中的数据项与脱敏元数据配置信息中配置的需脱敏的数据项进行比对;若所述待处理数据中至少有一个数据项存在于所述脱敏元数据配置信息中,则确认所述待处理数据中存在需脱敏的数据项;否则,确认所述待处理数据中不存在需脱敏的数据项。例如,假设待处理数据中有“订单号”、“联系人”、“联系人电话”、“详细地址”这四个数据项,脱敏元数据配置信息中配置了“联系人”、“联系人电话”、“详细地址”这三个需脱敏的数据项,经过比对可确认该待处理数据中存在需脱敏的数据项。
37.步骤s102:在所述待处理数据中存在需脱敏的数据项的情况下,根据所述需脱敏的数据项的原始赋值字符查询映射表,以得到与之对应的脱敏后的字符。
38.其中,所述数据项的原始赋值字符,可理解为该数据项取值的组成元素。例如,假设待处理数据中包括“联系人”这个数据项,且其取值为“张三”,则该数据项的原始赋值字符为“张”、“三”;假设待处理处理中包括“联系人电话”这个数据项,且其取值为“130xxxx0000”,则该数据项的原始赋值字符为“1”、“3”、“0”、“x”、“x”、“x”、“x”、“0”、“0”、“0”、“0”。
39.其中,所述映射表包括:原始赋值字符(即脱敏前的字符)与脱敏后的字符之间的映射关系。在该步骤中,可根据需脱敏的数据项的原始赋值字符查询映射表中的所述映射关系,以得到与之对应的脱敏后的字符。例如,假设映射表中存在以下映射关系:“张-备”、“三-高”、根据需要脱敏的数据项“联系人”取值中的原始赋值字符“张”和“三”查询映射表,得到与之对应的脱敏后的字符为“备”和“高”。
40.步骤s103:将所述待处理数据中需脱敏的数据项的原始赋值字符替换为脱敏后的字符,以得到脱敏后的数据。
41.示例性地,假设待处理数据中需脱敏的数据项“联系人”的取值为“张三”,通过查询映射表确定与“张”、“三”对应的脱敏后的字符为“备”、“高”,则将“张三”替换为“备高”。按照上述方式对所述待处理数据中其他需脱敏的数据项也进行脱敏处理,而对不需脱敏的数据项不进行脱敏处理,进而可得到脱敏后的数据。
42.在本发明实施例中,通过预先构建包括原始赋值字符与脱敏后的字符之间的映射关系的映射表,并通过获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项,在所述待处理数据中存在需脱敏的数据项的情况下,根据所述需脱敏的数据项的原始
赋值字符查询映射表以得到与之对应的脱敏后的字符,将所述待处理数据中需脱敏的数据项的原始赋值字符替换为脱敏后的字符,以得到脱敏后的数据这些处理步骤,使得数据脱敏无需依赖密钥,提高了脱敏处理的安全性,另外能够减小脱敏处理的计算量,提高系统性能;另外,通过以上步骤能够实现局部脱敏,避免对全部数据进行脱敏所导致的格式错乱问题,同时也提高了数据脱敏的执行效率,扩展了数据脱敏的适用场景。
43.图2是根据本发明第二实施例的数据脱敏方法的主要流程示意图。如图2所示,本发明实施例的数据脱敏方法包括:
44.步骤s201:在接收到数据获取请求后,将所述数据获取请求发送至目标服务器,以从所述目标服务器获取对应的响应数据,并将所述响应数据作为待处理数据。
45.示例性地,在涉及用户终端、反向代理服务器、以及目标服务器的应用场景下,反向代理服务器在接收到用户终端的数据获取请求后,可将所述数据获取请求发送至目标服务器,并接收目标服务器返回的响应数据。进一步,在反向代理服务器将所述数据获取请求发送至目标服务器之前,还可对数据获取请求进行域名转换处理。比如,假设用户终端发出的数据获取请求为http://域名1/api/distribution/address/list,反向代理服务器可根据预先设置的域名映射关系将该数据获取请求转换为http://域名2/api/distribution/address/list。
46.需要指出的是,除了以上涉及用户终端、反向代理服务器、以及目标服务器的应用场景之外,本发明实施例的方法还可适用于其他应用场景,比如由多个服务器构成的应用场景。
47.步骤s202:根据所述数据获取请求的标识查询脱敏元数据配置信息。
48.其中,所述脱敏元数据配置信息包括:预先配置的数据获取请求标识、以及预先配置的需脱敏的数据项描述信息。进一步,所述预先配置的数据获取请求的标识可以为该请求的url(统一资源定位符,又称网络地址)、url中的路径标识符、或者该请求的其他标识,所述预先配置的需脱敏的数据项描述信息可以为需脱敏的数据项的路径信息、或者需脱敏的数据项的其他标识。具体实施时,根据应用场景的不同,所述需脱敏的数据项的路径信息可以有不同的形式。例如,在对json格式数据进行脱敏时,所述需脱敏的数据项的路径信息可采用jsonpath表达式;在对xml格式数据或html格式数据进行脱敏时,所述需脱敏的数据项的路径信息可采用xpath表达式。
49.在一个可选示例中,所述脱敏元数据配置信息包括:url中的路径标识符、对应的需脱敏的数据项的路径信息。在该可选示例中,可根据当前接收到的数据获取请求的url中的路径标识符查询脱敏元数据配置信息,若获取到与该url中的路径标识符对应的需脱敏的数据项的路径信息,则确认所述待处理数据中存在需脱敏的数据项,进而执行步骤s203;若未获取到与该url中的路径标识符对应的需脱敏的数据项的路径信息,则确认所述待处理数据中不存在需脱敏的数据项,进而执行步骤s206。
50.步骤s203:根据所述需脱敏的数据项描述信息从所述待处理数据中获取需脱敏的数据项的原始赋值字符。
51.在一个可选示例中,所述需脱敏的数据项描述信息为需脱敏的数据项的路径信息。在该可选示例中,可根据所述需脱敏的数据项的路径信息从待处理数据中提取出这些数据项的原始赋值字符。例如,假设当前接收到的数据获取请求的url路径标识符为

http://线上域名/api/distribution/address/list”,若根据该url路径标识符查询脱敏元数据配置信息获取到与该url路径标识符对应的需脱敏的数据项的路径信息具体为数据项1的路径信息、数据项2的路径信息、以及数据项3的路径信息,则可据此从待处理数据中获取数据项1中的原始赋值字符、数据项2的原始赋值字符、数据项3的原始赋值字符。
52.其中,所述数据项的原始赋值字符,可理解为该数据项取值的组成元素。例如,假设待处理数据中包括“联系人”这个数据项,且其取值为“张三”,则该数据项的原始赋值字符为“张”、“三”;假设待处理处理中包括“联系人电话”这个数据项,且其取值为“130xxxx0000”,则该数据项的原始赋值字符为“1”、“3”、“0”、“x”、“x”、“x”、“x”、“0”、“0”、“0”、“0”。
53.步骤s204:根据所述需脱敏的数据项的原始赋值字符查询映射表,以得到与之对应的脱敏后的字符。
54.其中,所述映射表包括:原始赋值字符(即脱敏前的字符)与脱敏后的字符之间的映射关系。在该步骤中,可根据需脱敏的数据项的原始赋值字符查询映射表中的所述映射关系,以得到与之对应的脱敏后的字符。例如,假设映射表中存在以下映射关系:“张-备”、“三-高”、根据需要脱敏的数据项“联系人”取值中的原始赋值字符“张”和“三”查询映射表,得到与之对应的脱敏后的字符为“备”和“高”。
55.具体实施时,可预先构建包括原始赋值字符与脱敏后的字符之间的映射关系的映射表,并将其存储至内存数据库中。其中,所述内存数据库可以为redis、或者其他内存数据库。这样一来,在执行本发明实施例的方法时,可将所述映射表快速加载至内存中,以便提高数据脱敏的执行效率。另外,为了提高数据脱敏的安全性,还可定时对所述映射表进行更新。
56.步骤s205:将所述待处理数据中需脱敏的数据项的原始赋值字符替换为脱敏后的字符,以得到脱敏后的数据。
57.示例性地,假设待处理数据中需脱敏的数据项“联系人”的取值为“张三”,通过查询映射表确定与“张”、“三”对应的脱敏后的字符为“备”、“高”,则将“张三”替换为“备高”。按照上述方式对所述待处理数据中其他需脱敏的数据项也进行脱敏处理,而对不需脱敏的数据项不进行脱敏处理,进而可得到脱敏后的数据。
58.步骤s206:不对所述待处理数据进行脱敏处理。
59.在本发明实施例中,通过以上处理步骤使得数据脱敏无需依赖密钥,提高了脱敏处理的安全性,另外能够减小脱敏处理的计算量,提高系统性能;另外,通过以上步骤能够实现局部脱敏,避免对全部数据进行脱敏所导致的格式错乱问题,同时也提高了数据脱敏的执行效率,扩展了数据脱敏的适用场景。
60.图3是根据本发明第三实施例的生成或更新映射表的主要流程示意图。如图3所示,本发明实施例的生成或更新映射表的流程包括:
61.步骤s301:从样本数据中提取需脱敏的数据项的原始赋值字符。
62.示例性地,所述样本数据可以为过去一段时间内用户获取过的数据。比如,在针对物流数据进行脱敏处理的场景下,可将最近一个月内用户查询过的物流数据作为样本数据。
63.在步骤s301中,可根据预先配置的脱敏元数据配置信息从样本数据中提取需脱敏
的数据项的原始赋值。其中,所述脱敏元数据配置信息包括预先配置的各个需脱敏的数据项的描述信息。示例性地,所述需脱敏的数据项的描述信息可以为需脱敏的数据项的路径信息。所述需脱敏的数据项的路径信息用于描述数据项所在位置。具体实施时,根据应用场景的不同,所述需脱敏的数据项的路径信息可以有不同的形式。例如,在对json格式数据进行脱敏时,所述需脱敏的数据项的路径信息可采用jsonpath表达式;在对xml格式数据或html格式数据进行脱敏时,所述需脱敏的数据项的路径信息可采用xpath表达式。
64.步骤s302:按照预设的排序指标对所述原始赋值字符分别进行升序排序和降序排序,以得到第一字符序列和第二字符序列。
65.在一个可选示例中,所述排序指标包括原始赋值字符的出现次数。在该可选示例中,可对各个原始赋值字符的出现次数进行统计;然后按照出现次数由少到多的顺序对从样本数据中提取的原始赋值字符进行升序排序,以得到第一字符序列;以及,按照出现次数由多到少的顺序对从样本数据中提取的原始赋值字符进行降序排序,以得到第二字符序列。
66.在上述可选示例中,所述对提取出的原始赋值字符的出现次数进行统计可具体包括:按照字符类型将提取出的原始赋值字符划分为多个类别;对同一类别下的每个原始赋值字符,计算该原始赋值字符在样本数据中的出现次数,并获取该原始赋值字符的历史累计出现次数;若获取到该原始赋值字符的历史累计出现次数,则将将该原始赋值字符在样本数据中的出现次数与历史累计出现次数之和作为所述原始赋值字符的出现次数;若获取不到该原始赋值字符的历史累计出现次数,则将该原始赋值字符在样本数据中的出现次数作为所述原始赋值字符的出现次数。
67.例如,可设置英文数字、英文字母、中文字符这三个字符类型,并针对每个字符类型设置一个数据容器,该数据容器用于存储以出现次数为键、以原始赋值字符为值的键值对;对于从样本数据中提取出的各个原始赋值字符,逐个判断其字符类型,并将其放入相应的数据容器中。比如,当数据容器采用map容器时,如果原始赋值字符为英文数字,则将其放入英文数字的map容器中,并对该字符的出现次数进行加1操作;如果原始赋值字符为英文字母,则将其放入英文字母的map容器中,并对该字符的出现次数进行加1操作;如果原始赋值字符为中文字符,则将其放入中文字符的map容器中,并对该字符的出现次数进行加1操作,直至对从样本数据中提取出的各个原始赋值字符都完成分类汇总为止。接下来,获取各个原始赋值字符的历史累计出现次数;若获取到该原始赋值字符的历史累计出现次数n0,则对map容器中该字符的出现次数加n0,并将其作为所述原始赋值字符的出现次数;若获取不到该原始赋值字符的历史累计出现次数,则直接将该原始赋值字符在样本数据中的出现次数作为所述原始赋值字符的出现次数。
68.在本发明实施例中,通过在统计原始字符的出现频率时,不仅考虑基于当前所采用的样本数据的分类汇总结果,而且考虑历史周期中的分类汇总结果,例如,当前月份会考虑之前月份的汇总结果,使得原始字符的总出现次数会发生变化,据此构建的映射表会不断进行更新,有助于提高后续数据脱敏的安全性。
69.进一步,在上述可选示例中,为了提高排序处理效率,可采用数据容器进行排序,比如,可采用multimap容器进行排序。multimap是一种特殊的map,是一种允许key重复的map数据结构。具体来说,在对提取出的原始赋值字符的出现次数进行统计之后,可将原始
赋值字符存储至multimap容器中,并通过所述multimap容器对原始赋值字符按照出现次数进行升序排序;其中,所述multimap容器包括以出现次数为键、以原始赋值字符为值的键值对;将所述multimap容器中的键值对的值进行正向输出,以得到第一字符序列;将所述multimap容器中的键值对的值进行反向输出,以得到第二字符序列。此外,在具体实施时,除了采用multimap容器进行排序之外,还可采用其他数据结构存储原始赋值字符,并结合自定义的排序算法或者第三方排序算法对原始赋值字符进行升序排序和降序排序。
70.在另一个可选示例中,所述排序指标包括原始赋值字符的出现频率。在该可选示例中,可对各个原始赋值字符的出现频率进行统计;然后按照出现频率由低到高的顺序对从样本数据中提取的原始赋值字符进行升序排序,以得到第一字符序列;以及,按照出现频率由高到低的顺序对从样本数据中提取的原始赋值字符进行降序排序,以得到第二字符序列。此外,在具体实施时,除了考虑将出现次数或出现频率作为排序指标之外,还可以考虑将其他指标作为排序指标。比如,将原始赋值字符的出现次数和该字符到需脱敏的数据项取值的首、尾字符的距离之和作为排序指标。例如,假设需脱敏的数据项的取值为“abcd”,原始赋值字符c相对首字符a的距离为d1,相对尾字符d的距离为d2,则将原始赋值字符的出现次数与d1和d2的和作为排序指标值。
71.步骤s303:将所述第一字符序列中的字符与所述第二字符序列中位于同一排序位置的字符进行一一映射,并将得到的映射关系作为原始赋值字符与脱敏后的字符之间的映射关系。
72.示例性地,可将第一字符序列中的第i(i=1,2,

,n,n为第一字符序列中字符的总个数)个字符为键,将第二字符序列中的第i个字符作为值,进而可得到n个键值对。比如,当i=1时,将第一字符序列中的第一个字符作为键,以第二字符序列中的第一个字符作为值,形成第一个键值对;当i=2时,将第二字符序列中的第二个字符为键,以第二字符序列中的第二个字符作为值,形成第二个键值对。通过上述处理得到的n个键值对即为原始赋值字符与脱敏后的字符之间的映射关系的具体表示。
73.步骤s304:根据所述原始赋值字符与脱敏后的字符之间的映射关系生成或更新映射表。
74.在首次生成映射表时,可将通过步骤s304得到的原始赋值字符与脱敏后的字符之间的映射关系作为映射表的具体内容,并保存至内存数据库中。在对映射表进行更新时,可根据步骤s304得到的原始赋值字符与脱敏后的字符之间的映射关系对内存数据库中已有的映射表进行更新。
75.在本发明实施例中,通过预先配置需脱敏的数据项描述信息,便于后续在进行数据脱敏时支持局部脱敏,避免了对全部数据进行脱敏所导致的格式错乱问题,同时也提高了数据脱敏的执行效率,扩展了数据脱敏的适用场景;通过利用multimap对原始赋值字符进行排序,提高了生成或更新映射表时的字符映射转换的效率,也降低了实现难度;通过在生成或更新映射表时,采用全局历史数据统计原始赋值字符的出现频率或出现次数,由于样本空间会周期性变化,导致原始赋值字符的出现频率或出现次数也会发生变化,而每次待脱敏处理的数据通常是总样本空间中的很少一部分,因此外界无法通过局部的频率分布数据逆向得到全局的频率分布,来达到逆向数据还原的目的,进而提高了数据脱敏的安全性。
76.图4是根据本发明第四实施例的数据脱敏装置的主要模块示意图。如图4所示,本发明实施例的数据脱敏装置400包括:获取与判断模块401、查询模块402、脱敏模块403。
77.获取与判断模块401,用于获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项。
78.在一个可选实施方式中,获取与判断模块401获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项包括:在接收到数据获取请求后,将所述数据获取请求发送至目标服务器,以从所述目标服务器获取对应的响应数据,并将所述响应数据作为待处理数据,然后判断所述待处理数据中是否存在需脱敏的数据项。例如,在涉及用户终端、反向代理服务器、以及目标服务器的应用场景下,反向代理服务器在接收到用户终端的数据获取请求后,可将所述数据获取请求发送至目标服务器,并接收目标服务器返回的响应数据。
79.进一步,在上述可选实施方式中,获取与判断模块401可根据如下方式判断所述待处理数据中是否存在需脱敏的数据项:根据所述数据获取请求的标识查询脱敏元数据配置信息;若从所述脱敏元数据配置信息中获取到与所述访问请求的标识对应的需脱敏的数据项描述信息,确认所述待处理数据中存在需脱敏的数据项;若获取不到与所述访问请求的标识对应的需脱敏的数据项描述信息,确认所述待处理数据中不存在需脱敏的数据项。
80.其中,所述脱敏元数据配置信息包括:预先配置的数据获取请求标识、以及预先配置的需脱敏的数据项描述信息。进一步,所述预先配置的数据获取请求的标识可以为该请求的url(统一资源定位符,又称网络地址)、url中的路径标识符、或者该请求的其他标识,所述预先配置的需脱敏的数据项描述信息可以为需脱敏的数据项的路径信息、或者需脱敏的数据项的其他标识。具体实施时,根据应用场景的不同,所述需脱敏的数据项的路径信息可以有不同的形式。例如,在对json格式数据进行脱敏时,所述需脱敏的数据项的路径信息可采用jsonpath表达式;在对xml格式数据或html格式数据进行脱敏时,所述需脱敏的数据项的路径信息可采用xpath表达式。
81.在另一个可选实施方式中,获取与判断模块401获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项包括:根据预先设置的数据获取任务获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项。进一步,在上述可选实施方式中,获取与判断模块401可根据如下方式判断所述待处理数据中是否存在需脱敏的数据项:将待处理数据中的数据项与脱敏元数据配置信息中配置的需脱敏的数据项进行比对;若所述待处理数据中至少有一个数据项存在于所述脱敏元数据配置信息中,则确认所述待处理数据中存在需脱敏的数据项;否则,确认所述待处理数据中不存在需脱敏的数据项。例如,假设待处理数据中有“订单号”、“联系人”、“联系人电话”、“详细地址”这四个数据项,脱敏元数据配置信息中配置了“联系人”、“联系人电话”、“详细地址”这三个需脱敏的数据项,经过比对可确认该待处理数据中存在需脱敏的数据项。
82.查询模块402,用于在所述待处理数据中存在需脱敏的数据项的情况下,根据所述需脱敏的数据项的原始赋值字符查询映射表,以得到与之对应的脱敏后的字符。
83.其中,所述数据项的原始赋值字符,可理解为该数据项取值的组成元素。例如,假设待处理数据中包括“联系人”这个数据项,且其取值为“张三”,则该数据项的原始赋值字符为“张”、“三”;假设待处理处理中包括“联系人电话”这个数据项,且其取值为

130xxxx0000”,则该数据项的原始赋值字符为“1”、“3”、“0”、“x”、“x”、“x”、“x”、“0”、“0”、“0”、“0”。
84.其中,所述映射表包括:原始赋值字符(即脱敏前的字符)与脱敏后的字符之间的映射关系。查询模块402可根据需脱敏的数据项的原始赋值字符查询映射表中的所述映射关系,以得到与之对应的脱敏后的字符。例如,假设映射表中存在以下映射关系:“张-备”、“三-高”、根据需要脱敏的数据项“联系人”取值中的原始赋值字符“张”和“三”查询映射表,得到与之对应的脱敏后的字符为“备”和“高”。
85.脱敏模块403,用于将所述待处理数据中需脱敏的数据项的原始赋值字符替换为脱敏后的字符,以得到脱敏后的数据。
86.示例性地,假设待处理数据中需脱敏的数据项“联系人”的取值为“张三”,通过查询映射表确定与“张”、“三”对应的脱敏后的字符为“备”、“高”,则脱敏模块403将“张三”替换为“备高”。脱敏模块403按照上述方式对所述待处理数据中其他需脱敏的数据项也进行脱敏处理,而对不需脱敏的数据项不进行脱敏处理,进而可得到脱敏后的数据。
87.在本发明实施例的装置中,通过预先构建包括原始赋值字符与脱敏后的字符之间的映射关系的映射表,并通过获取与判断模块获取待处理数据、并判断所述待处理数据中是否存在需脱敏的数据项,在所述待处理数据中存在需脱敏的数据项的情况下,通过查询模块根据所述需脱敏的数据项的原始赋值字符查询映射表以得到与之对应的脱敏后的字符,通过脱敏模块将所述待处理数据中需脱敏的数据项的原始赋值字符替换为脱敏后的字符以得到脱敏后的数据,使得数据脱敏无需依赖密钥,提高了脱敏处理的安全性,另外能够减小脱敏处理的计算量,提高系统性能;另外,通过以上装置能够实现局部脱敏,避免对全部数据进行脱敏所导致的格式错乱问题,同时也提高了数据脱敏的执行效率,扩展了数据脱敏的适用场景。
88.图5示出了可以应用本发明实施例的数据脱敏方法或数据脱敏装置的示例性系统架构500。
89.如图5所示,系统架构500可以包括终端设备501、502,反向代理服务器503,和目标服务器504、505。
90.用户可以使用终端设备501、502通过反向代理服务器503与目标服务器504、505交互,以接收或发送消息等。终端设备501、502上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
91.终端设备501、502可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
92.反向代理服务器503,用于接收终端设备501、502发送的数据获取请求,并将所述数据获取请求转发至目标服务器504、505,以从目标服务器获取响应数据,并对响应数据进行脱敏处理,然后将脱敏后的响应数据返回至终端设备。
93.目标服务器504、505可以是提供各种服务的服务器,例如对用户利用终端设备501、502所浏览的购物类网站提供支持的后台管理服务器。
94.需要说明的是,本发明实施例所提供的数据脱敏方法由反向代理服务器503执行,相应地,数据脱敏装置一般设置于反向代理服务器503中。
95.应该理解,图5中的终端设备、反向代理服务器和目标服务器的数目仅仅是示意性
的。根据实现需要,可以具有任意数目的终端设备、反向代理服务器和目标服务器。
96.下面参考图6,其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
97.如图6所示,计算机系统600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中,还存储有系统600操作所需的各种程序和数据。cpu 601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
98.以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
99.特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本发明的系统中限定的上述功能。
100.需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
101.附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个
用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
102.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取与判断模块、查询模块、脱敏模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取与判断模块还可以被描述为“获取待处理数据并判断所述待处理数据中是否存在需脱敏的数据项的模块”。
103.作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行以下流程:获取待处理数据,并判断所述待处理数据中是否存在需脱敏的数据项;在所述待处理数据中存在需脱敏的数据项的情况下,根据所述需脱敏的数据项的原始赋值字符查询映射表,以得到与之对应的脱敏后的字符;其中,所述映射表包括原始赋值字符与脱敏后的字符之间的映射关系;将所述待处理数据中需脱敏的数据项的原始赋值字符替换为脱敏后的字符,以得到脱敏后的数据。
104.根据本发明实施例的技术方案,使得数据脱敏无需依赖密钥,提高了脱敏处理的安全性,另外能够减小脱敏处理的计算量,提高系统性能,支持局部脱敏。
105.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献