一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理与发布方法、设备及存储介质与流程

2022-02-22 23:14:44 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,尤其涉及一种数据处理与发布方法、设备及存储介质。


背景技术:

2.随着互联网、云计算等技术的发展,数据源端或者可以将拥有的数据上传至云端进行存储,或者可以将拥有的数据开放给外部用户,供外部用户参考或了解有关信息。无论是将数据上传至云端存储,还是将数据开放给外部用户,这些数据中可能包含一些敏感数据,为避免敏感数据的泄露,有必要对数据进行脱敏处理。
3.现有技术中存在各种数据脱敏方法,例如,针对每一敏感数据产生随机种子,对敏感数据进行哈希映射替换;又例如,对敏感数据进行重新随机分布,混淆原有值和其他字段的联系;又例如,针对数值型数据,首先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。这些数据脱敏方法可以保证数据的安全性,但却破坏了数据之间原有的一些特性,无法保证数据的可用性。


技术实现要素:

4.本技术的多个方面提供一种数据处理与发布方法、设备及存储介质,用以提高数据的安全性和可用性。
5.本技术实施例提供一种数据处理方法,该方法包括:根据数据源端发起的调用请求,获取数据源端的待脱敏原始数据;在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;以及基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据;向数据源端返回目标脱敏数据,以供数据源端输出目标脱敏数据;其中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性。
6.本技术实施例还提供一种数据发布方法,包括:根据电商平台发起的调用请求,获取所述电商平台需要向商家发布的原始公域数据;在与所述原始公域数据对应的有序公域数据集中,查找与所述原始公域数据对应的目标公域数据;基于设定的种子密钥,在与所述有序公域数据集对应的有序脱敏数据集中,随机采样与所述目标公域数据对应的目标脱敏数据;向所述电商平台返回所述目标脱敏数据,以供所述电商平台利用所述目标脱敏数据代替所述原始公域数据后发布给商家;其中,基于所述种子密钥随机采样出的目标脱敏数据保留了所述原始公域数据之间的有序性。
7.本技术实施例还提供一种数据处理方法,该方法包括:获取运行过程中产生的待脱敏原始数据;在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;以及基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据;输出目标脱敏数据;其中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性。
8.本技术实施例还提供一种数据发布方法,包括:电商平台获取需要向商家发布的原始公域数据;在与所述原始公域数据对应的有序公域数据集中,查找与所述原始公域数据对应的目标公域数据;基于设定的种子密钥,在与所述有序公域数据集对应的有序脱敏数据集中,随机采样与所述目标公域数据对应的目标脱敏数据;利用所述目标脱敏数据代替所述原始公域数据后发布给商家;其中,基于所述种子密钥随机采样出的目标脱敏数据保留了所述原始公域数据之间的有序性。
9.本技术实施例还提供一种数据处理设备,包括:存储器、处理器以及通信组件;存储器,用于存储计算机程序;处理器,与存储器耦合,用于执行计算机程序,以用于:根据数据源端发起的调用请求,通过通信组件获取数据源端的待脱敏原始数据;在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;以及基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据;向数据源端返回目标脱敏数据,以供数据源端输出目标脱敏数据;其中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性。
10.本技术实施例还提供一种数据处理设备,包括:存储器和处理器;存储器,用于存储计算机程序;处理器,与存储器耦合,用于执行计算机程序,以用于:获取数据处理设备在运行过程中产生的待脱敏原始数据;在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;以及基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据;输出目标脱敏数据;其中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性。
11.本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器实现本技术实施例提供的数据处理方法中的步骤。
12.本技术实施例提供一种保序脱敏方案,在该方案中,提供与待脱敏原始数据对应的有序原始数据集以及与有序原始数据集对应的有序脱敏数据集;在脱敏过程中,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据,接着基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据,作为待脱敏原始数据的脱敏结果。在该方案中,基于种子密钥随机采样出的目标脱敏数据可保留待脱敏原始数据之间的有序性,从而实现保序脱敏,这让数据使用方能够基于脱敏数据所保留的有序性进行后续处理,在提高数据安全的基础上,还可以保证数据的可用性。
附图说明
13.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
14.图1a为本技术示例性实施例提供的一种数据处理系统的结构示意图;
15.图1b为本技术示例性实施例提供的另一种数据处理系统的结构示意图;
16.图2a为本技术示例性实施例提供的一种数据处理方法的流程示意图;
17.图2b为本技术示例性实施例提供的一种数据发布方法的流程示意图;
18.图3a为本技术示例性实施例提供的另一种数据处理方法的流程示意图;
19.图3b为本技术示例性实施例提供的另一种数据发布方法的流程示意图;
20.图4为本技术示例性实施例提供的一种数据处理设备的结构示意图;
21.图5为本技术示例性实施例提供的另一种数据处理设备的结构示意图。
具体实施方式
22.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
23.针对现有数据脱敏方法可以保证数据的安全性,但却破坏了数据之间原有的一些特性,无法保证数据的可用性的技术问题,本技术实施例提供一种保序脱敏方案,在该方案中,提供与待脱敏原始数据对应的有序原始数据集以及与有序原始数据集对应的有序脱敏数据集;在脱敏过程中,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据,接着基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据,作为待脱敏原始数据的脱敏结果。在该方案中,基于种子密钥随机采样出的目标脱敏数据可保留待脱敏原始数据之间的有序性,从而实现保序脱敏,这让数据使用方能够基于脱敏数据所保留的有序性进行后续处理,在提高数据安全的基础上,还可以保证数据的可用性。
24.以下结合附图,详细说明本技术各实施例提供的技术方案。
25.图1a为本技术示例性实施例提供的一种数据处理系统的结构示意图。如图1a所示,该系统100包括:数据源端101和数据处理端102。
26.在本实施例中,数据源端101可以是具有数据脱敏需求且能够提供待脱敏原始数据的一端,在实现形态上,数据源端101可以是任何能够产生待脱敏原始数据的应用程序、应用系统、应用系统中的功能模块、客户端、硬件设备(如服务器、终端设备)或硬件芯片(如cpu、gpu或fpga)等。在本实施例中,并不限定数据源端101的部署实施形态。
27.在本实施例中,数据处理端102是指能够对待脱敏原始数据进行脱敏处理的一端,在实现形态上,数据处理端102可以实现为具有数据脱敏功能的应用程序、插件、补丁、服务、实例、软件形态的功能模块、库函数,或者也可以实现为具有数据脱敏功能的硬件设备(如服务器或终端设备)、硬件芯片(如cpu、gpu或fpga)、虚拟机(virtual machine,vm)或容器等。
28.在本实施例中,并不限定数据处理端102的部署实施形态。在部署实现上,数据处理端102可以采用集中部署的方式,例如可以将数据处理端102集中部署在一台物理机(如服务器)上实现,也可以将数据处理端102集中部署在一台虚拟机上实现。如图1a所示,以部署在一台服务器上实现为例进行图示。或者,在部署实现上,数据处理端102也可以采用分布式部署的方式,例如可以将数据处理端102分布式部署在多台物理机上实现,也可以将数据处理端102分布式部署在多台虚拟机上实现。如图1b所示,以将数据处理端102分布式部署在多台服务器上实现为例进行图示。无论数据处理端102是分布式部署还是集中式部署,部署有数据处理端102的每台物理机或虚拟机中,可以启动一个线程,也可以启动多个线程,由这些线程实现数据处理端102的数据处理功能,主要是指数据脱敏功能。
29.在本实施例中,数据源端101负责产生原始数据。根据应用场景的不同,数据源端101产生的原始数据会有所不同。例如,若数据源端101是购物类应用,则其产生的原始数据包括但不限于:各维度上的商品销售额、商品销售量,各维度上的商品评论数,以及各类目下的商品数量、商品种类、库存量,等等。又例如,若数据源端101是游戏类应用,则其产生的原始数据包括但不限于:游戏玩家的数量、年龄段、性别比例,各类游戏道具的销售量、销售额,等等。
30.除了产生原始数据之外,数据源端101还具有输出原始数据的需求。例如,数据源端101可能需要借助于云存储的优势,将其产生的原始数据上传至云端进行存储。又例如,数据源端101可能会因为发展、吸引用户或信息公开化等各种原因,需要将其产生的原始数据面向用户对外公开。但是,考虑到原始数据中可能存在一些敏感信息,或者不易直接对外公开的数据,为了避免数据中敏感信息的泄漏,数据源端101可以调用数据处理端102对待脱敏原始数据进行保序脱敏(order-preserving desensitization,opd),并输出保序脱敏后的数据。这样既可以保证数据之间的有序性,尽量保证数据可用性,又可以避免敏感信息泄露,保证数据安全性。
31.具体地,数据源端101在需要对原始数据进行脱敏时,可以向数据处理端102发起调用请求,调用数据处理端102对待脱敏原始数据进行脱敏处理。相应地,数据处理端102可以接收数据源端101发起的调用请求,并根据数据源端101发起的调用请求,获取数据源端101的待脱敏原始数据;之后,对待脱敏原始数据进行保序脱敏处理。
32.在本实施例中,数据源端101发起的调用请求中可以直接带有待脱敏原始数据,基于此,数据处理端102可以直接从数据源端101发起的调用请求中获取待脱敏原始数据。或者,数据源端101发起的调用请求中可以带有指向待脱敏原始数据的数据参数。例如,数据参数可以是待脱敏原始数据的存储位置信息,则数据处理端102可以从该存储位置信息处,获取待脱敏原始数据。又例如,数据参数可以是能够唯一标识待脱敏原始数据的属性信息,例如,该属性信息是待脱敏原始数据的类别属性和范围属性,如商品a在最近3个月的销售额,则数据处理端102可以根据待脱敏原始数据的属性信息,从数据源端101产生的各类原始数据中获取与该属性信息对应的原始数据作为待脱敏原始数据。
33.在获取待脱敏原始数据之后,数据处理端102开始对待脱敏原始数据进行保序脱敏处理。具体地,数据处理端102可以在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;之后基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据。其中,目标脱敏数据即为对待脱敏原始数据的脱敏结果。在得到目标脱敏数据之后,数据处理端102向数据源端101返回目标脱敏数据,以供数据源端101输出目标脱敏数据。数据源端101在发起调用请求之后,可接收数据处理端102返回的目标脱敏数据,将目标脱敏数据代替待脱敏原始数据,输出目标脱敏数据。其中,基于种子密钥随机采样出的目标脱敏数据可保留待脱敏原始数据之间的有序性,从而实现保序脱敏,这让数据使用方(例如看到目标脱敏数据的用户)能够基于脱敏数据所保留的有序性进行后续处理,例如进行数据大小的比较、排序以及各种数据分析,在提高数据安全的基础上,还保证了数据的可用性。
34.在本实施例中,为了便于描述,将有序原始数据集中与待脱敏原始数据对应的原始数据称为目标原始数据。其中,目标原始数据与待脱敏原始数据对应指的是目标原始数
据与待脱敏原始数据具有一定的对应关系,例如该对应关系可以是但不限于:相等或相同关系、正比例关系、反比例关系、指数关系或对数关系等。
35.在本实施例中,有序原始数据集可以是包含待脱敏原始数据在内的原始数据集合,或者,也可以是与待脱敏原始数据存在某种对应关系的原始数据集合,在该集合中保留了原始数据之间的有序性。原始数据之间的有序性是指原始数据之间的先后顺序和/或大小关系。以待脱敏原始数据是数值型数据为例,则有序原始数据集中的原始数据也是数值型数据,对于数值型数据而言,有序性是指数值型数据之间的数值大小关系,则有序原始数据集中的原始数据可以按从小到大或从大到小的顺序有序排列。另外,在数值型数据的基础上,有序原始数据集可以是包含待脱敏数值型数据在内的数值型数据集合,也可以是包含与待脱敏数值型数据存在n倍关系的数值型数据在内的数值型数据集合;n是正整数。
36.在本实施例中,有序脱敏数据集是脱敏数据的集合。脱敏数据之间的有序性是指脱敏数据之间的先后顺序和/或大小关系。以待脱敏原始数据是数值型数据为例,则有序脱敏数据集中的脱敏数据也是数值型数据,对于数值型数据而言,有序性是指数值型数据之间的数值大小关系,则有序脱敏数据集中的脱敏数据可以按从小到大或从大到小的顺序有序排列。其中,有序脱敏数据集与有序原始数据集对应,负责为有序原始数据集中的原始数据提供对应的脱敏数据;换句话说,有序原始数据集中的原始数据的脱敏数据来自于有序脱敏数据集中。但是,在本实施例中,并未直接限定有序原始数据集中原始数据与有序脱敏数据集中脱敏数据之间的对应关系,有序原始数据集中原始数据与有序脱敏数据集中脱敏数据之间的对应关系是基于种子密钥,随机采样得到的,且随机采样结果可以保证脱敏数据能够保留原始数据之间的有序性。
37.在本实施例中,并不对有序原始数据集中包含的数据个数与有序脱敏数据集中包含的数据个数之间的大小关系进行限定。其中,有序原始数据集中包含的数据个数可以大于有序脱敏数据集中包含的数据个数。例如,有序原始数据集中包含10000个原始数据,例如为数值型数据1-10000,而有序脱敏数据集中包含100个脱敏数据,例如为数值型数据200-300,即数值型数据1-10000可以按照大小关系映射到数值型数据200-300上,实现保序脱敏。在有序原始数据集中包含的数据个数可以大于有序脱敏数据集中包含的数据个数的情况下,存在多个原始数据映射到同一脱敏数据的情况,即无法从脱敏数据反推至原始数据,即不可逆,可进一步保障原始数据的安全性。当然,有序原始数据集中包含的数据个数也可以小于有序脱敏数据集中包含的数据个数;或者,有序原始数据集中包含的数据个数也可以等于有序脱敏数据集中包含的数据个数,对此不做限定。需要说明的是,在有序原始数据集中包含的数据个数小于或等于有序脱敏数据集中包含的数据个数的情况下,也可以通过合理的随机采样算法,在保证有序性的情况下,将有序原始数据集中的原始数据映射到有序脱敏数据集中的部分脱敏数据上,部分脱敏数据的数量少于有序原始数据集中原始数据的数量,从而达到不可逆的效果,进一步保障原始数据的安全性。
38.在本实施例中,设定的种子密钥是随机采样时所使用的随机种子,即每次随机采样是基于相同的种子密钥的。在随机采样过程中,以种子密钥作为初始条件,然后用一定的算法不停迭代产生每次随机采样的结果。可选地,种子密钥可来自密钥空间k,密钥空间k越大越好,这样攻击者越难以枚举密钥空间k中的全部密钥,有利于提高种子密钥的安全性,增大脱敏过程的破解难度,进一步保证数据安全性。例如,密钥空间k为{0,1}^128,即该密
钥空间k中的密钥是一系列由0和1组成的128位长的比特串。在本实施例中,随机采样过程是指从有序脱敏数据集中采样脱敏数据的过程,可以采用随机采样算法实现随机采样过程,但并不对随机采样算法进行限定。例如,随机采样算法可以是但不限于:高斯采样、拉普拉斯采样、均匀采样、截断采样、折叠采样或重采样等。其中,高斯采样算法是指随机采样结果具有高斯分布特性的采样算法;均匀采样算法是指随机采样结果具有均匀分布特性的采样算法。
39.在本实施例中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性,因此,原本基于原始数据有序性的应用需求,可基于脱敏数据实现,保持了数据的可用性。
40.在本实施例中,在使用有序原始数据集、有序脱敏数据集以及设定的种子密钥之前,还包括获取有序原始数据集、有序脱敏数据集以及设定的种子密钥的过程。本技术实施例并不限定获取有序原始数据集、有序脱敏数据集以及设定的种子密钥的方式,下面举例说明:
41.在实施例a1中,数据源端101负责提供有序原始数据集和有序脱敏数据集,并负责设定种子密钥。基于此,数据处理端102直接从数据源端101获取有序原始数据集、有序脱敏数据集以及设定的种子密钥。
42.在实施例a2中,数据源端101负责设定种子密钥,并提供待脱敏原始数据。基于此,数据处理端102可以直接从数据源端101获取设定的种子密钥。另外,数据处理端102可以根据待脱敏原始数据对应的最大值和最小值预估有序原始数据集的原始数据,以得到有序原始数据集。例如,可以将待脱敏原始数据的最大值作为有序原始数据集的上限值,将待脱敏原始数据的最小值作为有序原始数据集的下限值,然后以数值x(例如1)为步长,对有序原始数据集的上限值和下限值之间的值进行划分,得到有序原始数据集。另外,一种获取有序脱敏数据集的实施方式,可以是将待脱敏原始数据对应的最大值和最小值除以一个常数,例如2,3,4等,得到有序脱敏数据集的上限值和下限值,然后以数值y(例如1)为步长,对有序原始数据集的上限值和下限值之间的值进行划分,得到有序脱敏数据集。
43.在实施方式a3中,数据处理端102可以从指定的数据存储空间中,读取预置的与待脱敏原始数据对应的有序原始数据集,与有序原始数据集对应的有序脱敏数据集以及设定的种子密钥。其中,有序原始数据集、有序脱敏数据集以及设定的种子密钥是预先设定好的。
44.在本技术实施例中,并不对数据处理端102在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据的方式进行限定。下面举例说明:
45.在一可选实施例b1中,可以直接在有序原始数据集中顺序查找与待脱敏原始数据对应的目标原始数据,例如可以从有序原始数据集中的排在第一位的原始数据开始,顺序查找与待脱敏原始数据对应的目标原始数据。其中,若有序原始数据集是按照数据大小从小到大的顺序或按照数据产生时间从早到晚的顺序排序,则排在第一位的原始数据是最小数据或最早产生的数据;若有序原始数据集是按照数据大小从大到小的顺序或按照数据产生时间从晚到早的顺序排序,则排在第一位的原始数据是最大数据或最晚产生的数据。其中,在顺序查找的基础上,在每次查找时都会按序读取一个临时原始数据,将该临时原始数据与待脱敏原始数据进行比较;如果两者不对应,则继续下一次查找,直至查找到与待脱敏
原始数据对应的目标原始数据为止。相应地,与每一次查找对应,都会基于设定的种子密钥,在本次待采样的脱敏数据子集中,随机采样与临时原始数据对应的临时脱敏数据;如果本次查找中的临时原始数据与待脱敏原始数据不对应,则从本次待采样的脱敏数据子集中获取包含本次采样到的临时脱敏数据的部分脱敏数据形成下一次待采样的脱敏数据子集;如果本次查找中的临时原始数据与待脱敏原始数据对应,即本次查找中的临时原始数据即与待脱敏原始数据对应的目标原始数据,则本次采样到的临时脱敏数据即为与目标原始数据对应的目标脱敏数据。其中,在第一次采样过程中,待采样的脱敏数据子集是整个有序脱敏数据集。
46.在另一可选实施例b2中,可以采用二分法,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据。相应地,一种基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据的实施方式,包括:采用二分法,基于设定的种子密钥,在有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据。
47.进一步可选地,一种采用二分法,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据的实施方式,包括:在每次二分法查找过程中,将待脱敏原始数据与本次待查找的原始数据区间中的中间原始数据进行比较;其中,第一次二分法查找过程中待查找的原始数据区间为有序原始数据集;若待脱敏原始数据与中间原始数据不相同,则将本次待查找的原始数据区间中包含中间原始数据在内的一半数据区间作为下一次待查找的原始数据区间继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据。
48.进一步可选地,一种将本次待查找的原始数据区间中包含中间原始数据在内的一半数据区间作为下一次待查找的原始数据区间继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据的实施方式,包括:若待脱敏原始数据大于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[m_mid,m_max]作为下一次待查找的原始数据区间[m_min,m_max]继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据;若待脱敏原始数据小于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[m_min,m_mid]作为下一次待查找的原始数据区间[m_min,m_max]继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据。其中,“[]”表示闭区间,“m_min”表示原始数据区间的下限值,“m_max”表示原始数据区间的上限值,“m_mid”表示中间原始数据。
[0049]
在本实施例中,中间原始数据m_mid可以是位于原始数据区间[m_min,m_max]中间位置上的数据。或者,以数值型数据为例,中间原始数据m_mid也可以是原始数据区间[m_min,m_max]中的平均值,即中间原始数据m_mid=(m_min m_max)/2。考虑到在计算中间原始数据时,可能会出现小数,为了便于计算,可以对计算出的中间原始数据进行向下取整或向上取整运算,即中间原始数据或其中,表示向下取整符号,表示向上取整符号。进一步,在确定原始数据区间时,为了不受取整运算的影响,使得每一个待脱敏原始数据,都能有对应的脱敏数据,在本实施例中,将原始数据区间设置为闭区间。
[0050]
在一可选实施例中,一种采用二分法,基于设定的种子密钥,在有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据的实施方式,包括:在每次二分法查找过程中,基于设定的种子密钥,在本次待采样的脱敏数据区间中,随机采样与本次待查找的原始数据区间中的中间原始数据对应的中间脱敏数据;其中,第一次二分法查找过程中待查采样的脱敏数据区间为有序脱敏数据集;以及在待脱敏原始数据与中间原始数据不相同的情况下,将本次待采样的脱敏数据区间中包含中间脱敏数据在内的一半数据区间作为下一次待采样的脱敏数据区间继续进行下一次随机采样,直至查找到与待脱敏原始数据对应的目标原始数据时,将中间脱敏数据作为与目标原始数据对应的目标脱敏数据。
[0051]
进一步可选地,一种将本次待采样的脱敏数据区间中包含所述中间脱敏数据在内的一半数据区间作为下一次待采样的脱敏数据区间继续进行下一次随机采样,直至查找到与所述待脱敏原始数据对应的目标原始数据时,将所述中间脱敏数据作为与所述目标原始数据对应的目标脱敏数据的实施方式,包括:若所述待脱敏原始数据大于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[c_mid,c_max]作为下一次待采样的脱敏数据区间[c_min,c_max]继续进行下一次随机采样,直至查找到与所述待脱敏原始数据对应的目标原始数据时,将所述中间脱敏数据c_mid作为与所述目标原始数据对应的目标脱敏数据;若所述待脱敏原始数据小于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[c_min,c_mid]作为下一次待采用的脱敏数据区间[c_min,c_max]继续进行下一次随机采样,直至查找到与所述待脱敏原始数据对应的目标原始数据时,将所述中间脱敏数据c_mid作为与所述目标原始数据对应的目标脱敏数据。其中,“c_min”表示脱敏数据区间的下限值,“c_max”表示脱敏数据区间的上限值,“c_mid”表示中间脱敏数据。
[0052]
在一可选实施例中,在随机采样目标脱敏数据的过程中,还包括以下至少一种操作:
[0053]
操作c1:若本次待采样的脱敏数据区间的上限值和下限值相同,则直接将上限值或下限值作为目标脱敏数据。
[0054]
操作c2:若本次待查找的原始数据区间的上限值和下限值相同,本次待采样的脱敏数据区间只包含两个脱敏数据,且基于本次待采样的脱敏数据区间计算出的中间脱敏数据等于本次待采样的脱敏数据区间的上限值,则直接将基于本次待采样的脱敏数据区间计算出的中间脱敏数据作为目标脱敏数据。
[0055]
对于操作c1,若本次待采样的脱敏数据区间的上限值和下限值相同,即c_min=c_max,则说明所有的待脱敏数据脱敏后只可能对应一个脱敏数据c_min或c_max。因此,可以直接将本次待查找的原始数据区间的上限值或下限值作为目标脱敏数据。对于操作c2,若本次待查找的原始数据区间的上限值和下限值相同,本次待采样的脱敏数据区间只包含两个脱敏数据,且基于本次待采样的脱敏数据区间计算出的中间脱敏数据等于本次待采样的脱敏数据区间的上限值,即m_min=m_max、c_min 1=c_max且c_mid=c_max,这样,区间[m_min,m_max]会一直包含m_mid,因为m_mid=m_min=m_max,而区间[c_min,c_max]会一直包含c_mid,因为每次计算完c_mid之后是一个小数,经过向上取整运算后就会有c_mid=c_max成立。因此当m_min=m_max、c_min 1=c_max且c_mid=c_max同时成立时,将会一直循环迭代,为了跳出循环,可以直接将基于本次待采样的脱敏数据区间计算出的中间脱敏数
据作为目标脱敏数据。
[0056]
在本实施例中,无论是原始数据区间还是脱敏数据区间,每次随机采样所用的数据区间,均是上一次随机采样所使用数据区间的一部分,这样一来就保证了随机采样的有界性,使得随机采样后的结果有严格的采样范围,这样可使得到的脱敏数据有严格的采样范围。
[0057]
在一可选实施例中,一种基于设定的种子密钥,在本次待采样的脱敏数据区间中,随机采样与本次待查找的原始数据区间中的中间原始数据对应的中间脱敏数据的实施方式,包括:采用有界伪随机算法,在本次待采样的脱敏数据区间中,随机采样与本次待查找的原始数据区间中的中间原始数据对应的中间脱敏数据。其中,有界伪随机算法以设定的种子密钥作为其采用的随机种子,以本次待采样的脱敏数据区间作为其输出范围,以本次待采样的脱敏数据区间的均值的p倍作为其标准差,p是可配置的安全性参数,且p》0,整数或者小数均可。有界伪随机算法的公式表示为:r=sample(k,c,σ)。其中,r表示中间脱敏数据或目标脱敏数据;sample表示有界伪随机算法,k,c,σ是有界伪随机算法的参数,k∈k,k为种子密钥,k为密钥空间,c是有序脱敏数据集,c=[c_min,c_max],σ是有界伪随机算法的标准差,具体为或者另外,|c|=c_max-c_min 1表示有序脱敏数据集中脱敏数据的个数,则进一步,或
[0058]
在本实施例中,为满足可用性,以本次待采样的脱敏数据区间的均值的p倍作为有界伪随机算法的标准差,p是可配置的安全性参数。安全性参数越大,有界伪随机算法的标准差越大,输出脱敏数据偏离均值的程度越大,有界伪随机算法的安全性越高,可用性越低;安全性参数越小,有界伪随机算法的标准差越小,输出脱敏数据偏离均值的程度越小,有界伪随机算法的安全性越低,可用性越高。
[0059]
在本技术一些实施例中,以待脱敏原始数据、有序原始数据集中的原始数据以及有序脱敏数据集中的脱敏数据均为数值型数据为例,对本技术实施例的脱敏过程进行详细说明。
[0060]
其中,为了简化描述,把数据处理端102执行的保序脱敏过程表示为:c=opd(k,m,c,m);其前置条件:选择有界伪随机采样算法r=sample(s,r,σ);设置密钥空间k;设置可用性参数p∈(0, ∞)。
[0061]
当接收到数据源端101发起的调用请求时,数据处理端102从数据源端101获取上述保序脱敏过程c=opd(k,m,c,m)所需的输入参数,即设定的种子密钥k∈k,有序原始数据集m=[m_min,m_max],有序脱敏数据集c=[c_min,c_max]以及待脱敏原始数据m∈m。其中,c∈c,是需要输出的目标脱敏数据。
[0062]
在获得输入参数之后,数据处理端102执行脱敏过程如下:
[0063]
(1)计算|m|=m_max-m_min 1,|c|=c_max-c_min 1。其中,|m|表示有序脱敏数据集中原始数据的个数,|c|表示有序脱敏数据集中脱敏数据的个数。
[0064]
(2)若|c|=1,则表示c_max=c_min,表示所有待脱敏数据只可能对应一个脱敏数据c_max或c_min,则将c_max或c_min作为要输出的目标脱敏数据,并结束此次脱敏过程。
[0065]
(3)计算c_mid=sample(k,c,σ),或者
[0066]
(4)若|m|=1,|c|=2,c_mid=c_max,则对于区间[c_min,c_max]来说,会一直包含c_mid,因为每次计算完c_mid之后是一个小数,经过向上取整运算后就会有c_mid=c_max成立。因此当m_min=m_max、c_min 1=c_max且c_mid=c_max同时成立时,将会一直循环迭代,为了跳出循环,可以直接将基于本次待采样的脱敏数据区间计算出的中间脱敏数据作为目标脱敏数据,即将当前c_mid作为要输出的目标脱敏数据,结束此次脱敏过程。
[0067]
(5)计算或者
[0068]
(6)若m_min≤m《m_mid,则将m更新为m=[m_min,m_mid],将c更新为c=[c_min,c_mid],返回步骤(1)进入下一次迭代过程。
[0069]
(7)若m_mid《m≤m_max,则将m更新为m=[m_mid,m_max],将c更新为c=[c_mid,c_max],返回步骤(1)进入下一次迭代过程。
[0070]
(8)若m=m_mid,则将c=c_mid作为要输出的目标脱敏数据。
[0071]
在下面的场景实施例中,以数据源端101是电商平台,可产生各维度上的商品销售额、商品销售量或商品评论数等数据,这些数据属于公域数据,考虑到可能会因为发展、吸引用户或信息公开化等各种原因,需要将其产生的公域数据对外发布,为了避免公域数据中敏感信息的泄漏,电商平台可以调用数据处理端102对待脱敏原始数据进行保序脱敏,并输出保序脱敏后的数据。下面以有序脱敏数据集为m=[1,16],有序脱敏数据集为c=[1,7],待脱敏数据m=3,有界伪随机算法是高斯采样算法为例,对整个保序脱敏过程进行说明。
[0072]
第一次迭代:
[0073]
(1)计算|m|=m_max-m_min 1=16-1 1=16,|c|=c_max-c_min 1=7-1 1=7。
[0074]
(2)计算c_mid=sample(k,c,σ)=sample(k,c,4p)=4。
[0075]
(3)计算
[0076]
(4)判断1=m_min<m=3《m_mid=9,则将m更新为[1,9],将c更新为[1,4],进入第二次迭代。
[0077]
第二次迭代:
[0078]
(1)计算|m|=m_max-m_min 1=9-1 1=9,|c|=c_max-c_min 1=4-1 1=4。
[0079]
(2)计算c_mid=sample(k,c,σ)=sample(k,c,2p)=2。
[0080]
(3)计算
[0081]
(4)判断1=m_min《m=3《m_mid=5,则将m更新为[1,5],将c更新为[1,2],进入第三次迭代。
[0082]
第三次迭代:
[0083]
(1)计算|m|=m_max-m_min 1=5-1 1=5,|c|=c_max-c_min 1=2-1 1=2。
[0084]
(2)计算c_mid=sample(k,c,σ)=sample(k,c,p)=2。
[0085]
(3)计算
[0086]
(4)判断m=m_mid=3,则将c_mid=2作为要输出的目标脱敏数据。
[0087]
由此可见,经过上述三次迭代过程,可将待脱敏数据3映射为脱敏数据2,对用户来说可看到2,而不会直接看到3,且因为待脱敏数据3对应的脱敏数据2和其它待脱敏数据对应的脱敏数据之间保留了待脱敏数据3和其它待脱敏数据之间的有序性,所以用户完全可以对脱敏数据进行大小比较、排序、数值分析等各种操作,在保证数据安全的同时,保证了数据可用性。
[0088]
在本技术上述系统实施例中,数据处理端102可以实现为具有数据脱敏功能的应用程序、插件、补丁、服务、实例、软件形态的功能模块或库函数,可被数据源端101这类有脱敏需求的应用调用,但数据处理端102并不限于这种实现形式。例如,在本技术另一些实施例中,数据处理端102所实现的保序脱敏功能可以作为数据源端101的某一功能模块内嵌在数据源端101中实现,用于实现数据源端101的数据保序脱敏功能。则从具有数据保序脱敏功能的数据源端的角度进行描述,其实现数据保序脱敏的过程包括:该数据源端获取其在运行过程中产生的待脱敏原始数据;在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;以及基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据;输出目标脱敏数据;其中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性。
[0089]
在本实施例中,并不限具有数据保序脱敏功能的数据源端获取其在运行过程中产生的待脱敏原始数据的实施方式。在一可选实施例中,具有数据保序脱敏功能的数据源端可以直接从其指定存储空间中获取待脱敏原始数据,该指定存储空间专门用于存储待脱敏原始数据。在又一可选实施例中,具有数据保序脱敏功能的数据源端可以展示脱敏配置界面;响应用户在脱敏配置界面上的第一输入操作,获取用户输入的指向待脱敏原始数据的数据参数;根据数据参数,从产生的数据集中获取待脱敏原始数据。
[0090]
在本实施例中,第一输入操作是一种输入操作,输入操作可以是但不限于:键盘输入或电子屏幕输入等。第一输入操作输入的内容包含待脱敏原始数据的数据参数,待脱敏原始数据的数据参数可以是但不限于:待脱敏原始数据的存储位置信息或待脱敏原始数据的属性信息等。详细内容可参见前述实施例,在此不再赘述。另外,用户指的是数据源端的数据管理人员或维护人员。
[0091]
进一步可选地,具有数据保序脱敏功能的数据源端还可以响应用户在脱敏配置界面上的第二输入操作,获取用户输入的与待脱敏原始数据对应的有序原始数据集,与有序原始数据集对应的有序脱敏数据集以及设定的种子密钥。可选的,用户可以基于待脱敏原始数据对应的最大值和最小值预估出有序原始数据集;相应地,基于待脱敏原始数据对应的最大值和最小值,预估出有序脱敏数据集的上限值和下限值,进而基于有序脱敏数据集的上限值和下限值以及设定的数据步长,得到有序脱敏数据集。
[0092]
在本实施例中,第二输入操作是一种输入操作,输入操作可以是但不限于:键盘输入或电子屏幕输入等。第二输入操作输入的内容包含与待脱敏原始数据对应的有序原始数据集,与有序原始数据集对应的有序脱敏数据集以及设定的种子密钥的信息。
[0093]
关于具有数据保序脱敏功能的数据源端查找与待脱敏原始数据对应的目标原始
数据以及随机采样与目标原始数据对应的目标脱敏数据的详细过程,可参见前述实施例,区别仅在于执行主体不同,故在此不再赘述。
[0094]
图2a为本技术示例性实施例提供的一种数据处理方法的流程示意图,如图2a所示,该方法包括:
[0095]
21、根据数据源端发起的调用请求,获取数据源端的待脱敏原始数据;
[0096]
22、在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;
[0097]
23、基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据;
[0098]
24、向数据源端返回目标脱敏数据,以供数据源端输出目标脱敏数据;其中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性。
[0099]
在一可选实施例中,在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据,包括:采用二分法,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据。相应地,基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据,包括:采用二分法,基于设定的种子密钥,在有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据。
[0100]
在一可选实施例中,采用二分法,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据,包括:在每次二分法查找过程中,将待脱敏原始数据与本次待查找的原始数据区间中的中间原始数据进行比较;其中,第一次二分法查找过程中待查找的原始数据区间为有序原始数据集;若待脱敏原始数据与中间原始数据不相同,则将本次待查找的原始数据区间中包含中间原始数据在内的一半数据区间作为下一次待查找的原始数据区间继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据。
[0101]
进一步可选地,将本次待查找的原始数据区间中包含中间原始数据在内的一半数据区间作为下一次待查找的原始数据区间继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据,包括:若待脱敏原始数据大于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[m_mid,m_max]作为下一次待查找的原始数据区间[m_min,m_max]继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据;若待脱敏原始数据小于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[m_min,m_mid]作为下一次待查找的原始数据区间[m_min,m_max]继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据。
[0102]
在一可选实施例中,采用二分法,基于设定的种子密钥,在有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据,包括:在每次二分法查找过程中,基于设定的种子密钥,在本次待采样的脱敏数据区间中,随机采样与本次待查找的原始数据区间中的中间原始数据对应的中间脱敏数据;其中,第一次二分法查找过程中待查采样的脱敏数据区间为有序脱敏数据集;以及在待脱敏原始数据与中间原始数据不相同的情况下,将本次待采样的脱敏数据区间中包含中间脱敏数据在内的一半数据区间作为下一次待采样的脱敏数据区间继续进行下一次随机采样,直至查找到与待脱敏原始数据对应的目标原始数据
时,将中间脱敏数据作为与目标原始数据对应的目标脱敏数据。
[0103]
进一步可选地,将本次待采样的脱敏数据区间中包含中间脱敏数据在内的一半数据区间作为下一次待采样的脱敏数据区间继续进行下一次随机采样,直至查找到与待脱敏原始数据对应的目标原始数据时,将中间脱敏数据作为与目标原始数据对应的目标脱敏数据,包括:若待脱敏原始数据大于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[c_mid,c_max]作为下一次待采样的脱敏数据区间[c_min,c_max]继续进行下一次随机采样,直至查找到与待脱敏原始数据对应的目标原始数据时,将中间脱敏数据c_mid作为与目标原始数据对应的目标脱敏数据;若待脱敏原始数据小于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[c_min,c_mid]作为下一次待采用的脱敏数据区间[c_min,c_max]继续进行下一次随机采样,直至查找到与待脱敏原始数据对应的目标原始数据时,将中间脱敏数据c_mid作为与目标原始数据对应的目标脱敏数据。
[0104]
在一可选实施例中,基于设定的种子密钥,在本次待采样的脱敏数据区间中,随机采样与本次待查找的原始数据区间中的中间原始数据对应的中间脱敏数据,包括:采用有界伪随机算法,在本次待采样的脱敏数据区间中,随机采样与本次待查找的原始数据区间中的中间原始数据对应的中间脱敏数据;其中,有界伪随机算法以设定的种子密钥作为其采用的随机种子,以本次待采样的脱敏数据区间作为其输出范围,以本次待采样的脱敏数据区间的均值的p倍作为其标准差,p是可配置的安全性参数,且p》0。
[0105]
在一可选实施例中,在随机采样目标脱敏数据的过程中,还包括以下至少一种操作:若本次待采样的脱敏数据区间的上限值和下限值相同,则直接将上限值或下限值作为目标脱敏数据;若本次待查找的原始数据区间的上限值和下限值相同,本次待采样的脱敏数据区间只包含两个脱敏数据,且基于本次待采样的脱敏数据区间计算出的中间脱敏数据等于本次待采样的脱敏数据区间的上限值,则直接将基于本次待采样的脱敏数据区间计算出的中间脱敏数据作为目标脱敏数据。
[0106]
在一可选实施例中,在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据之前,还包括:获取数据源端提供的与待脱敏原始数据对应的有序原始数据集,与有序原始数据集对应的有序脱敏数据集以及设定的种子密钥;或者从指定的数据存储空间中,读取预置的与待脱敏原始数据对应的有序原始数据集,与有序原始数据集对应的有序脱敏数据集以及设定的种子密钥。
[0107]
在一可选实施例中,上述原始数据集中包含的数据个数大于有序脱敏数据集中包含的数据个数。
[0108]
在一可选实施例中,上述待脱敏原始数据、有序原始数据集中的原始数据以及有序脱敏数据集中的脱敏数据均为数值型数据。
[0109]
本技术实施例提供一种保序脱敏方法,在该方法中,提供与待脱敏原始数据对应的有序原始数据集以及与有序原始数据集对应的有序脱敏数据集;在脱敏过程中,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据,接着基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据,作为待脱敏原始数据的脱敏结果。在该方案中,基于种子密钥随机采样出的目标脱敏数据可保留待脱敏原始数据之间的有序性,从而实现保序脱敏,这让数据使用方能够基于脱
敏数据所保留的有序性进行后续处理,在提高数据安全的基础上,还可以保证数据的可用性。
[0110]
本技术图2a所示方法可应用于电商场景中。在电商场景中,电商平台有必要将其公域数据发布给商家,公域数据是电商平台内部的相对较为敏感的数据,直接面向商家披露有可能存在数据安全风险。因此,有必要对公域数据进行保序脱敏处理,从而为商家提供具有一定可用性的脱敏数据,既可以为商家提供相关数据价值,又可以保证商家或其它用户或平台难以根据脱敏数据反推真实公域数据,控制数据安全风险。基于此,本技术实施例还提供一种基于有序脱敏的数据发布方法,如图2b所示,该方法包括:
[0111]
201、根据电商平台发起的调用请求,获取电商平台需要向商家发布的原始公域数据。
[0112]
202、在与原始公域数据对应的有序公域数据集中,查找与原始公域数据对应的目标公域数据。
[0113]
203、基于设定的种子密钥,在与有序公域数据集对应的有序脱敏数据集中,随机采样与目标公域数据对应的目标脱敏数据。
[0114]
204、向电商平台返回目标脱敏数据,以供电商平台利用目标脱敏数据代替原始公域数据后发布给商家;其中,基于种子密钥随机采样出的目标脱敏数据保留了原始公域数据之间的有序性。
[0115]
在本实施例中,将电商平台内部的数据称为公域数据,例如包括但不限于:行业销售金额、行业销售量、类目销售金额、类目销售量以及平台访问量等中的至少一种。这些公域数据对商家具有一定参考价值,可以帮助商家了解行业现状以及该行业中各类目的受欢迎度等信息。因此,有必要面向商家发布这些公域数据,以对商家发挥指导作用。
[0116]
在本实施例中,电商平台在向商家发布公域数据之前,可以向数据处理端发起调用请求,与请求调用数据脱敏服务对原始公域数据进行有序脱敏处理。数据处理端根据电商平台的调用请求,获取待发布的公域数据;进而执行步骤202和203描述的有序脱敏操作对原始公域数据进行有序脱敏,并向电商平台返回有序脱敏后得到的目标脱敏数据。电商平台将目标脱敏数据代替原始公域数据发布给商家,可以保证商家或其它用户或平台难以根据脱敏数据反推真实公域数据,控制数据安全风险。另外,基于有序脱敏的特性,目标脱敏数据保留了原始公域数据之间的有序性,因此,对商家而言,目标脱敏数据对其依然具有指导意义,依旧可以根据目标脱敏数据了解到行业现状以及该行业中各类目的受欢迎度等信息,达到了为商家提供相关数据价值的目的。
[0117]
其中,图2b中的有序公域数据集是前述实施例中有序原始数据集的一种具体实现,关于图2b所示方法实施例中各步骤的详细实施方式可参见前述实施例,在此不再赘述。
[0118]
图3a为本技术示例性实施例提供的另一种数据处理方法的流程示意图,如图3a所示,该方法包括:
[0119]
31、获取运行过程中产生的待脱敏原始数据;
[0120]
32、在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;
[0121]
33、基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据;
[0122]
34、输出目标脱敏数据;其中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性。
[0123]
在一可选实施例中,获取运行过程中产生的待脱敏原始数据,包括:展示目标应用对应的脱敏配置界面;响应用户在所述脱敏配置界面上的第一输入操作,获取用户输入的指向待脱敏原始数据的数据参数;根据所述数据参数,从目标应用产生的数据集中获取待脱敏原始数据。
[0124]
在一可选实施例中,本实施例提供的方法还包括:响应用户在所述脱敏配置界面上的第二输入操作,获取用户输入的与所述待脱敏原始数据对应的有序原始数据集,与所述有序原始数据集对应的有序脱敏数据集以及设定的种子密钥。
[0125]
本技术实施例提供一种保序脱敏方法,在该方法中,提供与待脱敏原始数据对应的有序原始数据集以及与有序原始数据集对应的有序脱敏数据集;在脱敏过程中,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据,接着基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据,作为待脱敏原始数据的脱敏结果。在该方案中,基于种子密钥随机采样出的目标脱敏数据可保留待脱敏原始数据之间的有序性,从而实现保序脱敏,这让数据使用方能够基于脱敏数据所保留的有序性进行后续处理,在提高数据安全的基础上,还可以保证数据的可用性。
[0126]
本技术图3a所示方法可应用于电商场景中。基于此,本技术实施例还提供一种基于有序脱敏的数据发布方法,如图3b所示,该方法包括:
[0127]
301、电商平台获取需要向商家发布的原始公域数据。
[0128]
302、在与原始公域数据对应的有序公域数据集中,查找与原始公域数据对应的目标公域数据。
[0129]
303、基于设定的种子密钥,在与有序公域数据集对应的有序脱敏数据集中,随机采样与目标公域数据对应的目标脱敏数据。
[0130]
304、利用目标脱敏数据代替原始公域数据后发布给商家;其中,基于种子密钥随机采样出的目标脱敏数据保留了原始公域数据之间的有序性。
[0131]
在本实施例中,将电商平台内部的数据称为公域数据,例如包括但不限于:行业销售金额、行业销售量、类目销售金额、类目销售量以及平台访问量等中的至少一种。这些公域数据对商家具有一定参考价值,可以帮助商家了解行业现状以及该行业中各类目的受欢迎度等信息。因此,有必要面向商家发布这些公域数据,以对商家发挥指导作用。
[0132]
在本实施例中,电商平台除了具有数据发布功能之外,还具有有序脱敏功能。基于此,电商平台在向商家发布公域数据之前,可以执行步骤302和303描述的有序脱敏操作对原始公域数据进行有序脱敏;之后,电商平台将目标脱敏数据代替原始公域数据发布给商家,可以保证商家或其它用户或平台难以根据脱敏数据反推真实公域数据,控制数据安全风险。另外,基于有序脱敏的特性,目标脱敏数据保留了原始公域数据之间的有序性,因此,对商家而言,目标脱敏数据对其依然具有指导意义,依旧可以根据目标脱敏数据了解到行业现状以及该行业中各类目的受欢迎度等信息,达到了为商家提供相关数据价值的目的。
[0133]
其中,图3b中的有序公域数据集是前述实施例中有序原始数据集的一种具体实现,关于图3b所示方法实施例中各步骤的详细实施方式可参见前述实施例,在此不再赘述。
[0134]
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤21至步骤23的执行主体可以为设备a;又比如,步骤21和22的执行主体可以为设备a,步骤23的执行主体可以为设备b;等等。
[0135]
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如21、22等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0136]
图4为本技术示例性实施例提供的一种数据处理设备的结构示意图。如图4所示,该设备包括:存储器44、处理器45以及通信组件46。
[0137]
存储器44,用于存储计算机程序,并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
[0138]
存储器44可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0139]
处理器45,与存储器44耦合,用于执行存储器44中的计算机程序,以用于:根据数据源端发起的调用请求,通过通信组件46获取数据源端的待脱敏原始数据;在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;以及基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据;向数据源端返回目标脱敏数据,以供数据源端输出目标脱敏数据;其中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性。
[0140]
在一可选实施例中,处理器45在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据时,具体用于:采用二分法,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据。相应地,处理器45在基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据时,具体用于:采用二分法,基于设定的种子密钥,在有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据。
[0141]
在一可选实施例中,处理器45在采用二分法,在有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据时,具体用于:在每次二分法查找过程中,将待脱敏原始数据与本次待查找的原始数据区间中的中间原始数据进行比较;其中,第一次二分法查找过程中待查找的原始数据区间为有序原始数据集;若待脱敏原始数据与中间原始数据不相同,则将本次待查找的原始数据区间中包含中间原始数据在内的一半数据区间作为下一次待查找的原始数据区间继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据。
[0142]
在一可选实施例中,处理器45在将本次待查找的原始数据区间中包含中间原始数据在内的一半数据区间作为下一次待查找的原始数据区间继续进行下一次二分法查找,直
至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据时,具体用于:若待脱敏原始数据大于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[m_mid,m_max]作为下一次待查找的原始数据区间[m_min,m_max]继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据;若待脱敏原始数据小于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[m_min,m_mid]作为下一次待查找的原始数据区间[m_min,m_max]继续进行下一次二分法查找,直至查找到与待脱敏原始数据相同的中间原始数据作为目标原始数据。
[0143]
在一可选实施例中,处理器45在采用二分法,基于设定的种子密钥,在有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据时,具体用于:在每次二分法查找过程中,基于设定的种子密钥,在本次待采样的脱敏数据区间中,随机采样与本次待查找的原始数据区间中的中间原始数据对应的中间脱敏数据;其中,第一次二分法查找过程中待查采样的脱敏数据区间为有序脱敏数据集;以及在待脱敏原始数据与中间原始数据不相同的情况下,将本次待采样的脱敏数据区间中包含中间脱敏数据在内的一半数据区间作为下一次待采样的脱敏数据区间继续进行下一次随机采样,直至查找到与待脱敏原始数据对应的目标原始数据时,将中间脱敏数据作为与目标原始数据对应的目标脱敏数据。
[0144]
在一可选实施例中,处理器45在将本次待采样的脱敏数据区间中包含中间脱敏数据在内的一半数据区间作为下一次待采样的脱敏数据区间继续进行下一次随机采样,直至查找到与待脱敏原始数据对应的目标原始数据时,将中间脱敏数据作为与目标原始数据对应的目标脱敏数据时,具体用于:若待脱敏原始数据大于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[c_mid,c_max]作为下一次待采样的脱敏数据区间[c_min,c_max]继续进行下一次随机采样,直至查找到与待脱敏原始数据对应的目标原始数据时,将中间脱敏数据c_mid作为与目标原始数据对应的目标脱敏数据;若待脱敏原始数据小于本次待查找的原始数据区间[m_min,m_max]中的中间原始数据m_mid,则将闭区间[c_min,c_mid]作为下一次待采用的脱敏数据区间[c_min,c_max]继续进行下一次随机采样,直至查找到与待脱敏原始数据对应的目标原始数据时,将中间脱敏数据c_mid作为与目标原始数据对应的目标脱敏数据。
[0145]
在一可选实施例中,处理器45在基于设定的种子密钥,在本次待采样的脱敏数据区间中,随机采样与本次待查找的原始数据区间中的中间原始数据对应的中间脱敏数据时,具体用于:采用有界伪随机算法,在本次待采样的脱敏数据区间中,随机采样与本次待查找的原始数据区间中的中间原始数据对应的中间脱敏数据;其中,有界伪随机算法以设定的种子密钥作为其采用的随机种子,以本次待采样的脱敏数据区间作为其输出范围,以本次待采样的脱敏数据区间的均值的p倍作为其标准差,p是可配置的安全性参数,且p》0。
[0146]
在一可选实施例中,处理器45在时,具体用于:在随机采样目标脱敏数据的过程中,还包括以下至少一种操作:若本次待采样的脱敏数据区间的上限值和下限值相同,则直接将上限值或下限值作为目标脱敏数据;若本次待查找的原始数据区间的上限值和下限值相同,本次待采样的脱敏数据区间只包含两个脱敏数据,且基于本次待采样的脱敏数据区间计算出的中间脱敏数据等于本次待采样的脱敏数据区间的上限值,则直接将基于本次待采样的脱敏数据区间计算出的中间脱敏数据作为目标脱敏数据。
[0147]
在一可选实施例中,处理器45在与待脱敏原始数据对应的有序原始数据集中,查
找与待脱敏原始数据对应的目标原始数据之前,还用于:获取数据源端提供的与待脱敏原始数据对应的有序原始数据集,与有序原始数据集对应的有序脱敏数据集以及设定的种子密钥;或者从指定的数据存储空间中,读取预置的与待脱敏原始数据对应的有序原始数据集,与有序原始数据集对应的有序脱敏数据集以及设定的种子密钥。
[0148]
需要说明的是,本实施例的数据处理设备可以为电商场景中待发布的公域数据进行脱敏处理。所述公域数据包括电商平台内部的行业销售金额、行业销售量、类目销售金额、类目销售量以及平台访问量中的至少一种。基于此,处理器45还用于:
[0149]
接收电商平台的调用请求;根据电商平台发起的调用请求,获取电商平台需要向商家发布的原始公域数据;在与原始公域数据对应的有序公域数据集中,查找与原始公域数据对应的目标公域数据;基于设定的种子密钥,在与有序公域数据集对应的有序脱敏数据集中,随机采样与目标公域数据对应的目标脱敏数据;向电商平台返回目标脱敏数据,以供电商平台利用目标脱敏数据代替原始公域数据后发布给商家;其中,基于种子密钥随机采样出的目标脱敏数据保留了原始公域数据之间的有序性。
[0150]
进一步,如图4所示,该数据处理设备还包括:显示器47、电源组件48、音频组件49等其它组件。图4中仅示意性给出部分组件,并不意味着数据处理设备只包括图4所示组件。另外,图4中虚线框所示组件为可选组件,而非必选组件,具体可视数据处理设备的实现形态而定。如果数据处理设备实现为传统服务器、云服务器、服务器阵列等,可以不包含虚线框所示的组件。
[0151]
相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述数据处理方法实施例中可由数据处理设备执行的各步骤。
[0152]
图5为本技术示例性实施例提供的另一种数据处理设备的结构示意图。如图5所示,该设备包括:存储器54和处理器55。
[0153]
存储器54,用于存储计算机程序,并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
[0154]
存储器54可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0155]
处理器55,与存储器54耦合,用于执行存储器54中的计算机程序,以用于:获取数据处理设备在运行过程中产生的待脱敏原始数据;在与待脱敏原始数据对应的有序原始数据集中,查找与待脱敏原始数据对应的目标原始数据;以及基于设定的种子密钥,在与有序原始数据集对应的有序脱敏数据集中,随机采样与目标原始数据对应的目标脱敏数据;输出目标脱敏数据;其中,基于种子密钥随机采样出的目标脱敏数据保留了待脱敏原始数据之间的有序性。
[0156]
在一可选实施例中,处理器55在获取数据处理设备在运行过程中产生的待脱敏原始数据时,具体用于:展示目标应用对应的脱敏配置界面;响应用户在脱敏配置界面上的第一输入操作,获取用户输入的指向待脱敏原始数据的数据参数;根据数据参数,从目标应用产生的数据集中获取待脱敏原始数据。
[0157]
在一可选实施例中,处理器55还用于:响应用户在脱敏配置界面上的第二输入操作,获取用户输入的与待脱敏原始数据对应的有序原始数据集,与有序原始数据集对应的有序脱敏数据集以及设定的种子密钥。
[0158]
需要说明的是,本实施例的数据处理设备可以实现为电商场景中的电商平台,并且可对待发布的公域数据进行脱敏处理。所述公域数据包括电商平台内部的行业销售金额、行业销售量、类目销售金额、类目销售量以及平台访问量中的至少一种。基于此,处理器55还用于:
[0159]
获取需要向商家发布的原始公域数据;在与原始公域数据对应的有序公域数据集中,查找与原始公域数据对应的目标公域数据;基于设定的种子密钥,在与有序公域数据集对应的有序脱敏数据集中,随机采样与目标公域数据对应的目标脱敏数据;利用目标脱敏数据代替原始公域数据后发布给商家;其中,基于种子密钥随机采样出的目标脱敏数据保留了原始公域数据之间的有序性。
[0160]
进一步,如图5所示,该数据处理设备还包括:通信组件56、显示器57、电源组件58、音频组件59等其它组件。图5中仅示意性给出部分组件,并不意味着数据处理设备只包括图5所示组件。另外,图5中虚线框所示组件为可选组件,而非必选组件,具体可视数据处理设备的实现形态而定。如果数据处理设备实现为传统服务器、云服务器、服务器阵列等,可以不包含虚线框所示的组件。
[0161]
相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述数据处理方法实施例中可由数据处理设备执行的各步骤。
[0162]
上述图4和图5中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如wifi,2g、3g、4g/lte、5g等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0163]
上述图4和图5中的显示器包括屏幕,其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
[0164]
上述图4和图5中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0165]
上述图4和图5中的音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(mic),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
[0166]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0167]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0168]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0169]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0170]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0171]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0172]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0173]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0174]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同
替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献