数据处理方法、设备、系统及存储介质与流程

2022-06-18 00:15:26 来源：中国专利 TAG：

1.本技术涉及互联网技术领域，尤其涉及一种数据处理方法、设备、系统及存储介质。

背景技术：

2.随着大数据时代的到来，大数据分析平台越来越多。几乎所有的大数据分析平台都对外提供了数据统计分析功能，例如直方图分析。最典型的直方图分析功能是人群画像分析。为实现隐私保护，各个大数据分析平台通常采用差分隐私技术，在保证数据查询准确性的同时，为数据提供一定程度的隐私保护。
3.其中，中心化差分隐私(central differential privacy)是一种常见的差分隐私技术。在应用中，用户将真实数据上传给可信的数据所有方，数据所有方为数据分析方开放数据分析功能，并在对外输出的分析结果上随机增加噪声，为用户数据提供隐私保护。但是，因为每次查询都要在分析结果上随机增加噪声，对于具有相关性的查询请求，很可能出现数据一致性问题，即本该相同的查询结果却在不同查询中因增加的噪声量不同而得到了不同的结果。

技术实现要素：

4.本技术的多个方面提供一种数据处理方法、设备、系统及存储介质，用以在实现数据隐私保护的同时，解决中心化差分隐私存在的数据一致性问题。
5.本技术实施例提供一种数据处理系统，包括：至少一个数据源端、数据置乱端以及数据分析端；所述至少一个数据源端，用于基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据以得到混合数据；所述数据置乱端，用于对所述混合数据进行置乱处理，并将置乱后的混合数据提供给所述数据分析端；所述数据分析端，用于根据查询用户的查询请求，采用所述数据分析算法对所述置乱后的混合数据进行数据分析，并将数据分析结果输出给所述查询用户。
6.本技术实施例还提供一种数据处理系统，包括：至少一个数据源端、数据置乱端以及数据分析端；所述至少一个数据源端，用于将原始数据上传至所述数据置乱端；所述数据置乱端，用于基于数据分析算法的差分隐私参数，在所述原始数据中添加虚拟数据以得到混合数据，对所述混合数据进行置乱处理；所述数据分析端，用于根据查询用户的查询请求，采用所述数据分析算法对置乱后的混合数据进行数据分析，并将数据分析结果输出给所述查询用户。
7.本技术实施例还提供一种数据处理方法，适用于于数据源端，所述方法包括：生成原始数据；基于数据分析算法的差分隐私参数，在所述原始数据中添加虚拟数据，以得到混合数据；将所述混合数据上传至数据置乱端，以供所述数据置乱端将所述混合数据置乱后提供给数据分析端，由所述数据分析端采用所述数据分析算法对置乱后的混合数据进行数据分析。
8.本技术实施例还提供一种数据处理方法，适用于数据置乱端，所述方法包括：接收至少一个数据源端上传的原始数据；基于数据分析算法的差分隐私参数，在所述原始数据中添加虚拟数据，以得到混合数据；对所述混合数据进行置乱处理，并将置乱后的混合数据发送给数据分析端，以供所述数据分析端采用所述数据分析算法对所述置乱后的混合数据进行数据分析。
9.本技术实施例还提供一种数据处理方法，包括：接收至少一个数据源上传的原始数据；基于数据分析算法的差分隐私参数，在所述原始数据中添加虚拟数据以得到混合数据，并对所述混合数据进行置乱处理以得到置乱后的混合数据；根据查询用户的查询请求，采用所述数据分析算法对所述置乱后的混合数据进行数据分析，并将数据分析结果输出给所述查询用户。
10.本技术实施例还提供一种数据源设备，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：生成原始数据；基于数据分析算法的差分隐私参数，在所述原始数据中添加虚拟数据，以得到混合数据；将所述混合数据上传至数据置乱端，以供所述数据置乱端将所述混合数据置乱后提供给数据分析端，由所述数据分析端采用所述数据分析算法对置乱后的混合数据进行数据分析。
11.本技术实施例还提供一种数据处理设备，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：接收至少一个数据源端上传的原始数据；基于数据分析算法的差分隐私参数，在所述原始数据中添加虚拟数据，以得到混合数据；对所述混合数据进行置乱处理，并将置乱后的混合数据发送给数据分析端，以供所述数据分析端采用所述数据分析算法对所述置乱后的混合数据进行数据分析。
12.本技术实施例还提供一种数据处理设备，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：接收至少一个数据源上传的原始数据；基于数据分析算法的差分隐私参数，在所述原始数据中添加虚拟数据以得到混合数据，并对所述混合数据进行置乱处理以得到置乱后的混合数据；根据查询用户的查询请求，采用所述数据分析算法对所述置乱后的混合数据进行数据分析，并将数据分析结果输出给所述查询用户。
13.本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被处理器执行时，致使所述处理器实现本技术实施例提供的各方法中的步骤。
14.在本技术实施例中，提供了一种基于虚拟数据的本地差分隐私机制，即基于数据分析算法的差分隐私参数，在原始数据中添加一定数量的虚拟数据，之后对添加虚拟数据后的混合数据进行置乱操作，将置乱后的混合数据提供给数据分析方进行分析。其中，在原始数据中添加虚拟数据，可为原始数据提供一定程度的隐私保护，且经数据分析端修正后的数据分析结果可直接提供给查询用户，无需添加噪声量，可解决中心化差分隐私存在的数据一致性问题；另外，对添加虚拟数据的混合数据进行置乱操作，只需添加较少数量的虚拟数据即可满足差分隐私需求，提供可量化的隐私保护效果。
附图说明
15.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
16.图1为本技术示例性实施例提供的一种数据处理系统的结构示意图；
17.图2为本技术示例性实施例提供的另一种数据处理系统的结构示意图；
18.图3a为本技术示例性实施例提供的一种数据处理方法的流程示意图；
19.图3b为本技术示例性实施例提供的另一种数据处理方法的流程示意图；
20.图3c为本技术示例性实施例提供的又一种数据处理方法的流程示意图；
21.图4a为本技术示例性实施例提供的一种数据处理装置的结构示意图；
22.图4b为本技术示例性实施例提供的一种数据源设备的结构示意图；
23.图5a为本技术示例性实施例提供的另一种数据处理装置的结构示意图；
24.图5b为本技术示例性实施例提供的一种数据处理装置的结构示意图；
25.图6a为本技术示例性实施例提供的又一种数据处理装置的结构示意图；
26.图6b为本技术示例性实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
27.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
28.针对现有中心化差分隐私存在的单点失效问题，在本技术实施例中，提出一种基于虚拟数据的本地差分隐私机制，即基于数据分析算法的差分隐私参数，在原始数据中添加一定数量的虚拟数据，之后对添加虚拟数据的混合数据进行置乱操作，将置乱后的混合数据提供给数据分析方进行分析。其中，在原始数据中添加虚拟数据，可为原始数据提供一定程度的隐私保护，且经数据分析端修正后的数据分析结果可直接提供给查询用户，无需添加噪声量，可解决中心化差分隐私存在的数据一致性问题；另外，对添加虚拟数据的混合数据进行置乱操作，只需添加较少数量的虚拟数据即可满足差分隐私需求，提供可量化的隐私保护效果。
29.以下结合附图，详细说明本技术各实施例提供的技术方案。
30.图1为本技术示例性实施例提供的一种数据处理系统的结构示意图。如图1所示，该数据处理系统100包括：至少一个数据源端101、数据置乱端102以及数据分析端103。
31.在本实施例中，数据源端101是能够产生原始数据的一端，在实现形态上，数据源端101可以是任何能够产生原始数据的应用程序、应用系统、应用系统中的功能模块、客户端、硬件设备(如服务器、终端设备)或硬件芯片(如cpu、gpu或fpga)等。例如，数据源端101可以是安装并运行于各种终端设备上的视频类app、即时通讯类app、在线教育类app、在线购物类app或游戏类app等。在本实施例中，并不限定数据源端101的部署实施形态。
32.在本实施例中，数据置乱端102是指能够对接收到的数据进行置乱处理的一端。其中，对数据进行置乱处理包括两方面的操作，一方面移除数据中可能标识到具体对象的标识信息，例如姓名、ip地址、mac地址、时间戳等；另一方面对数据(可以是移除标识信息后的
数据，也可以是移除标识信息前的数据)进行随机置乱，打乱数据之间的排列顺序，尽可能消除具体对象与数据之间的关联关系。其中，关于这两方面操作的执行顺序不做限定。在实现形态上，数据置乱端102可以实现为具有数据置乱功能的应用程序、服务、实例、软件形态的功能模块、虚拟机(virtual machine，vm)或容器，或者也可以实现为具有数据置乱功能的硬件设备(如服务器或终端设备)或硬件芯片(如cpu、gpu或fpga)等。在本实施例中，同样不限定数据置乱端102的部署实施形态。
33.在本实施例中，数据分析端103是指能够采用数据分析算法对接收到的数据进行数据分析的一端，在实现形态上，数据分析端103可以实现为具有数据分析功能的应用程序、服务、实例、软件形态的功能模块、vm或容器，或者也可以实现为具有数据分析功能的硬件设备(如服务器或终端设备)、硬件芯片(如cpu、gpu或fpga)等。在本实施例中，同样不限定数据分析端103的部署实施形态。
34.在一种应用场景中，如图1所示，数据源端101是安装并运行有应用程序的终端设备，应用程序负责产生原始数据；数据分析端103是运行有数据分析算法并可对外提供数据分析服务的云端服务器；相对于数据源端101和数据分析端103，数据置乱端102可实现为常规服务器，该常规服务器可作为终端设备与云端服务器之间的数据中台，可面向云端服务器提供数据服务，负责对来自终端设备的数据进行各种处理，从而向云端服务器提供符合要求的数据。
35.在本实施例中，数据源端101可产生原始数据。根据应用场景的不同，数据源端101产生的原始数据会有所不同。例如，若数据源端101是购物类应用，则其产生的原始数据包括但不限于：各维度上的商品销售额、商品销售量，各维度上的商品评论数，以及各类目下的商品数量、商品种类、库存量，等等。又例如，若数据源端101是游戏类应用，则其产生的原始数据包括但不限于：游戏玩家的数量、年龄段、性别比例，各类游戏道具的销售量、销售额，等等。
36.除了产生原始数据之外，数据源端101还可将原始数据提供给数据分析端103进行数据分析，以供数据分析端103为查询用户提供相应查询结果。可选地，数据分析端103可以针对数据源端101产生的原始数据进行直方图(histogram)形式的统计分析。下面以原始数据是包含k种可能取值的n个枚举类型的个体数据为例，对直方图统计分析进行简单说明。其中，n和k均是大于等于1的正整数。
37.在一应用场景中，假设n＝10000，即1000个具有性别属性的个体数据，k可能的取值为{男，女，未知}，即k＝3，则可以通过直方图统计出k在每种可能取值下的个体数量；进一步假设，在n＝10000个具有性别属性的个体数据中，如果k取值为男性的个体数为2000，k取值为女性的个体数量为4000，k取值为未知的个体数量为4000，则直方图统计结果为{男：2000人，女：4000人，未知：4000人}。
38.在另一应用场景中，假设n＝20000，即20000个具有年龄属性的个体数据，k可能的取值为{小于18岁，18岁-30岁，31岁-45岁，46岁-60岁，60岁以上}，即k＝5，则可以通过直方图统计出k在每种可能取值下的个体数量；进一步假设，在n＝20000个具有年龄属性的个体数据中，如果各个年龄区间的个体数量分别为3000、4000、5000、5000、3000，则直方图统计结果为{小于18岁：3000人，18岁-30岁：4000人，31岁-45岁：5000人，46岁-60岁：5000人，60岁以上：3000人}。
39.在本实施例中，为了防止攻击者从数据分析结果中获取或窥探到用户隐私信息，提出一种基于虚拟数据的本地差分隐私机制，采用该机制在保证数据分析结果准确性的同时可实现数据隐私保护。基于此，可以定义数据分析端103所使用的数据分析算法m满足差分隐私保护，并定义数据分析算法m满足的差分隐私参数。例如，可以定义数据分析算法m满足(ε，δ)-差分隐私性；其中，把ε称为隐私预算，ε越小，意味着临近数据集的输出结果越接近，隐私保护程度越好；把δ称为失效概率，即数据分析算法m有δ的概率不满足ε-差分隐私性。当δ＝0时，将(ε，δ)-差分隐私性简写为ε-差分隐私性。具体地，如果对于任意两个可能的数据元素v，v’∈d，对于数据分析算法m任意可能的输出范围有pr[m(v)∈r]≤e^ε
·
pr[m(v’)∈r] δ，则称数据分析算法m满足(ε，δ)-差分隐私性。其中，pr[m(v)∈r]表示数据分析算法m以数据v为输入，输出结果在输出范围r内的概率；pr[m(v’)∈r]表示数据分析算法m以数据v’为输入，输出结果在输出范围r内的概率。需要说明的是，根据对差分隐私保护程度的不同，差分隐私参数ε和δ的取值会有所不同，可根据应用需求灵活设定。
[0040]
在本实施例中，基于虚拟数据的本地差分隐私机制可由数据源端101、数据置乱端102以及数据分析端103配合实施。如图1中
①
所示，至少一个数据源端101可以以数据分析算法m的差分隐私参数为依据，在原始数据中添加虚拟数据以得到混合数据。在本实施例中，在满足数据分析算法m需要满足的差分隐私保护程度的情况下，并不限定在原始数据中添加虚拟数据的方式，也不限定在原始数据中所添加的虚拟数据的数量。
[0041]
关于添加虚拟数据的方式：在一可选实施例中，可以根据原始数据的数据结构，随机产生一定数量的虚拟数据，虚拟数据的数据结构与原始数据的数据结构相同；之后，将虚拟数据添加到原始数据中以得到混合数据；一方面在原始数据上增加虚拟数据，可以为原始数据提供一定程度地隐私保护，另一方面这种方式实施起来更为简单灵活。或者，在另一可选实施例中，原始数据可能是枚举类型的数据，即原始数据x∈d，其中d为原始数据对应的数据集合，该数据集合中包括可能的k个枚举值，d＝{d_1，d_2，
…
，d_k}，其中，原始数据来自于这些枚举值；对于这种情况，可以在d＝{d_1，d_2，
…
，d_k}中随机均匀采样出虚拟数据，并将虚拟数据添加到原始数据中从而得到混合数据；一方面在原始数据上增加虚拟数据，可以为原始数据提供一定程度地隐私保护；另一方面虚拟数据来自原始数据对应的枚举值，且满足均匀分布，在对数据进行统计分析时随机噪声可以相互抵消，可以降低对原始数据的干扰，进而降低数据分析结果中的噪声量，有利于提高数据分析结果的准确性；与此同时，各数据源端101只需采用随机均匀分布的方式增加虚拟数据，不需要额外的复杂数据采样或随机化过程，实施相对简单，效率极高。
[0042]
关于添加虚拟数据的数量：在一可选实施例中，各数据源端101可基于数据分析算法m的差分隐私参数，获取数据混合比例s；根据该数据混合比例s，在原始数据中添加虚拟数据以得到混合数据。其中，数据混合比例s可以是大于或等于1的数，也可能是大于0且小于1的数。如果数据混合比例s等于1，意味着原始数据与虚拟数据的数量相同，两者之间的比例为1:1；如果数据混合比例s大于1，意味着虚拟数据的数量要多于原始数据的数量；如果数据混合比例小于1，意味着原始数据的数量多于虚拟数据的数量。在数据混合比例s等于1的情况下，一种可选方式为：各数据源端101为每个原始数据对应增加一个虚拟数据；进一步可选地，在每个数据源端101产生一个原始数据的情况下，每个数据源端101为各自产
生的原始数据对应增加一个虚拟数据。在数据混合比例s小于1的情况下，一种可选方式为：一部分数据源端101不为其产生的原始数据增加虚拟数据，另一部分数据源端101为其产生的原始数据对应增加虚拟数据。在数据混合比例s小于1的情况下，对于各数据源端101来说，可以采用一定协商机制确定自身是否属于有权添加虚拟数据的部分数据源端，在确定自己属于有权添加虚拟数据的数据源端的情况下，在其产生的原始数据中添加虚拟数据以得到混合数据。可选地，在数据混合比例s小于1的情况下，各数据源端101可以采用随机答复机制来确定自身是否属于有权添加虚拟数据的数据源端，例如各数据源端101可以以一定概率抛硬币，如果硬币正面朝上，表示该数据源端有权添加虚拟数据；如果硬币正面朝下，表示该数据源端无权添加虚拟数据。在这些可选方式中，有权添加虚拟数据的数据源端101可采用前述实施例提供的方式获得虚拟数据，并将虚拟数据添加到原始数据中。
[0043]
在得到混合数据后，如图1中
②
所示，混合数据被上传至数据置乱端102。进一步，如图1中
③
所示，数据置乱端102在接收混合数据之后，对混合数据进行置乱处理。其中，置乱处理的一种实施过程包括：按照设定的对象标识在混合数据中查找，将各混合数据中存在的对象标识移除；设定的对象标识可以是但不限于：姓名、ip地址、mac地址、时间戳等；之后，将移除对象标识后的混合数据进行随机置乱，打乱数据之间的排列顺序，尽可能消除具体对象与数据之间的关联关系。其中，对混合数据进行置乱处理，即对混合数据进行一定程度的匿名处理，增加了攻击者从数据分析结果中获取隐私信息的难度，相当于对数据具有了一定程度上的隐私保护，这使得可以少增加一些虚拟数据(甚至只需一部分数据源端增加虚拟数据)即可满足既定的差分隐私定义，提供可量化的隐私保护效果。
[0044]
进一步，如图1中
④
所示，在得到置乱后的混合数据之后，数据置乱端102将置乱后的混合数据提供给数据分析端103。如图1中
⑤
所示，数据分析端103在接收置乱后的混合数据之后，可根据查询用户104的查询请求，采用数据分析算法m对置乱后的混合数据进行数据分析。由于进行数据分析的数据基础并非原始数据，而是根据差分隐私保护需求增加了虚拟数据且置乱后的混合数据，所以数据分析结果满足既定的差分隐私定义，与此同时，数据分析结果中也存在一定偏差。为了保证分析结果的准确性，如图1中
⑥
所示，根据虚拟数据对数据分析结果进行修正。修正后的数据分析结果既可以满足既定的差分隐私定义也更为准确，故可以将修正后的数据分析结果直接提供给查询用户104，如图1中
⑦
所示。需要说明的是，对数据分析结果进行修正是一可选操作，也可以不对数据分析结果进行修正，而是直接将带有一定偏差的数据分析结果提供给查询用户104。对查询用户104来说，可以获知接收到的数据分析结果是带有一定偏差的，还是经过修正的；如果收到的数据分析结果带有一定偏差，在使用数据分析结果时，可以灵活地考虑偏差的影响。
[0045]
在本实施例中，并不对查询用户104做限定。在一可选实施例中，查询用户104是数据源端101，则数据源端101产生原始数据之后，为了保护隐私，可在原始数据中添加虚拟数据，并将添加虚拟数据后的混合数据发送给数据置乱端102(如数据中台)，由数据置乱端102进一步对混合数据进行置乱处理，并最终由数据置乱端102将置乱后的混合数据提供给数据分析端103；数据分析端103在接收到数据源端101发送的查询请求后，采用数据分析算法m对置乱后的混合数据进行数据分析，并将未经修正的数据分析结果或经过修正后的数据分析结果返回给发起查询请求的数据源端101；对数据源端101来说，可以在保护隐私的情况下使用数据分析端103提供的数据分析服务，进而根据数据分析端103返回的数据分析
结果进行质量监控、服务改进等后续操作。
[0046]
在另一可选实施例中，查询用户104可以是与各数据源端101或数据置乱方102具有合作关系的第三方，第三方期望与数据源端或数据置乱方102合作，但在合作之前期望了解各数据源端101的数据分布情况。对此，各数据源端101产生原始数据之后，为了保护隐私，可在原始数据中添加虚拟数据，并将添加虚拟数据后的混合数据发送给数据置乱端102(如数据中台)，由数据置乱端102进一步对混合数据进行置乱处理，并最终由数据置乱端102将置乱后的混合数据提供给数据分析端103；数据分析端103在接收到第三方的查询请求后，采用数据分析算法m对置乱后的混合数据进行数据分析，并将未经修正的数据分析结果或经过修正后的数据分析结果返回给发起查询请求的第三方，以供第三方了解各数据源端101的数据分布情况。
[0047]
在上述实施例中，数据分析端103得到的数据分析结果可以是商品的销售量情况、同一商品类目下的商品价格分布情况、同一商品类目对应的用户年龄分布情况、游戏用户的年龄分布以及性别分布等。根据应用场景的不同，数据分析结果也会有所不同，对此不做限定。
[0048]
在本技术一些可选实施例中，考虑到数据分析结果中带有噪声且该噪声主要是由添加虚拟数据引起的，故数据分析端103可根据虚拟数据对数据分析结果进行修正。其中，数据分析结果中的噪声量与虚拟数据的数量有关，虚拟数据的数量越多，噪声量就越多。基于此，在根据数据混合比例s在原始数据中添加虚拟数据的情况下，数据分析端103可以根据该数据混合比例s，计算由虚拟数据产生的噪声量，根据该噪声量对数据分析结果进行修正。为了便于描述和区分，将由虚拟数据产生的噪声量称为第一噪声量。
[0049]
在一应用场景中，假设在n个原始数据中按照数据混合比例s混入了虚拟数据，而原始数据对应的数据集合包括可能的k个枚举值，如d＝{d_1，d_2，
…
，d_k}，则由虚拟数据产生的第一噪声量可表示为：n
·
s/k。例如，对于每一个可能的枚举值d_j∈{d_1，d_2，
…
，d_k}，数据分析端103可以采用数据分析算法m统计分析置乱后的混合数据中d_j出现的总次数m_j，并计算修正后的总次数n_j＝m_j-n
·
s/k；之后，数据分析端103可以将直方图统计结果：{n_1，
…
，n_k}返回给发起查询请求的数据源端101或第三方。
[0050]
为了能够证实本技术实施例基于虚拟数据的本地差分隐私机制能够产生的有益效果，对该机制进行了证明，可以得到：对于任意k，s，n，ε∈[0，1)，δ∈[0，0.2907)，基于虚拟数据的本地差分隐私机制满足(ε，δ)-差分隐私性，且满足ε＝(14k
·
ln(2/δ_d)/(|n
·
s|-1))^1/2。进一步还可以证明：对于任意k，s，n，在基于虚拟数据的本地差分隐私机制中，数据分析结果的均方误差(mse)为mse＝s(k-1)/(n
·
k^2)。由上述两个公式可知，随着虚拟数据数量的增加，基于虚拟数据的本地差分隐私机制可提供更好的隐私保护程度，但数据分析结果的均方误差会有所提升，在实际应用中，可根据实际应用需求适当选择数据混合比例s的取值，用以平衡隐私保护性和分析结果准确性之间的关系。
[0051]
本技术实施例提供的数据处理系统，可实现基于虚拟数据的本地差分隐私机制，在该机制中，数据源端在上传给数据置乱端的原始数据中添加若干个虚拟数据；随后，数据置乱端对混合数据进行置乱操作，即对混合数据进行一定程度的匿名化处理后，将置乱后的混合数据提供给数据分析端进行分析。其中，虚拟数据可以从原始数据对应的数据集合中随机均匀采样得到，即虚拟数据满足均匀分布，因此对数据进行统计时随机噪声可以相
互抵消，从而提高数据分析结果的准确性；另外，对数据进行一定程度的匿名处理使得只需要增加少量的虚拟数据(甚至只需要一部分数据源端在原始数据中增加虚拟数据)即可满足既定的差分隐私定义，提供可量化的隐私保护效果；再者，相对于中心化差分隐私机制，该机制下经数据分析端修正后的数据分析结果可直接提供给查询用户，无需添加噪声量，可解决中心化差分隐私存在的数据一致性问题。更进一步，相对于中心化差分隐私机制，该机制不再依赖可信的数据所有方，可在实现数据隐私保护的同时，解决中心化差分隐私存在的单点失效问题。
[0052]
进一步可选地，在本技术一些实施例中，如图1中a0所示，至少一个数据源端101在原始数据中添加虚拟数据之前，还可以对原始数据进行随机化处理。随机化处理是指按照一定的随机化概率，利用随机化数据替代一部分原始数据，随机化数据是不同于被替换的原始数据的数据。由此可知，经过随机化处理后的数据的数量不变，但有一部分数据不再是原始数据，这可以起到隐私保护的作用。当然，除了在原始数据中添加虚拟数据之前，对原始数据进行随机化处理之外，也可以在原始数据中添加虚拟数据得到混合数据之后，且在将混合数据发送给数据置乱端102之前，对混合数据中的原始数据进行随机化处理。
[0053]
无论是在添加虚拟数据之前还是在添加虚拟数据之后，可以采用相同的方式对原始数据进行随机化处理。在本实施例中，并不限定对原始数据进行随机化处理的方式。可选地，一种随机化处理的方式为：基于数据分析算法m的差分隐私参数，获取随机化概率；根据随机化概率θ对原始数据进行随机化处理。进一步，可以采用以随机化概率θ作为概率参数的随机答复机制，对原始数据进行随机化处理；简单来说，针对原始数据，以随机化概率θ作为概率参数投掷硬币，其中，硬币正面朝上的概率为p，硬币正面朝下的概率为q，p和q的取值与θ相关；若硬币正面朝上，则保持原始数据不变；若硬币正面朝下，则利用随机化数据替代该原始数据。进一步，从技术实现上，可以采用产生随机数的方式来实现投掷硬币这件事，其中，产生满足第一条件的随机数代表投掷出正面朝上的硬币这一事件，产生满足第二条件的随机数代表投掷出正面朝下的硬币这一事件。基于此，一种随机化处理的过程为：针对原始数据，可以按照随机化概率θ产生随机数，若随机数满足第一条件，保持该原始数据不变；若随机数满足第二条件，则利用随机化数据替代该原始数据。其中，产生满足第一条件的随机数的概率和产生满足第二条件的随机数的概率由随机化概率θ确定，产生满足第一条件的随机数的概率即为硬币正面朝上的概率p，产生满足第二条件的随机数的概率即为硬币正面朝下的概率q。
[0054]
在一可选实施例中，可以随机产生随机化数据。在另一可选实施例中，原始数据可能是枚举类型的数据，即原始数据x∈d，其中d为原始数据对应的数据集合，该数据集合中包括可能的k个枚举值，d＝{d_1，d_2，
…
，d_k}，其中，原始数据来自于这些枚举值；对于这种情况，可以在d＝{d_1，d_2，
…
，d_k}中随机均匀采样出随机化数据。也就是说，对原始数据，在投掷出正面朝上的硬币时，也就是产生满足第一条件的随机数时，则保持该原始数据不变；在投掷出正面朝下时，也就是产生满足第二条件的随机数时，在d＝{d_1，d_2，
…
，d_k}中随机均匀采样出随机化数据，并利用该随机化数据替代该原始数据。在该可选实施例中，产生满足第一条件的随机数的概率即为p＝e^(θ)/(e^θ k-1)，产生满足第二条件的随机数的概率即为q＝1/(e^θ k-1)。
[0055]
进一步，在将随机化处理与添加虚拟数据相结合的实施例中，随机化处理和添加
虚拟数据都能在一定程度上带来隐私保护的效果，两者可以相互配合满足既定的隐私保护定义。也就是说，在满足隐私保护程度的情况下，如果随机化处理的力度大一些，虚拟数据的数量可以少一些；相反，如果随机化处理的力度小一些，虚拟数据的数量可以多一些。考虑到随机化处理的力度可体现为随机化概率，虚拟数据的数量可体现为数据混合比例，因此，可基于数据分析算法的差分隐私参数，同时获取随机化概率θ和数据混合比例s。基于此，如果在添加虚拟数据之前，对原始数据进行随机化处理，则可以根据该随机化概率θ产生随机数；若随机数满足第一条件，保持原始数据；若随机数满足第二条件，则在d＝{d_1，d_2，
…
，d_k}中随机均匀采样出随机化数据，并利用随机化数据替代该原始数据；之后，根据数据混合比例s，在d＝{d_1，d_2，
…
，d_k}中随机均匀采样出虚拟数据，在随机化后的数据中添加虚拟数据以得到混合数据。如果先添加虚拟数据，则根据数据混合比例s，在d＝{d_1，d_2，
…
，d_k}中随机均匀采样出虚拟数据，在原始数据中添加虚拟数据以得到混合数据；之后，针对混合数据中的原始数据，根据该随机化概率θ产生随机数；若随机数满足第一条件，保持原始数据；若随机数满足第二条件，则在d＝{d_1，d_2，
…
，d_k}中随机均匀采样出随机化数据，并利用随机化数据替代该原始数据。
[0056]
在对原始数据进行随机化处理并添加虚拟数据之后，可以将所得到的混合数据发送给数据置乱端102；数据置乱端102对接收到的混合数据进行置乱处理，并将置乱后的混合数据提供给数据分析端103；数据分析端103采用数据分析算法m对置乱后的混合数据进行数据分析，并对数据分析结果进行修正，以去除由虚拟数据和随机化处理引入的噪声量，并将修正后的数据分析结果返回给发起查询请求的查询用户104，如图1中
②‑⑦
所示。
[0057]
在本实施例中，数据分析结果中的噪声主要是由添加虚拟数据和随机化处理引起的。其中，数据分析结果中的噪声量与虚拟数据的数量有关，虚拟数据的数量越多，噪声量就越多；相应地，数据分析结果中的噪声量还与随机化处理的力度有关，随机化处理的力度越大，噪声量就越多，而随机化处理的力度可通过随机化概率体现。基于此，在根据数据混合比例s在原始数据中添加虚拟数据并按照随机化概率θ对原始数据进行随机化处理的情况下，数据分析端103可以根据该数据混合比例s，计算由虚拟数据产生的第一噪声量，并根据随机化概率，计算由随机化处理产生的第二噪声量；根据第一噪声量和第二噪声量对数据分析结果进行修正。
[0058]
在一应用场景中，假设在n个原始数据中按照数据混合比例s混入了虚拟数据，并按照随机化概率θ对原始数据进行随机化处理，而原始数据对应的数据集合包括可能的k个枚举值，如d＝{d_1，d_2，
…
，d_k}，则由虚拟数据产生的第一噪声量可表示为：n
·
s/k，由随机化处理产生的第二噪声量可表示为：n
·
λ/k。例如，对于每一个可能的枚举值d_j∈{d_1，d_2，
…
，d_k}，数据分析端103可以采用数据分析算法m统计分析置乱后的混合数据中d_j出现的总次数m_j，并计算修正后的总次数n_j＝(m_j-n
·
s/k-n
·
λ/k)/(1-λ)；之后，数据分析端103可以将直方图统计结果：{n_1，
…
，n_k}返回给发起查询请求的数据源端101或第三方。其中，λ＝k/(θ k-1)。
[0059]
为了能够证实本技术实施例结合虚拟数据和随机化处理的本地差分隐私机制能够产生的有益效果，对该机制进行了证明，可以得到：对于任意k，s，n，ε∈[0，1)，λ＝k/(θ k-1)∈(0，1]，δ∈[0，0.5814)，结合虚拟数据和随机化处理的本地差分隐私机制满足(ε，δ)-差分隐私性，且满足ε＝(14k
·
ln(4/δ)/(|n
·
s| (n-1)
·
λ-(2(n-1)
·
λ
·
ln(2/δ))^1/
2-1))^1/2。进一步还可以证明：对于任意k，s，n，在结合虚拟数据和随机化处理的本地差分隐私机制中，数据分析结果的均方误差为mse＝(e^θ k-2)/(n
·
(e^θ-1)^2) s(k-1)/(n
·
k^2)
·
((e^θ k-1)/(e^θ-1))^2。由上述两个公式可知，随着数据混合比例s(即虚拟数据数量)的增加，随机化处理中e^θ的降低，结合虚拟数据和随机化处理的本地差分隐私机制可提供更好的隐私保护程度，但数据分析结果的均方误差会有所提升，在实际应用中，可根据实际应用需求适当选择数据混合比例s和e^θ的取值，用以平衡隐私保护性和分析结果准确性之间的关系。
[0060]
本技术实施例提供的数据处理系统，可实现结合虚拟数据和随机化处理的本地差分隐私机制，在该机制中，一方面对原始数据进行本地差分隐私中的随机化处理，另一方面在原始数据中添加若干个虚拟数据；随后，对随机化处理和添加虚拟数据后的混合数据进行置乱操作，即对数据进行一定程度的匿名化处理后，将置乱后的数据提供给数据分析端进行分析。其中，虚拟数据可以从原始数据对应的数据集合中采用随机均匀采样方式得到，这些虚拟数据满足均匀分布，因此对数据进行统计时随机噪声可以相互抵消，从而提高数据分析结果的准确性；另外，对原始数据进行随机化和一定程度的匿名处理，这对原始数据也进行了相应的隐私保护处理，可以进一步提高隐私保护程度；而且由于对原始数据也进行了相应的隐私保护处理，在相同隐私保护程度下，使得虚拟数据的数量可以适当降低，即只需要针对一部分原始数据添加虚拟数据即可满足既定的差分隐私定义，提供可量化的隐私保护效果；再者，相对于中心化差分隐私机制，该机制下经数据分析端修正后的数据分析结果可直接提供给查询用户，无需添加噪声量，可解决中心化差分隐私存在的数据一致性问题。更进一步，相对于中心化差分隐私机制，该机制不再依赖可信的数据所有方，可在实现数据隐私保护的同时，解决中心化差分隐私存在的单点失效问题。
[0061]
在实际中，如果数据源端足够信任数据置乱端，则可以直接将产生的原始数据直接上传给数据置乱端，由数据置乱端代替数据源端进行虚拟数据的添加以及随机化处理，同样可以在保证分析结果准确性的同时实现隐私保护，而且数据分析端得到的未经修正的或修正后的数据分析结果同样可直接提供给查询用户，无需添加噪声量，可解决中心化差分隐私存在的数据一致性问题，能够产生与前述实施例相似的有益效果。
[0062]
图2为本技术示例性实施例提供的另一种数据处理系统的结构示意图。如图2所示，该数据处理系统200包括：至少一个数据源端201、数据置乱端202以及数据分析端203。
[0063]
关于至少一个数据源端201、数据置乱端202以及数据分析端203的实现形态及相关描述，与前述实施例中的数据源端101、数据置乱端102以及数据分析端103的实现形态及相关描述相同或相似，可参见前述实施例，在此不再赘述。
[0064]
在本实施例中，数据源端201、数据置乱端202以及数据分析端203相互配合可实现基于虚拟数据的本地差分隐私机制。具体地，数据源端201产生原始数据之后，直接将原始数据上传给数据置乱端202，如图2中
①
所示。数据置乱端202接收到原始数据之后，以数据分析算法m的差分隐私参数为依据，在原始数据中添加虚拟数据以得到混合数据，如图2中
③
所示。进一步，数据置乱端202对混合数据进行置乱处理，得到置乱后的混合数据，如图2中
④
所示。进一步，如图2中
⑤
所示，数据置乱端202将置乱后的混合数据发送给数据分析端203。如图2中
⑥
所示，数据分析端203在接收置乱后的混合数据之后，可根据查询用户204的查询请求，采用数据分析算法m对置乱后的混合数据进行数据分析。为了保证分析结果的准
确性，如图2中
⑦
所示，根据虚拟数据对数据分析结果进行修正。修正后的数据分析结果既可以满足既定的差分隐私定义也更为准确，故可以将修正后的数据分析结果提供给查询用户204，如图2中
⑧
所示。与图1所示实施例类似，图2中
⑦
所示的“对数据分析结果进行修正”也是一可选操作。数据分析端203也可以直接将未经修正的数据分析结果提供给查询用户204。
[0065]
进一步可选地，数据源端201、数据置乱端202以及数据分析端203相互配合还可实现结合虚拟数据和随机化处理的本地差分隐私机制。该机制与前述基于虚拟数据的本地差分隐私机制相比，数据置乱端202接收到原始数据之后，不仅需要在原始数据中添加虚拟数据，还需要对原始数据进行随机化处理。其中，可以在在原始数据中添加虚拟数据之前，对原始数据进行随机化处理，如图2中
②
所示。当然，除此之外，也可以在原始数据中添加虚拟数据之后，针对所得到的混合数据中的原始数据进行随机化处理。
[0066]
在本实施例中，添加虚拟数据和随机化处理的操作由数据置乱端202执行，其中，数据置乱端202添加虚拟数据和进行随机化处理的详细实施过程，与前述实施例中由数据源端101添加虚拟数据和进行随机化处理的详细过程相同或相似，差别仅在于执行主体不同，故可参见前述实施例，在此不再赘述。另外，本实施例中，数据置乱端202对数据进行置乱处理的详细实施过程以及数据分析端203进行数据分析和对数据分析结果进行修正的详细实施过程也可参见前述实施例，在此不再赘述。
[0067]
除了上述数据处理系统之外，本技术实施例还提供以下几种数据处理方法，具体可参见图3a-图3c所示实施例。
[0068]
图3a为本技术示例性实施例提供的一种数据处理方法的流程示意图。该方法主要是从图1所示系统中数据源端的角度进行的描述，如图3a所示，该方法包括：
[0069]
31a、生成原始数据。
[0070]
32a、基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据，以得到混合数据。
[0071]
33a、将上述混合数据上传至数据置乱端，以供数据置乱端将混合数据置乱后提供给数据分析端，由数据分析端采用数据分析算法对置乱后的混合数据进行数据分析。
[0072]
在一可选实施例中，上述步骤32a，即基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据，以得到混合数据，包括：基于数据分析算法的差分隐私参数，获取数据混合比例；根据数据混合比例，在原始数据中添加虚拟数据，以得到混合数据。
[0073]
进一步可选地，上述在原始数据中添加虚拟数据的过程中，可以在原始数据对应的数据集合中随机均匀采样出虚拟数据，并添加到原始数据中以得到混合数据。
[0074]
在一可选实施例中，在步骤33a之前，还包括：在添加虚拟数据之前或之后，即在步骤32a之前或之后，对原始数据进行随机化处理。
[0075]
进一步可选地，在添加虚拟数据之前，对原始数据进行随机化处理，包括：基于数据分析算法的差分隐私参数，获取数据混合比例和随机化概率；根据随机化概率对原始数据进行随机化处理；相应地，在原始数据中添加虚拟数据，以得到混合数据，包括：根据数据混合比例，在随机化后的数据中添加虚拟数据以得到混合数据。
[0076]
进一步可选地，在原始数据中添加虚拟数据，以得到混合数据，包括：基于数据分析算法的差分隐私参数，获取数据混合比例和随机化概率；根据数据混合比例，在原始数据
中添加虚拟数据以得到混合数据；相应地，在添加虚拟数据之后，对原始数据进行随机化处理，包括：根据随机化概率，对混合数据中的原始数据进行随机化处理。
[0077]
进一步可选地，根据随机化概率对原始数据进行随机化处理，包括：按照随机化概率产生随机数；若随机数满足第一条件，保持原始数据；若随机数满足第二条件，则利用随机化数据替代原始数据；其中，产生满足第一条件的随机数的概率和产生满足第二条件的随机数的概率由随机化概率确定。
[0078]
进一步，在利用随机化数据替代原始数据之前，还包括：在原始数据对应的数据集合中随机均匀采样出随机化数据。相应地，在原始数据或随机化后的数据中添加虚拟数据之前，还包括：在原始数据对应的数据集合中随机均匀采样出虚拟数据。
[0079]
在本实施例中，数据源端在原始数据中添加虚拟数据，可以为原始数据提供一定程度地隐私保护，与数据分析端相互配合，数据分析端可基于混合数据进行数据分析并将数据分析结果提供给查询用户，无需添加噪声量，可解决中心化差分隐私存在的数据一致性问题。进一步，在本实施例中，还可以从原始数据对应的数据集合中随机均匀采样得到虚拟数据，即虚拟数据满足均匀分布，则在对数据进行统计分析时随机噪声可以相互抵消，可以降低对原始数据的干扰，进而降低数据分析结果中的噪声量，有利于提高数据分析结果的准确性。进一步，在本实施例中，还可以对原始数据进行虚拟化处理，这意味着对原始数据也进行了相应的隐私保护处理，可以进一步提高隐私保护程度；而且由于对原始数据也进行了相应的隐私保护处理，在相同隐私保护程度下，使得虚拟数据的数量可以适当降低，即只需要针对一部分原始数据添加虚拟数据即可满足既定的差分隐私定义，提供可量化的隐私保护效果。
[0080]
图3b为本技术示例性实施例提供的另一种数据处理方法的流程示意图。该方法主要是从图2所示系统中数据置乱端的角度进行的描述，如图3b所示，该方法包括：
[0081]
31b、接收至少一个数据源端上传的原始数据。
[0082]
32b、基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据，以得到混合数据。
[0083]
33b、对上述混合数据进行置乱处理，并将置乱后的混合数据发送给数据分析端，以供数据分析端采用数据分析算法对置乱后的混合数据进行数据分析。
[0084]
在一可选实施例中，在步骤33b之前，还包括：在添加虚拟数据之前或之后，即在步骤32b之前或之后，对原始数据进行随机化处理。
[0085]
关于本实施例中各步骤的详细实施过程，可参见前述实施例，在此不再赘述。在本实施例中，添加虚拟数据的操作以及对原始数据进行随机化处理的操作由数据置乱端执行，有利于减轻数据源端的处理负担，节约数据源端的资源。
[0086]
在实际应用中，图2所示数据处理系统中的数据置乱端202可以与数据分析端203集成在一起实现，在这种系统架构下，在原始数据中添加虚拟数据以、对原始数据进行随机化处理、置乱处理以及数据分析处理均由同一设备完成。如图3c所示，为本技术示例性实施例提供的又一种数据处理方法的流程示意图。该方法主要是从一体化的数据分析端的角度进行的描述，如图3c所示，该方法包括：
[0087]
31c、接收至少一个数据源上传的原始数据。
[0088]
32c、基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据以得到混合
数据，并对混合数据进行置乱处理以得到置乱后的混合数据。
[0089]
33c、根据查询用户的查询请求，采用数据分析算法对置乱后的混合数据进行数据分析，并将数据分析结果输出给查询用户。
[0090]
在一可选实施例中，将数据分析结果输出给查询用户包括：根据虚拟数据对数据分析结果进行修正，并将修正后的数据分析结果输出给查询用户。
[0091]
在一可选实施例中，该还包括：在添加虚拟数据之前或之后，对原始数据进行随机化处理。
[0092]
关于本实施例中各步骤的详细实施过程，可参见前述实施例，在此不再赘述。在本实施例中，添加虚拟数据的操作、对原始数据进行随机化处理、置乱处理以及数据分析处理等操作均由一体化的数据分析端执行，系统架构更加简单，有利于减轻数据源端的处理负担，节约数据源端的资源。
[0093]
需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤31c至步骤33c的执行主体可以为设备a；又比如，步骤31c和32c的执行主体可以为设备b，步骤33c和34c的执行主体可以为设备a；等等。
[0094]
另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如31a、32a等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。
[0095]
图4a为本技术示例性实施例提供的一种数据处理装置的结构示意图。如图4a所示，该装置包括：生成模块41a、添加模块42a和上传模块43a。
[0096]
生成模块41a，用于生成原始数据，并输出给添加模块42a。
[0097]
添加模块42a，用于基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据，以得到混合数据。
[0098]
上传模块43a，用于将添加模块42a得到的混合数据上传至数据置乱端，以供数据置乱端将混合数据置乱后提供给数据分析端，由数据分析端采用数据分析算法对置乱后的混合数据进行数据分析。
[0099]
在一可选实施例中，添加模块42a具体用于：基于数据分析算法的差分隐私参数，获取数据混合比例；根据数据混合比例，在原始数据中添加虚拟数据，以得到混合数据。
[0100]
进一步可选地，添加模块42a在添加虚拟数据的过程中，具体可以在原始数据对应的数据集合中随机均匀采样出虚拟数据，并添加到原始数据中以得到混合数据。
[0101]
在一可选实施例中，如图4a所示，该装置还包括：随机化模块44a。随机化模块44a，用于在添加模块42a添加虚拟数据之前或之后，对原始数据进行随机化处理。
[0102]
进一步，随机化模块44a具体用于：在添加模块42a添加虚拟数据之前，基于数据分析算法的差分隐私参数，获取数据混合比例和随机化概率；根据随机化概率对原始数据进行随机化处理。相应地，添加模块42a具体用于：根据该数据混合比例，在随机化后的数据中添加虚拟数据以得到混合数据。
[0103]
或者
[0104]
添加模块42a具体用于：基于数据分析算法的差分隐私参数，获取数据混合比例和随机化概率；根据该数据混合比例，在原始数据中添加虚拟数据以得到混合数据。相应地，随机化模块44a具体用于：在添加模块42a添加虚拟数据之后，根据该随机化概率对原始数据进行随机化处理。
[0105]
进一步可选地，随机化模块44a在对原始数据进行随机化处理时，具体用于：按照随机化概率产生随机数；若随机数满足第一条件，保持原始数据；若随机数满足第二条件，则利用随机化数据替代原始数据；其中，产生满足第一条件的随机数的概率和产生满足第二条件的随机数的概率由随机化概率确定。
[0106]
进一步，随机化模块44a还用于：在利用随机化数据替代原始数据之前，在原始数据对应的数据集合中随机均匀采样出随机化数据。相应地，添加模块42a还用于：在添加虚拟数据之前，在原始数据对应的数据集合中随机均匀采样出虚拟数据。
[0107]
以上描述了数据处理装置的内部功能和结构，如图4b所示，实际中，该数据处理装置可实现为数据源设备，包括：存储器41b、处理器42b以及通信组件43b。
[0108]
存储器41b，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据源设备上的操作。这些数据的示例包括用于在数据源设备上操作的任何应用程序或方法的指令，消息，图片，视频等。
[0109]
处理器42b，与存储器41b耦合，用于执行存储器41b中的计算机程序，以用于：生成原始数据；基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据，以得到混合数据；通过通信组件43b将混合数据上传至数据置乱端，以供数据置乱端将混合数据置乱后提供给数据分析端，由数据分析端采用数据分析算法对置乱后的混合数据进行数据分析。
[0110]
在一可选实施例中，处理器42b在得到混合数据时，具体用于：基于数据分析算法的差分隐私参数，获取数据混合比例；根据数据混合比例，在原始数据中添加虚拟数据，以得到混合数据。
[0111]
进一步可选地，处理器42b在添加虚拟数据的过程中，具体可以在原始数据对应的数据集合中随机均匀采样出虚拟数据，并添加到原始数据中以得到混合数据。
[0112]
在一可选实施例中，处理器42b还用于在添加虚拟数据之前或之后，对原始数据进行随机化处理。
[0113]
进一步，处理器42b具体用于：在添加虚拟数据之前，基于数据分析算法的差分隐私参数，获取数据混合比例和随机化概率；根据随机化概率对原始数据进行随机化处理；之后，根据该数据混合比例，在随机化后的数据中添加虚拟数据以得到混合数据。
[0114]
或者
[0115]
处理器42b具体用于：基于数据分析算法的差分隐私参数，获取数据混合比例和随机化概率；根据该数据混合比例，在原始数据中添加虚拟数据以得到混合数据；之后，根据该随机化概率对原始数据进行随机化处理。
[0116]
进一步可选地，处理器42b在对原始数据进行随机化处理时，具体用于：按照随机化概率产生随机数；若随机数满足第一条件，保持原始数据；若随机数满足第二条件，则利用随机化数据替代原始数据；其中，产生满足第一条件的随机数的概率和产生满足第二条件的随机数的概率由随机化概率确定。
[0117]
进一步，处理器42b还用于：在利用随机化数据替代原始数据之前，在原始数据对应的数据集合中随机均匀采样出随机化数据；以及在添加虚拟数据之前，在原始数据对应的数据集合中随机均匀采样出虚拟数据。
[0118]
进一步，如图4b所示，该数据源设备还包括：音频组件44b、电源组件45b以及显示屏46b等其它组件。图4b中仅示意性给出部分组件，并不意味着数据源设备只包括图4b所示组件。另外，图4b中用虚线框所示组件为可选组件，而非必选组件，具体视数据源设备的设备形态而定。
[0119]
相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器实现图3a所示方法实施例中的各步骤。
[0120]
图5a为本技术示例性实施例提供的另一种数据处理装置的结构示意图。如图5a所示，该装置包括：接收模块51a、添加模块52a、置乱模块53a和发送模块54a。
[0121]
接收模块51a，用于接收至少一个数据源端上传的原始数据。添加模块52a，用于基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据，以得到混合数据。置乱模块53a，用于对混合数据进行置乱处理。发送模块54a，用于将置乱后的混合数据发送给数据分析端，以供数据分析端采用数据分析算法对置乱后的混合数据进行数据分析。
[0122]
进一步，如图5a所示，该装置还包括：随机化模块55a，用于在添加模块52a添加虚拟数据之前或之后，对原始数据进行随机化处理。
[0123]
关于添加模块52a和随机化模块55a的详细工作原理，可对应参见图4a所示实施例中的添加模块42a和随机化模块44a，在此不再赘述。
[0124]
以上描述了数据处理装置的内部功能和结构，如图5b所示，实际中，该数据处理装置可实现为一种数据处理设备，包括：存储器51b、处理器52b以及通信组件53b。
[0125]
存储器51b，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令，消息，图片，视频等。
[0126]
处理器52b，与存储器51b耦合，用于执行存储器51b中的计算机程序，以用于：通过通信组件53b接收至少一个数据源端上传的原始数据；基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据，以得到混合数据；对混合数据进行置乱处理，并将置乱后的混合数据发送给数据分析端，以供数据分析端采用数据分析算法对置乱后的混合数据进行数据分析。
[0127]
在一可选实施例中，处理器52b还用于：在添加虚拟数据之前或之后，对原始数据进行随机化处理。
[0128]
关于处理器52b添加虚拟数据以及对原始数据进行随机化处理的过程，与图4b所示实施例中处理器42b的实施过程相同或相似，可参见前述实施例，在此不再赘述。
[0129]
进一步，如图5b所示，该数据处理设备还包括：电源组件54b等其它组件。图5b中仅示意性给出部分组件，并不意味着数据处理设备只包括图5b所示组件。
[0130]
相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器实现图3b所示方法实施例中的各步骤。
[0131]
图6a为本技术示例性实施例提供的又一种数据处理装置的结构示意图。如图6a所示，该装置包括：接收模块61a、添加模块62a、置乱模块63a、分析模块64a和输出模块66a。
[0132]
接收模块61a，用于接收至少一个数据源上传的原始数据。添加模块62a，用于基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据以得到混合数据。置乱模块63a，用于对混合数据进行置乱处理以得到置乱后的混合数据。分析模块64a，用于根据查询用户的查询请求，采用数据分析算法对置乱后的混合数据进行数据分析。输出模块66a，用于将数据分析结果输出给查询用户。
[0133]
在一可选实施例中，如图6a所示，该装置还包括：修正模块65a，用于根据虚拟数据对分析模块64a得到的数据分析结果进行修正，并将修正后的数据分析结果提供给输出模块66a。输出模块66a具体用于将修正后的数据分析结果输出给查询用户。
[0134]
在一可选实施例中，如图6a所示，该装置还包括：随机化模块67a，用于在添加模块62a添加虚拟数据之前或之后，对原始数据进行随机化处理。
[0135]
关于添加模块62a和随机化模块67a的详细工作原理，可对应参见图4a所示实施例中的添加模块42a和随机化模块44a，在此不再赘述。
[0136]
以上描述了数据处理装置的内部功能和结构，如图6b所示，实际中，该数据处理装置可实现为另一种数据处理设备，包括：存储器61b、处理器62b以及通信组件63b。
[0137]
存储器61b，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令，消息，图片，视频等。
[0138]
处理器62b，与存储器61b耦合，用于执行存储器61b中的计算机程序，以用于：通过通信组件63b接收至少一个数据源上传的原始数据；基于数据分析算法的差分隐私参数，在原始数据中添加虚拟数据以得到混合数据，并对混合数据进行置乱处理以得到置乱后的混合数据；根据查询用户的查询请求，采用数据分析算法对置乱后的混合数据进行数据分析，并将数据分析结果输出给查询用户。
[0139]
在一可选实施例中，处理器62b还用于：在将数据分析结果输出给查询用户之前，根据虚拟数据对数据分析结果进行修正。关于修正的详细实施方式可参见前述实施例，在此不再赘述。
[0140]
在一可选实施例中，处理器62b还用于：在添加虚拟数据之前或之后，对原始数据进行随机化处理。
[0141]
关于处理器62b添加虚拟数据以及对原始数据进行随机化处理的过程，与图4b所示实施例中处理器42b的实施过程相同或相似，可参见前述实施例，在此不再赘述。
[0142]
进一步，如图6b所示，该数据处理设备还包括：电源组件64b等其它组件。图6b中仅示意性给出部分组件，并不意味着数据处理设备只包括图6b所示组件。
[0143]
相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器实现图3c所示方法实施例中的各步骤。
[0144]
上述实施例中的存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0145]
上述实施例中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如wifi，2g、3g、
4g/lte、5g等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0146]
上述实施例中的显示器包括屏幕，其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。
[0147]
上述实施例中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0148]
上述实施例中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(mic)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。
[0149]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0150]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0151]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0152]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0153]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0154]
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0155]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0156]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0157]
以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理任务的并行度调整方法、装置、设备及介质与流程

数据处理方法、设备、系统及存储介质与流程

相关文献

最热文献