一种多维数据个性化隐私保护方法、系统及存储介质与流程

2022-07-06 10:17:07 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，特别涉及一种多维数据个性化隐私保护方法、系统及存储介质。

背景技术：

2.目前差分隐私保护方法的研究大部分在中心化差分隐私的环境下进行，即需要可信的第三方进行数据收集和隐私保护，但是现实生活中第三方仍存在有恶意或者容易被恶意攻击的可能。
3.同时，由于隐私保护预算由数据收集者设置统一值，所以无法满足用户的个性化隐私需求，并且当前针对多维混合型数据的差分隐私保护研究还存在一定的空白，因此针对多维混合型数据，如何在本地化差分隐私的环境下，满足用户的个性化隐私需求是一个需要解决的问题。

技术实现要素：

4.基于此，本发明的目的是提供一种多维数据个性化隐私保护方法、系统及存储介质，用于解决现有技术中在本地化差分隐私的环境下无法满足对多维混合型数据进行个性化隐私保护的技术问题。
5.本发明一方面提出一种多维数据个性化隐私保护方法，包括：
6.根据用户设定从隐私预算列表中的多个隐私预算等级中选择目标隐私预算等级；
7.根据所述目标隐私预算等级对多维混合型数据进行有偏采样以获得维度索引列表、并判断所述维度索引列表中各个索引的数据类型，所述数据类型包括分类型数据和数值型数据；
8.根据数据扰动规则分别对所述分类型数据和所述数值型数据进行相应的扰动、并获得扰动后的分类型数据扰动向量和数值型数据扰动值；
9.分别对所述分类型数据扰动向量和所述数值型数据扰动值做聚合操作。
10.作为本发明的进一步优选方案，所述根据所述目标隐私预算等级对多维混合型数据进行有偏采样以获得维度索引列表的步骤具体包括：
11.将所述多维混合型数据根据预设分类规则分成第一维度索引组、第二维度索引组及第三维度索引组；
12.根据所述目标隐私预算等级分别对所述第一维度索引组和所述第二维度索引组进行有偏采样获得所述维度索引列表。
13.作为本发明的进一步优选方案，所述第一维度索引组用于存放第一重要的索引、所述第二维度索引组用于存放第二重要的索引、所述第三维度索引组用于存放无意义或重复的索引。
14.作为本发明的进一步优选方案，所述根据数据扰动规则分别对所述分类型数据和所述数值型数据进行相应的扰动、并获得扰动后的分类型数据扰动向量和数值型数据扰动
值的步骤具体包括：
15.根据第一扰动规则对所述数值型数据计算得出数值型数据扰动值，并以所述数值型数据扰动值的倍数对其进行矫正；
16.根据第二扰动规则对所述分类型数据计算得出所述分类型数据扰动向量，并以所述分类型数据扰动向量的倍数对其进行矫正。
17.作为本发明的进一步优选方案，所述分别对所述分类型数据扰动向量和所述数值型数据扰动值做聚合操作的步骤具体包括：
18.将每个所述数值型扰动值直接加和后求均值，以得到原始数值型数据统计均值的无偏估计；
19.将每组所述分类型数据扰动向量对应所述目标隐私预算等级消除噪声后，直接加和各组所述分类型数据扰动向量的频率值，以得到原始分类型数据频率的无偏估计。
20.本发明另一方面还提出一种多维数据个性化隐私保护系统，适用于上述的多维数据个性化隐私保护方法包括：参数选择模块，用于根据用户设定从隐私预算列表中的多个隐私预算等级中选择目标隐私预算等级；
21.数据采样模块，用于根据所述目标隐私预算等级对多维混合型数据进行有偏采样以获得维度索引列表、并判断所述维度索引列表中各个索引的数据类型，所述数据类型包括分类型数据和数值型数据；
22.隐私保护模块，用于根据数据扰动规则分别对所述分类型数据和所述数值型数据进行相应的扰动、并获得扰动后的分类型数据扰动向量和数值型数据扰动值；
23.聚合模块，用于分别对所述分类型数据扰动向量和所述数值型数据扰动值做聚合操作。
24.作为本发明的进一步优选方案，所述数据采样模块包括：
25.数据分组单元，用于将所述多维混合型数据根据预设分类规则分成第一维度索引组、第二维度索引组及第三维度索引组；
26.数据采样单元，用于根据所述目标隐私预算等级分别对所述第一维度索引组和所述第二维度索引组进行有偏采样获得所述维度索引列表。
27.作为本发明的进一步优选方案，所述隐私保护模块包括：
28.数值型数据扰动单元，用于根据第一扰动规则对所述数值型数据计算得出数值型数据扰动值，并以所述数值型数据扰动值的倍数对其进行矫正；
29.分类型数据扰动单元，用于根据第二扰动规则对所述分类型数据计算得出所述分类型数据扰动向量，并以所述分类型数据扰动向量的倍数对其进行矫正。
30.作为本发明的进一步优选方案，所述聚合模块包括：
31.数值型数据聚合单元，用于将每个所述数值型扰动值直接加和后求均值，以得到原始数值型数据统计均值的无偏估计；
32.分类型数据聚合单元，用于将每组所述分类型数据扰动向量对应所述目标隐私预算等级消除噪声后，直接加和各组所述分类型数据扰动向量的频率值，以得到原始分类型数据频率的无偏估计。
33.本发明还提供了一种存储介质，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的方法。
34.根据本发明提供的一种多维数据个性化隐私保护方法、系统及存储介质，通过用户根据自身隐私需求选择隐私预算等级，避免了噪声添加过量，从而提高数据的实用性，服务器端可对多维混合型数据进行预处理，并对用户数据的维度进行有偏采样，使获得统计数据的更高准确性，另外，还可对采样维度进行属性判断，并针对数值型数据和分类型数据分别执行相应的个性化隐私保护算法。
附图说明
35.图1为本发明第一实施例中多维数据个性化隐私保护方法的流程图；
36.图2为本发明第三实施例中多维数据个性化隐私保护系统的结构框图；
37.图3为本发明中数值型数据效用损失比较图；
38.图4为本发明中分类型数据效用损失比较图；
39.如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
40.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。基于本技术提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
41.显而易见地，下面描述中的附图仅仅是本技术的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本技术应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本技术公开的内容相关的本领域的普通技术人员而言，在本技术揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本技术公开的内容不充分。
42.在本技术中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本技术所描述的实施例在不冲突的情况下，可以与其它实施例相结合。
43.除非另作定义，本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本技术所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对
象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。
44.本发明实施例旨在提出一种多维数据个性化隐私保护方法，应用于计算机领域。具体地，目前差分隐私保护方法的研究大部分在中心化差分隐私的环境下进行，即需要可信的第三方进行数据收集和隐私保护，但是现实生活中第三方仍存在有恶意或者容易被恶意攻击的可能。同时，由于隐私保护预算由数据收集者设置统一值，所以无法满足用户的个性化隐私需求，并且当前针对多维混合型数据的差分隐私保护研究还存在一定的空白，因此针对多维混合型数据，如何在本地化差分隐私的环境下，满足用户的个性化隐私需求是一个需要解决的问题。
45.为解决上述问题，本发明实施例旨在提供一种多维数据个性化隐私保护方法，通过用户端根据用户自身的隐私需求选择隐私预算等级，针对数值型数据和分类型数据分别执行个性化的均值估计方法和频率估计方法、并且提出一个个性化的采样方案，该方案根据服务器端的偏好对属性标签进行预处理，并按照其收集偏好对数据维度进行有偏采样，在隐私保护和数据可用性之间提供了更好的平衡。
46.具体地，本发明实施例的多维数据个性化隐私保护方法包括：根据用户设定从隐私预算列表中的多个隐私预算等级中选择目标隐私预算等级；根据所述目标隐私预算等级对多维混合型数据进行有偏采样以获得维度索引列表、并判断所述维度索引列表中各个索引的数据类型，所述数据类型包括分类型数据和数值型数据；根据数据扰动规则分别对所述分类型数据和所述数值型数据进行相应的扰动、并获得扰动后的分类型数据扰动向量和数值型数据扰动值；分别对所述分类型数据扰动向量和所述数值型数据扰动值做聚合操作。解决了现有技术中在本地化差分隐私的环境下无法满足对多维混合型数据进行个性化隐私保护的技术问题。
47.为了后续描述的方便，首先对本地化差分隐私和多维混合型数据的相关概念进行简单说明。
48.本地化差分隐私是具有严格数学定义的隐私保护机制，它在不信任任何第三方的情况下保证用户的数据隐私。在ldp算法中，用户根据隐私预算值在其数据中注入噪声(如拉普拉斯噪声)，并将扰动数据发送至服务器端。因此，具有任意背景知识的攻击者都无法推断出某个用户的原始数据信息。
49.一个规模为|u|的用户数据库u是由若干条用户的多维混合型数据组成的，即u＝{t1,t2,
…
,t
|u|
}。用户的多维混合型数据是一个包含d个属性值的有序列表，表示为ti＝[a1,a2,
…
,ad]，其中ai为第i个属性的数值。属性可以是数值型属性也可以是分类型属性，其中，每个数值型属性的值域为[-1,1]，每个分类型属性有w个不同的分类值，即其离散域为{1,2,
…
,w}。
[0050]
实施例一
[0051]
如图1所示，本发明多维数据个性化隐私保护方法提出的第一实施例的方法流程图，该方法包括以下步骤：
[0052]
步骤s101，根据用户设定从隐私预算列表中的多个隐私预算等级中选择目标隐私预算等级；
[0053]
具体地，为实现个性化隐私保护，服务器端提供m个隐私预算级别，表示为ε＝
∪
mτ＝1
{ε
τ
}，其中δ
∈
＝ε
τ 1-ε
τ
＞0，即τ越小，ε
τ
的值越小，隐私保护的程度越高，但数据可用性也越低。用户根据自身的隐私需求在隐私预算列表中选择满足自身隐私需求的隐私预算ε
τ
。
[0054]
步骤s102，根据所述目标隐私预算等级对多维混合型数据进行有偏采样以获得维度索引列表、并判断所述维度索引列表中各个索引的数据类型，所述数据类型包括分类型数据和数值型数据；
[0055]
具体地，根据用户从客户端选择的目标隐私预算等级，对其d维数据进行有偏采样，并判断所得的维度索引列表index中每一维度为数值型数据或分类型数据。
[0056]
步骤s103，根据数据扰动规则分别对所述分类型数据和所述数值型数据进行相应的扰动、并获得扰动后的分类型数据扰动向量和数值型数据扰动值；
[0057]
具体地，在客户端分别使用相应机制对其数值进行扰动，并将扰动后的数值型数据结果r
*i
和分类型数据结果《c
i*
[j],τ》发送至服务器端。
[0058]
步骤s104，分别对所述分类型数据扰动向量和所述数值型数据扰动值做聚合操作。
[0059]
具体地，服务器端对数值型数据的结果直接求和∑
nu＝1ri*
，得到每个属性的均值估计，对分类型数据的结果先根据τ进行分组计数最后聚合出每个属性的频率估计。
[0060]
根据上述的多维数据个性化隐私保护方法，通过用户根据自身隐私需求选择隐私预算等级，避免了噪声添加过量，从而提高数据的实用性，服务器端可对多维混合型数据进行预处理，并对用户数据的维度进行有偏采样，使获得统计数据的更高准确性，另外，还可对采样维度进行属性判断，并针对数值型数据和分类型数据分别执行相应的个性化隐私保护算法。
[0061]
实施例二
[0062]
本发明第二实施例中多维数据个性化隐私保护方法包括以下步骤：
[0063]
步骤s11，根据用户设定从隐私预算列表中的多个隐私预算等级中选择目标隐私预算等级；
[0064]
步骤s12，根据所述目标隐私预算等级对多维混合型数据进行有偏采样以获得维度索引列表、并判断所述维度索引列表中各个索引的数据类型，所述数据类型包括分类型数据和数值型数据；
[0065]
步骤s13，根据数据扰动规则分别对所述分类型数据和所述数值型数据进行相应的扰动、并获得扰动后的分类型数据扰动向量和数值型数据扰动值；
[0066]
步骤s14，分别对所述分类型数据扰动向量和所述数值型数据扰动值做聚合操作。
[0067]
需要解释的是，关于本实施例中步骤s11、步骤s12、步骤s13及步骤s14 中未描述之处可参见第一实施例。
[0068]
进一步地，所述根据所述目标隐私预算等级对多维混合型数据进行有偏采样以获得维度索引列表的步骤具体包括：
[0069]
将所述多维混合型数据根据预设分类规则分成第一维度索引组、第二维度索引组及第三维度索引组；
[0070]
根据所述目标隐私预算等级分别对所述第一维度索引组和所述第二维度索引组
进行有偏采样获得所述维度索引列表。
[0071]
需要解释的是，在现有工作中，为减小客户端和服务器端之间的通信代价及计算成本，服务器端要求用户对其d维数据进行均匀采样。但实际应用中， d维数据中可能存在重复、没有统计意义或统计意义并不大的属性，这将影响收集数据的可用性。
[0072]
因此，本发明设计个性化的采样方法ptop-k，以下过程说明了个性化采样过程：首先服务器端依据自身的统计偏好将属性标签分为第一维度索引组、第二维度索引组及第三维度索引组3组，即group1、group2、group3。其中group1 中存放服务器端最希望统计的属性索引，group2中存放有必要统计的属性索引，group3中存放无统计意义或属性含义重复的索引。通过个性化设置概率p 的值，控制有偏采样程度。然后k次不重复地以p的概率采样group1中索引，以1-p的概率采样group2中索引，最后返回维度索引的列表index。
[0073]
进一步地，所述根据数据扰动规则分别对所述分类型数据和所述数值型数据进行相应的扰动、并获得扰动后的分类型数据扰动向量和数值型数据扰动值的步骤具体包括：
[0074]
根据第一扰动规则对所述数值型数据计算得出数值型数据扰动值，并以所述数值型数据扰动值的倍数对其进行矫正；
[0075]
根据第二扰动规则对所述分类型数据计算得出所述分类型数据扰动向量，并以所述分类型数据扰动向量的倍数对其进行矫正。
[0076]
具体地，对于多维数值型数据，设计满足ldp的个性化扰动方法ppm。对于每一个数值型数据的索引j，pm方法根据其对应的数据ti[aj]和该维度所分的的隐私预算计算得出其扰动值xj。但是由于采用了个性化的维度采样方法，因此以倍数
[0077][0078]
对xj进行由采样引起的偏差的矫正，其中len(group)为该维度索引所在分组(group1或group2)的长度，pro为该索引在其分组中被采样的概率(索引在group1中对应概率为p，索引在group2中对应为1-p)，k为采样的维度数。
[0079]
对于多维分类型数据，设计满足ldp的个性化扰动方法poue。对于每一个分类型数据的索引j，oue方法根据其对应的数据ti[aj]和该维度所分的隐私预算计算得出其扰动向量z。但是由于采用了个性化的维度采样方法，因此以数值型数据中相同的倍数对其扰动向量进行由采样引起的偏差的矫正。
[0080]
可选地，其中基于pm的个性化数值型数据扰动方法ppm，还可以基于其他数值型数据扰动方法，如laplace机制或高斯机制等，基于oue的个性化分类型数据扰动方法poue，还可以基于其他分类型数据扰动方法，如rappor机制或随机矩阵投影等。
[0081]
进一步地，所述分别对所述分类型数据扰动向量和所述数值型数据扰动值做聚合操作的步骤具体包括：
[0082]
将每个所述数值型扰动值直接加和后求均值，以得到原始数值型数据统计均值的无偏估计；
[0083]
将每组所述分类型数据扰动向量对应所述目标隐私预算等级消除噪声后，直接加和各组所述分类型数据扰动向量的频率值，以得到原始分类型数据频率的无偏估计。
[0084]
具体地，对于数值型数据，服务器端的目标是统计每个维度的均值，服务器可将所
有用户上传的扰动值直接加和后求均值，便可得到原始数据统计均值的无偏估计。对于分类型数据，服务器端目标为统计每个维度中各个分类的频率，服务器将每组的计数根据该组的隐私预算值消除扰动方法的噪声后，即可直接加和各组的频率值，便可得到原始数据频率的无偏估计。
[0085]
实际应用中，请参阅图3表示的是在两个不同数据集下，本发明模型与其他模型在收集数值型数据的效用损失。两个数据集分别是巴西人口统计数据集 (br)和爱尔兰人口统计数据集(ir)。可以观察到，ppm机制结果的精确度在所有情况下都比pm机制结果的精确度高，尤其当隐私预算值较小时。也可以看出δ
ε
的值越大，ppm机制的性能相比于pm机制拥有越高的准确性，即通过给用户提供满足隐私需求的更大的隐私预算，便可获得更高的数据实用性。
[0086]
图4表示的是在两个不同数据集下，本发明模型与其他模型在收集分类型数据的效用损失。可以观察到，poue机制的结果在所有情况下都比oue机制的结果精确度高，尤其当隐私预算值较小时。也可以看出δ
ε
的值越大，poue机制的性能相比于oue机制拥有越高的准确性，即通过给用户提供满足隐私需求的更大的隐私预算，便可获得更高的数据实用性。
[0087]
以下表1分别是巴西人口统计数据集(br)和爱尔兰人口统计数据集(ir) 的两个数据集。
[0088][0089]
表1
[0090]
根据上述的多维数据个性化隐私保护方法，通过用户根据自身隐私需求选择隐私预算等级，避免了噪声添加过量，从而提高数据的实用性，服务器端可对多维混合型数据进行预处理，并对用户数据的维度进行有偏采样，使获得统计数据的更高准确性，另外，还可对采样维度进行属性判断，并针对数值型数据和分类型数据分别执行相应的个性化隐私保护算法。
[0091]
实施例三
[0092]
本发明还提供了一种多维数据个性化隐私保护系统，如图2所述，该系统包括：
[0093]
参数选择模块10，用于根据用户设定从隐私预算列表中的多个隐私预算等级中选择目标隐私预算等级；
[0094]
数据采样模块20，用于根据所述目标隐私预算等级对多维混合型数据进行有偏采样以获得维度索引列表、并判断所述维度索引列表中各个索引的数据类型，所述数据类型包括分类型数据和数值型数据；
[0095]
隐私保护模块30，用于根据数据扰动规则分别对所述分类型数据和所述数值型数据进行相应的扰动、并获得扰动后的分类型数据扰动向量和数值型数据扰动值；
[0096]
聚合模块40，用于分别对所述分类型数据扰动向量和所述数值型数据扰动值做聚合操作。
[0097]
优选地，所述数据采样模块20包括：
[0098]
数据分组单元，用于将所述多维混合型数据根据预设分类规则分成第一维度索引组、第二维度索引组及第三维度索引组；
[0099]
数据采样单元，用于根据所述目标隐私预算等级分别对所述第一维度索引组和所述第二维度索引组进行有偏采样获得所述维度索引列表。
[0100]
优选地，所述隐私保护模块30包括：
[0101]
数值型数据扰动单元，用于根据第一扰动规则对所述数值型数据计算得出数值型数据扰动值，并以所述数值型数据扰动值的倍数对其进行矫正；
[0102]
分类型数据扰动单元，用于根据第二扰动规则对所述分类型数据计算得出所述分类型数据扰动向量，并以所述分类型数据扰动向量的倍数对其进行矫正。
[0103]
优选地，所述聚合模块40包括：
[0104]
数值型数据聚合单元，用于将每个所述数值型扰动值直接加和后求均值，以得到原始数值型数据统计均值的无偏估计；
[0105]
分类型数据聚合单元，用于将每组所述分类型数据扰动向量对应所述目标隐私预算等级消除噪声后，直接加和各组所述分类型数据扰动向量的频率值，以得到原始分类型数据频率的无偏估计。
[0106]
根据上述多维数据个性化隐私保护系统，通过用户根据自身隐私需求选择隐私预算等级，避免了噪声添加过量，从而提高数据的实用性，服务器端可对多维混合型数据进行预处理，并对用户数据的维度进行有偏采样，使获得统计数据的更高准确性，另外，还可对采样维度进行属性判断，并针对数值型数据和分类型数据分别执行相应的个性化隐私保护算法。
[0107]
本发明还提出一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的多维数据个性化隐私保护方法。
[0108]
本发明还提出一种服务器，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述的多维数据个性化隐私保护方法。
[0109]
以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0110]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种划分碳酸盐岩潜山淋漓程度的方法与流程

一种多维数据个性化隐私保护方法、系统及存储介质与流程

相关文献

最热文献