基于敏感分级信息熵的匿名方法

2022-06-05 06:16:25 来源：中国专利 TAG：

1.本发明涉及数据匿名技术领域，尤其涉及一种基于敏感分级信息熵的匿名方法。

背景技术：

2.在大数据时代背景下，大量的个人数据被收集和发布，例如消费数据，住院数据等。对这些数据进行挖掘与分析，可以促进科学和商业的发展，但数据中包含了大量的个人隐私，会有隐私信息泄露的风险。数据匿名技术可以有效降低个人隐私信息泄露的风险，同时保证数据的可用性。由于共享数据往往经过数据分析后被用来参与决策，数据发布者在考虑隐私保护的同时，还应尽可能保持数据表结构的稳定性以及数据真实性，从而提高数据的可用性，因此数据发布者需要更优的隐私保护算法对数据进行处理再发布。
3.现有的匿名方法可解决因数据等价类中存在高敏感级别的属性值偏多和敏感属性值分布不均的而导致的个体隐私泄露问题，但不能很好的平衡数据匿名后的隐私程度以及数据匿名后的数据可用性。

技术实现要素：

4.本发明的目的在于提供一种基于敏感分级信息熵的匿名方法，旨在解决现有的匿名方法对数据匿名后的数据可用性较低的问题。
5.为实现上述目的，本发明提供了一种基于敏感分级信息熵的匿名方法，包括以下步骤：
6.获取发布数据集；
7.基于所述发布数据集建立匿名模型；
8.基于所述发布数据集的信息熵建立信息损失衡量标准模型；
9.基于所述信息损失衡量标准模型对所述发布数据集进行遍历，得到隐私安全指数最大的最大元组，将所述最大元组加入所述匿名模型中对应的等价组；
10.使用所述等价组的准标识属性中心替代所述最大元组的值，得到匿名数据集。
11.其中，所述获取发布数据集的具体方式为：
12.获取原始数据集；
13.对所述原始数据集进行分类，得到标识属性、准标识属性和敏感属性；
14.将所述标识属性对应的数据从所述历史数据中移除，得到发布数据集。
15.其中，所述基于所述发布数据集建立匿名模型的具体方式为：
16.设置所述发布数据集的等价组内相同的所述准标识属性的个数、所述敏感属性的元组个数和所述敏感属性的敏感级别的个数，得到匿名模型。
17.其中，所述基于所述发布数据集的信息熵建立信息损失衡量标准模型的具体方式为：
18.获取所述敏感级别的任意元组的信息熵，得到元组信息熵；
19.基于所述元组信息熵求取所述任意元组对应的等价类的信息熵，得到等价类信息
熵；
20.获取所述匿名模型对所述任意元组进行数据匿名化产生的信息损失，得到元组信息损失；
21.基于所述元组信息损失求取所述任意元组对应的等价类的信息损失，得到等价类信息损失；
22.基于所述等价类信息熵和所述等价类信息损失定义隐私安全指数，得到信息损失衡量标准模型。
23.其中，所述基于所述信息损失衡量标准模型对所述发布数据集进行遍历，得到隐私安全指数最大的最大元组，将所述最大元组加入所述匿名模型中对应的等价组的具体方式为：
24.使用贪心法和聚类技术对所述发布数据集进行遍历，得到隐私安全指数最大的最大元组；
25.将所述元组加入所述匿名模型中对应的等价组，并将所述元组从所述发布数据集中剔除。
26.其中，所述准标识属性中心包括连续型属性中心、等级型属性中心、分类型属性中心和布尔型属性中心。
27.本发明的一种基于敏感分级信息熵的匿名方法，包括获取发布数据集；基于所述发布数据集建立匿名模型；基于所述发布数据集的信息熵建立信息损失衡量标准模型；基于所述信息损失衡量标准模型对所述发布数据集进行遍历，得到隐私安全指数最大的最大元组，将所述最大元组加入所述匿名模型中对应的等价组；使用所述等价组的准标识属性中心替代所述最大元组的值，得到匿名数据集，通过引入信息熵建立的所述信息损失衡量标准模型与所述匿名模型对所述发布数据集进行处理，得到的所述匿名数据的信息熵最高，即数据可用性最高，解决了现有的匿名方法对数据匿名后的数据可用性较低的问题。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
29.图1是本发明提供的一种基于敏感分级信息熵的匿名方法的流程图。
30.图2是获取发布数据集的流程图。
31.图3是基于所述发布数据集的信息熵建立信息损失衡量标准模型的流程图。
32.图4是基于所述信息损失衡量标准模型对所述发布数据集进行遍历，得到隐私安全指数最大的最大元组，将所述最大元组加入所述匿名模型中对应的等价组的流程图。
具体实施方式
33.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
34.请参阅图1至图4，本发明提供一种基于敏感分级信息熵的匿名方法，包括以下步骤：
35.s1获取发布数据集；
36.具体方式为：s11获取原始数据集；
37.具体的，例如获取某医院病人信息记录表原始数据集。
38.s12对所述发布数据集进行分类，得到标识属性、准标识属性和敏感属性。
39.具体的，所述发布数据集为：
40.idagezipcodediseaset121114235hivt226114751hivt325115032flut448124151diabetest532115012cancert645115451fevert735115313hepatitist850113726flu
41.s13将所述标识属性对应的数据从所述历史数据中移除，得到发布数据集。
42.具体的，标识属性：可以通过该类别属性直接识出别个体，例如，姓名，身份证号等，在表中被移除。准标识属性：可以通过该类别属性与其他渠道获取的信息或者背景知识进行连接，从而识别出个体的属性，记为qi，qi＝(qi1,qi2,...,qid)，例如表1中的age和zipcode。敏感属性：数据发布者和个体不愿透露的属性，记为sa。例如表1中的disease。等价类e c
(equivalence-class)为数据集中若干个元组的集合，且每个元组在准标识属性上的取值相同。
43.s2基于所述发布数据集建立匿名模型；
44.具体的，设置所述发布数据集的等价组内相同的所述准标识属性的个数、所述敏感属性的元组个数和所述敏感属性的敏感级别的个数，得到匿名模型。
45.其中，所述匿名模型为h-敏感级别p-敏感k-匿名模型即(h,p,k)-匿名模型，在发布数据集d
*
中，有m个等价类，每个等价类至少有k个元组在准标识属性上取值不可区分，有p(p≤k)个元组在敏感属性上取值不同，且每个等价类中元组不同敏感级别的个数不少于h。即d
*
＝(ec1,ec2,...,ecm)，|ecw|≥k，有ti[qi]＝tj[qi]，且|ti[sa]≠tj[sa]|≥p，|ecw[sl]|≥h，其中i≠j,w∈[1,m]，p≤k。其中|ecw[sl]|为等价类中元组不同敏感级别的个数。
[0046]
例如，为满足(2,2,2)-匿名模型的数据集。相对p-敏感k-匿名模型，(h,p,k)-匿名模型限制每个等价类的敏感级别信息熵，避免相似攻击导致的敏感属性泄露，(2,2,2)-匿名模型数据集如下所示：
[0047]
[0048][0049]
发布数据集d
*
匿名后符合(h,p,k)-匿名模型即可使得发布数据集d
*
同一等价类中相同准标识属性qi的个数最少为k个，使得攻击方识别出个体的概率至多为1/k，可以避免个体被识别。且有p(p《k)个元组在敏感属性上取值不同，使得攻击方识别出个体的敏感属性概率至多为1/p,使得模型可以避免同质攻击即攻击方可准确猜出具体个体的敏感属性，由于等价类中敏感属性只有一种，攻击方仍然可以知道个体的敏感信息。并且同一等价类中敏感属性的等级数最少为h个，使得攻击方猜中个体为高敏感属性的概率最多为1/h可以避免相似攻击，，即攻击方无需知道个体的具体敏感信息，当等价类中敏感属性都为高敏感属性的时候，攻击方仍能够知道个体具有高敏感等级的敏感属性。
[0050]
s3基于所述发布数据集的信息熵建立信息损失衡量标准模型；
[0051]
具体方式为：s31获取所述敏感级别的任意元组的信息熵，得到元组信息熵；
[0052]
具体的，元组信息熵h(li)为等价类ec中敏感级别为li(任意元组)的敏感级别信息熵，h(li)如下:
[0053]
其中，p
li
表示li敏感级别的所有元组在等价类n个元组中的占比。
[0054]
s32基于所述元组信息熵求取所述任意元组对应的等价类的信息熵，得到等价类信息熵；
[0055]
具体的，等价类信息熵hec(ec)表示等价类ec的敏感级别信息熵，hec(ec)如下：
[0056][0057]
其中，wi为敏感级别li的权重，s为敏感级别。
[0058]
s33获取所述匿名模型对所述任意元组进行数据匿名化产生的信息损失，得到元组信息损失；
[0059]
具体的，元组信息损失dt(t,c)表示等价类ec内元组数据匿名化产生的信息损失，dt(t,c)如下：
[0060][0061]
其中，c为等价类的中心，x表示准标识符的序号。
[0062]
s34基于所述元组信息损失求取所述任意元组对应的等价类的信息损失，得到等价类信息损失；
[0063]
具体的，等价类信息损失infoloss(ec)表示等价类ec数据匿名化的信息损失为，infoloss(ec)如下：
[0064]
infoloss(ec)＝∑
t
∈ec
dt
(t,c)
[0065]
其中，d表示等价类匿名化产生的匿名损失。
[0066]
s35基于所述等价类信息熵和所述等价类信息损失定义隐私安全指数，得到信息损失衡量标准模型。
[0067]
具体的，定义隐私安全指数psi：
[0068][0069]
其中，w1 w2＝1，通过不同的w值来侧重匿名数据集的隐私保护性还是数据可用性。在聚类过程中，隐私安全指数越大，等价类敏感级别信息熵越大，数据的安全性越高，数据匿名化的信息损失越小。
[0070]
s4基于所述信息损失衡量标准模型对所述发布数据集进行遍历，得到隐私安全指数最大的最大元组，将所述最大元组加入所述匿名模型中对应的等价组；
[0071]
具体方式为：s41使用贪心法和聚类技术对所述发布数据集进行遍历，得到隐私安全指数最大的最大元组；
[0072]
具体的，使用贪心法和聚类技术对数据集d
*
进行遍历，找到使得隐私安全指数最大的最大元组t`。如下:
[0073][0074]
其中，[sl]为元组中不同敏感级别的个数。聚类即将元祖分为不同等价组，在聚类的过程中使用贪心思想，找到使得等价组信息熵最大的元祖加入对应等价组。
[0075]
s42将所述元组加入所述匿名模型中对应的等价组，并将所述元组从所述发布数据集中剔除。
[0076]
具体的，找到元组加入到对应的等价类中并从数据集中剔除。把d中剩余元组加入到合并后隐私安全指数最大的类gi。如下：
[0077][0078]
s5使用所述等价组的准标识属性中心替代所述最大元组的值，得到匿名数据集。
[0079]
具体的，所述准标识属性中心包括连续型属性中心、等级型属性中心、分类型属性中心和布尔型属性中心。
[0080]
所述连续型属性c(ec)n的中心计算如下：
[0081][0082]
其中t「qin]i为连续型属性值。
[0083]
所述等级型属性c(ec)g的中心计算如下：
[0084][0085][0086][0087][0088]
其中，其中t[qig]为元组在等级型属性qig上的取值，|ec|为等价类中元组的个数。
为等价类中元组在等级型属性上的均值。down_count等价类中元组取值的小于均值，up_count等价类中元组取值的大于均值。和分别计算等价类中元组取值的小于均值和大于均值的比率。
[0089][0090][0091][0092]
所述分类型属性c(ec)c的中心计算如下:
[0093][0094]
布尔型属性c(ec)b的中心计算为:
[0095][0096]
其中f((t[qib]i)为元组ti在布尔型属性qib上取值在等价类中所出现的频率。
[0097]
经过上述步骤的后，得到了数据集d`，满足h-敏感级别p-敏感k-匿名模型。如(2,2,2)-匿名模型数据集所示，表中数据满足(2,2,2)匿名模型，表中同一等价组中，同一准标识属性的个数最少为2个，使得攻击方猜中具体个体的概率最大为1/2。表中同一等价组中敏感属性disease的个数最少为2个，使得攻击方猜中具体的敏感属性的概率最为1/2。表中同一等价组中敏感属性disease的等级划分最少为两个，即把disease的等级划分为高敏感，中敏感，低敏感，表中同一等价组中disease的等级种类最少为2个，使得攻击方不能准确判断出用户具有高敏感属性的概率最多为1/2。并且表中的数据的psi隐私保护指数最大，即表中数据的信息损失最小。即在保护了数据的隐私的前提下，最大程度保证了数据的可用性。
[0098]
本方案与现有方案相比，本方案使用(h,p,k)匿名匿名模型保证了隐私保护强度，并且解决了匿名过程中出现的语义丢失问题，同时使用信息熵的方式衡量匿名过程中的信息损失，能够在保证隐私保护强度的前提下，最大程度的提高数据可用性。以达到平衡隐私保护的鲁棒性和数据的可用性。
[0099]
以上所揭露的仅为本发明一种基于敏感分级信息熵的匿名方法较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：对象交互指标数据确定方法、装置、电子设备及存储介质与流程

基于敏感分级信息熵的匿名方法

相关文献

最热文献