一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种K匿名聚类隐私保护方法、系统、计算机设备、终端与流程

2021-12-04 00:17:00 来源:中国专利 TAG:

一种k匿名聚类隐私保护方法、系统、计算机设备、终端
技术领域
1.本发明属于信息安全技术领域,尤其涉及一种k匿名聚类隐私保护方法、系统、计算机设备、终端。


背景技术:

2.目前,随着医疗技术的发展,医疗数据共享越来越普遍,导致医疗数据泄露问题愈发严重。隐私保护问题是信息安全领域的重要方向,如何保证信息的安全性,是实现保护个人隐私的关键。
3.早期数据隐私保护方式主要是在数据库中设置不同权限,根据权限的不同,保护个人的隐私安全,但是存在某些高权限的人,为了获取利益,将个人信息出卖给其他人,造成个人信息的泄露。随着隐私保护的观念逐渐成形,人们对于隐私保护的更加重视,需要隐私保护技术提高对于隐私信息的保护。
4.k匿名(k

anonymity)隐私保护模型是用于数据发布过程中的信息保护,不同于基于访问控制等隐私保护方式不同,k匿名对原始数据进行预处理,然后将匿名化后的数据集发布,保护个人的隐私数据,k匿名技术可以运用于医疗,求职等领域,这些领域需要将明显的个人信息隐藏,信息攻击者也不能够通过链接攻击根据发布的数据,将具体个人的隐私数据推导出来,这样在数据的发布过程中,隐私数据得到有效的保护。而传统的k匿名模型,大多以牺牲信息损失量为代价提高隐私保护的强度。因此,亟需一种新的k匿名聚类隐私保护方法及系统,以弥补现有技术存在的问题。
5.通过上述分析,现有技术存在的问题及缺陷为:传统的k匿名模型,大多以牺牲信息损失量为代价提高隐私保护的强度。k匿名中数据维度过大,增加处理数据的时间成本以及k匿名全维度的数据造成更多的数据损失。
6.解决以上问题及缺陷的难度为:能够有效降低数据集的维度以及有效的降低数据在k匿名过程中的信息损失。
7.解决以上问题及缺陷的意义为:通过数据降维,减少需要处理数据的时间成本,并且减少数据k匿名过程中的信息损失,更可能多的保留数据的原始性,为后续数据分析工作提供支持。


技术实现要素:

8.针对现有技术存在的问题,本发明提供了一种k匿名聚类隐私保护方法及系统、计算机设备、终端,尤其涉及一种基于医疗数据效用性的k匿名聚类隐私保护方法及系统。
9.本发明是这样实现的,一种k匿名聚类隐私保护方法,所述k匿名聚类隐私保护方法包括:
10.使用主成分分析方法完成数据的降维且确定敏感属性、准标识符属性和标识属性;对降维后的数据使用灰度关联分析方法计算敏感属性与准标识符属性的关联度;根据敏感属性与准标识符关联度确定准标识符的泛化层次结构;使用手肘法确定数据集适合的
聚类簇数量;根据阈值a判断对数据直接进行聚类操作还是将该数据集与其他数据值合并进行聚类;对数据集进行聚类处理;根据准标识属性的泛化结构对聚类的数据进行k匿名处理。
11.进一步,所述k匿名聚类隐私保护方法包括以下步骤:
12.步骤一,根据主成分分析方法对医疗数据集t进行降维;
13.步骤二,使用灰度关联分析方法确定准标识符与敏感属性的关联度;
14.步骤三,根据准标识符与敏感属性的关联度确定准标识符属性的泛化层次;
15.步骤四,根据所选择的标识符、准标识符和敏感属性,根据手肘法来确定数据的最佳簇的数量;
16.步骤五,根据最佳簇数量l,将l作为聚类簇数量进行数据集的聚类;
17.步骤六,给的a的大小,作为阈值进行k匿名,将数据集中已经符合k匿名的记录,列入k匿名表中,统计t
m
表中记录的个数。
18.进一步,步骤一中,所述根据主成分分析方法对医疗数据集t进行降维,包括:
19.(1)可能存在的主成分标识表示为:
[0020][0021]
其中,p标识每组记录中属性的维度,c表示每组记录中属性的权重,z表示主成分,q表示可能存在的主成分个数,每个主成分之间相互独立;z1,z2,

,z
n
由不同的x1,x2,

,x
p
准标识符组成。
[0022]
(2)根据负载值c
ij
在主成分集合中的大小,选择属性维度最小的主成分,在维度最小的主成分中选择合适的qi属性,确定标识符、准标识符和敏感属性。
[0023]
进一步,步骤二中,所述使用灰度关联分析方法确定准标识符与敏感属性的关联度,包括:
[0024]
(1)将敏感属性作为参考数列,表示为:
[0025]
y=y(k)|1,2,...,n;
[0026]
其中,y为具体的敏感属性。
[0027]
(2)确定与敏感属性关联度的作为比较数据,表示为:
[0028]
x
i
=x
i
(k)|k=1,2,...,n,i=1,2,...,m;
[0029]
其中,x
i
(k)表示第i个比较数列中的第k个值,m表示qi属性的个数。
[0030]
(3)不同数据的计量单位不同,用以下公式对数据进行归一化处理:
[0031][0032]
(4)归一化处理后计算准标识符属性与敏感属性的灰度关联系数,用以下公式确定灰度关联系数:
[0033][0034]
其中,|y(k)

x
i
(k)|是参考数列与第i个比较数列中对应的第k个数据之间的距离,max表示最大距离,min表示最小距离;ρ称为分辨系数,ρ的取值区间为(0,1);当ρ≤0.5463时,分辨力较高,取ρ=0.5。
[0035]
(5)根据各个时刻的关联系数,确定关联度,用以下公式确定关联度:
[0036][0037]
其中,r
i
表示为关联度,当关联度越接近1,表明准标识符属性与敏感属性的关联越高,联系越强。
[0038]
步骤三中,所述关联度越高数据的关联性越强,准标识符的泛化层次结构应该更加细致,对于关联度不高的准标识符,泛化层次结构相对模糊,即可确定准标识符泛化层次结构。
[0039]
进一步,步骤四中,所述根据所选择的标识符、准标识符和敏感属性,根据手肘法来确定数据的最佳簇的数量,包括:
[0040]
(1)给定数据集t的簇数量范围m,根据给的的簇数量范围m,对数据集进行局部划分,从簇数量为2,计算簇的质心到簇中每个数据点的欧式距离:
[0041][0042]
其中,x
i
,y
i
对应计算两个数据点不同维度的数据;依据最近质心原则,根据欧式距离大小,完成数据点的簇划分。
[0043]
(2)根据簇的划分,计算每个簇的sse,将当前簇数量与总误差平方和作为坐标,在坐标轴中表示出来,所述sse的计算公式如下:
[0044][0045]
其中,c
i
表示第i个簇,p表示ci中的样本点,m
i
表示c
i
中所有的样本均值;根据医疗数据集t的手肘图确定最佳的簇数量l。
[0046]
进一步,步骤五中,所述根据最佳簇数量l,将l作为聚类簇数量进行数据集的聚类,包括:
[0047]
(1)将所有数据作为一个簇放入队列{d1},将所述簇进行簇数量m=2的均值聚类,计算每个簇的sse,将划分的簇放入队列{d1,d2,d3}。
[0048]
(2)在队列中选取最小的sse进行m=2的均值聚类后,将划分后的簇放入队列,重复步骤(1)直到簇的数量大于l。
[0049]
(3)根据聚类步骤,完成对医疗数据集t划分,划分为m个数据集(t1,t2,

,t
m
)。
[0050]
进一步,步骤六中,所述给的a的大小,作为阈值进行k匿名,将数据集中已经符合k匿名的记录,列入k匿名表中,统计t
m
表中记录的个数,包括:
[0051]
(1)找到t
m
中取值个数最多以及关联度最高的准标识符属性a,将准标识符属性a
的泛化层次根据泛化层次结构上升一层。
[0052]
(2)统计当前t
m
符合k匿名规则的记录与不符合k匿名规则的记录。
[0053]
(3)将t
m
中符合k匿名规则的记录列入k匿名表中,将不符合k匿名规则的记录重复步骤(1),直到t
m
中的记录数小于k。
[0054]
(4)将各个数据集k匿名后记录数量小于阈值a的记录组合成新的数据表t
s
,根据步骤(1)进行k匿名。
[0055]
本发明的另一目的在于提供一种应用所述的k匿名聚类隐私保护方法的k匿名聚类隐私保护系统,所述k匿名聚类隐私保护系统包括:
[0056]
数据降维模块,用于根据主成分分析方法对医疗数据集t进行降维;
[0057]
关联度确定模块,用于使用灰度关联分析方法确定准标识符与敏感属性的关联度;
[0058]
泛化层次确定模块,用于根据准标识符与敏感属性的关联度确定准标识符属性的泛化层次;
[0059]
最佳簇数量确定模块,用于根据所选择的标识符、准标识符和敏感属性,根据手肘法来确定数据的最佳簇的数量;
[0060]
数据集聚类模块,用于根据最佳簇数量l,将l作为聚类簇数量进行数据集的聚类;
[0061]
k匿名模块,用于根据给的a的大小,作为阈值进行k匿名,将数据集中已经符合k匿名的记录,列入k匿名表中,统计t
m
表中记录的个数。
[0062]
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
[0063]
使用主成分分析方法完成数据的降维且确定敏感属性、准标识符属性和标识属性;对降维后的数据使用灰度关联分析方法计算敏感属性与准标识符属性的关联度;根据敏感属性与准标识符关联度确定准标识符的泛化层次结构;使用手肘法确定数据集适合的聚类簇数量;根据阈值a判断对数据直接进行聚类操作还是将该数据集与其他数据值合并进行聚类;对数据集进行聚类处理;根据准标识属性的泛化结构对聚类的数据进行k匿名处理。
[0064]
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的k匿名聚类隐私保护系统。
[0065]
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的k匿名聚类隐私保护方法,能够降低医疗数据的维度,避免聚类过程中陷入局部最优值,降低k匿名过程中的信息损失率。本发明还能够有效的减少数据泄露的风险,减少同质性攻击,保护隐私数据。
[0066]
本发明降低医疗数据的维度是通过主成分分析完成医疗数据的降维,避免聚类过程中陷入局部最优值是通过聚类算法,进行二分均值聚类过程中不断选择最少误差平方和的数据集进行聚类,达到对全局数据的最优处理。本发明降低k匿名化过程汇总的信息损失率,通过灰度关联分析通过关联度来控制准标识符的泛化层次结构,以及将不满足k匿名阈值的数据集与其他不满足数据集进行合并,然后进行k匿名来减少信息损失率。
附图说明
[0067]
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
[0068]
图1是本发明实施例提供的k匿名聚类隐私保护方法流程图。
[0069]
图2是本发明实施例提供的k匿名聚类隐私保护方法原理图。
[0070]
图3是本发明实施例提供的k匿名聚类隐私保护系统结构框图;
[0071]
图中:1、数据降维模块;2、关联度确定模块;3、泛化层次确定模块;4、最佳簇数量确定模块;5、数据集聚类模块;6、k匿名模块。
[0072]
图4是本发明实施例提供的主成分分析的流程图。
[0073]
图5是本发明实施例提供的灰度关联分析的流程图。
[0074]
图6是本发明实施例提供的泛化层次结构图。
[0075]
图7是本发明实施例提供的手肘法流程图。
[0076]
图8是本发明实施例提供的聚类方法流程图。
[0077]
图9是本发明实施例提供的k匿名流程图。
具体实施方式
[0078]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0079]
针对现有技术存在的问题,本发明提供了一种k匿名聚类隐私保护方法及系统,下面结合附图对本发明作详细的描述。
[0080]
如图1所示,本发明实施例提供的k匿名聚类隐私保护方法包括以下步骤:
[0081]
s101,根据主成分分析方法对医疗数据集t进行降维;
[0082]
s102,使用灰度关联分析方法确定准标识符与敏感属性的关联度;
[0083]
s103,根据准标识符与敏感属性的关联度确定准标识符属性的泛化层次;
[0084]
s104,根据所选择的标识符、准标识符和敏感属性,根据手肘法来确定数据的最佳簇的数量;
[0085]
s105,根据最佳簇数量l,将l作为聚类簇数量进行数据集的聚类;
[0086]
s106,给的a的大小,作为阈值进行k匿名,将数据集中已经符合k匿名的记录,列入k匿名表中,统计t
m
表中记录的个数。
[0087]
本发明实施例提供的k匿名聚类隐私保护方法原理图如图2所示。
[0088]
如图3所示,本发明实施例提供的k匿名聚类隐私保护系统包括:
[0089]
数据降维模块1,用于根据主成分分析方法对医疗数据集t进行降维;
[0090]
关联度确定模块2,用于使用灰度关联分析方法确定准标识符与敏感属性的关联度;
[0091]
泛化层次确定模块3,用于根据准标识符与敏感属性的关联度确定准标识符属性的泛化层次;
[0092]
最佳簇数量确定模块4,用于根据所选择的标识符、准标识符和敏感属性,根据手肘法来确定数据的最佳簇的数量;
[0093]
数据集聚类模块5,用于根据最佳簇数量l,将l作为聚类簇数量进行数据集的聚类;
[0094]
k匿名模块6,用于根据给的a的大小,作为阈值进行k匿名,将数据集中已经符合k匿名的记录,列入k匿名表中,统计t
m
表中记录的个数。
[0095]
下面结合具体实施例对本发明的技术方案作进一步描述。
[0096]
实施例1
[0097]
本发明实施例提供的基于医疗数据的k匿名聚类算法,包括以下步骤:(1)使用主成分分析方法完成数据的降维且确定敏感属性、准标识符属性和标识属性;(2)对降维后的数据使用灰度关联分析方法计算敏感属性与准标识符属性的关联度;(3)根据敏感属性与准标识符关联度确定准标识符的泛化层次结构;(4)使用手肘法确定数据集适合的聚类簇数量;(5)根据阈值a判断对数据直接进行聚类操作还是将该数据集与其他数据值合并进行聚类;(6)对数据集进行聚类处理;(7)根据准标识属性的泛化结构对聚类的数据进行k匿名处理,处理后能够有效的减少数据泄露的风险,减少同质性攻击,保护隐私数据。
[0098]
方法方案:本发明实施例提供的基于医疗数据效用性的k匿名聚类隐私保护方法,包括以下步骤:
[0099]
步骤1:根据主成分分析方法对医疗数据集t进行降维。
[0100]
步骤1.1:可能存在的主成分标识表示为:
[0101][0102]
其中,p标识每组记录中属性的维度,c表示每组记录中属性的权重,z表示主成分,q表示可能存在的主成分个数,每个主成分之间相互独立。z1,z2,

,z
n
由不同的x1,x2,

,x
p
准标识符组成。
[0103]
步骤1.2:根据负载值c
ij
在主成分集合中的大小,选择属性维度最小的主成分,在维度最小的主成分中选择合适的qi属性,确定标识符、准标识符、敏感属性。
[0104]
步骤2:使用灰度关联分析方法确定准标识符与敏感属性的关联度。
[0105]
步骤2.1:将敏感属性作为参考数列,y=y(k)|1,2,...,n,y就是具体的敏感属性。
[0106]
步骤2.2:需要确定与敏感属性关联度的作为比较数据,具体的表示如下:x
i
=x
i
(k)|k=1,2,...,n,i=1,2,...,m,x
i
(k)表示第i个比较数列中的第k个值,m表示qi属性的个数。
[0107]
步骤2.3:不同数据的计量单位不同,用下述公式对数据进行归一化处理:
[0108][0109]
步骤2.4:归一化处理后计算准标识符属性与敏感属性的灰度关联系数,用下述公式确定灰度关联系数:
[0110][0111]
其中,|y(k)

x
i
(k)|是参考数列与第i个比较数列中对应的第k个数据之间的距离,max表示最大距离,min表示最小距离。ρ称为分辨系数,一般ρ的取值区间为(0,1),当ρ≤0.5463时,分辨力较高,通常取ρ=0.5。
[0112]
步骤2.5:根据各个时刻的关联系数,确定关联度,用下述公式确定关联度:
[0113][0114]
其中,r
i
表示为关联度,当关联度越接近1,表明准标识符属性与敏感属性的关联越高,联系越强。
[0115]
步骤3:根据准标识符与敏感属性的关联度确定准标识符属性的泛化层次,关联度越高数据的关联性越强,准标识符的泛化层次结构应该更加细致,对于关联度不高的准标识符,泛化层次结构就相对模糊一些,这样就确定了准标识符泛化层次结构。
[0116]
步骤4:根据所选择的标识符、准标识符、敏感属性,根据手肘法来确定数据的最佳簇的数量。
[0117]
步骤4.1:给定数据集t的簇数量范围m,根据给的簇数量范围m,对数据集进行局部划分,从簇数量为2,根据下面的式子计算簇的质心到簇中每个数据点的欧式距离:
[0118][0119]
其中,x
i
,y
i
对应计算两个数据点不同维度的数据。依据最近质心原则,根据欧式距离大小,完成数据点的簇划分。
[0120]
步骤4.2:根据簇的划分,计算每个簇的sse(sum of squared error),将当前簇数量与总误差平方和作为坐标,在坐标轴中表示出来,sse计算公式如下:
[0121][0122]
其中,c
i
表示第i个簇,p表示ci中的样本点,m
i
表示c
i
中所有的样本均值。根据医疗数据集t的手肘图如图2所示,确定最佳的簇数量l。
[0123]
步骤5:根据最佳簇数量l,将l作为聚类簇数量进行数据集的聚类。
[0124]
步骤5.1:将所有数据作为一个簇放入队列{d1},将这个簇进行簇数量m=2的均值聚类,计算每个簇的sse,将划分的簇放入队列{d1,d2,d3}。
[0125]
步骤5.2:在队列中选取最小的sse进行m=2的均值聚类,然后将划分后的簇放入队列,重复上面的的步骤直到簇的数量大于l。
[0126]
步骤5.3:根据上述的聚类步骤,完成了对医疗数据集t划分,划分为m个数据集(t1,t2,

,t
m
)。
[0127]
步骤6:给的a的大小,作为阈值进行k匿名,将数据集中已经符合k匿名的记录,列入k匿名表中,统计t
m
表中记录的个数。
[0128]
步骤6.1:找到t
m
中取值个数最多以及关联度最高的准标识符属性a,将准标识符
属性a的泛化层次根据泛化层次结构上升一层。
[0129]
步骤6.2:统计当前t
m
符合k匿名规则的记录与不符合k匿名规则的记录。
[0130]
步骤6.3:将t
m
中符合k匿名规则的记录列入k匿名表中,将不符合k匿名规则的记录重复步骤6.1,直到t
m
中的记录数小于k。
[0131]
步骤6.4:将各个数据集k匿名后记录数量小于阈值a的记录组合成新的数据表t
s
,根据步骤6.1进行k匿名。
[0132]
实施例2
[0133]
本发明实施例提供的基于医疗数据效用性的k匿名聚类隐私保护方法,包含以下步骤:
[0134]
如图2所示,本实施包括主成分分析、灰度关联分析、泛化、手肘法、聚类和k匿名模块。具体为:
[0135]
步骤1:对医疗数据进行主成分分析,如图4所示,首先对医疗数据进行均值化处理,计算协方差,计算协方差矩阵的特征值与特征向量,对特征值进行从大到小的排序,保留最大的k个特征向量,将数据转换到k个特征向量构建的新空间,最后完成数据的降维,根据负载量选择标识符,准标识符以及敏感属性。
[0136]
标识符属性:一般指能够直接识别出某个个体的数据,例如姓名、电话号码、身份证号码等,对于标识符属性在数据发布之前都直接将该属性从数据表中删除。
[0137]
准标识符:可以和外部表链接进而识别个体的最小属性集,在发布数据表与外部数据表共同存在的属性,例如邮编。生日、性别等,可以将这些属性集合与外部数据表结合通过链接攻击,识别出具体个人信息。
[0138]
敏感属性:在数据发布时不希望其他用户知道的属性,例如疾病信息、购买偏好、薪水等,需要在发布前进行保护的信息。
[0139]
步骤2:将步骤1得到的数据集t进行灰度关联分析,如图5所示。
[0140]
步骤2.1:确定参考数列y=y(k)|1,2,...,n,参考数列y对应为敏感属性,比较数列x
i
=x
i
(k)|k=1,2,...,n,i=1,2,...,m,比较数列x
i
对应为需要确定与敏感属性联系的属性。x
i
(k)表示第i个比较数列中的第k个值,m表示qi属性的个数。
[0141]
步骤2.2:不同数据的计量单位不同,用下述公式对数据进行归一化处理:
[0142][0143]
步骤2.4:归一化处理后计算准标识符属性与敏感属性的灰度关联系数,用下述公式确定灰度关联系数:
[0144][0145]
其中,|y(k)

x
i
(k)|是参考数列与第i个比较数列中对应的第k个数据之间的距离,max表示最大距离,min表示最小距离。ρ称为分辨系数,一般ρ的取值区间为(0,1),当ρ≤0.5463时,分辨力较高,通常取ρ=0.5。
[0146]
步骤2.5:根据各个时刻的关联系数,确定关联度,用下述公式确定关联度:
[0147][0148]
其中,r
i
表示为关联度,当关联度越接近1,表明准标识符属性与敏感属性的关联越高,联系越强。
[0149]
步骤3:根据准标识符与敏感属性的关联度确定准标识符属性的泛化层次,关联度越高数据的关联性越强,准标识符的泛化层次结构应该更加细致,对于关联度不高的准标识符,泛化层次结构就相对模糊一些,这样就确定了准标识符泛化层次结构。
[0150]
如图6所示,当属性与敏感属性的关联度比较低时,泛化的层次就比较少,如图6左边的泛化层次结构,当属性与敏感属性的关联度高一些时,泛化层次就更加细致,如图6右边的泛化层次结构。当泛化层次结构更加细致时,在匿名过程中信息的损失率就会更低,更大的保护数据的原始性。
[0151]
步骤4:对医疗数据集t使用手肘法确定最佳簇数量,如图7所示。
[0152]
步骤4.1:给定数据集t的簇数量范围m,根据给的的簇数量范围m,对数据集进行局部划分,从簇数量为2,根据下面的式子计算簇的质心到簇中每个数据点的欧式距离:
[0153][0154]
其中,x
i
,y
i
对应计算两个数据点不同维度的数据。依据最近质心原则,根据欧式距离大小,完成数据点的簇划分。
[0155]
步骤4.2:根据簇的划分,计算每个簇的sse(sum of squared error),将当前簇数量与总误差平方和作为坐标,在坐标轴中表示出来,sse计算公式如下:
[0156][0157]
其中,c
i
表示第i个簇,p表示c
i
中的样本点,m
i
表示c
i
中所有的样本均值。根据医疗数据集t的手肘图如图2所示,确定最佳的簇数量l。
[0158]
步骤5:根据最佳簇数量l,将l作为聚类簇数量进行数据集的聚类,如图8所示。
[0159]
步骤5.1:将所有数据作为一个簇放入队列d={d1},将这个簇进行簇数量m=2的均值聚类,计算每个簇的sse,将划分的簇放入队列d={d1,d2,d3}。
[0160]
步骤5.2:在队列中选取最小的sse进行m=2的均值聚类,然后将划分后的簇放入队列,将最佳簇数量作为聚类的阈值,直到满足阈值。
[0161]
步骤5.3:根据上述的聚类步骤,完成了对医疗数据集t划分,划分为m个数据集(t1,t2,

,t
m
)。
[0162]
步骤6:对数据进行k匿名化,如图9所示。
[0163]
步骤6.1:给定a的大小,作为阈值进行k匿名。将每个子数据集中已经符合k匿名的列入k匿名表中,统计每个t
m
表中记录的个数。
[0164]
步骤6.2:找到每个t
m
中取值个数最多以及关联度最高的准标识符属性a,将准标识符属性a的泛化层次根据泛化层次结构从底部上升一层。
[0165]
步骤6.3:统计当前t
m
符合k匿名规则的记录与不符合k匿名规则的记录。
[0166]
步骤6.4:将t
m
中符合k匿名规则的记录列入k匿名表中,将不符合k匿名规则的记
录重复步骤6.2,直到t
m
中的记录数小于k。
[0167]
步骤6.5:将各个数据集k匿名后记录数量小于阈值a的记录组合成新的数据表t
s
,根据步骤6.2进行k匿名。
[0168]
下面结合具体实验数据对本发明的技术方案作进一步描述。
[0169]
原始数据集中有14个属性包括年龄、性别、胸疼类型、静息血压、血浆类固醇含量、空腹血糖、静息心电图结果、最高心率、运动型心绞痛、运动引起的st下降值、最大运动量时心电图st的斜率、使用荧光法测定的主血管数、thal(地中海贫血)以及是否患有心脏病。如表1.
[0170]
表1
[0171][0172]
对原始数据集的13个属性进行主成分分析后,根据相关系数大小,选择的维度最小的主成分,将性别、血浆类固醇量、静息心电图结果、最高心率以及运动型心绞痛这5个属性作为准标识符,是否患心脏病这1个属性作为敏感属性,将原始的13个准标识属性降维到5个准标识属性。见表2
[0173]
表2
[0174][0175]
确定这5个准标识符属性后,使用灰度关联分析确定准标识符与敏感属性的关联度。根据图6所示的关联度越高的准标识符属性,将其泛化层次结构划分的更加细致,关联度不高的准标识符属性,其泛化层次结构就模糊一些。
[0176]
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0177]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介
质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0178]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献