一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于本地差分隐私的K-prototypes聚类数据隐私保护方法与流程

2022-02-22 07:32:03 来源:中国专利 TAG:

一种基于本地差分隐私的k-prototypes聚类数据隐私保护方法
技术领域
1.本发明属于计算机科学与技术领域,特别涉及一种基于本地差分隐私的k-prototypes聚类数据隐私保护方法。


背景技术:

2.聚类是一种常用的数据分析方法,它按照某种特定标准将数据集分割为不同的簇,使得同一个簇中数据相似性较高。k-means是聚类中的经典算法,其实现简单且聚类高效,但它只适用于处理数值型数据集,对分类型数据的聚类通常使用k-modes算法。实际应用中大部分数据都既包含数值型数据又包含分类型数据,对此通常使用结合k-means和k-modes两种算法的k-prototypes算法。目前,聚类分析在数据挖掘、服务推荐等多个领域发挥着重要的作用。例如通过对客户数据的聚类分析,将客户分为不同的类型,从而针对性的提供服务。然而聚类数据中通常包含大量的个人敏感信息,攻击者可以从位置信息中推测用户的家庭住址或工作地点,从社交网络数据中推测用户的爱好。因此在使用聚类进行数据分析时,迫切需要保护用户数据的隐私。
3.差分隐私是采用严格数学定义的隐私保护模型,它可以量化隐私保护程度,并且能抵御攻击者发起的背景知识攻击和合成攻击。目前差分隐私已广泛应用于数据挖掘、数据发布、位置服务等领域的隐私保护,而且它与随机扰动、数据交换等隐私保护技术相比,在聚类分析数据隐私保护方面具有明显的优势。差分隐私具有强健的隐私保护能力,但它需要一个可信第三方对数据进行处理,而由第三方造成的数据泄露事件却层出不穷,如谷歌,雅虎和微软等公司的数据意外泄漏事件,这不仅造成了用户隐私信息的泄露,还严重损害了公司声誉。
4.针对传统差分隐私需要第三方来处理数据这一问题,本地差分隐私 (local different privacy,ldp)通过在用户端对数据进行扰动,在保证数据可用性的前提下,实现了去第三方的隐私保护,而且与差分隐私相比同样提供了严格的数学定义安全模型。然而虽然本地差分隐私可以有效应对第三方隐私泄露问题,但在聚类分析中应用其对用户数据隐私进行保护仍然存在如下挑战,即如何降低噪声在聚类更新质心过程中的影响。如果直接根据收集到的扰动数据计算用户数据距离哪个质心更近,并以此对用户进行分簇,然后再基于扰动数据分别计算每个簇的质心,则会进一步放大噪声的影响。


技术实现要素:

5.本发明提供一种无需可信第三方的k-prototypes聚类数据隐私保护方法(local different privacy k-modes,ldpk),来防止用户的真实数据被不可信第三方或攻击者恶意使用,以保证用户的数据隐私在聚类过程中的安全性。
6.一种基于本地差分隐私的k-prototypes聚类数据隐私保护方法,包括以下步骤:步骤1:用户在本地端对数据进行扰动;
步骤1.1:利用本地差分隐私技术对用户数据进行扰动,生成扰动数据;步骤1.2:用户将步骤1.1生成的扰动数据发送给服务端,进入步骤2;所述本地端是用户控制下的终端,它存储着用户的数据,这些数据需要传输给服务端来进行聚类;所述服务端是提供聚类分析服务的平台,用于对收集到的用户数据进行聚类分析;所述用户数据的类型为维混合型数据,既包含分类型数据又包含数值型数据。服务端采用k-prototypes方法对混合型数据进行聚类,将其划分为个簇:步骤2:服务端利用基于步骤1.1生成的扰动数据,通过与用户端的交互迭代来进行聚类;步骤2.1:服务端接收步骤1.2中用户发送过来的扰动数据,然后依据属性集随机生成个维属性元组作为初始质心发送给用户;步骤2.2:用户在接收到步骤2.1服务端发送的初始质心后,计算自身真实数据与个初始质心间的距离,然后判断自身数据属于个簇中的哪个簇,最后用户将得到的簇信息发送给服务端:步骤2.3:服务端在接收到步骤2.2用户发送的簇信息后,根据簇信息将扰动数据划分为个簇,然后分别计算每个簇中分类属性对应的各个属性值频率和数值属性的均值。服务端在完成频率和均值计算后,对于分类属性选取频率最高的属性值,对于数值属性则直接采用计算出的均值,以它们的集合作为每个簇的质心,最终得到新的质心集。之后服务端将得到的质心集与上次迭代产生的质心集进行对比,若两者相同则结束迭代,完成聚类。如果两者不同,则将质心集发送给用户,循环执行步骤2.2和步骤2.3;2、根据权利要求1所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤1.1中,用户在本地端采用随机采样技术对自身拥有的混合型数据进行采样,获得采样值。然后,如果是分类型数据,用户采用高精度的oue算法对进行扰动。该算法在扰动数据前需要先对其进行编码,以为例,假设它对应的属性为“民族”,则属性域大小为56,用一个长度为56的比特向量来表示该属性域。每个民族对应中一个比特位,假设为汉族,而汉族对应第个比特位,故将第个比特位设为1,得到比特向量。对中的属性值按照上述过程进行编码,以表示属性值对应的比特位,以表示的取值范围,编码过程如下:编码完成后得到比特向量,然后采用oue算法对进行扰动。的扰动过程如下:其中,,扰动完成后得到。如果是数值型数据,用户采用高精度的hm算法对其进行扰动。该算法在扰动前将归一化到[-1,1]区间,以为例,假设它对应的属性为“年龄”并合理假设它的最大值为120,最小值为0,归一化得到。对中的属性值按照上述过程进行归一化得到,然后采用hm算法对进行扰动获得。的扰动过程如下:2、根据权利要求2所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤1.2中,用户将数据发送给服务端。因数据在用户端已经添加了噪声,所以服务端无法从收集到的数据中得到用户的真实信息。
[0007]
3、根据权利要求3所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤2.1中,服务端从所有用户收集到扰动数据后,依据属性集随机生成个维属性元组作为初始质心发送给用户;
4、根据权利要求4所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤2.2中,从服务端接收到质心集后,用户根据自身的真实数据计算出距离最近的质心,然后依据质心确定所属的簇并汇报。
[0008]
5、根据权利要求5所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤2.3具体包括以下步骤:步骤2.3.1、服务端根据每个用户汇报的,将所有用户划分为个簇。表示簇中的用户人数,因用户对数据进行了采样,所以簇中每个属性对应的用户人数变为,为了便于计算,在此以表示。
[0009]
步骤2.3.2、服务端计算每个簇中分类属性对应的各个属性值频率和数值属性的均值。对于分类型数据,以簇中的属性为例,统计对应扰动数据的每个比特位得到,表示中第个比特位为1的个数。假设与分别为簇中某属性值的真实频率与估计频率,与分别为的真实频数和估计频数。设为对应的比特位,是扰动数据中为1的个数。由于无法获得的真实频数,所以为了求解,需要计算估计频数。因用户以两种概率对每个比特位进行响应,所以个用户对的响应结果构成了满足二项分布的个序列。根据该二项分布,构造相应的似然函数:对上述公式两侧取对数并对求导即可求出它的极大似然估计:对于求解出的可以证明其满足无偏性:因满足无偏性,故,所以可求出无偏估计频率:对于数值型数据,因:所以可得:因此直接根据扰动数据求解的均值满足无偏性。又因对数据进行了采样和归一化,所以对按照归一化过程进行反归一化并将结果乘以得到最终估计均值。
[0010]
步骤2.3.3、服务端在计算出各个簇中所有属性值的频率和均值后,对于分类属性选取频率最高的属性值,对于数值属性则直接采用计算出的均值,以它们的集合作为该簇的质心,最终得到新的质心集。之后服务端将得到的质心集与上次迭代产生的质心集进行对比,若两者相同则结束迭代,完成聚类。如果两者不同,则将质心集发送给用户,然后循环执行步骤2.2和步骤2.3;本发明隐私性分析:本节主要分析该方法的隐私性。具体分析如下:1、隐私性分析引理1该方法满足本地差分隐私的定义。
[0011]
证明:设存在属性的两个属性值和。如果为分类属性,由扰动结果可得:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)因中每个比特位都是独立扰动,故式(1)只在和处不同,所以可以得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)当中的位置为1,位置为0时,式(2)右侧的比值达到最大:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)又因,,故将它们代入式(3)的右侧后可得:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)如果为数值属性,由扰动结果可得:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)因为和的取值区间为[-1,1],所以可得:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)当取1,取-1时,式(6)右侧的比值最大:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)综上所述,ldpk方法满足本地差分隐私的定义。
[0012]
有益效果本发明提供了一种基于本地差分隐私的k-prototypes聚类数据隐私保护方法,基于去第三方的思想,用户采用本地差分隐私技术在用户端对数据进行扰动,使得整个聚类过程中服务端都无法获得用户的真实信息,避免了第三方泄露用户隐私风险。然后,为了降低噪声在聚类更新质心过程中的影响,聚类过程通过服务端与用户端交互迭代的方式完成,服务端在每次迭代中发送给用户本次迭代的质心集,然后用户根据真实数据计算自身属于哪个簇并汇报给服务端,避免了直接根据收集到的扰动数据进行聚类将进一步放大噪声影响的问题。
[0013]
附图说明
[0014]
图1 基于本地差分隐私的k-prototypes聚类框架图;图2算法性能对比示意图,其中,(a)为聚类结果的f-measure,(b)为聚类结果的熵。
具体实施方式
[0015]
下面将结合附图和实例对本发明做进一步地说明。
[0016]
如图1所示,一种基于本地差分隐私的k-prototypes聚类数据隐私保护方法,包括以下步骤:步骤1:用户在本地端对数据进行扰动;步骤1.1:利用本地差分隐私技术对用户数据进行扰动,生成扰动数据;步骤1.2:用户将步骤1.1生成的扰动数据发送给服务端,进入步骤2;所述本地端是用户控制下的终端,它存储着用户的数据,这些数据需要传输给服务端来进行聚类;所述服务端是提供聚类分析服务的平台,用于对收集到的用户数据进行聚类分析;所述用户数据的类型为维混合型数据,既包含分类型数据又包含数值型数据。服务端采用k-prototypes方法对混合型数据进行聚类,将其划分为个簇:步骤2:服务端利用基于步骤1.1生成的扰动数据,通过与用户端的交互迭代来进行聚类;步骤2.1:服务端接收步骤1.2中用户发送过来的扰动数据,然后依据属性集随机生成个维属性元组作为初始质心发送给用户;步骤2.2:用户在接收到步骤2.1服务端发送的初始质心后,计算自身真实数据与
个初始质心间的距离,然后判断自身数据属于个簇中的哪个簇,最后用户将得到的簇信息发送给服务端:步骤2.3:服务端在接收到步骤2.2用户发送的簇信息后,根据簇信息将扰动数据划分为个簇,然后分别计算每个簇中分类属性对应的各个属性值频率和数值属性的均值。服务端在完成频率和均值计算后,对于分类属性选取频率最高的属性值,对于数值属性则直接采用计算出的均值,以它们的集合作为每个簇的质心,最终得到新的质心集。之后服务端将得到的质心集与上次迭代产生的质心集进行对比,若两者相同则结束迭代,完成聚类。如果两者不同,则将质心集发送给用户,循环执行步骤2.2和步骤2.3;2、根据权利要求1所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤1.1中,用户在本地端采用随机采样技术对自身拥有的混合型数据进行采样,获得采样值。然后,如果是分类型数据,用户采用高精度的oue算法对进行扰动。该算法在扰动数据前需要先对其进行编码,以为例,假设它对应的属性为“民族”,则属性域大小为56,用一个长度为56的比特向量来表示该属性域。每个民族对应中一个比特位,假设为汉族,而汉族对应第个比特位,故将第个比特位设为1,得到比特向量。对中的属性值按照上述过程进行编码,以表示属性值对应的比特位,以表示的取值范围,编码过程如下:编码完成后得到比特向量,然后采用oue算法对进行扰动。的扰动过程如下:其中,,扰动完成后得到。如果是数值型数据,用户采用高精度的hm算法对其进行扰动。该算法在扰动前将归一化到[-1,1]区间,以为例,假设它对应的属性为“年龄”并合理假设它的最大值为120,最小值为0,归一化得到。对中的属性值按照上述过程进行归一化得到,然后采用hm算法对进行扰动获得。的扰动过程如下:2、根据权利要求2所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤1.2中,用户将数据发送给服务端。因数据在用户端已经添加了噪声,所以服务端无法从收集到的数据中得到用户的真实信息。
[0017]
3、根据权利要求3所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤2.1中,服务端从所有用户收集到扰动数据后,依据属性集随机生成个维属性元组作为初始质心发送给用户;4、根据权利要求4所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤2.2中,从服务端接收到质心集后,用户根据自身的真实数据计算出距离最近的质心,然后依据质心确定所属的簇并汇报。
[0018]
5、根据权利要求5所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法,其特征在于,所述步骤2.3具体包括以下步骤:步骤2.3.1、服务端根据每个用户汇报的,将所有用户划分为个簇。表示簇中的用户人数,因用户对数据进行了采样,所以簇中每个属性对应的用户人数变为,为了便于计算,在此以表示。
[0019]
步骤2.3.2、服务端计算每个簇中分类属性对应的各个属性值频率和数值属性的均值。对于分类型数据,以簇中的属性为例,统计对应扰动数据的每个比特位得到,表示中第个比特位为1的个数。假设与分别为簇中某属性值的真实频率与估计频率,与分别为的真实频数和估计频数。设为对应的比特位,是扰动数据中为1的个数。由于无法获得的真实频数,所以为了求解,需要计算估计频数。因用户以两种概率对每个比特位进行响应,所以个
用户对的响应结果构成了满足二项分布的个序列。根据该二项分布,构造相应的似然函数:对上述公式两侧取对数并对求导即可求出它的极大似然估计:对于求解出的可以证明其满足无偏性:因满足无偏性,故,所以可求出无偏估计频率:对于数值型数据,因:所以可得:因此直接根据扰动数据求解的均值满足无偏性。又因对数据进行了采样和归一化,所以对按照归一化过程进行反归一化并将结果乘以得到最终估计均值。
[0020]
步骤2.3.3、服务端在计算出各个簇中所有属性值的频率和均值后,对于分类属性选取频率最高的属性值,对于数值属性则直接采用计算出的均值,以它们的集合作为该簇的质心,最终得到新的质心集。之后服务端将得到的质心集与上次迭代产生的质心集进行对比,若两者相同则结束迭代,完成聚类。如果两者不同,则将质心集发送给用户,然后循环执行步骤2.2和步骤2.3。
[0021]
实验及结果分析实验采用隐私保护研究领域常用的uci数据库中的adult数据集,删除其中的无效记录后共有30162条记录,每条记录从其属性中选取了2个数值属性和5个分类属性,。实验的运行环境为:intel(r) core(tm) i5-7300hq cpu @2.50 ghz 2.50 ghz, 8.00 gb内存,操作系统为microsoft windows 10,采用pycharm开发平台,以python编程语言实现。
[0022]
实验采用f-measure(f)和熵(entropy,e)作为聚类质量评价指标,以无隐私保护下的k-prototypes聚类结果作为真实值。评价指标的定义如下所示:其中是聚类簇数,是采用隐私保护算法得到的聚类簇中正确聚类的数据个数,是数据集的大小,是无隐私保护下得到的聚类簇,是采用隐私保护算法得到的聚类簇,按照惯例取1。从评价指标可以看出,聚类结果质量越好,f越大,e越小。由于目前基于差分隐私的混合型聚类数据隐私保护研究较少,实验结合差分隐私下的k-means和k-modes算法实现k-prototypes聚类(different privacyk-prototypes,dpk)并于ldpk进行对比。聚类簇数取3,分类型属性在计算质心时的权重取10,同时为了降低初始质心选择和扰动数据中噪声对结果的影响,每个实验进行300次,结果取平均值。
[0023]
改变隐私预算,其他参数保持不变,对比ldpk与dpk的聚类结果质量。由图2可知,dpk的聚类结果质量略优于ldpk,其原因在于dpk依靠第三方对收集到的真实数据进行隐私处理,可以更好的控制噪声的添加,所以聚类结果的质量较高。但ldpk的聚类结果质量与dpk相比差距不大,这表明通过对用户数据的随机采样以及服务端与用户端的交互迭代,ldpk有效保证了聚类结果的质量。同时与dpk相比,ldpk不需要任何第三方对真实数据进行隐私预处理,避免了第三方泄露用户隐私的风险,提高了用户数据隐私的保护程度。
[0024]
参考文献[1] wang t h, block j, li n h, et al. locally differentially private protocols for frequency estimation[c]// proceedings of the 26th usenix security symposium, usenix association, 2017: 729-745.[2] nguyen h. privacy-preserving mechanisms for k-modes clustering[j]// computers & security, 2018, 78: 60-75.
[3]nguyen t, xiao x, yang y, hui s, shin j. collecting and analyzing data from smart device users with local differential privacy//arxiv preprint, 2016: 1606.05053.[4]su d, cao j, li n, bertino e, lyu m, jin h. differentially private k-means clustering and a hybrid approach to private optimization[j]// acm transactions on privacy and security, 2017, 20(4): 1-33.
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献