一种基于本地差分隐私的K-prototypes聚类数据隐私保护方法与流程

2022-02-22 07:32:03 来源：中国专利 TAG：

技术特征：
1.一种基于本地差分隐私的k-prototypes聚类数据隐私保护方法，其特征在于，包括以下步骤：步骤1：用户在本地端对数据进行扰动；步骤1.1：利用本地差分隐私技术对用户数据进行扰动，生成扰动数据；步骤1.2：用户将步骤1.1生成的扰动数据发送给服务端，进入步骤2；所述本地端是用户控制下的终端，它存储着用户的数据，这些数据需要传输给服务端来进行聚类；所述服务端是提供聚类分析服务的平台，用于对收集到的用户数据进行聚类分析；所述用户数据的类型为维混合型数据，既包含分类型数据又包含数值型数据。服务端采用k-prototypes方法对混合型数据进行聚类，将其划分为个簇：步骤2：服务端利用基于步骤1.1生成的扰动数据，通过与用户端的交互迭代来进行聚类；步骤2.1：服务端接收步骤1.2中用户发送过来的扰动数据，然后依据属性集随机生成个维属性元组作为初始质心发送给用户；步骤2.2：用户在接收到步骤2.1服务端发送的初始质心后，计算自身真实数据与个初始质心间的距离，然后判断自身数据属于个簇中的哪个簇，最后用户将得到的簇信息发送给服务端：步骤2.3：服务端在接收到步骤2.2用户发送的簇信息后，根据簇信息将扰动数据划分为个簇，然后分别计算每个簇中分类属性对应的各个属性值频率和数值属性的均值。服务端在完成频率和均值计算后，对于分类属性选取频率最高的属性值，对于数值属性则直接采用计算出的均值，以它们的集合作为每个簇的质心，最终得到新的质心集。之后服务端将得到的质心集与上次迭代产生的质心集进行对比，若两者相同则结束迭代，完成聚类。如果两者不同，则将质心集发送给用户，循环执行步骤2.2和步骤2.3。2.根据权利要求1所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法，其特征在于，所述步骤1.1中，用户在本地端采用随机采样技术对自身拥有的混合型数据进行采样，获得采样值。然后，如果是分类型数据，用户采用高精度的最优一元编码算法(optimized unary encoding，oue)对进行扰动。该算法在扰动数据前需要先对其进行编码，以为例，假设它对应的属性为“民族”，则属性域大小为56，用一个长度为56的比特向量来表示该属性域。每个民族对应中一个比特位，假设为汉族，而汉族对应第个比特位，故将第个比特位设为1，得到比特向量。对中的属性值按照上述过程进行编码，以表示属性值对应的比特位，以表示的取值范围，编码过程如下：编码完成后得到比特向量，然后采用oue算法对进行扰动。的扰动过程如下：其中，，扰动完成后得到。如果是数值型数据，用户采用高精度的harmony-mean(hm)算法对其进行扰动。该算法在扰动前将归一化到[-1,1]区间，以为例，假设它对应的属性为“年龄”并合理假设它的最大值为120，最小值为0，归一化得到。对中的属性值按照上述过程进行归一化得到，然后采用hm算法对进行扰动获得。的扰动过程如下：。3.根据权利要求2所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法，其特征在于，所述步骤1.2中，用户将数据发送给服务端。因数据在用户端已经添加了噪声，
所以服务端无法从收集到的数据中得到用户的真实信息。4.根据权利要求3所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法，其特征在于，所述步骤2.1中，服务端从所有用户收集到扰动数据后，依据属性集随机生成个维属性元组作为初始质心发送给用户。5.根据权利要求4所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法，其特征在于，所述步骤2.2中，从服务端接收到质心集后，用户根据自身的真实数据计算出距离最近的质心，然后依据质心确定所属的簇并汇报。6.根据权利要求5所述的基于本地差分隐私的k-prototypes聚类数据隐私保护方法，其特征在于，所述步骤2.3具体包括以下步骤：步骤2.3.1、服务端根据每个用户汇报的，将所有用户划分为个簇。表示簇中的用户人数，因用户对数据进行了采样，所以簇中每个属性对应的用户人数变为，为了便于计算，在此以表示。步骤2.3.2、服务端计算每个簇中分类属性对应的各个属性值频率和数值属性的均值。对于分类型数据，以簇中的属性为例，统计对应扰动数据的每个比特位得到，表示中第个比特位为1的个数。假设与分别为簇中某属性值的真实频率与估计频率，与分别为的真实频数和估计频数。设为对应的比特位，是扰动数据中为1的个数。由于无法获得的真实频数，所以为了求解，需要计算估计频数。因用户以两种概率对每个比特位进行响应，所以个用户对的响应结果构成了满足二项分布的个序列。根据该二项分布，构造相应的似然函数：对上述公式两侧取对数并对求导即可求出它的极大似然估计：对于求解出的可以证明其满足无偏性：因满足无偏性，故，所以可求出无偏估计频率：对于数值型数据，因：所以可得：因此直接根据扰动数据求解的均值满足无偏性。又因对数据进行了采样和归一化，所以对按照归一化过程进行反归一化并将结果乘以得到最终估计均值。步骤2.3.3、服务端在计算出各个簇中所有属性值的频率和均值后，对于分类属性选取频率最高的属性值，对于数值属性则直接采用计算出的均值，以它们的集合作为该簇的质心，最终得到新的质心集。之后服务端将得到的质心集与上次迭代产生的质心集进行对比，若两者相同则结束迭代，完成聚类。如果两者不同，则将质心集发送给用户，然后循环执行步骤2.2和步骤2.3。

技术总结
本发明提供了一种基于本地差分隐私的K-prototypes聚类数据隐私保护方法，该方法首先在用户端采用本地差分隐私技术对混合型数据进行扰动，确保服务端无法获得用户的真实数据，然后通过服务端与用户端的交互迭代完成K-prototypes聚类。该方法实现了对K-prototypes聚类过程中用户数据隐私的去第三方保护，并且它的实现过程简单、易操作。易操作。易操作。

技术研发人员：张少波原刘杰朱更明
受保护的技术使用者：湖南科技大学
技术研发日：2021.06.10
技术公布日：2022/2/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种人脸角度样本采集与标注的方法与流程

一种基于本地差分隐私的K-prototypes聚类数据隐私保护方法与流程

相关文献

最热文献