一种基于效用矩阵实现l-diversity匿名的方法与流程

2022-12-07 02:09:16 来源：中国专利 TAG：

1.本发明涉及隐私保护和信息安全技术领域，具体的说是一种基于效用矩阵实现l-diversity匿名的方法。

背景技术：

2.社会信息化和网络化的发展导致数据爆炸式增长，以大数据为基础的数据密集型应用引发了人们的广泛关注，其中数据的安全与隐私问题是人们公认的关键问题之一。当前，人们在互联网上的一言一行都掌握在互联网商家手中，包括购物习惯、好友联络情况、阅读习惯、检索习惯等等，多项实际案例说明，即使无害的数据被大量收集后，也会暴露个人隐私。
3.在信息化的背景下，商家既是数据的生产者，又是数据的存储、管理者和使用者，因此单纯通过常规手段限制商家对用户信息的收集，实现用户隐私保护是极其困难的。此外，当前企业常常认为经过简单隐藏关键信息后，不包含用户的标识符的信息就可以公开发布。但事实上仅通过简单隐藏关键信息并不能很好地达到隐私保护的目的，别有用心者仍然能通过信息交叉对比等方式识别出用户的关键信息。数据发布时使用技术手段进行匿名保护是实现隐私保护的核心关键技术与基本手段。

技术实现要素：

4.本发明针对目前技术发展的需求和不足之处，提供一种基于效用矩阵实现l-diversity匿名的方法。
5.l-diversity，即l-多样性，它表示：在公开的数据中，每一个等价类里的敏感属性必须具有多样性，即l-多样性保证每一个等价类里，敏感属性至少有l个不同的取值，通过这样l-多样性使得攻击者最多只能以1/l的概率确认某个体的敏感信息，从而保证用户的隐私信息不能通过背景知识、同质知识等方法推断出来。
6.本发明的一种基于效用矩阵实现l-diversity匿名的方法，解决上述技术问题采用的技术方案如下：
7.一种基于效用矩阵实现l-diversity匿名的方法，包括如下步骤：
8.s1、获取用户属性标识，引入效用矩阵，计算效用矩阵所包含元素的取值概率；
9.s2、设定参数l、聚类个数n，利用基于划分的聚类算法，对用户属性标识中敏感属性的值进行聚类，并输出聚类结果；
10.s3、判断步骤s2输出的聚类结果中存在敏感属性值的个数是否小于参数l的设定值，若是，则执行步骤s4，若否，则直接结束，并根据聚类结果对用户属性标识中的敏感属性值进行匿名；
11.s4、设定聚类次数k的阈值，判断输出聚类结果时进行的聚类次数是否超过k的设定阈值，若是，则将聚类个数n减1后返回执行步骤s2，若否，则直接返回执行步骤s2。
12.具体的，执行步骤s1，获取的用户属性标识包括显示标识符、准标识符、敏感属性
三类，其中，显示标识符能唯一标识单一个体的属性，多个准标识符组合起来能唯一标识一个用户的多个属性，敏感属性为涉及隐私的属性；
13.多个用户的属性标识存储在同一个数据集内，不同用户的属性标识存储在不同的数据子集内。
14.更具体的，执行步骤s1，引入效用矩阵，计算效用矩阵所包含元素的取值概率，具体操作流程如下：
15.s1.1、引入效用矩阵，效用矩阵的定义如下：
16.u＝(u
ij
)m×n，
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(a)
17.其中，矩阵元素u
ij
表示准标识符中第j个属性对敏感属性中第i个属性的效用，m是敏感属性包含的属性个数，n是准标识符包含的属性个数；
18.s1.2、获取用户的准标识符和敏感属性，利用效用矩阵计算矩阵元素u
ij
的取值概率，计算公式如下：
[0019][0020]
其中，是矩阵元素u
ij
的值，表示qj对si的取值概率，si表示敏感属性中第i个属性的值，qj表示准标识符中第j个属性的值。
[0021]
优选的，用户的准标识符和敏感属性是数值型数据或离散型数据；
[0022]
当准标识符是数值型数据时，表示：对敏感属性si而言，的取值等于准标识符qj的取值范围与整个数据集上准标识符中qj的取值范围之比；
[0023]
当准标识符是离散型数据，表示：对敏感属性si而言，的取值等于准标识符qj的取值个数与整个数据集上准标识符中qj的取值个数之比。
[0024]
优选的，针对数据集上所有用户的属性标识，参数l大于同一敏感属性取不同值的最大取值个数；
[0025]
聚类个数n等于敏感属性所包含的属性个数；
[0026]
聚类次数k的阈值不超过敏感属性所包含属性个数的一半。
[0027]
更具体的，执行步骤s2，利用基于划分的聚类算法，对用户属性标识中敏感属性的值进行聚类，具体操作流程如下：
[0028]
s2.1、将聚类次数计数器的计数值初始化为0，以敏感属性值、效用矩阵、参数l作为基于划分的聚类算法的输入；
[0029]
s2.2、随机选取n个敏感属性值，作为n个聚类的初始聚类中心；
[0030]
s2.3、聚类次数计数器的计数值 1；
[0031]
s2.4、计算敏感属性值到每个聚类中心的距离，将敏感属性值分配到距离最近的聚类；
[0032]
s2.5、所有用户的敏感属性值全部分配完成后，更新聚类中心；
[0033]
s2.6、基于更新的聚类中心，重新执行步骤s2.4-步骤s2.5，直至聚类结果不再发生变化。
[0034]
优选的，执行步骤s2.2时，被选取的n个敏感属性值不一定属于同一个用户，且被选取的n个敏感属性值对应n个不同的敏感属性。
[0035]
进一步优选的，执行步骤s4后，聚类个数n减1后返回执行步骤s2，此时，从n个敏感属性中随机选取n-1个敏感属性值作为新的聚类中心。
[0036]
本发明的一种基于效用矩阵实现l-diversity匿名的方法，与现有技术相比具有的有益效果是：
[0037]
本发明使用效用矩阵获取用户属性标识中不同属性之间的取值概率，使用基于划分的聚类算法将同一个数据集中多个用户的敏感信息多样性提高到l，以实现l-diversity匿名，提高用户隐私数据的安全指数。
附图说明
[0038]
附图1是本发明的实现流程图。
具体实施方式
[0039]
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清楚、完整的描述。
[0040]
实施例一：
[0041]
结合附图1，本实施例提出一种基于效用矩阵实现l-diversity匿名的方法，包括如下步骤：
[0042]
s1、获取用户属性标识，引入效用矩阵，计算效用矩阵所包含元素的取值概率。
[0043]
获取的用户属性标识包括显示标识符、准标识符、敏感属性三类，其中，显示标识符能唯一标识单一个体的属性，多个准标识符组合起来能唯一标识一个用户的多个属性，敏感属性为涉及隐私的属性。本实施例中，用户的显示标识符不限于姓名、身份证号码、护照号、社会保障号、个人设备标识符、个人设备序列号；用户的准标识符不限于性别、生日、年龄、邮编、国际、族裔、血型、置业、婚姻状况、受教育水平、毕业院校；用户的敏感属性不限于电话号码、家庭住址、电子邮件地址、银行账户、生物识别吗、车牌号、个人薪资、疾病名称、患病记录。用户某个敏感属性的具体信息即称为敏感属性值，例如：用户的敏感属性是个人薪资，该敏感属性值即为一个具体的数值或数值范围。
[0044]
多个用户的属性标识存储在同一个数据集内，不同用户的属性标识存储在不同的数据子集内。
[0045]
引入效用矩阵，计算效用矩阵所包含元素的取值概率，具体操作流程如下：
[0046]
s1.1、引入效用矩阵，效用矩阵的定义如下：
[0047]
u＝(u
ij
)m×n，
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(a)
[0048]
其中，矩阵元素u
ij
表示准标识符中第j个属性对敏感属性中第i个属性的效用，m是敏感属性包含的属性个数，n是准标识符包含的属性个数；
[0049]
s1.2、获取用户的准标识符和敏感属性，利用效用矩阵计算矩阵元素u
ij
的取值概率，计算公式如下：
[0050]
[0051]
其中，
[0052]
是矩阵元素u
ij
的值，表示qj对si的取值概率，si表示敏感属性中第i个属性的值，qj表示准标识符中第j个属性的值。
[0053]
根据显示标识符、准标识符、敏感属性包含的具体属性，可以知道，用户的准标识符和敏感属性可以是数值型数据，也可以是离散型数据；
[0054]
(i)当准标识符是数值型数据时，表示：对敏感属性si而言，的取值等于准标识符qj的取值范围与整个数据集上准标识符中qj的取值范围之比。以si表示敏感属性-姓名(张三)、qj表示准标识符-薪资(1000～2000)为例，整个数据集上薪资的范围是0～5000，则等于(2000-1000)/(5000-0)，即等于为1/5.
[0055]
(ii)当准标识符是离散型数据，表示：对敏感属性si而言，的取值等于准标识符qj的取值个数与整个数据集上准标识符中qj的取值个数之比。以si表示敏感属性-姓名(张三)、qj表示准标识符-性别(男)为例，张三的性别只有一个取值：男，整个数据集上性别的取值有两个：男、女，所以等于1/2。
[0056]
s2、设定参数l、聚类个数n，利用基于划分的聚类算法，对用户属性标识中敏感属性的值进行聚类，并输出聚类结果。
[0057]
本实施例中，针对数据集上所有用户的属性标识，参数l大于同一敏感属性取不同值的最大取值个数。以用户的敏感属性-个人薪资、敏感属性-疾病名称为例，假定：整个数据集上用户总数有1000个，个人薪资值有200个不同的取值，疾病名称有300个不同的取值，那么300作为参数l的设定值；若有某个敏感属性q取不同值的个数大于疾病名称的取值个数，则将敏感属性q的取值个数作为参数l的设定值。
[0058]
本实施例中，聚类个数n等于敏感属性所包含的属性个数。
[0059]
执行步骤s2，本实施例利用基于划分的聚类算法k-means，对用户属性标识中敏感属性的值进行聚类，具体操作流程如下：
[0060]
s2.1、将聚类次数计数器的计数值初始化为0，以敏感属性值、效用矩阵、参数l作为基于划分的聚类算法的输入；
[0061]
s2.2、随机选取n个敏感属性值，作为n个聚类的初始聚类中心；执行本步骤时，被选取的n个敏感属性值不一定属于同一个用户，且被选取的n个敏感属性值对应n个不同的敏感属性；
[0062]
s2.3、聚类次数计数器的计数值 1；
[0063]
s2.4、计算敏感属性值到每个聚类中心的距离，将敏感属性值分配到距离最近的聚类；
[0064]
s2.5、所有用户的敏感属性值全部分配完成后，更新聚类中心；
[0065]
s2.6、基于更新的聚类中心，重新执行步骤s2.4-步骤s2.5，直至聚类结果不再发生变化。
[0066]
s3、判断步骤s2输出的聚类结果中存在敏感属性值的个数是否小于参数l的设定值，若是，则执行步骤s4，若否，则直接结束，并根据聚类结果对用户属性标识中的敏感属性值进行匿名。
[0067]
s4、设定聚类次数k的阈值，判断输出聚类结果时进行的聚类次数是否超过k的设定阈值，若是，则将聚类个数n减1后返回执行步骤s2，若否，则直接返回执行步骤s2。
[0068]
本实施例中，聚类次数k的阈值不超过敏感属性所包含属性个数的一半。
[0069]
执行步骤s4，聚类个数n减1后返回执行步骤s2，此时，从n个敏感属性中随机选取n-1个敏感属性值作为新的聚类中心，随后执行步骤s2.3。
[0070]
综上可知，采用本发明的一种基于效用矩阵实现l-diversity匿名的方法，使用效用矩阵获取用户属性标识中不同属性之间的取值概率，使用基于划分的聚类算法将同一个数据集中多个用户的敏感信息多样性提高到l，以实现l-diversity匿名，提高用户隐私数据的安全指数。
[0071]
以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作出的任何改进和修饰，皆应落入本发明的专利保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于质量度变更级别的视频广告素材投放方法与流程

一种基于效用矩阵实现l-diversity匿名的方法与流程

相关文献

最热文献