一种基于差分隐私和紧密度中心性的网络数据发布方法与流程

2022-12-06 20:22:19 来源：中国专利 TAG：

1.本发明属于数据安全领域，具体涉及一种基于差分隐私和紧密度中心性的网络数据发布方法，用于实现社交网络中个人隐私数据保护。

背景技术：

2.随着社会经济的发展，互联网进入到了一个前所未有的大数据时代，蕴含巨大价值的数据信息呈爆发式增长的趋势。社交网络在人们的生活习惯和行为方式产生了不可低估的影响，人们越来越依赖于社交网络、交通、支付、导航、在线购物等，海量社交网络数据大量随之产生，对这些数据进行有效地转化、共享与发布、分析挖掘而产生更大的价值具有重要意义。然而，这些数据中可能会包含许多隐私与敏感信息，如个人消费习惯和偏好、医疗诊断记录、社会关系等。为防止用户的隐私信息被泄露，数据拥有着必须对数据进行一定的隐私保护后才能够发布给第三方机构进行分析研究。因此，如何在实现数据共享与发布的同时保护用户的隐私信息成为了目前数据安全与隐私保护等相关领域研究的热点问题。
3.目前，隐私保护的研究人员已经利用了多种手段来提高社交网络数据发布的安全，如匿名化技术。该技术使用了去标识、泛化和抑制等手段处理社交网络数据的属性和记录，并发布匿名社交网络。然而，现有的研究已经证实经过匿名化处理的数据并不能实现真正的数据安全，匿名数据仍然可以被匿名化。更重要的是，如果攻击者具有足够丰富的背景知识，现有的匿名化技术并不能够抵抗这种基于背景知识的攻击，社交网络数据中个体的隐私安全性并不能有效的保证。2006年，微软著名科学家dwork提出的差分隐私(differential privacy，dp)保护模型克服了现有隐私保护技术的缺陷。差分隐私保护模型在实现防止基于背景知识攻击的同时，该模型还能够用数据理论严格的推理和证明，对隐私保护水平进行定量化的分析和表示，极大地保证了被处理数据的可用性和安全性。
4.社交网络作为一种典型的图数据结构，差分隐私广泛应用于图结构相关的数据发布中。近年来，社交网络的研究包括基于k-三角形计数查询、k-星计数查询、节点度分布查询、轨迹数据发布、边的权重等。而目前大多数基于节点度分布的研究只要是针对于无权重无向图的研究，很少有在节点度分布考虑节点与节点之间边的权重。在现实社交网络中，节点的度分布不能完全代表节点的重要性，并且边权重代表着人际关系的亲密程度、邮件通信频繁程度、交易次数等含义。因此，在图的生成过程中考虑边的权重具有重要意义。
5.综上所述，设计一种基于差分隐私和紧密度中心性的网络数据发布方法具有必要性。

技术实现要素：

6.本发明目的在于针对上述现有隐私保护技术的不足，以及现有基于差分隐私的社交网络数据发布未能充分考虑图结构信息，提供了一种能够满足差分隐私与关注带权社交网络边权值对节点重要性影响的新方法——基于差分隐私和紧密度中心性的社交网络数据发布方法，实现社交网络中节点的度分布直方图发布，并且能够在减小直方图发布过程
中的噪音误差，提高数据的可用性，避免在数据发布中造成个人隐私信息泄露等重大安全事故，达到隐私保护和数据可用性的平衡。
7.本发明采用的技术方案包括以下步骤：
8.步骤1、获取某一待发布的社交网络图g＝(v,e,w)，基于现有图映射技术提出一种节点重要性图映射算法f
θ
，将原图g中节点的最大度限制在某一阈值θ内，以降低与节点有关的查询的敏感度，由此得到节点度上界为θ的图g
θ
，即图中节点最大的度小于等于θ。
9.步骤2、构造有序节点集v
θ
和有序边集
10.步骤2.1、统计图g
θ
中所有节点的度，并按照节点的度降序排列，节点集记为v1。
11.步骤2.2、在社交网络中，“紧密度中心性”是用来衡量一个结点到达其他结点“快慢”的指标，即一个有较高中心性的节点比有较低中心性的节点能够更快地(平均意义下)到达网络中的其他节点，因而在传播中具有较高的价值。由此，计算节点vi的“紧密度中心性”cc(vi)，即“vi到其余所有节点vj(j≠i)的最短距离的平均值的倒数”，数学定义如下：
[0012][0013]
对于非联通图，所有节点的紧密度中心性均为0。最终对所有节点的紧密度中心性降序排列，得到节点紧密度中心性节点集v2。
[0014]
步骤2.3、对图g中所有节点进行排列，先按照节点集v1进行排序，如果有度相同的节点，则按照节点集v2进行排序，最终得到节点降序集v
θ
。
[0015]
步骤3、根据边对应节点升序集v
θ
排序得到边候选集
[0016]
步骤4、实现节点重要性图映射算法f
θ
。
[0017]
步骤4.1、初始化图g
θ
和边集e
θ
为空，即图g
θ
只包含图g的所有节点且度均为0，v
θ
和作为算法输入。
[0018]
步骤4.2、遍历v
θ
选择一个节点作为起始节点u。
[0019]
步骤4.3、遍历边集从中得到判断满足条件的候选边集。
[0020]
步骤4.4、如果候选边集为φ，执行步骤4.2。从候选边集中选择满足在v
θ
中排序较高的节点v的边e＝(u,v)，判断边e加入到g
θ
后，e的两个节点的度均加1后是否满足均小于阈值θ，如果满足，将边e加入到图g
θ
的边集e
θ
，最终得到。否则执行步骤4.4。
[0021]
进一步地，算法执行结束，最终得到节点度上界为θ的图g
θ
。
[0022]
步骤5、构造直方图发布。
[0023]
进一步地，统计图g
θ
中各节点的度，得到社交网络图的节点度分布数据集d。总的隐私预算ε分为两部分，即ε＝ε1 ε2，且ε1》ε2。根据节点的度分布数据集生成原始度分布直方图h。向原始直方图h中添加噪声量为lap(1/ε1)的拉普拉斯噪声，生成初始噪声的直方图h
′
。对度分布直方图的桶进行分组，将计数值相似的桶合并为一组，且分组内的值满足l-diversity，分组数为k，给每个分组添加独立同分布的拉普拉斯噪声，分配的隐私预算为ε2，噪声量为lap(1/ε2)。最终，我们可以得到可用于发布的社交网络图的节点度分布直方图
[0024]
本发明的积极效果
[0025]
(1)本发明改进图的映射方法将原始社交网络图转化为一个度上界为θ的图g
θ
，保
证了图中节点的最大度不大于θ，可以有效解决敏感度过高的问题。
[0026]
(2)本发明在生成图的过程中，构造加边的顺序集有考虑无向图的边权值、对节点重要性的影响；而且在社交网络中，紧密度中心性高的节点是重要节点，这些重要节点之间的关系(即边权值大)在生成图应该首先被保留，因此，在节点排序和选择是应首先考虑。
[0027]
(3)本发明基于节点差分隐私的节点度的直方图分布，不是对每个节点度的计数桶添加相同的满足laplace分布的噪声，而是基于划分的思想，将隐私预算分为两部分，有给每个分区添加噪声。这可以避免在大范围查询时累计噪声过大等问题。
附图说明
[0028]
图1为本发明实施例方法的基本流程示意图。
具体实施方式
[0029]
现有的基于差分隐私的社交网络数据发布方法，大多是考虑无向图，且图中边不带权值，在节点度排序的基础上选择图的节点，根据图的邻居节点随机选择一条边加入到生成图中，同时利用现有的图映射算法要求生成图中节点的度上界为θ。然而，这些方法不太适用于带权的社会网络。同时考虑对生成图的节点度进行统计并发布节点度分布直方图时，现有的对直方图每个桶直接添加噪声的方法能够实现一定程度的隐私保护，但是这导致了直方图的可用性下降。
[0030]
本发明充分考虑到现有社交网络发布方法的缺陷，本发明进一步考虑保存图中的重要节点和重要的带权值的边，我们提出了改进的图映射算法，结和节点度的排序和节点的紧密度中心性两个方面对节点进行排序，在添加边的过程中对边按照权值进行排序。为了提高直方图发布的进度，减少噪声的生成，提高数据的可用性，我们考虑将隐私预算分为两部分，先对统计值进行分组，一部分直接为分组内的每个桶的计数添加拉普拉斯噪声，进而达到扰动真实计数结果的效果，同时，一部分对不同的分组添加不同噪声。
[0031]
本发明改进了传统的基于差分隐私的社交网络图映射算法，并结合了基于差分隐私的节点度分布直方图方法方法，在实现隐私保护的同时，达到了更高的可用性，更合理的保留社交网络的重要结构信息。
[0032]
本发明的一种基于差分隐私的社交网络数据发布方法，具体过程如下：
[0033]
步骤1、输入某一待发布的社交网络图g，构建一个无向带权网络图。
[0034]
其中，用符号g＝(v,e,w)描述网络图，v即表示网络图的顶点集，为图的关系边集，w是图中边的权值集合，分别中v(g)和e(g)来对应图g的定点和边集合。
[0035]
基于现有图映射技术提出一种节点重要性图映射算法f
θ
，将原图g中节点的最大度限制在某一阈值θ内，以降低与节点有关的查询的敏感度，由此得到节点度上界为θ的图g
θ
，即图中节点最大的度小于等于θ。
[0036]
步骤2、构造有序节点集v
θ
和有序边集
[0037]
步骤2.1、统计图g
θ
中所有节点的度，并按照节点的度降序排列，节点集记为v1。
[0038]
步骤2.2、在社交网络中，“紧密度中心性”是用来衡量一个结点到达其他结点“快慢”的指标，即一个有较高中心性的节点比有较低中心性的节点能够更快地(平均意义下)到达网络中的其他节点，因而在传播中具有较高的价值。由此，计算节点vi的“紧密度中心
性”cc(vi)，即“vi到其余所有节点vj(j≠i)的最短距离的平均值的倒数”，数学定义如下：
[0039][0040]
对于非联通图，所有节点的紧密度中心性均为0。最终对所有节点的紧密度中心性降序排列，得到节点紧密度中心性节点集v2。
[0041]
步骤2.3、对图g中所有节点进行排列，先按照节点集v1进行排序，如果有度相同的节点，则按照节点集v2进行排序，最终得到节点降序集v
θ
。
[0042]
步骤3、根据边对应节点升序集v
θ
排序得到边候选集
[0043]
步骤4、实现节点重要性图映射算法f
θ
。
[0044]
步骤4.1、初始化图g
θ
和边集e
θ
为空，即图g
θ
只包含图g的所有节点且度均为0，v
θ
和作为算法输入。
[0045]
步骤4.2、遍历v
θ
选择一个节点作为起始节点u。
[0046]
步骤4.3、遍历边集从中得到判断满足条件的候选边集。
[0047]
步骤4.4、如果候选边集为φ，执行步骤4.2。从候选边集中选择满足在v
θ
中排序较高的节点v的边e＝(u,v)，判断边e加入到g
θ
后，e的两个节点的度均加1后是否满足均小于阈值θ，如果满足，将边e加入到图g
θ
的边集e
θ
，最终得到。否则执行步骤4.4。
[0048]
进一步地，算法执行结束，最终得到节点度上界为θ的图g
θ
。
[0049]
步骤5、构造直方图发布。
[0050]
进一步地，统计图g
θ
中各节点的度，得到社交网络图的节点度分布数据集d。总的隐私预算ε分为两部分，即ε＝ε1 ε2，且ε1》ε2。根据节点的度分布数据集生成原始度分布直方图h。向原始直方图h中添加噪声量为lap(1/ε1)的拉普拉斯噪声，生成初始噪声的直方图h
′
。对度分布直方图的桶进行分组，将计数值相似的桶合并为一组，且分组内的值满足l-diversity，分组数为k，给每个分组添加独立同分布的拉普拉斯噪声，分配的隐私预算为ε2，噪声量为lap(1/ε2)。最终，我们可以得到可用于发布的社交网络图的节点度分布直方图

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种虚拟地址的获取方法和装置、数据传输方法及电子设备与流程

一种基于差分隐私和紧密度中心性的网络数据发布方法与流程

相关文献

最热文献