一种基于微服务的社交网络数据差分隐私保护方法

2022-08-28 01:45:10 来源：中国专利 TAG：

1.本发明涉及一种基于微服务的社交网络图数据差分隐私保护方法，属于网络安全技术领域。

背景技术：

2.社交网络中存在大量的个人隐私信息和数据，如果直接发布真实的社交网络数据，可能会导致大量个人隐私信息的泄露。为了防止用户个人隐私信息的泄露，在将这些隐私信息发布给第三方之前必须要对这些数据信息进行一定的隐私保护。
3.常见的隐私保护技术主要分为3类：基于差分隐私的隐私保护技术、基于同态加密的隐私保护技术和基于安全多方计算的隐私保护技术。其中，差分隐私是一种具有严格数学理论证明的隐私保护模型，并且不依赖于任何攻击者的背景知识。
4.目前的社交网络隐私保护技术在对隐私保护时会对数据可用性造成一定的损失，并且代码运行效率低，可维护性差。

技术实现要素：

5.本发明要解决的技术问题是提供一种基于微服务的社交网络数据差分隐私保护方法，本发明实时更新社交网络，将原始图序列转换成二阶差分序列，并添加拉普拉斯噪声，实现了较高的数据可用性、较高的隐私保护效果。
6.为解决上述技术问题，本发明采用的技术方案如下：
7.本发明基于微服务的社交网络数据差分隐私保护方法，所述微服务包括数据处理微服务模块、获取参数微服务模块、图序列差分化微服务模块和差分隐私化微服务模块；所述方法采用如下步骤：
8.步骤一：用户输入网络数据集以及初始参数；
9.步骤二：调用数据处理微服务模块，生成图序列；
10.所述数据处理微服务模块根据步骤一中用户输入的网络数据集的特点以及参数，将输入数据转换为图序列；
11.步骤三：根据步骤二生成的图序列获取参数微服务模块；所述获取参数微服务模块根据用户输入的参数以及当前图序列，生成节点度阈值和全局敏感度；
12.步骤四：采用图序列差分化微服务模块；所述图序列差分化微服务模块根据图序列生成原始序列，给定一个作用于图序列的随机函数，先根据原始序列生成一阶差分序列，然后在一阶差分序列的基础上生成二阶差分序列；
13.步骤五：对处理后的二阶差分序列采用差分隐私化微服务模块，所述差分隐私化微服务模块根据全局敏感度和不同的隐私预算，隐私预算的值按照1-10顺序递增，在二阶差分序列上添加同全局敏感度与当前隐私预算的比值成正比例的拉普拉斯噪声；并记录原始序列与添加噪声之后的序列之间的相对l1误差；
14.步骤六：根据步骤五记录的相对l1误差和不同的隐私预算产生的误差，生成以隐
私预算为横坐标、以相对l1误差为纵坐标的折线统计图。
15.本发明每个网络数据集中的节点集合和边集合生成图g＝(v,e)，其中v表示图中节点的集合，e表示图中边的集合；新节点进入当前图的时刻记录在图序列中，用v.time表示；
16.则步骤二中图序列形式定义为g＝(g1,g2,g3,
…
)，根据数据处理微服务模块生成g
t
＝(v
t
,e
t
)，t＝1,2,3...，v
t
表示t时刻构成图的节点集合，e
t
表示t时刻构成图的边的集合，g
t
＝(v
t
,e
t
)表示t时刻到达的所有节点和边构成的图。
17.本发明步骤三中节点度阈值的获取具体采用：
18.步骤301、用户输入的参数为edge，则阈值为-1；
19.步骤302、用户输入的参数为highdeg，则判断用户是当前的网络数据是有向图结构还是无向图结构，如果是有向图，则根据当前网络数据的出度生成节点度阈值；如果是无向图，则根据当前网络数据的度生成节点度阈值；
20.全局敏感度的获取先将步骤二中的图序列存储在list中，再常规获取当前list的所有节点的度或出度的最大值。
21.本发明步骤四中原始序列为g＝(f(g1),f(g2),f(g3),
…
)，其中g表示图，f(g1)表示作用于图序列g1的一个随机函数；先在原始序列初始位置插入0元素准备做差分，然后在连续相邻的两个元素之间作差分，生成一阶差分序列；在一阶差分序列初始位置插入0元素，连续相邻的两个元素作差分生成二阶差分序列。
22.本发明隐私预算的取值范围为0～10，不同的隐私预算生成不同的拉普拉斯噪声，拉普拉斯噪声存储在list噪声列表中，遍历二阶差分序列并相应的添加噪声列表中对应的拉普拉斯噪声。
23.本发明所述初始参数包括graphname、edgeopt、degtype和publish。
24.本发明采用上述技术方案所取得的技术效果如下：
25.本发明结合微服务和差分序列进行网络数据的差分隐私保护，为社交网络数据的隐私保护提供了强有力的技术支撑，本发明方法在提供隐私保障的同时保证了数据的可用性，在本发明方法代码的运行结构上采用微服务，使得代码的可维护性以及运行效率有了很大的提高。
26.本发明采用差分序列对社交网络数据序列进行二重处理，生成了二阶差分序列，在二阶差分序列上添加了拉普拉斯噪声，提高了差分隐私保护。
27.本发明采用四个微服务模块，保证了在程序运行时可以动态部署、增加、删除和迁移单个微服务模块，不仅提高了本发明的运行效率，同时提高了本发明的灵活性和可维护性。
附图说明
28.图1是本发明的流程图；
29.图2是本发明实施例的图序列结构示意图；
30.图3是本发明实施例的预期实验结果折线图。
具体实施方式
31.下面结合附图和具体实施例对本发明作进一步详细的说明：
32.如附图1所示，本发明微服务包括数据处理微服务模块、获取参数微服务模块、图序列差分化微服务模块和差分隐私化微服务模块；基于微服务的社交网络数据差分隐私保护方法采用如下步骤：
33.步骤一：用户输入网络数据集以及初始参数；所述初始参数包括graphname(图名称，即数据集名称)、edgeopt(图类型)、degtype(度类型)和publish(图的发布类型)；
34.步骤二：调用数据处理微服务模块，生成图序列；
35.根据用户输入的网络数据集的特点以及初始参数，遍历每个网络数据集中的节点集合和边集合生成图g＝(v,e)，其中v表示图中节点的集合，e表示图中边的集合；因为在线网络是时刻变化的，所以将新节点进入当前图的时刻也记录在图序列中，用v.time表示；即不同时间到达的节点构成了不一样的图，如当t＝1时，g
t
＝(v
t
,e
t
)表示t时刻到达的所有节点和边构成的图；这样将生成的图按照上述方式转换成图序列形式g＝(g1,g2,g3,
…
)，其中g
t
＝(v
t
,e
t
)，t＝1,2,3...，v
t
表示t时刻构成图的节点集合，e
t
表示t时刻构成图的边的集合；如果是真实的网络数据集，则根据网络数据集中的edges.txt、nodes.txt和edis.txt文件生成对应的边序集合edges、节点集合nodes和节点的edi集合edis，根据每个节点到达图内的时间生成稳定的节点集合和边集合，然后按照稳定的节点集合和边集合处理节点集合生成图序列；如果是合成的网络数据集，则需要根据设定具体参数生成图序列，其中本实施会例涉及两个合成数据集：一是根据barabasi
–
albert优先附件模型生成的疾病传播综合图i；另一是根据sir感染模型生成的疾病传播合成图ii；疾病传播综合图i参数特征是：假设总共num_years＝20年，每年增加num_nodes_per_year＝70个节点，初始总共num_initial＝500个节点，保证每个进入社交网络图的新节点被孤立的概率与参数p＝0.5成正比，而这个新节点连接到一个已存在节点v的概率正比于deg(v)
×
(current_time-v.time 1)-c(无向图中，或者在有向图中正比于out-deg(v)
×
(current_time-v.time 1)-c)，其中c是衰减参数，实际上每个新节点进入一个社交网络图时，至少连接图中的m＝1个节点，根据设定的参数，即可生成所需图序列；
36.疾病传播合成图ii参数特征是：在该合成图中，所有节点都处于三种状态之一：易感(s)、传染性(i)和康复(r)；具有传染性的个体通过社会联系将疾病传播给易感个体，传播概率为p
t
；感染节点康复的概率为pr；具有传染性的个体以的概率感染g
interact
中的每个相邻节点；假设总共num_years＝20年；根据设定的参数，即可生成所需图序列；
37.图序列的具体形式如图2所示，将数据集处理成图序列的形式g＝(g1,g2,g3,
…
)，所有图序列保存在一个list中，list中每个元素的形式都是g
t
＝(v
t
,e
t
)，t＝1,2,3...，其中v
t
表示t时刻构成图的节点集合，e
t
表示t时刻构成图的边的集合，如图2中list的第一个元素《networkx.classes.digraph.digraph object at 0x000001fc04d3bd30》即表示在t时刻之前到达的所有的结点和边构成的图；
38.步骤三：根据步骤二生成的图序列获取参数微服务模块；所述获取参数微服务根据用户输入的参数以及当前图序列，生成节点度阈值和全局敏感；
39.首先获取节点度阈值，如果用户输入的参数为edge，则阈值为-1；如果用户输入的
参数为highdeg，则判断用户是当前的社交网络数据集是有向图结构还是无向图结构；如果是有向图，因有向图中节点既有出度又有入度，本实施例为有向图的出度，则根据当前社交网络的出度生成节点度阈值；如果是无向图，因无向图中节点只有度，本实施例为图的度，则根据当前社交网络的度生成节点度阈值；再获取全局敏感度，根据用户输入的参数以及当前图数据序列，先将这个图序列存储在list中，再常规获取当前list的所有节点的度或出度的最大值，然后生成全局敏感度；在不同的数据集中由于数据的不同则会产生不同的全局敏感度，如真实网络数据集patent产生的全局敏感度为431.0，真实网络数据集citation-pos产生的全局敏感度为51.0，合成网络数据集synth_ba产生的全局敏感度为11.0，合成网络数据集synth_sir产生的全局敏感度为11.0；
40.步骤四：采用图序列差分化微服务；图序列差分化微服务随机选择一个函数作用于当前图序列，生成待处理的原始图序列g＝(f(g1),f(g2),f(g3),
…
)；首先在原始图序列首位置插入0元素，然后依次在连续相邻的两个元素之间做差分，生成一阶差分序列；然后在一阶差分序列的首位置插入0元素，再依次在连续相邻的两个元素之间做差分，生成所需的二阶差分序列。
41.一阶差分序列虽然能够起到隐私保护的效果，且取得了较高的数据可用性，但是网络攻击者可以在一阶差分序列中寻找规律从而得到原始图序列，而二阶差分序列是在一阶差分序列的基础上再次进行了序列差分化，并且在二阶差分序列上添加了拉普拉斯噪声，保证了对数据可用性影响不大的同时提高了隐私保护效果。
42.步骤五：对处理后的二阶差分序列采用差分隐私化微服务，所述差分隐私化微服务根据全局敏感度，设置不同的隐私预算，在二阶差分序列上添加同全局敏感度与当前隐私预算的比值成正比例的拉普拉斯噪声；并记录原始序列与添加噪声之后的序列之间的相对l1误差；隐私预算的取值范围为0～10，不同的隐私预算生成不同的拉普拉斯噪声，拉普拉斯噪声存储在list噪声列表中，遍历二阶差分序列并相应的添加噪声列表中对应的拉普拉斯噪声；
43.步骤六：首先记录了原始图序列对应的真实值，然后根据步骤五记录经处理后产生的图序列的预测值，再利用预测值与真实值之间的相对l1误差，生成以隐私预算为横坐标、以相对l1误差为纵坐标的折线统计图，通过折线统计图能直观的看到应用本发明方法前后数据的误差，如附图3所示，errs_sensediff_two即为本发明方法折线，origional所示为原未经处理的图序列误差折线，sensediff为在原图序列基础上做一次差分处理的误差折线，errs_sensediff_two折线处于origional折线和sensediff折线之下，即说明本发明方法产生的误差更小，保护效果更好，且数据可用性更高。
44.本发明结合微服务和差分序列进行网络数据的差分隐私保护，为社交网络数据的隐私保护提供了强有力的技术支撑，本发明方法在提供隐私保障的同时保证了数据的可用性，并且代码的可维护性以及运行效率有了很大的提高。
45.本发明采用差分序列对社交网络数据序列进行二重处理，生成了二阶差分序列，在二阶差分序列上添加了拉普拉斯噪声，提高了差分隐私保护。
46.本发明采用四个微服务模块，保证了在程序运行时可以动态部署、增加、删除和迁移单个微服务，不仅提高了算法的运行效率，同时提高了算法的灵活性和可维护性。
47.最后说明的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡
在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于强化学习的地址映射策略设计方法

一种基于微服务的社交网络数据差分隐私保护方法

相关文献

最热文献