基于差分隐私的时空泛化轨迹数据发布方法

2022-05-11 13:08:07 来源：中国专利 TAG：

1.本发明涉及一种基于差分隐私的时空泛化轨迹数据发布方法，是针对位置服务中轨迹数据隐私泄露问题的一种隐私保护方法，属于工程应用与信息科学的交叉领域。

背景技术：

2.近年来，随着物联网技术的广泛应用和具有定位功能的移动终端的普及，各种基于位置的服务(lbs)迅猛发展，极大地方便了人们的生活。与此同时相应的位置数据信息也在用户未知情况下被轨迹数据库所收集。轨迹数据中隐藏着丰富的人群活动模式，这些数据同公众的生产、生活以及城市的方方面面息息相关，对轨迹数据进行研究可以从中获取丰富的信息，具有极其重要的现实意义。然而，如果数据收集方对用户信息保存不当或数据拥有者发布数据的方式不恰当，都可能带来严重的用户隐私泄露问题。攻击者通过对收集到的轨迹数据进行深入的隐私信息挖掘，可以洞察到隐藏在数据表象背后的用户敏感信息，如家庭住址、兴趣爱好、健康状况以及政治倾向等。一旦这些敏感信息被不法分子获取，会对用户的个人生活和人身安全造成巨大的威胁。因此，如何在保护用户隐私的情况下对收集到的轨迹进行发布是一个关键挑战。
3.现有的轨迹隐私保护方案大致分为以下几类：抑制法(根据真实位置的敏感程度有选择地发布)、假轨迹法(向真实轨迹中添加虚假轨迹)、泛化法(将真实位置泛化到一个区域中) 和扰动法(对每个时刻的真实位置添加随机噪声生成扰乱位置)。传统的隐私保护方案严重依赖于攻击者所拥有的背景知识，当有新的攻击(如去匿名化攻击、组成攻击)出现时模型无法提供良好的保护效果，差分隐私技术的出现就有效地弥补了上述问题。差分隐私由dwork 等人提出，它通过对发布数据进行随机扰动，使攻击者即使拥有一定的背景知识(如用户的性别、邮政编码等)，也无法识别一条记录(如id、姓名等)是否在原数据表中，从而达到隐私保护目的。该技术优点在于不需要特殊的攻击假设、不关心攻击者拥有的背景知识，同时有着严密的数学理论基础和可控的隐私保护水平，能够对隐私泄露风险进行量化。近年来，许多学者对差分隐私技术进行了大量的研究与探讨，根据不同场景下轨迹隐私保护需求提出了一些隐私保护方法。
4.然而，现有的轨迹隐私保护工作仍存在以下难点：(1)lbs服务商如何构建高效的轨迹处理机制来收集存储用户的轨迹数据。(2)轨迹发布模型如何有效的抵抗具有背景知识的敌手攻击。(3)如何在保护用户个人隐私不被泄露的基础上，提高轨迹数据发布的精度，增强发布数据的可用性。目前并没有一个能够高效解决上述所有问题的轨迹隐私保护方法。
5.本发明设计了一种有效可行的解决方案，这种基于差分隐私的时空泛化轨迹数据发布方法不仅能有效地保护用户隐私，保证数据可用性，同时有着较高的执行效和非常好的应用前景。

技术实现要素：

6.发明目的：本发明的目的是提供一种基于差分隐私的时空泛化轨迹数据发布方法。该方法充分利用移动对象轨迹数据的时空特性，解决传统数据发布方法存在的数据可用性低和隐私保护程度不足的问题。通过聚类算法对轨迹数据进行时空泛化，可以有效地降低用户的轨迹隐私泄露的风险，通过差分隐私的指数机制和拉普拉斯机制，保证模型的隐私保护水平，更好地促进基于位置的服务行业的发展。
7.技术方案：为实现上述目的，本发明提出一种基于差分隐私的时空泛化轨迹数据发布方法。首先，通过对轨迹数据进行时间泛化，生成k个时刻位置空间。其次，通过密度峰值聚类算法对时刻位置空间进行空间划分，并结合指数机制概率性地进行位置泛化，隐藏用户的真实位置信息。最后，利用拉普拉斯机制对泛化轨迹统计值添加随机噪声，并通过一致性约束对噪声数据进行后置处理，发布泛化轨迹和加噪统计值。从而可以对轨迹数据进行隐私保护并有效地提高模型的执行效率。具体的技术方案包括以下几个步骤：
8.步骤一：时间泛化生成时刻位置空间：对轨迹位置的时间属性进行聚类，将具有相近时间节点的位置泛化到同一时间段内，生成k个时刻位置空间。
9.步骤二：空间聚类生成候选划分集：对每个时刻位置空间执行多次密度峰值聚类操作进行空间划分，生成候选划分集。
10.步骤三：选择最优分区进行位置泛化：利用差分隐私的指数机制选择具有最佳效用的候选分组，根据此分组的聚类情况对位置点进行空间划分，将每组内所有位置泛化成核心位置。
11.步骤四：轨迹数据发布：统计每条泛化轨迹的真实轨迹数，删除假轨迹。利用差分隐私的拉普拉斯机制，向统计值添加随机噪声，并通过一致性约束对加噪数据进行后置处理，发布泛化轨迹和加噪统计值。
12.有益效果：本发明针对移动对象的轨迹隐私数据保护，提出一种基于差分隐私的时空泛化轨迹数据发布方法。有效地解决了现有的轨迹数据发布模型存在的数据可用性低和隐私保护程度不足的问题。通过聚类算法对轨迹数据进行时空泛化，隐藏用户的真实轨迹信息。通过指数机制和拉普拉斯机制，保证模型的隐私保护水平。如此，本发明既能有效地保护轨迹隐私，保证数据可用性，也可以有效地提高模型的执行效率，为基于位置的服务(lbs)行业提供借鉴，促进该行业发展。
附图说明
13.图1是本发明方法的总体流程图（系统模型）。
14.图2是数据发布流程图。
15.图3是轨迹集示例图
具体实施方式
16.下面结合附图，对本发明做进一步说明。
17.本发明的总体流程如图1所示。图2展示了隐私保护下轨迹数据的发布过程。图3是通过本方法进行数据发布的简单示例图。
18.本发明利用时空泛化和差分隐私对轨迹数据进行隐私保护。首先对轨迹数据进行
时间泛化，生成k个时刻位置空间。通过密度峰值聚类算法对时刻位置空间进行空间划分，并结合指数机制概率性地进行位置泛化，隐藏用户的真实位置信息。最后，利用拉普拉斯机制对泛化轨迹统计值添加随机噪声，并通过一致性约束对噪声数据进行后置处理，发布泛化轨迹和加噪统计值，在不影响轨迹隐私性的同时提高发布数据的可用性。其具体实施步骤如下，且总体流程见附图1。
19.1.时间泛化生成时刻位置空间
20.对轨迹位置的时间属性进行聚类，将具有相近时间节点的位置泛化到同一时间段内，生成k个时刻位置空间。具体处理步骤如下：
21.(1)设定k值及初始质心，其中k表示将轨迹集中所有位置的时间属性划分为k个时间段， k值的设定需参考轨迹数据集的特征。随机选择k个时刻作为初始质心，对于不同时刻ti和tj，它们之间的距离为：
[0022][0023]
(2)将每个时刻归类到距其最近的质心所在的类簇中，根据新划分的簇，重新计算质心时刻：
[0024][0025]
(3)重复步骤(2)直到前后质心的距离值之差小于阈值或达到最大步数。选取每聚簇的质心时刻作为该聚簇中所有轨迹位置点的时间戳。时间属性被分成k个固定的时间段δti(i＝1，2，...，k)，生成k个时刻位置空间γi。
[0026]
2.空间聚类生成候选划分集
[0027]
对每个时刻位置空间执行多次密度峰值聚类操作进行空间划分，生成候选划分集。其具体过程如下。
[0028]
(1)计算每个位置点的局部密度并对其进行排序，根据排序后的结果，进一步计算每个位置点与比它密度更大位置点之间的相对距离。对于任意的位置点pi∈γ，1≤i≤|d|，其局部密度ρi与相对距离δi为：
[0029][0030][0031]
其中，d
ij
为位置点pi与pj间的欧氏距离，dc为截断距离
[0032]
(2)根据局部密度和相对距离，画出决策图并选择ρ和δ都比较大的数据点为聚类中心，接着根据每个非聚类中心的位置点与每个聚类中心的距离，将剩余位置点分配到有更高密度的最近邻所属的类簇中。
[0033]
(3)通过密度峰值聚类算法将时刻位置空间γi中所有位置聚为m
i1
簇，将此划分策略记为 p
i1
，接下来每次删除x条d中的不同轨迹再进行聚类，得到|d|种划分。生成候选划分集τi，τi共包含1 |d|种划分结果。
[0034]
3.选择最优分区进行位置泛化
[0035]
利用差分隐私的指数机制选择具有最佳效用的候选分组，根据此分组的聚类情况对位置点进行空间划分，将每组内所有位置泛化成核心位置。具体步骤如下。
[0036]
(1)定义一个评估函数u，u对每一个候选划分方案计算出一个评估值。对于划分方
案 p，其评估函数为：
[0037][0038]
其中，meansdist(p)表示根据划分策略p划分后的所有轨迹的平均距离。
[0039]
(2)给定所有候选分区的效用分值后，通过指数机制概率性地选择一个分区作为最佳划分方案。针对τi中的第j个(1≤j≤g)候选分区p
ij
，其概率值为：
[0040][0041]
其中δu表示评估函数u的敏感度，在此δu＝1。
[0042]
(3)根据选定的最佳分区方案p
ij
对时刻位置空间γi中的位置点进行分组，用各组的聚类中心l
id
(1≤d≤m
ij
)代替本组中的所有位置。同理，对轨迹数据其他时刻的位置空间执行与ti时刻相同的操作，就完成了位置泛化过程。
[0043]
4.轨迹数据发布
[0044]
统计每条泛化轨迹的真实轨迹数，删除假轨迹。利用差分隐私的拉普拉斯机制，向统计值添加随机噪声，并通过一致性约束对加噪数据进行后置处理，发布泛化轨迹和加噪统计值。具体过程如下。
[0045]
(1)根据各个核心位置生成泛化轨迹，统计每条泛化轨迹的真实轨迹数real，当发现 real＝0时，说明新的泛化轨迹为空轨迹，将其标记为假轨迹并删除以抑制发布。
[0046]
(2)利用差分隐私的拉普拉斯机制，向泛化轨迹的统计值中添加拉普拉斯随机噪声。 laplace噪声的定义如下所示。
[0047][0048]
其中，δq查询函数q的敏感度，在轨迹数据发布场景下，q表示对轨迹的直方图查询，所以δq＝1。
[0049]
(3)通过一致性约束对加噪数据进行后置处理，若表示加噪后的轨迹统计值，其约束后的结果为：
[0050]
其中，
[0051]
最终发布泛化轨迹和其约束后的加噪统计值
[0052]
基于上述描述，实施本发明提出的隐私保护方法中位置泛化过程的描述如下：
[0053]
输入：时刻位置空间γ＝{p1，p2，...，p
|d|
}，最小局部密度ρ
min
，最小相对距离δ
min
，隐私预算ε1[0054]
输出：泛化位置集
[0055][0056]
实施本发明提供的上述基于差分隐私的时空泛化轨迹数据发布方法的总体描述如下：
[0057]
输入：泛化轨迹集dg＝{tr1，tr2，...，trn}，隐私预算ε2[0058]
输出：发布轨迹集dp＝{tr1，tr2，...，trs}
[0059]
。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于接触网安全巡检的杆号牌识别方法及系统与流程

基于差分隐私的时空泛化轨迹数据发布方法

相关文献

最热文献