确定群组隐私泄露风险的系统和方法与流程

2021-11-27 00:48:00 来源：中国专利 TAG：

1.本技术涉及一种信息安全技术领域，并且更为具体地，涉及一种用于确定群组隐私泄露风险的系统和方法。

背景技术：

2.随着云计算、物联网和互联网等新兴技术的飞速发展，也带来了数据的爆炸式增长。在数据的采集、挖掘、分析和应用的过程中，如果数据记录中包含某些个人信息，则很容易导致个人隐私的泄露。这对个人和社会都会造成不良的后果。因此，如何保护个人隐私越来越受到人们的重视。当前针对隐私数据保护的研究主要集中在如何通过一系列脱敏算法将数据脱敏，或者借助于隐私数据发布保护方法来减少隐私泄露的可能，如常见的教师全体的私有聚合(private aggregation of teacher ensembles，pate)或者差分隐私(differential privacy，dp)保护方法等，而对于隐私泄露风险进行确定的模型或算法研究相对较少。
3.专利文献cn 105871891 a揭示了“一种dns隐私泄露风险评估方法及系统”，其中能够实现对dns隐私泄露风险的量化评价。它根据每一类隐私泄露风险对于某用户或用户群的隐私泄露程度、隐私侵犯难易程度以及该类隐私泄露风险值计算该用户或用户群的总体dns隐私泄露风险risk值，其数据来源主要是服务器中链路的监听以及访问域名的集合，同时根据每一类应用与服务器交互的频率判断数据的隐私泄露风险，其隐私数据集的构造以及评价指标都不够健全。诸如，在对隐私数据做综合评估时，并未考虑到用户到对某一类特定敏感数据的开放程度以及数据间的关联性，因此该评估方法并不适合家庭场景以及其类似场景下由于成员之间的亲属姻亲关联性或类似的关联性而带来的某些应用场景中所产生的数据强关联的情况。
4.专利文献cn 110222058 a揭示了“基于fp-growth的多源数据关联隐私泄露风险评估系统”，其中通过对不同的数据源进行脆弱性分析，并计算单一数据源的隐私泄露风险值risk来构建隐私泄露风险评价指标，同时结合资产影响系数c、威胁频度t和脆弱性严重程度v来构建映射评价集，并经过多次矩阵变化和马尔科夫链计算隐私泄露风险因素熵权系数，最终得出隐私泄露风险评估模型。但该专利仅仅从数据资产的角度来考虑隐私泄露风险，其模型忽略了人与人之间的关联性因素，并且算法计算过程相对复杂，并不适合以群组为单位进行隐私泄露风险评估。因为在数据量较大的情况下，计算代价较高，不利于推广。
5.当前隐私泄露风险评估方法或系统大多数针对单个个体，但在群组应用中，例如以家庭为单位的群组，由于群组成员之间的关系具有一定的关联性，甚至相对密切，从数据产生、数据使用以及隐私开放等维度考虑，当前以个体为主要研究对象的隐私泄露风险评估方法存在至少两方面问题。第一，由于群组中的每个成员之间关系关联性，在应用过程中产生的数据本身就会有更大的关联性，以个体为主的隐私评估往往会忽略数据关联性对隐私泄露产生的影响。即使部分隐私评价模型中引入了用户群组的概念，但评判维度仍然是
单组数据，而忽略了数据之间的关联性。数据之间的关联性能起到增强背景知识的作用从而会导致某一个成员的隐私数据泄露可能会在某种程度上导致其他群组成员的隐私泄露。第二，隐私的开放性本身是一个非严格量化的度量关系，由于群组之间的个性差异，不同个体对个人隐私的开放性程度不一样，从敏感数据的个性化角度来讲，不同的个体对同一类隐私的定义以及在对隐私数据进行发布和处理时的个性化隐私需求也不一样，以群组为单位作为隐私评估当然需要考虑到隐私开放性本身的差异化。
6.因此，经过对现有技术中评估隐私泄露风险的技术进行研究后发现，其中绝大多数技术方案存在以下至少两个方面的问题。
7.第一，在评估隐私泄露风险时并未考虑数据与数据之间的关联性，但在实际应用中，数据与数据之间往往存在潜在的隐形关联。诸如，某一条数据记录中的部分字段通过某种方式与其他数据相关联，从而可以由此推断出更多的隐私信息而造成隐私泄露。
8.第二，在评估隐私泄露风险时并未考虑不同群组或个人对于隐私保护的差异性需求。实际上，不同的人在隐私保护的诉求上有相当的差异，对隐私泄露的界定标准也不尽相同。因此，当以群组(特别是以家庭为单位的用户群组)为单位进行隐私泄露风险评估时，现有技术中的方法并不能完全适应需求。
9.因此，本领域中急需一种能够综合、客观、可量化地确定隐私泄露风险的方法和系统，从而能够以群组特别是以家庭为单位对隐私泄露风险进行综合评估。

技术实现要素：

10.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以作为稍后给出的更加详细的描述之序。
11.本技术旨在提供一种确定群组隐私泄露风险的方法和系统。该确定方法以群组为单位，对群组应用中所涉及的数据进行分类并建议特征化的隐私数据集，同时结合个人隐私开放性因素，通过算法建立隐私开放矩阵并计算隐私泄露风险系数，最后综合得出该群组的隐私数据泄露风险确定结果。该结果可作为为千百万群组成员提供具有针对性和个性化的隐私保护措施的参考依据。同时，本技术中的方法也可被推广至任何需要以群组为单位进行隐私泄露风险确定的组织或应用场景。
12.根据本技术的第一方面，提供了一种用于确定群组隐私泄露风险的系统，该系统包括：隐私数据集预处理模块、隐私数据库、群组信息预处理模块、隐私泄露程度计算模块、以及隐私泄露风险确定模块。
13.其中隐私数据集预处理模块用于对隐私数据集进行预处理，包括：识别群组场景中各类应用和服务所涉及的隐私数据，即定义隐私数据集，在对数据进行清洗、格式化、无用数据过滤、重复数据归一以及标准化之后生成隐私数据集的特征向量。
14.隐私数据库用于存储与隐私泄露风险有关的数据，包括但不限于：家庭成员的个人信息(如年龄、身份证、职业、兴趣爱好、工作单位等)，app访问信息和日志信息、上网特征信息和流量信息、家庭智能设备基本信息、家庭智能设备使用日志信息、其他信息等。每一条隐私数据记录由以下元组构成：
15.{[隐私标签元数据metadi]；[隐私标签元数据描述metadspec-i，可用正则表达式或巴科斯范式描述]；(关键词列表(关键词1，关键词2，关键词3......关键词n，该元素为可选))；特征值}。
[0016]
群组信息预处理模块用于根据群组中不同成员对隐私保护的个性化需求，结合隐私数据集预处理模块的输出，确定每一个群组成员对该类数据的开放程度并形成群组成员和隐私数据集之间的隐私开放矩阵。
[0017]
隐私泄露程度计算模块用于确定隐私数据集的关联程度并形成关联矩阵r，对于每一类隐私数据集，确定其三元组信息{泄露严重性si，泄露难易程度bi，所述群组的开放程度fpi}，以及基于该关联矩阵以及该三元组信息来确定每一类隐私数据集的隐私泄露程度。
[0018]
隐私泄露风险确定模块用于基于隐私泄露程度来确定群组的隐私泄露风险量化值以确定群组的隐私泄露风险。
[0019]
根据本技术的第二方面，提供了一种用于确定群组的隐私泄露风险的方法，该方法包括：对关于群组的隐私数据集进行预处理；确定隐私数据集的关联程度并形成关联矩阵；用于基于经预处理的隐私数据集来确定群组对每一类隐私数据集的开放程度ai，形成相应的隐私开放矩阵；对于每一类隐私数据集，确定其三元组信息{泄露严重性si，泄露难易程度bi，所述群组的开放程度fpi}；基于关联矩阵以及三元组信息来确定每一类隐私数据集的隐私泄露程度；以及基于隐私泄露程度来确定群组的隐私泄露风险量化值以确定群组的隐私泄露风险。
[0020]
为能达成前述及相关目的，这一个或多个方面包括在下文中充分描述并在所附权利要求中特别指出的特征。以下描述和附图详细阐述了这一个或多个方面的某些解说性特征。但是，这些特征仅仅是指示了可采用各种方面的原理的各种方式中的若干种，并且本描述旨在涵盖所有此类方面及其等效方案。
附图说明
[0021]
为了能详细理解本技术的以上陈述的特征所用的方式，可参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中解说。然而应该注意，附图仅解说了本技术的某些典型方面，故不应被认为限定其范围，因为本描述可允许有其他等同有效的方面。
[0022]
在附图中：
[0023]
图1是解说根据本技术的实施例的用于确定群组隐私泄露风险的系统的示意图框图；以及
[0024]
图2是解说根据本技术的实施例的用于确定群组隐私泄露风险的方法200的流程图。
具体实施方式
[0025]
以下结合附图阐述的详细描述旨在作为各种配置的描述，而无意表示可实践本文所描述的概念的仅有配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而，对于本领域技术人员将显而易见的是，没有这些具体细节也可实践这些概念。在某些实例
中，以框图形式示出众所周知的组件以便避免淡化此类概念。
[0026]
应当理解，基于本公开，其他实施例将是显而易见的，并且可以在不脱离本公开的范围的情况下做出系统、结构、过程或机械改变
[0027]
如图1中所示，其中解说了一种用于确定群组的隐私泄露风险的系统。该系统包括：隐私数据集预处理模块10、隐私数据库20、群组信息预处理模块30、隐私泄露程度计算模块40、以及隐私泄露风险确定模块50。
[0028]
其中隐私数据集预处理模块10用于对隐私数据集进行预处理，包括：识别群组场景中各类应用和服务所涉及的隐私数据，即定义隐私数据集，对隐私数据集进行清洗、格式化、无用数据过滤、重复数据归一以及标准化以生成隐私数据集的特征向量。
[0029]
隐私数据库20用于构建隐私数据库，其中的隐私数据包括但不限于：成员的个人信息(诸如，年龄、身份证、职业、兴趣爱好、工作单位等)，各类应用访问信息和日志信息、上网特征信息和流量信息、智能设备的基本信息、智能设备的使用日志信息、其他信息等。
[0030]
每一条隐私数据记录由以下元组构成：
[0031]
{[隐私标签元数据metadi]；[隐私标签元数据描述metadspec-i，可用正则表达式或巴科斯范式描述]；(关键词列表(关键词1，关键词2，关键词3......关键词n，该元素为可选))；特征值}。
[0032]
群组信息预处理模块30用于根据群组中的不同成员对隐私保护的个性化需求，结合隐私数据预处理模块的输出，确定每个成员对该类数据的开放程度并形成诸成员和隐私数据之间的隐私开放矩阵。
[0033]
隐私泄露程度计算模块40用于确定所述隐私数据集的关联程度并形成关联矩阵r，对于每一类隐私数据集，确定其三元组信息{泄露严重性si，泄露难易程度bi，群组的开放程度fpi}，以及基于该关联矩阵以及该三元组信息来确定每一类隐私数据集的隐私泄露程度。
[0034]
隐私泄露风险确定模块50用于基于隐私数据的特征向量值结合隐私数据的风险泄露向量值确定该成员的隐私泄露风险并输出结果。
[0035]
下面结合附图2中的流程图来详细描述本技术的确定群组隐私泄露风险的方法200的具体实施过程和步骤。
[0036]
步骤一s201：对关于群组的隐私数据集进行预处理
[0037]
该步骤包括以下子步骤。
[0038]
通过梳理群组中的各种应用和服务中会涉及到的业务数据和日志数据等，经过清洗、分析和整理之后采用分词器对其进行分词，从而得到具体的数据集。根据每个数据集的每一项数据，利用其关键词检索隐私数据库进行特征匹配，如果能够匹配成功，则该数据为隐私数据，将其对应的特征值加入元组，否则丢弃。
[0039]
定义x＝{i1,i2,...,im}为包含m个不同隐私数据项ij的集合，称为隐私数据集，其中ij为该隐私数据项对应的特征向量。
[0040]
假定经过整理所有的应用和业务，最终得到p个数隐私数据集，则该隐私数据集可表示为{x1，x2，
…
xp}。当某两个隐私数据集xi和xj存在关联时，满足
[0041]
当xi和xj隐私数据项对应的个数不同时，取t＝max{m|其中m为x1，x2...xp中数据项的个数}，则p个隐私数据集可用矩阵pr表示如下：
[0042][0043]
接下来，确定隐私数据集的关联程度并生成关联矩阵r。
[0044]
根据矩阵pr确定隐私数据项的关联性并形成数据相关性系数矩阵r如公式一所示
[0045]
公式一：r＝(r
ji
)
txt
[0046]
其中每一个rij的计算公式如下所示，满足r
ij
＝r
ji
[0047][0048]
步骤二s202：确定隐私数据集的关联程度并生成关联矩阵r
[0049]
根据矩阵pr计算隐私数据项的关联性并形成数据相关性系数矩阵r如公式一所示
[0050]
公式一：r＝(r
ji
)
txt
[0051]
其中每一个rij的计算公式如(2)所示，满足r
ij
＝r
ji
[0052][0053]
步骤三s203：确定群组u对某一类隐私数据集的开放程度ai并形成开放矩阵
[0054]
由于群组各成员之间存在一定个体性差异，因此不同个性的个人对隐私数据的开放程度也不一样。根据实际需要将群组成员对每一类隐私数据的开放程度划分为a，b，c，d，e，f...n个等级，其中a等级所代表最低开放等级，n代表最高开放等级，但最大值不超过1，表示可以完全公开。该等级可用不同的数字表示{n1,n2,n3...n
n
}。其中n满足如下条件{n
k
<1,k＝1,2,3，当i<j时，n
i
<n
j
}。
[0055]
假定群组u中有m个成员，每一个成员对数据集{x1，x2，
…
xp}中数据项的开放程度用特征向量ui(a1，a2，a3，...ap)表示，则群组成员隐私开放性和数据集p之间的关系可表示为如下矩阵：
[0056][0057]
最终数据集xi在群组中最小允许开放程度用fp表示，则：
[0058]
fp＝f(min{uk(a1)}，min{uk(a2)，min{uk(ap)}})其中k＝{1，...n}),n为群组成员个数。
[0059]
步骤四s204：对于每一类隐私数据集的数据项确定其三元组信息{泄露严重性si，泄露难易程度bi，群组u的开放程度min{ai}}
[0060]
对于某一类隐私数据集对其从三个维度进行评价：泄露严重性si、泄露难易程度bi、数据开放程度fpi，从而形成隐私数据集三元组(泄露严重性si、泄露难易程度bi、数据开放程度fpi)。其中si>＝1，si值越高表示该数据泄露之后其对群组成员造成的损失越大，后果越严重；bi>＝1，bi值越高表示该数据越难泄露；fpi<＝1,其值越小表示群组成员越不容易开放。
[0061]
步骤五s205：确定每一类隐私数据集的隐私泄露程度
[0062]
针对某一数据集xp，定义其隐私泄露风险系数θ为：
[0063]
公式二：θ＝(si*fpi)/bi。
[0064]
针对隐私数据集{x1，x2，
…
xp}，创建隐私泄露向量t[θ1,θ1,θ2,...θp]。
[0065]
确定数据集x1,x2...xp的隐私泄露风险向量为r
value
，其中r
value
用{risk1，risk2....riskp}表示：则
[0066]
公式三：r
value
＝r*t，
[0067]
其中r为关联矩阵，t为隐私泄露向量。
[0068]
步骤六s206：确定群组的隐私泄露风险
[0069]
结合实际具体应用或服务中数据产生或采集的频率，定义某一隐私数据项i
mn
在某一时间段出现的次数为r
mn.
,确定每一个数据项出现的频率fre
mn
，则
[0070]
公式四：
[0071]
定义数据集xp的隐私权重为weight
k
＝max{fre
mk
}。
[0072]
根据以下来确定群组的隐私泄露风险量化值以确定该群组的隐私泄露风险。
[0073]
公式五：
[0074]
下面结合附图对本发明进行进一步详细描述。以4口之家的普通家庭为例，假设其日常家庭业务场景相对简单，通过对其家庭各类应用中产生的数据、日志进行整理之后得到以下三个方面的记录集合：
[0075]
集合一：{app使用情况；{app打开时间，app动作，使用者，搜索关键词}，{1,4,3,2}}
[0076]
集合二：{上网情况：{访问时间，访问网站，停留时长，关键词主题}，{1/2,1/2,3,2}}
[0077]
集合三：{设备信息：{设备名称，设备动作，时间}，{2，4,1，0}}
[0078]
集合四：{个人信息：{身份证，姓名，性别，年龄{，{2,3,4,1}}}
[0079]
备注：其中隐私数据库中特征值的计算不在此技术方案讨论的范畴。
[0080]
因此可以得到隐私数据集pr：
[0081][0082]
步骤二：确定隐私数据集的关联程度并生成关联矩阵r。通过公式一计算关联矩阵
rij如下：
[0083][0084]
步骤三：评估家庭用户群u对某一类隐私数据集的开放程度ai
[0085]
假设家庭中存在4个成员，每一个成员对上述三个数据集的开放程度用矩阵表示如下：
[0086][0087]
步骤四：对于数据集一、二、三分别确认其三元组信息{泄露严重性si，泄露难易程度bi，用户群u的开放程度min{ai}}，如下：
[0088]
数据集一{si＝5,bi＝2,fpi＝1/6}
[0089]
数据集二{si＝3,bi＝6,fpi＝1/4}
[0090]
数据集三{si＝2,bi＝6,fpi＝1/5}
[0091]
数据集四{si＝8,bi＝6,fpi＝1/8}
[0092]
步骤五：计算每一类隐私数据集的隐私泄露程度，各数据集的隐私泄露危险系数公式二为θ＝(si*fpi)/bi，计算结果如下
[0093]
数据集一x1，其隐私泄露危险系数计算为：5/12
[0094]
数据集二x2，其隐私泄露危险系数计算为：3/24
[0095]
数据集三x3，其隐私泄露危险系数计算为：1/15
[0096]
数据集三x4，其隐私泄露危险系数计算为：1/6
[0097]
针对数据集{x1，x2，x3，x4}，创建隐私泄露向量
[0098]
t[θ1,θ1,θ2,...θp]＝5/12，1/8，1/15,1/6}；
[0099]
定义数据集{x1，x2，x3}隐私泄露风险值向量为rvalue，则rvalue根据公式三计算结果如下：
[0100]
0.337
[0101]
0.456
[0102]
0.036
[0103]-0.817
[0104]
步骤六：计算整体家庭隐私泄露风险量化值。假定30天内数据集{x1，x2，x3，x4}采取的次数最大值为{210,120,30,10}，则根据公式四数据集{x1，x2，x3，x4}的频率weightk分别为{7,4,1,0.33}
[0105]
根据公式五计算家庭数据隐私评估风险其计算结果为4.49。
[0106]
如上所述，相比现有技术而言，利用本技术所提出的确定群组隐私泄露风险的系统和方法具备以下优点：
[0107]
1.首次提出以群组(诸如，家庭)为单位进行隐私泄露风险确定并考虑各种隐私数据之间的关联性。针对当前以群组成员为主进行的隐私确定，本发明首次提出以群组为单位进行隐私泄露风险确定，同时为了减少由于隐私数据之间的关联性而导致的隐私泄露，确定了隐私数据项之间的关联系数矩阵并提供相应的确定方法，从而在隐私保护中充分考虑隐私数据之间的关联性。
[0108]
2.结合实际的应用场景，将隐私数据的开放性进行分级确定，对于每一个群组成员确定其相关的隐私数据项的开放程度从而形成个体隐私开放向量。针对群组等多用户的场景，结合群组成员之间的关联性，提供了一种群组隐私数据集开放性矩阵的确定方法，从而可以在隐私确定过程中在满足隐私保护个性化需求的同时还考虑群组的特征。
[0109]
3.本技术还提供了一种隐私数据集的三元组(泄露严重性si、泄露难易程度bi、数据开放程度fpi)的表示方法，从隐私泄露的严重性，泄露的难易程度和数据开发程度来评价一条隐私数据集，并根据公式来确定隐私泄露风险系数，从而更好地量化隐私数据的泄露风险。
[0110]
4.本技术中，群组隐私泄露风险确定方法具有较强的扩展性和可推广性，可以推广到其他需要对群体隐私进行确定的场景，对群体的用户数无限制，可以轻易扩展到具有某一类相似特征的用户群体。随着物联网和5g技术的发展，必将有越来越多的iot设备接入网络，也将会有越来越多的组织对隐私泄露的隐患存疑，该方法具有非常广泛的应用前景。
[0111]
5.本技术的隐私风险确定系统和方法非常通用，具有较长的技术应用生命周期，可以嵌入到任何需要使用该方法的应用或产品中。
[0112]
采用本技术的系统和方法，不但考虑了群组不同成员之间的隐私个性化需求，还同时考虑隐私数据集的特征和数据集之间的关联程度，综合确定群组隐私泄露的风险，从而更为准确地评估以群组为单位的隐私泄露。
[0113]
应该理解，所公开的方法中各步骤的具体次序或阶层是示例性过程的解说。基于设计偏好，应该理解，可以重新编排本文描述的方法或方法体系中各步骤的具体次序或阶层。所附方法权利要求以样本次序呈现各种步骤的要素，且并不意味着被限定于所呈现的具体次序或阶层，除非在本文中有特别叙述。
[0114]
提供先前描述是为了使本领域任何技术人员均能够实践本文中所述的各种方面。对这些方面的各种改动将容易为本领域技术人员所明白，并且在本文中所定义的普适原理可被应用于其他方面。因此，权利要求并非旨在被限定于本文中所示出的各方面，而是应被授予与权利要求的语言相一致的全部范围，其中对要素的单数形式的引述并非旨在表示“有且仅有一个”(除非特别如此声明)而是“一个或多个”。除非特别另外声明，否则术语“一些”指的是一个或多个。引述一列项目中的“至少一个”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一者”旨在涵盖：至少一个a；至少一个b；至少一个c；至少一个a和至少一个b；至少一个a和至少一个c；至少一个b和至少一个c；以及至少一个a、至少一个b和至少一个c。本公开通篇描述的各种方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此，且旨在被权利要求所涵盖。此外，本文中所公开的任何内容都并非旨在贡献给公众，无论这样的公开是否在权利要求书中被显式地叙述。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于IPTV探针数据来推荐带宽的装置和方法与流程

确定群组隐私泄露风险的系统和方法与流程

相关文献

最热文献