基于密文的负数据库及深度学习的数据隐私保护方法

2022-06-16 03:31:06 来源：中国专利 TAG：

1.本发明属于数据隐私保护技术领域，涉及一种新的数据隐私保护方法，具体涉及一种基于密文的负数据库及深度学习的数据隐私保护方法。

背景技术：

2.在近些年里，深度学习因其能够从大规模数据中挖掘有用的知识而受到学术界和业界的广泛关注。深度学习已被应用于各个领域，并取得了许多令人瞩目的突破与发展。然而，很少有研究关注隐私问题的重要性，因为大量的数据被涉及，隐私问题变得比以往任何时候都重要。例如，医疗数据可能包含患者的私人数据，如疾病、家族史和dna序列。而一些类似银行的金融机构他们存储着许多客户的敏感信息，一旦分析这些数据时遭到泄露将会造成不可估量的损失，甚至威胁到个人安全。因此，这些技术在造福人类加速社会发展的同时也更应该关注到它潜在的问题——隐私泄露问题。
3.近年来，已经有学者提出了几种保护隐私的深度学习方法，然而，它们中的大多数都遭受了效率下降或准确性的下降。具体来说，基于差分隐私的方法通过添加噪声来保护数据隐私，这会影响数据的准确性和实用性。基于同态加密的方法通常需要很高的计算成本，并且在具有大规模数据的场景中效率会变得难以承受。
4.负数据库(ndb)是一种新的信息表示形式，其灵感来自人工免疫系统中的负选择机制。ndb将信息存储在db的补充集中以实现隐私保护，它还可以像传统数据库一样支持插入、删除、更新和选择等操作。已经证明逆向负数据库恢复原始数据是一个np难问题。此外，它支持粗略的距离估计。这些特性使其适用于保护隐私的许多领域，例如。密码认证、信息隐藏、生物特征认证和数据挖掘等领域。
5.负数据结合深度学习虽然可以达到有效的隐私保护，但在参数设置较为极端的情况下隐私保护程度还有提升的可能。而异或运算作为一个简洁高效的操作被运用到各种场景中，如果在将数据转换为负数据库之前利用随机生成的二进制串进行异或处理将会更一步的保护数据的隐私。

技术实现要素：

6.为了解决上述技术问题，本发明提供了一种基于密文的负数据结合深度学习算法的数据隐私保护方法及系。
7.本发明所采用的技术方案是：一种基于密文的负数据库及深度学习的数据隐私保护方法，采用数据隐私保护模型进行数据隐私保护；
8.所述数据隐私保护模型，获取过程包括以下步骤：
9.步骤1：对原始数据进行预处理，转换为二进制串x＝{x1…
xn}；
10.步骤2：随机生成指定长度的密钥k与步骤1处理后的数据进行异或加密，获得加密后的数据x'＝{x1'
…
xn'}；
11.步骤3：选取负数据库生成算法，针对步骤2加密后的数据x'＝{x1'
…
xn'}，生成相
应的负数据库ndb＝{ndb1…
ndbn}；
12.步骤4：从步骤3中提取负数据库的梗概s＝{s1...sn}，其中si是ndbi的梗概；
13.步骤5：基于梗概s，完成基于负数据库的激活函数估算，并训练深度学习网络，直到网络收敛，获得训练好的数据隐私保护模型。
14.本发明针对目前负数据库以及异或运算的特点，提出了一种基于密文的负数据库隐私保护方法，解决了例如差分隐私难以平衡隐私与利用率的问题以及同态加密等方法导致计算代价过大的问题，具有较强的鲁棒性，综合提升了隐私保护深度学习过程当中的效率以及精度。
附图说明
15.图1为本发明实施例的方法流程框图；
16.图2为本发明实施例的方法应用场景图；
17.图3为本发明实施例的异或加密示例图；
18.图4为本发明实施例与原始激活函数估算对比图。
具体实施方式
19.为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。
20.请见图1和图2，本发明提供的一种基于密文的负数据库及深度学习的数据隐私保护方法，采用数据隐私保护模型进行数据隐私保护；
21.本实施例的数据隐私保护模型，获取过程包括以下步骤：
22.步骤1：对原始数据进行预处理，转换为二进制串x＝{x1…
xn}；
23.步骤2：随机生成指定长度的密钥k与步骤1处理后的数据进行异或加密，获得加密后的数据x'＝{x1'
…
xn'}；
24.本实施例中，利用随机生成的密钥k将原始数据x＝{x1…
xn}加密为x'＝{x1'
…
xn'}；
25.密钥k为len
xor
的二进制串，若x＝xk，则x的第i个属性的第j位将与密钥k的第(i
×
l j)％len
xor
位进行异或运算其中，l表示属性的长度。附图3展示了异或加密案例。
26.本实施例可以根据原始数据的特点可以生成不同长度的密钥来达到不同程度的隐私保护。本实施例采用qk-hidden负数据库生成算法，它通过一组参数q可以更细粒度的控制负数据库记录的分布，从而使得在进行计算的时候更加精确。
27.步骤3：选取负数据库生成算法，针对步骤2加密后的数据x'＝{x1'
…
xn'}，生成相应的负数据库ndb＝{ndb1…
ndbn}；
28.本实施例针对加密后的数据x'＝{x1'
…
xn'}，再使用qk-hidden算法生成对应的负数据库ndb＝{ndb1…
ndbn},其中ndbi(i＝1...n)是从密文xi'生成的负数据库。
29.步骤4：从步骤3中提取负数据库的梗概s＝{s1...sn}，其中si是ndbi的梗概，并将
其上传到高性能服务器上；
30.本实施例从ndb中的负数据库中提取梗概s＝{s1...sn}，其中si是ndbi的梗概，并将s以及标签数据y＝{y1…yn
}上传至服务器。
31.本实施例通过提取负数据库的sketch来提高效率。sketch作为一个二维数组，存储了每一位负数据库记录为
‘0’
和
‘1’
的个数，对负数据库进行了压缩的同时也提升了安全性。
32.步骤5：服务器接收步骤4上传的sketch，完成基于负数据库的激活函数估算，并训练深度学习网络，直到网络收敛，获得训练好的数据隐私保护模型。
33.请见图4，本实施例中，由于服务器得到的sketch输入到神经网络而不是原始隐私数据，因此不能再用原始数据计算激活函数。所以，对于sigmoid、relu和tanh等激活函数，它们最初在神经网络的计算方式如下：
[0034][0035][0036][0037]
其中，z表示神经元中的线性计算结果，被表示为x＝x1…
xm表示原始的隐私数据，x∈x，m表示输入x属性的个数，w1、
…
、wm表示神经网络中的权重参数；
[0038]
若输入为x，由其生成的负数据库为ndb
x
，则通过公式(4)计算ndb
x
中记录的第i位不同于x的概率p
diff
[i]；
[0039][0040]
k表示有k种类型的负数据库记录，其中，第i中类型的负数据库记录有i个确定位，pj表示生成第j种类型的负数据库记录的概率，它有j个确定位与隐藏串对应位置相反，剩余的k-j个确定位与隐藏串相同，qi表示选择属性的第i位与隐藏串在相应位置不同的概率；l代表属性的位数；
[0041]
若表示ndb
x
对应的隐藏串x中第i个属性的第j位为
‘0’
的概率，通过公式(5)进行计算；
[0042][0043]
其中，p
same
[j]表示ndb
x
中记录的第j位与隐藏串在对应位置相同的概率；n0和n1分别是ndb
x
中所有记录第i个属性中的第j位为
‘0’
或是
‘1’
的数目，从步骤3得到的结果中获取；如果x＝xk,那么n0＝sk[i
×
l j][0],n1＝sk[i
×
l j][1]，
[0044]
通过公式(6)计算x的第i个属性为d的概率为：
[0045][0046]
其中，0≤d≤2
l-1，是xi的二进制表示，d的二进制表示d
bin
＝b1...b
l
；
[0047]
则通过公式(7)，用替代公式(1)、(2)以及(3)中的z从而完成激活函数的估算；
[0048][0049]
本实施例训练深度学习网络，每次选取批量大小为t的数据通过公式(7)完成前向传播计算；然后再通过公式(8)反向传播计算梯度最后通过公式(9)更新权重w＝{w1…
wn}，直到参数达到最优或达到最大迭代次数；
[0050][0051][0052]
其中，y＝{y1…yn
}为输入x＝{x1…
xn}对应的标签数据，loss表示损失函数，η为学习率。
[0053]
在测试阶段，用户重新将测试数据经过步骤1、2的变换后上传至服务器，服务器用训练好的模型对其进行预测并将结果返回给客户端。
[0054]
应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于级联结构特征的硬件木马检测方法与流程

基于密文的负数据库及深度学习的数据隐私保护方法

相关文献

最热文献