一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于联邦模型蒸馏的混合隐私保护图像分类方法

2022-07-30 15:47:49 来源:中国专利 TAG:


1.本发明涉及异常检测领域,具体地说是一种基于联邦模型蒸馏的混合隐私保护图像分类方法。


背景技术:

2.图像分类,是从给定的分类集合中为每张图像分配一个相应的类标签。对于人类视觉系统来说,判别图像的类别是一件十分容易的事。但是,对于计算机来说,其无法像人类那样立即获得图像的语义信息进而完成对图像的分类任务。目前,图像分类的实现主要基于深度学习方法,一个经过高质量数据训练的深度学习模型能够准确分类图片,而如今高质量的数据因为隐私问题难以整合。
3.联邦学习(fl)的出现一定程度上缓解了因隐私问题导致的数据整合困难,通过上传客户端本地训练的深度学习模型的参数,联邦学习使服务器能够在无需整合客户端本地数据的情况下训练一个高精度的深度学习模型,一定程度上保护了用户的数据隐私。然而联邦学习保护用户数据隐私的同时也带来了通信开销巨大的问题,难以应用部署于带宽受限的环境。为了解决此问题,联邦模型蒸馏(fedmd)应运而生,通过上传本地深度学习模型对数据的预测,有效地减少了通信开销。
4.然而,现有的基于联邦模型蒸馏的图像分类方法仍然存在本地数据隐私泄露的风险。因此,在基于联邦模型蒸馏的图像分类方法中保护本地数据隐私十分重要。


技术实现要素:

5.本发明为了解决上述现有技术存在的不足之处,提出一种基于联邦模型蒸馏的混合隐私保护图像分类方法,以期利用差分隐私和秘密共享技术保护客户端免受隐私泄露的威胁,从而能在保护客户端数据隐私的同时,实现高精度的图像分类。
6.本发明为达到上述发明目的,采用如下技术方案:
7.本发明一种基于联邦模型蒸馏的混合隐私保护图像分类方法的特点是,应用于由中心服务器和n个客户端所组成的系统中,并按如下步骤进行:
8.步骤1.第i个客户端利用本地带标签的私有图像数据预训练本地神经网络;
9.步骤1.1.第i个客户端对本地带标签的私有图像数据进行预处理,得到预处理后的私有图像数据集记为di={(x
i,1
,y
i,1
),(x
i,2
,y
i,2
),...,(x
i,j
,y
i,j
),...,(x
i,j
,y
i,j
)},x
i,j
和y
i,j
分别表示第i个客户端预处理后的第j个私有图像样本及其对应的类别,i=1,2,...,n,n为客户端总数,j=1,2,...,j,j为第i个客户端私有图像样本的总数;
10.步骤1.2.第i个客户端利用式(1)构建本地的神经网络m
gi
的监督损失再使用随机梯度下降优化方法以学习率lr
il
来更新所述本地神经网络m
gi
的权值,并在监督损失值趋于稳定时得到预训练后的本地神经网络m

gi

11.12.式(1)中,为符号函数,表示第i个客户端的第j个私有图像样本x
i,j
是否属于类别c,若表示第j个私有图像样本x
i,j
的类别属于类别c,若表示第j个私有图像样本x
i,j
的类别不属于类别c;表示第i个客户端的本地神经网络m
gi
预测第j个私有图像样本x
i,j
属于类别c的概率;c∈[1,m],m为类别数;
[0013]
步骤2.中心服务器获取无标签的公共图像数据集并随机采样,然后下发至客户端;
[0014]
步骤2.1.定义协同训练的轮数为t,并初始化t=1;
[0015]
步骤2.2.所述中心服务器随机采样无标签的公共图像数据集,得到第t轮公共图像数据子集记为d
p,t
={x
1,t
,x
2,t
,...,x
k,t
,...,x
k,t
}并分别下发至n个客户端,x
k,t
表示第t轮协同训练中第k个被采样的公共图像样本,k=1,2,...,k,k为第t轮协同训练中被采样公共图像样本的总数;
[0016]
步骤3.n个客户端对第t轮下发的公共图像数据集d
p,t
进行预测:
[0017]
第i个客户端利用预训练后的本地神经网络m

gi
计算第t轮下发的公共图像数据集d
p,t
中各个公共图像样本的预测结果y
t,i
={fi(x
1,t
),fi(x
2,t
),...,fi(x
k,t
),...,fi(x
k,t
)};其中,fi(x
k,t
)表示第i个客户端计算的第t轮下发的第k个公共图像样本x
k,t
的预测值,k=1,2,...,k,k为第t轮下发公共图像样本的总数;
[0018]
步骤4.n个客户端对预测结果进行l
1-范数裁剪后随机拆分为预测分片,然后按编号发送给对应客户端;
[0019]
步骤4.1.根据裁剪阈值c对第i个客户端第t轮的预测结果y
t,i
进行l
1-范数裁剪,得到第t轮裁剪后的预测结果y
t,i
/max(1,||y
t,i
||1/c);
[0020]
步骤4.2.第i个客户端将第t轮裁剪后的预测结果y
t,i
/max(1,||y
t,i
||1/c)随机拆分,并生成n-1个与预测结果y
t,i
尺寸相同的随机向量并作为前n-1个预测分片,其中,表示第i个客户端第t轮裁剪后的预测结果,应发送给第j个客户端;
[0021]
步骤4.3.计算第i个客户端预测第t轮的预测结果y
t,i
与随机向量和的差值以获得第n个预测分片由第t轮前n-1个预测分片与第t轮第n个预测分片组成第t轮预测分片集合
[0022]
步骤5.所述第i个客户端接收n-1个其他客户端发送的第t轮预测分片并与自身的一个预测分片进行聚合,得到第t轮聚合后的混淆预测结果并发送给中心服务器,其中,表示第i个客户端接收的第j个客户端发送的第t轮预测分片;
[0023]
步骤6.中心服务器对所有第t轮混淆预测结果{y

t,1
,y

t,2
,...,y

t,i
,...,y

t,n
}进行聚合后添加拉普拉斯噪音lap(c/ε)后得到第t轮全局预测结果并分别下发至n个客户端,其中,ε表示隐私保护强度;
[0024]
步骤7.第i个客户端利用第t轮全局预测结果蒸馏训练所述本地神经网络m

gi

然后利用私有数据集di对蒸馏训练后的本地神经网络m

gi
进行复习训练;
[0025]
步骤7.1.第i个客户端利用式(2)构建所述蒸馏训练后的本地神经网络m

gi
的监督损失再使用随机梯度下降优化方法以学习率lr
il
来更新所述本地神经网络m

gi
的权值,并在监督损失值趋于稳定时得到蒸馏训练后的本地神经网络m

gi

[0026][0027]
式(2)中,为符号函数,表示第i个客户端对第t轮下发的公共数据子集d
p,t
中第k个公共样本x
k,t
的预测类别否属于全局预测类别c,若表示第k个公共样本x
k,t
的预测类别属于全局预测类别c,若表示第k个公共样本x
k,t
的预测类别不属于全局预测类别c;表示第i个客户端蒸馏训练后的本地神经网络m

gi
预测第k个公共样本x
k,t
属于全局预测类别c的概率;
[0028]
步骤7.2.第i个客户端用式(3)构建蒸馏训练后的本地神经网络m

gi
的监督损失再使用随机梯度下降优化方法以学习率lr
il
来更新所述本地神经网络m

gi
的权值,并在监督损失值趋于稳定时得到复习训练后的本地神经网络m
″′
gi

[0029][0030]
式(3)中,为符号函数,表示第i个客户端的第j个私有图像样本x
i,j
是否属于类别c,若表示第j个私有图像样本x
i,j
的类别属于类别c,若表示第j个私有图像样本x
i,j
的类别不属于类别c;表示第i个客户端的本地神经网络m

gi
预测第j个私有图像样本x
i,j
属于类别c的概率;
[0031]
步骤7.3.将t 1赋值给t后,返回步骤2.2.顺序执行,直到达到最大轮数为止,从而得到所述第i个客户端协同训练后的本地神经网络
[0032]
步骤8.所述第i个客户端利用协同训练后的本地神经网络对图像进行分类。
[0033]
与现有技术相比,本发明的有益效果在于:
[0034]
1、本发明提出了一个混合隐私保护的联邦模型蒸馏框架hpfmd,使用秘密共享和差分隐私为客户端模型预测提供完善的隐私保护。
[0035]
2、本发明针对中心服务器不可信的问题,提出了基于秘密共享思想的预测混淆以保护模型预测,阻止了半可信的中心服务器对正常客户端的推理攻击保护了客户端在面对不可信服务器时的数据隐私,使所提出方法在保证图像分类精度的同时实现了强隐私保护。
附图说明
[0036]
图1是本发明的流程示意图。
具体实施方式
[0037]
本实施例中,参见图1,一种基于联邦模型蒸馏的混合隐私保护图像分类方法,是应用于由中心服务器和n个客户端所组成的网络中,并按如下步骤进行:
[0038]
本实施例中分别进行两种协作任务,一种是以mnist数据集作为公共数据,femnist数据集的部分子集作为客户端私有数据进行预测femnist数据集的任务1,另一种是以cifar-10数据集作为公共数据,cifar-100数据集的部分子集作为客户端私有数据进行预测cifar-100的任务2。
[0039]
步骤1.第i个客户端利用带标签的私有图像数据集预训练本地神经网络;
[0040]
步骤1.1.第i个客户端对本地带标签的私有数据进行预处理,得到预处理后的私有图像数据集记为di={(x
i,1
,y
i,1
),(x
i,2
,y
i,2
),...,(x
i,j
,y
i,j
),...,(x
i,j
,y
i,j
)},x
i,j
和y
i,j
分别表示第i个客户端预处理后的第j个私有图像样本及其对应的类别,i=1,2,...,n,n为客户端总数,本实施例中n取10;j=1,2,...,j,j为第i个客户端私有图像样本总数;当进行任务1且协作任务独立同分布(independently identically distribution,简称i.i.d)时,即每个客户端随机获得相同数量的手写字母图片作为私有数据,本实施例中j取18,第i个客户端随机获取字母[a,b,c,d,e,f]图像共18个训练样本作为私有图像数据集di;当进行任务1且协作任务不独立同分布(non independently identically distribution,简称noni.i.d)时,即每个客户端仅获得来自同一个作者的手写字母图片作为私有图像数据,但需要对来自其他作者的手写字母进行正确分类,本实施例中j取20,第i个客户端随机获取来自一个作者的字母图像共20个训练样本作为本地数据集di;当进行任务2且协作任务独立同分布时,即每个客户端随机获取相同数量的cifar-100训练样本作为私有图像数据,本实施例中j取120,第i个客户端随机获取120个训练样本作为私有图像数据集di;当进行任务2且协作任务不独立同分布时,即每个客户端仅拥有每个超类的一个子类数据(如拥有大型食肉动物中的狮子,但缺少熊、猎豹、老虎和狼的数据)作为私有图像数据,本实施例中j取120,但需要正确分类全部测试数据的超类,第i个客户端随机获取120个训练样本作为私有图像数据集di;为了检验联邦模型蒸馏中异构模型的协同训练效果,本实施例每个客户端均采用不同层数或不同通道数的卷积神经网络参与训练;
[0041]
步骤1.2.第i个客户端利用式(1)构建本地的神经网络m
gi
的监督损失再使用随机梯度下降优化方法以学习率lr
il
来更新本地神经网络m
gi
的权值,本实施例中,学习率lr
il
取1e-3,并在监督损失值趋于稳定时得到预训练后的本地神经网络m

gi

[0042][0043]
式(1)中,为符号函数,表示第i个客户端的第j个私有图像样本x
i,j
是否属于类别c,若表示第j个私有图像样本x
i,j
的类别属于类别c,若表示第j个私有图像样本x
i,j
的类别不属于类别c;表示第i个客户端的本地神经网络m
gi
预测第j个私有图像样本x
i,j
属于类别c的概率;c∈[1,m],m为类别数,当进行任务1时,m取10,当进行任务2时,m取100;
[0044]
步骤2.中心服务器获取无标签的公共图像数据集并随机采样,然后下发至客户
端;
[0045]
步骤2.1.定义协同训练的轮数为t,并初始化t=1;
[0046]
步骤2.2.中心服务器随机采样无标签的公共图像数据集,得到第t轮公共图像数据子集记为d
p,t
={x
1,t
,x
2,t
,...,x
k,t
,...,x
k,t
}并分别下发至n个客户端,x
k,t
表示第t轮协同训练中第k个被采样的公共图像样本,k=1,2,...,k,k为第t轮协同训练中被采样公共图像样本的总数,本实施例中k取5000;当进行任务1时,每轮随机选择5000个mnist数据集作为公共样本,当进行任务2时,每轮随机选择5000个cifar-10数据集作为公共样本;
[0047]
步骤3.n个客户端对第t轮下发的公共图像数据集d
p,t
进行预测:
[0048]
第i个客户端利用预训练后的本地神经网络m

gi
计算第t轮下发的公共图像数据集d
p,t
中各个公共图像样本的预测结果y
t,i
={fi(x
1,t
),fi(x
2,t
),...,fi(x
k,t
),...,fi(x
k,t
)};其中,fi(x
k,t
)表示第i个客户端计算的第t轮下发的第k个公共图像样本x
k,t
的预测值,k=1,2,...,k,k为第t轮下发公共图像样本的总数;
[0049]
步骤4.n个客户端对预测结果进行l
1-范数裁剪后随机拆分为预测分片,然后按编号发送给对应客户端;
[0050]
步骤4.1.根据裁剪阈值c对第i个客户端对第t轮的预测结果y
t,i
进行l
1-范数裁剪,得到第t轮裁剪后的预测结果y
t,i
/max(1,||y
t,i
||1/c);
[0051]
步骤4.2.第i个客户端将第t轮裁剪后的预测结果y
t,i
/max(1,||y
t,i
||1/c)随机拆分,并生成n-1个与预测结果y
t,i
尺寸相同的随机向量并作为前n-1个预测分片,其中,表示第i个客户端第t轮裁剪后的预测结果,应发送给第j个客户端;
[0052]
步骤4.3.计算第i个客户端预测第t轮的预测结果y
t,i
与随机向量和的差值以获得第n个预测分片由第t轮前n-1个预测分片与第t轮第n个预测分片组成第t轮预测分片集合
[0053]
步骤5.第i个客户端接收n-1个其他客户端发送的第t轮预测分片并与自身的一个预测分片进行聚合,得到第t轮聚合后的混淆预测结果并发送给中心服务器,其中,表示第i个客户端接收的第j个客户端发送的第t轮预测分片;
[0054]
步骤6.中心服务器对所有第t轮混淆预测结果{y

t,1
,y

t,2
,...,y

t,i
,...,y

t,n
}进行聚合后添加拉普拉斯噪音lap(c/ε)后得到第t轮全局预测结果并分别下发至n个客户端,其中,ε表示隐私保护强度;
[0055]
步骤7.第i个客户端利用第t轮全局预测结果蒸馏训练本地神经网络m

gi
,然后利用私有数据集di对蒸馏训练后的本地神经网络m

gi
进行复习训练;
[0056]
步骤7.1.第i个客户端利用式(2)构建蒸馏训练后的本地神经网络m

gi
的监督损失再使用随机梯度下降优化方法以学习率lr
il
来更新本地神经网络m

gi
的权值,本实施例中,学习率lr
il
取1e-3,并在监督损失值趋于稳定时得到蒸馏训练后的本地神经网络m

gi

[0057][0058]
式(2)中,为符号函数,表示第i个客户端对第t轮下发的公共数据子集d
p,t
中第k个公共样本x
k,t
的预测类别否属于全局预测类别c,若表示第k个公共样本x
k,t
的预测类别属于全局预测类别c,若表示第k个公共样本x
k,t
的预测类别不属于全局预测类别c;表示第i个客户端蒸馏训练后的本地神经网络m

gi
预测第k个公共样本x
k,t
属于全局预测类别c的概率;
[0059]
步骤7.2.第i个客户端用式(3)构建蒸馏训练后的本地神经网络m

gi
的监督损失再使用随机梯度下降优化方法以学习率lr
il
来更新本地神经网络m

gi
的权值,本实施例中,学习率lr
il
取1e-3,并在监督损失值趋于稳定时得到复习训练后的本地神经网络m
″′
gi

[0060][0061]
式(3)中,为符号函数,表示第i个客户端的第j个私有图像样本x
i,j
是否属于类别c,若表示第j个私有图像样本x
i,j
的类别属于类别c,若表示第j个私有图像样本x
i,j
的类别不属于类别c;表示第i个客户端的本地神经网络m

gi
预测第j个私有图像样本x
i,j
属于类别c的概率;
[0062]
步骤7.3.将t 1赋值给t后,返回步骤2.2.顺序执行,直到达到最大轮数为止,从而得到第i个客户端协同训练后的本地神经网络
[0063]
步骤8.第i个客户端利用协同训练后的本地神经网络进行图像分类。
[0064]
实施例:
[0065]
为了验证本发明方法的有效性,本实施例中分别进行两种协作任务,并采用本地模型的平均测试精度作为定量评价标准。
[0066]
本实施例中,选用三种方法和本发明的hpfmd方法进行效果对比,所选方法分别是无隐私保护的联邦模型框架fedmd-np,中心差分隐私联邦框架fedmd-cdp和本地差分隐私联邦框架fedmd-ldp;根据实验结果可得出结果如表1所示:
[0067]
表1不同隐私保护水平下本发明方法与选用的三种对比方法在femnist、cifar-100数据集上的实验结果
[0068][0069]
实验结果显示在相同隐私保护水平下,本发明方法优于fedmd-ldp方法,与fedmd-cdp方法效果类似,和fedmd-np方法相比更好得保护了隐私数据从而证明了本发明提出方法的可行性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献