一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于数据鲁棒性差异的成员推理攻击方法与流程

2021-10-19 23:24:00 来源:中国专利 TAG:

259

274.),通过降低成员返回的置信度实现防御。从防御角度而言,基于预测标签的成员推理攻击不依赖置信度信息,因此天然规避基于置信度掩盖的防御策略。


技术实现要素:

5.本发明为了解决上述问题,提供一种基于数据鲁棒性差异的成员推理攻击方法。
6.本发明采取以下技术方案:一种基于数据鲁棒性差异的成员推理攻击方法,包括以下步骤。
7.s100~将选定数据集随机分成两组,分别作为被攻击数据集d
target
和与被攻击数据集同分布但不相交的数据集d
shadow
,再将d
shadow
数据集分为两组,一组为训练隐含模型的成员数据集d
train
与非成员数据集d
test

8.s200~利用已知的模型知识和数据集d
train
训练一个与原模型结构相似的本地隐含模型s,用于寻找原始样本与对抗样本间距的阈值τ。
9.s300~利用决策边界局部平坦的性质,给样本x0添加随机噪声r后对本地隐含模型s进行查询,求与x0具有不同标签且位于决策边界上的邻接点p,即。
10.s400~利用启发式查找算法求解p对应梯度方向向量ξ,其即为对抗样本x
adv
方向向量。
11.s500~得到方向向量ξ后,从x0开始沿着方向ξ用二分查找查询目标模型,若决策发生改变访问中间位置重复该步骤,若未发生改变继续沿原方向探测,设置最小距离0.1中间距离低于该值时终止查询,记录决策发生改变点和两者间欧氏距离,该点即为最小对抗样本x
adv

12.s600~重复步骤s400和s500中的步骤计算d
shadow
中所有样本与对抗样本间距,由于d
train
与d
test
所求得的原始样本x0与对抗样本x
adv
间距分别对应成员与非成员的样本间距,则依此可得到判断成员与非成员的样本间距阈值τ,阈值τ来自于从数据集中随机选取100个样本,分别统计该样本中的成员与非成员,测试不同阈值下的f1分数,最高的f1分数对应值为所选阈值τ。
13.s700~d
target
随机选取数据作为训练样本,训练被攻击的目标模型h,当攻击者查询时,仅为其提供决策标签。
14.s800~利用上述阈值后,利用上述类似s300、s400和s500步骤方法查询目标模型h,求解中样本对应的最小对抗样本及两者间的差距,当该值大于阈值τ时可将其判定为成员。
15.步骤s300中,首次迭代赋值时,对抗样本应可能少的修改原始图像,为添加较小的高斯噪声,即,;确定好决策改变点x
p
后,沿着噪声方向二分查找位于决策边界上的p。
16.步骤s400中,当探索的随机向量数量超过100时,由于沿着决策边界方向分量相互抵消,随机向量和是决策边界的垂线方向ξ,其中是p处的n个随机向量,
方向标识。
17.步骤s600中,首次迭代中为原始样本添加较小的高斯噪声查找的邻接点p0,其后使用每次迭代计算的x
adv
替代p
i

18.步骤s800中,探寻临界点与所用的查找算法可用插值查找,即借鉴先前在隐含模型中的所得出的经验key值进行探寻,由于插值查找选取的中间位置mid=low (key

a[low])/(a[high]

a[low])*(high

low),会明显接近经验key,提高工作效率减少访问次数。
[0019]
与现有技术相比,本发明具有以下有益效果:1.本发明依赖更少的外部知识k,达到与传统成员推理攻击相近的准确率,适用范围更广。
[0020]
2.本发明无需依赖于置信度分数,天然规部分基于此掩盖机制的防御策略。
[0021]
3.本发明利用邻接点的梯度方向来求解原始样本对应的对抗样本,由于样本间无迭代、可并行且利用插值搜索显著降低时间开销。
[0022]
4.本发明在原始向量的子空间中增加扰动,由于随机噪声的维数低,所以显著减少对目标模型的调用次数,降低成本开销。
附图说明
[0023]
图1基于决策边界平坦性的对抗攻击流程图;图2寻找最小对抗样本原理示意图;图3基于决策的成员推理原理示意图。
具体实施方式
[0024]
在线性模型中,点到决策边界的距离表示为,函数表达式为,因此点到决策边界的欧式距离可以表示为,其与置信度存在单调关系,所以点到决策边界的欧式距离可以作为替代置信度的衡量指标。点到决策边界距离与将数据样本的预测标签更改为其他标签的难度相关。由于参与模型训练的成员数据具有更高的鲁棒性,因此更改成员标签难度更大,成员数据的对抗样本与原始样本之间的差距更大。由于非线性模型中如深度神经网络具有相同的性质,因此可以通过度量对抗样本x
adv
与原始样本x0的差值进行成员推理攻击。概括地说,首先为原始样本添加扰动多次查询目标模型寻找对抗样本,接着度量原始样本与对抗样本间的差距,最后利用成员与非成员的度量值不同设置合适的阈值进行成员推理攻击。
[0025]
为了实现本发明的目的,采用的技术方案概述如下:一种基于数据鲁棒性差异的成员推理攻击方法概述如下:1)将选定数据集随机分成两组,分别作为被攻击数据集d
target
和与被攻击数据集同分布但不相交的数据集d
shadow
。再将d
shadow
数据集分为两组,一组为训练隐含模型的成员数据集d
train
与非成员数据集(测试集) d
test

[0026]
2)利用d
train
训练一个与原模型结构相似的本地隐含模型s,用于寻找原始样本与
对抗样本间距的阈值τ。
[0027]
3)由于fawzi等人证明对抗样本附近决策边界的曲率相当小,因此利用决策边界局部平坦的性质,给任一样本x0添加随机噪声r后对本地隐含模型进行查询,求与x0具有不同标签且位于决策边界上的邻接点p,即。
[0028]
4) 利用启发式查找算法求解p对应梯度方向向量ξ,其即为对抗样本x
adv
方向向量。
[0029]
5) 得到方向向量ξ后,从x0开始沿着方向ξ使用二分查找查询目标模型,若决策发生改变访问中间位置重复该步骤,若未发生改变继续沿原方向探测,设置最小距离0.1中间距离低于该值时终止查询,记录决策发生改变点和两者间欧氏距离,该点即为最小对抗样本x
adv

[0030]
6)重复(4)(5)中的步骤计算d
shadow
中所有样本与对抗样本间距。由于d
train
与d
test
所求得的原始样本x0与对抗样本x
adv
间距分别对应成员与非成员的样本间距,则依此可得到判断成员与非成员的样本间距阈值。
[0031]
7) d
target
随机选取数据作为训练样本,训练被攻击的目标模型h,当攻击者查询时,仅为其提供决策标签。
[0032]
8) 利用上述阈值后,利用上述类似(3)(4)(5)步骤方法查询目标模型,求解d
target
中样本对应的最小对抗样本x
adv
及两者间的差距,当该值高于阈值t时判定为成员。
[0033]
所述步骤(2)本发明适用于黑盒设置,即仅知道模型h的结构,其超参数如激活函数、神经网络层数均未知,依此来进行隐含模型。
[0034]
所述步骤(3)中当d
shadow
出现模型错误分类时,该样本为距离决策边界较远的非成员,因此将该数据淘汰。
[0035]
所述步骤(3)中,首次迭代赋值时,因为对抗样本应尽可能少的修改原始图像,应为添加较小的高斯噪声,即。确定好决策改变点x
p
后,沿着噪声方向二分查找位于决策边界上的p。
[0036]
所述步骤(4)中,当探索的随机向量数量超过100时,由于沿着决策边界方向分量相互抵消,随机向量和是决策边界的垂线方向ξ,其中是处的n个随机向量,方向标识。
[0037]
所述步骤(4)中,fawzi等人证明,在特定的子空间中可以找到导致数据错误分类的敌对扰动,因此在向量估计过程中使用远小于原始样本维度的子向量进行搜索,这将很大程度地减少模型调用。
[0038]
所述步骤(4)中,首次迭代中为原始样本添加较小的高斯噪声查找的邻接点p0,其后使用每次迭代计算的x
adv
替代p
i

[0039]
所述步骤(8)中,探寻临界点与所用的查找算法可用插值查找,即借鉴先前在隐含模型中的所得出的经验key值进行探寻。由于插值查找选取的中间位置mid=low (key

a[low])/(a[high]

a[low])*(high

low),会明显接近经验key,因此可以提高工作效率减少
访问次数。
[0040]
本实施实例提供一个采用本发明方法的成员推理攻击的实例。
[0041]
本发明主要针对的机器学习模型为分类器,尤其针对具有处理图象分类任务的模型,因此实例中选用一个标准的cnn模型结构,主要包括使用4个relu函数作为激励函数的卷积层,前两个卷积层中有32个过滤器,后两个卷积层中含64个过滤器,两者之间含有一个最大池化层,以及含有512个神经元的全连接层,对于攻击者而言其进能够调用api获取对应样本标签即,相对应的使用一个浅层神经网络作为隐含模型来寻找成员与非成员在原始样本x0和对抗样本x
adv
之间的欧式距离,图象数据集选用经典的用于识别普适物体的小型数据集cifar

10,丢弃在训练模型过程中若出现误分类数据。
[0042]
本发明两次使用优化的基于决策边界平台的对抗攻击作为求解阈值的一步,优化的主要目标是减少调用目标模型所产生的成本开销。基于决策边界平坦性的对抗攻击流程如图1所示,假设每个样本的总调用数目为n,需要迭代s次,则需满足,每次迭代调用目标模型次,来探寻x0对抗样本x
adv
。首次迭代中为原始样本添加较小的高斯噪声查找的邻接点p0,其后使用每次迭代计算的x
adv
替代p
i

[0043]
如图1所示,通过多次调用模型,迭代查找p
i
的梯度方向ξ和噪声范数ω。p
i
在决策边界两边具有相近的噪声向量数目时算法满足决策边界平坦条件,即当,z
i
=1的比例接近0.5时满足条件,因此探寻方向向量的迭代过程中使用噪声向量的范数,其中,为z
i
为正的百分比与0.5的差。最后使用二分查找法通过调用模型探寻对抗样本x
adv
,。重复上述步骤直到达到预设迭代次数或扰动减小率满足时停止更新,是预设阈值,是迭代量预设初值。
[0044]
本发明的成员推理攻击具体实施步骤流程如图3所示,整体分为四部分:数据与模型初始化阶段:该阶段将数据集和模型进行预处理。salem等人提出训练隐含模型的数据集对实验结果影响小,因此随机将cifar

10数据集分成两部分,用于隐含模型和目标模型的训练,隐含模型的作用在于判别求成员与非成员样本到决策边界距离的阈值。最后分别在两组数据集中随机划分出训练数据集和测试数据集,训练先前所述结构的cnn模型。
[0045]
成员与非成员的数据获取阶段:该阶段主要在隐含模型中求取对应数据样本到决策边界的距离。点到决策边界的距离由原始样本与对抗样本间差值代替,即对隐含数据集样本进行基于边界平坦的对抗攻击求出每个样本中和间欧式距离。对隐含模型而言训练集和测试集分别对应着成员与非成员,因此可以得到两者相对应的数据集。
[0046]
阈值选取阶段:该阶段获取攻击阶段所需阈值。从隐含数据集中随机选取100个样本,分别统计该样本中的成员与非成员,测试不同阈值下的f1分数。
[0047]
攻击阶段:该阶段实现对目标数据集的成员推理。将目标数据集样本进行优化后的基于边界平坦的对抗攻击得到对应,该过程与第二阶段过程类似,但由于此时调用目标模型会产生很高的成本开销,因此为减少调用次数,探寻p
i
的噪声向量时,选用其子空间中的噪声向量,且搜索算法利用隐含模型中二分算法所得到的距离值key,优化为插值搜索提高算法效率。最后依据阈值判断是否为训练目标模型的成员。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献