一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于扰动敏感性差异的对抗样本检测方法

2022-11-30 08:42:49 来源:中国专利 TAG:

技术特征:
1.一种基于扰动敏感性差异的对抗样本检测方法,其特征在于,包括以下步骤:步骤1:利用攻击算法生成对抗样本;步骤2:利用梯度估计确定重要单词;步骤3:扰动重要单词,提取对抗特征;步骤4:对抗特征作为训练数据,训练二分类对抗检测器;步骤5:将待测文本输入对抗检测器,输出结果。2.根据权利要求1所述的基于扰动敏感性差异的对抗样本检测方法,其特征在于,所述步骤1中,生成对抗样本过程包括基于数据集d和深度神经网络模型f,构建一个新的数据集t={x
j
,x
j*
},0<j<t,其中x
j
是来源于d的干净样本,x
j*
是某种攻击算法生成x
j
对应的对抗样本;d={x
i
,y
i
},0<i<l,x
i
是数据集d中的文本,y
i
是x
i
对应的标签,即f(x
i
)=y
i
,x
i
可以进一步表示为x
i
=[w1,w2,

,w
i
,

,w
n
],其中w
i
是文本x
i
中的单词,n是单词个数,t是新数据集t中的样本数量,l是数据集d中样本数量。3.根据权利要求2所述的基于扰动敏感性差异的对抗样本检测方法,其特征在于,所述数据集t的构建方法包括从数据集d中随机采样一个数据(x,y),并通过深度神经网络模型f,生成x对应的对抗样本x
*
=[w
1*
,w
2*
,

,w
n*
],其中是对抗样本x
*
中的单词,n是单词个数,若攻击成功,即f(x
*
)≠y,则将(x,x
*
)加入t;重复步骤1直至t中有t个文本对;其中,从d中随机采样为不放回的采样策略。4.根据权利要求1所述的基于扰动敏感性差异的对抗样本检测方法,其特征在于,所述步骤2中,从t中的所有文本x中,包括对抗样本和干净样本,选取最重要的k个单词,并对其进行排序,记为c(x)。5.根据权利要求4所述的基于扰动敏感性差异的对抗样本检测方法,其特征在于,所述步骤3中,对于c(x)中的每个单词,通过访问深度神经网络模型得到该单词被删除前后的预测标签,将删除单词前后的预测标签不一致的词定义为敏感词,反之则为非敏感词;其中删除操作表示将原单词替换成token,对于预训练模型bert和roberta,替换token为[mask],对于传统dnns模型lstm和cnn则是将替换token为<unk>。6.根据权利要求5所述的基于扰动敏感性差异的对抗样本检测方法,其特征在于,所述敏感词的信号集用于衡量文本x对f的敏感性,表示为s(x,f(x)),其公式化表示为:其中表示单词敏感性的数学表达:其中是文本x去除单词w
i
的表示,f(x)表示深度神经网络模型f输出函数。7.根据权利要求6所述的基于扰动敏感性差异的对抗样本检测方法,其特征在于,通过jsd散度来计算概率分布之间的相似性,jsd散度的值越大表示越相似,分布越接近,反之则表示分布发生了很大的变化:
其中f
s
(x)表示softmax层概率分布,kl表示为kullback-leibler散度,表示为:对于c(x)中每个词,计算jsd散度的值后并将这些值作为x的分布方差特征,表示为:8.根据权利要求7所述的基于扰动敏感性差异的对抗样本检测方法,其特征在于,对抗检测器的输入特征e(x,f(x))由敏感信号jsd值组成,表示为:e(x,f(x))=s(x,f(x))*j(x,f(x))因此,对抗检测器的输入特征是一组大小为k的连续向量,标签是二进制的,0代表干净样本,1代表对抗样本。9.根据权利要求1所述的基于扰动敏感性差异的对抗样本检测方法,其特征在于,所述步骤4中,在对抗检测器的训练阶段,按照8:2的比例将数据分为训练集和测试集。10.根据权利要求1所述的基于扰动敏感性差异的对抗样本检测方法,其特征在于,所述步骤5中,对于任意文本,重复步骤2和步骤3,提取特征,并将特征输入至步骤4中训练好的对抗检测器;若对抗检测器输出0,则判断文本为正常样本;若输出为1,则判断文本为对抗样本。

技术总结
本发明公开了一种基于扰动敏感性差异的对抗样本检测方法,包括以下步骤:步骤1:利用攻击算法生成对抗样本;步骤2:利用梯度估计确定重要单词;步骤3:扰动重要单词,提取对抗特征;步骤4:对抗特征作为训练数据,训练二分类对抗检测器;步骤5:将待测文本输入对抗检测器,输出结果。本发明利用扰动敏感性差异提取对抗特征,较现有技术中通过复杂的表征向量构建方法,大大提升提取效率。本发明的对抗特征提取方法是建立在对抗样本的普遍性特定上,通用性强。较现有技术只能检测针对某种或者某类攻击手段生成的对抗样本,具有普适应和可推广性。性。性。


技术研发人员:顾钊铨 张欢 王乐 谭昊 朱斌 朱梓萁 谢禹舜 朱东 方滨兴
受保护的技术使用者:广州大学
技术研发日:2022.07.11
技术公布日:2022/11/29
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献