基于积分梯度可解释算法的网络模型窃取行为的检测方法

2023-01-15 07:48:19 来源：中国专利 TAG：

1.本发明属于人工智能中的迁移学习领域，针对深度神经网络模型窃取难以验证的问题，提出了一种基于积分梯度可解释算法的归因图相似性方法来进行模型窃取的验证和检测。

背景技术：

2.深度神经网络模型在收集数据集和训练模型等方面成本较高，获得一个效果良好的模型往往需要大量的资源。而模型窃取是指攻击者未经许可，擅自复制机密模型的功能，通过观察模型在一定输入上的输出，学习模型的知识，侵犯了原始模型的知识产权。
3.窃取模型通过将数据输入到原始模型上，得到原始模型的输出，即“软标签”。软标签中包含着原始模型中学习到的知识和有效信息，窃取模型通过利用这些信息来学习模型并提高窃取模型的性能。
4.模型窃取方法窃取了其他模型的知识，但仅仅通过窃取后的模型无法辨别出该模型是否侵犯了其他模型的知识产权。如何判断某个模型是否窃取了其他模型的知识是一个极具挑战性又具有很高的实用价值问题。

技术实现要素：

5.针对深度神经网络模型窃取难以验证的问题，本发明提出了一种基于积分梯度可解释算法的网络模型窃取行为的检测方法。为了对模型窃取进行度量，收集探测数据集输入到模型中，通过积分梯度可解释算法生成相应的归因图来计算模型之间的距离。
6.为实现上述目的，本发明所述的基于积分梯度可解释算法的网络模型窃取行为的检测方法，包括如下步骤：
7.1)随机选取不同领域的图像组成探测数据集，并将探测数据集输入到待验证模型中；
8.2)通过可解释性方法积分梯度算法对模型进行归因分析，计算不同模型下输入图片像素对最终输出影响的贡献度大小，对探测数据集中的图片生成相应的归因图；
9.3)将模型对探测数据集生成的归因图作为度量空间，将模型在探测数据集图片的同一位置处得到的归因值组合构成一个位置归因向量，计算不同模型在同一位置处的归因向量之间的距离大小；
10.4)将度量空间中所有像素点对应的输入位置归因向量之间的距离进行平均，即为模型之间的距离；
11.5)计算原始模型与窃取模型、原始模型与非窃取模型之间的距离并进行距离比较。
12.进一步，步骤1)所述的探测数据集是从分类数据集中随机抽取的参考图像x＝{x1,x2,
…
,xn}，图像可从单个领域或多个领域收集。
13.进一步，步骤2)所述的积分梯度算法是一种可解释性方法，它计算从基线到输入
之间的直线路径的路径积分作为输入特征的归因。
14.进一步，步骤2)所述的积分梯度算法对输入图像生成对应的归因图，即对该模型的某一个输出y，对输入的每一个像素的某一个输出y，对输入的每一个像素计算一个重要性值其中，m,n,c表示该像素点在输入图片中的位置，w,h,c分别表示输入图像的宽度、高度和通道数。
15.进一步，步骤2)所述的归因图是利用积分梯度算法对探测数据中的每个图像在相应的模型上生成的归因图，即积分梯度算法对模型归因的可视化。将图片xj输入到模型mi中生成归因图对于模型mi，最终生成n张归因图
16.进一步，步骤3)所述的度量空间为探测数据集在各个模型上生成的归因图所组成的空间。对于输入图片xj的归因图由输入图片对应的归因值组成，模型mi生成n张归因图
17.进一步，步骤3)所述的距离是指，模型mi生成n张归因图对于探测数据集x＝{x1,x2,
…
,xn}中每个点的位置(m,n,c)，其中m∈w,n∈h,c∈w，模型mi可以得到各个归因图ai对应位置的归因值ai。模型mi在位置(m,n,c)处的n个归因值组合构成一个n维向量记为该模型在该输入位置处的归因向量。计算相应输入位置归因向量之间的距离，通过下式进行计算：
[0018][0019]
进一步，步骤4)所述的模型之间距离是指对所有输入位置归因向量之间的距离求取平均，最终模型之间的距离通过下式进行计算：
[0020][0021]
其中，mi,mj表示两个需要比较的模型，w,h,c分别表示输入图像的宽度、高度和通道数。
[0022]
进一步，步骤5)所述的原始模型是指被窃取模型；窃取模型是指通过观察原始模型在选定输入上的输出，有效地学习原始模型的近似功能，达到窃取原始模型知识效果的模型；非窃取模型是指与窃取模型相同架构，但未对原始模型进行知识窃取的模型。
[0023]
进一步，步骤5)所述距离的比较是指将原始模型与窃取模型、原始模型与非窃取模型之间的距离进行比较，若原始模型与窃取模型之间的距离d
steal
小于原始模型与非窃取模型之间的距离d
unrelated
，即d
steal
《d
unrelated
，则验证了该窃取模型对原始模型进行了知识窃取。
[0024]
本发明的有益效果如下：
[0025]
本发明利用积分梯度可解释算法对模型进行解释生成相应的归因图，并计算归因图之间的相似性距离来检测模型窃取行为。
[0026]
本发明能够通过简单高效的方法来验证模型窃取这一极具挑战性和实用价值的
问题。
附图说明
[0027]
图1是本发明方法的流程示意图。
具体实施方式
[0028]
下面结合附图和具体实施例对本发明的技术方案进行清晰、完整的解释和描述，应用本发明提供了一种基于积分梯度可解释算法的检测网站是否窃取他人模型的模型窃取验证方法。
[0029]
深度神经网络模型在收集数据集和训练模型等方面成本较高。而一些网站的攻击者未经允许，擅自复制其他网站发布的机密模型的功能，以极小的代价窃取了其他网站花费大量时间、金钱、人力、算力训练得到的模型，学习模型的知识，侵犯了原始模型的知识产权，进行模型窃取。在这种应用场景下，我们的方法可以通过积分梯度可解释算法的归因映射嵌入对网站攻击者窃取得到的模型和原始网站发布的模型进行对比计算，验证和检测网站的攻击者是否窃取了该网站的模型，是否侵犯了其知识产权。
[0030]
针对模型窃取难以验证的问题，本发明提出了一种基于积分梯度可解释算法的网络模型窃取行为的检测方法。对网站攻击者窃取生成的模型和原始网站发布的模型进行比较，收集探测数据集输入到模型中，通过积分梯度可解释算法生成相应的归因图来计算模型之间的距离，具体包括如下步骤：
[0031]
1)随机选取不同领域的图像组成探测数据集，并将探测数据集输入到待验证模型中；
[0032]
2)通过可解释性方法积分梯度算法对模型进行归因分析，计算不同模型下输入图片像素对最终输出影响的贡献度大小，对探测数据集中的图片生成相应的归因图；
[0033]
3)将模型对探测数据集生成的归因图作为度量空间，将模型在探测数据集图片的同一位置处得到的归因值组合构成一个位置归因向量，计算不同模型在同一位置处的归因向量之间的距离大小；
[0034]
4)将度量空间中所有像素点对应的输入位置归因向量之间的距离进行平均，即为模型之间的距离；
[0035]
5)计算原始模型与窃取模型、原始模型与非窃取模型之间的距离。
[0036]
6)对网站攻击者窃取生成的模型和被攻击网站提供的原始模型之间的距离进行对比。网站攻击者窃取生成的模型和被攻击者的原始模型之间的距离小于正常非窃取模型之间的距离，则说明攻击者对该网站的模型进行了窃取，进而验证了网站攻击者的窃取行为。
[0037]
步骤1)所述的探测数据集是从分类数据集中随机抽取的参考图像x＝{x1,x2,
…
,xn}，图像可从单个领域或多个领域收集。
[0038]
步骤2)所述的积分梯度算法是一种可解释性方法，它计算从基线到输入之间的直线路径的路径积分作为输入特征的归因。
[0039]
步骤2)所述的积分梯度算法对输入图像生成对应的归因图，即对该模型的某一个输出y，对输入的每一个像素计算一个重要性值其
中，m,n,c表示该像素点在输入图片中的位置，w,h,c分别表示输入图像的宽度、高度和通道数。
[0040]
步骤2)所述的归因图是利用积分梯度算法对探测数据中的每个图像在相应的模型上生成的归因图，即积分梯度算法对模型归因的可视化。将图片xj输入到模型mi中生成归因图对于模型mi，最终生成n张归因图
[0041]
步骤3)所述的度量空间为探测数据集在各个模型上生成的归因图所组成的空间。对于输入图片xj的归因图由输入图片对应的归因值组成，模型mi生成n张归因图
[0042]
步骤3)所述的距离是指，模型mi生成n张归因图对于探测数据集x＝{x1,x2,
…
,xn}中每个点的位置(m,n,c)，其中m∈w,n∈h,c∈x，模型mi可以得到各个归因图ai对应位置的归因值ai。模型mi在位置(m,n,c)处的n个归因值组合构成一个n维向量记为该模型在该输入位置处的归因向量。计算相应输入位置归因向量之间的距离，通过下式进行计算：
[0043][0044]
步骤4)所述的模型之间距离是指对所有输入位置归因向量之间的距离求取平均，最终模型之间的距离通过下式进行计算：
[0045][0046]
其中，mi,mj表示两个需要比较的模型,w,h,c分别表示输入图像的宽度、高度和通道数。
[0047]
步骤5)所述的原始模型是指网站发布的被窃取模型；窃取模型是指通过网站攻击者通过观察原始模型在选定输入上的输出，有效地学习原始模型的近似功能，达到窃取原始模型知识效果的模型；非窃取模型是指与窃取模型相同架构，但未对原始模型进行知识窃取的模型。
[0048]
步骤6)比较网站攻击者窃取生成的模型和被攻击网站提供的原始模型之间的距离，若原始模型与窃取模型之间的距离d
steal
小于原始模型与非窃取模型之间的距离d
unrelated
，即d
steal
《d
unrelated
，则验证了该窃取模型对原始模型进行了知识窃取。
[0049]
具体地，本发明提出了一种基于积分梯度可解释算法的网络模型窃取检测方法，对网站攻击者窃取生成的模型和原始网站发布的模型进行比较。为了对模型窃取进行度量，收集探测数据集输入到模型中，通过积分梯度可解释算法生成相应的归因图来计算模型之间的距离。包括如下步骤：
[0050]
步骤1，随机收集种类丰富的图像组成探测数据集。其中图像可以来自单个领域，也可以来自多个领域。探测数据集的大小为n＝128张。
[0051]
步骤2，将128张探测数据集中的图像输入到模型中，通过可解释性方法积分梯度
算法对模型解释，生成128张归因图。由于每个输入维度都有一个归因值与其对应，因而归因图尺寸和输入图片尺寸是相同的。
[0052]
步骤3，将每个模型求得的归因图组合构成一个度量空间。对于每个模型来说，128张探测数据集图片的同一位置处的128个归因值组合构成一个位置归因向量；对于图片中的不同位置，可以得到w
×h×
c个位置归因向量。计算各个位置归因向量之间的距离。
[0053]
步骤4，计算所有位置下位置归因向量距离之间的平均值作为最终模型之间的距离。
[0054]
步骤5，计算网站的原始模型与攻击者自行生成的窃取模型、原始模型与非窃取模型之间的距离。
[0055]
步骤6，比较网站攻击者窃取生成的窃取模型和被攻击网站提供的原始模型之间的距离。若原始模型与窃取模型之间的距离d
steal
小于原始模型与非窃取模型之间的距离d
unrelated
，则说明原始模型与窃取模型之间的距离更近，验证了该网站的窃取模型对原始模型进行了知识窃取。
[0056]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：跨省江河流域初始水权分配方法和系统与流程

基于积分梯度可解释算法的网络模型窃取行为的检测方法

相关文献

最热文献