一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向真实世界应用的鲁棒视觉增强方法与装置

2022-11-12 19:55:25 来源:中国专利 TAG:


1.本发明涉及一种面向真实世界应用的鲁棒视觉增强方法,同时涉及 相应的鲁棒视觉增强装置,属于计算机视觉检测领域。


背景技术:

2.尽管深度神经网络在多个领域取得了重大成功,但它们的鲁棒性 在真实世界(也称为物理世界)中受到噪声的严重挑战。在深度神经 网络中,噪声是一种旨在误导深度神经网络决策的难以察觉的扰动, 现在正成为一个巨大的威胁。除了对抗性攻击之外,深度神经网络还 对日常环境(例如雪、雨、亮度等)中的常见噪声表现出较弱的鲁棒 性。例如,当下雪时,路牌将被错误地归类为右转。更糟糕的是,这些 不可避免的噪声导致了数十起自动驾驶事故并造成人员伤亡,并给实 际中的深度学习应用蒙上了阴影。这促使我们研究可行的防御措施, 以便在物理世界中构建更加强大的神经网络模型。
3.在过去的几年中,技术人员已经做出了大量努力来抵御对抗性扰 动并进一步提高神经网络模型的鲁棒性。现有技术中,大部分工作都 侧重于从模型端(例如数据增强、对抗性训练)增强鲁棒性,这需要模 型架构修改或模型再训练的额外成本。
4.在专利号为zl 201910468416.9的中国发明专利中,公开了一种 基于交通元素视觉增强的深度学习的自动驾驶方法,其通过车载摄像头 获取车辆行驶数据,利用建立的感知神经网络识别图像中的车辆、行人、 红绿灯、车道线、停止线等交通元素,通过不同颜色区块对图像中的交通 元素进行视觉增强,然后以增强后的图像作为输入,导入到预先确定并训 练好的深度学习网络模型中,输出期望的方向盘转角、油门开度以及刹车 力度,以控制车辆实现自动驾驶。通过实施该发明,可以增加深度学习自 动驾驶系统对重点道路交通元素的关注度,从而有效提高自动驾驶的安 全性、可靠性以及鲁棒性。


技术实现要素:

5.本发明所要解决的首要技术问题在于提供一种面向真实世界应用的 鲁棒视觉增强方法。
6.本发明所要解决的另一技术问题在于提供一种面向真实世界应用的 鲁棒视觉增强装置。
7.为实现上述的发明目的,本发明采用下述的技术方案:
8.根据本发明实施例的第一方面,提供一种面向真实世界应用的鲁棒 视觉增强方法,包括如下步骤:
9.将初始补丁进行局部特征提取优化和全局感知相关性优化后,生成 防御补丁;
10.将添加了防御补丁的图像输入神经网络进行推理。
11.其中较优地,所述将初始补丁进行局部特征提取优化,具体包括如下 子步骤:
12.利用形状掩码对初始补丁进行初始化;
13.通过特征损失函数优化初始补丁,生成补丁先验。
14.其中较优地,所述将初始补丁进行全局感知相关性优化,具体包括如 下子步骤:
15.通过优化损失函数优化补丁先验,生成中间补丁;
16.通过感知相关性损失函数优化中间补丁和先验补丁,得到防御补丁。
17.其中较优地,所述通过特征损失函数优化初始补丁,具体包括如下子 步骤:
18.使用特征提取模型,最小化训练特征损失函数,从而优化各类初始补 丁。
19.其中较优地,所述通过优化损失函数优化补丁先验,具体包括如下子 步骤:
20.针对补丁先验进行训练,使优化损失函数最大化。
21.其中较优地,所述通过感知相关性损失函数优化中间补丁和先验补 丁,具体包括如下子步骤:
22.引入gram矩阵,基于各中间补丁的组合优化中间补丁,使感知相关 性损失函数最小化。
23.其中较优地,所述特征损失函数表达式为:
[0024][0025]
上式中,是类别索引为k的的预测值,为先验补丁。
[0026]
其中较优地,所述优化损失函数表达式为:
[0027][0028]
上式中,yk表示x的真实标签,表示输入时的预测值,为分类器,为中间补丁。
[0029]
其中较优地,所述感知相关性损失函数表达式为:
[0030][0031]
上式中,g
p,q
(i)表示输入i在位置(p,q)的gram矩阵值,i
·c表示输 入i在通道c的像素值,n表示分类器中的类别总数。
[0032]
根据本发明实施例的第二方面,提供一种面向真实世界应用的鲁棒 视觉增强装置,包括处理器和存储器,所述处理器读取所述存储器中的计 算机程序,用于执行以下操作:
[0033]
将初始补丁进行局部特征提取优化和全局感知相关性优化后,生成 防御补丁;
[0034]
将添加了防御补丁的图像输入神经网络进行推理。
[0035]
在本发明的实施例中,防御补丁是根据初始补丁进行局部特征提取 优化和全局感知相关性优化后得到的。由于深度神经网络的鲁棒性识别 高度依赖于对局部特征和全局特征的利用,因此本发明将添加了防御补 丁的图像输入神经网络进行推理,可以提高深度神经网络的鲁棒性。并 且,利用本发明所提供的方法无需修改模型端的框架,可以减少再训练的 成本。
附图说明
[0036]
图1为本发明所提供的鲁棒视觉增强方法的流程图;
[0037]
图2为本发明实施例中,防御补丁的生成流程图;
[0038]
图3为本发明实施例中,各种噪声下贴有防御补丁后的模型分析示 意图;
[0039]
图4为本发明所提供的鲁棒视觉增强装置的结构示意图;
[0040]
图5为本发明实施例中,防御补丁的决策边界分析示意图;
[0041]
图6为本发明实施例中,使用模型端防御后的对比示意图。
具体实施方式
[0042]
下面结合附图和具体实施例对本发明的技术内容进行详细具体的说 明。
[0043]
在深度神经网络中,一个被扰动的样本x

,由一个干净的样例和额 外的噪声组成,可以误导给定的深度神经网络进行错误的预测,即 给定一个k类数据集干净样本和它对应的扰动的例子x

受到一个约束∈。基于以上知识,现在提供防御 补丁δ的定义为:
[0044][0045]
其中,||
·
||是被经常使用的l
p
范数,且p∈{1,2,∞},∈是约束值。防御 布丁δ也满足并且操作遵循以下公式:
[0046][0047]
其中,

是逐元素乘法,m是决定掩蔽位置和外观的形状掩码。
[0048]
有关研究表明,鲁棒识别表现出对局部特征和全局特征组合的高度 依赖。因此,通过帮助神经网络模型(简称为模型)更好地利用局部特 征和全局特征来生成具有强噪声泛化和模型可转移性的防御补丁。
[0049]
如图1所示,本发明实施例提供的面向真实世界应用的鲁棒视觉增 强方法,至少包括如下步骤:
[0050]
101.将初始补丁进行局部特征提取优化和全局感知相关性优化后, 生成防御补丁;
[0051]
102.将添加了防御补丁的图像输入神经网络进行推理。
[0052]
在本发明的实施例中,防御补丁是根据初始补丁进行局部特征提取 优化和全局感知相关性优化后得到的。防御补丁可以保留更多特定于类 的可识别特征,这可以使模型在各种噪声下更好地进行识别。由于不同模 型在做出决策时关注相似的全局感知,防御补丁可以捕获类内更多的全 局特征相关性。因此,本发明实施例中的防御补丁可以更好地激活神经网 络模型共享的全局感知,并在模型之间显示出更强的可转移性。
[0053]
所述将初始补丁进行局部特征提取优化,具体包括如下子步骤:
[0054]
1011、利用形状掩码对初始补丁进行初始化;
[0055]
1012、通过特征损失函数优化初始补丁,生成补丁先验。
[0056]
在本发明的一个实施例中,目标是先将更多特定于类的可识别特征 注入到受限的局部补丁(初始补丁)中。首先考虑局部补丁的形状。由于 防御补丁旨在提高现实世界场景中的模型鲁棒性,因此有必要避免对人 类视觉的影响(即不覆盖目标对象)。在如图2所示的局部特征提取优化 过程中,其为补丁先验生产过程(prior generation process),初
始补 丁(initial patch)受形状掩码(mask)m的影响,将公式(2)中的形 状掩码m设置为围绕目标对象的w像素方形框(例如路牌)。因此,初始 补丁δ被重新表述为:
[0057]
δ=0 m
⊙1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0058]
其中,0和1分别是一个张量,其中每个元素为0或1,它们的维度 与输入大小m相同。位置掩码可以根据场景替换为任何不同的形状。
[0059]
所述通过特征损失函数优化初始补丁,具体包括如下子步骤:
[0060]
10121、使用特征提取模型,最小化训练特征损失函数,从而优化各 类初始补丁。
[0061]
为了将更多特定于类的可识别特征注入受限的局部先验,通过基于 熵的损失函数,使用一个特征提取模型(pattern extraction model) 来优化补丁先验。由于熵被广泛用于描述类的不确定性,即较高的熵表明 识别对象的不确定性较高。因此,本发明实施例中强制补丁先验减少某个 类的熵,即使其对特定类更易识别。通过这种方式,可以优化防御补丁以 包含更多特定于类的可识别特征并抵抗不同噪声的影响。特别地,给定特 征提取模型和特定的类索引k,通过计算可识别的特征损失l
p
来优化 (初始化为δ)。
[0062]
所述特征损失函数表达式为:
[0063][0064]
公式(4)中,是类别索引为k的的预测值,为先验补丁。
[0065]
在补丁前生成过程中不需要输入数据,并且可以是在本发明实施例 中的任何预训练模型。由于典型的补丁先验(local patch prior)包含 更多可识别的特征,从这些先验优化的防御补丁可以保留针对特定类别 的更多可识别特征,并对不同的噪声表现出更好的泛化能力。在补丁生成 之后,在之后防御补丁优化过程中利用典型的补丁先验
[0066]
所述将初始补丁进行全局感知相关性优化,具体包括如下子步骤:
[0067]
1013、通过优化损失函数优化补丁先验,生成中间补丁;
[0068]
1014、通过感知相关性损失函数优化中间补丁和先验补丁,得到防御 补丁。
[0069]
由于神经网络模型在对特定类别做出正确预测时通常具有相似的全 局感知,本发明实施例的目标是通过更好地激活模型全局感知来提高不 同模型之间的可转移性。
[0070]
由于目标对象的上下文对于神经网络模型做出正确的感知也是必不 可少的,本发明实施例使防御补丁捕获特定类中更全局的上下文特征。考 虑到可以利用gram矩阵来表示图像中特征的相关性,通过在聚合方法中 引入与类别相关的更强的全局特征相关性,设计了基于gram矩阵的全局 相关性损失。由此,生成的防御补丁可以更好地激活模型全局感知,实现 不同模型之间更强的可迁移性。
[0071]
所述通过优化损失函数优化补丁先验,具体包括如下子步骤:
[0072]
10131、针对补丁先验进行训练,使优化损失函数最大化。
[0073]
具体来说,在图2所示的全局感知相关性优化过程中,其为中间补丁 产生过程(patch optimization process)。给定分类器首先将第i类的补丁初始化为0;然后,使用基于的干净样例 (从数据集dataset中获取)从优化第i个分类器的中间补丁。所 述优化损失函数表达式为:
[0074][0075]
公式(5)中,yk表示x的真实标签,表示输入时的预测 值,为分类器,为中间补丁。
[0076]
所述通过感知相关性损失函数优化中间补丁和先验补丁,具体包括 如下子步骤:
[0077]
10141、引入gram矩阵,基于各中间补丁的组合优化中间补丁,使感 知相关性损失函数最小化。
[0078]
在本发明实施例中,通过利用来自不同模型的这些中间补丁之间共 享的最相似的全局感知来优化防御补丁。如图2所示,详细来讲,引入了 gram矩阵(matrix)来优化基于多个的组合。所述感知相关性损失 函数表达式为:
[0079][0080]
公式(6)中,g
p,q
(i)表示输入i在位置(p,q)的gram矩阵值,i
·c表 示输入i在通道c的像素值,n表示分类器中的类别总数。
[0081]
在本发明实施例中,以渐进的方式进行上述防御补丁生成过程,每次 迭代中优化的防御补丁将作为下一次迭代的先验。
[0082]
如图2所示,在生成防御补丁δd后,根据步骤102,将δd输入至 神经网络进行推理。防御补丁可分别用于数字世界(digital world)和 物理世界(physical world)。在加入多种噪声(diverse noises)后, 可以对数字世界中鸟的照片和物理世界中禁止通行的车牌进行推理。
[0083]
需要注意的是,上述优化过程也可以在单一模型设置下工作,即n= 1。假设原因可能是作为高阶交互,模型感知的全局感知相关性在对攻击 的鲁棒识别中起着重要作用。
[0084]
总之,通过以集成方法增强全局感知相关性,生成的防御补丁可以通 过激活模型共享的全局感知在多个模型之间享有更强的可转移性。
[0085]
在本发明实施例中,通过连续进行两个优化过程来生成防御补丁,即 通过可识别特征损失先验生成代表特定类的补丁先验,和通过优化损 失和感知相关损失优化防御补丁。
[0086]
具体来说,对于每个类,首先将所有典型的补丁初始化为δ。然后通 过使用特征提取模型和局部位置约束m最小化来优化第k类的补丁 先验。此外,使用n个不同的模型进行基于集成的感知相关增强优化,其 中n为正整数。具体地说,对于每个时期,通过最大化训练损失获得n 个中间补丁之后,最小化以生成防御补丁然后通过简单地将它 们用作附加装饰来执行防御。需要注意的是,在本发明实施例中将型号n 设置为4。整体训练算法可如表1中描述。
[0087]
下面通过实验,验证本发明实施例中的防御补丁在数字世界和物理 世界中的有效性。
[0088]
对于数据集,选择广泛使用的cifar-10和gtsrb(指南分类数据 集)。关于模型,选择了常用的架构,包括vgg-16(缩写为“vgg”)、 resnet-50(缩写为“rnet”)、shufflenet-v2
(缩写为“snet”),和 mobilenet-v3(缩写为“mnet”)。
[0089]
在本发明实施例中,采用了3种在物理世界中可实现的噪声,例 如,常见噪声、advp和advl。具体来说,对于腐败,实施雾、雨、高 斯、光等16种腐败。对于每种腐败,我们选择5种不同的强度。
[0090]
表1
[0091][0092]
为了评估本发明实施例所述方法的性能,选择广泛使用的度量精度 作为评估度量(越高越好)。至于比较基线,采用unadv和trans,它们 是最先进的数据端防御。使用发布它们的代码来实现,并选择合理的设置 进行公平比较。
[0093]
对于超参数a,将其设置为4,这意味着使用了4个不同的模型。对 于形状掩码m,设计一个围绕对象的w像素粗体框,该框将补丁大小限制 为图像大小的1/5。特征提取模型的主干是vgg19。在补丁生成过程中, 使用adam优化器,学习率为0.01,权重衰减为10-4,最多20个epoch。 所有代码都在pytorch中实现。在nvidia geforce rtx 2080ti gpu 集群2上进行训练和测试过程。
[0094]
在本发明实施例中,首先评估生成的防御补丁在数字世界中的性能。 请注意,选择公共数据集cifar-10来进行数字世界实验。
[0095]
由于本发明实施例提供的防御补丁生成框架采用了几种不同的模型, 因此直接将本发明实施例与其他基线进行比较是不公平的。因此,分别进 行了2个不同的实验:(1)仅使用与unadv相同的单个目标模型来生成 防御补丁;(2)对两个unadv进行了类似的集成训练。由于trans在 不需要目标模型的情况下执行防御,可以直接报告其结果。
[0096]
根据表2和表3可以得出结论,本发明实施例中的防御补丁在提高 模型鲁棒性方面表现出更好的性能,即对不同噪声的泛化和不同模型之 间的可转移性。在此,可以提供以下几个结论:
[0097]
1.对于针对不同噪声的泛化,可以观察到本发明实施例提供的防御 补丁在几乎所有噪声下都实现了更高的准确度。例如,对于rnet上的 单一模型设置,本发明实施例所述的方法在白盒设置下比unadv提高了 10.81%;对于mnet上的集成设置,分别优于unadv和trans高达 44.11%和22.88%。
[0098]
2.对于不同模型之间的可转移性,从表2可以清楚地说明,本发明 实施例提出的防御补丁在黑盒设置下与unadv相比显示出更高的精度 值。例如,本发明实施例提出的方法对rnet上的损坏平均提高了 10.51%。
[0099]
3.此外,与单一设置相比,采用集成策略的unadv显示出较低的 防御能力。更准确地说,集成策略在unadv上降低了白盒的性能并增加 了黑盒的性能。例如,在集成设置中,unadv在vgg上显示70.36%和 在rnet上的62.55%对抗腐败,而在单一模型设置下vgg对抗腐败的 准确率为98.16%。将这一观察归因于平均集成策略的缺陷,即忽略了对 共享高级特征的利用,例如全局特征之间的相关性。
[0100]
综上所述,本发明实施例所述方法在实际性能中实现了高度的泛化 和可迁移性,在多个模型之间的不同噪声下显示出显着的准确性提高,即 对抗性鲁棒性平均提高20.18%,腐败鲁棒性平均提高31.10%。
[0101]
表2
[0102][0103]
表2中,ours代表本发明实施例,不与trans进行比较。可以看出,
ꢀ“
ours”具有更好的泛化性和可移植性。精度越高的值以粗体显示,即性 能越好。
[0104]
表3中,raw、cor、advl和advp代表4种不同的情况。在cifar-10 数据集上,对四种模型集合下的实验结果进行了分析。unadv和trans的 防御能力较弱。
[0105]
表3
[0106][0107]
为了评估在物理世界中的有效性,在考虑自动驾驶的普及性及其巨 大的应用潜力的情况下选择交通标志分类任务。因此,根据广泛使用的交 通标志分类数据集(即gtsrb)生成了防御补丁,然后打印机打印这些补 丁。
[0108]
从校园环境中选择三个不同的现实世界交通标志,即限速20(缩写 为“sl”),禁止进入(缩写为“ne”),直行或左转(缩写为“gsl”))。 选择4种不同的情况(例如,原始raw、雪snowy、亮度brightness、 对抗性补丁advp)来模拟现实世界中的不同噪声。此外,对于对抗性攻 击,使用advpatch并将它们粘贴在交通标志上。对于每种情况下的每 种交通标志,从3个距离(即0.5m、0.75m和1m)和3个方向(即 正面、左侧和右侧)采样图像。关于防御,使用本发明实施例提供的防御 补丁和unadv。因此,总共获得12*9*3=324个图像作为物理世界测试集, 包括各种噪声(损坏和对抗性示例)。此外,通过rnet模型评估这些真 实世界的采样图像,以验证本发明实施例所述方法的实际有效性。
[0109]
根据表4可以观察到,在现实世界中的不同情况下,本发明实施例提 出的防御补丁实现了更好的性能,并且在很大程度上优于其他补丁(即 vanilla和unadv),即更高的精度值。对于所有噪声,本发明实施例所 述的方法平均实现了26.86%的改进。
[0110]
本发明实施例所述的方法具有在其他方法中执行防御的潜力,例如 产品特殊服装、迷彩、涂层等。
[0111]
在本发明实施例中,首先从模型注意力(即定性分析)和决策边界(即 定量分析)的角度进行一些讨论,以更好地了解本发明实施例提供的防御 补丁;然后说明本发明实施例所述的防御补丁可以与其他模型端策略一 起使用,以进一步提高鲁棒性。
[0112]
表4
[0113][0114]
针对神经网络模型的注意力分析,采用grad-cam来可视化模型在对 有或没有防御补丁的相同图像进行预测时的注意力。
[0115]
具体来说,从cifar-10的每个类别中选择一些样本,并使用噪声 (即cor、advl、advp)获取它们相应的扰动示例。这些扰动示例满足普 通模型无法对这些受干扰的图像进行正确分类的条件,而它们可以在本 发明实施例提供的防御补丁的帮助下提供正确的预测。然后计算每组采 样图像的注意力图以展示grad-cam的模型感知变化。如图3所示,上排 框表示没有防御补丁的事例(即“之前before”),下排框表示带有防御 性补丁的示例(即“之后after”)。贴上防御补丁后(从before到after), 模型感知已经在图像上全局扩散到更大的区域,这表明模型在决策过程 中利用了更多的全局特征。因此,通过更好地激活全局感知,本发明实施 例提供的防御补丁可以提高模型的鲁棒性和模型之间的转移性。
[0116]
为了实现本发明所提供的面向真实世界应用的鲁棒视觉增强方法, 本发明还提供一种面向真实世界应用的鲁棒视觉增强装置。如图4所示, 该鲁棒视觉增强装置包括处理器42和存储器41,还可以根据实际需要进 一步包括通信组件、传感器组件、电源组件、多媒体组件及输入/输出接 口。其中,存储器、通信组件、传感器组件、电源组件、多媒体组件及输 入/输出接口均与该处理器42连接。前已述及,节点设备中的存储器41 可以是静态随机存取存储器(sram)、电可擦除可编程只读存储器 (eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、 只读存储器(rom)、磁存储器、快闪存储器等,处理器可以是中央处理器 (cpu)、图形处理器(gpu)、现场可编程逻辑门阵列(fpga)、专用集成 电路(asic)、数字信号处理(dsp)芯片等。其它通信组件、传感器组件、 电源组件、多媒体组件等均可以采用现有电子设备,如智能手机或车机中 的通用部件实现,在此就不具体说明了。
[0117]
另一方面,在上述面向真实世界应用的鲁棒视觉增强装置中,处理器 42读取存储器41中的计算机程序,用于执行以下操作:
[0118]
将初始补丁进行局部特征提取优化和全局感知相关性优化后,生成 防御补丁;
[0119]
将添加了防御补丁的图像输入神经网络进行推理。
[0120]
为了进一步说明本发明实施例提供的防御补丁,接下来提供决策边 界分析,目标是描述在有或没有防御补丁的情况下欺骗分类器的困难性。
[0121]
具体来说,将实例xi扰乱到模型错误识别为指定的类,并估计作为 决策边界距离
移动的最小优化步数。给定一个学习模型和一个方向(即 类yj,i≠j)。为每个类别随机抽取50个样本(共500个),并使用rnet 作为通过计算距离的统计数据(例如,平均值和中位数等),可以从图 5中得出一些有意义的结论。首先,可以观察到:在使用本发明实施例提 供的防御补丁后,平均步数的分布向更大的值移动,这表明对手更难攻击 模型(即,不同实例到决策的距离边界更大)。此外,对于每个特定类别, 在添加防御补丁后,决策边界距离更大,如图5所示(例如,浅色框高于 深色框)。在图5中,深色为干净样本,浅色为使用本发明实施例提供的 防御补丁的样本。图5中左侧展示了平均步数的频率统计信息;图5中 右侧展示了某一类的距离统计,即0类到另外9类的距离。因此,证明了 本发明实施例提供的防御补丁可以帮助模型更好地抵抗噪声的影响,即 更难被其他类别干扰。
[0122]
虽然数据端防御独立于模型端防御,但本发明实施例仍然探索联合 利用它们以进一步提高模型对噪声的鲁棒性的可能性的可行性。特别是, 选择了典型和流行的模型端防御策略,即pat,它使用pgd对抗性攻击 来对抗训练模型。使用vgg、rnet、snet和mnet作为主干模型,并按 照pat策略分别对它们进行对抗训练。对于评估,采用与之前相同的测 试数据集。如图6所示,可以清楚地观察到防御补丁的积极影响,即通过 添加带有pat的防御补丁。这些结果能够得出一个有意义的结论,即本 发明实施例提供的防御补丁可以作为一种强大的方法用于现实世界的应 用程序,因为它们的灵活使用和对鲁棒识别的显着促进。在图6中,“ ours”表示联合性能,其实现了更好的性能,即更高的精度。
[0123]
下面,进一步研究不同损失函数的影响。
[0124]
具体来说,首先研究了对针对不同噪声的泛化能力的影响。为了公 平比较,使用集成设置训练了两个具有和的模型。根据表5,可 以观察到设置下的稳健性远高于设置下的鲁棒性。结果证明 可以提高模型对各种噪声的鲁棒性。
[0125]
在表5中,在聚合模型设置下,为“cor”、“advl”、“avp”在上进 行消融。
[0126]
表5
[0127][0128]
然后,我们研究了对单一模型设置下不同模型之间的可转移性的影 响。具体来说,选择rnet作为源模型,其他3个模型作为目标模型 (vgg、snet和mnet)。如表6、表7和表8所示,在不同噪 声设置下的几乎所有目标模型上始终实现更高的准确度,这有力地支持 了可以提高模型之间的可迁移性。
[0129]
表6
[0130][0131]
表6显示“cor”单模型设置下的消融。
[0132]
表7
[0133][0134]
表7表示“advl”单模型设置下的消融。
[0135]
表8
[0136][0137]
表8表示“advp”单模型设置下的消融。
[0138]
最后,本发明实施例进一步研究不同形状(即等式(2)中的不同形 状掩码m)的防御补丁的性能。这些实施例旨在测试防御补丁在更实际场 景中的防御能力。
[0139]
具体来说,如图2所示,制作3种不同形状的掩码,包括圆形、三角 形和梯形。这些补丁的大小(像素数)设置为相似的水平,这对目标对象 没有影响。基于vgg、resnet、shufflenet和mobilenet生成具有不 同形状掩码的不同防御补丁,然后将它们放置在相同位置并评估它们的 性能(即raw、cor、advl、advp)。可以得出结论,形状对防御贴片性能 的影响非常有限,即圆形、三角形和梯形分别为99.78%、98.87%、99.93%, 这在实际应用中可以忽略。因此,本发明实施例所述的方法可以在各种场 景的实际应用中更加灵活。
[0140]
本发明实施例所述的方法通过更好地利用局部特征和全局特征来进 行数据端防御。防御补丁可以对不同的噪声和不同模型之间的可转移性 实现强泛化。大量实验证明,本发明实施例提供的防御补丁在很大程度上 优于其他补丁(例如,在数字世界和物理世界中,对抗性和腐败鲁棒性的 平均准确度提高了20%以上)。
[0141]
本发明实施例提供的防御补丁可以在实践中轻松部署,通过简单地 将它们贴在
目标物体周围(例如,经常下雪的城市中的交通标志)来防御 噪声。
[0142]
上面对本发明所提供的面向真实世界应用的鲁棒视觉增强方法及 装置进行了详细的说明。对本领域的一般技术人员而言,在不背离本 发明实质内容的前提下对它所做的任何显而易见的改动,都将构成对 本发明专利权的侵犯,将承担相应的法律责任。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献