一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视角鲁棒性分析方法、装置、电子设备及存储介质

2022-12-09 23:39:58 来源:中国专利 TAG:


1.本发明涉及视觉感知技术领域,尤其涉及一种视角鲁棒性分析方法、装置、电子设备及存储介质。


背景技术:

2.视角鲁棒性是指对于在不同视角下的物体,视觉感知模型具备良好的识别能力,即视觉感知模型具备识别不同视角下物体的能力。
3.相关技术可知,当前往往采用构建包含不同视角拍摄图片的数据集,或通过对物体进行3d建模并模拟其在不同视角下的变换的方式,来评估视觉感知模型的视角鲁棒性。
4.然而,采用前述方式对视觉感知模型进行视角鲁棒性分析,其成本较高且准确性较低。


技术实现要素:

5.本发明提供一种视角鲁棒性分析方法、装置、电子设备及存储介质,提高了在对视觉感知模型进行视角鲁棒性分析过程中的分析准确性,且降低了操作成本。
6.本发明提供一种视角鲁棒性分析方法,所述视角鲁棒性分析方法包括:获取待识别物体的多张二维图片;基于多张所述二维图片,得到所述待识别物体的三维表示;基于所述三维表示,得到初始对抗视角下的渲染二维图片;基于所述初始对抗视角下的渲染二维图片,确定所述待识别物体的优化后对抗视角,并基于所述优化后对抗视角评估视觉感知模型的视角鲁棒性。
7.根据本发明提供的一种视角鲁棒性分析方法,所述基于多张所述二维图片,得到所述待识别物体的三维表示,具体包括:基于多张所述二维图片,通过神经辐射场得到所述待识别物体的三维表示。
8.根据本发明提供的一种视角鲁棒性分析方法,所述基于所述三维表示,得到初始对抗视角下的渲染二维图片,具体包括:确定所述初始对抗视角;基于所述三维表示和所述初始对抗视角,通过神经辐射场得到所述初始对抗视角下的渲染二维图片。
9.根据本发明提供的一种视角鲁棒性分析方法,所述基于所述初始对抗视角下的渲染二维图片,确定所述待识别物体的优化后对抗视角,具体包括:基于所述初始对抗视角下的渲染二维图片,得到分类损失函数;基于所述分类损失函数,对所述初始对抗视角进行优化,得到优化后的初始对抗视角,以使基于所述优化后的初始对抗视角下的渲染二维图片得到的所述分类损失函数的值最大,并将所述优化后的初始对抗视角作为所述待识别物体的优化后对抗视角。
10.根据本发明提供的一种视角鲁棒性分析方法,所述基于所述分类损失函数,对所述初始对抗视角进行优化,具体包括:基于所述分类损失函数,通过高斯分布对所述初始对抗视角进行优化。
11.本发明还提供一种视角鲁棒性分析装置,所述视角鲁棒性分析装置包括:第一模
块,用于获取待识别物体的多张二维图片;第二模块,用于基于多张所述二维图片,得到所述待识别物体的三维表示;第三模块,用于基于所述三维表示,得到初始对抗视角下的渲染二维图片;第四模块,用于基于所述初始对抗视角下的渲染二维图片,确定所述待识别物体的优化后对抗视角,并基于所述优化后对抗视角评估视觉感知模型的视角鲁棒性。
12.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的视角鲁棒性分析方法。
13.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的视角鲁棒性分析方法。
14.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的视角鲁棒性分析方法。
15.本发明提供的视角鲁棒性分析方法、装置、电子设备及存储介质,基于待识别物体的多张二维图片得到待识别物体的三维表示,基于三维表示得到初始对抗视角下的渲染二维图片,以及基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角,以使优化后对抗视角可以以更高的成功率欺骗视觉感知模型,从而能够提高基于优化后对抗视角评估视觉感知模型的视角鲁棒性的分析准确性,以及降低评估视觉感知模型的视角鲁棒性的操作成本。
附图说明
16.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1是本发明提供的视角鲁棒性分析方法的流程示意图;
18.图2是本发明提供的基于三维表示,得到初始对抗视角下的渲染二维图片的流程示意图;
19.图3是本发明提供的基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角的流程示意图;
20.图4是本发明提供的视角鲁棒性分析方法的应用场景示意图;
21.图5是本发明提供的视角鲁棒性分析装置的结构示意图;
22.图6是本发明提供的电子设备的结构示意图。
具体实施方式
23.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.为了更好得研究视觉感知模型的视角鲁棒性,本发明提供的视角鲁棒性分析方法通过优化的方式寻找对抗视角的分布,即从分布中采样的任意视角可以欺骗视觉感知模
型,从而能够提高基于优化后对抗视角评估视觉感知模型的视角鲁棒性的分析准确性,以及降低评估视觉感知模型的视角鲁棒性的操作成本。
25.下面将结合图1对本发明提供的视角鲁棒性分析方法的过程进行说明。
26.图1是本发明提供的视角鲁棒性分析方法的流程示意图。
27.在本发明一示例性实施例中,结合图1可知,视角鲁棒性分析方法可以包括步骤110至步骤140,下面将分别介绍各步骤。
28.在步骤110中,获取待识别物体的多张二维图片。
29.在一种实施例中,可以获取待识别物体的多张不同视角的二维图片。其中,待识别物体可以理解为用于评估视觉感知模型的视角鲁棒性的物体,即评估视觉感知模型从不同的视角识别该待识别物体的识别能力。
30.在步骤120中,基于多张二维图片,得到待识别物体的三维表示。
31.在一种实施例中,可以通过待识别物体的多张不同视角的二维图片,得到待识别物体在三维空间的三维表示。
32.在又一种实施例中,基于多张二维图片,得到待识别物体的三维表示可以采用以下方式实现:
33.基于多张二维图片,通过神经辐射场得到待识别物体的三维表示。
34.在一示例中,为了针对物理世界物体研究模型的视角鲁棒性,可以利用神经辐射场对物理世界的物体(对应待识别物体)进行建模,以得到待识别物体的三维表示。
35.需要说明的是,神经辐射场可以通过神经网络表示物理空间中物体的颜色和密度,并通过体素渲染技术得到每一束光线的颜色。神经辐射场可以渲染出多视角下真实的图像。
36.在一种实施例中,神经辐射场可以通过神经网络建模空间辐射场,并可以表示为f:(x,d)

(c,τ)。其中,x表示空间中的坐标,d表示观测方向,其输出包括rgb颜色c和体素密度τ。将r(t)=o td记为从摄像机原点o沿方向d发射的一束光线,则在此方向上渲染的像素值可以表示为公式(1):
[0037][0038]
其中,ti、tj分别表示光线位置ti和光线位置tj;δi=t
i 1-ti是两个邻近采样点(对应光线位置t
i 1
和ti)之间的距离;δj=t
j 1-tj是两个邻近采样点(对应光线位置t
j 1
和tj)之间的距离。
[0039]
通过指定不同的方向,可以渲染出一张图片,因此,神经辐射场可以在任意的视角下生成真实的图片。
[0040]
在又一种实施例中,还可以通过其他处理方式基于多张二维图片,得到待识别物体的三维表示。例如,可以通过3d扫描仪得到高精度的物体3d建模,即得到待识别物体的三维表示。在本实施例中,不对基于多张二维图片得到待识别物体的三维表示的具体方式作限定。
[0041]
在步骤130中,基于三维表示,得到初始对抗视角下的渲染二维图片。
[0042]
在步骤140中,基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角,并基于优化后对抗视角评估视觉感知模型的视角鲁棒性。
[0043]
在一种实施例中,可以基于得到的待识别物体的三维表示,得到初始对抗视角下的渲染二维图片。其中,初始对抗视角可以理解为初始化的视角。进一步的,还可以通过优化的方式寻找对抗视角的分布,以得到待识别物体的优化后对抗视角。
[0044]
在一示例中,可以基于初始对抗视角下的渲染二维图片,得到待识别物体的优化后对抗视角,以使优化后对抗视角可以以更高的成功率欺骗视觉感知模型,从而能够提高基于优化后对抗视角评估视觉感知模型的视角鲁棒性的分析准确性,以及降低评估视觉感知模型的视角鲁棒性的操作成本。
[0045]
本发明提供的视角鲁棒性分析方法,基于待识别物体的多张二维图片得到待识别物体的三维表示,基于三维表示得到初始对抗视角下的渲染二维图片,以及基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角,以使优化后对抗视角可以以更高的成功率欺骗视觉感知模型,从而能够提高基于优化后对抗视角评估视觉感知模型的视角鲁棒性的分析准确性,以及降低评估视觉感知模型的视角鲁棒性的操作成本。
[0046]
为了进一步结束本发明提供的视角鲁棒性分析方法,下面将结合图2进行说明。
[0047]
图2是本发明提供的基于三维表示,得到初始对抗视角下的渲染二维图片的流程示意图。
[0048]
在本发明一示例性实施例中,结合图2可知,基于三维表示,得到初始对抗视角下的渲染二维图片可以包括步骤210和步骤220,下面将分别介绍各步骤。
[0049]
在步骤210中,确定初始对抗视角。
[0050]
在步骤220中,基于三维表示和初始对抗视角,通过神经辐射场得到初始对抗视角下的渲染二维图片。
[0051]
在一种实施例中,可以给定摄像机的初始位置,并对其进行旋转和平移,在摄像机变换过后,可以得到一个新的拍摄视角,即得到初始对抗视角。其中,旋转角度可以表示为(ψ,θ,φ),平移距离可以表示为(δ
x
,δy,δz)。
[0052]
在一示例中,可以通过神经辐射场渲染得到在初始对抗视角下的2d图片(对应渲染二维图片),可以表示为v=[ψ,θ,φ,δ
x
,δy,δz]。渲染得到的图片(对应渲染二维图片)可以表示为r(v),其中,r代表整个渲染过程。
[0053]
为了防止对抗视角的分布退化,本发明提供的视角鲁棒性分析方法还提出利用熵正则项,用以有效提升对抗视角的多样性。
[0054]
图3是本发明提供的基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角的流程示意图,下面将结合图3对基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角的过程进行说明。
[0055]
在本发明一示例性实施例中,结合图3可知,基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角可以包括步骤310和步骤320,下面将分别介绍各步骤。
[0056]
在步骤310中,基于初始对抗视角下的渲染二维图片,得到分类损失函数。
[0057]
在步骤320中,基于分类损失函数,对初始对抗视角进行优化,得到优化后的初始对抗视角,以使基于优化后的初始对抗视角下的渲染二维图片得到的分类损失函数的值最大,并将优化后的初始对抗视角作为待识别物体的优化后对抗视角。
[0058]
在一种实施例中,为了学习对抗视角的分布,可以基于初始对抗视角下的渲染二
维图片得到分类损失函数,并基于分类损失函数,对初始对抗视角进行优化,得到优化后的初始对抗视角,以使基于优化后的初始对抗视角下的渲染二维图片得到的分类损失函数的值最大,并将优化后的初始对抗视角作为待识别物体的优化后对抗视角。
[0059]
在一种实施例中,优化问题可以采用以下公式(2)实现:
[0060][0061]
其中,f表示图像分类模型;y表示待识别物体的真实类别;r(v)表示在初始对抗视角v下的渲染二维图片;l表示分类损失函数(例如交叉信息熵损失);λ表示超参数;h(p(v))=-e
p(v)
[logp(v)]表示分布的熵,其中,p(v)表示在初始对抗视角v下的分布。
[0062]
在应用过程中,通过对初始对抗视角进行不断优化,可以得到优化后的初始对抗视角,以使基于优化后的初始对抗视角下的渲染二维图片得到的分类损失函数的值最大。其中,优化后的初始对抗视角可以作为待识别物体的优化后对抗视角。优化后对抗视角可以以更高的成功率欺骗视觉感知模型,从而能够提高基于优化后对抗视角评估视觉感知模型的视角鲁棒性的分析准确性,以及降低评估视觉感知模型的视角鲁棒性的操作成本。
[0063]
需要说明的是,在本实施例中,利用熵正则项可以有效提升对抗视角的多样性。可以有效防止真实世界中摄像机位姿的偏差,可以减轻神经辐射场渲染图像与真实图像的偏差,以及可以提升对未知黑盒模型的攻击效果。
[0064]
为了更加高效的优化对抗样本的分布,本发明提供的视角鲁棒性分析方法利用对角高斯分布对对抗视角进行建模,并提出利用搜索梯度和重参数化结合的算法对分布的参数进行求解。
[0065]
在本发明又一示例性实施例中,基于分类损失函数,对初始对抗视角进行优化可以采用以下方式实现:
[0066]
基于分类损失函数,通过高斯分布对初始对抗视角进行优化。
[0067]
在一种实施例中,可以通过高斯分布参数化对抗视角的分布。在应用过程中,视角参数v=[ψ,θ,φ,δ
x
,δy,δz]的范围会受到一定的限制,可以记为[v
min
,v
max
]。为了在此区间中定义合理的分布,本实施例可以采用参数变换方法,如公式(3)所示:
[0068]
v=a
·
tanh(u) b,u~n(μ,σ2i)
ꢀꢀꢀ
(3)
[0069]
其中,u~n(μ,σ2i)表示高斯分布。
[0070]
进一步的,公式(2)所示的优化问题可以转换为如公式(4)所示:
[0071][0072]
为了求解如公式(4)所示的优化问题,需要计算公式中分类损失函数l对于参数μ,σ的梯度。
[0073]
在一种实施例中,可以采用搜索梯度和重参数化相结合的方式计算梯度。其中,梯度可以采用公式(5)和(6)表示:
[0074][0075][0076]
其中,表示标准高斯分布。
[0077]
进一步的,基于求解得到的参数μ,σ,再根据公式(3)可以实现对初始对抗视角进行优化,以得到优化后的初始对抗视角。
[0078]
需要说明的是,在本实施例中,可以采用高斯分布建模对抗视角的分布,但并不局限于高斯分布。在又一实例中,还可以利用混合分布、概率扩散模型等更表示能力更强的分布形式。
[0079]
为了进一步介绍本发明提供的视角鲁棒性分析方法,下面将结合图4进行说明。
[0080]
图4是本发明提供的视角鲁棒性分析方法的应用场景示意图。
[0081]
在本发明一示例性实施例中,结合图4可知,可以给定摄像机的初始位置,首先对其进行旋转,其中,旋转角度为(ψ,θ,φ)。然后对其进行平移,其中,平移距离为(δ
x
,δy,δz)。在摄像机变换过后,可以得到一个新的拍摄视角,并进行渲染处理,进而可以在此视角下得到神经辐射场渲染出的2d照片,记为v=[ψ,θ,φ,δ
x
,δy,δz]。渲染得到的2d照片(对应渲染二维图片)可以表示为r(v),其中,r代表整个渲染过程。
[0082]
进一步的,再基于初始对抗视角下的渲染二维图片r(v),得到分类损失函数;基于分类损失函数对初始对抗视角进行优化,得到优化后的初始对抗视角,以使基于优化后的初始对抗视角下的渲染二维图片得到的分类损失函数的值最大,并将优化后的初始对抗视角作为待识别物体的优化后对抗视角。其中,优化后对抗视角可以以更高的成功率欺骗视觉感知模型,从而能够提高基于优化后对抗视角评估视觉感知模型的视角鲁棒性的分析准确性,以及降低评估视觉感知模型的视角鲁棒性的操作成本。
[0083]
在又一示例中,可以基于本发明提供的视角鲁棒性分析方法和图像分类模型resnet-50和vit-b\16,得到攻击成功率结果如表1所示。
[0084]
表1 不同优化对抗视角方式下的攻击成功率结果
[0085][0086][0087]
通过表1可知,采用本发明提供的视角鲁棒性分析方法,可以取得更高的攻击成功率,即优化得到的对抗视角可以以更高的成功率欺骗视觉感知模型。另外,基于本发明得到
的对抗样本对于真实采集的图片也具有更好的攻击效果。
[0088]
根据上述描述可知,本发明提供的视角鲁棒性分析方法,基于待识别物体的多张二维图片得到待识别物体的三维表示,基于三维表示得到初始对抗视角下的渲染二维图片,以及基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角,以使优化后对抗视角可以以更高的成功率欺骗视觉感知模型,从而能够提高基于优化后对抗视角评估视觉感知模型的视角鲁棒性的分析准确性,以及降低评估视觉感知模型的视角鲁棒性的操作成本。
[0089]
基于相同的构思,本发明还提供一种视角鲁棒性分析装置。
[0090]
下面对本发明提供的视角鲁棒性分析装置进行描述,下文描述的视角鲁棒性分析装置与上文描述的视角鲁棒性分析方法可相互对应参照。
[0091]
图5是本发明提供的视角鲁棒性分析装置的结构示意图。
[0092]
在本发明一示例性实施例中,结合图5可知,视角鲁棒性分析装置可以包括第一模块510至第四模块540,下面将分别介绍各模块。
[0093]
第一模块510可以被配置为用于获取待识别物体的多张二维图片;
[0094]
第二模块520可以被配置为用于基于多张所述二维图片,得到待识别物体的三维表示;
[0095]
第三模块530可以被配置为用于基于三维表示,得到初始对抗视角下的渲染二维图片;
[0096]
第四模块540可以被配置为用于基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角,并基于优化后对抗视角评估视觉感知模型的视角鲁棒性。
[0097]
在本发明一示例性实施例中,第二模块520可以采用以下方式基于多张二维图片,得到待识别物体的三维表示:基于多张二维图片,通过神经辐射场得到待识别物体的三维表示。
[0098]
在本发明一示例性实施例中,第三模块530可以采用以下方式基于三维表示,得到初始对抗视角下的渲染二维图片:确定初始对抗视角;基于三维表示和初始对抗视角,通过神经辐射场得到初始对抗视角下的渲染二维图片。
[0099]
在本发明一示例性实施例中,第四模块540可以采用以下方式基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角:基于初始对抗视角下的渲染二维图片,得到分类损失函数;基于分类损失函数,对初始对抗视角进行优化,得到优化后的初始对抗视角,以使基于优化后的初始对抗视角下的渲染二维图片得到的分类损失函数的值最大,并将优化后的初始对抗视角作为待识别物体的优化后对抗视角。
[0100]
在本发明一示例性实施例中,第四模块540可以采用以下方式基于分类损失函数,对初始对抗视角进行优化:
[0101]
基于分类损失函数,通过高斯分布对初始对抗视角进行优化。
[0102]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行视角鲁棒性分析方法,该方法包括:获取待识别物体的多张二维图片;基于多张二维图片,得到待识别物体的三维表示;基
于三维表示,得到初始对抗视角下的渲染二维图片;基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角,并基于优化后对抗视角评估视觉感知模型的视角鲁棒性。
[0103]
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0104]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的视角鲁棒性分析方法,该方法包括:获取待识别物体的多张二维图片;基于多张二维图片,得到待识别物体的三维表示;基于三维表示,得到初始对抗视角下的渲染二维图片;基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角,并基于优化后对抗视角评估视觉感知模型的视角鲁棒性。
[0105]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的视角鲁棒性分析方法,该方法包括:获取待识别物体的多张二维图片;基于多张二维图片,得到待识别物体的三维表示;基于三维表示,得到初始对抗视角下的渲染二维图片;基于初始对抗视角下的渲染二维图片,确定待识别物体的优化后对抗视角,并基于优化后对抗视角评估视觉感知模型的视角鲁棒性。
[0106]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0107]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0108]
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
[0109]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献