一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

显著性目标的检测方法、检测设备及计算机可读存储介质与流程

2021-12-01 01:37:00 来源:中国专利 TAG:


1.本技术涉及显著性目标分割技术领域,特别是涉及显著性目标的检测方法、检测设备及计算机可读存储介质。


背景技术:

2.在目标检测技术中,通常是对图像进行分割,图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。
3.在相关技术中通常对物体进行类别识别,然后在进行分割,并不适用于类别不固定的物体。


技术实现要素:

4.本技术主要解决的技术问题是提供显著性目标的检测方法、检测设备及计算机可读存储介质,能够简化对目标物体的分割复杂度,无需对目标物体进行类别识别,提升对目标物体的分割精度。
5.为了解决上述问题,本技术采用的一种技术方案是提供一种显著性目标的检测方法,该方法包括:获取待检测图像以及对应的光流图像;将待检测图像和光流图像输入至已训练的目标分割网络中,以输出目标物体分割结果;其中,目标分割网络包括编码层、特征融合层和解码层,特征融合层用于将编码层提取的各层级特征进行增强融合,并输出至解码层。
6.其中,获取待检测图像以及对应的光流图像,包括:从待检测图像中提取关键帧图像;将当前关键帧图像和上一关键帧图像输入至光流网络,以得到当前关键帧图像对应的光流图像;将待检测图像和光流图像输入至已训练的目标分割网络中,以输出目标物体分割结果,包括:将当前关键帧图像和光流图像输入至已训练的目标分割网络中,以输出目标物体分割结果。
7.其中,编码层分为第一类编码层和第二类编码层;将当前关键帧图像和光流图像输入至已训练的目标分割网络中,以输出目标物体分割结果,包括:利用第一类编码层对当前关键帧图像进行特征提取,得到各层级对应的第一特征图,并将第一特征图输入至注意力机制层;利用第二类编码层对光流图像进行特征提取,得到各层级对应的第二特征图,并将第二特征图输入至注意力机制层;利用注意力机制层将第一特征图和第二特征图按照对应层级进行特征提取,以得到各层级对应的第三特征图;将各层级对应的第三特征图输入至特征融合层进行增强融合,得到各层级对应的第四特征图;将各层级对应的第四特征图输入至解码层,以得到目标物体分割结果。
8.其中,利用注意力机制层将第一特征图和第二特征图按照对应层级进行特征提取,以得到各层级对应的第三特征图,包括:利用注意力机制层将第一特征图进行卷积运算,得到第一目标特征图,将第一目标特征图输入至第一类编码层的下一编码层;利用注意力机制层将第二特征图进行卷积运算,得到第二目标特征图,将第二目标特征图输入至第
二类编码层的下一编码层;将第一目标特征图和第二目标特征图进行特征融合,得到第三特征图。
9.其中,利用注意力机制层将第一特征图进行卷积运算,得到第一目标特征图,将第一目标特征图输入至第一类编码层的下一编码层,包括:利用注意力机制层将第一特征图进行卷积运算,得到运算后的第一特征图;对运算后的第一特征图进行分类处理,得到分类后的第一特征图;对第二目标特征图进行分类处理,得到分类后的第二目标特征图;对分类后的第一特征图和分类后的第二目标特征图进行处理,得到第二参考特征图;利用注意力机制对运算后的第一特征图和第二参考特征图进行处理,得到第一目标特征图;将第一目标特征图输入至第二类编码层的下一编码层。
10.其中,将各层级对应的第三特征图输入至特征融合层进行增强融合,得到各层级对应的第四特征图,包括:对每一第三特征图分别进行st特征增强、gt特征增强以及rt特征增强,得到多个增强后的第三参考特征图;多个第三参考特征图按照对应的第三特征图的尺寸进行排列,并与第三特征图进行特征融合,得到各层级对应的第四特征图。
11.其中,对每一第三特征图分别进行st特征增强、gt特征增强、rt特征增强,得到多个增强后的第三参考特征图,包括:对每一第三特征图进行同层级交互,得到同层级增强后的第三参考特征图,同层级增强后的第三参考特征图与第三特征图的尺度相同;对每一第三特征图按照层级自上而下交互,将高层特征用于低层特征的增强,得到多个自上而下增强后的第三参考特征图,自上而下增强后的第三参考特征图与交互时低层级的第三特征图的尺度相同;对每一第三特征图按照层级进行自下而上交互,将低层特征用于高层特征的增强,得到自下而上增强后的第三参考特征图,自下而上增强后的第三参考特征图与交互时高层级的第三特征图的尺度相同。
12.其中,将各层级对应的第四特征图输入至解码层,以得到目标物体分割结果,包括:对各层级对应的第四特征图进行卷积运算,得到运算后的第1个第四参考特征图;利用第n个解码层对第n个第四参考特征图和第四特征图进行上采样,得到第n 1个第四参考特征图;其中,n为正整数;将第n 1个第四参考特征图作为目标物体分割结果。
13.其中,每个解码层包括空洞空间卷积池化金字塔和卷积层;利用第n个解码层对第n个第四参考特征图和第四特征图进行上采样,得到第n 1个第四参考特征图,包括:利用卷积层对第n个第四参考特征图进行卷积计算,对卷积计算后的第四参考特征图进行区域划分,得到第n个初始参考特征图;利用空洞空间卷积池化金字塔对第n个第四参考特征图进行采样,并将采样结果与第n个初始参考特征图进行融合,得到融合结果;利用第n个解码层对第四特征图进行上采样,得到上采样结果;将融合结果和上采样结果进行融合,得到第n 1个第四参考特征图。
14.其中,该方法还包括:获取训练图像,其中,训练图像标注有目标物体信息和背景信息;将训练图像输入至目标分割网络中,以对目标分割网络进行训练。
15.其中,将训练图像输入至目标分割网络中,以对目标分割网络进行训练,包括:将训练图像输入至目标分割网络中,以输出目标物体分割结果;获取训练图像中每一像素的分类误差,作为第一损失值;获取训练图像中置信度低于预设置信度的目标像素,基于目标像素的置信度计算第二损失值;获取每一像素分类的准确率和召回率,并基于准确率和召回率得到第一控制数值;获取目标物体分割结果中每一像素的分割结果之间的交并比,并
基于交并比得到第二控制数值;利用第一控制数值和第二控制数值得到第三损失值;利用第一损失值、第二损失值和第三损失值,调整目标分割网络的网络参数。
16.其中,该方法还包括:在目标分割网络训练完成后,对目标分割网络进行剪枝操作,以删除目标分割网络中满足预设条件的卷积核。
17.其中,对目标分割网络进行剪枝操作,包括:获取每一编码层、特征融合层和/或每一解码层中每一卷积核对应输出的目标特征图;计算每一目标特征图的平均秩,得到每一编码层、特征融合层和/或每一解码层对应的平均秩集合;其中,平均秩集合中的平均秩按照从高到低进行排序;获取每一编码层、特征融合层和/或每一解码层中的压缩率;对每一平均秩集合按照对应的压缩率进行平均秩滤除,并滤除与平均秩对应的卷积核,得到更新卷积核的目标分割网络;利用训练图像再次对更新卷积核的目标分割网络进行训练,以调整目标分割网络的网络参数,直至目标分割网络的分割精度满足预设条件。
18.为了解决上述问题,本技术采用的另一种技术方案是提供一种检测设备,该检测设备包括处理器以及与处理器耦接的存储器;其中,存储器用于存储计算机程序,处理器用于执行计算机程序,以实现如上述技术方案提供的方法。
19.为了解决上述问题,本技术采用的另一种技术方案是提供一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,计算机程序在被处理器执行时,用于实现如上述技术方案提供的方法。
20.本技术的有益效果是:区别于现有技术的情况,本技术提供的显著性目标的检测方法、检测设备及计算机可读存储介质。该方法将待检测图像和光流图像输入至已训练的目标分割网络中,利用目标分割网络中的编码层、特征融合层和解码层对待检测图像和光流图像进行特征提取,以输出目标物体分割结果。通过特征融合层将编码层提取的各层级特征进行增强融合,使不同层级特征将低分辨率、强语义特征和高分辨率、弱语义特征进行融合,则特征融合层输出至解码层的特征保留了更多的信息,极大地提高了解码层在进行目标物体分割时的分割精度,因此,本实施例提供的检测方法能够简化对目标物体的分割复杂度,无需对目标物体进行类别识别,提升对目标物体的分割精度。
附图说明
21.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
22.图1是本技术提供的显著性目标的检测方法一实施例的流程示意图;
23.图2是本技术提供的显著性目标的检测方法另一实施例的流程示意图;
24.图3是本技术提供的步骤23一实施例的流程示意图;
25.图4是本技术提供的显著性目标的检测方法另一实施例的流程示意图;
26.图5是本技术提供的步骤46一实施例的流程示意图;
27.图6是本技术提供的步骤49一实施例的流程示意图;
28.图7是本技术提供的步骤491一实施例的流程示意图;
29.图8是本技术提供的步骤50一实施例的流程示意图;
30.图9是本技术提供的步骤502一实施例的流程示意图;
31.图10是本技术提供的显著性目标的检测方法另一实施例的流程示意图;
32.图11是本技术提供的目标分割网络一实施例的结构示意图;
33.图12是本技术提供的注意力机制层一实施例的结构示意图;
34.图13是本技术提供的特征融合层一实施例的结构示意图;
35.图14是本技术提供的解码层一实施例的结构示意图;
36.图15是本技术提供的步骤102一实施例的流程示意图;
37.图16是本技术提供的显著性目标的检测方法另一实施例的流程示意图;
38.图17是本技术提供的检测设备一实施例的结构示意图;
39.图18是本技术提供的计算机可读存储介质一实施例的结构示意图;
40.图19

图24是本技术提供的显著性目标的检测方法的应用于吊物车间的场景示意图。
具体实施方式
41.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本技术,而非对本技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本技术相关的部分而非全部结构。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
42.本技术中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
43.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
44.参阅图1,图1是本技术提供的显著性目标的检测方法一实施例的流程示意图。该方法包括:
45.步骤11:获取待检测图像以及对应的光流图像。
46.待检测图像可以是通过图像采集装置实时采集的,也可以不是实时采集的。如,在生产车间设置的监控设备,监控设备实时采集的图像则可以作为待检测图像。
47.光流图像是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。即可以根据待检测图像中相邻的图像帧来确定对应的光流图像。
48.步骤12:将待检测图像和光流图像输入至已训练的目标分割网络中,以输出目标物体分割结果。
49.其中,目标分割网络包括编码层、特征融合层和解码层,特征融合层用于将编码层提取的各层级特征进行增强融合,并输出至解码层。
50.目标物体可以是运动物体,也可以是静止物体,具体地可以在训练目标分割网络时进行确定。
51.在一些实施例中,目标分割网络中可以包括多个编码层、特征融合层和多个解码层。多个编码层、特征融合层和多个解码层采用级联的方式连接,每一编码层均连接特征融合层,每一编码层的输出作为特征融合层的输入,特征融合层连接每一解码层,特征融合层的输出作为每一解码层的输入。且每一编码层的输出会输出至下一编码层,每一解码层的输出会输出至下一解码层,最后一个解码层的输出作为目标物体分割结果。
52.因每一编码层的尺度不同,因此提取的特征层级不同,则可利用特征融合层将编码层提取的各层级特征进行增强融合,使不同层级特征将低分辨率、强语义特征和高分辨率、弱语义特征进行融合,则输出的特征保留了更多的信息,极大地提高了分割精度,则解码层在进行目标物体分割时,能够更准确的进行目标物体分割。
53.在目标物体分割结果中,可以将目标物体和背景信息对应的像素采用不同颜色表示,如,将目标物体对应的像素以白色显示,将背景信息对应的像素以黑色显示。
54.在本实施例中,将待检测图像和光流图像输入至已训练的目标分割网络中,利用目标分割网络中的编码层、特征融合层和解码层对待检测图像和光流图像进行特征提取,以输出目标物体分割结果。通过特征融合层将编码层提取的各层级特征进行增强融合,使不同层级特征将低分辨率、强语义特征和高分辨率、弱语义特征进行融合,则特征融合层输出至解码层的特征保留了更多的信息,极大地提高了解码层在进行目标物体分割时的分割精度,因此,本实施例提供的检测方法能够简化对目标物体的分割复杂度,无需对目标物体进行类别识别,提升对目标物体的分割精度。
55.参阅图2,图2是本技术提供的显著性目标的检测方法另一实施例的流程示意图。该方法包括:
56.步骤21:从待检测图像中提取关键帧图像。
57.可以理解,在待检测图像为视频流图像时,需要对该视频流图像进行关键帧图像的提取。具体的,可以根据图像采集装置的参数进行设置。
58.如,可以将待检测图像按照每隔十帧选取关键帧图像。在其他实施例中,可以根据目标物体的实际速度进行设置。如,在天车吊物的车间,天车吊物的速度通常是在一预设范围,则可以根据天车吊物的速度设置提取关键帧图像的时间间隔。
59.步骤22:将当前关键帧图像和上一关键帧图像输入至光流网络,以得到当前关键帧图像对应的光流图像。
60.光流网络主要为了捕获待检测图像对应的场景中的目标物体,使得目标分割网络能够对目标物体进行分析,快速聚焦于将其准确地从背景中分割出来。
61.在一些实施例中,光流网络可以采用pwcnet,pwcnet具有更高的精度和速度,能够提升整体性能。
62.步骤23:将当前关键帧图像和光流图像输入至已训练的目标分割网络中,以输出目标物体分割结果。
63.其中,目标分割网络包括编码层、特征融合层和解码层,特征融合层用于将编码层提取的各层级特征进行增强融合,并输出至解码层。
64.其中,编码层分为第一类编码层和第二类编码层。可以利用第一类编码层和第二
类编码层分别对关键帧图像和光流图像进行特征提取。
65.可选地,参阅图3,步骤23可以是如下流程:
66.步骤231:利用第一类编码层对当前关键帧图像进行特征提取,得到各层级对应的第一特征图,并将第一特征图输入至注意力机制层。
67.具体地,第一类编码层包括多个编码层,每一编码层的输出的第一特征图作为注意力机制层的输入,注意力机制层的输出作为第一类编码层中下一编码层的输入。第一类编码层对关键帧进行特征提取,提取出的第一特征图具有关键帧图像目标物体的外观信息。
68.在其他实施例中,第一类编码层和第二类编码层中的第一个编码层不连接注意力机制层,只连接下一编码层。
69.因每一编码层的尺度不同,则会对应形成不同尺度的第一特征图,这里以不同层级表示。
70.步骤232:利用第二类编码层对光流图像进行特征提取,得到各层级对应的第二特征图,并将第二特征图输入至注意力机制层。
71.具体地,第二类编码层包括多个编码层,每一编码层的输出的第二特征图作为注意力机制层的输入,注意力机制层的输出作为第二类编码层中下一编码层的输入。第二类编码层对关键帧进行特征提取,提取出的第二特征图具有光流图像中目标物体的运动信息。
72.因每一编码层的尺度不同,则会对应形成不同尺度的第二特征图,这里以不同层级表示。
73.在一些实施例中,第一类编码层和第二类编码层的编码层数量相同,对应层级的第一类编码层和第二类编码层的尺度相同,则输入至注意力机制层的第一特征图和第二特征图的尺度相同,便于注意力机制层进行处理。
74.步骤233:利用注意力机制层将第一特征图和第二特征图按照对应层级进行特征提取,以得到各层级对应的第三特征图。
75.在一些实施例中,注意力机制层的数量与第一类编码层的编码层数量相同,每个注意力机制层的输入端连接一个第一类编码层的编码层和第二类编码层的编码层,每个注意力机制层的输出端连接一个第一类编码层的编码层、第二类编码层的编码层和特征融合层。最后一个注意力机制层的输出端只连接特征融合层。
76.步骤234:将各层级对应的第三特征图输入至特征融合层进行增强融合,得到各层级对应的第四特征图。
77.如,可以将低层级的第三特征图与高层级的第三特征图进行增强融合,可以将高层级的第三特征图与低层级的第三特征图进行增强融合。
78.这样对应得到第四特征图将具有更多的特征信息。
79.步骤235:将各层级对应的第四特征图输入至解码层,以得到目标物体分割结果。
80.其中,本实施例中包括多个解码层,每一解码层依次连接,且每一解码层的输出作为下一解码层的输入,各层级对应的第四特征图作为每一解码层的输入,即每一解码层对应有两个输入,最后一个解码层的输出作为目标物体分割结果。
81.在本实施例中,利用第一类编码层对关键帧图像进行特征提取,得到具有目标物
体外观信息的第一特征图,以及利用第二类编码层对光流图像进行特征提取,得到具有目标物体运动信息的第二特征图,并利用注意力机制层将第一特征图和第二特征图进行融合,得到各层级对应的第三特征图,并输入至特征融合层。注意力机制层结合运动信息到外观信息,减轻目标物体外观的模糊性,增强网络对目标物体表征的学习能力,尤其在目标物体视觉上与周围环境相似的场景下。并且通过特征融合层将编码层提取的各层级特征进行增强融合,使不同层级特征将低分辨率、强语义特征和高分辨率、弱语义特征进行融合,则特征融合层输出至解码层的特征保留了更多的信息,极大地提高了解码层在进行目标物体分割时的分割精度,因此,本实施例提供的检测方法能够简化对目标物体的分割复杂度,无需对目标物体进行类别识别,提升对目标物体的分割精度。
82.参阅图4,图4是本技术提供的显著性目标的检测方法另一实施例的流程示意图。该方法包括:
83.步骤41:从待检测图像中提取关键帧图像。
84.步骤42:将当前关键帧图像和上一关键帧图像输入至光流网络,以得到当前关键帧图像对应的光流图像。
85.步骤43:将当前关键帧图像和光流图像输入至已训练的目标分割网络中,以输出目标物体分割结果。
86.步骤44:利用第一类编码层对当前关键帧图像进行特征提取,得到各层级对应的第一特征图,并将第一特征图输入至注意力机制层。
87.步骤45:利用第二类编码层对光流图像进行特征提取,得到各层级对应的第二特征图,并将第二特征图输入至注意力机制层。
88.步骤41

步骤45与上述实施例具有相同或相似的技术方案,这里不做赘述。
89.步骤46:利用注意力机制层将第一特征图进行卷积运算,得到第一目标特征图,将第一目标特征图输入至第一类编码层的下一编码层。
90.在一些实施例中,参阅图5,步骤46可以是如下流程:
91.步骤461:利用注意力机制层将第一特征图进行卷积运算,得到运算后的第一特征图。
92.如,利用注意力机制层利用1*1的卷积对第一特征图进行卷积运算,得到运算后的第一特征图。
93.步骤462:对运算后的第一特征图进行分类处理,得到分类后的第一特征图。
94.在这里可以采用softmax和全连接的方式对运算后的第一特征图进行分类处理。
95.步骤463:对第二目标特征图进行分类处理,得到分类后的第二目标特征图。
96.在这里可以采用softmax和全连接的方式对运算后的第二特征图进行分类处理。
97.步骤464:对分类后的第一特征图和分类后的第二目标特征图进行处理,得到第二参考特征图。
98.对分类后的第一特征图和分类后的第二目标特征图相乘,得到第二参考特征图。
99.步骤465:利用注意力机制对运算后的第一特征图和第二参考特征图进行处理,得到第一目标特征图。
100.在一些实施例中,需要对第二参考特征图进行softmax处理,然后利用注意力机制对运算后的第一特征图和softmax处理的第二参考特征图进行处理,得到第一目标特征图。
101.因第二特征图表征了光流图像中的运动特征,第二参考特征图表征光流图像和关键帧图像的融合特征,再使用注意力机制对两个特征图进行融合,则注意力机制能够根据光流图像中的运动特征推断出感兴趣的区域,再利用注意力机制来从第二参考特征图中选择关键帧图像中的外观特征。通过考虑从运动到外观的信息流,减轻了目标物体外观的模糊性,增强了网络对目标物体表征的学习能力,尤其在物体视觉上与周围环境相似的场景。
102.步骤466:将第一目标特征图输入至第二类编码层的下一编码层。
103.步骤47:利用注意力机制层将第二特征图进行卷积运算,得到第二目标特征图,将第二目标特征图输入至第二类编码层的下一编码层。
104.在一些实施例中,利用注意力机制层利用1*1的卷积对第二特征图进行卷积运算,得到第二目标特征图,将第二目标特征图输入至第二类编码层的下一编码层,然后下一编码层对第二目标特征图进行特征提取,得到对应的第二特征图,并将第二特征图输入至其对应的注意力机制层。
105.可以理解,步骤46和步骤47可以同时进行,在步骤46中需要使用步骤47的第二目标特征图。
106.步骤48:将第一目标特征图和第二目标特征图进行特征融合,得到第三特征图。
107.在这里可以对第一目标特征图和第二目标特征图使用concat进行特征融合。
108.步骤49:将各层级对应的第三特征图输入至特征融合层进行增强融合,得到各层级对应的第四特征图。
109.通过编码层和注意力机制层的连接方式,注意力机制层将输出各层级对应的第三特征图,将各层级对应的第三特征图作为特征融合层的输入。
110.在一些实施例中,参阅图6,步骤49可以是如下流程:
111.步骤491:对每一第三特征图分别进行st特征增强、gt特征增强以及rt特征增强,得到多个增强后的第三参考特征图。
112.st(self

transformer)是基于同层特征图的non

local交互,输出与输入具有相同尺度。
113.gt(groundng transformer)是采用自上而下的方式将高层特征用于低层特征的增强,输出与低层级特征图尺度相同。
114.rt(rendering transformer)是采用自下而上的方式用低层特征来增强高层特征,输出的尺度与高层级特征图尺度相同。
115.在一些实施例中,参阅图7,步骤491可以是如下流程:
116.步骤4911:对每一第三特征图进行同层级交互,得到同层级增强后的第三参考特征图,同层级增强后的第三参考特征图与第三特征图的尺度相同。
117.步骤4912:对每一第三特征图按照层级自上而下交互,将高层特征用于低层特征的增强,得到多个自上而下增强后的第三参考特征图,自上而下增强后的第三参考特征图与交互时低层级的第三特征图的尺度相同。
118.步骤4913:对每一第三特征图按照层级进行自下而上交互,将低层特征用于高层特征的增强,得到自下而上增强后的第三参考特征图,自下而上增强后的第三参考特征图与交互时高层级的第三特征图的尺度相同。
119.步骤492:多个第三参考特征图按照对应的第三特征图的尺寸进行排列,并与第三
特征图进行特征融合,得到各层级对应的第四特征图。
120.此时得到的第四特征图将低分辨率、强语义特征和高分辨率、弱语义特征融合在一起,很好地保留了低层次的信息不丢失,能够极大地提高分割精度。
121.步骤50:将各层级对应的第四特征图输入至解码层,以得到目标物体分割结果。
122.因解码层的数量也为多个,则多个解码层之间逐层连接,并与特征融合层连接。
123.在一些实施例中,参阅图8,步骤50可以是如下流程:
124.步骤501:对各层级对应的第四特征图进行卷积运算,得到运算后的第1个第四参考特征图。
125.在本实施例中,在解码层之前设置一3*3的卷积,对各层级对应的第四特征图进行卷积运算,以进一步整合各层级对应的第四特征图,得到运算后的第1个第四参考特征图。
126.步骤502:利用第n个解码层对第n个第四参考特征图和第四特征图进行上采样,得到第n 1个第四参考特征图。
127.在一实施例中,每个解码层包括空洞空间卷积池化金字塔和卷积层。
128.可选的,参阅图9,步骤502可以是如下流程:
129.步骤5021:利用卷积层对第n个第四参考特征图进行卷积计算,对卷积计算后的第四参考特征图进行区域划分,得到第n个初始参考特征图。
130.第n个解码层的卷积层对第n个第四参考特征图进行卷积计算。如,利用3*3的卷积对第n个第四参考特征图进行第一次卷积计算,然后得到的结果输出至1*1的卷积,在1*1的卷积中进行第二次卷积计算,然后利用激活函数对两次卷积后的第四参考特征图进行计算,并进行区域划分,这里实质上是对第四参考特征图中的目标物体和背景进行区分。
131.步骤5022:利用空洞空间卷积池化金字塔对第n个第四参考特征图进行采样,并将采样结果与第n个初始参考特征图进行融合,得到融合结果。
132.利用空洞空间卷积池化金字塔对第n个第四参考特征图以不同采样率的空洞卷积并行采样,然后利用concat将采样结果与第n个初始参考特征图进行融合,得到融合结果。
133.步骤5023:利用第n个解码层对第四特征图进行上采样,得到上采样结果。
134.同时,解码层会对特征融合层输入的第四特征图进行上采样,得到上采样结果。
135.步骤5024:将融合结果和上采样结果进行融合,得到第n 1个第四参考特征图。
136.在此过程中,需要先对融合结果再次进行卷积、池化等操作,然后和上采样结果进行融合,融合得到结果再次进行卷积、池化等操作,得到第n 1个第四参考特征图。
137.其中,n为正整数。
138.步骤503:将第n 1个第四参考特征图作为目标物体分割结果。
139.通过上述方式,每一解码层能够显式地利用目标物体的多尺度特征。经过每一解码层的上采样,特征图的分辨率通过用低层次细节来补偿高层次的语义特征而逐渐提高。在最后输出第四参考特征图将会是最精细的特征映射。
140.在本实施例中,利用第一类编码层对关键帧图像进行特征提取,得到具有目标物体外观信息的第一特征图,以及利用第二类编码层对光流图像进行特征提取,得到具有目标物体运动信息的第二特征图,并利用注意力机制层将第一特征图和第二特征图进行融合,得到各层级对应的第三特征图,并输入至特征融合层。注意力机制层结合运动信息到外观信息,减轻目标物体外观的模糊性,增强网络对目标物体表征的学习能力,尤其在目标物
体视觉上与周围环境相似的场景下。并且通过特征融合层将编码层提取的各层级特征采用st特征增强、gt特征增强以及rt特征增强后进行增强融合,使不同层级特征将低分辨率、强语义特征和高分辨率、弱语义特征进行融合,则特征融合层输出至解码层的特征保留了更多的信息,极大地提高了解码层在进行目标物体分割时的分割精度,因此,本实施例提供的检测方法能够简化了对目标物体的分割复杂度,无需对目标物体进行类别识别,提升对目标物体的分割精度。
141.参阅图10,图10是本技术提供的显著性目标的检测方法另一实施例的流程示意图。该方法包括:
142.本实施例用于描述本技术提到的目标分割网络的一种训练方法。
143.步骤101:获取训练图像,其中,训练图像标注有目标物体信息和背景信息。
144.训练图像可以通过图像采集装置提前采集的。如,在生产车间设置的监控设备,监控设备采集的图像则可以作为训练图像。然后可以对训练图像进行标注,以区分目标物体信息和背景信息。在一些实施例中,生产车间可以是吊物车间,在吊物车间中存在天车、吊物、吊绳等物体。在进行标注时,对采集的吊物车间图像中悬挂的吊物和吊绳进行标注,作为目标物体信息,其余的作为背景信息。
145.步骤102:将训练图像输入至目标分割网络中,以对目标分割网络进行训练。
146.在一些实施例中,在进行步骤102之前,需要将训练图像进行关键帧图像提取,并将相邻关键帧图像输入至光流网络,得到对应的光流图像。
147.并对光流图像和关键帧图像进行数据增强,如采用旋转、翻转、颜色等数据变换方式,得到更多的训练图像。
148.然后将光流图像和关键帧图像输入至目标分割网络中,以对目标分割网络进行训练。
149.在一应用场景中,目标分割网络包括编码层、特征融合层和解码层。结合图11进行说明:编码层采用双流结构来联合编码目标物体的外观特征和运动特征。
150.在图11中,i
a
表示关键帧图像,i
m
表示光流图像,i
a
和i
m
具有相同的编码层结构。i
a
和i
m
输入至对应的conv1中进行卷积,然后将卷积得到的特征图,输入至对应的res2中,然后将在res2中卷积得到的特征图输入至mat中,在mat中将会根据两个res2的输入进行融合处理,得到三个输出,第一个输出将会输入至i
a
对应的res3中,第二个输出将会输入至i
m
对应的res3中,第三个输出将会输入至特征融合层。后续i
a
和i
m
对应的res3、res4、res5以及mat将会按照上述方式进行,这里不再赘述。其中,conv1、res2、res3、res4和res5是对输入的特征图进行下采样,并且下采样的采样率不同,由此,每一mat将向特征融合层输入特征图具有不同的尺度。
151.结合图12说明mat中的内部流程:
152.第一特征图v
a
进行1*1卷积运算,得到运算后的第一特征图对运算后的第一特征图进行softmax fc分类处理,得到分类后的第一特征图
153.与此同时,将第二特征图v
m
进行1*1卷积运算,得到第二目标特征图将第二目标特征图输入至第二类编码层的下一编码层。并对第二目标特征图进行softmax fc
分类处理,得到分类后的第二目标特征图
154.对分类后的第一特征图和分类后的第二目标特征图进行相乘处理,得到第二参考特征图s,并对第二参考特征图s进行softmax分类,得到第二参考特征图s
r
。这时,第二参考特征图s则具有关键帧图像和光流图像的特征信息。
155.利用注意力机制对运算后的第一特征图和第二参考特征图s
r
进行处理,得到第一目标特征图u
a

156.将第一目标特征图u
a
输入至第二类编码层的下一编码层。
157.将第一目标特征图u
a
和第二目标特征图进行特征融合,得到第三特征图u,将第三特征图u输入至特征融合层fpt。
158.特征融合层fpt在接收到各层级的特征图后,会对其进行增强融合。在一应用场景中,结合图13说明特征融合层中的内部流程:
159.选取输入的特征图a、b和c进行说明:
160.对特征图a、b和c分别进行st特征增强、gt特征增强以及rt特征增强,得到多个增强后的第三参考特征图。st(self

transformer)是基于同层特征图的non

local交互,输出与输入具有相同尺度。gt(groundng transformer)是采用自上而下的方式将高层特征用于低层特征的增强,输出与低层级特征图尺度相同。rt(rendering transformer)是采用自下而上的方式用低层特征来增强高层特征,输出的尺度与高层级特征图尺度相同。
161.多个第三参考特征图按照对应的特征图a、b和c的尺寸进行排列,并与相应的特征图a、b和c进行特征融合,然后卷积输出融合后的特征图a、b和c。
162.可以理解,在图11中输入为4个层级的特征图时,在特征融合层fpt中,以三个特征图遍历的方式增强融合。如特征图a、b、c和d,则按照a、b和c,b、c和d,a、c和d的方式在特征融合层fpt中进行增强融合。
163.解码层以特征融合层学习到的不同尺度的特征作为输入,并逐步细化粗略的特征以获得准确的分割结果。它由四个边界感知的bar模块级联组成,每个bar模块显式地利用物体的多尺度特征。从bar5到bar2,经过四次上采样,特征图的分辨率通过用低层次细节来补偿高层次的语义特征而逐渐提高。bar2生成最精细的特征映射,其分辨率为输入图像大小的1/4。
164.结合图14说明每一解码层中的内部流程:
165.利用3*3卷积层和3*3卷积层对特征图f
i
进行卷积计算,然后利用激活函数sigmoid对卷积后的特征图f
i
进行计算,并进行区域划分,得到边界图boundary map。
166.利用空洞空间卷积池化金字塔(aspp)对特征图f
i
以不同采样率的空洞卷积并行采样,然后利用concat将采样结果与边界图boundary map进行融合,得到融合结果。
167.解码层会对特征融合层输入的特征图z
i
进行上采样,得到上采样结果。
168.先对融合结果再次进行卷积、池化等操作,然后和上采样结果进行融合,融合得到结果再次进行卷积、池化等操作,得到特征图f
i
‑1。特征图f
i
‑1可以输入至下一解码层。若当前解码层最后一个,则将特征图f
i
‑1最为分割结果输出。
169.在一些实施例中,参阅图15,步骤102可以是如下流程:
170.步骤1021:将训练图像输入至目标分割网络中,以输出目标物体分割结果。
171.步骤1021与上述的技术方案具有相同或相似,这里不再赘述。
172.步骤1022:获取训练图像中每一像素的分类误差,作为第一损失值。
173.在目标物体分割结果的同时,每一像素通过目标分割网络的计算,会得到对应的分类误差,将分类误差作为第一损失值。
174.在一些实施例中,可以采用二分类交叉熵损失函数来计算第一损失值。
175.步骤1023:获取训练图像中置信度低于预设置信度的目标像素,基于目标像素的置信度计算第二损失值。
176.如,将分类置信度低于预设置信度的像素作为目标像素。
177.在一应用场景中,存在背景信息与目标物体相似的情况,将背景信息和目标物体中的这些像素认定为困难像素。为正确区分困难像素,利用ohem损失函数计算损失,在ohem损失函数中选取分类置信度很低的像素作为目标像素计算损失,这种在训练的过程中自动选择困难像素加入训练的方法使得训练更加有效和快速。
178.步骤1024:获取每一像素分类的准确率和召回率,并基于准确率和召回率得到第一控制数值。
179.步骤1025:获取目标物体分割结果中每一像素的分割结果之间的交并比,并基于交并比得到第二控制数值。
180.步骤1026:利用第一控制数值和第二控制数值得到第三损失值。
181.申请人发现,由于关键帧图像中通常背景信息较为宽广,而目标物体相对较小,在这种目标物体的区域比背景信息的区域面积小很多的场景下,对目标边界的确定极其重要,则可按照步骤1024

步骤1026的方式进行第三损失值的计算。
182.具体地,步骤1024

步骤1026可以用以下公式表示:
[0183][0184][0185][0186]
其中,l
boundary
表示第三损失值,其中,w∈[0,1]为比例因子,为边界损失,l
iou
为iou损失函数,p和r分别代表分类的准确率和召回率,tp、fp和fn分别表示分类结果真阳性、假阳性和假阴性的个数。在训练过程中,随着训练周期的增加,w逐渐增加,以促进边界分割的精确度,边界是指图像中目标物体与背景之间的边界。
[0187]
步骤1027:利用第一损失值、第二损失值和第三损失值,调整目标分割网络的网络参数。
[0188]
在一些实施例中,可用以下公式表示利用第一损失值、第二损失值和第三损失值得到的最终损失值:
[0189]
l=l
bce
l
ohem
l
boundary

[0190]
其中,l
bce
表示第一损失值,l
ohem
表示第二损失值,l
boundary
表示第三损失值。
[0191]
通过利用训练图像对目标分割网络进行迭代训练,调整目标分割网络的网络参数,在损失值满足分割精度的要求时,结束对目标分割网络的训练,并将目标分割网络运用
于上述任一实施例的显著性目标的检测方法中。
[0192]
在一些应用场景中,由于视频图像是由连续的帧序列组成,在进行分割时计算量较大。为满足实时性要求,本技术提出需要对训练好的目标分割网络进行网络剪枝操作,以减小参数量和计算量,从而最终得到目标分割网络在目标物体的检测能够基于较少的参数量和计算量实现高效的目标物体分割。
[0193]
基于此,本技术还提出在目标分割网络训练完成后,对目标分割网络进行剪枝操作,以删除目标分割网络中满足预设条件的卷积核。通过删除不重要的卷积核,进而可以减少卷积核之间的计算量,从而最终得到目标分割网络在目标物体的检测能够基于较少的参数量和计算量实现高效的目标物体分割。可以理解,卷积核的重要性与输出特征图的秩成正相关,高阶特征图比低阶特征图包含更多信息。
[0194]
具体地实施方式参阅图16,图16是本技术提供的显著性目标的检测方法另一实施例的流程示意图。该方法包括:
[0195]
步骤161:获取每一编码层、特征融合层和/或每一解码层中每一卷积核对应输出的目标特征图。
[0196]
步骤161中获取到的目标特征图是对目标分割网络最后一次训练时产生的。因此,这些目标特征图更能表征卷积核的重要程度。
[0197]
步骤162:计算每一目标特征图的平均秩,得到每一编码层、特征融合层和/或每一解码层对应的平均秩集合。
[0198]
其中,平均秩集合中的平均秩按照从高到低进行排序。
[0199]
可以理解,目标特征图中的数据是不统一的,需要用平均秩的方式来表征,这样每一目标特征图才可以进行比较。
[0200]
平均秩较高对应的目标特征图可认定为高阶特征图。
[0201]
步骤163:获取每一编码层、特征融合层和/或每一解码层中的压缩率。
[0202]
压缩率表示对应的编码层、特征融合层和/或解码层中卷积核的滤除比例。如,压缩率为0.1,则说明需要滤除百分之十的卷积核。
[0203]
步骤164:对每一平均秩集合按照对应的压缩率进行平均秩滤除,并滤除与平均秩对应的卷积核,得到更新卷积核的目标分割网络。
[0204]
因平均秩集合中的平均秩按照从高到低进行排序,则按照压缩率从低到高进行滤除。若平均秩集合中有1

100个平均秩,压缩率为0.1,则滤除第91

100个平均秩。
[0205]
步骤165:利用训练图像再次对更新卷积核的目标分割网络进行训练,以调整目标分割网络的网络参数,直至目标分割网络的分割精度满足预设条件。
[0206]
在滤除完成后,利用训练图像再次对更新卷积核的目标分割网络进行训练,具体训练方式可以参阅上述流程,这里不再赘述。
[0207]
在训练过程中调整目标分割网络的网络参数,直至目标分割网络的分割精度满足预设条件。该预设条件可以设置为卷积核未滤除前时目标分割网络的分割精度。
[0208]
在其他实施例中,可以使用hrank算法对目标分割网络进行剪枝操作。
[0209]
在一应用场景中,由于作为编码层的双流主干网的参数量远远大于编码层的参数量,所以可以主要对编码层进行剪枝,为了使剪枝后的目标分割网络仍然能够尽可能的保持较高的分割精度,结合图11说明,图11中的编码层可以采用resnet

101网络。结合不同卷
积核的输出特征图的平均秩大小,选取的压缩率为[0.1] [0.2]*3 [0.3]*4 [0.5]*23 [0.1]*3,其中0.1表示resnet

101网络conv1的压缩率,0.2、0.3、0.5、0.1分别表示res2、res3、res4、res5层中卷积核的压缩率,剪枝后的参数量约为剪枝前参数量的60%。
[0210]
将此时训练完成的目标分割网络运用于上述任一实施例的显著性目标的检测方法中进行目标物体分割,除了具有上述的任一有益效果外,还能够提高对目标物体分割的速度。
[0211]
参阅图17,图17是本技术提供的检测设备一实施例的结构示意图。该检测设备170包括处理器171以及与处理器171耦接的存储器172;其中,存储器172用于存储计算机程序,处理器171用于执行计算机程序,以实现以下方法:
[0212]
获取待检测图像以及对应的光流图像;将待检测图像和光流图像输入至已训练的目标分割网络中,以输出目标物体分割结果;其中,目标分割网络包括编码层、特征融合层和解码层,特征融合层用于将编码层提取的各层级特征进行增强融合,并输出至解码层。
[0213]
可以理解,处理器171还用于执行计算机程序,以实现上述任一实施例提供的方法,具体请参阅上述任一实施例,这里不再赘述。
[0214]
参阅图18,图18是本技术提供的计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质180用于存储计算机程序181,计算机程序181在被处理器执行时,用于实现以下方法:
[0215]
获取待检测图像以及对应的光流图像;将待检测图像和光流图像输入至已训练的目标分割网络中,以输出目标物体分割结果;其中,目标分割网络包括编码层、特征融合层和解码层,特征融合层用于将编码层提取的各层级特征进行增强融合,并输出至解码层。
[0216]
可以理解,计算机程序181在被处理器执行时,还用于实现上述任一实施例提供的方法,具体请参阅上述任一实施例,这里不再赘述。
[0217]
在一应用场景中,发明人研究发现在天车吊物检测方面上,目前主要存在的主要问题在于吊物种类不固定,造成很多检测方法不适用且检测难度大。通过在设备上安装传感器采集信号的方法成本相对较高,而传统图像处理方法在检测吊物时只能通过比对数据库中已有的吊物类别来确定吊物的尺寸等基本信息,应用受限且检测过程复杂耗时。因此提出了本技术的技术方案,利用天车吊物相关的图像作为训练样本,进行目标分割网络训练,然后将训练好的目标分割网络上述任一实施例中,通过上述任一实施例的技术方案检测并分割天车吊物,有效提升了对无固定种类吊物的分割精度。主要是利用天车吊物相关的图像训练的目标分割网络,通过在编码层和解码层之间增加一个特征融合层,增强了编码层在不同层级上提取的特征,能够提高分割精度。且针对天车吊物的场景,在对目标分割网络进行训练时,构建了一种新的损失函数计算方式,增加了对天车吊物的场景图像中困难像素和边界像素的损失计算,可以减少像素的错误分类并优化边界的精细度。且通过在对目标分割网络进行模型剪枝,能够减小目标分割网络的网络参数和计算量,提高目标分割网络前向预测速度。
[0218]
结合图19

图24对本技术的技术方案进行效果展示:
[0219]
将图19按照本技术的技术方案进行目标物体的检测,则得到图20所示的目标物体分割结果。将图19中的吊物处于悬挂状态,即该吊物以及吊绳在运动,则可以精确地将该吊物以及吊绳从图19的车间背景中分割出来。
[0220]
将图21按照本技术的技术方案进行目标物体的检测,则得到图22所示的目标物体分割结果。图21中的吊物已被放下,吊物则不被检测,但可以精确地将该吊绳从图21的车间背景中分割出来。
[0221]
将图23按照本技术的技术方案进行目标物体的检测,则得到图24所示的目标物体分割结果。图23中的车间背景中含有大量与吊物相同的物体,本技术的方法也可以将天车悬挂的吊物准确地分割出来。综上可以看出,在复杂的车间环境中,通过本技术的技术方案可以准确地检测出天车吊物。
[0222]
综上,本技术的技术方案能够简化对目标物体的分割复杂度,无需对目标物体进行类别识别,提升对目标物体的分割精度,进而在应用于天车吊物时,能够快速且准确地从车间背景中分割出天车吊物,便于后续进一步分析员工在天车操作中是否合存在安全隐患,如吊物是否存在歪拉斜吊、吊物行进是否过快等现象。
[0223]
在本技术所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0224]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0225]
另外,在本技术各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0226]
上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0227]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献