一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于视频的图像分割方法、分割模型的训练方法以及设备与流程

2022-02-25 23:58:20 来源:中国专利 TAG:


1.本技术实施例涉及图像技术领域和视频技术领域,尤其涉及一种基于视频的图像分割方法、分割模型的训练方法以及设备。


背景技术:

2.随着图像技术和视频技术的发展,可以对视频中的图像进行分割处理,以确定出图像中的目标对象,例如,目标对象为运动目标。
3.现有技术中,在对视频的图像进行图像分割的时候,可以基于匹配的方式,从图像的像素级这一角度上对前后图像帧进行目标对象的相似性的计算,进而确定出前后图像帧中后一图像帧中的目标对象,进而实现对前后图像帧中后一图像帧的图像分割。
4.在实现本技术过程中,发明人发现现有技术中至少存在如下问题:上述匹配的方式中,仅基于前后图像帧的目标对象的相似度进行计算,需要对前一图像帧、后一图像帧分别维护特征编码器,造成分割过程中特征无法复用,并且增加了计算量,导致无法快速对图像进行分割。


技术实现要素:

5.本技术实施例提供一种基于视频的图像分割方法、分割模型的训练方法以及设备,用以解决图像分割过程中计算率较大,无法快速对图像进行分割的问题。
6.第一方面,本技术实施例提供一种基于视频的图像分割方法,所述方法包括:
7.获取第一图像和第二图像,其中,所述第二图像为当前帧图像,所述第一图像为时间位于所述第二图像之前的图像;
8.将所述第一图像输入至分割模型的第一模型中,得到所述第一图像的图像特征,并将所述图像特征存储至所述分割模型的存储池中,得到第一特征;其中,所述第一特征包括多帧图像的图像特征,所述多帧图像中的图像均为时间位于所述第二图像之前的图像,所述多帧图像中的每帧图像均标注出目标对象;
9.将所述第二图像输入至所述分割模型的第二模型中,得到所述第二图像的第二特征;其中,所述第一模型和所述第二模型为孪生网络下的两个模型;
10.基于所述分割模型对所述第一特征和所述第二特征进行编解码处理,得到所述第二图像的分割图像,其中,所述第二图像的分割图像被标注出目标对象。
11.上述发明中的一个实施例具有如下优点或者有益效果:在第一特征中加入了多帧图像中每帧图像的图像特征,从而基于孪生网络的权重共享特性,随着分割过程不断进行,将当前帧图像变为后续的第一图像,即,将当前帧变成过去帧;从而当前帧图像特征可以作为后续的第一图像的特征;避免了特征的重复提取。然后基于分割模型对第一特征和第二特征进行编解码处理,得到第二图像的分割图像。由于上述过程中,避免了特征的重复提取,从而可以将特征进行复用,降低了图像分割的计算量,提高了图像分割的效率和速度。
12.或者,上述发明中的另一个实施例具有如下优点或者有益效果:为了减少计算率,
不会将第二图像之前的所有图像的特征都放入到存储池中;而是,选取了视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第一图像之间的n帧图像。并且采用动态采样的方式,第0帧图像可以随着时间的继续被新的第0帧图像所替换,然后,第一图像、n帧图像也被更新替换。一方面减少了计算量;另一方面,可以充分利用过去帧图像的目标对象的特征,重复利用过去帧图像所构成时序信息。
13.或者,上述发明中的另一个实施例具有如下优点或者有益效果:将第一特征输入至分割模型中的特征编码器中,输出编码特征。将第二特征输入至分割模型的特征解码器中,得到解码特征。进而在后续的步骤中,结合编码特征和解码特征,对第二图像进行图像分割。上述过程中,在对第二图像进行分割的过程中,区分出特征编码器和特征解码器;将多个过去帧所构成的第一特征,作为特征编码器的输入,进而增强了过去帧的目标对象的表征和特征鲁棒性;将待分割的第二图像的第二特征,作为特征解码器的输入,进而增强了当前帧图像的目标对象的表征和特征鲁棒性。
14.或者,上述发明中的另一个实施例具有如下优点或者有益效果:在结合编码特征和解码特征对第二图像进行图像分割的过程中,基于第一交叉注意力模型对过去帧图像的特征进行处理,第一交叉注意力模型除了处理过去帧图像的特征,还引入了当前帧图像的特征;基于第二交叉注意力模型对当前帧图像的特征进行处理,第二交叉注意力模型除了处理当前帧图像的特征,还引入了过去帧图像的特征;从而,增强了第一交叉注意力模型所输出的到编码特征的目标对象的表征,增强了第二交叉注意力模型所输出的到到解码特征的目标对象的表征,从而使得目标对象的表征更有辨识度,提升了过去帧图像中的目标对象的信息相当前帧传递的传递准确度、鲁棒性。
15.第二方面,本技术实施例提供一种用于图像分割的分割模型的训练方法,所述方法包括:
16.重复以下各步骤,直至到预设条件:
17.获取第一图像和第二图像,其中,所述第二图像为当前帧图像,所述第一图像为时间位于所述第二图像之前的图像;所述第二图像被标注出目标对象;
18.将所述第一图像输入至初始模型的第一模型中,得到所述第一图像的图像特征,并将所述图像特征存储至所述初始模型的存储池中,得到第一特征;其中,所述第一特征包括多帧图像的图像特征,所述多帧图像中的图像均为时间位于所述第二图像之前的图像,所述多帧图像中的每帧图像均标注出目标对象;
19.将所述第二图像输入至所述初始模型的第二模型中,得到所述第二图像的第二特征;其中,所述第一模型和所述第二模型为孪生网络下的两个模型;
20.基于所述初始模型对所述第一特征和所述第二特征进行编解码处理,得到所述第二图像的分割图像,其中,所述第二图像的分割图像被标注出目标对象;
21.基于所述第二图像的分割图像和所述第二图像被标注出的目标对象,对所述初始模型进行参数调整;
22.其中,达到预设条件时所得到的分割模型,用于对图像进行图像分割,以得到目标对象。
23.上述发明中的一个实施例具有如下优点或者有益效果:基于孪生网络的权重共享特性,随着分割过程不断进行,将当前帧图像变为后续的第一图像,即,将当前帧变成过去
帧;从而当前帧图像特征可以作为后续的第一图像的特征;避免了特征的重复提取。然后基于初始模型对第一特征和第二特征进行编解码处理,得到第二图像的分割图像。由于上述过程中,避免了特征的重复提取,从而可以将特征进行复用,降低了图像分割的计算量,提高了模型的训练效率和速度。
24.第三方面,本技术实施例提供一种基于视频的图像分割装置,所述装置包括:
25.第一获取单元,用于获取第一图像和第二图像,其中,所述第二图像为当前帧图像,所述第一图像为时间位于所述第二图像之前的图像;
26.第一处理单元,用于将所述第一图像输入至分割模型的第一模型中,得到所述第一图像的图像特征。
27.存储单元,用于将所述图像特征存储至所述分割模型的存储池中,得到第一特征;其中,所述第一特征包括多帧图像的图像特征,所述多帧图像中的图像均为时间位于所述第二图像之前的图像,所述多帧图像中的每帧图像均标注出目标对象;
28.第二处理单元,用于将所述第二图像输入至所述分割模型的第二模型中,得到所述第二图像的第二特征;其中,所述第一模型和所述第二模型为孪生网络下的两个模型;
29.第三处理单元,用于基于所述分割模型对所述第一特征和所述第二特征进行编解码处理,得到所述第二图像的分割图像,其中,所述第二图像的分割图像被标注出目标对象。
30.第四方面,本技术实施例提供一种用于图像分割的分割模型的训练装置,所述装置包括:
31.执行单元,用于重复以下各步骤,直至到预设条件:
32.第一获取单元,用于获取第一图像和第二图像,其中,所述第二图像为当前帧图像,所述第一图像为时间位于所述第二图像之前的图像;所述第二图像被标注出目标对象;
33.第一处理单元,用于将所述第一图像输入至初始模型的第一模型中,得到所述第一图像的图像特征;
34.存储单元,用于将所述图像特征存储至所述初始模型的存储池中,得到第一特征;其中,所述第一特征包括多帧图像的图像特征,所述多帧图像中的图像均为时间位于所述第二图像之前的图像,所述多帧图像中的每帧图像均标注出目标对象;
35.第二处理单元,用于将所述第二图像输入至所述初始模型的第二模型中,得到所述第二图像的第二特征;其中,所述第一模型和所述第二模型为孪生网络下的两个模型;
36.第三处理单元,用于基于所述初始模型对所述第一特征和所述第二特征进行编解码处理,得到所述第二图像的分割图像,其中,所述第二图像的分割图像被标注出目标对象;
37.调整单元,用于基于所述第二图像的分割图像和所述第二图像被标注出的目标对象,对所述初始模型进行参数调整;
38.其中,达到预设条件时所得到的分割模型,用于对图像进行图像分割,以得到目标对象。
39.第五方面,本技术实施例提供一种电子设备,所述电子设备包括:存储器,处理器;
40.存储器;用于存储所述处理器可执行指令的存储器;
41.其中,所述处理器被配置为执行第一方面或者第二方面所述的方法。
42.第六方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面或者第二方面所述的方法。
43.第七方面,本技术实施例提供一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或者第二方面所述的方法。
44.本技术实施例提供的基于视频的图像分割方法、分割模型的训练方法以及设备,获取第一图像和第二图像,第二图像为当前帧图像,第一图像为时间位于第二图像之前的图像;将第一图像输入至分割模型的第一模型中,得到第一图像的图像特征,并将图像特征存储至分割模型的存储池中,得到第一特征;第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象;将第二图像输入至分割模型的第二模型中,得到第二图像的第二特征;第一模型和第二模型为孪生网络下的两个模型;从而,在第一特征中加入了多帧图像中每帧图像的图像特征,从而基于孪生网络的权重共享特性,随着分割过程不断进行,将当前帧图像变为后续的第一图像,即,将当前帧变成过去帧;从而当前帧图像特征可以作为后续的第一图像的特征;避免了特征的重复提取。然后基于分割模型对第一特征和第二特征进行编解码处理,得到第二图像的分割图像。由于上述过程中,避免了特征的重复提取,从而可以将特征进行复用,降低了图像分割的计算量,提高了图像分割的效率和速度。
附图说明
45.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
46.图1为本技术实施例提供的一种基于视频的图像分割方法的流程示意图;
47.图2为本技术实施例提供的一种基于视频的图像分割方法的分割模型的示意图;
48.图3为本技术实施例提供的另一种基于视频的图像分割方法的流程示意图;
49.图4为本技术实施例提供的另一种基于视频的图像分割方法的分割模型的示意图;
50.图5为本技术实施例提供的另一种基于视频的图像分割方法的特征交互模块的示意图;
51.图6为本技术实施例提供的另一种基于视频的图像分割方法的步骤307的第三步骤的流程图;
52.图7为本技术实施例提供的另一种基于视频的图像分割方法的分割解码器的示意图;
53.图8为本技术实施例提供的一种用于图像分割的分割模型的训练方法的流程图;
54.图9为本技术实施例提供的另一种用于图像分割的初始模型的训练方法的流程图;
55.图10为本技术实施例提供的一种基于视频的图像分割装置的结构示意图;
56.图11为本技术实施例提供的另一种基于视频的图像分割装置的结构示意图;
57.图12为本技术实施例提供的一种用于图像分割的分割模型的训练装置的结构示意图;
58.图13为本技术实施例提供的另一种用于图像分割的分割模型的训练装置的结构示意图;
59.图14为本技术实施例提供的一种电子设备的结构示意图;
60.图15是根据一示例性实施例示出的一种电子设备的框图。
61.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
62.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
63.随着图像技术和视频技术的发展,可以对视频中的图像进行分割处理,以确定出图像中的目标对象,例如,目标对象为运动目标。在进行视频目标分割(video obiect segmentation,简称vos)的时候,是将视频中的每一图像的前景和背景进行分离,进而确定出目标对象的像素级的分割结果。
64.一个示例中,可以采用半监督方式,对视频的图像进行分割。可以预选训练一个分割模型;在视频的第一帧图像中标注出目标对象,进而为第一帧图像中的目标对象标注一个像素级标签,基于半监督的算法和分割模型解析出视频中第一帧图像之后的每一帧图像的目标对象的像素级位置,从而实现视频的目标对象的分割。
65.一个示例中,在半监督方式中,可以采用基于匹配的方法进行图像分割,从图像的像素级这一角度上对前后图像帧进行目标对象的相似性的计算,进而确定出前后图像帧中后一图像帧中的目标对象,进而实现对前后图像帧中后一图像帧的图像分割。基于匹配的方式,例如有feelvos方法、stm方法。
66.但是上述匹配的方法中,仅基于前后图像帧的目标对象的相似度进行计算,需要对前一图像帧、后一图像帧分别维护特征编码器,造成分割过程中特征无法复用,并且增加了计算量,导致无法快速对图像进行分割。
67.一个示例中,可以采用基于特征传播的方法进行图像分割,将视频中位于当前帧图像之前的图像帧的特征,作为时序信息,将该时序信息融入到当前帧图像的分割过程中,生成目标对象的鲁棒的时空特征。基于特征传播的方法,例如有masktrack方法,masktrack方法中基于当前帧图像之前的前一帧图像完成当前帧图像的分割。基于特征传播的方法,例如有rgmp方法,rgmp方法中基于第一帧图像、以及当前帧图像之前的前一帧图像完成当前帧图像的分割。基于特征传播的方法,例如有sat方法,sat方法中基于当前帧图像之前的多帧图像完成当前帧图像的分割。
68.一个示例中,可以采用基于跟踪的方法进行图像分割,将图像分割分为目标对象的跟踪、以及目标对象的图像分割;利用目标对象的跟踪过程,确定目标对象在图像中的位
置;然后,对所检测到位置对目标的对象进行分割。基于跟踪的方法,例如有siammask方法、tan方法。
69.但是上述各方式中,依然存在以下问题。需要对前一图像帧、后一图像帧分别维护特征编码器,造成分割过程中特征无法复用,并且增加了计算量,导致无法快速对图像进行分割。在视频分割处理的过程中,随着时间变化,目标对象在图像序列中的外观和尺度不断地动态变化,且存在目标对象被遮挡、目标对象消失、存在相似的目标对象等情况;从而对目标对象的分割过程造成干扰,会存在分割错误、以及分割精度的下降等问题。在依据当前帧图像之前的多帧图像,对当前帧图像进行分割的时候,是设定了固定步长将多帧图像加入到分割过程中,进而导致若多帧图像的帧数较少的时候,无法充分利用多帧图像的目标对象的信息,导致分割精度的下降。
70.本技术实施例提供的基于视频的图像分割方法、分割模型的训练方法以及设备,旨在解决现有技术的如上技术问题。
71.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
72.图1为本技术实施例提供的一种基于视频的图像分割方法的流程示意图,如图1所示,该方法包括:
73.101、获取第一图像和第二图像,其中,第二图像为当前帧图像,第一图像为时间位于第二图像之前的图像。
74.示例性地,在对图像进行分割的时候,从监控设备或本地中获取待处理的当前帧图像,将当前帧图像作为第二图像。随着视频的图像的分割过程的进行,已经对多帧图像中每一图像进行了目标对象的分割,即,多帧图像中每一图像已经标注出了目标对象。可以获取时间位于当前帧图像之前的一帧图像,将该图像作为第一图像;第一图像已经标注出了目标对象。其中,多帧图像中的第一帧图像中的目标对象可以是用户所标注的。
75.例如,第一图像为第t-1帧图像,第二图像为第t帧图像。其中,t为大于等于1的正整数。
76.102、将第一图像输入至分割模型的第一模型中,得到第一图像的图像特征,并将图像特征存储至分割模型的存储池中,得到第一特征;其中,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
77.示例性地,预先训练出了分割模型,在分割模型中包括有孪生网络,孪生网络中包括第一模型和第二模型;孪生网络中的第一模型和第二模型可以共享权重。例如,孪生网络的第一模型为残差网络(residual network,简称resnet)模型,第二模型为残差网络模型。
78.图2为本技术实施例提供的一种基于视频的图像分割方法的分割模型的示意图,如图2所示,将第一图像输入到分割模型的第一模型中,进而基于第一模型对第一图像进行特征提取,得到第一图像的图像特征,图像特征可以为第一图像的层级特征。在分割模型中部署了存储池(memory bank);将第一图像的图像特征存储至分割模型的存储池中,进而将第一图像的图像特征融合入位于第一图像之前的各图像的图像特征中;由于随着视频的图像的分割的进行,已经将多帧图像中的每帧图像标注出了目标对象,其中,多帧图像包括第
一图像、以及位于第二图像之前的多个图像;将多帧图像中的每帧图像的图像特征,放入到了存储池中;然后,从存储池中提取第一特征。可知,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
79.举例来说,第二图像为第t帧图像。其中,t为大于等于1的正整数;多帧图像中包括取视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第一图像之间的n帧图像。其中,n为大于等于0的整数。其中,第0帧图像可以随着时间的继续被新的第0帧图像所替换。
80.103、将第二图像输入至分割模型的第二模型中,得到第二图像的第二特征;其中,第一模型和第二模型为孪生网络下的两个模型。
81.示例性地,如图2所示,将第二图像输入到分割模型的第二模型中,进而基于第二模型对第二图像进行特征提取,得到第二图像的第二特征,第二特征可以为第二图像的层级特征。
82.在上述过程中,在第一特征中加入了多帧图像中每帧图像的图像特征,从而基于孪生网络的权重共享特性,随着分割过程不断进行,将当前帧图像变为后续的第一图像,即,将当前帧变成过去帧;从而当前帧图像特征可以作为后续的第一图像的特征;避免了特征的重复提取,提高了图像分割效率和速度。
83.104、基于分割模型对第一特征和第二特征进行编解码处理,得到第二图像的分割图像,其中,第二图像的分割图像被标注出目标对象。
84.示例性地,在得到第一特征和第二特征之后,基于分割模型对第一特征和第二特征进行编解码处理(包括编码处理和解码处理),进而对第二图像进行分割,得到第二图像的分割图像。进而对第二图像标注出目标对象,第二图像的分割图像也被标注出目标对象。本次所得到第二图像,可以作为后续分割过程中的第一图像。
85.例如,分割图像可以为二值图像。如图2所示,可以对第二图像中的每一目标对象进行单独的分割处理。
86.本实施例中,获取第一图像和第二图像,第二图像为当前帧图像,第一图像为时间位于第二图像之前的图像;将第一图像输入至分割模型的第一模型中,得到第一图像的图像特征,并将图像特征存储至分割模型的存储池中,得到第一特征;第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象;将第二图像输入至分割模型的第二模型中,得到第二图像的第二特征;第一模型和第二模型为孪生网络下的两个模型;从而,在第一特征中加入了多帧图像中每帧图像的图像特征,从而基于孪生网络的权重共享特性,随着分割过程不断进行,将当前帧图像变为后续的第一图像,即,将当前帧变成过去帧;从而当前帧图像特征可以作为后续的第一图像的特征;避免了特征的重复提取。然后基于分割模型对第一特征和第二特征进行编解码处理,得到第二图像的分割图像。由于上述过程中,避免了特征的重复提取,从而可以将特征进行复用,降低了图像分割的计算量,提高了图像分割的效率和速度。
87.图3为本技术实施例提供的另一种基于视频的图像分割方法的流程示意图,如图3所示,该方法包括:
88.301、获取第一图像和第二图像,其中,第二图像为当前帧图像,第一图像为时间位
于第二图像之前的图像。
89.示例性地,本步骤可以参见步骤101,不再赘述。
90.302、将第一图像输入至分割模型的第一模型中,输出第一图像的层级特征;确定第一图像的层级特征中的c4特征,为第一图像的图像特征。在图像的通道维度上对图像特征进行变换映射处理,得到处理后的图像特征;其中,处理后的图像特征的通道数少于处理前的图像特征的通道数。
91.示例性地,预先训练出了分割模型,在分割模型中包括有孪生网络,孪生网络中包括第一模型和第二模型;孪生网络中的第一模型和第二模型可以共享权重。例如,孪生网络的第一模型为残差网络模型,第二模型为残差网络模型;或者,孪生网络的第一模型为卷积神经网络(convolutional neural networks,简称cnn)模型,第二模型为卷积神经网络模型;
92.图4为本技术实施例提供的另一种基于视频的图像分割方法的分割模型的示意图,如图4所示,将第一图像输入到第一模型中,进而基于第一模型对第一图像进行特征提取,得到第一图像的层级特征;第一图像的层级特征(c1,c2,c3,c4,c5)包括c1特征、c2特征、c3特征、c4特征、c5特征。将第一图像的层级特征中的c4特征,作为第一图像的图像特征。本实施例中,将第一图像的层级特征中的c4特征,作为第一图像的图像特征;由于c4特征的分辨率较低、尺度较小,有利于降低后续的计算复杂度。
93.举例来说,第一图像的尺寸为256*256,则第一模型对第一图像进行特征提取之后,所得到的一图像的c1特征的尺寸为128*128,所得到的一图像的c2特征的尺寸为64*64,所得到的一图像的c3特征的尺寸为32*32,所得到的一图像的c4特征的尺寸为16*16,所得到的一图像的c5特征的尺寸为8*8。将第一图像的层级特征中的c4特征,作为第一图像的图像特征,可知,c4特征的尺寸比第一图像的尺寸缩小了16倍。
94.然后,在图像的通道维度上,对第一图像的图像特征进行变换映射处理,进而降低第一图像的图像特征的通道数,得到处理后的图像特征。一个示例中,基于分割模型中的卷积神经网络模型,在图像的通道维度上对第一图像的c4特征进行变换映射处理,减少第一图像的c4特征的通道数,可知,处理后的图像特征的通道数少于处理前的图像特征的通道数。
95.303、将处理后的图像特征存储至分割模型的存储池中,得到第一特征;其中,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
96.示例性地,如图4所示,将第一图像的图像特征存储至分割模型的存储池(即,memory bank)中。由于随着视频的图像的分割的进行,已经将多帧图像中的每帧图像标注出了目标对象,其中,多帧图像包括第一图像、以及位于第二图像之前的多个图像;将多帧图像中的每帧图像的图像特征,放入到了存储池中;进而取多帧图像中各图像的图像特征,作为第一特征;可知,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
97.本实施例中,第二图像为第t帧图像。其中,t为大于等于l的正整数;多帧图像中包括取视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第一图像之间的n帧图像。其中,n为大于等于0的整数。进而取n 2帧图像中各帧图像的c4特征,做为第一特征。其
中,第0帧图像可以随着时间的继续被新的第0帧图像所替换。
98.本实施例中,为了减少计算率,不会将第二图像之前的所有图像的特征都放入到存储池中;而是,选取了视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第一图像之间的n帧图像。并且采用动态采样的方式,第0帧图像可以随着时间的继续被新的第0帧图像所替换,然后,第一图像、n帧图像也被更新替换。一方面减少了计算量;另一方面,可以充分利用过去帧图像的目标对象的特征,重复利用过去帧图像所构成时序信息。
99.进而得到第一特征m∈r
zhw
×c。可知第一特征m为一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数;z为构成第一特征的图像的帧数。
100.304、将第二图像输入至分割模型的第二模型中,输出第二图像的层级特征;在图像的通道维度上对第二图像的层级特征中的c4特征进行变换映射处理,得到第二特征;其中,第二特征的通道数少于第二图像的层级特征中的c4特征的通道数。
101.其中,第一模型和第二模型为孪生网络下的两个模型。
102.示例性地,如图4所示,将第二图像输入到第二模型中,进而基于第二模型对第二图像进行特征提取,得到第二图像的层级特征;第二图像的层级特征(c1,c2,c3,c4,c5)包括c1特征、c2特征、c3特征、c4特征、c5特征。本实施例中,将第二图像的层级特征中的c4特征,作为第二图像的第二特征;由于c4特征的分辨率较低、尺度较小,有利于降低后续的计算复杂度。
103.然后,在图像的通道维度上,对第二图像的层级特征中的c4特征进行变换映射处理,进而降低第二图像的层级特征中的c4特征的通道数,得到第二特征。一个示例中,基于分割模型中的卷积神经网络模型,在图像的通道维度上对第二图像的层级特征中的c4特征进行变换映射处理,减少第二图像的层级特征中的c4特征的通道数,可知,第二特征的通道数少于第二图像的层级特征中的c4特征的通道数。
104.进而得到第二特征q∈r
hw
×c。可知第二特征q为一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数。
105.在本实施例中,由于存储池中的多帧图像中每帧图像已经被分割处理,每帧图像被标注出了目标对象;可知,已经得到了存储池中的多帧图像中每帧图像的分割图像。例如,分割图像为二值图像。
106.在每次分割处理的时候,已经对该多帧图像的每帧图像逐一进行了标签处理,此时的“标签处理”的过程为:在每次分割处理的时候,对作为当前帧图像之前的第一图像的分割图像进行特征提取,得到分割图像的层级特征;分割图像的层级特征(c1,c2,c3,c4,c5)包括c1特征、c2特征、c3特征、c4特征、c5特征;本实施例中,将分割图像的层级特征中的c4特征,作为分割图像的标签特征。然后,基于分割模型中的卷积神经网络模型,在图像的通道维度上对分割图像的标签特征进行变换映射处理,减少分割图像的标签特征的通道数,可知,处理后的标签特征的通道数少于处理前的标签特征的通道数。进而得到分割图像的处理后的标签特征。
107.或者,在每次分割处理的时候,已经对该多帧图像的每帧图像逐一进行了标签处理,此时的“标签处理”的过程为:在每次分割处理的时候,如图4所示,将多帧图像的每帧图像的分割图像,输入到轻量型标签编码器中,基于分割模型中的轻量型标签编码器(轻量型标签编码器,例如是alexnet编码器、浅层resnet编码器)对作为当前帧图像之前的第一图
像的分割图像进行特征提取,得到分割图像的标签特征。然后,基于分割模型中的卷积神经网络模型,在图像的通道维度上对分割图像的标签特征进行变换映射处理,减少分割图像的标签特征的通道数,可知,处理后的标签特征的通道数少于处理前的标签特征的通道数。进而得到分割图像的处理后的标签特征。需要注意的是,每次分割的时候,是对当前的第一图像的分割进行依次处理,进而使得第三特征累加了多帧图像的各分割图像的特征;并且,本实施例中,可以对第一图像的各目标对象进行处理,进而保证可以对第二图像中的每一目标对象进行分割。
108.然后,存储池中的多帧图像中每帧图像的分割图像的处理后的标签特征,组成了第三特征me∈r
zhw
×c。即,第三特征me中包括存储池中的多帧图像中各帧图像的分割图像的处理后的标签特征。
109.可知第三特征me为一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数;z为构成第一特征的图像的帧数。
110.可知,第一特征、第二特征、第三特征在高度上相同;并且,第一特征、第二特征、第三特征在宽度上相同;并且,第一特征、第二特征、第三特征在通道数上相同。
111.本实施例执行一次步骤301-307,是对一个第二图像进行分割。随着对视频中的图像序列的分割,第二特征在不断累加,并且第三特征在不断累加。但是在本实施例中,第二特征只需n 2帧图像的特征,第三特征只需n 2帧图像的特征。例如,取视频的第0帧图像、第一图像(即,第t-l图像)、位于第0帧图像与第一图像之间的n帧图像;其中,第0帧图像可以随着时间的继续被新的第0帧图像所替换。
112.305、将第一特征输入至分割模型中的特征编码器中,得到编码特征。
113.一个示例中,步骤305包括以下步骤:
114.步骤305的第一步骤、将第一特征输入至分割模型中的特征编码器中,对第一特征进行特征建模处理,以将第一特征映射到多个维度上,得到增强后的第一特征。一个示例中,增强后的第一特征包括第一维度上的第一特征、第二维度上的第一特征、以及第三维度上的第一特征。
115.步骤305的第二步骤、对增强后的第一特征进行卷积处理,得到编码特征;其中,编码特征的通道数少于增强后的第一特征的通道数。一个示例中,步骤305的第二步骤,包括:对第一维度上的第一特征、第二维度上的第二特征、以及第三维度上的第二特征进行卷积处理,得到编码特征。
116.示例性地,在本实施例中,步骤305和步骤306可以同时执行。
117.在分割模型中部署有特征编码器encoder和特征解码器decoder。将第一特征输入至分割模型中的特征编码器encoder中,输出编码特征。在步骤306中将第二特征输入至分割模型的特征解码器decoder中,得到解码特征。进而在后续的步骤中,结合编码特征和解码特征,对第二图像进行图像分割。上述过程中,在对第二图像进行分割的过程中,区分出特征编码器encoder和特征解码器decoder;将多个过去帧所构成的第一特征,作为特征编码器encoder的输入,进而增强了过去帧的目标对象的表征和特征鲁棒性;将待分割的第二图像的第二特征,作为特征解码器decoder的输入,进而增强了当前帧图像的目标对象的表征和特征鲁棒性。
118.一个示例中,在实现步骤305的时候,可以采用以下方式。将第一特征输入至分割
模型中的特征编码器encoder中,进而基于特征编码器encoder对第一特征进行特征建模处理,从而在时空上对第一特征进行特征增强,将第一特征映射到多个维度上,得到增强后的第一特征。增强后的第一特征包括第一维度q上的第一特征、第二维度k上的第一特征、以及第三维度v上的第一特征。
119.然后,基于特征编码器encoder对增强后的第一特征进行卷积处理,以降低增强后的第一特征的通道数,得到编码特征。在本实施例中步骤305和步骤306同时执行,进而在步骤306中已经得到了增强后的第二特征;增强后的第二特征包括第一维度q上的第二特征、第二维度k上的第二特征、以及第三维度v上的第二特征。一个示例中,在对增强后的第一特征进行卷积处理的时候,可以对第一维度q上的第一特征、第二维度k上的第二特征、以及第三维度v上的第二特征进行卷积处理,得到编码特征。第二特征属于当前帧图像的特征,第一特征属于过去帧图像的特征,而过去帧图像中已经被标注出了目标对象,从而将过去帧图像中的目标对象的时序上下文信息传递到当前帧图像的特征中,以便于完成对当前帧图像进行特定的目标对象的分割处理。
120.上述过程中,通过步骤305和306,将特征编码器encoder和特征解码器decoder分离,基于特征编码器encoder处理第一特征(即,基于特征编码器encoder处理多个过去帧图像的特征),构建出目标对象的时空序列特征,进而增强目标对象的特征表达,目标对象的时空序列特征具有很高的辨识性,有利于对当前帧图像进行目标对象的分割。基于特征解码器decoder做为当前帧图像的特征处理的载体,结合多个过去帧图像的特征对当前帧图像中的目标对象的特征进行增强,从而实现对当前帧图像的目标对象的分割。
121.在实现步骤305的时候,具体可以采用以下方式。
122.一个示例中,步骤305的第一步骤,包括:基于特征编码器中的第一自注意力(self-attention,简称sa)模型,对第一特征进行特征建模处理,以将第一特征映射到多个维度上,得到增强后的第一特征。
123.步骤305的第二步骤,包括:基于特征编码器中的第一交叉注意力(cross-attention,简称ca)模型对第一维度上的第一特征、第二维度上的第二特征、以及第三维度上的第二特征进行卷积处理,得到卷积处理后的特征;对该卷积处理后的特征进行残差连接处理和归一化处理,得到编码特征。
124.示例性地,在本实施例中,分割模型中的特征编码器encoder包括第一自注意力模型sa1、第一交叉注意力模型cal。分割模型中的特征解码器decoder包括第二自注意力模型sa2、第二交叉注意力模型ca2、以及第三交叉注意力模型ca3。
125.如图4所示,将第一特征输入到特征编码器中的第一自注意力模型sal中,基于第一自注意力模型sa1的卷积层将第一特征映射到第一维度q、第二维度k、第三维度v这三个维度上,即,对第一特征进行特征建模处理(即,在时空上对第一特征进行特征增强),得到第一维度q的第一特征、第二维度k的第一特征、第三维度v的第一特征。然后,基于第一自注意力模型的公式对第一维度q的第一特征、第二维度k的第一特征、第三维度v的第一特征进行计算处理,得到增强后的第一特征m
sa
∈r
zhw
×c。增强后的第一特征m
sa
一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数;z为构成第一特征的图像的帧数。其中,增强后的第一特征m
sa
中包括第一维度q的第一特征、第二维度k的第一特征、第三维度v的第一特征。
126.其中,第一自注意力模型的公式为其中,q1为第一维度q的第一特征,k1为第二维度k的第一特征,v1为第三维度v的第一特征。k1
t
为k1的转置矩阵。d1k为k1的通道数。基于该注意力模型的公式,通过q1和k1来计算相似度矩阵,基于相似度矩阵中的每一个元素作为权值,将v1映射生成新的输出。其中,第一自注意力模型的公式中的q1、k1、v1的大小相同。
127.然后,图5为本技术实施例提供的另一种基于视频的图像分割方法的特征交互模块的示意图,如图5所示,图4中的特征交互模块包括第一交叉注意力模型和第二交叉注意力模型,基于特征编码器中的第一交叉注意力模型ca1的公式对第一维度q上的第一特征、第二维度k上的第二特征、以及第三维度v上的第二特征进行卷积处理,得到卷积处理后的特征。其中,第一交叉注意力模型ca1的公式可以采用上述第一自注意力模型的公式。但是,第一自注意力模型的公式中的q1、k1、v1的大小可以不同。然后,对此时所得到卷积处理后的特征进行残差连接处理和归一化处理,得到编码特征m
out
∈r
hw
×c。
128.可知,编码特征中包括过去帧图像中的目标对象的特征、以及当前帧图像的特征;将过去帧图像中的目标对象的时序上下文信息传递到当前帧图像的特征中,以便于完成对当前帧图像进行特定的目标对象的分割处理。
129.306、将第二特征输入至分割模型的特征解码器中,得到解码特征。
130.一个示例中,步骤306包括以下步骤:
131.步骤306的第一步骤、将第二特征输入至分割模型的特征解码器中,对第二特征进行特征建模处理,以将第二特征映射到多个维度上,得到增强后的第二特征。一个示例中,增强后的第二特征包括第一维度上的第二特征、第二维度上的第二特征、以及第三维度上的第二特征。
132.步骤306的第二步骤、对增强后的第二特征进行卷积处理,得到解码特征;其中,解码特征的通道数少于增强后的第二特征的通道数。一个示例中,步骤306的第二步骤,包括:获取多帧图像中每一图像的目标对象的特征,对多帧图像中每一图像的目标对象的特征、以及第一特征进行融合处理,得到融合特征。对第一维度上第二特征、第二维度上的第一特征、以及融合特征进行卷积处理,得到解码特征;其中,融合特征包括多帧图像中各图像中的目标对象的特征、以及第一特征。
133.示例性地,在步骤306中将第二特征输入至分割模型的特征解码器decoder中,得到解码特征。进而在后续的步骤中,结合编码特征和解码特征,对第二图像进行图像分割。将待分割的第二图像的第二特征,作为特征解码器decoder的输入,进而增强了当前帧图像的目标对象的表征和特征鲁棒性。
134.一个示例中,在实现步骤306的时候,可以采用以下方式。将第二特征输入至分割模型的特征解码器decoder中,进而基于特征解码器decoder对第二特征进行特征建模处理,从而在时空上对第二特征进行特征增强,将第二特征映射到多个维度上,得到增强后的第二特征。增强后的第二特征包括第一维度q上的第二特征、第二维度k上的第二特征、以及第三维度v上的第二特征。
135.然后,基于特征解码器decoder对增强后的第二特征进行卷积处理,以降低增强后的第二特征的通道数,得到解码特征。在本实施例中步骤305和步骤306同时执行,进而在步
骤305中已经得到了增强后的第一特征;增强后的第一特征包括第一维度q上的第一特征、第二维度k上的第一特征、以及第三维度v上的第一特征。
136.一个示例中,在对增强后的第二特征进行卷积处理的时候,可以先获取融合特征,存储池中多帧图像中每一帧图像的目标对象的特征;此时,参见上述步骤,每一帧图像的目标对象的特征,为存储池中的多帧图像中每帧图像的分割图像的处理后的标签特征;存储池中的多帧图像中每帧图像的分割图像的处理后的标签特征,组成了第三特征。将第三特征me、以及第一特征m进行融合处理,得到融合特征。然后,对第一维度q上第二特征、第二维度k上的第一特征、以及融合特征进行卷积处理,得到解码特征。第二特征属于当前帧图像的特征,第一特征属于过去帧图像的特征,而过去帧图像中已经被标注出了目标对象,从而将过去帧图像中的目标对象的时序上下文信息传递到当前帧图像的特征中,同时,将过去帧图像中的目标对象的特征与当前帧图像的特征进行结合,以便于完成对当前帧图像进行特定的目标对象的分割处理。
137.在实现步骤306的时候,具体可以采用以下方式。
138.一个示例中,步骤306的第一步骤,包括:基于特征解码器中的第二自注意力模型,对第二特征进行特征建模处理,以将第二特征映射到多个维度上,得到增强后的第二特征。
139.步骤306的第二步骤,包括:基于特征解码器中的第二交叉注意力模型对第一维度上第二特征、第二维度上的第一特征、以及融合特征进行卷积处理,得到卷积处理后的特征;对该卷积处理后的特征进行残差连接处理和归一化处理,得到解码特征。
140.示例性地,分割模型中的特征解码器decoder包括第二自注意力模型sa2、第二交叉注意力模型ca2、以及第三交叉注意力模型ca3。
141.如图4所示,将第二特征输入到特征解码器的第二自注意力模型sa2中,基于第二自注意力模型sa2将第二特征映射到第一维度q、第二维度k、第三维度v这三个维度上,即,对第二特征进行特征建模处理(即,在时空上对第二特征进行特征增强),得到第一维度q的第二特征、第二维度k的第二特征、第三维度v的第二特征。然后,基于第二自注意力模型的公式对第一维度q的第二特征、第二维度k的第二特征、第三维度v的第二特征进行计算处理,得到增强后的第二特征q
sa
∈r
hw
×c。增强后的第二特征q
sa
一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数。其中,增强后的第一特征q
sa
中包括第一维度q的第二特征、第二维度k的第二特征、第三维度v的第二特征。
142.其中,第二自注意力模型的公式为其中,q2为第一维度q的第二特征,k2为第二维度k的第二特征,v2为第三维度v的第二特征。k2
t
为k2的转置矩阵。d2k为k2的通道数。基于该注意力模型的公式,通过q2和k2来计算相似度矩阵,基于相似度矩阵中的每一个元素作为权值,将v2映射生成新的输出。其中,第二自注意力模型的公式中的q2、k2、v2的大小相同。
143.参见上述步骤,可以得到融合特征。
144.然后,如图5所示,基于特征解码器中的第二交叉注意力模型ca2的公式对第一维度q上的第二特征、第二维度k上的第一特征、以及融合特征进行卷积处理,得到卷积处理后的特征。其中,第二交叉注意力模型ca2的公式可以采用上述第二自注意力模型的公式。但是,第二自注意力模型的公式中的q2、k2、v2的大小可以不同。然后,对此时所得到卷积处理
后的特征进行残差连接处理和归一化处理,得到解码特征q
out
∈r
hw
×c。
145.其中,上述残差连接处理,是对特征进行相加处理。
146.在特征交互模块中,第一交叉注意力模型除了处理过去帧图像的特征,还引入了当前帧图像的特征;第二交叉注意力模型除了处理当前帧图像的特征,还引入了过去帧图像的特征;从而,增强了第一交叉注意力模型所输出的到编码特征m
out
的目标对象的表征,增强了第二交叉注意力模型所输出的到到解码特征q
out
的目标对象的表征,从而使得目标对象的表征更有辨识度,提升了过去帧图像中的目标对象的信息相当前帧传递的传递准确度、鲁棒性。
147.通过步骤305和306的过程,通过特征编码器encoder上第一交叉注意力模型ca1和特征解码器decoder上第二交叉注意力模型ca2,将当前帧图像的目标对象的特征,进入到过去帧图像的特征中,得到编码特征m
out
,并且,将过去帧图像中的目标对象的时序上下文信息,传递到当前帧图像的特征中,得到解码特征q
out
。然后,将特征编码器encoder所输出的编码特征m
out
、特征解码器decoder所输出的解码特征q
out
,作为特征解码器decoder中的第三交叉注意力模型ca3的输入;进而实现目标对象的特征信息,可以从过去帧图像向当前帧图像进行有效的传递。
148.307、基于分割模型对编码特征和解码特征进行处理,得到第二图像的分割图像。其中,第二图像的分割图像被标注出目标对象。
149.步骤307包括以下步骤:
150.步骤307的第一步骤、对编码特征和解码特征进行卷积处理,得到待处理特征。一个示例中,步骤307的第一步骤包括:基于特征解码器中的第三交叉注意力模型对编码特征和解码特征进行卷积处理,得到待处理特征。
151.步骤307的第二步骤、对待处理特征进行矩阵变换处理,得到变换后的待处理特征;其中,变换后的待处理特征为三维矩阵,变换前的待处理特征为二维矩阵。
152.步骤307的第三步骤、基于分割模型的分割解码器对待处理特征进行处理,得到第二图像的分割图像。一个示例中,步骤307的第三步骤包括:基于分割模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第二图像的分割图像。
153.示例性地,基于分割模型对编码特征m
out
和解码特征q
out
进行处理,得到第二图像的分割图像。
154.一个示例中,基于分割模型的特征解码器decoder对编码特征m
out
和解码特征q
out
进行卷积处理,得到待处理特征。此时,可以基于特征解码器中的第三交叉注意力模型的公式,对编码特征m
out
和和解码特征q
out
进行卷积处理,得到待处理特征t
out
∈r
hw
×c。其中,第三交叉注意力模型ca3的公式可以采用上述第二自注意力模型的公式。但是,第三交叉注意力模型ca3中的q2、k2、v2的大小可以不同。然后,对待处理特征t
out
∈r
hw
×c进行矩阵变换处理,得到变换后的待处理特征t`
out
∈rh×w×c;从而将二维矩阵的待处理特征,变换为三维矩阵的待处理特征。
155.然后,采用分割模型的分割解码器对待处理特征t`
out
进行处理,输出第二图像的分割图像。一个示例中,由于通过前面的步骤,得到了第二图像的层级特征;从而,提取出第二图像的层级特征中的c3特征;然后,采用分割模型的分割解码器对待处理特征t`
out
、以及
第二图像的层级特征中的c3特征进行处理,输出第二图像的分割图像。
156.一个示例中,图6为本技术实施例提供的另一种基于视频的图像分割方法的步骤307的第三步骤的流程图,如图6所示,步骤307的第三步骤,可以采用以下方式实现:
157.步骤3071、基于分割模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第一输出特征。
158.一个示例中,步骤3071包括:基于分割模型的分割解码器对待处理特征进行上次采样处理,得到第一上采样特征;其中,第一上采样特征的维度大于待处理特征的维度;将第一上采样特征、以及第二图像的层级特征中的c3特征进行特征融合,得到第一中间特征,并对第一中间特征进行卷积处理,得到第一输出特征。
159.步骤3072、基于分割模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征。
160.一个示例中,步骤3072包括:基于分割模型的分割解码器对第一输出特征进行上次采样处理,得到第二上采样特征;其中,第二上采样特征的维度大于第一输出特征的维度;对第二上采样特征、以及第二图像的层级特征中的c2特征进行特征融合,得到第二中间特征,并对第二中间特征进行卷积处理,得到第二输出特征。
161.步骤3073、对第二输出特征进行卷积处理和分割处理,得到第二图像的分割图像。
162.一个示例中,步骤3073包括:对第二输出特征进行卷积处理和分割处理,得到初始分割图像;对初始分割图像进行上采样处理,得到第二图像的分割图像。
163.示例性地,由于通过前面的步骤,得到了第二图像的层级特征;从而,提取出第二图像的层级特征中的c3特征;然后,采用分割模型的分割解码器对待处理特征t`
out
、以及第二图像的层级特征中的c3特征进行处理,得到第一输出特征。然后,提取出第二图像的层级特征中的c2特征;采用分割模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征。经过前面的两次处理之后,已经对待处理特征t`
out
的尺寸进行调整,再对第二输出特征进行卷积处理和分割处理,就可以得到与第二图像的尺寸相同的第二图像的分割图像。
164.一个示例中,图7为本技术实施例提供的另一种基于视频的图像分割方法的分割解码器的示意图,如图7所示,分割解码器包括第一细化模块、第二细化模块、一个2通道的卷积层、以及一个softmax层。先将待处理特征t`
out
、以及第二图像的层级特征中的c3特征,输入到第一细化模块中;基于第一细化模块对待处理特征t`
out
进行2倍的上采样处理,进而将待处理特征t`
out
的尺寸扩大2倍(在h、w这2个维度上将待处理特征t`
out
的尺寸扩大2倍),得到第一上采样特征;可知,第一上采样特征的维度大于待处理特征t`
out
的维度(即,第一上采样特征的尺寸大于待处理特征t`
out
的尺寸)。
165.再将第一上采样特征、以及第二图像的层级特征中的c3特征进行特征相加处理,进而完成特征融合,得到第一中间特征。基于第一细化模块的两个卷积层对第一中间特征进行两次卷积处理,得到第一输出特征。
166.此时,第一输出特征的尺寸是待处理特征t`
out
的尺寸的2倍;并且,第一输出特征融合了待处理特征t`
out
、以及第二图像的层级特征中的c3特征。
167.将第一输出特征,输入到第二细化模块中;基于第二细化模块对第一输出特征进行2倍的上采样处理,进而将第一输出特征的尺寸扩大2倍(在h、w这2个维度上将第一输出
特征的尺寸扩大2倍),得到第二上采样特征;可知,第二上采样特征的维度大于第一输出特征的维度(即,第二上采样特征的尺寸大于第一输出特征的尺寸)。
168.再对第二上采样特征、以及第二图像的层级特征中的c2特征进行特征相加处理,进而完成特征融合,得到第二中间特征。基于第二细化模块的两个卷积层对第二中间特征进行两次卷积处理,得到第二输出特征。
169.将第二输出特征输入至分割解码器的2通道的卷积层,进行卷积处理,得到处理后的第二输出特征;将处理后的第二输出特征输入至分割解码器的softmax层,进行分割处理,得到初始分割图像。此时,初始分割图像的尺寸是第二图像的尺寸的1/4。
170.最后,对初始分割图像进行4倍上采样处理,进而初始分割图像的尺寸扩大4倍,生成最终的分割预测图,即,生成第二图像的分割图像。
171.本次所得到第二图像,可以作为后续分割过程中的第一图像。
172.本实施例中,在上述实施例的基础上,为了减少计算率,不会将第二图像之前的所有图像的特征都放入到存储池中;而是,选取了视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第一图像之间的n帧图像。并且采用动态采样的方式,第0帧图像可以随着时间的继续被新的第0帧图像所替换,然后,第一图像、n帧图像也被更新替换。一方面减少了计算量;另一方面,可以充分利用过去帧图像的目标对象的特征,重复利用过去帧图像所构成时序信息。将第一特征输入至分割模型中的特征编码器中,输出编码特征。将第二特征输入至分割模型的特征解码器中,得到解码特征。进而在后续的步骤中,结合编码特征和解码特征,对第二图像进行图像分割。上述过程中,在对第二图像进行分割的过程中,区分出特征编码器和特征解码器;将多个过去帧所构成的第一特征,作为特征编码器的输入,进而增强了过去帧的目标对象的表征和特征鲁棒性;将待分割的第二图像的第二特征,作为特征解码器的输入,进而增强了当前帧图像的目标对象的表征和特征鲁棒性。并且,在结合编码特征和解码特征对第二图像进行图像分割的过程中,基于第一交叉注意力模型对过去帧图像的特征进行处理,第一交叉注意力模型除了处理过去帧图像的特征,还引入了当前帧图像的特征;基于第二交叉注意力模型对当前帧图像的特征进行处理,第二交叉注意力模型除了处理当前帧图像的特征,还引入了过去帧图像的特征;从而,增强了第一交叉注意力模型所输出的到编码特征的目标对象的表征,增强了第二交叉注意力模型所输出的到到解码特征的目标对象的表征,从而使得目标对象的表征更有辨识度,提升了过去帧图像中的目标对象的信息相当前帧传递的传递准确度、鲁棒性。
173.图8为本技术实施例提供的一种用于图像分割的分割模型的训练方法的流程图,如图8所示,该方法包括:
174.401、重复以下各步骤,直至到预设条件。
175.示例性地,本实施例需要对初始模型进行训练,以得到分割模型。重复执行以下步骤402-406,直至到预设条件。其中,达到预设条件时所得到的分割模型,用于对图像进行图像分割,以得到目标对象。
176.一个示例中,预设条件为以下的任意一种:迭代次数大于预设次数阈值、每一第二图像的分割图像中的目标对象与每一第二图像被标注出的目标对象一致。
177.402、获取第一图像和第二图像,其中,第二图像为当前帧图像,第一图像为时间位于第二图像之前的图像;第二图像被标注出目标对象。
178.示例性地,从监控设备或本地中获取待处理的当前帧图像,将当前帧图像作为第二图像。已经对多帧图像中每一图像进行了目标对象的分割,即,多帧图像中每一图像已经标注出了目标对象,即,多帧图像中每一图像具有分割图像;其中,多帧图像中的第一帧图像中的目标对象可以是用户所标注的。并且,第二图像也具有分割图像,第二图像被标注出目标对象。
179.需要注意的是,本实施例中的第一图像和第二图像均为待训练的图像。
180.403、将第一图像输入至初始模型的第一模型中,得到第一图像的图像特征,并将图像特征存储至初始模型的存储池中,得到第一特征;其中,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
181.示例性地,在初始模型中包括有孪生网络,孪生网络中包括第一模型和第二模型;孪生网络中的第一模型和第二模型可以共享权重。例如,孪生网络的第一模型为残差网络模型,第二模型为残差网络模型。
182.将第一图像输入到初始模型的第一模型中,进而基于第一模型对第一图像进行特征提取,得到第一图像的图像特征,图像特征可以为第一图像的层级特征。在初始模型中部署了存储池(memory bank);将第一图像的图像特征存储至初始模型的存储池中,进而将第一图像的图像特征融合入位于第一图像之前的各图像的图像特征中;由于随着视频的图像的分割的进行,已经将多帧图像中的每帧图像标注出了目标对象,其中,多帧图像包括第一图像、以及位于第二图像之前的多个图像;将多帧图像中的每帧图像的图像特征,放入到了存储池中;然后,从存储池中提取第一特征。可知,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
183.初始模型的结构可以参见图2所示的结构。
184.举例来说,第二图像为第t帧图像。其中,t为大于等于1的正整数;多帧图像中包括取视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第一图像之间的n帧图像。其中,n为大于等于0的整数。其中,第0帧图像可以随着时间的继续被新的第0帧图像所替换。
185.404、将第二图像输入至初始模型的第二模型中,得到第二图像的第二特征;其中,第一模型和第二模型为孪生网络下的两个模型。
186.示例性地,如图2所示,将第二图像输入到初始模型的第二模型中,进而基于第二模型对第二图像进行特征提取,得到第二图像的第二特征,第二特征可以为第二图像的层级特征。
187.在上述过程中,在第一特征中加入了多帧图像中每帧图像的图像特征,从而基于孪生网络的权重共享特性,随着分割过程不断进行,将当前帧图像变为后续的第一图像,即,将当前帧变成过去帧;从而当前帧图像特征可以作为后续的第一图像的特征;避免了特征的重复提取,提高了训练的效率和速度。
188.405、基于初始模型对第一特征和第二特征进行编解码处理,得到第二图像的分割图像,其中,第二图像的分割图像被标注出目标对象。
189.示例性地,在得到第一特征和第二特征之后,基于初始模型对第一特征和第二特
征进行编解码处理(包括编码处理和解码处理),进而对第二图像进行分割,得到第二图像的分割图像。进而对第二图像标注出目标对象,第二图像的分割图像也被标注出目标对象。本次所得到第二图像,可以作为后续分割过程中的第一图像。
190.例如,分割图像可以为二值图像。如图2所示,可以对第二图像中的每一目标对象进行单独的分割处理。
191.406、基于第二图像的分割图像和第二图像被标注出的目标对象,对初始模型进行参数调整。
192.一个示例中,步骤406包括:基于损失函数对第二图像的分割图像和第二图像被标注出的目标对象进行计算处理,得到计算结果;基于计算结果对初始模型进行参数调整。
193.示例性地,由于第二图像已经被标注出的目标对象;将步骤406所得到第二图像的分割图像与第二图像被标注出的目标对象进行比对,根据两者的一致性,对初始模型进行参数调整。
194.可以基于损失函数对第二图像的分割图像和第二图像被标注出的目标对象进行计算处理;进而基于计算处理,对初始模型的参数进行参数调整。
195.在步骤402-406的执行次数(即,迭代次数)大于预设次数阈值的时候,停止执行本实施例的步骤,可以得到分割模型。或者,在每一第二图像的分割图像中的目标对象与每一第二图像被标注出的目标对象一致的时候,停止执行本实施例的步骤,可以得到分割模型。
196.本实施例中,在对初始模型进行训练的过程中,获取第一图像和第二图像,第二图像为当前帧图像,第一图像为时间位于第二图像之前的图像;将第一图像输入至初始模型的第一模型中,得到第一图像的图像特征,并将图像特征存储至初始模型的存储池中,得到第一特征;第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象;将第二图像输入至初始模型的第二模型中,得到第二图像的第二特征;第一模型和第二模型为孪生网络下的两个模型;从而,在第一特征中加入了多帧图像中每帧图像的图像特征,从而基于孪生网络的权重共享特性,随着分割过程不断进行,将当前帧图像变为后续的第一图像,即,将当前帧变成过去帧;从而当前帧图像特征可以作为后续的第一图像的特征;避免了特征的重复提取。然后基于初始模型对第一特征和第二特征进行编解码处理,得到第二图像的分割图像。由于上述过程中,避免了特征的重复提取,从而可以将特征进行复用,降低了图像分割的计算量,提高了模型的训练效率和速度。
197.图9为本技术实施例提供的另一种用于图像分割的初始模型的训练方法的流程图,如图9所示,该方法包括:
198.501、重复以下各步骤,直至到预设条件。
199.示例性地,本实施例需要对初始模型进行训练,以得到分割模型。重复执行以下步骤502-509,直至到预设条件。其中,达到预设条件时所得到的分割模型,用于对图像进行图像分割,以得到目标对象。
200.502、获取第一图像和第二图像,其中,第二图像为当前帧图像,第一图像为时间位于第二图像之前的图像。
201.示例性地,本步骤可以参见步骤402,不再赘述。
202.503、将第一图像输入至初始模型的第一模型中,输出第一图像的层级特征;确定
第一图像的层级特征中的c4特征,为第一图像的图像特征。在图像的通道维度上对图像特征进行变换映射处理,得到处理后的图像特征;其中,处理后的图像特征的通道数少于处理前的图像特征的通道数。
203.示例性地,预先训练出了初始模型,在初始模型中包括有孪生网络,孪生网络中包括第一模型和第二模型;孪生网络中的第一模型和第二模型可以共享权重。例如,孪生网络的第一模型为残差网络模型,第二模型为残差网络模型;或者,孪生网络的第一模型为卷积神经网络(convolutional neural networks,简称cnn)模型,第二模型为卷积神经网络模型;
204.初始模型的结构可以参见图4所示的结构,如图4所示,将第一图像输入到第一模型中,进而基于第一模型对第一图像进行特征提取,得到第一图像的层级特征;第一图像的层级特征(c1,c2,c3,c4,c5)包括c1特征、c2特征、c3特征、c4特征、c5特征。将第一图像的层级特征中的c4特征,作为第一图像的图像特征。本实施例中,将第一图像的层级特征中的c4特征,作为第一图像的图像特征;由于c4特征的分辨率较低、尺度较小,有利于降低后续的计算复杂度。
205.举例来说,第一图像的尺寸为256*256,则第一模型对第一图像进行特征提取之后,所得到的一图像的c1特征的尺寸为128*128,所得到的一图像的c2特征的尺寸为64*64,所得到的一图像的c3特征的尺寸为32*32,所得到的一图像的c4特征的尺寸为16*16,所得到的一图像的c5特征的尺寸为8*8。将第一图像的层级特征中的c4特征,作为第一图像的图像特征,可知,c4特征的尺寸比第一图像的尺寸缩小了16倍。
206.然后,在图像的通道维度上,对第一图像的图像特征进行变换映射处理,进而降低第一图像的图像特征的通道数,得到处理后的图像特征。一个示例中,基于初始模型中的卷积神经网络模型,在图像的通道维度上对第一图像的c4特征进行变换映射处理,减少第一图像的c4特征的通道数,可知,处理后的图像特征的通道数少于处理前的图像特征的通道数。
207.504、将处理后的图像特征存储至初始模型的存储池中,得到第一特征;其中,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
208.示例性地,如图4所示,将第一图像的图像特征存储至初始模型的存储池(即,memory bank)中。由于随着视频的图像的分割的进行,已经将多帧图像中的每帧图像标注出了目标对象,其中,多帧图像包括第一图像、以及位于第二图像之前的多个图像;将多帧图像中的每帧图像的图像特征,放入到了存储池中;进而取多帧图像中各图像的图像特征,作为第一特征;可知,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
209.本实施例中,第二图像为第t帧图像。其中,t为大于等于1的正整数;多帧图像中包括取视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第一图像之间的n帧图像。其中,n为大于等于0的整数。进而取n 2帧图像中各帧图像的c4特征,做为第一特征。其中,第0帧图像可以随着时间的继续被新的第0帧图像所替换。
210.本实施例中,为了减少计算率,不会将第二图像之前的所有图像的特征都放入到存储池中;而是,选取了视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第
一图像之间的n帧图像。并且采用动态采样的方式,第0帧图像可以随着时间的继续被新的第0帧图像所替换,然后,第一图像、n帧图像也被更新替换。一方面减少了计算量;另一方面,可以充分利用过去帧图像的目标对象的特征,重复利用过去帧图像所构成时序信息。
211.进而得到第一特征m∈r
zhw
×c。可知第一特征m为一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数;z为构成第一特征的图像的帧数。
212.505、将第二图像输入至初始模型的第二模型中,输出第二图像的层级特征;在图像的通道维度上对第二图像的层级特征中的c4特征进行变换映射处理,得到第二特征;其中,第二特征的通道数少于第二图像的层级特征中的c4特征的通道数。
213.其中,第一模型和第二模型为孪生网络下的两个模型。
214.示例性地,如图4所示,将第二图像输入到第二模型中,进而基于第二模型对第二图像进行特征提取,得到第二图像的层级特征;第二图像的层级特征(c1,c2,c3,c4,c5)包括cl特征、c2特征、c3特征、c4特征、c5特征。本实施例中,将第二图像的层级特征中的c4特征,作为第二图像的第二特征;由于c4特征的分辨率较低、尺度较小,有利于降低后续的计算复杂度。
215.然后,在图像的通道维度上,对第二图像的层级特征中的c4特征进行变换映射处理,进而降低第二图像的层级特征中的c4特征的通道数,得到第二特征。一个示例中,基于初始模型中的卷积神经网络模型,在图像的通道维度上对第二图像的层级特征中的c4特征进行变换映射处理,减少第二图像的层级特征中的c4特征的通道数,可知,第二特征的通道数少于第二图像的层级特征中的c4特征的通道数。
216.进而得到第二特征q∈r
hw
×c。可知第二特征q为一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数。
217.在本实施例中,由于存储池中的多帧图像中每帧图像已经被分割处理,每帧图像被标注出了目标对象;可知,已经得到了存储池中的多帧图像中每帧图像的分割图像。例如,分割图像为二值图像。
218.在每次分割处理的时候,已经对该多帧图像的每帧图像逐一进行了标签处理,此时的“标签处理”的过程为:在每次分割处理的时候,对作为当前帧图像之前的第一图像的分割图像进行特征提取,得到分割图像的层级特征;分割图像的层级特征(c1,c2,c3,c4,c5)包括c1特征、c2特征、c3特征、c4特征、c5特征;本实施例中,将分割图像的层级特征中的c4特征,作为分割图像的标签特征。然后,基于初始模型中的卷积神经网络模型,在图像的通道维度上对分割图像的标签特征进行变换映射处理,减少分割图像的标签特征的通道数,可知,处理后的标签特征的通道数少于处理前的标签特征的通道数。进而得到分割图像的处理后的标签特征。
219.或者,在每次分割处理的时候,已经对该多帧图像的每帧图像逐一进行了标签处理,此时的“标签处理”的过程为:在每次分割处理的时候,如图4所示,将多帧图像的每帧图像的分割图像,输入到轻量型标签编码器中,基于初始模型中的轻量型标签编码器(轻量型标签编码器,例如是alexnet编码器、浅层resnet编码器)对作为当前帧图像之前的第一图像的分割图像进行特征提取,得到分割图像的标签特征。然后,基于初始模型中的卷积神经网络模型,在图像的通道维度上对分割图像的标签特征进行变换映射处理,减少分割图像的标签特征的通道数,可知,处理后的标签特征的通道数少于处理前的标签特征的通道数。
进而得到分割图像的处理后的标签特征。需要注意的是,每次分割的时候,是对当前的第一图像的分割进行依次处理,进而使得第三特征累加了多帧图像的各分割图像的特征;并且,本实施例中,可以对第一图像的各目标对象进行处理,进而保证可以对第二图像中的每一目标对象进行分割。
220.然后,存储池中的多帧图像中每帧图像的分割图像的处理后的标签特征,组成了第三特征me∈r
zhw
×c。即,第三特征me中包括存储池中的多帧图像中各帧图像的分割图像的处理后的标签特征。
221.可知第三特征me为一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数;z为构成第一特征的图像的帧数。
222.可知,第一特征、第二特征、第三特征在高度上相同;并且,第一特征、第二特征、第三特征在宽度上相同;并且,第一特征、第二特征、第三特征在通道数上相同。
223.本实施例执行一次步骤502-509,是对一个第二图像进行分割。随着对视频中的图像序列的分割,第二特征在不断累加,并且第三特征在不断累加。但是在本实施例中,第二特征只需n 2帧图像的特征,第三特征只需n 2帧图像的特征。例如,取视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第一图像之间的n帧图像;其中,第0帧图像可以随着时间的继续被新的第0帧图像所替换。
224.506、将第一特征输入至初始模型中的特征编码器中,得到编码特征。
225.一个示例中,步骤506包括以下步骤:
226.步骤506的第一步骤、将第一特征输入至初始模型中的特征编码器中,对第一特征进行特征建模处理,以将第一特征映射到多个维度上,得到增强后的第一特征。一个示例中,增强后的第一特征包括第一维度上的第一特征、第二维度上的第一特征、以及第三维度上的第一特征。
227.步骤506的第二步骤、对增强后的第一特征进行卷积处理,得到编码特征;其中,编码特征的通道数少于增强后的第一特征的通道数。一个示例中,步骤506的第二步骤,包括:对第一维度上的第一特征、第二维度上的第二特征、以及第三维度上的第二特征进行卷积处理,得到编码特征。
228.示例性地,在本实施例中,步骤506和步骤507可以同时执行。
229.在初始模型中部署有特征编码器encoder和特征解码器decoder。将第一特征输入至初始模型中的特征编码器encoder中,输出编码特征。在步骤507中将第二特征输入至初始模型的特征解码器decoder中,得到解码特征。进而在后续的步骤中,结合编码特征和解码特征,对第二图像进行图像分割。上述过程中,在对第二图像进行分割的过程中,区分出特征编码器encoder和特征解码器decoder;将多个过去帧所构成的第一特征,作为特征编码器encoder的输入,进而增强了过去帧的目标对象的表征和特征鲁棒性;将待分割的第二图像的第二特征,作为特征解码器decoder的输入,进而增强了当前帧图像的目标对象的表征和特征鲁棒性。
230.一个示例中,在实现步骤506的时候,可以采用以下方式。将第一特征输入至初始模型中的特征编码器encoder中,进而基于特征编码器encoder对第一特征进行特征建模处理,从而在时空上对第一特征进行特征增强,将第一特征映射到多个维度上,得到增强后的第一特征。增强后的第一特征包括第一维度q上的第一特征、第二维度k上的第一特征、以及
第三维度v上的第一特征。
231.然后,基于特征编码器encoder对增强后的第一特征进行卷积处理,以降低增强后的第一特征的通道数,得到编码特征。在本实施例中步骤506和步骤507同时执行,进而在步骤507中已经得到了增强后的第二特征;增强后的第二特征包括第一维度q上的第二特征、第二维度k上的第二特征、以及第三维度v上的第二特征。一个示例中,在对增强后的第一特征进行卷积处理的时候,可以对第一维度q上的第一特征、第二维度k上的第二特征、以及第三维度v上的第二特征进行卷积处理,得到编码特征。第二特征属于当前帧图像的特征,第一特征属于过去帧图像的特征,而过去帧图像中已经被标注出了目标对象,从而将过去帧图像中的目标对象的时序上下文信息传递到当前帧图像的特征中,以便于完成对当前帧图像进行特定的目标对象的分割处理。
232.上述过程中,通过步骤506和507,将特征编码器encoder和特征解码器decoder分离,基于特征编码器encoder处理第一特征(即,基于特征编码器encoder处理多个过去帧图像的特征),构建出目标对象的时空序列特征,进而增强目标对象的特征表达,目标对象的时空序列特征具有很高的辨识性,有利于对当前帧图像进行目标对象的分割。基于特征解码器decoder做为当前帧图像的特征处理的载体,结合多个过去帧图像的特征对当前帧图像中的目标对象的特征进行增强,从而实现对当前帧图像的目标对象的分割。
233.在实现步骤506的时候,具体可以采用以下方式。
234.一个示例中,步骤506的第一步骤,包括:基于特征编码器中的第一自注意力(self-attention,简称sa)模型,对第一特征进行特征建模处理,以将第一特征映射到多个维度上,得到增强后的第一特征。
235.步骤506的第二步骤,包括:基于特征编码器中的第一交叉注意力(cross-attention,简称ca)模型对第一维度上的第一特征、第二维度上的第二特征、以及第三维度上的第二特征进行卷积处理,得到卷积处理后的特征;对该卷积处理后的特征进行残差连接处理和归一化处理,得到编码特征。
236.示例性地,在本实施例中,初始模型中的特征编码器encoder包括第一自注意力模型sal、第一交叉注意力模型cal。初始模型中的特征解码器decoder包括第二自注意力模型sa2、第二交叉注意力模型ca2、以及第三交叉注意力模型ca3。
237.如图4所示,将第一特征输入到特征编码器中的第一自注意力模型sal中,基于第一自注意力模型sal的卷积层将第一特征映射到第一维度q、第二维度k、第三维度v这三个维度上,即,对第一特征进行特征建模处理(即,在时空上对第一特征进行特征增强),得到第一维度q的第一特征、第二维度k的第一特征、第三维度v的第一特征。然后,基于第一自注意力模型的公式对第一维度q的第一特征、第二维度k的第一特征、第三维度v的第一特征进行计算处理,得到增强后的第一特征m
sa
∈r
zhw
×c。增强后的第一特征m
sa
一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数;z为构成第一特征的图像的帧数。其中,增强后的第一特征m
sa
中包括第一维度q的第一特征、第二维度k的第一特征、第三维度v的第一特征。
238.其中,第一自注意力模型的公式为其中,q1为第一维度q的第一特征,k1为第二维度k的第一特征,v1为第三维度v的第一特征。
k1
t
为k1的转置矩阵。d1k为k1的通道数。基于该注意力模型的公式,通过ql和k1来计算相似度矩阵,基于相似度矩阵中的每一个元素作为权值,将v1映射生成新的输出。其中,第一自注意力模型的公式中的ql、k1、vl的大小相同。
239.然后,初始模型的特征交互模块可以参见图5所示,如图5所示,图4中的特征交互模块包括第一交叉注意力模型和第二交叉注意力模型,基于特征编码器中的第一交叉注意力模型cal的公式对第一维度q上的第一特征、第二维度k上的第二特征、以及第三维度v上的第二特征进行卷积处理,得到卷积处理后的特征。其中,第一交叉注意力模型cal的公式可以采用上述第一自注意力模型的公式。但是,第一自注意力模型的公式中的q1、k1、v1的大小可以不同。然后,对此时所得到卷积处理后的特征进行残差连接处理和归一化处理,得到编码特征m
out
∈r
hw
×c。
240.可知,编码特征中包括过去帧图像中的目标对象的特征、以及当前帧图像的特征;将过去帧图像中的目标对象的时序上下文信息传递到当前帧图像的特征中,以便于完成对当前帧图像进行特定的目标对象的分割处理。
241.507、将第二特征输入至初始模型的特征解码器中,得到解码特征。
242.一个示例中,步骤507包括以下步骤:
243.步骤507的第一步骤、将第二特征输入至初始模型的特征解码器中,对第二特征进行特征建模处理,以将第二特征映射到多个维度上,得到增强后的第二特征。一个示例中,增强后的第二特征包括第一维度上的第二特征、第二维度上的第二特征、以及第三维度上的第二特征。
244.步骤507的第二步骤、对增强后的第二特征进行卷积处理,得到解码特征;其中,解码特征的通道数少于增强后的第二特征的通道数。一个示例中,步骤507的第二步骤,包括:获取多帧图像中每一图像的目标对象的特征,对多帧图像中每一图像的目标对象的特征、以及第一特征进行融合处理,得到融合特征。对第一维度上第二特征、第二维度上的第一特征、以及融合特征进行卷积处理,得到解码特征;其中,融合特征包括多帧图像中各图像中的目标对象的特征、以及第一特征。
245.示例性地,在步骤507中将第二特征输入至初始模型的特征解码器decoder中,得到解码特征。进而在后续的步骤中,结合编码特征和解码特征,对第二图像进行图像分割。将待分割的第二图像的第二特征,作为特征解码器decoder的输入,进而增强了当前帧图像的目标对象的表征和特征鲁棒性。
246.一个示例中,在实现步骤507的时候,可以采用以下方式。将第二特征输入至初始模型的特征解码器decoder中,进而基于特征解码器decoder对第二特征进行特征建模处理,从而在时空上对第二特征进行特征增强,将第二特征映射到多个维度上,得到增强后的第二特征。增强后的第二特征包括第一维度q上的第二特征、第二维度k上的第二特征、以及第三维度v上的第二特征。
247.然后,基于特征解码器decoder对增强后的第二特征进行卷积处理,以降低增强后的第二特征的通道数,得到解码特征。在本实施例中步骤506和步骤507同时执行,进而在步骤506中已经得到了增强后的第一特征;增强后的第一特征包括第一维度q上的第一特征、第二维度k上的第一特征、以及第三维度v上的第一特征。
248.一个示例中,在对增强后的第二特征进行卷积处理的时候,可以先获取融合特征,
存储池中多帧图像中每一帧图像的目标对象的特征;此时,参见上述步骤,每一帧图像的目标对象的特征,为存储池中的多帧图像中每帧图像的分割图像的处理后的标签特征;存储池中的多帧图像中每帧图像的分割图像的处理后的标签特征,组成了第三特征。将第三特征me、以及第一特征m进行融合处理,得到融合特征。然后,对第一维度q上第二特征、第二维度k上的第一特征、以及融合特征进行卷积处理,得到解码特征。第二特征属于当前帧图像的特征,第一特征属于过去帧图像的特征,而过去帧图像中已经被标注出了目标对象,从而将过去帧图像中的目标对象的时序上下文信息传递到当前帧图像的特征中,同时,将过去帧图像中的目标对象的特征与当前帧图像的特征进行结合,以便于完成对当前帧图像进行特定的目标对象的分割处理。
249.在实现步骤507的时候,具体可以采用以下方式。
250.一个示例中,步骤507的第一步骤,包括:基于特征解码器中的第二自注意力模型,对第二特征进行特征建模处理,以将第二特征映射到多个维度上,得到增强后的第二特征。
251.步骤507的第二步骤,包括:基于特征解码器中的第二交叉注意力模型对第一维度上第二特征、第二维度上的第一特征、以及融合特征进行卷积处理,得到卷积处理后的特征;对该卷积处理后的特征进行残差连接处理和归一化处理,得到解码特征。
252.示例性地,初始模型中的特征解码器decoder包括第二自注意力模型sa2、第二交叉注意力模型ca2、以及第三交叉注意力模型ca3。
253.如图4所示,将第二特征输入到特征解码器的第二自注意力模型sa2中,基于第二自注意力模型sa2将第二特征映射到第一维度q、第二维度k、第三维度v这三个维度上,即,对第二特征进行特征建模处理(即,在时空上对第二特征进行特征增强),得到第一维度q的第二特征、第二维度k的第二特征、第三维度v的第二特征。然后,基于第二自注意力模型的公式对第一维度q的第二特征、第二维度k的第二特征、第三维度v的第二特征进行计算处理,得到增强后的第二特征q
sa
∈r
hw
×c。增强后的第二特征q
sa
一个特征图,其中,h为特征图的高度、w为特征图的宽度、c为特征图的通道数。其中,增强后的第一特征q
sa
中包括第一维度q的第二特征、第二维度k的第二特征、第三维度v的第二特征。
254.其中,第二自注意力模型的公式为其中,q2为第一维度q的第二特征,k2为第二维度k的第二特征,v2为第三维度v的第二特征。k2
t
为k2的转置矩阵。d2k为k2的通道数。基于该注意力模型的公式,通过q2和k2来计算相似度矩阵,基于相似度矩阵中的每一个元素作为权值,将v2映射生成新的输出。其中,第二自注意力模型的公式中的q2、k2、v2的大小相同。
255.参见上述步骤,可以得到融合特征。
256.然后,如图5所示,基于特征解码器中的第二交叉注意力模型ca2的公式对第一维度q上的第二特征、第二维度k上的第一特征、以及融合特征进行卷积处理,得到卷积处理后的特征。其中,第二交叉注意力模型ca2的公式可以采用上述第二自注意力模型的公式。但是,第二自注意力模型的公式中的q2、k2、v2的大小可以不同。然后,对此时所得到卷积处理后的特征进行残差连接处理和归一化处理,得到解码特征q
out
∈r
hw
×c。
257.其中,上述残差连接处理,是对特征进行相加处理。
258.在特征交互模块中,第一交叉注意力模型除了处理过去帧图像的特征,还引入了
当前帧图像的特征;第二交叉注意力模型除了处理当前帧图像的特征,还引入了过去帧图像的特征;从而,增强了第一交叉注意力模型所输出的到编码特征m
out
的目标对象的表征,增强了第二交叉注意力模型所输出的到到解码特征q
out
的目标对象的表征,从而使得目标对象的表征更有辨识度,提升了过去帧图像中的目标对象的信息相当前帧传递的传递准确度、鲁棒性。
259.通过步骤506和507的过程,通过特征编码器encoder上第一交叉注意力模型ca1和特征解码器decoder上第二交叉注意力模型ca2,将当前帧图像的目标对象的特征,进入到过去帧图像的特征中,得到编码特征m
out
,并且,将过去帧图像中的目标对象的时序上下文信息,传递到当前帧图像的特征中,得到解码特征q
out
。然后,将特征编码器encoder所输出的编码特征m
out
、特征解码器decoder所输出的解码特征q
out
,作为特征解码器decoder中的第三交叉注意力模型ca3的输入;进而实现目标对象的特征信息,可以从过去帧图像向当前帧图像进行有效的传递。
260.508、基于初始模型对编码特征和解码特征进行处理,得到第二图像的分割图像。其中,第二图像的分割图像被标注出目标对象。
261.步骤508包括以下步骤:
262.步骤508的第一步骤、对编码特征和解码特征进行卷积处理,得到待处理特征。一个示例中,步骤508的第一步骤包括:基于特征解码器中的第三交叉注意力模型对编码特征和解码特征进行卷积处理,得到待处理特征。
263.步骤508的第二步骤、对待处理特征进行矩阵变换处理,得到变换后的待处理特征;其中,变换后的待处理特征为三维矩阵,变换前的待处理特征为二维矩阵。
264.步骤508的第三步骤、基于初始模型的分割解码器对待处理特征进行处理,得到第二图像的分割图像。一个示例中,步骤508的第三步骤包括:基于初始模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第二图像的分割图像。
265.示例性地,基于初始模型对编码特征m
out
和解码特征q
out
进行处理,得到第二图像的分割图像。
266.一个示例中,基于初始模型的特征解码器decoder对编码特征m
out
和解码特征q
out
进行卷积处理,得到待处理特征。此时,可以基于特征解码器中的第三交叉注意力模型的公式,对编码特征m
out
和和解码特征q
out
进行卷积处理,得到待处理特征t
out
∈r
hw
×c。其中,第三交叉注意力模型ca3的公式可以采用上述第二自注意力模型的公式。但是,第三交叉注意力模型ca3中的q2、k2、v2的大小可以不同。然后,对待处理特征t
out
∈r
hw
×c进行矩阵变换处理,得到变换后的待处理特征t`
out
∈rh×w×c;从而将二维矩阵的待处理特征,变换为三维矩阵的待处理特征。
267.然后,采用初始模型的分割解码器对待处理特征t`
out
进行处理,输出第二图像的分割图像。一个示例中,由于通过前面的步骤,得到了第二图像的层级特征;从而,提取出第二图像的层级特征中的c3特征;然后,采用初始模型的分割解码器对待处理特征t`
out
、以及第二图像的层级特征中的c3特征进行处理,输出第二图像的分割图像。
268.一个示例中,步骤508的第三步骤,可以采用以下方式实现:
269.基于初始模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征
进行卷积处理,得到第一输出特征。
270.一个示例中,“基于初始模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第一输出特征”包括:基于初始模型的分割解码器对待处理特征进行上次采样处理,得到第一上采样特征;其中,第一上采样特征的维度大于待处理特征的维度;将第一上采样特征、以及第二图像的层级特征中的c3特征进行特征融合,得到第一中间特征,并对第一中间特征进行卷积处理,得到第一输出特征。
271.基于初始模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征。
272.一个示例中,“基于初始模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征”包括:基于初始模型的分割解码器对第一输出特征进行上次采样处理,得到第二上采样特征;其中,第二上采样特征的维度大于第一输出特征的维度;对第二上采样特征、以及第二图像的层级特征中的c2特征进行特征融合,得到第二中间特征,并对第二中间特征进行卷积处理,得到第二输出特征。
273.对第二输出特征进行卷积处理和分割处理,得到第二图像的分割图像。
274.一个示例中,“对第二输出特征进行卷积处理和分割处理,得到第二图像的分割图像”包括:对第二输出特征进行卷积处理和分割处理,得到初始分割图像;对初始分割图像进行上采样处理,得到第二图像的分割图像。
275.示例性地,由于通过前面的步骤,得到了第二图像的层级特征;从而,提取出第二图像的层级特征中的c3特征;然后,采用初始模型的分割解码器对待处理特征t`
out
、以及第二图像的层级特征中的c3特征进行处理,得到第一输出特征。然后,提取出第二图像的层级特征中的c2特征;采用初始模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征。经过前面的两次处理之后,已经对待处理特征t`
out
的尺寸进行调整,再对第二输出特征进行卷积处理和分割处理,就可以得到与第二图像的尺寸相同的第二图像的分割图像。
276.一个示例中,初始模型分割解码器可以参见图7所示,如图7所示,分割解码器包括第一细化模块、第二细化模块、一个2通道的卷积层、以及一个softmax层。先将待处理特征t`
out
、以及第二图像的层级特征中的c3特征,输入到第一细化模块中;基于第一细化模块对待处理特征t`
out
进行2倍的上采样处理,进而将待处理特征t`
out
的尺寸扩大2倍(在h、w这2个维度上将待处理特征t`
out
的尺寸扩大2倍),得到第一上采样特征;可知,第一上采样特征的维度大于待处理特征t`
out
的维度(即,第一上采样特征的尺寸大于待处理特征t`
out
的尺寸)。
277.再将第一上采样特征、以及第二图像的层级特征中的c3特征进行特征相加处理,进而完成特征融合,得到第一中间特征。基于第一细化模块的两个卷积层对第一中间特征进行两次卷积处理,得到第一输出特征。
278.此时,第一输出特征的尺寸是待处理特征t`
out
的尺寸的2倍;并且,第一输出特征融合了待处理特征t`
out
、以及第二图像的层级特征中的c3特征。
279.将第一输出特征,输入到第二细化模块中;基于第二细化模块对第一输出特征进行2倍的上采样处理,进而将第一输出特征的尺寸扩大2倍(在h、w这2个维度上将第一输出特征的尺寸扩大2倍),得到第二上采样特征;可知,第二上采样特征的维度大于第一输出特
征的维度(即,第二上采样特征的尺寸大于第一输出特征的尺寸)。
280.再对第二上采样特征、以及第二图像的层级特征中的c2特征进行特征相加处理,进而完成特征融合,得到第二中间特征。基于第二细化模块的两个卷积层对第二中间特征进行两次卷积处理,得到第二输出特征。
281.将第二输出特征输入至分割解码器的2通道的卷积层,进行卷积处理,得到处理后的第二输出特征;将处理后的第二输出特征输入至分割解码器的softmax层,进行分割处理,得到初始分割图像。此时,初始分割图像的尺寸是第二图像的尺寸的1/4。
282.最后,对初始分割图像进行4倍上采样处理,进而初始分割图像的尺寸扩大4倍,生成最终的分割预测图,即,生成第二图像的分割图像。
283.509、基于第二图像的分割图像和第二图像被标注出的目标对象,对初始模型进行参数调整。
284.示例性地,参见上述步骤406,不再赘述。在步骤502-509的执行次数(即,迭代次数)大于预设次数阈值的时候,停止执行本实施例的步骤,可以得到分割模型。或者,在每一第二图像的分割图像中的目标对象与每一第二图像被标注出的目标对象一致的时候,停止执行本实施例的步骤,可以得到分割模型。
285.本实施例中,在上述实施例的基础上,为了减少计算率,不会将第二图像之前的所有图像的特征都放入到存储池中;而是,选取了视频的第0帧图像、第一图像(即,第t-1图像)、位于第0帧图像与第一图像之间的n帧图像。并且采用动态采样的方式,第0帧图像可以随着时间的继续被新的第0帧图像所替换,然后,第一图像、n帧图像也被更新替换。一方面减少了计算量;另一方面,可以充分利用过去帧图像的目标对象的特征,重复利用过去帧图像所构成时序信息。将第一特征输入至初始模型中的特征编码器中,输出编码特征。将第二特征输入至初始模型的特征解码器中,得到解码特征。进而在后续的步骤中,结合编码特征和解码特征,对第二图像进行图像分割。上述过程中,在对第二图像进行分割的过程中,区分出特征编码器和特征解码器;将多个过去帧所构成的第一特征,作为特征编码器的输入,进而增强了过去帧的目标对象的表征和特征鲁棒性;将待分割的第二图像的第二特征,作为特征解码器的输入,进而增强了当前帧图像的目标对象的表征和特征鲁棒性。并且,在结合编码特征和解码特征对第二图像进行图像分割的过程中,基于第一交叉注意力模型对过去帧图像的特征进行处理,第一交叉注意力模型除了处理过去帧图像的特征,还引入了当前帧图像的特征;基于第二交叉注意力模型对当前帧图像的特征进行处理,第二交叉注意力模型除了处理当前帧图像的特征,还引入了过去帧图像的特征;从而,增强了第一交叉注意力模型所输出的到编码特征的目标对象的表征,增强了第二交叉注意力模型所输出的到到解码特征的目标对象的表征,从而使得目标对象的表征更有辨识度,提升了过去帧图像中的目标对象的信息相当前帧传递的传递准确度、鲁棒性。通过上述过程,所得到分割模型可以准确的对图像进行识别。
286.图10为本技术实施例提供的一种基于视频的图像分割装置的结构示意图,如图10所示,该装置包括:
287.第一获取单元61,用于获取第一图像和第二图像,其中,第二图像为当前帧图像,第一图像为时间位于第二图像之前的图像。
288.第一处理单元62,用于将第一图像输入至分割模型的第一模型中,得到第一图像
的图像特征。
289.存储单元63,用于将图像特征存储至分割模型的存储池中,得到第一特征;其中,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
290.第二处理单元64,用于将第二图像输入至分割模型的第二模型中,得到第二图像的第二特征;其中,第一模型和第二模型为孪生网络下的两个模型。
291.第三处理单元65,用于基于分割模型对第一特征和第二特征进行编解码处理,得到第二图像的分割图像,其中,第二图像的分割图像被标注出目标对象。
292.示例性地,本实施例可以参见上述方法实施例,其原理和技术效果类似,不再赘述。
293.图11为本技术实施例提供的另一种基于视频的图像分割装置的结构示意图,在图10所示实施例的基础上,如图11所示,第三处理单元65,包括:
294.编码模块651,用于将第一特征输入至分割模型中的特征编码器中,得到编码特征。
295.解码模块652,用于将第二特征输入至分割模型的特征解码器中,得到解码特征。
296.第一处理模块653,用于基于分割模型对编码特征和解码特征进行处理,得到第二图像的分割图像。
297.一个示例中,第一处理模块653,包括:
298.第一卷积子模块,用于对编码特征和解码特征进行卷积处理,得到待处理特征。
299.分割子模块,用于基于分割模型的分割解码器对待处理特征进行处理,得到第二图像的分割图像。
300.一个示例中,编码模块65l,包括:
301.第一增强子模块,用于将第一特征输入至分割模型中的特征编码器中,对第一特征进行特征建模处理,以将第一特征映射到多个维度上,得到增强后的第一特征。
302.第二卷积子模块,用于对增强后的第一特征进行卷积处理,得到编码特征;其中,编码特征的通道数少于增强后的第一特征的通道数。
303.一个示例中,解码模块652,包括:
304.第二增强子模块,用于将第二特征输入至分割模型的特征解码器中,对第二特征进行特征建模处理,以将第二特征映射到多个维度上,得到增强后的第二特征。
305.第三卷积子模块,用于对增强后的第二特征进行卷积处理,得到解码特征;其中,解码特征的通道数少于增强后的第二特征的通道数。
306.一个示例中,增强后的第一特征包括第一维度上的第一特征、第二维度上的第一特征、以及第三维度上的第一特征;增强后的第二特征包括第一维度上的第二特征、第二维度上的第二特征、以及第三维度上的第二特征。
307.第二卷积子模块,具体用于:对第一维度上的第一特征、第二维度上的第二特征、以及第三维度上的第二特征进行卷积处理,得到编码特征。
308.第三卷积子模块,具体用于:对第一维度上第二特征、第二维度上的第一特征、以及融合特征进行卷积处理,得到解码特征;其中,融合特征包括多帧图像中各图像中的目标对象的特征、以及第一特征。
309.一个示例中,本实施例提供的装置,还包括:
310.第二获取单元71,用于获取多帧图像中每一图像的目标对象的特征,对多帧图像中每一图像的目标对象的特征、以及第一特征进行融合处理,得到融合特征。
311.一个示例中,第一增强子模块,具体用于:基于特征编码器中的第一自注意力模型,对第一特征进行特征建模处理。
312.第二卷积子模块,具体用于:基于特征编码器中的第一交叉注意力模型对第一维度上的第一特征、第二维度上的第二特征、以及第三维度上的第二特征进行卷积处理,得到卷积处理后的特征;对该卷积处理后的特征进行残差连接处理和归一化处理,得到编码特征。
313.一个示例中,第二增强子模块,具体用于:基于特征解码器中的第二自注意力模型,对第二特征进行特征建模处理。
314.第三卷积子模块,具体用于:基于特征解码器中的第二交叉注意力模型对第一维度上第二特征、第二维度上的第一特征、以及融合特征进行卷积处理,得到卷积处理后的特征;对该卷积处理后的特征进行残差连接处理和归一化处理,得到解码特征。
315.一个示例中,第一卷积子模块,具体用于:基于特征解码器中的第三交叉注意力模型对编码特征和解码特征进行卷积处理,得到待处理特征。
316.一个示例中,分割子模块,具体用于:基于分割模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第二图像的分割图像。
317.一个示例中,分割子模块,具体用于基于分割模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第二图像的分割图像时,具体用于:基于分割模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第一输出特征;基于分割模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征;对第二输出特征进行卷积处理和分割处理,得到第二图像的分割图像。
318.一个示例中,分割子模块,用于基于分割模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第一输出特征时,具体用于:基于分割模型的分割解码器对待处理特征进行上次采样处理,得到第一上采样特征;其中,第一上采样特征的维度大于待处理特征的维度;将第一上采样特征、以及第二图像的层级特征中的c3特征进行特征融合,得到第一中间特征,并对第一中间特征进行卷积处理,得到第一输出特征。
319.一个示例中,分割子模块,用于基于分割模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征时,具体用于:基于分割模型的分割解码器对第一输出特征进行上次采样处理,得到第二上采样特征;其中,第二上采样特征的维度大于第一输出特征的维度;对第二上采样特征、以及第二图像的层级特征中的c2特征进行特征融合,得到第二中间特征,并对第二中间特征进行卷积处理,得到第二输出特征。
320.一个示例中,分割子模块,用于对第二输出特征进行卷积处理和分割处理,得到第二图像的分割图像时,具体用于:对第二输出特征进行卷积处理和分割处理,得到初始分割图像;对初始分割图像进行上采样处理,得到第二图像的分割图像。
321.一个示例中,第一处理模块653,还包括:转换子模块,用于在分割子模块基于分割模型的分割解码器对待处理特征进行处理,得到第二图像的分割图像之前,对待处理特征进行矩阵变换处理,得到变换后的待处理特征;其中,变换后的待处理特征为三维矩阵,变换前的待处理特征为二维矩阵。
322.一个示例中,第一处理单元62,包括:
323.第二处理模块,用于将第一图像输入至分割模型的第一模型中,输出第一图像的层级特征。
324.第三处理模块,用于确定第一图像的层级特征中的c4特征,为图像特征。
325.一个示例中,本实施例提供的装置,还包括:变换模块,用于在存储单元63将图像特征存储至分割模型的存储池中,得到第一特征之前,在图像的通道维度上对图像特征进行变换映射处理,得到处理后的图像特征;其中,处理后的图像特征的通道数少于处理前的图像特征的通道数。
326.一个示例中,第二处理单元64,具体用于:
327.将第二图像输入至分割模型的第二模型中,输出第二图像的层级特征;在图像的通道维度上对第二图像的层级特征中的c4特征进行变换映射处理,得到第二特征;其中,第二特征的通道数少于第二图像的层级特征中的c4特征的通道数。
328.示例性地,本实施例可以参见上述方法实施例,其原理和技术效果类似,不再赘述。
329.图12为本技术实施例提供的一种用于图像分割的分割模型的训练装置的结构示意图,如图12所示,该装置包括:
330.执行单元81,用于重复以下各步骤,直至到预设条件。
331.第一获取单元82,用于获取第一图像和第二图像,其中,第二图像为当前帧图像,第一图像为时间位于第二图像之前的图像;第二图像被标注出目标对象。
332.第一处理单元83,用于将第一图像输入至初始模型的第一模型中,得到第一图像的图像特征。
333.存储单元84,用于将图像特征存储至初始模型的存储池中,得到第一特征。其中,第一特征包括多帧图像的图像特征,多帧图像中的图像均为时间位于第二图像之前的图像,多帧图像中的每帧图像均标注出目标对象。
334.第二处理单元85,用于将第二图像输入至初始模型的第二模型中,得到第二图像的第二特征;其中,第一模型和第二模型为孪生网络下的两个模型。
335.第三处理单元86,用于基于初始模型对第一特征和第二特征进行编解码处理,得到第二图像的分割图像,其中,第二图像的分割图像被标注出目标对象。
336.调整单元87,用于基于第二图像的分割图像和第二图像被标注出的目标对象,对初始模型进行参数调整。
337.其中,达到预设条件时所得到的分割模型,用于对图像进行图像分割,以得到目标对象。
338.示例性地,本实施例可以参见上述方法实施例,其原理和技术效果类似,不再赘述。
339.图13为本技术实施例提供的另一种用于图像分割的分割模型的训练装置的结构
示意图,在图12所示实施例的基础上,如图13所示,第三处理单元86,包括:
340.编码模块861,用于将第一特征输入至初始模型中的特征编码器中,得到编码特征。
341.解码模块862,用于将第二特征输入至初始模型的特征解码器中,得到解码特征。
342.第一处理模块863,用于基于初始模型对编码特征和解码特征进行处理,得到第二图像的分割图像。
343.一个示例中,第一处理模块863,包括:
344.第一卷积子模块,用于对编码特征和解码特征进行卷积处理,得到待处理特征。
345.分割子模块,用于基于初始模型的分割解码器对待处理特征进行处理,得到第二图像的分割图像。
346.一个示例中,编码模块861,包括:
347.第一增强子模块,用于将第一特征输入至初始模型中的特征编码器中,对第一特征进行特征建模处理,以将第一特征映射到多个维度上,得到增强后的第一特征。
348.第二卷积子模块,用于对增强后的第一特征进行卷积处理,得到编码特征;其中,编码特征的通道数少于增强后的第一特征的通道数。
349.一个示例中,解码模块862,包括:
350.第二增强子模块,用于将第二特征输入至初始模型的特征解码器中,对第二特征进行特征建模处理,以将第二特征映射到多个维度上,得到增强后的第二特征。
351.第三卷积子模块,用于对增强后的第二特征进行卷积处理,得到解码特征;其中,解码特征的通道数少于增强后的第二特征的通道数。
352.一个示例中,增强后的第一特征包括第一维度上的第一特征、第二维度上的第一特征、以及第三维度上的第一特征;增强后的第二特征包括第一维度上的第二特征、第二维度上的第二特征、以及第三维度上的第二特征。
353.第二卷积子模块,具体用于:对第一维度上的第一特征、第二维度上的第二特征、以及第三维度上的第二特征进行卷积处理,得到编码特征。
354.第三卷积子模块,具体用于:对第一维度上第二特征、第二维度上的第一特征、以及融合特征进行卷积处理,得到解码特征;其中,融合特征包括多帧图像中各图像中的目标对象的特征、以及第一特征。
355.一个示例中,本实施例提供的装置,还包括:
356.第二获取单元88,用于获取多帧图像中每一图像的目标对象的特征,对多帧图像中每一图像的目标对象的特征、以及第一特征进行融合处理,得到融合特征。
357.一个示例中,第一增强子模块,具体用于:基于特征编码器中的第一自注意力模型,对第一特征进行特征建模处理。
358.第二卷积子模块,具体用于:基于特征编码器中的第一交叉注意力模型对第一维度上的第一特征、第二维度上的第二特征、以及第三维度上的第二特征进行卷积处理,得到卷积处理后的特征;对该卷积处理后的特征进行残差连接处理和归一化处理,得到编码特征。
359.一个示例中,第二增强子模块,具体用于:基于特征解码器中的第二自注意力模型,对第二特征进行特征建模处理。
360.第三卷积子模块,具体用于:基于特征解码器中的第二交叉注意力模型对第一维度上第二特征、第二维度上的第一特征、以及融合特征进行卷积处理,得到卷积处理后的特征;对该卷积处理后的特征进行残差连接处理和归一化处理,得到解码特征。
361.一个示例中,第一卷积子模块,具体用于:基于特征解码器中的第三交叉注意力模型对编码特征和解码特征进行卷积处理,得到待处理特征。
362.一个示例中,分割子模块,具体用于:基于初始模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第二图像的分割图像。
363.一个示例中,分割子模块,具体用于基于初始模型的分割解码器对待处理特征、以及第二图像的层级特征中的c3特征进行卷积处理,得到第一输出特征;基于初始模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征;对第二输出特征进行卷积处理和分割处理,得到第二图像的分割图像。
364.一个示例中,分割子模块,用于基于初始模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征时,具体用于:基于初始模型的分割解码器对待处理特征进行上次采样处理,得到第一上采样特征;其中,第一上采样特征的维度大于待处理特征的维度;将第一上采样特征、以及第二图像的层级特征中的c3特征进行特征融合,得到第一中间特征,并对第一中间特征进行卷积处理,得到第一输出特征。
365.一个示例中,分割子模块,用于基于初始模型的分割解码器对第一输出特征、以及第二图像的层级特征中的c2特征进行卷积处理,得到第二输出特征时,具体用于:基于初始模型的分割解码器对第一输出特征进行上次采样处理,得到第二上采样特征;其中,第二上采样特征的维度大于第一输出特征的维度;对第二上采样特征、以及第二图像的层级特征中的c2特征进行特征融合,得到第二中间特征,并对第二中间特征进行卷积处理,得到第二输出特征。
366.一个示例中,分割子模块,用于对第二输出特征进行卷积处理和分割处理,得到第二图像的分割图像时,具体用于:对第二输出特征进行卷积处理和分割处理,得到初始分割图像;对初始分割图像进行上采样处理,得到第二图像的分割图像。
367.一个示例中,第一处理模块863,还包括:转换子模块,用于在分割子模块基于初始模型的分割解码器对待处理特征进行处理,得到第二图像的分割图像之前,对待处理特征进行矩阵变换处理,得到变换后的待处理特征;其中,变换后的待处理特征为三维矩阵,变换前的待处理特征为二维矩阵。
368.一个示例中,第一处理单元83,包括:
369.第二处理模块,用于将第一图像输入至初始模型的第一模型中,输出第一图像的层级特征。
370.第三处理模块,用于确定第一图像的层级特征中的c4特征,为图像特征。
371.一个示例中,本实施例提供的装置,还包括:变换模块,用于在存储单元84将图像特征存储至初始模型的存储池中,得到第一特征之前,在图像的通道维度上对图像特征进行变换映射处理,得到处理后的图像特征;其中,处理后的图像特征的通道数少于处理前的图像特征的通道数。
372.一个示例中,第二处理单元85,具体用于:
373.将第二图像输入至初始模型的第二模型中,输出第二图像的层级特征;
374.在图像的通道维度上对第二图像的层级特征中的c4特征进行变换映射处理,得到第二特征;其中,第二特征的通道数少于第二图像的层级特征中的c4特征的通道数。
375.一个示例中,调整单元87,具体用于:基于损失函数对第二图像的分割图像和第二图像被标注出的目标对象进行计算处理,得到计算结果;基于计算结果对初始模型进行参数调整。
376.一个示例中,预设条件为以下的任意一种:迭代次数大于预设次数阈值、每一第二图像的分割图像中的目标对象与每一第二图像被标注出的目标对象一致。
377.示例性地,本实施例可以参见上述方法实施例,其原理和技术效果类似,不再赘述。
378.图14为本技术实施例提供的一种电子设备的结构示意图,如图14所示,电子设备包括:存储器91,处理器92;
379.存储器91;用于存储处理器92可执行指令的存储器;
380.其中,处理器92被配置为执行如上述实施例提供的方法。
381.电子设备还包括接收器93和发送器94。接收器93用于接收外部设备发送的指令和数据,发送器94用于向外部设备发送指令和数据。
382.图15是根据一示例性实施例示出的一种电子设备的框图,该设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
383.装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)接口812,传感器组件814,以及通信组件816。
384.处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
385.存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
386.电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
387.多媒体组件808包括在装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而
且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
388.音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
389.i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
390.传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
391.通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
392.在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
393.在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
394.一种非临时性计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述方法。
395.本技术实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
396.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其
它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
397.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献