一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语义分割的方法和装置与流程

2022-07-22 20:54:38 来源:中国专利 TAG:


1.本发明总体上涉及语义分割方法和装置,更具体地涉及能够增强对象边界并且降低计算复杂度的语义分割方法和装置。


背景技术:

2.语义分割是对图像进行解析的基本视觉任务之一,其用于在像素级别上将图像划分为与多种语义类别相关联的多个不同区域。随着近年来卷积神经网络的发展,已经提出了全卷积网络(fcn)以端到端的方式解决语义分割问题。目前存在着许多流行的语义分割模型,例如u-net,pspnet,deeplab等,它们在不同的成像场景(例如医学图像和自然图像)中取得了良好的效果。
3.但是,现有的语义分割模型通常会遇到以下问题:
4.1.计算密集:由于语义分割的目的是为图像中的每个像素分配语义标签,因此深度语义分割网络的参数数量和计算成本很大;
5.2.对象边界恢复能力弱:在丰富的语义信息被编码后,由于池化或移动步长大于1的卷积操作,导致与对象边界有关的细节信息丢失。
6.因此,希望提出一种能够降低计算复杂度并且增强对象边界的深度语义分割网络。


技术实现要素:

7.针对上述技术问题,本发明提出了一种新颖的语义分割模型,该模型能够实现精细的边界恢复,并且模型的参数数量和计算量大大减少。
8.根据本发明的一个方面,提供了一种通过由计算机实现的神经网络针对图像进行语义分割的方法,其中所述神经网络包括编码器单元和解码器单元,所述方法包括:由所述编码器单元基于输入的图像提取不同尺寸的多个特征图;由所述解码器单元对所述特征图执行n次上采样,其中,n为大于2的自然数;以及由所述解码器单元将通过第n次上采样得到的多个特征图与所述图像进行拼接,以生成预测图像。
9.根据本发明的另一个方面,提供了一种用于针对图像进行语义分割的装置,包括:存储有程序的存储器;以及一个或多个处理器,所述处理器被配置为通过执行所述程序而用作为:编码器单元,其被配置为基于输入的图像提取不同尺寸的多个特征图;解码器单元,其被配置为针对所述多个特征图执行n次上采样,并且将通过第n次上采样得到的多个特征图与所述图像进行拼接,以生成预测图像,其中,n为大于2的自然数。
10.根据本发明的另一个方面,提供了一种用于针对图像进行语义分割的装置,包括:特征图提取单元,其被配置为基于输入的图像提取不同尺寸的多个特征图;上采样单元,其被配置为针对所述特征图执行n次上采样,其中,n为大于2的自然数;预测图像生成单元,其被配置为将通过第n次上采样得到的特征图与所述图像进行拼接,以生成预测图像。
11.根据本发明的另一个方面,提供了一种存储有程序的存储介质,所述程序在被计
算机执行时使得所述计算机执行上述的针对图像进行语义分割的方法。
附图说明
12.图1示意性地示出了作为现有技术的deeplabv3 模型的架构。
13.图2示意性地示出了语义分割预测图像的一个示例。
14.图3示意性地示出了根据本发明的语义分割模型的架构。
15.图4示出了根据本发明的语义分割方法的流程图。
16.图5示意性地示出了根据本发明的语义分割模型的功能模块图。
17.图6示出了deeplabv3 模型与根据本发明的模型所生成的预测图像的一个示例。
18.图7示出了deeplabv3 模型与根据本发明的模型所生成的预测图像的另一个示例。
19.图8示出了实现本发明的计算机硬件的示例性配置框图。
具体实施方式
20.上文中提到的现有模型deeplab包括使用深度卷积进行语义分割的一系列深度学习模型,目前最为广泛使用的是deeplabv3 模型。本文中将主要参考deeplabv3 模型来描述根据本发明的语义分割模型。
21.图1示意性地示出了deeplabv3 模型的架构。如图1所示,模型包括编码器和解码器两个部分。在编码器侧,基于原始图像100提取不同尺寸的多个特征图f1-f5。例如,特征图f1的尺寸为原始图像100的1/2,并且包括64个通道。特征图f2的尺寸为原始图像100的1/4,并且包括256个通道。特征图f3的尺寸为原始图像100的1/8,并且包括512个通道。特征图f4的尺寸为原始图像100的1/16,并且包括1024个通道。特征图f5的尺寸为原始图像100的1/16,并且包括2048个通道。特征图f5被输入到带有空洞卷积的空间金字塔池化(atrous spatial pyramid pooling,aspp)模块。aspp模块用于针对特征图f5通过不同采样率的空洞卷积并行地进行采样,以提取多尺度信息,相当于以多个比例捕获图像目标的上下文信息。例如,如图1所示,aspp模块执行的操作包括1
×
1卷积(1
×
1conv),采样率为6、12、18的3
×
3卷积(3
×
3conv),以及池化。
22.可以认为,编码器侧的操作包括对原始图像100的多次下采样,并且最终将图像尺寸减小为原始尺寸的1/16。在解码器侧,通过对编码器的输出结果执行多次上采样而生成语义分割预测图像p,在该预测图像中能够识别出每个像素所属的语义类别。图2示意性地示出了语义分割预测图像的一个示例。如图2所示,在预测图像中划分出与多个语义类别(诸如地面、草地、树木、天空、建筑物等)相关联的多个区域,每个区域对应于一种语义对象并且以一种颜色来表示。这种划分是是像素级别的,即,每个像素被显示为对应于一个语义类别的颜色。需要说明的是,虽然图2被绘制为灰度图,然而本领域技术人员明白可以用彩色来绘制语义分割预测图像,并且在彩色图像中可以更加清楚地识别与每个语义类别相对应的区域。
23.在图1所示的模型中,解码器执行两次上采样,在每次上采样中图像尺寸被放大4倍(图中示出为
“×
4”),从而使得生成的预测图像p与原始图像100的尺寸相同。此外,为了增强预测图像中对象(区域)之间的边界,例如树木与天空之间的边界,在解码器的处理中
还应用了由编码器提取的低级特征图f2。这是因为:相比于例如高级特征图f4和f5,低级特征图f2包含更多的边缘细节信息。具体来说,解码器将第一次上采样后得到的特征图与减少了通道数(减少至48个)的特征图f2进行拼接,然后对拼接后的图像进行第二次上采样,以获得预测图像p。
24.对于基于fcn的编码器-解码器语义分割网络而言,解码器侧的处理对于边缘恢复的质量影响很大。图1所示的deeplabv3 的解码器执行两次上采样,每次上采样将图像尺寸放大4倍。这样的上采样过程相对粗糙,不利于精细的边缘恢复。
25.图3示意性地示出了根据本发明的语义分割模型的架构。在编码器侧,根据本发明的模型与deeplabv3 模型基本相同,因此将省略对编码器的详细描述。
26.在解码器侧,根据本发明的模型采用更多次的渐进的上采样过程,即,对编码器的输出执行多于两次的上采样,以实现更加精细的边缘恢复。在图3所示的示例中,解码器执行四次上采样,在每次上采样中图像尺寸被放大2倍(图中示出为
“×
2”),以使最后生成的预测图像与原始图像300的尺寸相同。
27.需要说明的是,本发明并不限于图3所示出的模型的配置。例如,在编码器侧,通过下采样而获得的各个特征图的尺寸不一定必须是原始图像尺寸的1/2,1/4,1/8和1/16,而可以是例如1/2,1/4,1/8,1/16和1/32(如果技术上可实现)。相应地,解码器可以执行五次上采样,每次上采样将尺寸放大2倍,从而生成与原始图像的尺寸相同的预测图像。作为另外的变型,解码器执行的每次上采样不限于将图像尺寸放大2倍,其它适当的放大倍率也是可以的。总体来说,只要解码器通过对编码器所提取的最小尺寸的特征图执行多于两次的上采样从而生成与原始图像尺寸相同的预测图像,这种采用多次渐进的上采样的语义分割模型就落入本发明的范围中。
28.此外,相比于deeplabv3 模型,根据本发明的解码器利用了更多的低级特征图f1-f3,并且利用了原始图像300的信息,以生成预测图像p,如图3所示。由于相对低级的特征图和原始图像300包含较为丰富且准确的边缘细节信息,因此利用它们有助于增强预测图像p中的边缘表示,以实现精细的边界恢复。
29.具体来说,在第一次上采样中,解码器对编码器所提取的最小尺寸的特征图f5执行上采样,获得特征图u1,特征图u1的尺寸是原始图像300的1/8。在第二次上采样中,解码器对第一次上采样后得到的特征图u1以及由编码器提取的与特征图u1尺寸相同的特征图f3进行上采样,获得特征图u2,特征图u2的尺寸是原始图像300的1/4。在第三次上采样中,解码器对第二次上采样后得到的特征图u2以及由编码器提取的与特征图u2尺寸相同的特征图f2进行上采样,获得特征图u3,特征图u3的尺寸是原始图像300的1/2。在第四次上采样中,解码器对第三次上采样后得到的特征图u3以及由编码器提取的与特征图u3尺寸相同的特征图f1进行上采样,获得特征图u4,特征图u4的尺寸与原始图像300相同。然后,解码器将通过第四次上采样得到的特征图u4与原始图像300进行拼接,以生成预测图像p。
30.特别地,在将来自于编码器的特征图f1-f3以及原始图像300引入解码器的处理之前,通过卷积减少这些图像所包含的通道的数量,例如减少至24个,如图3所示。这一方面与图1所示的deeplabv3 模型相似。
31.在根据本发明的模型的训练阶段,基于真值图像和所生成的预测图像p来训练模型,其中在该真值图像中已经预先标注出每个像素所对应的语义类别,例如通过人工标注
的方式。本领域技术人员可以采用任何适当的已知方法来执行训练,本发明对此不作限制。当训练完成后,对经训练的模型输入要处理的图像,解码器将输出预测图像p,作为语义分割预测图像。
32.优选的是,根据本发明的编码器可以进一步减少每个特征图中包含的通道的数目。图3示出了这一优选实施例。如图3所示,特征图f1-f5中的每一个所包含的通道数目是图1所示的deeplabv3 模型中相应的特征图所包含的通道数目的一半。减少通道数目可以有助于缓解以下不良影响:由于上采样次数增多而引起计算负荷增大。此外,通过下文中将描述的实验结果,可以证明减少通道数目不会对模型的性能产生不利影响。
33.图4示出了根据本发明的语义分割方法的流程图,图5示意性地示出了根据本发明的语义分割模型的功能模块图。
34.如图4所示,在步骤s410基于输入的原始图像提取不同尺寸的多个特征图。这一步骤可以由特征图提取单元510执行。此外,优选的是减少所提取的每一个特征图中包含的通道的数目,例如,将通道数目减少一半。
35.在步骤s420对所获得的特征图执行多于两次的上采样。这一步骤可以由上采样单元520执行。具体来说,假设执行n次上采样(n》2),则在第一次上采样中,对所提取的最小尺寸的特征图执行上采样。在第二次至第n次上采样中的每一次上采样中,对以下特征图执行上采样:通过前一次上采样得到的一个或多个先前特征图,以及在步骤s410中提取的与该先前特征图的尺寸相同的特征图。作为一个示例,可以执行四次上采样,并且在每次上采样之后,特征图的尺寸被增大2倍。
36.在步骤s430将通过最后一次上采样得到的特征图与原始图像进行拼接,以生成语义分割预测图像。这一步骤可以由预测图像生成单元530执行。
37.以上描述了根据本发明的语义分割模型。此外,本发明的发明人已经进行了实验来评估本发明的模型的性能。实验中使用了两个数据集,包括cityscape数据集以及一个卫星图像数据集。cityscape数据集是公共可用的大规模数据集,其包含5000个rgb图像的高质量像素级的标注,其中2975个图像用于训练,500个图像用于验证。卫星图像数据集包含由高分一号(gaofen-1)卫星采集的四波段多光谱图像(红色、绿色、蓝色和近红外),空间分辨率为2米,该数据集中包含对于1435个训练图像和168个验证图像的高质量像素级的标注。
38.作为模型性能的评估指标,在实验中采用了平均交并比(mean intersection-over-union,miou)、模型的参数数量、以及每秒执行的浮点运算次数(floating-point operations per second,flops)。miou是本领域广泛采用的针对语义分割算法的评估指标,故本发明省略其详细描述。关于参数数量,在使用滑动窗口实现卷积并且忽略非线性计算开销的情况下,可以通过以下表达式(1)来计算卷积层的参数数量parameter_no。此外,可以通过以下表达式(2)来计算卷积核的flops。
39.parameter_no=k2×cin
×cout
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑‑
(1)
40.flops=2
×h×w×
(c
in
×
k2 1)
×cout
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ‑‑
(2)
41.其中,k是卷积核宽度(假设是对称的),c
in
是输入的特征图的通道数目,c
out
是输出的特征图的通道数目,h和w分别是输入的特征图的高度和宽度。
42.此外,在实验中,本发明的模型采用了将特征图中包含的通道数目减少一半的设
置。
43.以下表1示出了通过实验得到的deeplabv3 模型与根据本发明的模型的性能比较。
44.[表1]
[0045][0046]
由表1可以看出,本发明的模型在两个数据集上均实现了比deeplabv3 模型更好的miou性能,并且更为重要的是,在本发明的模型中参数数量和运算次数flops大为减少,甚至仅需要deeplabv3 模型的1/4的参数就获得更优的miou性能。
[0047]
此外,通过表1可以看出,减少特征图中的通道数量没有对模型的性能产生不利的影响。因此,优选地采用减少通道数量的配置,以便降低计算负荷。
[0048]
图6示出了deeplabv3 模型与根据本发明的模型所生成的预测图像的一个示例(基于cityscape数据集)。
[0049]
图6中的(a)示出了原始图像,其是一幅街景图像,包含道路、建筑物、车辆、树木和天空等对象。图6中的(b)是与该原始图像对应的高质量像素级的标注图像(真值)。
[0050]
图6中的(c)是由deeplabv3 模型生成的语义分割预测图像,图6中的(d)是由本发明的模型生成的语义分割预测图像。参照真值图像(b)可以看出,在(d)中对象之间的边界比(c)中的边界更加精细、完整和平滑。这一差别在(b)中以椭圆形圈指示的部分更为明显。
[0051]
图7示出了deeplabv3 模型与根据本发明的模型所生成的预测图像的另一个示例(基于卫星图像数据集)。
[0052]
图7中的(a)示出了原始卫星图像,其包含农田、田块间道路、居民区等对象。图7中的(b)是与该原始图像对应的高质量像素级的标注图像(真值)。
[0053]
图7中的(c)是由deeplabv3 模型生成的语义分割预测图像,图7中的(d)是由本发明的模型生成的语义分割预测图像。参照真值图像(b)可以看出,在(d)中的边界比(c)中的边界更加连续、完整。这一差别在(b)中以椭圆形圈指示的部分更为明显。
[0054]
以上已经结合实施例和附图描述了根据本发明的语义分割模型和方法。相比于现有的语义分割模型,本发明在解码器侧采用多次渐进的上采样,利用了更多的低级特征图以及原始图像的信息,因此能够实现更精确的边界恢复。此外,本发明减少了编码器所提取的特征图中的通道数量,以减少计算复杂度,同时不会影响模型性能。
[0055]
在上述实施例中描述的方法可以由软件、硬件或者软件和硬件的组合来实现。包
括在软件中的程序可以预先存储在设备的内部或外部所设置的存储介质中。作为一个示例,在执行期间,这些程序被写入随机存取存储器(ram)并且由处理器(例如cpu)来执行,从而实现在本文中描述的各种方法和处理。
[0056]
图8示出了根据程序执行本发明的方法的计算机硬件的示例配置框图,该计算机硬件是用于执行语义分割的装置的一个示例。
[0057]
如图8所示,在计算机800中,中央处理单元(cpu)801、只读存储器(rom)802以及随机存取存储器(ram)803通过总线804彼此连接。
[0058]
输入/输出接口805进一步与总线804连接。输入/输出接口805连接有以下组件:以键盘、鼠标、麦克风等形成的输入单元806;以显示器、扬声器等形成的输出单元807;以硬盘、非易失性存储器等形成的存储单元808;以网络接口卡(诸如局域网(lan)卡、调制解调器等)形成的通信单元809;以及驱动移动介质811的驱动器810,该移动介质811例如是磁盘、光盘、磁光盘或半导体存储器。
[0059]
在具有上述结构的计算机中,cpu 801将存储在存储单元808中的程序经由输入/输出接口805和总线804加载到ram 803中,并且执行该程序,以便执行上文中描述的方法。
[0060]
要由计算机(cpu 801)执行的程序可以被记录在作为封装介质的移动介质811上,该封装介质以例如磁盘(包括软盘)、光盘(包括压缩光盘-只读存储器(cd-rom))、数字多功能光盘(dvd)等)、磁光盘、或半导体存储器来形成。此外,要由计算机(cpu 801)执行的程序也可以经由诸如局域网、因特网、或数字卫星广播的有线或无线传输介质来提供。
[0061]
当移动介质811安装在驱动器810中时,可以将程序经由输入/输出接口805安装在存储单元808中。另外,可以经由有线或无线传输介质由通信单元809来接收程序,并且将程序安装在存储单元808中。可替选地,可以将程序预先安装在rom 802或存储单元808中。
[0062]
由计算机执行的程序可以是根据本说明书中描述的顺序来执行处理的程序,或者可以是并行地执行处理或当需要时(诸如,当调用时)执行处理的程序。
[0063]
本文中所描述的单元或装置仅是逻辑意义上的,并不严格对应于物理设备或实体。例如,本文所描述的每个单元的功能可能由多个物理实体来实现,或者,本文所描述的多个单元的功能可能由单个物理实体来实现。此外,在一个实施例中描述的特征、部件、元素、步骤等并不局限于该实施例,而是也可以应用于其它实施例,例如替代其它实施例中的特定特征、部件、元素、步骤等,或者与其相结合。
[0064]
本发明的范围不限于在本文中描述的具体实施例。本领域普通技术人员应该理解的是,取决于设计要求和其他因素,在不偏离本发明的原理和精神的情况下,可以对本文中的实施例进行各种修改或变化。本发明的范围由所附权利要求及其等同方案来限定。
[0065]
附记:
[0066]
1.一种通过由计算机实现的神经网络针对图像进行语义分割的方法,其中所述神经网络包括编码器单元和解码器单元,所述方法包括:
[0067]
由所述编码器单元基于输入的图像提取不同尺寸的多个特征图;
[0068]
由所述解码器单元对所述特征图执行n次上采样,其中,n为大于2的自然数;以及
[0069]
由所述解码器单元将通过第n次上采样得到的多个特征图与所述图像进行拼接,以生成预测图像。
[0070]
(2).根据(1)所述的方法,其中,在第一次上采样中,所述解码器单元对所述编码
器单元所提取的最小尺寸的特征图执行上采样。
[0071]
(3).根据(2)所述的方法,其中,在第二次至第n次上采样中的每一次上采样中,所述解码器单元对以下特征图执行上采样:通过前一次上采样得到的一个或多个先前特征图,以及由所述编码器单元提取的与所述先前特征图的尺寸相同的特征图。
[0072]
(4).根据(1)所述的方法,其中,在所述n次上采样中的每一次上采样中,特征图的尺寸被放大2倍。
[0073]
(5).根据(4)所述的方法,其中,n=4。
[0074]
(6).根据(3)所述的方法,还包括:
[0075]
减少由所述编码器单元提取的每一个特征图中包含的通道的数目;以及
[0076]
在第二次至第n次上采样中的每一次上采样中,由所述解码器单元对以下特征图进行上采样:通过前一次上采样得到的一个或多个先前特征图,以及由所述编码器单元提取的与所述先前特征图的尺寸相同并且通道数目减少的特征图。
[0077]
(7).根据(6)所述的方法,其中,由所述编码器单元提取的每一个特征图中包含的通道的数目被减少一半。
[0078]
(8).根据(1)所述的方法,其中,在所述预测图像中,以能够识别每个像素所属的语义类别的方式而显示每个像素。
[0079]
(9).一种用于针对图像进行语义分割的装置,包括:
[0080]
存储有程序的存储器;以及
[0081]
一个或多个处理器,所述处理器被配置为通过执行所述程序而用作为:
[0082]
编码器单元,其被配置为基于输入的图像提取不同尺寸的多个特征图;
[0083]
解码器单元,其被配置为针对所述多个特征图执行n次上采样,并且将通过第n次上采样得到的多个特征图与所述图像进行拼接,以生成预测图像,其中,n为大于2的自然数。
[0084]
(10).一种用于针对图像进行语义分割的装置,包括:
[0085]
特征图提取单元,其被配置为基于输入的图像提取不同尺寸的多个特征图;
[0086]
上采样单元,其被配置为针对所述多个特征图执行n次上采样,其中,n为大于2的自然数;
[0087]
预测图像生成单元,其被配置为将通过第n次上采样得到的多个特征图与所述图像进行拼接,以生成预测图像。
[0088]
(11).一种存储有程序的存储介质,所述程序在被计算机执行时使得所述计算机执行根据(1)-(8)中任一项所述的针对图像进行语义分割的方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献