一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像分割方法、装置、设备及介质与流程

2021-11-03 20:36:00 来源:中国专利 TAG:


1.本发明涉及图像处理技术领域,特别是涉及一种图像分割方法、装置、设备及介质。


背景技术:

2.近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(artificial intelligence,ai)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(slam)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
3.其中,在图像识别和图像处理中经常用到语义分割业务,在很多实际应用如自动驾驶、医学图像分析和视频调取等中,语义分割都是一个重要的任务。其中,语义分割主要用于分类任务中,即对图像中的多个目标的类别进行识别,而在语义分割中,如何有效地从图像中获取多尺度的高层语义信息是一个问题。相关技术中,一般是对不同尺度的高层语义信息进行融合,以有效地运用高层语义信息,然而其只是对不同尺度的高层语义信息简单地进行通道连接,无法充分挖掘并融合不同尺度的高层语义信息,导致语义分割的精确度不高。


技术实现要素:

4.鉴于上述问题,提出了本发明实施例的一种图像分割方法、装置、设备及介质,以便克服上述问题或者至少部分地解决上述问题。
5.为了解决上述问题,本发明的第一方面,公开了一种图像分割方法,所述方法包括:
6.获得待分割图像的特征图;
7.对所述待分割图像的特征图进行多种尺度的特征提取,得到多种尺度的特征图;
8.按照目标维度对所述多种尺度的特征图进行处理,确定所述多种尺度的特征图各自在所述目标维度的权重值;
9.根据所述多种尺度的特征图各自在所述目标维度的权重值,对所述多种尺度的特
征图进行融合,得到融合特征图;
10.根据所述融合特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别。
11.可选地,所述方法还包括:
12.对所述待分割图像的特征图进行全局特征提取,得到全局特征图;
13.根据所述融合特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别,包括:
14.根据所述融合特征图、所述全局特征图、以及所述待分割图像的特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别。
15.可选地,根据所述融合特征图、所述全局特征图、以及所述待分割图像的特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别,包括:
16.按照通道维度对所述融合特征图、所述全局特征图、以及所述待分割图像的特征图进行拼接,得到拼接特征图;
17.对所述拼接特征图进行卷积处理,得到所述待分割图像包括的各个像素点各自所属的类别。
18.可选地,按照目标维度对所述多种尺度的特征图进行处理,确定所述多种尺度的特征图各自在所述目标维度的权重值,包括:
19.对所述多种尺度的特征图中同一目标维度的特征值进行融合,得到所述目标维度的三维张量;
20.根据所述目标维度的三维张量,得到所述多种尺度的特征图各自在目标维度的权重值。
21.可选地,所述目标维度为通道维度;对所述多种尺度的特征图中同一目标维度的特征值进行融合,得到目标维度的三维张量,包括:
22.将所述多种尺度的特征图中同一通道维度的特征值相加,得到通道维度的三维张量;
23.根据所述目标维度的三维张量,得到所述多种尺度的特征图各自在目标维度的权重值,包括:
24.将所述通道维度的三维张量依次输入全局平均池化层和第一全连接层,得到通道维度的一维张量;
25.将所述通道维度的一维张量输入所述多种尺度各自对应的全连接层,得到多种尺度各自在通道维度的一维张量;
26.对所述多种尺度各自在通道维度的一维张量进行归一化处理,得到所述多种尺度的特征图各自在通道维度的权重值。
27.可选地,所述目标维度为空间维度;对所述多种尺度的特征图中同一目标维度的特征值进行融合,得到目标维度的三维张量,包括:
28.将所述多种尺度的特征图中同一空间维度的特征值拼接,得到空间维度的三维张量;
29.根据所述目标维度的三维张量,得到所述多种尺度的特征图各自在目标维度的权
重值,包括:
30.将所述空间维度的三维张量输入卷积层,得到多种尺度各自在空间维度的二维张量;
31.对所述多种尺度各自在空间维度的二维张量进行归一化处理,得到所述多种尺度的特征图各自在空间维度的权重值。
32.可选地,所述目标维度包括空间维度和通道维度;
33.根据所述多种尺度的特征图各自在所述目标维度的权重值,对所述多种尺度的特征图进行融合,得到融合特征图,包括:
34.根据所述多种尺度的特征图各自在通道维度的权重值,对所述多种尺度的特征图进行融合,得到通道维度的融合特征图;
35.根据所述多种尺度的特征图各自在空间维度的权重值,对所述多种尺度的特征图进行融合,得到空间维度的融合特征图;
36.将所述通道维度的融合特征图上和所述空间维度的融合特征图上位置对应的特征值相加或拼接,得到所述融合特征图。
37.可选地,对所述待分割图像的特征图进行多种尺度的特征提取,得到多种尺度的特征图,包括:
38.将所述待分割图像的特征图输入多个不同步长的空洞卷积层,得到所述多种尺度的特征。
39.本发明实施例的第二方面,提供一种图像分割装置,所述装置包括:
40.特征图获得模块,用于获得待分割图像的特征图;
41.多尺度特征提取模块,用于对所述待分割图像的特征图进行多种尺度的特征提取,得到多种尺度的特征图;
42.注意力模块,用于按照目标维度对所述多种尺度的特征图进行处理,确定所述多种尺度的特征图各自在所述目标维度的权重值;
43.融合模块,用于根据所述多种尺度的特征图各自在所述目标维度的权重值,对所述多种尺度的特征图进行融合,得到融合特征图;
44.分割模块,用于根据所述融合特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别。
45.本发明实施例的第三方面,还公开了一种电子设备,包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如第一方面实施例所述的图像分割方法。
46.本发明实施例的第四方面,还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明第一方面实施例所述的图像分割方法。
47.本发明实施例包括以下优点:
48.在本发明实施例中,可以获得对待分割图像的特征图进行多种尺度的特征提取,得到多种尺度的特征图,之后,按照目标维度对多种尺度的特征图进行处理,确定多种尺度的特征图各自在目标维度的权重值;接着,根据多种尺度的特征图各自在目标维度的权重值,对多种尺度的特征图进行融合,得到融合特征图;从而根据融合特征图,对待分割图像进行分割,得到待分割图像包括的各个像素点各自所属的类别,以完成对待分割图像的语
义分割。
49.本实施例中,由于按照目标维度对多种尺度的特征图进行处理,得到多种尺度的特征图各自在目标维度上的权重值,并按照权重值对多种尺度的特征图进行融合,实现了按照多种尺度的特征图各自在目标维度上的重要性进行融合,从而充分挖掘并融合了不同尺度的高层语义信息,使得融合后的特征图能充分反映待分割图像的高层语义信息,因此可以得到更为精确的语义分割结果,提高了语义分割的准确度。
附图说明
50.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
51.图1是本发明实施例中的图像分割方法的步骤流程图;
52.图2是本发明实施中一种图像分割模型的结构框图;
53.图3是本发明实施中的按照通道维度对多种尺度的特征图进行处理的整体流程示意图;
54.图4是本发明实施中的按照通道维度对多种尺度的特征图进行处理的原理示意图;
55.图5是本发明实施中的按照空间维度对多种尺度的特征图进行处理的整体流程示意图;
56.图6是本发明实施中的按照空间维度对多种尺度的特征图进行处理的原理示意图;
57.图7是本发明实施中的从空间维度和通道维度对多种尺度的特征图进行融合的步骤流程图;
58.图8是本发明实施中图像分割装置的结构框图。
具体实施方式
59.为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
60.本技术的高层语义信息是指经过若干次卷积(特征提取)后得到的特征信息,它的感受野较大,提取的特征越来越抽象,有利于对物体的分类。相关技术中,提出了将多尺度的高层语义信息进行融合以强化不同尺度下的语义信息,然而,相关技术中的方法只是对不同尺度的高层语义信息简单地进行通道连接,例如,将不同尺度的高层语义信息在通道维度上进行拼接,这一方式无法充分挖掘并融合不同尺度的高层语义信息,因而并不利于精确的语义分割。
61.有鉴于此,本技术提出了以下技术构思:引入空间维度和/或通道维度上的注意力机制来建模不同尺度的语义特征,得到多尺度的高层语义信息(特征图)各自在空间维度、
通道维度上的权重值(重要性),从而根据其权重值进行特征融合,之后基于融合后的融合特征图进行语义分割。这样,实现了对多种尺度的特征图按照各自在空间维度和/或通道维度上的重要性进行融合,从而充分挖掘并融合了不同尺度的高层语义信息,使得融合后的特征图能充分反映待分割图像的高层语义,因此可以得到更为精确的语义分割结果,提高了语义分割的准确度。
62.参照图1所示,示出了本技术实施例的一种图像分割方法的步骤流程图,如图1所示,具体可以包括以下步骤:
63.步骤s101:获得待分割图像的特征图。
64.本实施例中,可以对待分割图像进行特征提取,从而得到待分割图像的特征图。其中,可以利用resnet50/resnet101等分类模型进行特征提取,具体地,可以改变上述模型最后两级(stage)的扩张卷积参数使得输出的特征图的大小为待分割图像的1/8,如此可以减小后续进行特征融合的计算量,从而提高图像分割效率。
65.步骤s102:对所述待分割图像的特征图进行多种尺度的特征提取,得到多种尺度的特征图。
66.本实施例中,可以对待分割图像的特征图进行多种尺度的特征提取,其中,多种尺度的特征提取可以是指对待分割图像的特征图进行不同步长的卷积处理,例如,不同步长可以取1/12/24/36等,其中,得到的多种尺度可以是三种、四种等,具体可以根据实际需求确定。
67.其中,由于对待分割图像的特征图进行多种尺度的特征提取,可以从不同大小的感受野描述待分割图像的特征,因而可以提取不同尺度的高层语义信息,即本技术实施例的多种尺度的特征图可以从不同感受野反映待分割图像的高层语义信息。
68.步骤s103:按照目标维度对所述多种尺度的特征图进行处理,确定所述多种尺度的特征图各自在所述目标维度的权重值。
69.本实施例中,目标维度可以包括空间维度和/或通道维度,其中,按照目标维度对多种尺度的特征图进行处理可以是指:将目标维度之外的其他维度的特征变换到目标维度上,以体现多种尺度的特征图在目标维度上的特征,从而得到多种尺度的特征图各自在目标维度上的特征的差异。例如,以目标维度为空间维度为例,可以反映每种尺度的特征图在空间维度上不同空间位置的特征的差异。其中,该差异可以反映多种尺度的特征图各自在目标维度上的重要性,即反映多种尺度的特征图各自在目标维度的权重值。
70.具体实施时,可以对多种尺度的特征图进行维度变换、特征相加、平均池化、全连接处理等,从而得到多种尺度的特征图在目标维度上的特征的差异,即不同尺度的特征图对应在目标维度上不同的权重值。具体而言,可以得到多种尺度的特征图在目标维度上的注意力图,该注意力图中的值可以从目标维度的角度充分反映每种尺度的特征图在目标维度上的权重值。
71.其中,一种尺度的特征图在目标维度上的权重值可以表征该尺度的特征图在目标维度上的重要性,也可以理解为是在进行多尺度融合时,该尺度的特征图所占的比重。
72.示例地,以按照不同步长1/12/24/36对待分割图像的特征图进行特征提取为例,得到了四种不同尺度的特征图,分别为特征图x1、特征图x2、特征图x3、特征图x4,接着,对特征图x1、特征图x2、特征图x3、特征图x4在目标维度上进行处理,从而得到特征图x1、特征
图x2、特征图x3、特征图x4在目标维度上的权重值。
73.由于进行多种尺度的特征提取,可以从不同大小的感受野描述待分割图像的特征,且得到了多种尺度的特征图各自在目标维度的权重值,便得到了不同大小感受野下的特征图的权重,从而可以得到不同尺度挖掘到的待分割图像的特征图所占的不同比重,以方便后续进行多种尺度的特征图的融合。
74.步骤s104:根据所述多种尺度的特征图各自在所述目标维度的权重值,对所述多种尺度的特征图进行融合,得到融合特征图。
75.本实施例中,可以根据多种尺度的特征图各自在目标维度的权重值,对多种尺度的特征图中的特征值进行加权求和,从而得到融合特征图。融合特征图可以反映在目标维度上对待分割图像的不同尺度的高层语义信息进行充分挖掘并融合后,所得到的高层语义信息。融合后的特征图能充分反映待分割图像的高层语义,因此可以得到更为精确的语义分割结果,提高了语义分割的准确度。
76.以上述示例为例,得到特征图x1、特征图x2、特征图x3、特征图x4各自在目标维度上的权重值后,可以按照该权重值对特征图x1、特征图x2、特征图x3、特征图x4进行加权求和,从而得到融合特征图。
77.步骤s105:根据所述融合特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别。
78.其中,语义分割任务是像素粒度(pixel

level)的分类任务,需要预测输入的待分割图像的每个像素点所属的类别,因此,在得到融合特征图后,由于融合特征图可以充分反映待分割图像的高层语义信息,因而依据融合特征图对待分割图像进行分割时,可以得到更加准确的图像分割结果,具体地,可以得到更加准确的待分割图像包括的各个像素点各自所属的类别。
79.在一种具体实现中,不同类别可以用不同颜色标记,如此,输出的分类结果中,待分割图像中属于不同类别的像素点的颜色值可以不同,属于同一类别的像素点的颜色值相同。
80.采用本技术实施例的技术方案,由于按照目标维度对多种尺度的特征图进行处理,得到多种尺度的特征图各自在目标维度上的权重值,并按照权重值对多种尺度的特征图进行融合,实现了按照多种尺度的特征图各自在目标维度上的重要性进行融合,从而充分挖掘并融合了不同尺度的高层语义信息,使得融合后的特征图能充分反映待分割图像的高层语义信息,因此可以得到更为精确的语义分割结果,提高了语义分割的准确度。
81.参照图2所示,示出了本技术实施例的一种进行图像分割的图像分割模型的总体框架示意图。
82.相关技术中,一般利用cnn神经网络作为图像分割模型进行图像分割,该cnn神经网络是用于提取图像特征的卷积网络模型,可以是resnet50/resnet101等神经网络模型。其中,为实现本技术的图像分割方法,与相关技术不同的是,本技术在传统的图像分割模型中增加了一个注意力模块,例如,在传统的图像分割模型中的最后一个特征变换模块中增加注意力模块。增加注意力模块后的图像分割模型如图2所示,图2中虚线框所示的注意力模块是新增加到模型中的模块,而其余模块可以认为是模型原有的模块。
83.如图2所示,图像分割模型包括特征提取模块、连接在特征提取模块输出端的注意
力模块和全局平均池化层,以及与注意力模块的输出端和全局平均池化层的输出端同时连接的融合模块,连接在融合模块输出端的卷积模块。其中,特征提取模块输出端输出的特征图分别输入到注意力模块、全局平均池化层和融合模块。
84.其中,注意力模块可以用于对待分割图像的特征图进行多种尺度的特征提取,得到多种尺度的特征图;并按照目标维度对多种尺度的特征图进行处理,确定所述多种尺度的特征图各自在所述目标维度的权重值,以及根据所述多种尺度的特征图各自在所述目标维度的权重值,对所述多种尺度的特征图进行融合,得到融合特征图。
85.其中,全局平均池化层可以用于对特征提取模块输出的特征图进行全局池化处理。
86.其中,融合模块用于对注意力模块输出的融合特征图、全局平均池化层输出的全局特征图以及特征提取模块输出的特征图进行融合,从而可以基于融合后的特征图,对待分割图像进行分割。
87.具体地,可以将融合后的特征图输入到卷积层,该卷积层可以是1
×
1的卷积,该1
×
1的卷积主要用于对融合后的特征图进行卷积处理,输出分割图像包括的各个像素点各自所属的类别。
88.其中,上述图像分割模型的获得过程可以是:采用携带标记的训练数据集对预设模型进行训练得到的,预设模型的模型结构与图像分割模型的结构相同。训练数据集由一对对大小相同的图像对组成,每个图像对中包括一个三通道彩色图像和一个携带标签的单通道图像,每个类别采用不同颜色的标签表示,单通道图像中的标签用于表征像素点所属的真实类别。图像分割模型采用梯度下降法进行迭代训练,其损失函数一般采用交叉熵损失函数。
89.下面,结合图2所示的图像分割模型的总体框架,对本技术一种实施例中的图像分割方法进行说明。
90.其中,在本实施例中,在对所述待分割图像的特征图进行多种尺度的特征提取,得到多种尺度的特征图时,可以将所述待分割图像的特征图输入多个不同步长的空洞卷积层,得到所述多种尺度的特征图。
91.其中,空洞卷积层是在标准的卷积核里注入空洞,以此来增加感受野。相比原来的正常卷积层,空洞卷积层多了一个超参数,称之为膨胀率,该超参数指的是kernel的间隔数量。通过空洞卷积层的处理可以任意扩大感受野,从而可以根据对高层语义的任意需求,得到多种尺度的特征图。
92.其中,由于高层语义信息是经过不同步长的空洞卷积层后得到的特征信息,实际中会丢失一些细节信息,不利于精确分割。为解决这一问题,提高语义分割的精确度,在本实施例中,可以对待分割图像的特征图进行全局特征提取,得到全局特征图,该全局特征图中可以保留待分割图像的细节信息。
93.具体实施时,在对待分割图像的特征图进行全局特征提取时,可以将待分割图像的特征图输入到全局平均池化层中处理,其中,全局平均池化层可以为全局平均池化单元,在其中一种示例中,还可以包括1
×
1的卷积单元,该1
×
1的卷积单元可以串接在全局平均池化层的输出端,以对全局平均池化层输出的特征图的维度进行变换,待分割图像的特征图经由全局平均池化层、1
×
1卷积运算得到得到全局特征图。通过1
×
1的卷积单元可以使
得最终输出的全局特征图的通道维度和融合特征图的通道维度一致,当然,在其他一些实施例中,通过1
×
1的卷积单元也可以使得最终输出的全局特征图的通道维度与实际需求的维度要一致。
94.相应地,在步骤s105中,即在根据所述融合特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别时,可以按照以下方式确定各个像素点各自所属的类别:
95.根据所述融合特征图、所述全局特征图、以及所述待分割图像的特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别。
96.具体实现时,由于融合特征图可以充分反映待分割图像的高层语义,全局特征图是对待分割图像的特征图进行全局特征提取后得到的,可以反映待分割图像的全局信息、待分割图像的特征图是对待分割图像进行特征提取后得到的,可以作为一种残差特征,则在根据融合特征图、全局特征图、以及待分割图像的特征图,对待分割图像进行分割时,可以认为是一种融合了待分割图像的高层语义信息、全局信息和原始特征信息的图像分割,因而可以提高对待分割图像进行分割的准确度。
97.在一种具体实现中,在根据所述融合特征图、所述全局特征图、以及所述待分割图像的特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别时,可以是如下的过程:
98.首先,按照通道维度对所述融合特征图、所述全局特征图、以及所述待分割图像的特征图进行拼接,得到拼接特征图。
99.本实施例中,通道维度一般指特征图所具有的通道数,则按照通道维度对特征图进行拼接可以是指:将融合特征图、全局特征图以及待分割图像的特征图按照通道进行首尾相连,从而得到拼接特征图,拼接特征图的通道数为融合特征图、全局特征图、以及待分割图像的特征图的通道数之和。假设,融合特征图有20个通道,融合特征图有10个通道,待分割图像的特征图有20个通道,则三个特征图进行收尾拼接后,便有50个通道,该拼接特征图可以包含了融合特征图、全局特征图以及待分割图像的特征图的全部特征。
100.其次,对所述拼接特征图进行卷积处理,得到所述待分割图像包括的各个像素点各自所属的类别。
101.本实施例中,由于拼接特征图包含了融合特征图、全局特征图以及待分割图像的特征图的全部特征,可以理解为是拼接特征图上的每一位置均包含了融合特征图、全局特征图以及待分割图像的特征图在该位置上的各种特征。因而,拼接特征图可以表征更为细致且更为准确的高层语义信息,这样,对拼接特征图进行卷积处理时,可以将拼接特征图输入到一或两层卷积中,从而得到待分割图像包括的各个像素点各自所属的类别。
102.本实施例中,卷积处理的作用是为了输出像素点属于各个类别的概率。
103.采用此种实施方式时,由于全局特征图中可以保留待分割图像的细节信息,待分割图像的特征图也可以保留在低感受野情况下待分割图像的细节信息,而拼接特征图包含了融合特征图、全局特征图以及待分割图像的特征图的全部特征,因而拼接特征图既包含抽象的高层语义信息也包含了待分割图像的细节信息,从而有利于精确分割,可以达到更精确的分割准确度。
104.本实施例中,目标维度可以是空间维度和/或通道维度,即可以单独按照空间维度
或通道维度对多种尺度的特征图进行处理,也可以按照空间维度和通道维度对多种尺度的特征图进行处理。
105.下面,对如何按照目标维度对所述多种尺度的特征图进行处理,确定所述多种尺度的特征图各自在所述目标维度的权重值进行说明。
106.首先,在按照目标维度对所述多种尺度的特征图进行处理,确定所述多种尺度的特征图各自在所述目标维度的权重值时,可以对多种尺度的特征图中同一目标维度的特征值进行融合,得到所述目标维度的三维张量;并根据所述目标维度的三维张量,得到所述多种尺度的特征图各自在目标维度的权重值。
107.本实施例中,对多种尺度的特征图中同一目标维度的特征值进行融合可以是指:将目标维度之外的其他维度的特征变换到目标维度上,具体实施时,可以将多种尺度的特征图中属于同一目标维度的特征值相加或拼接,从而得到多种尺度的特征图在目标维度的三维张量,该三维张量可以反映多种尺度的特征图在目标维度上的特征分布。
108.接着,可以对目标维度的三维张量进行处理,以得到不同尺度的特征图在目标维度的权重值。具体地,分别通过通道维度和空间维度进行说明如下:
109.第一种方式:单独按照通道维度对多种尺度的特征图进行处理。
110.相应地,参照图3所示,示出了按照通道维度对多种尺度的特征图进行处理的整体流程示意图,如图3所示,具体可以包括以下步骤:
111.其中,在对多种尺度的特征图中同一目标维度的特征值进行融合,得到所述目标维度的三维张量时,可以如下步骤s301所示:
112.步骤s301:将所述多种尺度的特征图中同一通道维度的特征值相加,得到通道维度的三维张量。
113.本实施例中,通道维度是指特征图的维度,例如,一张特征图代表一个通道,当然,实际中,通道维度也可以反映对图像的某种特征进行的检测,针对不同特征的检测便具有不同的通道,例如,对图像的3种特征进行了检测,便得到3个通道的特征图。其中,通道数可以根据实际需求而不同,例如,一种尺度的特征图有20个,则该尺度的通道数为20,当然,实际中也可以是40通道、30通道等。对多种尺度的特征图中同一通道维度的特征值相加可以是指:将多种尺度的特征图中属于同一个通道的特征图进行相加,从而得到通道维度的三维张量,其中,三维可以是指h
×
w
×
c,即长、宽和通道。
114.如图3所示,通过对特征图x进行不同步长的空洞卷积处理,得到的多种尺度的特征图包括特征图x1、特征图x2、特征图x3、特征图x4,其中,x1=conv(x,1)、x2=conv(x,12)、x3=conv(x,24)、x4=conv(x,36)。之后,对上述4个特征图进行拼接,得到xc=concat(x1,x2,x3,x4),xc是4
×
h
×
w
×
c的一个四维张量,包括4个h
×
w
×
c三维张量:x1,x2,x3,x4,之后,对xc包括的4个h
×
w
×
c的三维张量按通道维度相加,即将4个h
×
w
×
c的三维张量中同一通道维度的特征值相加,得到h
×
w
×
c的三维张量xs。
115.如图4所示,示出了按照通道维度对多种尺度的特征图进行处理的原理示意图,如图4所示,以通道数为3为例,特征图x1在通道1上的特征和特征图x2在通道1上的特征相加,实际是指将特征图在通道1上每个空间位置的像素点的像素值相加,如图4所示,在通道1上,将特征图x1和特征图x2对应同一空间位置s的特征值相加,进而得到了空间位置s的相加特征值5,以此类推,可以得到三维张量xs,从而实现了在将空间维度上的特征变换到通
道维度上,实现对通道上的空间信息的融合。
116.在一种示例中,可以先对多种尺度的特征图进行拼接,具体可以是进行首尾拼接,对于拼接得到的特征图,再按通道维度进行特征相加,从而得到三维张量。
117.由于将多种尺度的特征图按照通道维度进行特征相加,从而实现将空间维度上的特征变换到通道维度上,特征相加后得到的三维张量xs,仍然是三通道的。如图4所示,将特征图x1在通道维度上的特征和特征图x2在通道上的特征进行相加后,得到的通道维度的三维张量如图中的特征图xs所示,可以看出,实现了将不同尺度的特征图中属于同一通道的特征的融合,如此,得到的三维张量便可以理解为是将不同尺度特征图的空间维度上的特征统一变换到通道维度上,即三维张量中的一个通道上的特征融合了多种尺度特征图在该通道上的各个空间位置的特征。
118.其中,在根据所述目标维度的三维张量,得到所述多种尺度的特征图各自在目标维度的权重值时,可以如下步骤s302至步骤s304所示:
119.步骤s302:将所述通道维度的三维张量依次输入全局平均池化层和第一全连接层,得到通道维度的一维张量。
120.本实施例中,通道维度的三维张量对不同尺度的特征图上的空间信息进行了融合,仍然包括不同空间位置的特征,因而,为得到不同通道的权重,可以将三维张量依次输入全局平均池化层和第一全连接层,以实现对三维张量的维度变换,得到通道维度的一维张量,如此,可以将多种尺度的特征图整体在不同空间位置上的特征进行整合,以综合反映多种尺度的特征图整体在通道维度上的特征差异。
121.如图3所示,可以对xs做全局平均池化,得到长度为c的一维张量f1,接着对f1用第一全连接层fc进行处理,得到长度为c/8的一维张量f2。
122.其中,全局平均池化层可以把特征图全局平均一下输出一个值,也就是把w*h*c的一个张量变成1*1*c的张量,从而整合了多种特征图整体在空间维度上的特征,从而该一维张量可以反映不同通道的差异。
123.如图4所示,将三维张量xs输入全局平均池化层和第一全连接层后,得到的一维张量f2的长度是c,可以理解为是将三维张量xs的每一个通道上所有空间位置的特征整合为一个值,这样,一维张量f2的值代表不同通道的特征差异,其特征的长度即是特征图的数量,也即通道的数量。
124.步骤s303:将所述通道维度的一维张量输入所述多种尺度各自对应的全连接层,得到多种尺度各自在通道维度的一维张量。
125.本实施例中,可以为多种尺度的特征提取预先设置对应的一个全连接层,例如,对于a尺度的特征提取,相应设置全连接层a,对于b尺度的特征提取,相应设置全连接层b。如此,在得到通道维度的一维张量后,可以将该一维张量分别输入到多种尺度各自对应的全连接层,从而得到多种尺度各自在通道维度的一维张量,即一维张量的数量与多种尺度的特征图的数量相同,且分别对应多种尺度的特征图。
126.如图3所示,在得到长度为c/8的一维张量f2后,可以对f2用4个具有不同参数的全连接fc(包括:fc1、fc2、fc3、fc4)分别进行处理,然后再将处理结果拼接,得到4
×
c的二维张量fa,即fa包括4个长度为c的一维张量:fc1(f2),fc2(f2),fc3(f2),fc4(f2)。
127.其中,通道维度的一维张量可以反映不同通道上的特征差异,而这差异是综合反
映多种尺度的特征图整体在通道维度上的差异,不足以体现每种尺度的特征图各自在通道维度上的差异,即需要对该一维张量进行分散,以得到每种尺度的特征图整体在通道维度上的差异。具体实施时,将通道维度的一维张量输入多种尺度各自对应的全连接层,可以得到多种尺度各自在通道维度的一维张量,即得到了每种尺度的特征图各自所属的在通道维度上的差异。
128.步骤s304:对所述多种尺度各自在通道维度的一维张量进行归一化处理,得到所述多种尺度的特征图各自在通道维度的权重值。
129.本实施例中,对多种尺度各自在通道维度的一维张量进行归一化处理可以是指:将每种尺度在通道维度的一维张量中的值归一化到0

1之间的值,从而得到每种尺度的特征图在通道维度的权重值,即得到每个通道在不同尺度上的权重。具体地,可以利用sigmod函数实现。如图3所示,例如得到通道1在步长为1上的权重、步长为12上的权重、步长为24上的权重以及步长为36上的权重
130.其中,每种尺度的特征图在通道维度的一维张量也可以为1*1*c的张量,之后,对该1*1*c的张量进行归一化处理,从而将1*1*c中的值归一化到0

1之间的值,即可以得到该种尺度的特征图在不同通道上的权重。例如,以特征图x1为例,x1为h
×
w
×
c的三维张量,而对应的一维张量为归一化后的1*1*c,则可以得到特征图x1在不同通道上的权重。
131.采用此种实施方式,在对多种尺度的特征图进行融合时,可以是指将多种尺度的特征图与各自对应的在通道维度的一维张量分别相乘,得到多种尺度的特征图各自相乘后的特征图,然后,再将多种尺度的特征图各自相乘后的特征图按照通道维度进行特征相加,从而得到融合特征图。
132.如图3所示,将特征图x1、特征图x2、特征图x3、特征图x4分别与sigmoid(fc1(f2)),sigmoid(fc2(f2)),sigmoid(fc3(f2)),sigmoid(fc4(f2))对应相乘,再将相乘得到的4个结果相加,从而得到融合特征图y。
133.采用此种方式时,可以获得每种尺度的特征图在通道维度上的特征差异,即可以从通道维度反映不同尺度的特征图的差异,从而得到每种尺度的特征图各自对应的不同通道的权重,进而从通道维度充分挖掘了不同尺度的高层语义信息,从而使得融合后的特征图能充分反映待分割图像的高层语义,因此可以得到更为精确的语义分割结果,提高了语义分割的准确度。
134.第二种方式:单独按照空间维度对多种尺度的特征图进行处理。
135.相应地,参照图5所示,示出了按照空间维度对多种尺度的特征图进行处理的流程示意图,结合图5所示,对所述多种尺度的特征图中同一目标维度的特征值进行融合,得到所述目标维度的三维张量时,可以如以下步骤s501所示:
136.步骤s501:将所述多种尺度的特征图中同一空间维度的特征值拼接,得到空间维度的三维张量。
137.本实施例中,空间维度一般是指不同空间位置的特征,其中,h
×
w即为空间维度。由于需要按照空间维度对多种尺度的特征图进行处理,因而,可以将多种尺度的特征图中位于同一空间位置的全部特征值进行首尾拼接,以将不同尺度的特征图的通道维度的特征变换到空间维度上,得到空间维度的三维张量。其中,空间维度的三维张量中位于同一空间位置的全部特征值包括了不同通道在该空间位置的特征值。
138.如图5所示,得到的特征图包括特征图x1、特征图x2、特征图x3、特征图x4,可以对征图x1、特征图x2、特征图x3、特征图x4进行拼接,得到xc=concat(x1,x2,x3,x4);xc是4
×
h
×
w
×
c的一个四维张量,接着,可以按照按空间维度对四维张量xc进行转换,即将4个h
×
w
×
c的三维张量中同一空间维度的特征值拼接,得到h
×
w
×
4c的三维张量xs。
139.如图6所示,示出了按照空间维度进行处理的原理示意图,如图6所示,以两种尺度的特征图为例,特征图x1在空间维度上的特征和特征图x2在空间上的特征进行拼接,实际是指将特征图x1和x2中属于同一空间位置的全部特征进行拼接,例如,将特征图x1和x2中属于位置s处的全部特征进行拼接,属于位置s处的全部特征包括了多个通道在该位置s处的特征,例如,以通道数为3为例,包括了特征图x1中通道1、2、3在s处的三个特征值(2,1,3),也包括了特征图x2中三个通道在s处的三个特征值(3,2,1)。当然,图6仅为示例性说明,其中,通道数也可以是10、20等。
140.在一种示例中,可以先对多种尺度的特征图进行拼接,具体可以是进行首尾拼接,对于拼接得到的特征图,再按空间维度进行特征拼接,从而得到空间维度的三维张量。
141.由于将多种尺度的特征图按照空间维度进行特征拼接,从而实现了不同尺度的特征图在通道维度上的特征的合并,使得同一个空间位置的特征包含了多种尺度的特征图的不同通道的特征。如图6所示,将特征图x1在空间维度上的特征和特征图x2在空间上的特征进行拼接后,得到的空间维度的三维张量如图中的特征图xs所示,可以看出,实现了不同尺度的特征图在空间维度上的特征值拼接。
142.其中,在根据所述目标维度的三维张量,得到所述多种尺度的特征图各自在目标维度的权重值时,可以如下步骤s502至步骤s503所示:
143.步骤s502:将所述空间维度的三维张量输入卷积层,得到多种尺度各自在空间维度的二维张量。
144.本实施例中,由于空间维度的三维张量中位于同一空间位置的全部特征值包括了多种尺度的特征图的多个通道在该空间位置的特征值,则可以将空间维度的三维张量输入卷积层,得到多种尺度各自在空间维度的二维张量,即将同一空间位置上的多个通道的特征合并为一个值。其中,卷积层可以是1
×
1的卷积,通过卷积处理,可以实现将每种尺度的特征图的同一位置在三通道上的特征值进行融合,从而二维张量便反应出了不同空间位置的特征差异。
145.如图5所示,可以对h
×
w
×
4c的三维张量xs做1
×
1卷积,得到4
×
h
×
w的三维张量xa,即包括4个h
×
w的二维张量。
146.如图6所示,将三维张量xs输入卷积层后,得到了两个空间维度的二维张量xa1和xa2。
147.步骤s503:对所述多种尺度各自在空间维度的二维张量进行归一化处理,得到所述多种尺度的特征图各自在空间维度的权重值。
148.本示例中,对多种尺度各自在空间维度的二维张量进行归一化处理可以是指:将每种尺度在空间维度的二维张量中的值归一化到0

1之间的值,从而得到每种尺度的特征图在空间维度的权重值,即,得到每个位置的特征在不同尺度上的权重,如图5所示,例如得到位置s在步长为1上的权重、步长为12上的权重、步长为24上的权重以及步长为36上的权重。
149.采用此种实施方式,在对多种尺度的特征图进行融合时,可以是指将多种尺度的特征图与各自对应的在空间维度的二维张量分别相乘,得到多种尺度的特征图各自相乘后的特征图,然后,再将多种尺度的特征图各自相乘后的特征图按照空间维度进行特征相加,从而得到融合特征图。
150.其中,多种尺度的特征图与对应的在空间维度的二维张量相乘可以是指:将该尺度的特征图中每个通道的属于同一空间位置的特征值和二维张量中该同一空间位置的权重值进行相乘。
151.如图5所示,将特征xc包括的4个三维张量:x1,x2,x3,x4,分别与xa包括的4个h
×
w的二维张量对应相乘,再将相乘得到的4个结果相加,得到h
×
w
×
c的三维张量,该h
×
w
×
c的三维张量即为融合特征图。
152.如图6所示,将三维张量xs输入卷积层后,得到了两个空间维度的二维张量xa1和xa2,其中,xa1对应特征图x1,xa2对应特征图x2,对xa1和xa2归一化后,将xa1与特征图x1相乘,将xa2与特征图x2相乘,之后将相乘后的结果相加即得到融合特征图。
153.采用此种方式时,可以获得每种尺度的特征图在不同空间位置上的特征差异,从而得到不同空间位置的权重,进而从空间维度充分挖掘了不同尺度的高层语义信息,从而使得融合后的特征图能充分反映待分割图像的高层语义,因此可以得到更为精确的语义分割结果,提高了语义分割的准确度。
154.第三种方式:按照空间维度和通道维度对多种尺度的特征图进行处理。
155.其中,在按照空间维度和通道维度对多种尺度的特征图进行处理时,可以先参照上述步骤s301至步骤s304的过程,按照通道维度对多种尺度的特征图进行处理,得到多种尺度的特征图各自在通道维度的权重值。以及参照步骤s501至步骤s503的过程,按照空间维度对多种尺度的特征图进行处理,得到多种尺度的特征图各自在空间维度的权重值。之后,再按照多种尺度的特征图各自在空间维度的权重值和在通道维度的权重值,对多种尺度的特征图进行融合。
156.相应地,参照图7所示,示出了从空间维度和通道维度对多种尺度的特征图进行融合的步骤流程图,如图7所示,具体可以包括以下步骤:
157.步骤s701:根据所述多种尺度的特征图各自在通道维度的权重值,对所述多种尺度的特征图进行融合,得到通道维度的融合特征图。
158.其中,可以将多种尺度的特征图与各自在通道维度的一维张量分别相乘,即将同一通道上不同空间位置的特征值均乘以该通道的权重值,从而得到多种尺度的特征图各自相乘后的特征图,然后,再将多种尺度的特征图各自相乘后的特征图按照通道维度进行特征相加,从而得到通道维度的融合特征图。
159.步骤s702:根据所述多种尺度的特征图各自在空间维度的权重值,对所述多种尺度的特征图进行融合,得到空间维度的融合特征图。
160.其中,可以将多种尺度的特征图与各自对应的在空间维度的二维张量分别相乘,即将特征图中每个通道上属于同一空间位置的特征值和二维张量中该空间位置的权重值进行相乘,得到多种尺度的特征图各自相乘后的特征图,然后,再将多种尺度的特征图各自相乘后的特征图按照空间维度进行特征相加,从而得到空间维度的融合特征图。
161.步骤s703:将所述通道维度的融合特征图上和所述空间维度的融合特征图上位置
对应的特征值相加或拼接,得到所述融合特征图。
162.本实施例中,可以将通道维度的融合特征图和空间维度的融合特征图上,属于同一通道上的同一空间位置的特征值进行相加或者拼接,从而得到融合特征图。
163.采用本技术实施例的技术方案,由于既从空间维度获得了不同每种尺度的特征图在不同空间位置的特征差异,又从通道维度获得了每种尺度的特征图在不同通道上的特征差异,使得可以从空间和通道两个维度上全方面体现不同尺度的特征图的重要性,从而可以从空间层面和通道层面充分挖掘并融合不同尺度的高层语义信息,进而得到更为精确的语义分割结果,提高了语义分割的准确度。
164.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
165.参照图8所示,示出了本发明实施例的一种图像分割装置的结构框图,如图8所示,所述装置具体可以包括以下模块:
166.特征图获得模块801,用于获得待分割图像的特征图;
167.多尺度特征提取模块802,用于对所述待分割图像的特征图进行多种尺度的特征提取,得到多种尺度的特征图;
168.注意力模块803,用于按照目标维度对所述多种尺度的特征图进行处理,确定所述多种尺度的特征图各自在所述目标维度的权重值;
169.融合模块804,用于根据所述多种尺度的特征图各自在所述目标维度的权重值,对所述多种尺度的特征图进行融合,得到融合特征图;
170.分割模块805,用于根据所述融合特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别。
171.可选地,所述装置还可以包括以下模块:
172.全局池化模块,用于对所述待分割图像的特征图进行全局特征提取,得到全局特征图;
173.所述分割模块805,具体可以用于根据所述融合特征图、所述全局特征图、以及所述待分割图像的特征图,对所述待分割图像进行分割,得到所述待分割图像包括的各个像素点各自所属的类别。
174.可选地,所述分割模块805,包括以下单元:
175.拼接单元,用于按照通道维度对所述融合特征图、所述全局特征图、以及所述待分割图像的特征图进行拼接,得到拼接特征图;
176.卷积单元,用于对所述拼接特征图进行卷积处理,得到所述待分割图像包括的各个像素点各自所属的类别。
177.可选地,所述注意力模块803具体可以包括以下子模块:
178.融合子模块,用于对所述多种尺度的特征图中同一目标维度的特征值进行融合,得到所述目标维度的三维张量;
179.确定子模块,用于根据所述目标维度的三维张量,得到所述多种尺度的特征图各
自在目标维度的权重值。
180.可选地,所述目标维度为通道维度;所述融合子模块,具体用于将所述多种尺度的特征图中同一通道维度的特征值相加,得到通道维度的三维张量;所述确定子模块具体可以包括以下单元:
181.第一转换单元,用于将所述通道维度的三维张量依次输入全局平均池化层和第一全连接层,得到通道维度的一维张量;
182.全连接单元,用于将所述通道维度的一维张量输入所述多种尺度各自对应的全连接层,得到多种尺度各自在通道维度的一维张量;
183.第一归一化处理单元,用于对所述多种尺度各自在通道维度的一维张量进行归一化处理,得到所述多种尺度的特征图各自在通道维度的权重值。
184.可选地,所述目标维度为空间维度;所述融合子模块,具体可以用于将所述多种尺度的特征图中同一空间维度的特征值拼接,得到空间维度的三维张量;
185.所述确定子模块具体可以包括以下单元:
186.第二转换单元,用于将所述空间维度的三维张量输入卷积层,得到多种尺度各自在空间维度的二维张量;
187.第二归一化处理单元,用于对所述多种尺度各自在空间维度的二维张量进行归一化处理,得到所述多种尺度的特征图各自在空间维度的权重值。
188.可选地,所述目标维度包括空间维度和通道维度;所述融合模块804具体可以包括以下单元:
189.第一融合单元,用于根据所述多种尺度的特征图各自在通道维度的权重值,对所述多种尺度的特征图进行融合,得到通道维度的融合特征图;
190.第二融合单元,用于根据所述多种尺度的特征图各自在空间维度的权重值,对所述多种尺度的特征图进行融合,得到空间维度的融合特征图;
191.融合单元,用于将所述通道维度的融合特征图上和所述空间维度的融合特征图上位置对应的特征值相加或拼接,得到所述融合特征图。
192.可选地,所述多尺度特征提取模块802,具体可以用于将所述待分割图像的特征图输入多个不同步长的空洞卷积层,得到所述多种尺度的特征图。
193.需要说明的是,装置实施例与方法实施例相近,故描述的较为简单,相关之处参见方法实施例即可。
194.本发明实施例还提供了一种电子设备,该电子设备可以用于执行图像分割方法,可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器被配置为执行所述的图像分割方法。
195.本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例所述的图像分割方法。
196.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
197.本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可
用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
198.本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
199.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
200.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
201.尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
202.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
203.以上对本发明所提供的一种图像分割方法、装置、设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献