一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种免锚框的实例人像语义解析方法

2022-11-12 10:38:57 来源:中国专利 TAG:


1.本发明属于计算机视觉实例人像语义分割领域,特别涉及一种免锚框的实例人像语义解析方法。


背景技术:

2.实例人像语义解析是计算机视觉和多媒体领域的一个基本问题,它聚焦在实际场景下的以人为中心的像素级内容分析。实例人像语义解析的目标不仅需要有效区分不同人物实例的区域,而且能够在每个人物实例的区域精确解析人像语义类别。
3.当前的主流的实例人像语义解析模型,如parsing r-cnn、rp r-cnn、m-ce2p等,均遵循mask r-cnn的框架,其中的两阶段的人物实例检测器提出锚框候选区域,并执行细粒度人像部件分割。但是两阶段的基于锚框的人物实例检测器有两个缺陷,第一个局限性是基于锚框的两阶段目标检测器的性能对在锚框的生成中预先定义的超参数比较敏感,比如横纵比、锚框的面积和尺度等等。当遇到新的目标检测任务或者处理新的数据集的时候,需要精心微调或者重新设计锚框生成的超参数寻求更佳的性能。除此之外,选择具有高召回率的边界框样本和训练中控制正负样本的不平衡比率都会引起额外的计算和存储的消耗。第二个局限性是两阶段的基于锚框的目标检测方法是非像素级的预测模式,这会与实例人像语义解析任务的像素级预测模式不一致。因此探索一种全卷积可解的、免锚框设计的、一阶段的检测器,同时能够避免超参数敏感性的解决方法与实例人像语义解析任务更加契合。
4.对于实例人像语义解析任务,仅仅拥有一个强大和优雅的全卷积模式的人物检测器是不够的,能够准确解析出人物实例区域的像素级预测结果才是其最终的目标。给定一个人物实例区域,目标是要对这个区域进行细粒度分割,解析出每个像素所属的类别。通常情况下,人物实例区域内都会包含多个人体部件类别,因此引入边缘信息作为一个有意义的线索用于区分不同人物实例之间的边界和单个人物实例区域内相邻的人体部件类别区域的边缘。一个简单的边缘预测分支和人物实例语义解析分支并行执行,采用这种设计策略的动机是希望人物实例检测器能够提供比较准确的边界框预测结果,人物实例语义解析模块能够专心于细粒度的识别。
5.此外,由于实例级的人像语义解析任务不仅仅需要处理实例级的检测,同时也需要处理部件级的分割,仅仅采用像素级的交叉熵损失函数来优化不能够得到理想的人像语义解析结果。由于实例级的人像语义分割是在预测的候选边界框基础上执行的,往往会存在一些低质量的人物实例预测框,预测的人物实例区域不准确。同时在边界候选框内部,部件级的人像语义类别预测结果也存在着不理想的情况。


技术实现要素:

6.针对现有技术中存在的技术问题,本发明的目的是提供一种免锚框的实例人像语义解析方法。本发明能够解决当前实例人像语义解析模型中超参数敏感问题,此外相邻人
物实例边界、相邻人像语义类别区域边界难以有效区分的问题,基于边框的预测置信度低,从而使得实例人像解析效果不理想的问题。
7.本发明的技术方案为:
8.一种免锚框的实例人像语义解析方法,其步骤包括:
9.模型训练阶段,获取或生成一训练集,所述训练集中的每一人物图像标注有人物的空间位置信息和每个像素的语义类别信息;利用所述训练集训练实例人像语义解析模型,所述实例人像语义解析模型包括特征提取模块、人物实例检测分支和人物实例细粒度感知分支;所述人物实例细粒度感知分支包括细节保持模块、人体部件上下文编码模块、人物实例解析模块和实例解析结果精炼模块;其中
10.所述特征提取模块,用于提取所述人物图像的多种不同尺度特征,每一尺度对应一特征图;其中,第i种尺度对应特征图pi,i=1~n;n为设定的尺度个数;
11.针对每一个特征图pi,将其分别输入并行的人物实例检测分支和人物实例细粒度感知分支,通过人物实例检测分支预测得到特征图pi中每个像素点对应的候选框所属的类别;通过人物实例细粒度感知分支预测得到特征图pi中每一像素点对应边界框的中心感知度概率、边界框位置的偏移量;
12.对于类别为人物的候选框,细节保持模块将其在一设定尺度特征图上进行感兴趣区域对齐池化操作,得到对应人物实例边界框的特征并输入到人体部件上下文编码模块;所述人体部件上下文编码模块包含人体部件上下文金字塔模块和非局部挖掘模块;所述人体部件上下文金字塔模块用于从输入特征中获取人物实例的多尺度上下文信息并发送给所述非局部挖掘模块;所述非局部挖掘模块用于挖掘所输入多尺度上下文信息中的空间位置相关关系并将其输入人物实例解析模块;所述人物实例解析模块用于根据输入特征预测人物实例的像素级语义解析图和边缘信息图;
13.实例解析结果精炼模块,用于根据人物实例解析模块中得到的像素级语义解析图评估解析结果的质量;
14.在模型训练阶段,每个模块采用不同的损失函数进行优化。人物实例检测分支的损失函数为:其中,用于计算人物实例候选框偏移量回归的损失,用于计算人物实例候选框分类的损失,用于计算边界框对应的中心感知度概率损失。
15.人物实例解析模块的损失函数为:其中用于计算人物实例像素级语义解析图的损失,用于计算人物实例边缘信息图的损失。
16.精炼模块的损失函数为:其中l
miou
用于计算人物实例像素级语义解析图的质量损失,l
miou-score
用于计算人物实例像素级语义解析图的可信度概率损失;α、β、θ、γ分别为权重系数。
17.整体的总损失函数所有模块的损失之和:
18.模型应用阶段,对于一待解析的人物图像,利用特征提取模块提取输入图像多种不同大小的特征表达,将这些特征输入到人物实例检测分支得到输入图像中人物图像的检测结果,即采用矩形框来表示人物实例所在的区域,进而采用齐池化操作在特征p3上依据得到的矩形框区域进一步利用人物实例解析模块得到最终的每个人物实例的像素级解析
结果。
19.为解决上述技术问题,一种免锚框的实例人像语义解析方法,包括如下步骤:
20.(1)人物实例检测分支
21.给定一张输入人物图像,多层感知骨干网络提取输入图像的多级感知特征,特定地,五个不同级的特征p3、p4、p5、p6和p7,大小分别为输入图像的1/8、1/16、1/32、1/64和1/128。多级特征p3到p7共享人物实例检测子模型,其中特征图pi中的每一个空间位置(x,y)有三个预测输出,分别是一个四维的边界框偏移向量t
*
、一个人物的分类器和一个中心感知得分。四维的边界框回归向量t
*
表示为(l
*
,t
*
,r
*
,b
*
),其中l
*
,t
*
,r
*
,b
*
分别表示从空间位置(x,y)到边界框的左边、上边、右边和下边的偏离距离。
22.(2)边缘引导的人物实例细粒度感知分支
23.边缘引导的人物实例细粒度感知分支包括了四个主要的部分,分别是:细节保持模块、人体部件上下文编码模块、人像解析模块以及精炼模块。
24.a)细节保持模块
25.细节保持模块是在特征p3上通过感兴趣区域对齐池化的操作实现的,其中p3是特征金字塔中最细粒度的输出特征即空间维度最大的。根据人物实例语义解析任务的特点,具体有两方面的原因采用细节保持的机制。一个原因是需要足够大的有标注的人物实例样本训练一个鲁棒的模型,小尺度的人物实例拥有的外观信息较少。由于粗糙分辨率的特征即空间维度比较小能够提供的外观信息比较有限,尤其是对人物区域内那些尺度比较小的人体类别。如果在较粗糙分辨率的特征(比如p7)上执行感兴趣区域池化操作,一些小尺度的人体部件类别,如手套、左手或者眼镜,会由于下采样的操作在粗糙分辨率的层上被忽略掉。因此细粒度分辨率更加适合细粒度的人像语义解析任务,它能够提供更多外观的细节信息,从而辅助更好地执行人物实例的分割。受语义分割模型deeplab v3 中采用的高分辨率保持的策略启发,它能够借鉴低层的特征图中的细节信息辅助恢复细粒度的信息,因此本发明选取了特征金字塔中最细粒度的特征p3来执行感兴趣区域池化。直觉来看,仅仅在特征图p3上执行感兴趣区域池化操作并不是很充分,因为可能会忽略一些高层的语义信息,但是事实上,p3特征已经融合了高层的语义特征。
26.b)人体部件上下文编码模块
27.人体部件上下文编码模块是在细节保持模块的输出特征上执行的。上下文信息是一个非常有意义的线索,已经在语义分割、人像语义解析等任务中被证实其有效性。本发明采用两种方式来挖掘上下文信息,分别是尺度和类别关系。尺度因子的上下文信息是用来解决尺度不一的问题。人体部件类别通常包括多种尺度,因此采用一种有效的方式来捕捉全局和局部信息组成多尺度的上下文特征表达对后续的细粒度人像语义解析步骤有很大的帮助。事实上,特征金字塔是一种比较流行的能够融合多尺度信息的有效架构。具体地,采用人像部件上下文金字塔模块探测人物实例的多尺度上下文信息,其中多个并行的聚集-激励单元采用了不同的空间幅度比率用于探索不同的尺度信息。另外一个是挖掘类别关系提取上下文信息,这种方式能够提供有价值的多个人体类别之间的相关关系,依据这个关系的邻接矩阵改善上下文特征表达。一个空间位置的上下文信息一般是与一系列空间位置有关,图像中一个空间位置(或像素)对应着一个真实的人体类别。据此可以得出一个结论,构建空间位置和其上下文位置之间的关系能够反映不同人体类别之间的关系。受自
注意力机制的启发,自监督注意力机制能够捕捉较远距离的空间位置依赖关系,最终选择非局部操作用来挖掘所输入多尺度上下文信息中的空间位置相关关系。最后,两种探索上下文信息的方式结合在一起形成了人物部件上下文编码模块,它能够提供丰富的上下文特征表达帮助识别细粒度的人体类别。
28.c)人物实例解析模块
29.人物实例解析模块包括两个并行输出,即:人物实例解析和边缘预测。引入边缘预测分支的一个动机是能够辅助区分开一个单人实例区域内的不同人体类别。通常情况下,人物实例区域内部会存在多个不同的人体语义类别,准确地区分出相邻人体部件类别会对正确解析全部的人像语义类别区域有很大的帮助。另外一个动机是在候选边界框区域内,由于有重叠的人物实例存在,肯定会存在多个不同的人物实例,因此将重叠的人物实例有效区分开也是很关键的。由于边缘信息已经在人像语义解析中被验证了其有效性,它是一个有效的线索能够帮助区分人体部件的边界。本发明借鉴边缘信息并将它的作用进行了扩展,不仅仅区分开不同的人物实例且能够帮助准确解析人物实例区域。人像解析模块是实施在增强后的上下文特征表达之后,具体地,四个连续的卷积层用来提供人像解析模块的特征,之后输入到两个预测分支:人像语义类别和边缘预测。
30.d)实例解析结果精炼模块
31.实例人像语义解析结果会因为预测边界框存在两个主要的问题,分别是低质量的全局边界框和不正确的部件级语义解析图。低质量的边界框预测区域不准确会引起较低的交并比得分,并影响实例级的平均准确率得分。同时,如果人像解析图的预测不准确,一些人像语义类别会得到一些较低的交并比iou得分,从而得到的全局人像语义解析结果不理想。改善模块的目标是采用一个互补机制,全局的边界框能够聚焦在提升预测边界框的质量,部件级的人像语义解析图聚焦在提升每个人像语义类别的质量。具体地,全局的边界框采用一个评估交并比的子网络估计iou得分,依次来估计检测编辑框内预测实例人像图的质量。该子网络包括了五个卷积层,最后的输出是一维的iou得分,部件级的解析结果是利用优化一个结构化感知的可求解代理损失。
32.本发明的特点及有益效果是:
33.本发明提出的免锚框实例人像语义解析方法在一台配置为cpu i7-3770 cpu@3.40ghz,11g英伟达2080ti gpu上的运行效率是13.3帧/秒(fps)。
附图说明
34.图1为免锚框实例人像语义解析整体流程图。
35.图2为人像部件上下文编码模块结构图。
36.图3为人像部件上下文金字塔模块。
37.图4为非局部挖掘模块示意图。
38.图5为实例解析结果精炼模块结构图。
具体实施方式
39.本发明针对现有两阶段的基于锚框的实例人像语义解析模型中存在启发式的边界框设计和非像素级的设计特点两大问题,提出一个免锚框的实例人像语义解析方法。下
面结合附图进一步说明本发明和具体实施方式。
40.本发明针对实际复杂场景环境下的人物语义解析任务,提出一种免锚框的实例人像语义解析方法来有效解析图像中每个人物的位置信息以及人像每个像素所属的人体语义类别。该模型是一个像素级可解的、全卷积模式的设计。具体地,采用了一个一阶段的基于中心点预测的免锚框检测器用于人物实例边界框位置预测和一个边缘引导的人物实例语义解析模块用于人像语义部件的识别。免锚框的人物检测器不仅继承了像素级设计的优势,且能够有效避免因产生候选边界框引起的超参数敏感性问题。边缘引导的人像语义解析模块能够有效区分不同的人物实例位置和相邻的人像语义类别。本发明提出的免锚框实例人像语义解析流程如图1所示,具体步骤如下:
41.(1)给定一张输入人物图像,首先采用多层感知骨干网络提取输入图像的多种不同尺度特征,特定地,输入图像首先经过多个卷积操作分别得到五个不同空间维度的特征,即c1、c2、c3、c4、c5,其大小分别为输入图像的1/2、1/4、1/8、1/16和1/32,图1中省略了c1和c2的图例。具体的,c1至c5均采用多个卷积操作和下采样操作逐级得到其不同空间大小的特征。利用三个特征c3、c4和c5分别通过五个不同的步长得到五个不同级的特征p3、p4、p5、p6和p7,其大小分别是输入图像的1/8、1/16、1/32、1/64和1/128。其中p3、p4、p5是通过卷积神经网络中的c3、c4、c5经过一个1
×
1的卷积操作在自顶向下的连接模式下得到。如图1所示,p3、p4和p5分别是通过自顶向下的连接方式从卷积网络的特征c3、c4和c5经过一个卷积核大小为1
×
1的卷积层得到的。p6和p7是通过施加一个卷积核大小为3
×
3,步长为2的卷积层分别作用在p5和p6上得到的。
42.(2)对于步骤(1)中得到的五个级别的特征图{p3、p4、p5、p6、p7},针对每一个特征图pi,分别经过两个并行的预测分支得到特征图中每个像素点对应的候选框所属的类别、边界框位置的偏移量以及该像素点中心感知度预测。一个预测分支是由四个连续的卷积层和一个类别预测的卷积操作得到每个像素点对应的目标框的类别预测,即人或者背景。另外一个预测分支也是由四个连续的卷积层提取特征表达,经过一个中心度预测的卷积操作得到每个像素点对应边界框的中心感知度概率,经过另外一个回归预测的卷积操作得到边界框四个位移坐标的预测。偏移向量t
*
=(l
*
,t
*
,r
*
,b
*
)是由从空间位置(m,n)到边界框的左边、上边、右边和下边的偏离距离组成。空间位置(m,n)对应的边界框其中和分别表示边界框的左上角和右下角顶点坐标,那么四维的偏移向量t
*
可以表示为:
[0043][0044][0045]
两个并行的预测分支的损失函数写为:
[0046][0047]
其中,表示焦点损失函数focal loss,表示交并比损失,表示二值交叉熵损失。和分别表示分类、偏移量回归和中心感知度三个输出的损失。
[0048]
(3)将步骤(2)中得到的人物实例检测框(上一步中预测为人物的候选框),经过在特征p3上通过感兴趣区域对齐池化(roialign)操作,得到每个人物实例边界框的特征表达,对齐池化的输出大小为32
×
32,因此每个人物实例候选边界框得到一个大小为32
×
32
×
256的特征表示,经过人体部件上下文编码模块(如图2所示)进一步加强特征表达,得到一个新的大小为32
×
32
×
512的特征。人体部件上下文编码模块包含了两个部分,一部分是人体部件上下文金字塔模块(如图3所示),另一部分是非局部挖掘模块(如图4所示)。如图3所示,人体部件上下文金字塔模块的输入特征是对人物实例候选框对齐池化后的特征(大小为32
×
32
×
256),经过五个并行的卷积操作分支,分别得到不同大小的特征表达,即32
×
32
×
256、8
×8×
256、4
×4×
256、2
×2×
256、1
×1×
256。第一个并行分支的卷积是由一个卷积核大小为3
×
3的卷积层和一个1
×
1的卷积组成。第二至第五并行分支分别是由2个、3个、4个、5个卷积核大小为3
×
3的深度可分离卷积层得到编码特征,随后经过4倍、8倍、16倍和32倍的上采样操作得到新的激活特征,并与输入特征逐元素相乘,再经过一个1
×
1的卷积操作。最后将五个并行分支的输出特征进行串联,得到一个新的大小为32
×
32
×
1280的候选框特征,再经过一个新的3
×
3的卷积操作得到该模块的输出特征,大小为32
×
32
×
512。人体部件上下文金字塔模块的输出特征后续作为非局部挖掘模块的输入,如图4所示,输入特征经过两个分支,其中第一个分支经过一个1
×
1的卷积操作得到新的特征(大小为32
×
32
×
512),第二个分支经过最大池化操作和两个1
×
1的卷积操作分别得到大小为16
×
16
×
512的两组特征,其中一组特征和第一个分支的输出特征分别经过reshape操作实现了两个特征的相似度计算,即空间位置之间的相似矩阵,相似度矩阵大小为(32
×
32)
×
(16
×
16)。相似度矩阵经过softmax归一化操作,再与第二分支的另一组特征进行矩阵相乘以及reshape变换大小操作得到了大小为32
×
32
×
512的新特征表达,之后再用一个1
×
1的卷积和组归一化操作(gn),并与输入特征逐元素相加得到新的非局部挖掘模块的输出特征(大小为32
×
32
×
512)。
[0049]
非局部挖掘模块的输出特征输入人物实例解析模块,人物实例解析模块将输入特征先经过四个连续的卷积层操作和一个组标准归一化层,之后利用两个并行分支分别预测人物实例的像素级语义解析图(大小为256
×
256
×
c,c表示人体部件的类别数)和边缘信息图(大小为256
×
256
×
2)。两个并行预测分支均由反卷积操作实现,人像解析图采用的反卷积操作卷积核大小为4
×
4,步长为2;边缘预测采用的是卷积核大小为2
×
2,步长为2的反卷积操作。
[0050]
人物实例解析模块的损失函数可以表示为:
[0051][0052]
其中表示标准的交叉熵损失函数,是带权重的交叉熵损失函数,α=β=2。
[0053]
(4)将步骤(3)得到的预测结果进一步通过精炼模块进行优化处理。首先针对人物实例的像素级语义解析结果,采用均交并的损失函数进一步优化。其次,采用一个人像语义解析质量预测模型预测语义解析结果的优劣程度,具体地结构如图5所示。将人像语义解析结果(256
×
256
×
c)首先通过最大池化操作,得到大小为32
×
32
×
c的特征,再和步骤(3)中的最后一层特征即32
×
32
×
512通过串联操作得到32
×
32
×
(512 c)的新特征表达,再经过两个卷积核大小为3
×
3,卷积核数目为128的卷积操作、一个平均池化操作和三个卷积层
(卷积核大小均为1
×
1,输出大小分别为256、256和1)。最后得到人物实例边界框的语义解析质量评价得分。
[0054]
精炼模块的损失函数表示为:
[0055][0056]
其中l
miou
表示均交并比损失函数,l
miou-score
是均方误差函数,θ=2,γ=1。
[0057]
整体的总损失函数公式如下所示:
[0058][0059]
在模型训练阶段,输入的图像需要标注图像中每个人物的空间位置,用中心点位置坐标、长、宽来表示。此外还需要标注每个人物的像素级语义类别信息,即每个像素所属的人体语义类别,比如脸、左胳膊、右胳膊、帽子等等。输出图像的短边长度是从[640,800]的范围内随机选取一个作为短边的长度,然后再将短边的长度调整为800像素,保持长宽比率不变,长边变为小于或者等于1333像素。模型采用随机梯度下降(stochastic gradient descent,sgd)的优化方法训练,总共训练了75个周期,批量的大小是8张图像,初始的学习率设为0.005,分别在50和65个周期的时候降为之前学习率的十分之一。权重衰减和动量系数分别设置为0.0001和0.9。骨干网络的初始化采用在imagenet分类数据上预训练的模型参数。在测试推断阶段,人物实例检测分支输出50个置信度最高得分的人物实例边界框,然后将这些候选框输入到后续的边缘引导的实例人像解析分支去预测人像语义解析的结果。
[0060]
以上所述仅为本发明的实施例,并非因此限制本发明涉及范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明请求保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献