一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种姿态估计方法、装置、设备及计算机可读存储介质与流程

2021-11-05 23:20:00 来源:中国专利 TAG:


1.本技术涉及技术领域,更具体地说,涉及一种姿态估计方法、装置、设备及计算机可读存储介质。


背景技术:

2.在安防领域、自动驾驶领域与机器人等领域中,大部分均利用姿态估计作为辅助判断的参与者或者判定结果的决策者。
3.目前,现有的姿态估计大部分均应用在可见光环境中,但是,在黑夜、大雾天气等没有强光补足的环境下,并不能较好地获取可见光图像,因此,在这种环境下并无法较好地实现基于可见光图像的姿态估计。而红外图像在黑夜等环境下依然可清晰地发现目标,因此,在黑夜等环境下利用红外图像进行姿态估计就具有重大意义。但由于红外光图像相比可见光图像具有对比度、人体脸部与肢体等细节信息比较少,深度学习网络很难收敛,因此,现有应用于可见光图像的姿态估计方法并不能较好地应用在红外光图像中。
4.综上所述,如何提高红外图像中姿态估计的精度,是目前本领域技术人员亟待解决的技术问题。


技术实现要素:

5.有鉴于此,本技术的目的是提供一种姿态估计方法、装置、设备及计算机可读存储介质,用于提高红外图像中姿态估计的精度。
6.为了实现上述目的,本技术提供如下技术方案:
7.一种姿态估计方法,包括:
8.获取红外图像数据集,利用所述红外图像数据集对预先构建的目标检测网络进行训练,得到人体检测网络;
9.根据所述目标检测网络及所述红外图像数据集得到人体候选框图,对所述人体候选框图进行预处理,利用预处理得到的候选框图对预先构建的特征提取网络进行训练,得到人体骨骼点提取网络;所述预处理包括图像增强;
10.根据待识别红外图像及所述人体检测网络,得到待识别人体候选框图;
11.对所述待识别人体候选框图进行所述预处理,利用所述人体骨骼点提取网络对预处理得到的待识别候选框图进行不同纬度的特征提取,并对不同纬度的特征进行融合,且输出人体骨骼点坐标;
12.将所述人体骨骼点坐标映射到所述待识别红外图像中,确定人体姿态。
13.优选的,所述人体骨骼点提取网络包括主干网络、上采样网络、下采样网络、特征平面输出网络、人体骨骼点处理网络,其中:
14.所述主干网络包括resnet网络、预设数量个下采样块、与所述下采样块相连的卷积层,所述下采样块用于对所述resnet网络输出的第一特征平面进行下采样,且在下采样时对下采样得到的特征平面的特征维度进行扩充,以得到第二特征平面,与所述下采样块
相连的卷积层用于将所述下采样块输出的第二特征平面的特征维度更改到预设维度,以得到第三特征平面;
15.所述上采样网络,用于将最后一个第三特征平面进行上采样,生成当前上采样特征平面,将所述当前上采样特征平面与同尺寸的第三特征平面进行连接并在特征维度上进行合并,且进行卷积,输出当前合并特征平面,将所述当前合并特征平面进行上采样,生成新的当前上采样特征平面,执行所述将所述当前上采样特征平面与同尺寸的第三特征平面进行连接并在特征维度上进行合并的步骤,直至得到的当前合并特征平面的尺寸与第一个第三特征平面的尺寸相同为止;
16.所述下采样网络,用于对最后一个当前合并特征平面进行下采样,得到第四特征平面,并将最后一个当前合并特征平面作为一个第四特征平面,且对各所述第四特征平面的尺寸进行调整,得到对应的第五特征平面;
17.所述特征平面输出网络,用于将各所述第五特征平面进行连接,并进行卷积,得到人体骨骼点特征平面。
18.所述人体骨骼点处理网络,用于从所述人体骨骼点特征平面中获取所述人体骨骼点坐标。
19.优选的,所述人体骨骼点处理网络,具体用于对各所述人体骨骼点特征平面进行维度的扩充,并进行滤波,从滤波后的人体骨骼点特征平面中获取最大值点,将所述最大值点确定为人体骨骼点,并确定所述人体骨骼点坐标。
20.优选的,利用所述红外图像数据集对预先构建的目标检测网络进行训练,包括:
21.将所述红外图像数据集中的红外图像输入到blazefacenet网络中,获取预设的特征平面;其中,所述预设的特征平面根据人体在红外图像中的分布占比进行确定;
22.从所述预设的特征平面中提取长宽比处于预设范围内的人体检测框;其中,所述预设范围根据人体长宽比确定。
23.优选的,根据所述目标检测网络及所述红外图像数据集得到人体候选框图,包括:
24.将所述人体检测框的长和宽分别按照预设扩充系数进行扩充,以得到扩充后的人体检测框;其中,所述预设扩充系数大于1;
25.根据所述扩充后的人体检测框从所述红外图像中提取所述人体候选框图。
26.优选的,所述预处理还包括:
27.将所述人体候选框图的尺寸调整为预设尺寸。
28.优选的,对所述人体候选框图进行图像增强,包括:
29.对所述人体候选框图进行像素翻转后拉伸对比度、做直方图对比度拉伸、进行随机图像块像素扰动中的至少一种处理。
30.一种姿态估计装置,包括:
31.获取模块,用于获取红外图像数据集,利用所述红外图像数据集对预先构建的目标检测网络进行训练,得到人体检测网络;
32.训练模块,用于根据所述目标检测网络及所述红外图像数据集得到人体候选框图,对所述人体候选框图进行预处理,利用预处理得到的候选框图对预先构建的特征提取网络进行训练,得到人体骨骼点提取网络;所述预处理包括图像增强;
33.候选框图得到模块,用于根据待识别红外图像及所述人体检测网络,得到待识别
人体候选框图;
34.特征提取模块,用于对所述待识别人体候选框图进行所述预处理,利用所述人体骨骼点提取网络对预处理得到的待识别候选框图进行不同纬度的特征提取,并对不同纬度的特征进行融合,且输出人体骨骼点坐标;
35.映射模块,用于将所述人体骨骼点坐标映射到所述待识别红外图像中,确定人体姿态。
36.一种姿态估计设备,其特征在于,包括:
37.存储器,用于存储计算机程序;
38.处理器,用于执行所述计算机程序时实现如上述任一项所述的姿态估计方法的步骤。
39.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的姿态估计方法的步骤。
40.本技术提供了一种姿态估计方法、装置、设备及计算机可读存储介质,其中,该方法包括:获取红外图像数据集,利用红外图像数据集对预先构建的目标检测网络进行训练,得到人体检测网络;根据目标检测网络及红外图像数据集得到人体候选框图,对人体候选框图进行预处理,利用预处理得到的候选框图对预先构建的特征提取网络进行训练,得到人体骨骼点提取网络;预处理包括图像增强;根据待识别红外图像及人体检测网络,得到待识别人体候选框图;对待识别人体候选框图进行预处理,利用人体骨骼点提取网络对预处理得到的待识别候选框图进行不同纬度的特征提取,并对不同纬度的特征进行融合,且输出人体骨骼点坐标;将人体骨骼点坐标映射到待识别红外图像中,确定人体姿态。
41.本技术公开的上述技术方案,利用红外图像数据集对预先构建的目标检测网络以及预先构建的特征提取网络进行训练,以对应得到人体检测网络及人体骨骼点提取网络,并利用人体检测网络及待识别红外图像得到待识别人体候选框图,对待识别人体候选框图进行包括图像增强的预处理,以模拟出更多的红外图像的信息,使得人体特征更加明显,从而便于有效地增强网络泛化能力,提升整体网络精度,之后,通过利用人体骨骼点提取网络对预处理得到的待识别候选框图进行高低纬度等不同纬度的特征的提取,并融合高低纬度等不同纬度的特征,以使得红外图像下弱特征信息也能得到学习,并使得特征具有更好的全局信息,且使得姿态估计中人体中的手臂、大腿部位等姿态估计精度提升,从而解决红外图像姿态估计可用信息少、难收敛的问题,以提升红外图像姿态估计的整体精度。
附图说明
42.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
43.图1为本技术实施例提供的一种姿态估计方法的流程图;
44.图2为本技术实施例提供的采集到的不同场景中的人物的红外图像示意图;
45.图3为本技术实施例提供的某一红外图像进行人体骨骼点标注的示意图;
46.图4为本技术实施例提供的人体骨骼点提取网络进行特征提取和输出人体骨骼点
坐标的示意图;
47.图5为本技术实施例提供的一待识别红外图像示意图;
48.图6为本技术实施例提供的利用人体骨骼点提取网络提取的头部骨骼点特征平面的示意图;
49.图7为本技术实施例提供的利用人体骨骼点提取网络提取的肩部、肘部与手腕骨骼点特征平面的示意图;
50.图8为本技术实施例提供的臀部、膝盖与脚踝骨骼点特征平面的示意图;
51.图9为本技术实施例提供的滤波后的特征平面收敛点信息示意图;
52.图10为本技术实施例提供的对图5进行姿态估计得到的人体骨骼点示意图;
53.图11为本技术实施例提供的一种姿态估计装置的结构示意图;
54.图12为本技术实施例提供的一种姿态估计设备的结构示意图。
具体实施方式
55.相比于可见光图像,红外图像可以在黑夜、雨雾天气等没有强光补足的环境下清晰地发现目标,精准的识别前方物体,因此,在这些环境下利用红外图像进行姿态估计就具有重大意义。但是,在将红外图像应用在目前用于可见光图像的姿态估计(具体采用hrnet,rsn等算法进行实现)中时,因红外图像相比可见光图像具有对比度、细节等有效信息较少,姿态识别人物上不具备良好的特征信息,深度学习网络较难收敛,因此,将现有应用于可见光图像姿态估计的方法直接应用在红外图像中会存在姿态估计精度比较低、效果比较差的问题。
56.为此,本技术提供一种姿态估计方法、装置、设备及计算机可读存储介质,用于提高红外图像姿态估计的精度。
57.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
58.参见图1,其示出了本技术实施例提供的一种姿态估计方法的流程图,本技术实施例提供的一种姿态估计方法,可以包括:
59.s11:获取红外图像数据集,利用红外图像数据集对预先构建的目标检测网络进行训练,得到人体检测网络。
60.对不同场景(例如不同道路口、不同天气下等)中的人物进行红外图像的采集,对采集的不同道路口的红外图像进行整理,并对不同的天气条件下人的穿着进行全面的采集,以便于提高所获取的红外图像数据集的多样性。其中,为了适应更多的场景,则采集的红外图像中包括人的穿着(例如夏装或者冬装等)在红外下所呈现的不同的形态,同时对雨天人体淋湿、雨天人体身上多处雪点等特征环境数据也同步进行采集整理。例如如图2所示,其示出了本技术实施例提供的采集到的不同场景中的人物的红外图像示意图,在图2左侧红外图像中,人体淋湿处也同时显现出来。
61.在采集不同场景中的红外图像之后,可以采用多个人体骨骼点对红外图像进行标注,其中,本技术以17个人体骨骼点为例进行说明,且这17个人体骨骼点分别为:鼻子、左侧
眼睛、右侧眼睛、左侧耳朵、右侧耳朵、左侧肩膀、右侧肩膀、左侧肘部、右侧肘部、左侧手腕、右侧手腕、左侧臀部、右侧臀部、左侧膝盖、右侧膝盖、左侧脚踝、右侧脚踝,以便于根据这17个人体骨骼点对人体进行姿态估计,当然,也可以包括其他数量个人体骨骼点,只要能够准确地根据人体骨骼点进行人体姿态估计即可。其中,在采用上述17个人体骨骼点对所采集的红外图像进行标注时,具体可以将标注点分为如下3种类型:1:人体骨骼点可见,2:人体骨骼点出现但被遮挡;3:人体骨骼点未出现在红外图像中,以便于利用标注后的红外图像数据对后续的网络进行训练,例如如图3所示,其示出了本技术实施例提供的对某一红外图像进行人体骨骼点标注的示意图。
62.通过上述对不同场景中红外图像的采集和对红外图像中人体骨骼点的标注来获取红外图像数据集。之后,利用所获取的红外图像数据集对预先构建的目标检测网络进行训练,以得到人体检测网络。其中,预先构建的目标检测具体可以为轻量级的目标检测网络,以便于降低网络训练计算量,提高网络训练速度,并降低训练得到的人体检测网络进行检测时的计算量,且提高训练得到的人体检测网络的检测速度。另外,在对目标检测网络进行训练时,具体可以采用softmax损失函数与交叉熵损失函数作为损失函数来对目标检测网络进行训练,训练直至网络收敛。
63.另外,需要说明的是,在利用红外图像数据集对目标检测网络进行训练过程中,目标检测网络可以输出人体检测框,具体可以输出人体检测框左上角的坐标、右下角的坐标、人体检测框的类型(例如0代表人、1代表车等)以及这个人体检测框的概率(概率越大,越判定为人体)
64.s12:根据目标检测网络及红外图像数据集得到人体候选框图,对人体候选框图进行预处理,利用预处理得到的候选框图对预先构建的特征提取网络进行训练,得到人体骨骼点提取网络;预处理包括图像增强。
65.在步骤s11的基础上,可以根据目标检测网络训练时输出的人体检测框及红外图像数据集得到人体候选框图,具体地,可以根据目标检测网络训练时输出的人体检测框从红外图像数据集中对应的红外图像中提取人体候选框图。另外,针对红外图像所具有的图像对比度差异小、色彩信息弱、同时人物出现的时间或者穿着不同,所呈现的结果就是温度差异较大,体现在红外图像中就是人体的像素差异较大的现象,本技术对提取到的提取人体候选框图进行包含图像增强在内的预处理,以得到候选框图,其中,通过图像增强可以尽量模拟出更多的红外图像信息,增加网络在应用时的泛化能力,提高红外图像姿态估计的精度,而其他的预处理则可以提高人体候选框图的质量,同样便于提高红外图像姿态估计的精度。
66.经过上述预处理过程得到候选框图之后,利用预处理得到的候选框图对预先构建的特征提取网络进行训练,以得到人体骨骼点提取网络。其中,特征提取网络用于对候选框图进行不同纬度的特征提取,具体进行高低纬度等不同纬度的特征的提取,并对提取到的不同纬度的特征进行融合,且输出人体骨骼点坐标,其中,通过对不同纬度特征的提取和融合使得红外图像下弱特征信息得到学习,解决红外图像下姿态估计可用信息少、难收敛的问题,同时打乱内部原有的层间信息交互,使得特征具有更好的全局信息,使得姿态估计人物中的手臂、膝盖、大腿等部位姿态估计精度提升,从而便于提高姿态估计的精度。另外,需要说明的是,本技术在对预先构建的特征提取网络进行训练时,具体可以采用l2loss损失
函数作为损失函数,训练直至网络收敛。
67.需要说明的是,步骤s11和步骤s12是分别对人体检测和人体骨骼点提取网络的训练过程,这两个步骤只需在姿态估计时执行一次以得到对应的网络即可,而无需每次姿态估计均进行训练,也即步骤s11和步骤s12是姿态估计是预先进行的步骤,在训练得到对应的网络后,可以利用训练得到的对应网络执行后续过程。
68.s13:根据待识别红外图像及人体检测网络,得到待识别人体候选框图。
69.在经过步骤s11训练得到人体检测网络,经过步骤s12训练得到人体特征网络之后,可以将待识别红外图像输入到人体检测网络中,以利用人体检测网络得到待识别人体检测框,之后,可以根据待识别人体检测框从待识别红外图像中提取待识别人体候选框图。
70.s14:对待识别人体候选框图进行预处理,利用人体骨骼点提取网络对预处理得到的待识别候选框图进行不同纬度的特征提取,并对不同纬度的特征进行融合,且输出人体骨骼点坐标。
71.在提取得到待识别人体候选框图之后,对待识别人体候选框图进行与步骤s12中对人体候选框图所进行的预处理相同的预处理,以通过图像增强而尽量模拟出更多的红外图像信息,增加网络在应用时的泛化能力,提高红外图像姿态估计的精度,并通过其他预处理提高人体候选框图的质量,同样便于提高红外图像姿态估计的精度。
72.在对待识别人体候选框图进行预处理得到待识别候选框图之后,将待识别候选框图输入到人体骨骼点提取网络中,利用人体骨骼点提取网络对待识别候选框图进行不同纬度的特征提取,具体进行高低纬度等不同纬度的特征的提取,并利用人体骨骼点提取网络对提取到的不同纬度的特征进行融合,且在对不同纬度的特征进行融合之后输出人体骨骼点坐标。
73.其中,通过对待识别候选框图进行不同纬度特征的提取和融合可以使得红外图像下弱特征信息得到学习,解决红外图像下姿态估计可用信息少、难收敛的问题,同时打乱内部原有的层间信息交互,使得特征具有更好的全局信息,使得姿态估计人物中的手臂、膝盖、大腿等部位姿态估计精度提升,从而便于提高姿态估计的精度。
74.s15:将人体骨骼点坐标映射到待识别红外图像中,确定人体姿态。
75.在利用人体骨骼点提取网络输出待识候选框图中的人体骨骼点坐标之后,将人体骨骼点坐标映射到对应的待识别红外图像中,以确定人体姿态。
76.本技术公开的上述技术方案,利用红外图像数据集对预先构建的目标检测网络以及预先构建的特征提取网络进行训练,以对应得到人体检测网络及人体骨骼点提取网络,并利用人体检测网络及待识别红外图像得到待识别人体候选框图,对待识别人体候选框图进行包括图像增强的预处理,以模拟出更多的红外图像的信息,使得人体特征更加明显,从而便于有效地增强网络泛化能力,提升整体网络精度,之后,通过利用人体骨骼点提取网络对预处理得到的待识别候选框图进行高低纬度等不同纬度的特征的提取,并融合高低纬度等不同纬度的特征,以使得红外图像下弱特征信息也能得到学习,并使得特征具有更好的全局信息,且使得姿态估计中人体中的手臂、大腿部位等姿态估计精度提升,从而解决红外图像姿态估计可用信息少、难收敛的问题,以提升红外图像姿态估计的整体精度。
77.本技术实施例提供的一种姿态估计方法,人体骨骼点提取网络可以包括主干网络、上采样网络、下采样网络、特征平面输出网络、人体骨骼点处理网络,其中:
78.主干网络可以包括resnet网络、预设数量个下采样块、与下采样块相连的卷积层,下采样块用于对resnet网络输出的第一特征平面进行下采样,且在下采样时对下采样得到的特征平面的特征维度进行扩充,以得到第二特征平面,与下采样块相连的卷积层用于将下采样块输出的第二特征平面的特征维度更改到预设维度,以得到第三特征平面;
79.上采样网络,用于将最后一个第三特征平面进行上采样,生成当前上采样特征平面,将当前上采样特征平面与同尺寸的第三特征平面进行连接并在特征维度上进行合并,且进行卷积,输出当前合并特征平面,将当前合并特征平面进行上采样,生成新的当前上采样特征平面,执行将当前上采样特征平面与同尺寸的第三特征平面进行连接并在特征维度上进行合并的步骤,直至得到的当前合并特征平面的尺寸与第一个第三特征平面的尺寸相同为止;
80.下采样网络,用于对最后一个当前合并特征平面进行下采样,得到第四特征平面,并将最后一个当前合并特征平面作为一个第四特征平面,且对各第四特征平面的尺寸进行调整,得到对应的第五特征平面;
81.特征平面输出网络,用于将各第五特征平面进行连接,并进行卷积,得到人体骨骼点特征平面。
82.人体骨骼点处理网络,用于从人体骨骼点特征平面中获取人体骨骼点坐标。
83.在本技术中,特征提取网络及人体骨骼点提取网络结构相同,本技术在此对人体骨骼点提取网络的具体结构进行说明,特征提取网络的具体结构可以参见人体骨骼点提取网络中相应结构的具体说明,在此不再赘述。
84.人体骨骼点提取网络可以依次包括主干网络、上采样网络、下采样网络、特征平面输出网络、人体骨骼点处理网络,其中:
85.1)主干网络:包括resnet网络(残差网络)、预设数量个下采样块、与下采样块相连的卷积层,resnet网络用于对红外图像(在此即为待识别候选框图)进行特征提取,并输出第一特征平面,其中,resnet网络具体可以为resnet34,且可以采用resnet34的前半部分一个7*7卷积后接一个max pooling层;下采样块中包含卷积模块,用于对第一特征平面进行下采样,同时在利用下采样块对第一特征平面进行下采样的同时对下采样得到的特征平面的特征维度进行一次扩充,以得到预设数量个第二特征平面;与各下采样块分别相连的卷积层用于将对应的下采样块输出的第二特征平面的特征平面的特征维度更改到预设维度,以对应得到预设数量个第三特征平面。其中,通过残差网络对红外图像进行特征提取,残差是为了具备更好的非线性学习,初衷在于能学习到红外图像下的强特征信息。
86.具体地,可以参见图4

图8,其中,图4示出了本技术实施例提供的人体骨骼点提取网络进行特征提取和输出人体骨骼点坐标的示意图,图5示出了本技术实施例提供的一待识别红外图像示意图,图6示出了本技术实施例提供的利用人体骨骼点提取网络提取的头部骨骼点特征平面的示意图,其中,图6中的第一幅图对应鼻子、第二幅图对应左侧眼睛、第三幅图对应右侧眼睛、第四幅图对应左侧耳朵、第五幅图对应右侧耳朵,图7示出了本技术实施例提供的利用人体骨骼点提取网络提取的肩部、肘部与手腕骨骼点特征平面的示意图,其中,图7中的第一幅图对应左侧肩膀、第二幅图对应右侧肩膀、第三幅图对应左侧肘部、第四幅图对应右侧肘部、第五幅图对应的左侧手腕、第六幅图对应的右侧手腕,图8示出了本技术实施例提供的臀部、膝盖与脚踝骨骼点特征平面的示意图,其中,图8中的第一幅
图对应的左侧臀部、第二幅图对应右侧臀部、第三幅图对应左侧膝盖、第四幅图对应右侧膝盖、第五幅图对应左侧脚踝、第六幅图对应右侧脚踝。
87.以输入[1*3*192*256]的待识别候选框图为例,利用resnet34的前半部分一个7*7卷积后接一个max pooling层,输出[1*16*128*96]特征平面,然后接4个下采样块,每个下采样块分别包含6个3*3卷积,其中最后一个为步长为2的卷积,每个下采样块中都包含resnet残差网络,同时每进行一次下采样特征维度进行一次扩充,4个下采样块分别输出:f1`:[1*32*64*48]、f2`:[1*64*32*24]、f3`:[1*128*16*12]、f4`:[1*256*8*6],随后对这4个特征平面分别接一个1*1卷积、一个3*3卷积、一个1*1卷积,输出特征维度都改为256的特征维度,再输出4个特征平面f1、f2、f3、f4,这四个特征平面的大小分别为f1:[1*256*64*48]、f2:[1*256*32*24]、f3:[1*256*16*12]、f4:[1*256*8*6]。
[0088]
2)上采样网络:对最后一个第三特征平面进行上采样(具体为尺寸最小的第三特征平面)进行双线性差值上采样,生成当前上采样特征平面,将当前上采样特征平面与同尺寸的第三特征平面进行连接并在特征维度上进行合并,且进行卷积(具体可进行1*1的卷积),输出当前合并特征平面,将当前合并特征平面进行双线性插值上采样,生成新的当前上采样特征平面,然后,执行将当前上采样特征平面与同尺寸的第三特征平面进行连接并在特征维度上进行合并的步骤,直至得到的当前合并特征平面的尺寸与第一个第三特征平面(具体为尺寸最大的第三特征平面)的尺寸相同为止。
[0089]
具体地,接着上述例子,对f4:[1*256*8*6]进行双线性插值上采样生成u3:[1*256*16*12]特征平面,合并u3:[1*256*16*12]特征平面与原始特征平面同纬度的f3:[1*256*16*12],u3:[1*256*16*12]与f3:[1*256*16*12]进行concat在特征层深度维度(即特征维度)上进行合并后,随后进行1*1的卷积,输出u2`:[1*256*16*12]特征平面,再对u2`:[1*256*16*12]特征平面进行双线性插值上采样后生成u2:[1*256*32*24]特征平面,合并u2:[1*256*32*24]特征平面与原始特征平面同纬度的f2:[1*256*32*24],u2:[1*256*32*24]与f2:[1*256*32*24]进行concat在特征层深度维度上进行合并后,随后进行1*1的卷积,输出u1`:[1*256*32*24]特征平面,再对u1`:[1*256*32*24]特征平面进行双线性插值上采样后生成u1:[1*256*64*48]特征平面,合并u1:[1*256*64*48]特征平面与原始特征平面同纬度的f1:[1*256*64*48],u1:[1*256*64*48]与f1:[1*256*64*48]进行concat在特征层深度维度(上进行合并后,随后进行1*1的卷积,输出d1:[1*256*64*48]特征平面。
[0090]
上述步骤的目的在于组合高低维度的不同语义信息(即特征),且人体骨骼点提取网络中大量的上采样与下采样最终使得学出来的特征点更加的准确,且可以大量的学习全局信息,姿态估计网络对关节点的学习上需要对全局信息的利用,手部与脚步等都是非常依赖全局信息,局部信息尤其是在红外图像下非常的弱,所以此处大量上下采样也是红外图像进行姿态估计的重要手段。
[0091]
3)下采样网络:对上采样网络得到的最后一个当前合并特征平面进行下采样,得到多个(具体为预设数量减去一个)第四特征平面,并将上采样网络得到的最后一个当前合并特征平面作为一个第四特征平面,之后,对预设数量个第四特征平面的尺寸进行调整,得到对应的预设数量个第五特征平面。
[0092]
具体地,接着上述例子,对d1:[1*256*64*48]特征平面进行3*3卷积核步长为2卷积操作,分别输出d2:[1*256*32*24]、d3:[1*256*16*12]、d4:[1*256*8*6]特征平面,对d1:
[1*256*64*48]、d2:[1*256*32*24]、d3:[1*256*16*12]、d4:[1*256*8*6]分别进行尺寸调整,输出:o1:[1*256*64*48]、o2:[1*64*64*48]、o3:[1*16*64*48]、o4:[1*4*64*48]特征平面。
[0093]
其中,对待识别候选框图先后进行一轮下采样、一轮上采样又接一轮下采样,每轮上下采样都采用了预设数量个维度的特征平面,利用该网络可以使得红外图像下弱的特征信息得到学习,解决红外图像姿态估计可用信息少、难收敛的问题,提升姿态估计的整体进度。另外,通过对第四特征平面进行尺寸调整替换一般的卷积操作,主要是在于信息的重组,对红外图像中不清晰的骨骼点进行部分信息的加持融合,可以更加有利的组合信息,推导出不清晰关键点的位置信息,相比于卷积来说计算量进行了缩减,使得整体网络更加轻量化,同时它直接打乱了内部原有的层间信息交互进行重组,使得特征具有更好的全局信息,对于红外图像中一些肢体躯干间距较长的点,例如腿部、膝盖或手臂等等,需要更多、更大范围的全局信息才能定位到该处的特定点信息,利用该结构可以得到更多全局信息,使得整体网络精度提升。
[0094]
4)特征平面输出网络:用于将各个第五特征平面进行连接,并进行卷积,得到人体骨骼点特征平面。
[0095]
具体地,接着上述例子,则利用特征平面输出网络对o1:[1*256*64*48]、o2:[1*64*64*48]、o3:[1*16*64*48]、o4:[1*4*64*48]四个特征评卷进行concat之后,通过一个1*1卷积与一个3*3卷积再接一个1*1卷积之后进行了通道的改变,输出1*17*64*48的特征平面,此时,1*17*64*48的特征平面即为最终收敛得到的人体骨骼点特征平面。
[0096]
5)人体骨骼点处理网络,从人体骨骼点特征平面中获取人体骨骼点坐标。
[0097]
具体地,接着上述举例,则可以从上述得到的17个特征平面中提取人体骨骼点坐标。
[0098]
本技术实施例提供的一种姿态估计方法,人体骨骼点处理网络,具体用于对各人体骨骼点特征平面进行维度的扩充,并进行滤波,从滤波后的人体骨骼点特征平面中获取最大值点,将最大值点确定为人体骨骼点,并确定人体骨骼点坐标。
[0099]
在本技术中,人体骨骼点处理网络在从人体骨骼点特征平面中获取人体骨骼点坐标时,可以先对各人体骨骼点特征平面进行维度的扩充,具体可以在其周围填充10像素点,之后,可以进行滤波,以剔除一些噪声点,具体可以进行11*11的高斯滤波特征平面处理,这里采用大尺度的高斯核进行滤波,主要是为了剔除一些异常的噪声点的影响,具体可以参见图9,其示出了本技术实施例提供的滤波后的特征平面收敛点信息示意图。之后,再对滤波后的人体骨骼点特征平面中寻找特征平面上的最大值点,此时,每个特征平面上的最大值点就是对应的人体骨骼点,对于17个人体骨骼点而言,此时17个特征平面上的最大值点就是17个人体骨骼点。然后,则根据执行步骤s15,即对相应的特征平面上的人体骨骼点做坐标映射,坐标映射回原始图像中,且最终输出原图中的人体骨骼点坐标信息。具体可以参见图10,其示出了本技术实施例提供的对图5进行姿态估计得到的人体骨骼点示意图。
[0100]
本技术实施例提供的一种姿态估计方法,利用红外图像数据集对预先构建的目标检测网络进行训练,可以包括:
[0101]
将红外图像数据集中的红外图像输入到blazefacenet网络中,获取预设的特征平面;
[0102]
从预设的特征平面中提取长宽比处于预设范围内的人体检测框;其中,预设范围根据人体长宽比确定。
[0103]
在利用红外图像数据集对预先构建的目标检测网络进行训练时,可以将红外图像数据集中的红外图像输入到blazefacenet网络中,该网络是亚毫秒级的网络,适合于工业实际应用中使用,且blazefacenet网络主要为了公开数据集的设计,这里根据本技术的任务需求,可以对blazefacenet网络进行剪枝及改进。在进行训练时,输入红外图像数据集中的红外图像,然后利用卷积块结构进行卷积运算,每两个卷积块后进行一个下采样,同时每进行一次维度压缩,网络深度进行两倍扩充,累积进行预设次下采样,最终输出特征平面。以输入300*300*3的图像为例,然后利用卷积块结构进行卷积运算,每两个卷积块后进行一个下采样,同时每进行一次维度压缩,网络深度进行两倍扩充,累积进行6次下采样,最终特征平面输出大小为5*5,最终采用10
×
10、5
×
5这两个特征平面,且利用ssd思想在每个特征平面上每个点做boundingbox(边界框)生成检测框,再筛选出最佳边界框,输出最终行人坐标信息。
[0104]
具体地,将红外图像数据集中的红外图像输入到blazefacenet网络中,原有19
×
19、10
×
10、5
×
5、3
×
3、2
×
2、1
×
1的特征平面,本技术考虑到人体的大小主要分布于红外图像占比的10%~20%左右,所以本技术在使用时仅采用了10
×
10、5
×
5两个特征平面,也即根据人体的大小在红外图像中的分布占比确定预设的特征平面为10
×
10、5
×
5这两个特征平面。当然,如果人体的大小在红外图像中的分布占比发生变化,则预设的特征平面的选取随之发生变化,以便于提高特征平面的精度。
[0105]
在获取预设的特征平面之后,从预设的特征平面中提取人体检测框,且在人体检测框提取时,考虑到本技术主要是对人体进行姿态估计,因此,在进行人体检测框提取时,具体可以从预设的特征平面中提取长宽比处于预设范围内的人体检测框,其中,预设范围具体是根据人体长宽比进行确定的。具体地,原本的大部分检测每个特征平面上每个点构建6个检测框,长宽比分别为1/2、2、1/3、3的检测框以及两个长宽比为1的检测框,考虑到人体的长宽比一般为2/3的比例,所以,这里仅采用1/2、1/3这两个检测框以及两个长宽比为1的检测框,以便于更加贴合人体的比例,有利于人体检测网络的收敛,同时有利于减少特征回归网络分支的压力,对于更加贴合真实比例的人体检测框产生的精度测试结果显示效果更优。
[0106]
本技术实施例提供的一种姿态估计方法,根据目标检测网络及红外图像数据集得到人体候选框图,可以包括:
[0107]
将人体检测框的长和宽分别按照预设扩充系数进行扩充,以得到扩充后的人体检测框;其中,预设扩充系数大于1;
[0108]
根据扩充后的人体检测框从红外图像中提取人体候选框图。
[0109]
在利用目标检测网络得到人体检测框之后,先将人体检测框的长和宽分别按照预设扩充系数进行扩充,也即将人体检测框的长和宽分别乘以预设扩充系数,以得到扩充后的人体检测框,在得到扩充后的人体检测框之后,根据扩充后的人体检测框从红外图像中提取人体候选框图。
[0110]
其中,上述提及的预设扩充系数大于1,且具体可以为1.2,当然,也可以根据红外图像中人体大小进行调整,以便于通过扩充而在人体候选框图提取时能将整个人体包含在
内,从而便于提高姿态估计的精度。
[0111]
本技术实施例提供的一种姿态估计方法,预处理还可以包括:
[0112]
将人体候选框图的尺寸调整为预设尺寸。
[0113]
在本技术中,对人体检测框所进行的预处理除了包括图像增强,还包括以下步骤:
[0114]
在本技术中,对提取到的对待识别人体候选框图所进行的预处理除了包括图像增强,还包括对待识别人体候选框图进行尺寸调整,以将其调整为预设尺寸,之后,则对调整为预设尺寸的人体候选框图进行图像增强,其中,预设尺寸的大小是根据人体骨骼点提取网络确定的,具体地,在本技术中,预设尺寸的大小具体为256*192,以便于使得人体骨骼点提取网络能够顺利地进行下采样,从而便于提高人体骨骼点提取网络进行人体骨骼点提取的精度,进而便于提高姿态估计的精度。
[0115]
本技术实施例提供的一种姿态估计方法,对目标检测网络输出的人体候选框图进行图像增强,可以包括:
[0116]
对人体候选框图进行像素翻转后拉伸对比度、做直方图对比度拉伸、进行随机图像块像素扰动中的至少一种处理。
[0117]
考虑到红外图像中人物出现时间不同或穿着不同,所呈现的结果就是身体的温度差异较大,体现在图像中就是行人的像素差异较大,例如在冬天时行人从室外走进室内,这时人体表面衣着温度是低于室内背景温度,但在夏季或夜晚等普通场景下,人体温度一般高于背景温度,呈现在红外热成像图像上就是高亮的行人,为此,则在对人体候选框图进行图像增强时,具体可以对对人体候选框图进行像素翻转后拉伸对比度、做直方图对比度拉伸、进行随机图像块像素扰动中的至少一种处理,以有效地增强网络的泛化能力,提升整体网络精度。
[0118]
本技术实施例还提供了一种姿态估计装置,参见图11,其示出了本技术实施例提供的一种姿态估计装置的结构示意图,可以包括:
[0119]
获取模块111,用于获取红外图像数据集,利用红外图像数据集对预先构建的目标检测网络进行训练,得到人体检测网络;
[0120]
训练模块112,用于根据目标检测网络及红外图像数据集得到人体候选框图,对人体候选框图进行预处理,利用预处理得到的候选框图对预先构建的特征提取网络进行训练,得到人体骨骼点提取网络;预处理包括图像增强;
[0121]
候选框图得到模块113,用于根据待识别红外图像及人体检测网络,得到待识别人体候选框图;
[0122]
特征提取模块114,用于对待识别人体候选框图进行预处理,利用人体骨骼点提取网络对预处理得到的待识别候选框图进行不同纬度的特征提取,并对不同纬度的特征进行融合,且输出人体骨骼点坐标;
[0123]
映射模块115,用于将人体骨骼点坐标映射到待识别红外图像中,确定人体姿态。
[0124]
本技术实施例提供的一种姿态估计装置,人体骨骼点提取网络可以包括主干网络、上采样网络、下采样网络、特征平面输出网络、人体骨骼点处理网络,其中:
[0125]
主干网络可以包括resnet网络、预设数量个下采样块、与下采样块相连的卷积层,下采样块用于对resnet网络输出的第一特征平面进行下采样,且在下采样时对下采样得到的特征平面的特征维度进行扩充,以得到第二特征平面,与下采样块相连的卷积层用于将
下采样块输出的第二特征平面的特征维度更改到预设维度,以得到第三特征平面;
[0126]
上采样网络,用于将最后一个第三特征平面进行上采样,生成当前上采样特征平面,将当前上采样特征平面与同尺寸的第三特征平面进行连接并在特征维度上进行合并,且进行卷积,输出当前合并特征平面,将当前合并特征平面进行上采样,生成新的当前上采样特征平面,执行将当前上采样特征平面与同尺寸的第三特征平面进行连接并在特征维度上进行合并的步骤,直至得到的当前合并特征平面的尺寸与第一个第三特征平面的尺寸相同为止;
[0127]
下采样网络,用于对最后一个当前合并特征平面进行下采样,得到第四特征平面,并将最后一个当前合并特征平面作为一个第四特征平面,且对各第四特征平面的尺寸进行调整,得到对应的第五特征平面;
[0128]
特征平面输出网络,用于将各第五特征平面进行连接,并进行卷积,得到人体骨骼点特征平面。
[0129]
人体骨骼点处理网络,用于从人体骨骼点特征平面中获取人体骨骼点坐标。
[0130]
本技术实施例提供的一种姿态估计装置,人体骨骼点处理网络,具体用于对各人体骨骼点特征平面进行维度的扩充,并进行滤波,从滤波后的人体骨骼点特征平面中获取最大值点,将最大值点确定为人体骨骼点,并确定人体骨骼点坐标。
[0131]
本技术实施例提供的一种姿态估计装置,获取模块111可以包括:
[0132]
获取单元,用于将红外图像数据集中的红外图像输入到blazefacenet网络中,获取预设的特征平面;
[0133]
第一提取单元,用于从预设的特征平面中提取长宽比处于预设范围内的人体检测框;其中,预设范围根据人体长宽比确定。
[0134]
本技术实施例提供的一种姿态估计装置,训练模块112可以包括:
[0135]
扩充单元,用于将人体检测框的长和宽分别按照预设扩充系数进行扩充,以得到扩充后的人体检测框;其中,预设扩充系数大于1;
[0136]
第二提取单元,用于根据扩充后的人体检测框从红外图像中提取人体候选框图;
[0137]
本技术实施例提供的一种姿态估计装置,训练模块112还可以包括:
[0138]
调整单元,用于将人体候选框图的尺寸调整为预设尺寸。
[0139]
本技术实施例提供的一种姿态估计装置,训练模块112可以包括:
[0140]
处理单元,用于对人体候选框图进行像素翻转后拉伸对比度、做直方图对比度拉伸、进行随机图像块像素扰动中的至少一种处理。
[0141]
本技术实施例还提供了一种姿态估计设备,参见图12,其示出了本技术实施例提供的一种姿态估计设备的结构示意图,可以包括:
[0142]
存储器121,用于存储计算机程序;
[0143]
处理器122,用于执行存储器121存储的计算机程序时可实现如下步骤:
[0144]
获取红外图像数据集,利用红外图像数据集对预先构建的目标检测网络进行训练,得到人体检测网络;根据目标检测网络及红外图像数据集得到人体候选框图,对人体候选框图进行预处理,利用预处理得到的候选框图对预先构建的特征提取网络进行训练,得到人体骨骼点提取网络;预处理包括图像增强;根据待识别红外图像及人体检测网络,得到待识别人体候选框图;对待识别人体候选框图进行预处理,利用人体骨骼点提取网络对预
处理得到的待识别候选框图进行不同纬度的特征提取,并对不同纬度的特征进行融合,且输出人体骨骼点坐标;将人体骨骼点坐标映射到待识别红外图像中,确定人体姿态。
[0145]
本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
[0146]
获取红外图像数据集,利用红外图像数据集对预先构建的目标检测网络进行训练,得到人体检测网络;根据目标检测网络及红外图像数据集得到人体候选框图,对人体候选框图进行预处理,利用预处理得到的候选框图对预先构建的特征提取网络进行训练,得到人体骨骼点提取网络;预处理包括图像增强;根据待识别红外图像及人体检测网络,得到待识别人体候选框图;对待识别人体候选框图进行预处理,利用人体骨骼点提取网络对预处理得到的待识别候选框图进行不同纬度的特征提取,并对不同纬度的特征进行融合,且输出人体骨骼点坐标;将人体骨骼点坐标映射到待识别红外图像中,确定人体姿态。
[0147]
该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(randomaccess memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0148]
本技术实施例提供的一种姿态估计装置、设备及计算机可读存储介质中相关部分的说明可以参见本技术实施例提供的一种姿态估计方法中对应部分的详细说明,在此不再赘述。
[0149]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本技术实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
[0150]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献