一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

人体姿态估计方法、系统及电子设备与流程

2022-05-26 23:22:49 来源:中国专利 TAG:


1.本发明涉及人体姿态估计技术领域,尤其涉及一种人体姿态估计方法、系统及电子设备。


背景技术:

2.人体姿态估计是计算机视觉中一个常见的应用,它的目标在于检测图片或视频中人体的某些关键部位,从而对人体进行姿态估计。人体姿态估计具有重大意义,一些领域的成功实践表明了人体姿态估计可以让机器更容易理解人的意图,从而能在很多应用中起到促进作用。
3.具体地,以安防中的工业生产场景为例,规范操作是一个重要的主题。规范操作能够有效的预防和控制生产事故的发生,避免造成人员伤害和财产损失,保证从业人员的人身安全,保证生产经营活动能够顺利的进行。人体姿态估计能够识别到工业场景中的人物姿态,跟踪关键点位置,从而可识别出人物是否进行了预设动作。基于此可以有效的应用于工业场景中的规范操作,有助于实现其自动化、智能化,提高生产效率。
4.目前主流的人体姿态估计方法都是针对于图片的,然而在实际应用中却更多专注于视频,例如安防、自动驾驶、人机交互等。可知的是,视频在本质上由多副图片组合而成,只是这种组合方式不同于普通的空间组合,而是将图片以时序进行的组合,所以针对视频的人体姿态估计也可以从针对图片的角度进行,然而,视频由大量的图片组成,在时序的影响下,使得针对视频的人体姿态估计方法在进行实际预测和推理时的计算量非常大,效率较低。


技术实现要素:

5.本发明提供一种人体姿态估计方法、系统及电子设备,用以解决现有技术中在面对视频时,因需要对大量图片进行人体姿态估计,所造成的预测和推理时的计算量大,效率较低的缺陷,实现在人体姿态估计时的推理速度的提升。
6.本发明提供一种人体姿态估计方法,包括:
7.获取待检测图像;
8.基于所述待检测图像,得到人体图像;
9.对所述人体图像的边界进行0值填充以及尺寸调整;
10.基于调整后的所述人体图像,得到人体骨骼图;
11.基于所述人体骨骼图,得到人体骨骼关键点;
12.基于所述人体骨骼关键点进行人体姿态估计。
13.根据本发明所述的人体姿态估计方法,所述获取待检测图像,包括:
14.获取待检测视频;
15.利用yolov3-tiny方法,以帧为单位,由所述待检测视频中提取所述待检测图像。
16.根据本发明所述的人体姿态估计方法,所述基于所述待检测图像,得到人体图像,
包括:
17.由所述待检测图像中检测出包含人体的人体区域;
18.基于预设放大比例对所述人体区域进行边界扩充;
19.将经边界扩充的所述人体区域裁剪出来,作为所述人体图像。
20.根据本发明所述的人体姿态估计方法,所述对所述人体图像的边界进行0值填充以及尺寸调整,包括:
21.对所述人体图像的边界进行0值填充;
22.将经0值填充后的人体图像按照预设长宽比例进行尺寸调整。
23.根据本发明所述的人体姿态估计方法,所述基于调整后的所述人体图像,得到人体骨骼图,包括:
24.将调整后的所述人体图像进行整合,形成以batch形式表达的人体图像整体;
25.基于所述人体图像整体,得到所述人体骨骼图。
26.根据本发明所述的人体姿态估计方法,所述基于所述人体图像整体,得到所述人体骨骼图,包括:
27.利用pixelshuffle方法,对所述人体图像整体进行采样;
28.基于采得的样本,得到所述人体骨骼图。
29.根据本发明所述的人体姿态估计方法,所述基于所述人体骨骼关键点进行人体姿态估计,包括:
30.将所述人体骨骼关键点的位置和所述人体图像中的位置对齐;
31.在所述人体图像中将所述人体骨骼关键点标出,实现人体姿态估计。
32.本发明还提供一种人体姿态估计系统,包括:
33.获取模块,用于获取待检测图像;
34.识别模块,用于基于所述待检测图像,得到人体图像;
35.处理模块,用于对所述人体图像的边界进行0值填充以及尺寸调整;
36.第一分析模块,用于基于调整后的所述人体图像,得到人体骨骼图;
37.第二分析模块,用于基于所述人体骨骼图,得到人体骨骼关键点;
38.执行模块,用于基于所述人体骨骼关键点进行人体姿态估计。
39.本发明还提供一种包括如上述所述的人体姿态估计系统的工业生产监控系统。
40.本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述人体姿态估计方法。
41.本发明提供的一种人体姿态估计方法、系统及电子设备,通过对由待检测图像得到的人体图像的边界进行0值填充以及尺寸调整,然后基于由调整后的所述人体图像得到的人体骨骼图,得到人体骨骼关键点,最后基于所述人体骨骼关键点进行人体姿态估计。其中,通过对人体图像的边界进行0值填充以及尺寸调整,不仅有效补充了基于对待检测图像的计算得到的图像大小已经缩小的人体图像的尺寸,以利于保证后续计算人体骨骼图的准确性,还基于像素为0的像素点不参与计算的特点,通过采取0值填充的方法,有效加快了对人体姿态估计的推理速度,提高了效率。
附图说明
42.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1是本发明提供的一种人体姿态估计方法的流程示意图之一;
44.图2是本发明提供的一种人体姿态估计方法的流程示意图之二;
45.图3是本发明提供的一种人体姿态估计系统的结构示意图;
46.图4是本发明提供的电子设备的结构示意图。
具体实施方式
47.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
48.需要说明的是,当前存在很多基于深度学习的姿态估计算法,包括了多人姿态估计和单人姿态估计。
49.具体地,多人姿态估计又分成了自上而下(top-down)和自下而上(bottom-up)两种方式。其中,自上而下的方式首先通过检测出图片或视频中所有的人,把每个人都从原始图片或视频帧中分割出来;然后通过姿态估计器分析每个人的姿态信息;接着用变换矩阵把分割出来的每个人的姿态信息映射回原始图片或视频帧中,从而实现对图片或视频中的所有人进行姿态估计。自上而下的方式一般来说准确率比较高,但是检测时间与图片中人数成正比。而自下而上的方式则是首先提取图片或视频中所有人的关节坐标位置信息,然后把属于同一个人的关节进行分组和聚类,从而最终对图片或视频中所有的人进行姿态估计。自下而上的方式一般情况下效率比较高,图片中人数对检测时间影响较小,但是精度偏低。
50.更具体地,以工业生产场景为例,存在人员较多,人体区域在图像中所占比例极小的特性。这就导致单人姿态估计以及精度偏低的自下而上方式的多人姿态估计并不适用于工业生产场景。然而自上而下的多人姿态估计又存在推理时间过长,运行速度较为缓慢的特点。
51.通过将对比精度与速度进行权衡,当前在工业生产场景下,对人体姿态的估计还是主要采取自上而下的形式,即先从图片中找到人体区域,再从中判别人体关键点位置。
52.基于此,本发明实施例提出了一种基于自上而下的形式进行人体姿态估计的改进的方法,以在保证人体姿态估计准确性的基础上,减少推理时间,从而提高运行速度。
53.具体地,级联网络为多阶段神经网络结构,其中子网络的输入为上一阶段网络的输出,本发明实施例所述的人体姿态估计方法使用级联网络为二阶段的神经网络结构,其中,第一阶段子网络为人体检测器,用于从图像中检测出人体区域,第二阶段子网络为姿态估计器,用于对人体检测器输出的人体区域进行预处理,并输出人体骨骼关键点以用于人体姿态估计。
54.下面结合图1和图2描述本发明的一种人体姿态估计方法,通过级联网络执行;如图1所示,所述方法包括以下步骤:
55.101、获取待检测图像。
56.具体地,获取的待检测图像可以为本身就是图像的图像,也可以是由视频中提取的图像。
57.更具体地,当需要从视频中获取待检测图像时,则需要人体检测器进行待检测图像的获取。
58.102、基于所述待检测图像,得到人体图像。
59.具体地,通过对待检测图像的计算,得到人体图像,即将人体图像由待检测图像中提取出来。
60.103、对所述人体图像的边界进行0值填充以及尺寸调整;
61.104、基于调整后的所述人体图像,得到人体骨骼图;
62.105、基于所述人体骨骼图,得到人体骨骼关键点;
63.106、基于所述人体骨骼关键点进行人体姿态估计。
64.具体地,步骤103至105为姿态估计器对人体图像所进行的处理。
65.可以理解的是,基于对所述待检测图像进行计算,得到的人体图像的尺寸会缩小,不利于后续对人体骨骼图的获取。同时,对人体图像的处理和尺寸调整,直接影响对人体姿态估计的推理速度。所以,在本发明实施例的技术方案中,采用对人体图像边界进行0值填充,即通过像素为0的像素点来填充人体图像的边界,以使人体图像达到固定的大小,然后再通过尺寸调整使人体图像达到适宜获取人体骨骼图的大小,充分利用了像素为0的像素点不参与计算的特性,使得在后续通过调整后的人体图像得到人体骨骼图的推理过程的时长大大缩短,不仅保证了后续计算人体骨骼图的准确性,有效加快了对人体姿态估计的推理速度,提高了效率。
66.进一步地,仍以工业生产场景为例,厂房一般被划分成不同的功能区域,员工在各自的工作区域内各司其职,因而当通过步骤106对待检测图像中的人体姿态进行估计后,即可以根据估计结果以及所述人体姿态估计结果所对应的员工所处的厂房内的位置,与预先设置的厂房内相应位置的工种所对应的标准姿态进行比较,以在出现不规范操作时,及时作出提醒或警告等,从而有效的预防和控制生产事故的发生,避免造成人员伤害和财产损失,不仅保证从业人员的人身安全,还保证了生产经营活动能够顺利的进行。
67.作为本发明的一种实施例,所述获取待检测图像,包括:
68.获取待检测视频;
69.利用yolov3-tiny方法,以帧为单位,由所述待检测视频中提取所述待检测图像。
70.具体地,由于人体语义非常明确、易于检测,而yolov3-tiny方法具有推理速度较快的特点,因而通过在人体检测器中使用推理速度较快的yolov3-tiny轻量级检测器,在能够在不降低人体检测精度的前提下,极大优化人体检测器的推理速度,进而提高人体姿态估计的速度。
71.作为本发明的一种实施例,所述基于所述待检测图像,得到人体图像,包括:
72.由所述待检测图像中检测出包含人体的人体区域;
73.基于预设放大比例对所述人体区域进行边界扩充;
74.将经边界扩充的所述人体区域裁剪出来,作为所述人体图像。
75.具体地,对于由待检测图像得到人体图像的过程,首先通过人体检测器由所述待检测图像中检测出包含人体的人体区域,然后基于预设放大比例对所述人体区域进行边界扩充,最后将经边界扩充的所述人体区域裁剪出来,作为所述人体图像,即对所述人体图像基于扩充裁剪,从而有效防止了因人体检测器给出的人体区域出现边界缺失,进而保证了得到的人体图像的完整性,即保证了人体姿态估计的准确性。
76.更具体地,所述放大比例可以根据需要进行灵活的设置,如1.05、1.1、1.2等等,在这里不做具体限制。
77.作为本发明的一种实施例,所述对所述人体图像的边界进行0值填充以及尺寸调整,包括:
78.对所述人体图像的边界进行0值填充;
79.将经0值填充后的人体图像按照预设长宽比例进行尺寸调整。
80.具体地,通过将现有技术中常用的仿射变化方法,变换成基于数字0填充,以及按照长宽固定比例调整人体图像大小的方法,相较于采用仿射变化方法来说,当处理同样大小的人体图像时,用于实施本发明实施例所述的人体姿态估计方法的姿态估计器,对于像素为0的像素点并不进行计算,因此0填充显著的加快了人体姿态估计的推理速度。
81.更具体地,对于预设长宽比例,通过反复实验的验证,长宽固定比例设置为1200*800能够使得运算速度和运算精度较为均衡,因而,优选将长宽比例设置为1200*800,然而,当更侧重运算精度或运算速度时,也可以根据实际需求对长宽比例进行其他的设置,在这里不做限制。
82.作为本发明的一种实施例,所述基于调整后的所述人体图像,得到人体骨骼图,包括:
83.将调整后的所述人体图像进行整合,形成以batch形式表达的人体图像整体;
84.基于所述人体图像整体,得到所述人体骨骼图。
85.可以理解的是,对于多人姿态估计,仍以工业生产场景为例,一张待检测图像中,包括多个人体区域是非常常见的情况,当对包含多个人体区域的待检测图像基于每个人体区域进行单独推理时,会使得同一张待检测图像被推理多次,严重影响网络的推理速度。
86.基于此,在本发明实施例所述的方法中,将调整后的所述人体图像进行整合,即将位于同一张待检测图像上的所有能够检测到的人体区域进行整合,然后按照batch的形式输入到姿态估计器中,避免了每个人体区域都需要推理一次,极大的提升了采用本发明实施例所述的人体姿态估计方法的整体网络的推理速度。
87.作为本发明的一种实施例,所述基于所述人体图像整体,得到所述人体骨骼图,包括:
88.利用pixelshuffle方法,对所述人体图像整体进行采样;
89.基于采得的样本,得到所述人体骨骼图。
90.具体地,在本发明实施例所基于的自上而下的方式的人体姿态估计方法中,通过将网络中的上采样部分常规使用的插值方法改为利用pixelshuffle方法,使得可以将采样次数进行减少,进而在不降低精度的同时,提升用于实现本发明实施例所述的人体姿态估计方法的姿态估计器的推理速度,即进一步提高了采用本发明实施例所述的人体姿态估计
方法进行人体姿态估计的效率。
91.更具体地,当采用插值方法时,针对下采样和上采样的次数一般分别为5次和3次,而当采用本发明实施例所利用的pixelshuffle方法时,通过实验证实,下采样和上采样的次数分别调整为4次和2次即可达到原本采用插值方法的精度,而采样次数减少,运算量也会随之减少,因而使得推理速度提升。
92.作为本发明的一种实施例,所述基于所述人体骨骼关键点进行人体姿态估计,包括:
93.将所述人体骨骼关键点的位置和所述人体图像中的位置对齐;
94.在所述人体图像中将所述人体骨骼关键点标出,实现人体姿态估计。
95.具体地,通过将人体骨骼关键点位置和人体图像中的位置对齐,并在人体图像中标出,即实现了人体姿态估计。
96.进一步地,仍以工业生产场景为例,本发明上述实施例所述的人体姿态估计方法的流程如图2所示,包括:
97.201、开始;
98.202、获取工业生产视频;
99.203、由工业生产视频提取工业生产图像;
100.204、对工业生产图像进行检测;
101.205、判断工业生产图像中是否包括人体;若是,则进入步骤207;若否,则进入步骤206;
102.206、结束;
103.207、基于边界扩充,由工业图像中裁剪出人体图像;
104.208、对人体图像的边界进行0值填充,并按照固定比例调整大小;
105.209、对调整后的人体图像进行整合,形成以batch形式表达的人体图像整体;
106.210、对人体图像整体进行采样,基于采得的样本得到人体骨骼图;
107.211、基于人体骨骼图,得到人体骨骼关键点;
108.212、将人体骨骼关键点的位置和人体图像中的位置对齐,在人体图像中将人体骨骼关键点标出。
109.本发明实施例所述的人体姿态估计方法采用为自上而下方式的多人姿态估计方法,所述估计方法不仅在精度优于采用自下而上方式的人体姿态估计方法,且能够适应工业生产中人体区域占比小、精度要求高等特性。同时,相交于其他采用自上而下方式的估计方法,本发明实施例所述的估计方法对人体区域检测部分、人体区域处理部分,以及人体姿态估计部分都进行了改进,在保证了精度的前提下,使得推理速度得到了极大提升。
110.下面对本发明提供的一种人体姿态估计系统进行描述,下文描述的一种人体姿态估计系统与上文描述的一种人体姿态估计方法可相互对应参照。
111.如图3所示,为本发明提供的一种人体姿态估计系统,包括:获取模块310、识别模块320、处理模块330、第一分析模块340、第二分析模块350,以及执行模块360;其中,
112.所述获取模块310用于获取待检测图像;
113.所述识别模块320用于基于所述待检测图像,得到人体图像;
114.所述处理模块330用于对所述人体图像的边界进行0值填充以及尺寸调整;
115.所述第一分析模块340用于基于调整后的所述人体图像,得到人体骨骼图;
116.所述第二分析模块350用于基于所述人体骨骼图,得到人体骨骼关键点;
117.所述执行模块360用于基于所述人体骨骼关键点进行人体姿态估计。
118.本发明所述的人体姿态估计系统,通过对由待检测图像得到的人体图像的边界进行0值填充以及尺寸调整,然后基于由调整后的所述人体图像得到的人体骨骼图,得到人体骨骼关键点,最后基于所述人体骨骼关键点进行人体姿态估计。其中,通过对人体图像的边界进行0值填充以及尺寸调整,不仅有效补充了基于对待检测图像的计算得到的图像大小已经缩小的人体图像的尺寸,以利于保证后续计算人体骨骼图的准确性,还基于像素为0的像素点不参与计算的特点,通过采取0值填充的方法,有效加快了对人体姿态估计的推理速度,提高了效率。
119.作为优选的,所述获取模块包括获取单元和提取单元;
120.所述获取单元用于获取待检测视频;
121.所述提取单元用于利用yolov3-tiny方法,以帧为单位,由所述待检测视频中提取所述待检测图像。
122.作为优选的,所述识别模块包括检测单元、处理单元和裁剪单元;其中,
123.所述检测单元用于由所述待检测图像中检测出包含人体的人体区域;
124.所述处理单元用于基于预设放大比例对所述人体区域进行边界扩充;
125.所述裁剪单元用于将经边界扩充的所述人体区域裁剪出来,作为所述人体图像。
126.作为优选的,所述处理模块具体用于对所述人体图像的边界进行0值填充;以及将经0值填充后的人体图像按照预设长宽比例进行尺寸调整。
127.作为优选的,所述第一分析模块包括整合单元和计算单元;
128.所述整合单元用于将调整后的所述人体图像进行整合,形成以batch形式表达的人体图像整体;
129.所述计算单元用于基于所述人体图像整体,得到所述人体骨骼图。
130.作为优选的,所述计算单元具体用于利用pixelshuffle方法,对所述人体图像整体进行采样;以及基于采得的样本,得到所述人体骨骼图。
131.作为优选的,所述执行模块包括对齐单元和标记单元;
132.所述对齐单元用于将所述人体骨骼关键点的位置和所述人体图像中的位置对齐;
133.所述标记单元用于在所述人体图像中将所述人体骨骼关键点标出,实现人体姿态估计。
134.本发明的一种人体姿态估计系统用于前述各实施例的人体姿态估计方法。因此,在前述各实施例中的人体姿态估计方法中的描述和定义,可以用于本发明实施例中各执行单元的理解。
135.本发明还提供一种包括如上述所述的人体姿态估计系统的工业生产监控系统。
136.具体地,所述包括本发明所述的人体姿态估计系统的工业生产监控系统具有所述人体姿态估计系统的所有优点和技术效果,此处不再赘述。
137.图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communications interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通
信。处理器410可以调用存储器430中的逻辑指令,以执行一种人体姿态估计方法,该方法包括:获取待检测图像;基于所述待检测图像,得到人体图像;对所述人体图像的边界进行0值填充以及尺寸调整;基于调整后的所述人体图像,得到人体骨骼图;基于所述人体骨骼图,得到人体骨骼关键点;基于所述人体骨骼关键点进行人体姿态估计。
138.此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
139.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的一种人体姿态估计方法,该方法包括:获取待检测图像;基于所述待检测图像,得到人体图像;对所述人体图像的边界进行0值填充以及尺寸调整;基于调整后的所述人体图像,得到人体骨骼图;基于所述人体骨骼图,得到人体骨骼关键点;基于所述人体骨骼关键点进行人体姿态估计。
140.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的一种人体姿态估计方法,该方法包括:获取待检测图像;基于所述待检测图像,得到人体图像;对所述人体图像的边界进行0值填充以及尺寸调整;基于调整后的所述人体图像,得到人体骨骼图;基于所述人体骨骼图,得到人体骨骼关键点;基于所述人体骨骼关键点进行人体姿态估计。
141.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
142.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
143.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献