一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

人体姿态预测模型训练方法、人体姿态预测方法及装置与流程

2021-10-29 20:28:00 来源:中国专利 TAG:姿态 人体 预测 方法 人工智能


1.本技术涉及人工智能技术领域,具体而言,涉及一种人体姿态预测模型训练方法、人体姿态预测方法及装置。


背景技术:

2.人体姿态估计是指对图像中的人体姿态和关键点进行预测。本质上,人体姿态估计会将图像中人体各个部位的位置抽象为一组结构化的坐标。人体姿态估计技术在人机交互、图像检索、异常检测、动作预测等领域有重要的应用。
3.现有的人体姿态估计方法大都依赖于大量的标注数据。标注数据的数据量大小对人体姿态估计的最终效果有很大的影响。尽管目前人体姿态估计数据集的数据量较之前已有很大提升,但是构建一个大型的人体姿态估计数据集依然是十分困难的。例如,mpii人体姿态估计数据集包含2万5千幅图像、4万左右的人体姿态,远远少于图像分类和图像检测需求的百万量级数据集。这是因为人体姿态估计数据集的标注要求更高、更精细,也更复杂,因此需要耗费大量的人力和时间成本。
4.深度学习自诞生以来获得了大量的关注,也在人体姿态估计领域获得了应用。与深度学习一脉相承,目前使用大量的训练数据进行监督训练已经成为人体姿态估计技术的主流。然而,过于依赖大量的有标注训练数据,在一定程度上阻碍了人体姿态估计技术的进步。互联网等技术在迅速崛起的同时也带来了大量的数据,使用人力去标注如此海量的数据是不可想象的。因此,如何利用海量的无标注数据进行人体姿态估计,也是现有技术亟待解决的问题。


技术实现要素:

5.本技术实施例的目的在于提供一种人体姿态预测模型训练方法、人体姿态预测方法及装置,可以结合多个未经标注的第二人体图像来进行对抗训练,可以提高精确度,减小对经过标注的第一人体图像的需求量。
6.第一方面,本技术实施例提供了一种人体姿态预测模型训练方法,包括:获取标注训练集和未标注训练集,所述标注训练集包括多张包含标注数据的第一人体图像,所述标注数据用于表示所述第一人体图像中的真实姿态信息;所述未标注训练集包括多张不包含标注数据的第二人体图像;将所述第一人体图像输入人体姿态预测模型中的生成器,得到对应的第一人体姿态预测结果,并根据所述标注数据以及所述第一人体姿态预测结果计算所述生成器的第一损失值;将所述第二人体图像输入所述生成器,得到对应的第二人体姿态预测结果;根据所述第一人体图像、所述标注数据、所述第二人体图像以及所述第二人体姿态预测结果计算所述人体姿态预测模型中的判别器对应的第二损失值;根据所述第一损失值以及所述第二损失值对所述生成器以及所述判别器进行优化,得到所述人体姿态预测模型。
7.可选地,在本技术实施例所述的人体姿态预测模型训练方法中,所述将所述第一
人体图像输入人体姿态预测模型中的生成器,得到对应的第一人体姿态预测结果,并根据所述标注数据以及所述第一人体姿态预测结果计算所述生成器的第一损失值,包括:将所述第一人体图像输入所述生成器,得到对应多通道的预测人体姿态热图;其中,每个通道的预测人体姿态热图预测一个人体关键点位置;基于所述第一人体图像对应的标注数据生成对应的参考人体姿态热图;根据所述预测人体姿态热图以及所述参考人体姿态热图计算所述第一损失值。
8.可选地,在本技术实施例所述的人体姿态预测模型训练方法中,所述根据所述第一人体图像、所述标注数据、所述第二人体图像以及所述第二人体姿态预测结果计算所述人体姿态预测模型中的判别器对应的第二损失值,包括:将所述第一人体图像以及所述参考人体姿态热图作为真数据序列输入所述判别器,并将所述第二人体图像以及所述第二人体姿态预测结果作为假数据序列输入所述判别器,分别得到所述判别器输出的判别结果;根据所述判别结果计算所述第二损失值。
9.可选地,在本技术实施例所述的人体姿态预测模型训练方法中,所述根据所述第一损失值以及所述第二损失值对所述生成器以及所述判别器进行优化,包括:根据所述第一损失值以及所述第二损失值更新所述生成器的网络参数,并根据所述第二损失值更新所述判别器的网络参数。
10.可选地,在本技术实施例所述的人体姿态检测模型训练方法中,所述获取标注训练集和未标注训练集,包括:获取包含标注数据的原始标注训练集以及不包含标注数据的原始未标注训练集;利用预先训练的人体检测模型分别对所述原始标注训练集中的图像以及所述原始未标注训练集中的图像进行人体检测,得到所述标注训练集中的所述第一人体图像以及所述未标注训练集中的所述第二人体图像;其中,所述第一人体图像以及所述第二人体图像均为单人图像。
11.第二方面,本技术实施例提供了一种人体姿态预测方法,包括:获取第三人体图像;将所述第三人体图像输入采用上述第一方面中所述的人体姿态预测模型训练方法得到的人体姿态预测模型中的生成器,得到第三人体姿态预测结果。
12.第三方面,本技术实施例提供了一种人体姿态预测模型训练装置,包括:第一获取模块,用于获取标注训练集和未标注训练集,所述标注训练集包括多张包含标注数据的第一人体图像,所述标注数据用于表示所述第一人体图像中的真实姿态信息;所述未标注训练集包括多张不包含标注数据的第二人体图像;第一输入模块,用于将所述第一人体图像输入人体姿态预测模型中的生成器,得到对应的第一人体姿态预测结果,并根据所述标注数据以及所述第一人体姿态预测结果计算所述生成器的第一损失值;第二输入模块,用于将所述第二人体图像输入所述生成器,得到对应的第二人体姿态预测结果;计算模块,用于根据所述第一人体图像、所述标注数据、所述第二人体图像以及所述第二人体姿态预测结果计算所述人体姿态预测模型中的判别器对应的第二损失值;优化模块,用于根据所述第一损失值以及所述第二损失值对所述生成器以及所述判别器进行优化,得到所述人体姿态预测模型。
13.可选地,在本技术实施例所述的人体姿态检测模型训练装置中,所述第一输入模块具体用于:将所述第一人体图像输入所述生成器,得到对应多通道的预测人体姿态热图;其中,每个通道的预测人体姿态热图预测一个人体关键点位置;基于所述第一人体图像对
应的标注数据生成对应的参考人体姿态热图;根据所述预测人体姿态热图以及所述参考人体姿态热图计算所述第一损失值。
14.可选地,在本技术实施例所述的人体姿态检测模型训练装置中,所述计算模块具体用于:将所述第一人体图像以及所述参考人体姿态热图作为真数据序列输入所述判别器,并将所述第二人体图像以及所述第二人体姿态预测结果作为假数据序列输入所述判别器,分别得到所述判别器输出的判别结果;根据所述判别结果计算所述第二损失值。
15.可选地,在本技术实施例所述的人体姿态检测模型训练装置中,所述优化模块具体用于:根据所述第一损失值以及所述第二损失值更新所述生成器的网络参数,并根据所述第二损失值更新所述判别器的网络参数。
16.可选地,在本技术实施例所述的人体姿态检测模型训练装置中,所述第一获取模块具体用于:所述获取标注训练集和未标注训练集,包括:获取包含标注数据的原始标注训练集以及不包含标注数据的原始未标注训练集;利用预先训练的人体检测模型分别对所述原始标注训练集中的图像以及所述原始未标注训练集中的图像进行人体检测,得到所述标注训练集中的所述第一人体图像以及所述未标注训练集中的所述第二人体图像;其中,所述第一人体图像以及所述第二人体图像均为单人图像。
17.第四方面,本技术实施例提供了一种人体姿态预测装置,包括:第二获取模块,用于获取第三人体图像;预测模块,用于将所述第三人体图像输入采用上述第一方面中所述的人体姿态预测模型训练方法得到的人体姿态预测模型中的生成器,得到第三人体姿态预测结果。
18.第五方面,本技术实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面中所述的方法或者如上述第二方面中所述的方法。
19.第六方面,本技术实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面中所述的方法或者如上述第二方面中所述的方法。
20.由上可知,本技术实施例提供的人体姿态预测模型训练方法、人体姿态预测方法及装置通过获取标注训练集和未标注训练集,所述标注训练集包括多张包含标注数据的第一人体图像,所述标注数据用于表示所述第一人体图像中的真实姿态信息;所述未标注训练集包括多张不包含标注数据的第二人体图像;将所述第一人体图像输入人体姿态预测模型中的生成器,得到对应的第一人体姿态预测结果,并根据所述标注数据以及所述第一人体姿态预测结果计算所述生成器的第一损失值;将所述第二人体图像输入所述生成器,得到对应的第二人体姿态预测结果;根据所述第一人体图像、所述标注数据、所述第二人体图像以及所述第二人体姿态预测结果计算所述人体姿态预测模型中的判别器对应的第二损失值;根据所述第一损失值以及所述第二损失值对所述生成器以及所述判别器进行优化,得到所述人体姿态预测模型。因此,由于在训练过程中应用了未标注训练集,在经过标注的第一人体图像不足的情况下,结合多个未经标注的第二人体图像来进行对抗训练,可以提高精确度,减小对经过标注的第一人体图像的需求量。
21.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说
明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
22.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
23.图1为本技术实施例提供的一种人体姿态预测模型训练方法的流程图;
24.图2为本技术实施例提供的一种人体姿态预测方法的流程图;
25.图3为本技术实施例提供的一种人体姿态预测模型训练装置的结构示意图;
26.图4为本技术实施例提供的一种人体姿态预测装置的结构示意图;
27.图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
28.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
29.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
30.近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(artificial intelligence,ai)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(slam)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
31.请参照图1,图1为本技术实施例提供的一种人体姿态预测模型训练方法的流程图。该人体姿态预测模型训练方法可以包括以下步骤:
32.s101、获取标注训练集和未标注训练集。
33.s102、将第一人体图像输入人体姿态预测模型中的生成器,得到对应的第一人体姿态预测结果,并根据标注数据以及第一人体姿态预测结果计算生成器的第一损失值。
34.s103、将第二人体图像输入生成器,得到对应的第二人体姿态预测结果。
35.s104、根据第一人体图像、标注数据、第二人体图像以及第二人体姿态预测结果计算人体姿态预测模型中的判别器对应的第二损失值。
36.s105、根据第一损失值以及第二损失值对生成器以及判别器进行优化,得到人体姿态预测模型。
37.具体的,在该步骤s101中,该标注训练集包括多张包含标注数据的第一人体图像。作为一种实施方式,可以从公开的数据库中去获取多个包含标注数据的第一人体图像;作为另一种实施方式,也可以从网上获取不包含标注数据的人体图像,然后通过不包含标注数据的人体图像得到多张包含标注数据的第一人体图像。
38.其中,标注数据用于表示第一人体图像中的真实姿态信息,真实姿态信息可以包括人体关键节点信息(人体关键点包括:头顶、脖子、左肩、左肘、左手腕、右肩、右肘、右手腕等位置)、人体姿态信息等信息。
39.可以理解的是,通过不包含标注数据的人体图像得到第一人体图像的方式有多种,例如:利用现有的人体姿态预测模型对人体图像进行处理;或者,人工手动对人体图像进行标注等,本技术实施例对此不作具体的限定。
40.类似的,在该步骤s101中,该未标注训练集包括多张不包含标注数据的第二人体图像,也就是说,第二人体图像为仅包括未经过标注处理的人体姿态的原始图像。可以理解的是,第二人体图像可以通过公开数据集中的未标注部分(如coco unlabeled)等多种途径获取。
41.此外,第一人体图像和第二人体图像均可以是只包含一个人的人体图像。因此,对于存在多个人的场景图像,可以通过一个预先训练好的人体检测模型进行预处理,然后将每个人的图像抠出来,得到对应的人体图像,具体步骤如下:
42.第一步,获取包含标注数据的原始标注训练集以及不包含标注数据的原始未标注训练集。
43.第二步,利用预先训练的人体检测模型分别对原始标注训练集中的图像以及原始未标注训练集中的图像进行人体检测,得到标注训练集中的第一人体图像以及未标注训练集中的第二人体图像。
44.在该步骤s102-步骤s105中,本技术实施例提供的人体姿态预测模型可以为一种生成对抗网络(gan,generative adversarial networks),该人体姿态预测模型可以包括生成器以及判别器两个部分。
45.在该步骤s102中,对于输入该生成器的第一人体图像,该生成器会输出对应的第一人体姿态预测结果。作为一种实施方式,生成器输出的第一人体姿态预测结果可以包括多个通道的人体姿态热图。该每一个通道的人体姿态热图可以用于表示该生成器预测的一个人体关键点位置,因此,多个通道的人体姿态热图分别用于表示该生成器预测的不同的人体关键点位置。可以理解的是,在人体姿态热图上,可以用不同的颜色表示该位置为预测的人体关键点位置的概率,例如:人体姿态热图上的颜色越接近红色,表示该位置越可能是预测的对应的人体关键点位置。
46.在生成器输出第一人体姿态预测结果之后,可以根据该第一人体姿态预测结果与第一人体图像包含的标注数据计算出该生成器的第一损失值。其中,上述步骤s102具体可以包括如下步骤:
47.第一步,将第一人体图像输入生成器,得到对应多通道的预测人体姿态热图。
48.第二步,基于第一人体图像对应的标注数据生成对应的参考人体姿态热图。
49.第三步,根据预测人体姿态热图以及参考人体姿态热图计算第一损失值。
50.在上述步骤中,首先,可以将第一人体图像输入生成器得到预测的人体姿态热图;然后,可以通过算法将第一人体图像对应的标注数据直接映射为真实的人体姿态热图;最后,基于预测的人体姿态热图以及真实的人体姿态热图,可以计算生成器的第一损失值,其中,第一损失值表征预测的人体姿态热图与真实的人体姿态热图之间的差异。
51.在该步骤s103中,对于输入该生成器的第二人体图像,该生成器会输出对应的第二人体姿态预测结果。与第一人体姿态预测结果类似,作为一种实施方式,生成器输出的第二人体姿态预测结果也可以包括多个通道的人体姿态热图。其中,由于第二人体图像不包含标注数据,因此,与生成器输出的第二人体姿态预测结果对应的人体姿态热图的置信度较低。
52.在该步骤s104中,上述步骤s104具体可以包括如下步骤:
53.第一步,将第一人体图像以及参考人体姿态热图作为真数据序列输入判别器,并将第二人体图像以及第二人体姿态预测结果作为假数据序列输入所述判别器,分别得到判别器输出的判别结果;
54.第二步,根据判别结果计算第二损失值。
55.在上述步骤中,判别器是使不包含标注数据的第二人体图像派上用场的关键模块。和现有的对抗训练网络模型类似,本技术实施例提供的判别器的输入包含“真”和“假”两个部分。其中,包含标注数据的第一人体图像和根据其对应标注数据生成的参考人体姿态热图组成了“真”端的输入;不包含标注数据的第二人体图像和其对应由生成器输出的第二人体姿态预测结果组成了“假”端输入。判别器会对输入的数据做出一个真假的判别,并输出一个0到1之间的真假的概率,从而计算出判别器对应的第二损失值。
56.在该步骤s105中,可以采用上述实施例中得到的第一损失值以及第二损失值计算得到对应的总损失值。然后,可以采用该总损失值对本技术实施例提供的人体姿态预测模型中的生成器以及判别器进行优化,从而得到训练好的人体姿态预测模型。
57.作为一种实施方式,第二损失值会分别对判别器和生成器进行优化,而第一损失值仅对生成器进行优化。其中,上述步骤s105具体可以包括如下步骤:
58.根据第一损失值以及第二损失值更新生成器的网络参数,并根据第二损失值更新判别器的网络参数。
59.在上述步骤中,在优化判别器时,第二损失值会迫使判别器做出正确的真假判别,在输入为“真”数据时,第二损失值会尽可能地让判别器的输出接近1;在输入为“假”数据时,第二损失值会尽可能地让判别器的输出接近0。
60.在优化生成器时,第一损失值以及第二损失值会尽可能地让生成器预测得到的人体姿态热图符合真实的人体姿态热图分布(尽可能像真的)。
61.第一损失值以及第二损失值通过交替地更新判别器和生成器的网络参数,从而让
两个判别器和生成器模块彼此对抗、共同进步。
62.进一步的,在一些实施例中,该步骤s101中的获取标注训练集的步骤可以包括以下子步骤:
63.第一步,获取多个具有标注数据的第一原始图像;每一第一原始图像均包括一个人体的姿态数据。
64.第二步,对多个第一原始图像进行缩放处理,得到具有相同尺寸规格的第一人体图像。
65.在上述步骤中,通过将该多个第一人体图像设置为相同尺寸规格可以提高后续在生成器进行训练时的准确率,降低损失。当然,对应地,对于未标注训练集,可以采取与标注训练集相同的处理方式,此处不再赘述。
66.由上可知,本技术实施例提供的人体姿态检测模型训练方法通过获取标注训练集和未标注训练集,标注训练集包括多张包含标注数据的第一人体图像,标注数据用于表示第一人体图像中的真实姿态信息;未标注训练集包括多张不包含标注数据的第二人体图像;将第一人体图像输入人体姿态预测模型中的生成器,得到对应的第一人体姿态预测结果,并根据标注数据以及第一人体姿态预测结果计算生成器的第一损失值;将第二人体图像输入生成器,得到对应的第二人体姿态预测结果;根据第一人体图像、标注数据、第二人体图像以及第二人体姿态预测结果计算人体姿态预测模型中的判别器对应的第二损失值;根据第一损失值以及第二损失值对生成器以及判别器进行优化,得到人体姿态预测模型。因此,由于在训练过程中应用了未标注训练集,在经过标注的第一人体图像不足的情况下,结合多个未经标注的第二人体图像来进行对抗训练,可以提高精确度,减小对于经过标注的第一人体图像的需求量。
67.请参照图2,图2为本技术实施例提供的一种人体姿态预测方法的流程图。该人体姿态预测方法可以包括以下步骤:
68.s201、获取第三人体图像。
69.s202、将第三人体图像输入采用人体姿态预测模型训练方法得到的人体姿态预测模型中的生成器,得到第三人体姿态预测结果。
70.具体的,在该步骤s201中,可以获取待预测的第三人体图像,该第三人体图像可以为不包含标注数据的原始图像,通过本技术实施例提供的人体姿态预测方法,可以预测得到该第三人体图像中人体的姿态。
71.在该步骤s202中,可以将步骤s201中获取到的第三人体图像输入至预先训练好的人体姿态预测模型的生成器中,其中,该人体姿态预测模型可以采用上述实施例中的人体姿态预测模型训练方法训练得到。生成器可以根据第三人体图像输出与其对应的第三人体姿态预测结果,实现对第三人体图像中人体姿态的预测。
72.请参照图3,图3为本技术提供的一种人体姿态预测模型训练装置的结构示意图,该人体姿态预测模型训练装置300,包括:第一获取模块301、第一输入模块302、第二输入模块303、计算模块304以及优化模块305。
73.其中,该第一获取模块301用于获取标注训练集和未标注训练集。
74.该标注训练集包括多种包含标注数据的第一人体图像。作为一种实施方式,可以从公开的数据库中去获取多个包含标注数据的第一人体图像;作为另一种实施方式,也可
以从网上获取不包含标注数据的人体图像,然后通过不包含标注数据的人体图像得到多张包含标注数据的第一人体图像。
75.其中,标注数据用于表示第一人体图像中的真实姿态信息,真实姿态信息可以包括人体关键节点信息(人体关键点包括:头顶、脖子、左肩、左肘、左手腕、右肩、右肘、右手腕等位置)、人体姿态信息等信息。
76.可以理解的是,通过不包含标注数据的人体图像得到第一人体图像的方式有多种,例如:利用现有的人体姿态预测模型对人体图像进行处理;或者,人工手动对人体图像进行标注等,本技术实施例对此不作具体的限定。
77.类似的,该未标注训练集包括多张不包含标注数据的第二人体图像,也就是说,第二人体图像为仅包括未经过标注处理的人体姿态的原始图像。可以理解的是,第二人体图像可以通过公开数据集中的未标注部分(如coco unlabeled)等多种途径获取。
78.此外,第一人体图像和第二人体图像均可以是只包含一个人的人体图像。因此,对于存在多个人的场景图像,可以通过一个预先训练好的人体检测模型进行预处理,然后将每个人的图像抠出来,得到对应的人体图像,具体步骤如下:
79.第一步,获取包含标注数据的原始标注训练集以及不包含标注数据的原始未标注训练集。
80.第二步,利用预先训练的人体检测模型分别对原始标注训练集中的图像以及原始未标注训练集中的图像进行人体检测,得到标注训练集中的第一人体图像以及未标注训练集中的第二人体图像。
81.其中,该第一输入模块302用于将第一人体图像输入人体姿态预测模型中的生成器,得到对应的第一人体姿态预测结果,并根据标注数据以及第一人体姿态预测结果计算生成器的第一损失值。
82.对于输入该生成器的第一人体图像,该生成器会输出对应的第一人体姿态预测结果。作为一种实施方式,生成器输出的第一人体姿态预测结果可以包括多个通道的人体姿态热图。该每一个通道的人体姿态热图可以用表示该生成器预测的一个人体关键点位置,因此,多个通道的人体姿态热图分别用于表示该生成器预测的不同的人体关键点位置。可以理解的是,人体姿态热图上的颜色越接近红色,表示该位置越可能是预测的对应的人体关键点位置。
83.在生成器输出第一人体姿态预测结果之后,可以根据该第一人体姿态预测结果与第一人体图像包含的标注数据计算出该生成器的第一损失值。
84.其中,在本技术实施例所述的人体姿态检测模型训练装置300中,第一输入模块302具体用于:将第一人体图像输入生成器,得到对应多通道的预测人体姿态热图;其中,每个通道的预测人体姿态热图预测一个人体关键点位置;基于第一人体图像对应的标注数据生成对应的参考人体姿态热图;根据预测人体姿态热图以及参考人体姿态热图计算第一损失值。
85.首先,可以将第一人体图像输入生成器得到预测的人体姿态热图;然后,可以通过算法将第一人体图像对应的标注数据直接映射为真实的人体姿态热图;最后,基于预测的人体姿态热图以及真实的人体姿态热图,可以计算生成器的第一损失值。
86.其中,该第二输入模块303用于将第二人体图像输入生成器,得到对应的第二人体
姿态预测结果。
87.对于输入该生成器的第二人体图像,该生成器会输出对应的第二人体姿态预测结果。与第一人体姿态预测结果类似,作为一种实施方式,生成器输出的第二人体姿态预测结果也可以包括多个通道的人体姿态热图。其中,由于第二人体图像不包含标注数据,因此,与生成器输出的第二人体姿态预测结果对应的人体姿态热图的置信度较低。
88.其中,该计算模块304用于根据第一人体图像、标注数据、第二人体图像以及第二人体姿态预测结果计算人体姿态预测模型中的判别器对应的第二损失值。
89.其中,在本技术实施例的人体姿态检测模型训练装置300中,计算模块304具体用于:将第一人体图像以及参考人体姿态热图作为真数据序列输入判别器,并将第二人体图像以及第二人体姿态预测结果作为假数据序列输入判别器,分别得到判别器输出的判别结果;根据判别结果计算第二损失值。
90.在上述步骤中,判别器是使不包含标注数据的第二人体图像派上用场的关键模块。和现有的对抗训练网络模型类似,判别器的输入包含“真”和“假”两个部分。其中,包含标注数据的第一人体图像和其对应标注数据生成的参考人体姿态热图组成了“真”端的输入;不包含标注数据的第二人体图像和其对应由生成输出的第二人体姿态预测结果组成了“假”端输入。判别器会对输入的数据做出一个真假的判别,并输出一个0到1之间的真假的概率,从而计算出对抗损失函数。
91.其中,该优化模块305用于根据第一损失值以及第二损失值对生成器以及判别器进行优化,得到人体姿态预测模型。
92.可以采用上述实施例中得到的第一损失值以及第二损失值计算得到对应的总损失函数。然后,可以采用该总损失函数对本技术实施例提供的人体姿态预测模型中的生成器以及判别器进行优化,从而得到训练好的人体姿态预测模型。
93.作为一种实施方式,第二损失值会分别对判别器和生成器进行优化,而第一损失值仅对生成器进行优化。其中,在本技术实施例所述的人体姿态检测模型训练装置300中,优化模块305具体用于:根据第一损失值以及第二损失值更新生成器的网络参数,并根据第二损失值更新判别器的网络参数。
94.在优化判别器时,第二损失值会迫使判别器做出正确的真假判别,在输入为“真”数据时,第二损失值会尽可能地让判别器的输出接近1;在输入为“假”数据时,第二损失值会尽可能地让判别器的输出接近0。
95.在优化生成器时,第一损失值以及第二损失值会尽可能地让生成器预测得到的人体姿态热图符合真实的人体姿态热图分布(尽可能像真的)。
96.第一损失值以及第二损失值通过交替地更新判别器和生成器的网络参数,从而让两个判别器和生成器模块彼此对抗、共同进步。
97.进一步的,在一些实施例中,该第一获取模块301具体用于:获取多个具有标注数据的第一原始图像;每一第一原始图像均包括一个人体的姿态数据;对多个第一原始图像进行缩放处理,得到具有相同尺寸规格的第一人体图像。
98.通过将该多个第一人体图像设置为相同尺寸规格可以提高后续在生成器进行训练时的准确率,降低损失。当然,对应地,对于未标注训练集。
99.由上可知,本技术实施例提供的人体姿态检测模型训练装置300通过获取标注训
练集和未标注训练集,标注训练集包括多张包含标注数据的第一人体图像,标注数据用于表示第一人体图像中的真实姿态信息;未标注训练集包括多张不包含标注数据的第二人体图像;将第一人体图像输入人体姿态预测模型中的生成器,得到对应的第一人体姿态预测结果,并根据标注数据以及第一人体姿态预测结果计算生成器的第一损失值;将第二人体图像输入生成器,得到对应的第二人体姿态预测结果;根据第一人体图像、标注数据、第二人体图像以及第二人体姿态预测结果计算人体姿态预测模型中的判别器对应的第二损失值;根据第一损失值以及第二损失值对生成器以及判别器进行优化,得到人体姿态预测模型。因此,由于在训练过程中应用了未标注训练集,在经过标注的第一人体图像不足的情况下,结合多个未经标注的第二人体图像来进行对抗训练,可以提高精确度,减小对于经过标注的第一人体图像的需求量。
100.请参照图4,图4为本技术实施例提供的一种人体姿态预测装置的结构示意图,该人体姿态预测装置400,包括:第二获取模块401以及预测模块402。
101.其中,该第二获取模块401用于获取第三人体图像。
102.可以获取待预测的第三人体图像,该第三人体图像可以为不包含标注数据的原始图像,通过本技术实施例提供的人体姿态预测方法,可以预测得到该第三人体图像中人体的姿态。
103.其中,该预测模块402用于将第三人体图像输入采用人体姿态预测模型训练方法得到的人体姿态预测模型中的生成器,得到第三人体姿态预测结果。
104.可以将步骤s201中获取到的第三人体图像输入至预先训练好的人体姿态预测模型的生成器中,其中,该人体姿态预测模型可以采用上述实施例中的人体姿态预测模型训练方法训练得到。生成器可以根据第三人体图像输出与其对应的第三人体姿态预测结果,实现对第三人体图像中人体姿态的预测。
105.请参照图5,图5为本技术实施例提供的一种电子设备的结构示意图,本技术提供一种电子设备500,包括:处理器501和存储器502,处理器501和存储器502通过通信总线503和/或其他形式的连接机构(未标出)互连并相互通讯,存储器502存储有处理器501可执行的计算机程序,当计算设备运行时,处理器501执行该计算机程序,以执行时执行上述实施例的任一可选的实现方式中的方法。
106.本技术实施例提供一种存储介质,所述计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法。
107.其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read-only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read only memory,简称eprom),可编程只读存储器(programmable red-only memory,简称prom),只读存储器(read-only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。
108.在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间
的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
109.另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
110.再者,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
111.在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
112.以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜