人体被遮挡部位的行为姿态识别方法与流程

2022-06-05 05:37:45 来源：中国专利 TAG：

1.本发明涉及机器识别技术领域，特别涉及一种人体被遮挡部位的行为姿态识别方法、一种计算机可读存储介质和一种计算机设备。

背景技术：

2.相关技术中，在进行人体关键点提取时；多只是简单地将图像输入到检测网络中，以提取该图像中人体所对应的人体关键点。然而，可以理解，当人处于运动状态时，其动作幅度较大，且容易被遮挡。因此，在运动状态下，这种识别方式往往会出现人体关键点丢失的情况，导致最终识别结果不准确。

技术实现要素：

3.本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本发明的一个目的在于提出一种人体被遮挡部位的行为姿态识别方法，能够防止因人体运动幅度大、遮挡而导致的人体关键点丢失情况，提高人体关键点识别的准确性。
4.本发明的第二个目的在于提出一种计算机可读存储介质。
5.本发明的第三个目的在于提出一种计算机设备。
6.为达到上述目的，本发明第一方面实施例提出了一种人体被遮挡部位的行为姿态识别方法，包括以下步骤：获取待检测视频，并提取所述待检测视频的视频帧；按照所述视频帧的排序获取当前视频帧，并判断所述当前视频帧是否为所述待检测视频的首帧；如果否，则将所述当前视频帧输入到特征提取主网络，以通过所述特征提取主网络提取所述当前视频帧对应的第一帧特征；获取前一帧视频帧的第二帧特征，并将所述当前视频帧对应的第一帧特征和所述前一帧视频帧的第二帧特征进行特征融合；将特征融合结果输入到特征提取细化网络，以提取相应的细化特征，并将所述细化特征作为所述当前视频帧的第二帧特征。
7.根据本发明实施例的人体被遮挡部位的行为姿态识别方法，首先，获取待检测视频，并提取所述待检测视频的视频帧；接着，按照所述视频帧的排序获取当前视频帧，并判断所述当前视频帧是否为所述待检测视频的首帧；然后，如果否，则将所述当前视频帧输入到特征提取主网络，以通过所述特征提取主网络提取所述当前视频帧对应的第一帧特征；接着，获取前一帧视频帧的第二帧特征，并将所述当前视频帧对应的第一帧特征和所述前一帧视频帧的第二帧特征进行特征融合；然后，将特征融合结果输入到特征提取细化网络，以提取相应的细化特征，并将所述细化特征作为所述当前视频帧的第二帧特征；从而实现防止因人体运动幅度大、遮挡而导致的人体关键点丢失情况，提高人体关键点识别的准确性。
8.另外，根据本发明上述实施例提出的人体被遮挡部位的行为姿态识别方法还可以具有如下附加的技术特征：
9.可选地，如果所述当前视频帧为所述待检测视频的首帧，则将所述当前视频帧输
入到特征提取主网络，以通过所述特征提取主网络输出所述当前视频帧对应的第一帧特征，并将所述第一帧特征输入到所述特征提取细化网络，以及将所述特征提取细化网络输出的细化特征作为所述当前视频帧的第二帧特征。
10.可选地，将所述当前视频帧对应的第一帧特征和所述前一帧视频帧的第二帧特征进行特征融合，包括：获取前一帧视频帧的影响系数，并根据所述影响系数对所述前一帧视频帧的第二帧特征进行调整，以得到待融合特征；根据第一卷积对所述待融合特征的大小进行调整，以使得所述待融合特征的大小等于所述当前视频帧的第一帧特征的大小；根据第二卷积对所述待融合特征的特征图通道数进行扩增，以使得所述待融合特征的特征图通道数等于所述当前视频帧的第一帧特征的特征图通道数；将扩增后的所述待融合特征与所述当前视频帧的第一帧特征在相同维度上的特征图进行相加，以完成所述当前视频帧对应的第一帧特征和所述前一帧视频帧的第二帧特征的特征融合。
11.可选地，在所述特征提取主网络和所述特征提取细化网络的训练过程均包括：获取第一数据集，并根据所述第一数据集进行训练，以得到预训练模型；获取第二数据集，并根据所述第二数据集对所述预训练模型进行继续训练，以得到最终检测模型。
12.可选地，所述第一数据集为coco数据集，其中，根据所述第一数据集进行训练，以得到预训练模型，包括：对所述coco数据集进行抖动扩增，以得到预训练数据集；在所述预训练模型的训练过程中，将所述coco数据集中的原始图像作为当前视频帧输入，并将所述预训练数据集中的图像作为前一帧视频帧输入；其中，对所述coco数据集进行抖动扩增包括：对所述coco数据集中任一图像随机给定的关键点进行随机平移；随机旋转所述coco数据集中任一图像的所有关键点；对所述coco数据集中任一图像的关键点大小进行缩放。
13.可选地，所述第二数据集为posetrack数据集。
14.为达到上述目的，本发明第二方面实施例提出了一种计算机可读存储介质，通过存储人体被遮挡部位的行为姿态识别程序，以使得该人体被遮挡部位的行为姿态识别程序被处理器执行时实现如上述的人体被遮挡部位的行为姿态识别方法。
15.根据本发明实施例的计算机可读存储介质，通过存储人体被遮挡部位的行为姿态识别程序，以使得该人体被遮挡部位的行为姿态识别程序被处理器执行时实现如上述的人体被遮挡部位的行为姿态识别方法；从而实现防止因人体运动幅度大、遮挡而导致的人体关键点丢失情况，提高人体关键点识别的准确性。
16.为达到上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如上述的人体被遮挡部位的行为姿态识别方法。
17.根据本发明实施例的计算机设备，通过存储器对人体被遮挡部位的行为姿态识别程序进行存储，以使得该人体被遮挡部位的行为姿态识别程序被处理器执行时实现如上述的人体被遮挡部位的行为姿态识别方法；从而实现防止因人体运动幅度大、遮挡而导致的人体关键点丢失情况，提高人体关键点识别的准确性。
附图说明
18.图1为根据本发明实施例的人体被遮挡部位的行为姿态识别方法的流程示意图；
19.图2为根据本发明实施例的coco数据集扩增过程示意图。
具体实施方式
20.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
21.相关技术中，在进行人体关键点提取时；在运动状态下，这种识别方式往往会出现人体关键点丢失的情况，导致最终识别结果不准确。根据本发明实施例的人体被遮挡部位的行为姿态识别方法，首先，获取待检测视频，并提取所述待检测视频的视频帧；接着，按照所述视频帧的排序获取当前视频帧，并判断所述当前视频帧是否为所述待检测视频的首帧；然后，如果否，则将所述当前视频帧输入到特征提取主网络，以通过所述特征提取主网络提取所述当前视频帧对应的第一帧特征；接着，获取前一帧视频帧的第二帧特征，并将所述第一帧特征和所述第二帧特征进行特征融合；然后，将特征融合结果输入到特征提取细化网络，以提取相应的细化特征，并将所述细化特征作为所述当前视频帧的第二帧特征；从而实现防止因人体运动幅度大、遮挡而导致的人体关键点丢失情况，提高人体关键点识别的准确性。
22.为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。
23.为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
24.图1为根据本发明实施例的人体被遮挡部位的行为姿态识别方法的流程示意图，如图1所示，该人体被遮挡部位的行为姿态识别方法包括以下步骤：
25.s101，获取待检测视频，并提取待检测视频的视频帧。
26.s102，按照视频帧的排序获取当前视频帧，并判断当前视频帧是否为待检测视频的首帧。
27.s103，如果否，则将当前视频帧输入到特征提取主网络，以通过特征提取主网络提取当前视频帧对应的第一帧特征。
28.在一些实施例中，如果当前视频帧为待检测视频的首帧，则将当前视频帧输入到特征提取主网络，以通过特征提取主网络输出当前视频帧对应的第一帧特征，并将第一帧特征输入到特征提取细化网络，以及将特征提取细化网络输出的细化特征作为当前视频帧的第二帧特征。
29.也就是说，从待检测视频中提取得到的待检测视频的视频帧，这些视频帧是按照时间轴进行排序的。在进行人体关键点检测时，首先要获取当前视频帧；如果当前视频帧为首帧，则将当前视频帧输入到特征提取主网络，以提取相应的第一帧特征(即整体特征)；接着，将第一帧特征输入到特征提取细化网络，以提取相应的细化特征，该细化特征作为当前视频帧的第二帧特征(即局部特征)。
30.s104，获取前一帧视频帧的第二帧特征，并将当前视频帧对应的第一帧特征和前一帧视频帧的第二帧特征进行特征融合。
31.在一些实施例中，将当前视频帧对应的第一帧特征和前一帧视频帧的第二帧特征
进行特征融合，包括：获取前一帧视频帧的影响系数，并根据影响系数对前一帧视频帧的第二帧特征进行调整，以得到待融合特征；根据第一卷积对待融合特征的大小进行调整，以使得待融合特征的大小等于当前视频帧的第一帧特征的大小；根据第二卷积对待融合特征的特征图通道数进行扩增，以使得待融合特征的特征图通道数等于当前视频帧的第一帧特征的特征图通道数；将扩增后的待融合特征与当前视频帧的第一帧特征在相同维度上的特征图进行相加，以完成当前视频帧对应的第一帧特征和前一帧视频帧的第二帧特征的特征融合。
32.作为一种示例，如图2所示，在要获取当前视频帧的人体关键点时，由于人体处于运动状态，可能导致关键点的丢失。因此，通过将当前视频帧的第一帧特征与前一帧视频帧的第二帧特征进行特征融合的方式，以通过补充前一帧关键点信息来增强当前视频帧关键点检测能力。优选地，在首先获取前一帧视频帧的影响系数a(例如，a的取值为0.1。)，该影响系数用于决定前一帧视频帧的第二帧特征对于融合后的特征的影响程度。接着，将前一帧视频帧输出的第二帧特征通过叠加的方式合成一张特征图，并将该特征图乘以影响系数，以得到待融合特征；接着，使用3*3的卷积待融合特征的大小调整到与当前视频帧的第一帧特征的大小一致；然后，使用1*1的卷积将待融合特征的通道数扩增到与当前视频帧的第一帧特征的特征图通道数一致。接着，对相同维度的特征图进行相加，以完成特征融合。
33.s105，将特征融合结果输入到特征提取细化网络，以提取相应的细化特征，并将细化特征作为当前视频帧的第二帧特征。
34.其中，特征提取主网络和特征提取细化网络的训练方式可以有多种。
35.在一些实施例中，特征提取主网络和特征提取细化网络的训练过程均包括：获取第一数据集，并根据第一数据集进行训练，以得到预训练模型；获取第二数据集，并根据第二数据集对预训练模型进行继续训练，以得到最终检测模型。
36.在一些实施例中，第一数据集为coco数据集，其中，根据第一数据集进行训练，以得到预训练模型，包括：对coco数据集进行抖动扩增，以得到预训练数据集；在预训练模型的训练过程中，将coco数据集中的原始图像作为当前视频帧输入，并将预训练数据集中的图像作为前一帧视频帧输入；其中，对coco数据集进行抖动扩增包括：对coco数据集中任一图像随机给定的关键点进行随机平移；随机旋转coco数据集中任一图像的所有关键点；对coco数据集中任一图像的关键点大小进行缩放。
37.作为一种示例，如图2所示，首先，获取coco数据集；然后，对于coco数据集中的单张图片；随机给定需要变动的关键点个数k，以随机微小平移这k个关键点(例如，对于46*46大小的特征图，随机平移5个以内的像素点)；并随机微小旋转整张图片的所有关键点；以及放大所有关键点的宽度。从而，在模型的训练过程中，即可使用调整后的特征图作为当前视频帧的前一帧视频帧输入；进而经过训练得到预训练模型。
38.在一些实施例中，第二数据集为posetrack数据集。
39.作为一种示例，为了增加样本的多样性，首先，在扩增后的coco数据集上训练得到预训练模型；接着，使用训练得到的预训练模型在posetrack数据集那个继续完成训练，以得到最终的检测模型。
40.综上所述，根据本发明实施例的人体被遮挡部位的行为姿态识别方法，首先，获取待检测视频，并提取所述待检测视频的视频帧；接着，按照所述视频帧的排序获取当前视频
帧，并判断所述当前视频帧是否为所述待检测视频的首帧；然后，如果否，则将所述当前视频帧输入到特征提取主网络，以通过所述特征提取主网络提取所述当前视频帧对应的第一帧特征；接着，获取前一帧视频帧的第二帧特征，并将所述当前视频帧对应的第一帧特征和所述前一帧视频帧的第二帧特征进行特征融合；然后，将特征融合结果输入到特征提取细化网络，以提取相应的细化特征，并将所述细化特征作为所述当前视频帧的第二帧特征；从而实现防止因人体运动幅度大、遮挡而导致的人体关键点丢失情况，提高人体关键点识别的准确性。
41.为了实现上述实施例，本发明第二方面实施例提出了一种计算机可读存储介质，通过存储人体被遮挡部位的行为姿态识别程序，以使得该人体被遮挡部位的行为姿态识别程序被处理器执行时实现如上述的人体被遮挡部位的行为姿态识别方法。
42.根据本发明实施例的计算机可读存储介质，通过存储人体被遮挡部位的行为姿态识别程序，以使得该人体被遮挡部位的行为姿态识别程序被处理器执行时实现如上述的人体被遮挡部位的行为姿态识别方法；从而实现防止因人体运动幅度大、遮挡而导致的人体关键点丢失情况，提高人体关键点识别的准确性。
43.为了实现上述实施例，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如上述的人体被遮挡部位的行为姿态识别方法。
44.根据本发明实施例的计算机设备，通过存储器对人体被遮挡部位的行为姿态识别程序进行存储，以使得该人体被遮挡部位的行为姿态识别程序被处理器执行时实现如上述的人体被遮挡部位的行为姿态识别方法；从而实现防止因人体运动幅度大、遮挡而导致的人体关键点丢失情况，提高人体关键点识别的准确性。
45.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
46.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
47.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
48.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
49.应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
50.尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
51.显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
52.在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
53.在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
54.在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。
55.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
56.尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于神经网络的环境参数确定方法

人体被遮挡部位的行为姿态识别方法与流程

相关文献

最热文献