基于三维人-物网格拓扑增强的人物交互检测方法

2022-10-13 08:44:14 来源：中国专利 TAG：

1.本发明属于人物交互检测领域，涉及计算机视觉领域和深度神经网络领域，特别是涉及一种基于三维人-物网格拓扑增强的人物交互检测方法。

背景技术：

2.人物交互检测(human-object interaction，简写hoi)作为机器视觉的高级任务，对机器更加深层次地理解世界至关重要。人物交互检测不仅需要定位、识别场景中人和物体，更重要的是还要推断场景中人和物体的交互关系。人物交互检测的研究对安防系统、视频检索等多个领域有重要意义。
3.对于交互行为识别，经典的方法证明了场景中人和物体的视觉特征、空间位置特征的必要性。但是，随着场景的复杂化，面临的难点也比较多。比如场景中的多人、多物的候选对筛选问题，粗粒度的位置特征带来的误检问题，数据集的限制带来的长尾分布问题等。而为了解决场景中的诸多问题，越来越有效方法被提出。比如加入人体姿态信息，以更加细粒度的特征推断人物交互行为。借鉴注意力机制的思想，获取更丰富、有效的人物特征。借鉴图神经网络的思想，解决人物候选对筛选问题。
4.然而基于二维视觉的行为理解一直受到视角问题的干扰，对某一交互动作，在不同角度拍摄的姿态在图像上差异巨大。由于图像特征缺少几何信息，缺乏构建拓扑的连接信息。

技术实现要素：

5.本发明的目的是提供一种基于三维人-物网格拓扑增强的人物交互检测方法，以解决上述现有技术存在的问题。
6.为实现上述目的，本发明提供了一种基于三维人-物网格拓扑增强的人物交互检测方法，包括：
7.获取单张图片中的人体与物体的视觉特征；
8.获取所述单张图片中的人体三维结构与物体三维结构，融合构建初始三维人-物一体网格拓扑模型；
9.基于所述增强三维人-物一体网格拓扑获取三维人体的拓扑特征和三维人-物的拓扑特征；将所述视觉特征与拓扑特征融合，获取增强三维人-物一体网格拓扑模型；
10.对所述增强三维人-物一体网格拓扑模型进行训练，并基于训练后的模型获取识别结果。
11.可选的，基于卷积神经网络获得所述视觉特征，其中，所述视觉特征包括人体外观特征、物体外观特征、人物空间特征。
12.可选的，所述人体三维结构的获取过程包括：获取所述单张图片中的人体边界框，通过姿态评估方法获得二维姿态信息；获取图片中的人体信息，基于人体信息与对应的所述二维姿态信息，获得所述人体三维结构。
13.可选的，采用meshcnn网络自底而上提取三维人体的拓扑特征和三维人-物的拓扑特征。
14.可选的，采用交互行为识别对模型进行训练，其中，训练时采用二元交叉熵损失函数，训练分为三个分支，包括人体、物体、空间；产生的总损失为人体、物体、空间三个分支的损失之和。
15.可选的，进行特征融合的过程包括：将所述人体外观特征和与所述三维人体的拓扑特征进行特征融合；将所述人物空间特征与所述三维人-物的拓扑特征进行特征融合。
16.可选的，基于训练后的增强三维人-物一体网格拓扑模型，获得交互类型识别的置信度，在置信度层面上加权计算获得最终识别结果，其中，基于人体、物体、空间三个分支的动作得分以及交互对中人体和物体的置信度进行加权计算。
17.可选的，采用smplify-x方法获得所述人体三维结构。
18.本发明的技术效果为：
19.1、本方法提出了一种三维人体网格拓扑增强的人物交互检测方法，在hoi检测问题上融合了三维人物体网格特征，有效提高了hoi的识别性能，在hico_det基准数据集上取得了较高的精确度。
20.2、本方法考虑到人体不同身体部位之间的关系是基于三维空间中的密集的局部连接构建的，因此采用了自底而上的拓扑特征提取，在提取三维人体姿态上取得了高效的效果。
附图说明
21.构成本技术的一部分的附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
22.图1为本发明实施例中的人-物一体网格模型hom构建过程图；
23.图2为本发明实施例中的人物交互检测框架图；
24.图3为本发明实施例中的方法流程图。
具体实施方式
25.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
26.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
27.实施例一
28.如图1-2所示，本实施例中提供一种基于三维人-物网格拓扑增强的人物交互检测方法，包括：
29.人体和物体定位。通过比较成熟的目标检测算法ssd、fast rcnn等提取图片中的每个人-物交互对的检测框(bh,bo)。三维人体重建。首先获取二维图片中的人体边界框，然后通过姿态评估方法openpose检测出人体二维姿态信息(主要包括身体关节点、面部关节点、掌部关节点)。最后利用图片中的人体信息和对应的二维姿态信息，通过smplify-x方法
重建出三维人体模型mh。
30.构建人-物体模型。其主要流程是：(1)分别获取人和物体的三维结构。对图片中的人进行三维重建得到人体三维网格；而对于物体的三维结构，我们用空心球来表示。先用o(o1,o2,o3)和r来表示物体，其中o代表着球心坐标，r是根据物体类别估计得出的半径。然后使用具有162个顶点和320个面的离散网格表示物体的三维结构m0。(2)融合人和物体的三维结构构建三维人-物一体网格(hom)拓扑信息，得到集合，hom的构建如图1所示。
31.构建视觉和拓扑特征的融合模型。基于卷积神经网络构建视觉和拓扑模型，分别获取人、物的外观特征作为视觉线索，以及提取人物网格特征作为拓扑线索。其中采用基于resnet-50的金字塔特征提取网络，提取整张图片的视觉特征，其中，根据检测框利用roi pooling获取人体和物体的外观特征，依据人体和物体的空间二值图作输入提取人物空间特征；采用meshcnn网络自底向上提取hom中人的拓扑特征和人物体的拓扑特征。
32.人物交互检测框架如图2所示，提取出人体、物体的外观特征和人物空间特征，分别表示为fh、fo、f
sp
；三维人体拓扑特征和人-物体拓扑特征分别为对获取的视觉特征和拓扑特征进行融合后进行交互行为检测，特征融合方法表示为：
[0033][0034][0035]
最后基于两种特征分别得到交互类型识别的置信度，在置信度层面上加权得到最终的识别结果。
[0036]
实施例二
[0037]
如图3所示，本实施例中提供一种基于三维人-物网格拓扑增强的人物交互检测方法，包括：
[0038]
输入单张图片，先利用卷积神经网络提取图片的视觉特征，之后通过smplify-x方法重建三维人体信息并融合物体的三维信息，从而构建hom结构。借助meshcnn自底向上提取hom的拓扑信息，并与视觉特征进行融合实现三维人-物网格拓扑的增强。
[0039]
训练阶段，由于hoi检测是一个多标签分类任务，我们在训练阶段选择二元交叉熵损失函数来进行训练。假定人、物、空间三个分支对应的分类损失分别为和训练框架的总损失l
total
为：
[0040][0041]
推理阶段，给定单张图片，经过交互检测模块后，得到交互类别的最终得分s
hoi
。其中，最终的得分主要取决于每一个交互对中的人和物的置信度(sh,so)以及交互检测模块中人、物、空间三个分支的的动作得分人、物、空间三个分支的的动作得分公式如下：
[0042][0043]
以上所述，仅为本技术较佳的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到的变化或替换，
都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应该以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

基于三维人-物网格拓扑增强的人物交互检测方法

相关文献

最热文献