人物交互检测方法、装置及电子设备与流程

2022-05-31 17:38:31 来源：中国专利 TAG：

1.本技术涉及机器视觉处理技术领域，尤其涉及一种人物交互检测方法、装置及电子设备。

背景技术：

2.人物交互（human-object interactive, hoi）检测要求模型明确地定位图像中人与物体的位置，同时正确地预测其交互行为。
3.目前的人物交互检测方法包括两种：一种是两阶段，首先检测到人和物的外观特征，然后再结合它们的相对空间信息来预测交互关系。两阶段的方法主要是将检测到的人和物作为节点，通过显式或预定义的交互关系构建密集的图连接模型。另一种是单阶段，通过对图文上下文关系进行建模，让模型根据上下文信息用隐式的方式自主去学习人和物体的交互关系。单阶段的方法不需要复杂的网络结构就可以实现人物交互检测。
4.但是，对于单阶段的方法，在针对人或物体的个体特征建模时，只对图像级特征进行关注，人物交互检测的精度较低。

技术实现要素：

5.针对现有技术存在的上述问题，本技术提供一种人物交互检测方法、装置及电子设备。
6.第一方面，本技术提供一种人物交互检测方法，包括：获取目标检测图像；基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，所述级联机器翻译网络包括图像级编码模块，实例级解码模块和交互关系解码模块。
7.可选地，所述图像级编码模块包括多头注意力机制子模块和前馈神经网络子模块。
8.可选地，所述基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，包括：将所述目标检测图像和位置编码相加作为所述图像级编码模块的输入，得到所述图像级编码模块输出的所述目标检测图像的图像级特征。
9.可选地，所述基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，包括：将所述图像级编码模块的输出作为所述实例级解码模块的输入，得到所述实例级解码模块输出的所述目标检测图像的实例级特征；所述实例级特征包括物体的类别，以及人和物体的边界框。
10.可选地，所述人和物体的边界框的回归损失函数满足如下计算公式：
其中，表示所述回归损失函数，n表示目标检测图像中包含的物体和人的总数量，和表示超参数，表示交并比损失函数，表示真实框，表示预测框。
11.可选地，所述基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，包括：将所述图像级编码模块的输出和所述实例级解码模块的输出作为所述交互关系解码模块的输入，得到所述交互关系解码模块输出的目标四元组；所述目标四元组用于表示人物交互关系预测结果。
12.可选地，所述目标四元组满足如下计算公式：其中，和表示第i个人物对的预测位置信息，表示第i个人物对中物体的预测类别，表示第i个人物对的预测交互关系。
13.可选地，所述级联机器翻译网络的损失函数为第一损失函数、第二损失函数和第三损失函数之和，所述第一损失函数为物体的分类损失函数，所述第二损失函数为人和物体的交互关系损失函数，所述第三损失函数为人和物体的边界框的回归损失函数。
14.第二方面，本技术提供一种人物交互检测装置，包括：获取模块，用于获取目标检测图像；检测模块，用于基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，所述级联机器翻译网络包括图像级编码模块，实例级解码模块和交互关系解码模块。
15.第三方面，本技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述任一种人物交互检测方法。
16.第四方面，本技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述任一种人物交互检测方法。
17.第五方面，本技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述任一种人物交互检测方法。
18.本技术提供的人物交互检测方法、装置及电子设备，通过将人物实例检测和交互关系检测统一到基于级联机器翻译网络的人物交互检测模型中，同时结合全局上下文和实例级信息进行人物交互推理，提高了人物交互检测的精度。
附图说明
19.为了更清楚地说明本技术或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以基于这些附图获得其他的附图。
20.图1是本技术实施例提供的人物交互检测方法的流程示意图之一；图2是本技术实施例提供的人物交互检测方法的流程示意图之二；图3是本技术实施例提供的人物交互检测装置的结构示意图；图4是本技术实施例提供的电子设备的结构示意图。
具体实施方式
21.为了更好地对本技术实施例中的技术方案进行描述，下面对相关知识进行介绍。
22.（1）人物交互检测人物交互检测（hoi dectection）要求模型明确地定位图像中人和物体的位置，同时正确预测其交互行为。通过研究人物交互检测来模拟人类认识周围世界的方式，可以促进服务型机器人等技术的研究。同时，识别图像蕴含的人物交互行为，是实现自动理解图像主题、自动描述图像主要内容的关键技术之一。
23.（2）两阶段的人物交互检测方法对于两阶段实现人物交互检测的方法，首先检测到人和物的外观特征，然后再结合人与物体之间的相对空间信息来预测交互关系。一些方法通过利用图网络结构的形式对不同场景中的上下文信息进行建模，例如利用图卷积网络捕获上下文信息。一些方法利用关系图对人和物体之间的相对空间位置进行编码，以图网络结构的形式描述上下文信息。
24.两阶段实现人物交互检测的方法中，将检测到的人和物体作为节点，通过显式或预定义的交互关系构建密集的图连接模型。其中，主要是根据图像场景中孤立的人物对信息实现交互关系预测，在人物交互关系建模时，会产生大量的人物对冗余计算。
25.（3）单阶段的人物交互检测方法对于单阶段实现人物交互检测的方法，主要是通过对图像上下文进行建模，让模型根据上下文信息用隐式的方式去自主学习人和物体之间的交互关系。单阶段的人物交互检测不需要复杂的网络结构就可以实现较好的人物交互检测效果。
26.但是，单阶段的人物交互检测，在针对人或物体的个体特征进行建模时，只关注到图像层级的特征，依靠人和物体的图像级的外观特征，而忽略了人或物体实例附近的上下文信息。
27.针对现有技术存在的上述问题，本技术实施例提供一种人物交互检测方法、装置及电子设备，通过将人物实例检测和交互关系检测统一到基于级联transformer网络的人物交互检测模型中，同时结合全局上下文和实例级信息进行人物交互推理，提高了人物交互检测的精度。
28.本技术中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象
通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，本技术中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
29.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术中的附图，对本技术中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.图1是本技术实施例提供的人物交互检测方法的流程示意图之一，如图1所示，本技术实施例提供一种人物交互检测方法，其执行主体为用于人物交互检测的装置，该方法至少包括以下步骤：步骤101、获取目标检测图像。
31.步骤102、基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，所述级联机器翻译网络包括图像级编码模块，实例级解码模块和交互关系解码模块。
32.具体地，本技术中的“人物”是指人和物体。在人物交互检测之前，需要先获取待检测的目标检测图像。目标检测图像可以是单张图像，也可以是从视频中提取到的图像帧，本技术实施例中对比并不作出限定。
33.在获取到目标检测图像后，对目标检测图像进行人物交互检测，在人物交互检测中，不仅需要检测目标检测图像中的人和物体，还需要识别人物交互关系的类别。
34.将目标检测图像输入至级联机器翻译（transformer）网络，对目标检测图像进行人物交互检测，得到目标检测图像中的人物交互关系预测结果。本技术实施例中的人物交互关系预测结果包括人物交互关系预测和人物对实例位置的预测。
35.为了同时关注到目标检测图像中的图像级特征和实例级特征，本技术实施例中采用级联transformer网络结构。级联transformer网络包括图像级编码模块，实例级解码模块和交互关系解码模块。
36.其中，图像级编码模块用于对目标检测图像的全局信息进行学习，基于注意力图的上下文信息提取图像级特征。实例级解码模块用于对人和物体进行定位，利用图像中人和物体实例附近的上下文信息，提取图像背景中人和物体的边界框级别特征。
37.交互关系解码模块用于特征融合和交互预测，对图像级编码模块和实例级解码模块的输出特征进行学习，融合不同级联阶段的特征，不同级联阶段的特征从粗粒度到细粒度的方式描述不同场景下的语义信息。交互关系解码模块最终得到人物交互关系预测结果，预测出人和物体的位置以及交互关系。
38.本技术实施例提供的人物交互检测方法，通过将人物实例检测和交互关系检测统一到基于级联transformer网络的人物交互检测模型中，同时结合全局上下文和实例级信息进行人物交互推理，提高了人物交互检测的精度。
39.可选地，所述图像级编码模块包括多头注意力机制子模块和前馈神经网络子模块。
40.具体地，图像级编码模块采用标准的transformer架构的编码层，包括多注意力机制子模块和前馈神经网络子模块。图像级编码模块包括多个结构相同的图像级编码器，每
个图像级编码器由自注意力层和前馈神经网络组成。
41.可选地，所述基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，包括：将所述目标检测图像和位置编码相加作为所述图像级编码模块的输入，得到所述图像级编码模块输出的所述目标检测图像的图像级特征。
42.具体地，在图像级编码模块中，由于传统的transformer架构中的自注意力层缺乏捕捉目标检测图像中人和物体的位置信息的能力，因此，本技术实施例中在原始输入中嵌入带有维度的位置编码，以获得图像级编码模块的最终输入。
43.将目标检测图像和位置编码相加作为图像级编码模块的输入，弥补transformer结构的置换不变性导致的对图像位置信息的建模能力的缺失，得到图像级编码模块输出的目标检测图像的图像级特征。
44.本技术实施例提供的人物交互检测方法，通过将位置编码叠加到原始输入中以学习具有交互关系的人和物体的空间位置特征，提高人物交互检测模型对hoi检测的精度。
45.可选地，所述基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，包括：将所述图像级编码模块的输出作为所述实例级解码模块的输入，得到所述实例级解码模块输出的所述目标检测图像的实例级特征；所述实例级特征包括物体的类别，以及人和物体的边界框。
46.具体地，实例级解码模块用于完成人和物体的定位任务，提供场景中细粒度的人和物体的边界框级别特征。
47.以图像级编码模块的输出作为实例级解码模块的输入，以完成人和物体的定位人物，得到实例级解码模块输出的实例级特征。实例级特征是指实例级别的外观特征，包括物体的类别，以及人和物体的边界框等。
48.相较于粗粒度的图像级特征，实例级特征为人物交互检测获取到细粒度特征。实例级特征有利于级联transformer网络隐式地建立人和物体的交互关系。
49.实例级解码模块输出的是物体的类别特征，以及人和物体的边界框特征。对人和物体的空间相对位置特征的学习有利于级联transformer网络关注场景中存在交互关系的实体和区域，有利于人物交互检测模型对图像中包含实例级交互关系的精细化建模。
50.本技术实施例提供的人物交互检测方法，通过以图像级编码模块的输出作为实例级解码模块的输入，对目标检测图像中人和物体的空间相对位置特征进行学习，获取物体的类别以及人和物体的边界框特征，提高人物交互检测模型对hoi检测的精度。
51.可选地，所述基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，包括：将所述图像级编码模块的输出和所述实例级解码模块的输出作为所述交互关系解码模块的输入，得到所述交互关系解码模块输出的目标四元组；所述目标四元组用于表示人物交互关系预测结果。
52.具体地，交互关系解码模块用于实现特征融合和交互预测。将图像级编码模块的输出的图像级特征，以及实例级解码模块输出的实例级特征，作为交互关系解码模块的输入，得到交互关系解码模块输出的四元组。四元组用于表示人物交互关系预测结果，包括人
物对的预测位置信息、人物对中物体的预测类别以及人物对的预测交互关系等。
53.与传统的transformer网络相比，交互关系解码模块不仅利用了图像的全局信息，即图像级特征，而且也将实例级解码模块输出的实例级特征输入到交互关系解码模块中。人物交互检测模型通过两次的交叉注意力机制输出人物交互关系预测结果。
54.交互关系解码模块最终以四元组的方式输出目标检测图像的人物交互关系预测结果，可以并行输入大量的目标检测图像，在交互关系解码模块对全部的人物交互查询进行处理，一次性输出全部的人物交互预测结果。
55.本技术实施例提供的人物交互检测方法，通过双解码机制，在人物交互检测模型的建模过程中，将图像级编码模块和实例级解码模块的输出作为交互关系解码模块的输入，同时关注目标检测图像的图像级特征和实例级特征，提高人物交互检测的精度。
56.可选地，所述级联机器翻译网络的损失函数为第一损失函数、第二损失函数和第三损失函数之和，所述第一损失函数为物体的分类损失函数，所述第二损失函数为人和物体的交互关系损失函数，所述第三损失函数为人和物体的边界框的回归损失函数。
57.具体地，本技术提供的人物交互检测方法，级联transformer网络的损失（loss）函数为第一损失函数、第二损失函数和第三损失函数之和，第一损失函数为物体的分类损失函数，第二损失函数为人和物体的交互关系损失函数，第三损失函数为人和物体的边界框的回归损失函数。
58.可选地，人物交互关系可以通过标准四元组进行表示，表达式如下：其中，和表示第i个人物对的位置信息，表示第i个人物对中物体的类别，表示第i个人物对的交互关系。
59.可选地，人物交互关系预测结果可以通过目标四元组进行表示，表达式如下：其中，和表示第i个人物对的预测位置信息，表示第i个人物对中物体的预测类别，表示第i个人物对的预测交互关系。
60.在本技术实施例中，上标hb表示人的边界框，上标ob表示物体的边界框，上标oc表示物体的类别，上标r表示人物对交互关系。人物对的位置信息可以通过人的边界框和物体的边界框共同定位。
61.标注数据（ground truth）是指模型训练过程中的参考标准，例如在人和物体的边界框特征提取过程中，模型预测的边界框是要与标注数据进行比较的，可以理解为预先设定好的特征标签。
62.对于第i个标注数据，标准四元组可以表示为：
对应的交互关系预测结果可以表示为：其中，表示第i个标注数据对应的索引。
63.利用匈牙利算法（hungarian）匹配损失满足如下计算公式：其中，l表示匈牙利匹配损失函数。
64.可选地，第一损失函数，即物体的分类损失函数满足如下计算公式：其中，表示第一损失函数，n表示目标检测图像中包含的物体和人的总数量，表示物体的预测类别，表示物体的真实类别。
65.可选地，第二损失函数，即人和物体的交互关系损失函数满足如下计算公式：其中，表示第二损失函数，n表示目标检测图像中包含的物体和人的总数量，表示焦点损失函数，表示第i个标注数据的交互关系，表示第i个人物对的预测交互关系。
66.可选地，第三损失函数，即人和物体的边界框的回归损失函数满足如下计算公式：其中，表示回归损失函数，n表示目标检测图像中包含的物体和人的总数量，和表示超参数，表示交并比损失函数，表示真实框，表示预测框。
67.交并比(intersection over union, iou)损失函数用于表示预测框和真实框之间交并比的差值。
68.整个人物交互检测模型，即级联transformer网络的损失函数满足如下计算公式：本技术实施例提供的人物交互检测方法，通过多变量匹配损失，在模型学习人物交互特征过程中，通过增加多任务监督方式提高人物交互检测的精度。
69.可选地，基于级联transformer网络的人物交互检测模型是基于目标检测图像样本和预先确定的人物交互关系预测结果标签训练后获得的。
70.可选地，本技术实施例中利用公开的coco（common objects in context）数据集划分为训练集和测试集，训练集用于训练本技术实施例提出的基于级联transformer网络的人物交互检测模型，然后利用测试集对基于级联transformer网络的人物交互检测模型进行测试。例如，训练集中包含38118个数据，测试集中包含9658个数据。
71.下面以一个具体的示例进一步介绍本技术提供的技术方案。
72.图2是本技术实施例提供的人物交互检测方法的流程示意图之二，如图2所示，本技术实施例提供的人物交互检测模型是一个级联transformer结构，依次完成图像级特征编码，实例级特征解码和交互关系解码，前一级信息传递后级，即图像级特征编码的输出结果传递到实例级特征解码，最后由交互关系解码完成人物交互关系和实例位置的预测。
73.其中，图像级编码模块采用标准的机器翻译（transformer）架构的编码层，包括多注意力机制子模块和前馈神经网络子模块。设置本地编码块，对相对空间位置的位置信息进行编码。将位置编码叠加到图像级编码模块的输入中，用于弥补transformer结构的置换不变性导致的对图像位置信息的建模能力的缺失。
74.一般情况下存在交互关系的两个物体在空间位置上具有相关性，将位置编码叠加到级联transformer网络中有利于人物交互检测模型学习到具有交互关系的人和物体的空间位置特征，从而提高人物交互检测模型对hoi检测的精度。图像级编码模块的输出包含了图片的全局信息，即图像级的特征。
75.其中，实例级解码模块用于完成人和物体的定位任务，提供场景中细粒度的人和物体的边界框级别特征。这些细粒度的信息既可以为人物交互解码建模提供人和物体的空间相对位置特征，也可以帮助级联transformer网络隐式地建立交互关系。实例级解码模块的输入为图像级编码模块的输出和100个查询对象，这些查询对象可以是根据历史经验确定的常用的物体的类别，以及人物交互关系的类别。实例级解码模块的输出是物体的类别以及人和物体的边界框。
76.对人和物体的空间相对位置特征的学习有利于级联transformer网络关注场景中存在交互关系的实体和区域，有利于人物交互检测模型对图像中包含实例级交互关系的精细化建模。
77.其中，交互关系解码模块用于特征融合和交互预测。特征融合是指融合不同级联阶段的特征，不同级联阶段的特征从粗粒度到细粒度的方式描述不同场景的语义信息。交互预测是指通过输出四元组的形式表示人物交互预测结果。
78.交互关系解码模块对全部的人物交互查询进行处理，一次性输出全部的预测结果。人物交互关系可以通过标准四元组进行表示，表达式如下：其中，和表示第i个人物对的位置信息，表示第i个人物对中物体的类别，表示第i个人物对的交互关系。
79.人物交互关系预测结果可以通过目标四元组进行表示，表达式如下：其中，和表示第i个人物对的预测位置信息，表示第i个人物对中物体的预测类别，表示第i个人物对的预测交互关系。
80.与传统的transformer网络不同，交互关系解码模块不仅利用了图像的全局信息，即图像级特征，而且也将实例级解码模块输出的实例级特征输入到交互关系解码模块中。人物交互检测模型通过两次的交叉注意力机制输出人物交互关系预测结果。
81.该人物交互检测模型中的损失函数包括两个部分：一是实例级解码模块预测目标物体的边界与标注数据之间的第一损失函数，二是交互关系解码模块预测的人物交互关系与标注数据之间的第二损失函数。
82.对于第i个标注数据，标准四元组表示为：对应的交互关系预测结果表示为：其中，表示第i个标注数据对应的索引。
83.利用匈牙利算法（hungarian）匹配损失满足如下计算公式：其中，l表示匈牙利匹配损失函数。
84.物体的分类损失函数满足如下计算公式：
其中，表示物体的分类损失函数，n表示目标检测图像中包含的物体和人的总数量，表示物体的预测类别，表示物体的真实类别。
85.人和物体的交互关系损失函数满足如下计算公式：其中，表示人和物体的交互关系损失函数，n表示目标检测图像中包含的物体和人的总数量，表示焦点损失函数，表示第i个标注数据的交互关系，表示第i个人物对的预测交互关系。
86.人和物体的边界框的回归损失函数满足如下计算公式：其中，表示所述回归损失函数，n表示目标检测图像中包含的物体和人的总数量，和表示超参数，表示交并比损失函数，表示真实框，表示预测框。
87.则整个人物交互检测模型的损失函数l为：下面对本技术提供的人物交互检测装置进行描述，下文描述的人物交互检测装置与上文描述的人物交互检测方法可相互对应参照。
88.图3是本技术实施例提供的人物交互检测装置的结构示意图，如图3所示，本技术实施例提供一种人物交互检测装置，该装置包括：获取模块301，用于获取目标检测图像；检测模块302，用于基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，所述级联机器翻译网络包括图像级编码模块，实例级解码模块和交互关系解码模块。
89.可选地，所述图像级编码模块包括多头注意力机制子模块和前馈神经网络子模块。
90.可选地，所述检测模块还用于：
将所述目标检测图像和位置编码相加作为所述图像级编码模块的输入，得到所述图像级编码模块输出的所述目标检测图像的图像级特征。
91.可选地，所述检测模块还用于：将所述图像级编码模块的输出作为所述实例级解码模块的输入，得到所述实例级解码模块输出的所述目标检测图像的实例级特征；所述实例级特征包括物体的类别，以及人和物体的边界框。
92.可选地，所述人和物体的边界框的回归损失函数满足如下计算公式：其中，表示所述回归损失函数，n表示目标检测图像中包含的物体和人的总数量，和表示超参数，表示交并比损失函数，表示真实框，表示预测框。
93.可选地，所述检测模块还用于：将所述图像级编码模块的输出和所述实例级解码模块的输出作为所述交互关系解码模块的输入，得到所述交互关系解码模块输出的目标四元组；所述目标四元组用于表示人物交互关系预测结果。
94.可选地，所述目标四元组满足如下计算公式：其中，和表示第i个人物对的预测位置信息，表示第i个人物对中物体的预测类别，表示第i个人物对的预测交互关系。
95.可选地，所述级联机器翻译网络的损失函数为第一损失函数、第二损失函数和第三损失函数之和，所述第一损失函数为物体的分类损失函数，所述第二损失函数为人和物体的交互关系损失函数，所述第三损失函数为人和物体的边界框的回归损失函数。
96.在此需要说明的是，本技术实施例提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
97.图4是本技术实施例提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(communications interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行人物交互检测方法，该方法包括：获取目标检测图像；基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，所述级联机器翻译网络包括图像级编码模块，实例
级解码模块和交互关系解码模块。
98.可选地，所述图像级编码模块包括多头注意力机制子模块和前馈神经网络子模块。
99.可选地，所述基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，包括：将所述目标检测图像和位置编码相加作为所述图像级编码模块的输入，得到所述图像级编码模块输出的所述目标检测图像的图像级特征。
100.可选地，所述基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，包括：将所述图像级编码模块的输出作为所述实例级解码模块的输入，得到所述实例级解码模块输出的所述目标检测图像的实例级特征；所述实例级特征包括物体的类别，以及人和物体的边界框。
101.可选地，所述人和物体的边界框的回归损失函数满足如下计算公式：其中，表示所述回归损失函数，n表示目标检测图像中包含的物体和人的总数量，和表示超参数，表示交并比损失函数，表示真实框，表示预测框。
102.可选地，所述基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，包括：将所述图像级编码模块的输出和所述实例级解码模块的输出作为所述交互关系解码模块的输入，得到所述交互关系解码模块输出的目标四元组；所述目标四元组用于表示人物交互关系预测结果。
103.可选地，所述目标四元组满足如下计算公式：其中，和表示第i个人物对的预测位置信息，表示第i个人物对中物体的预测类别，表示第i个人物对的预测交互关系。
104.可选地，所述级联机器翻译网络的损失函数为第一损失函数、第二损失函数和第三损失函数之和，所述第一损失函数为物体的分类损失函数，所述第二损失函数为人和物体的交互关系损失函数，所述第三损失函数为人和物体的边界框的回归损失函数。
105.此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。
106.另一方面，本技术还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的人物交互检测方法，该方法包括：获取目标检测图像；基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，所述级联机器翻译网络包括图像级编码模块，实例级解码模块和交互关系解码模块。
107.又一方面，本技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的人物交互检测方法，该方法包括：获取目标检测图像；基于级联机器翻译网络，对所述目标检测图像进行人物交互检测，得到所述目标检测图像中的人物交互关系预测结果，所述级联机器翻译网络包括图像级编码模块，实例级解码模块和交互关系解码模块。
108.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以基于实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
109.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。
110.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：引力波侯选体筛选方法、装置及存储介质与流程

人物交互检测方法、装置及电子设备与流程

相关文献

最热文献