一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种人物交互检测方法及装置与流程

2022-06-08 09:51:15 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种人物交互检测方法、检测装置、虚拟现实设备、电子设备以及计算机可读存储介质。


背景技术:

2.随着计算机科技的快速发展,利用计算机技术对视频或图片中的图像进行检测被广泛应用于智能机器人、直播/短视频主体商品检测、危险行为检测、信息检测、人机交互等多种领域。人物交互检测一般包括对图像中的人物对象、物体对象的检测,还包括对人物-物体的交互关系的检测。
3.现有的人物交互检测方法通常包括两个部分:人物对象、物体对象检测部分和人物/物体交互动作检测部分。在人物交互检测过程中,这两个部分的检测是独立进行的,往往会导致检测出的人物对象针对物体对象的动作与物体对象无法关联,检测结果与真实图像不符,检测结果不准确。


技术实现要素:

4.有鉴于此,本技术提供了一种人物交互检测方法以及装置,以解决现有技术中检测出的人物对象针对物体对象的动作与物体对象无法关联,检测结果与真实图像不符,检测结果不准确的技术问题。
5.本技术实施例提供了一种人物交互检测方法,包括:
6.获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
7.根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
8.对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量;
9.根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
10.可选的,所述对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量,包括:采用通道注意力机制对所述视觉模态向量和所述语义模态向量进行对应校准。
11.可选的,所述对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述视觉模态向量进行模态内校准。
12.可选的,所述对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述语义模态向量进行模态内校准。
13.可选的,所述根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别,包括:
14.将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理,得到候选动词的动词特征;
15.根据所述候选动词的动词特征预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
16.可选的,所述将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理,得到候选动词的动词特征,包括:将所述校准后的视觉模态向量与所述校准后的语义模态向量作为序列元素生成所述候选动词的动词序列。
17.可选的,所述根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量,包括:
18.获取所述物体对象对应的候选动词的原始向量;
19.获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率;
20.根据所述候选动词的原始向量和所述动词条件概率,获取所述物体对象对应的语义模态向量。
21.本技术实施例还提供了一种人物交互检测方法,包括:
22.获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
23.获取所述物体对象对应的候选动词的原始向量,并获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率;
24.根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
25.根据所述视觉模态向量与所述语义模态向量,获取所述人物对象针对所述物体对象的动词类别。
26.可选的,所述获取所述物体对象对应的候选动词的原始向量,包括:根据所述物体对象的视觉向量从动词向量数据库中获取所述候选动词的原始向量。
27.可选的,所述获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率,包括:根据所述物体对象的视觉向量获取所述候选动词相对于所述物体对象的动词条件概率。
28.可选的,所述根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量,包括:将所述候选动词的原始向量与所述动词条件概率的乘积作为所述物体对象对应的语义模态向量。
29.可选的,所述根据所述视觉模态向量与所述语义模态向量,获取所述人物对象针对所述物体对象的动词类别,包括:
30.对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量;
31.根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
32.本技术实施例还提供了一种人物交互检测装置,包括:视觉模态单元、语义模态单
元、校准单元、预测单元;
33.所述视觉模态单元,用于获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
34.所述语义模态单元,用于根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
35.所述校准单元,用于对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量;
36.所述预测单元,用于根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
37.本技术实施例还提供了一种人物交互检测装置,包括:视觉模态单元、语义模态单元、动词类别获取单元;
38.所述视觉模态单元,用于获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
39.所述语义模态单元,用于获取所述物体对象对应的候选动词的原始向量,并获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率;
40.所述语义模态单元,还用于根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
41.所述动词类别获取单元,用于根据所述视觉模态向量与所述语义模态向量,获取所述人物对象针对所述物体对象的动词类别。
42.本技术实施例还提供了一种虚拟现实设备,包括:存储器和处理器;所述存储器存储计算机指令集,由所述处理器执行时,执行如下步骤:
43.获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
44.根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
45.对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量;
46.根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
47.本技术实施例还提供了一种虚拟现实设备,包括:存储器和处理器;所述存储器存储计算机指令集,由所述处理器执行时,执行如下步骤:
48.获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
49.获取所述物体对象对应的候选动词的原始向量,并获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率;
50.根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
51.根据所述视觉模态向量与所述语义模态向量,获取所述人物对象针对所述物体对
象的动词类别。
52.本技术实施例还提供了一种电子设备,包括:采集器、处理器和存储器;
53.所述采集器用于采集待检测图像;
54.所述存储器用于存储一条或多条计算机指令;
55.所述处理器用于执行所述一条或多条计算机指令,以实现上述方法。
56.本技术实施例还提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,该指令被处理器执行以实现上述方法。
57.与现有技术相比,本技术提供的人物交互检测方法,包括:获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量;根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。该方法通过获取待检测图像的视觉模态向量(包括:人物对象的视觉向量、物体对象的视觉向量)及语义模态向量(即:物体对象的候选动词的动词向量),并对视觉模态向量和语义模态向量进行校准与融合,能够将待检测图像中的物体对象与人物对象针对物体对象的动作紧密关联,提高了人物交互检测的精准度。
附图说明
58.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
59.图1为本技术实施例提供的一种人物交互检测方法的应用场景图;
60.图2为本技术实施例提供的一种人物交互检测方法的应用系统图;
61.图3为本技术第一实施例提供的人物交互检测方法的流程图;
62.图4为本技术实施例提供的人物交互检测方法的方法示意图;
63.图5为本技术第一实施例提供的获取待检测图像视觉模态向量的流程图;
64.图6为本技术第一实施例提供的物体对象对应的语义模态向量的流程图;
65.图7为本技术第二实施例提供的人物交互检测方法的流程图;
66.图8为本技术第二实施例提供的获取待检测图像中人物对象针对物体对象的动词类别的流程图;
67.图9为本技术第三实施例提供的人物交互检测装置的结构示意图;
68.图10为本技术第四实施例提供的人物交互检测装置的结构示意图;
69.图11为本技术第五实施例提供的虚拟现实设备的结构示意图;
70.图12为本技术第七实施例提供的电子设备的结构示意图。
具体实施方式
71.为了使本领域的技术人员能够更好的理解本技术的技术方案,下面结合本技术实
施例中的附图,对本技术进行清楚、完整地描述。但本技术能够以很多不同于上述描述的其他方式进行实施,因此,基于本技术提供的实施例,本领域普通技术人员在不经过创造性劳动的情况下,所获得的所有其他实施例,都应属于本技术保护的范围。
72.现有的人物交互检测方法中,端到端的人物交互检测是被广泛使用的检测方法。该方法通常会设计为两个并行的分支,其一是人物/物体检测分支,用于检测图像中人物的边界框、物体的边界框,以及物体的类别;其二是动作检测分支,用于推测人物和物体间的动词交互关系,主要是检测人物对物体的动作。其中,动作检测方法往往使用人物和物体并行检测的设计,而忽略了人物交互关系中的一个核心主体“物体”,也就是说,现有的人物交互检测方法忽略了人物交互关系中的物体对于动作类别的先验知识,这样的检测方法会导致物体与动词的先验关系被解耦。例如:在数据集中人骑马占据了马这个物体所有动作的大概率,但是现有的检测方法,不会考虑马对应动作的先验概率,最后检测模型中人骑马这个动作只占据了马这个物体所有动作的小概率,导致人骑马占据了马这个物体所有动作的大概率的这种先验关系被解耦。因此,现有的人物交互检测方法并不能提升人物交互检测的精度,致使检测结果与真实图像不符。
73.针对上述现有的人物交互检测方法存在的问题,本技术提供了一种人物交互检测方法,在对图像进行视觉检测的同时,引入对图像中物体的动词语义特征的聚合,并对视觉检测输出和语义聚合特征进行跨模态校准与融合,能够得到更符合真实图像的检测结果。
74.下面结合具体实施例及附图对本技术所述的检测方法、检测装置、检测系统以及计算机可读存储介质做进一步详细说明。
75.图1是本技术实施例提供的一种人物交互检测方法的应用场景图。如图1所示,本技术实施例提供的人物交互检测方法能够被应用于直播/短视频主体商品推荐场景中。在该场景中,往往会设置摄像头对主播与商品的交互行为进行拍摄。通过本技术实施例提供的人物交互检测方法,能够检测出主播的相关信息、商品的相关信息,还能检测出主播对商品的交互动作信息。通过上述检测结果,平台可自生成独立于主播外的推荐信息,通过字幕、链接等形式向用户推荐商品。除此之外,如果通过上述检测结果,发现主播的不安全行为,也可以快速向平台反馈,避免对用户造成不良影响。
76.本技术实施例提供的人物交互检测方法还能被应用在危险行为检测、信息检测、人机交互等多种领域。
77.图2是本技术实施例提供的一种人物交互检测方法的应用系统图。如图2所示,所述应用系统,包括:终端101、服务器102。所述终端101和所述服务器102通过网络进行通信连接。所述终端101可以是各种形式的图像采集装置,如摄像头、照相机等,可以是一个,也可以是多个。所述服务器102可以是独立的服务器,部署本技术提供的人物交互检测方法,也可以是多个服务器组成的服务器群,其中每一个服务器部署本技术提供的人物交互检测方法的一个模块。比如:服务器群可以包括:视觉服务器、语义服务器、校准服务器等。当然,所述服务器102还可以是云端服务器,将本技术提供的人物交互检测方法部署在云端服务器上。终端101对待检测图像进行采集,通过网络上传至服务器102,服务器102对待检测图像进行人物交互检测。
78.该人物交互检测方法的应用系统可以被应用到危险行为检测等领域。比如对于危险行为检测,可以将所述终端101设置为深度摄像头,布置在街道、商场、小区等各个位置,
终点101会将拍摄到的视频按照每帧图像形式通过网络上传至服务器102,服务器102会对每帧图像进行检测,如果发现了类似人拿刀的危险行为,就会向安全管理部门进行报警提示。
79.本技术第一实施例提供了一种人物交互检测方法。
80.所述人物交互检测,是指对图片中的图像或视频中的视频帧图像中的人物与物体的交互关系进行检测,包括,对图像中的人物对象的检测、物体对象的检测、以及人物对物体的交互动作的检测。比如:对一张人骑马的图片进行人物交互检测,检测的内容包括:对人的检测、对马的检测、以及对人骑马动作的检测;输出内容包括:人的边界框信息、马的边界框信息、以及人与马的交互动作对应的动词类别。
81.因此,人物交互检测是一个相对复杂的过程,不仅要检测出图像中的物体是什么,还要检测出图像中的人物对物体进行了什么行为动作。对于现实中的图像往往不会是一对一的单一关系,图像中会包含多个人物对象、多个物体对象,这就会大大的增加了检测的难度。
82.本技术以一张一对二的图像为例,对本技术第一实施例提供的人物交互检测方法进行详细说明。
83.图3是本实施例提供的人物交互检测方法的流程图。图4是本实施例提供的人物交互检测方法的方法示意图。以下结合图3和图4对本实施例提供的人物交互检测方法进行详细描述。以下描述所涉及的实施例用于解释本技术的技术方案,并不作为实际使用的限定。
84.如图3所述,本实施例提供的人物交互检测方法包括如下步骤:
85.步骤s301,获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量。
86.本步骤是从视觉角度出发,对待检测图像中的人物对象、物体对象进行检测,输出视觉模态向量。所述视觉模态向量就包括待检测图像中人物对象的视觉向量、物体对象的的视觉向量向量。
87.所述待检测图像,是指通过图像获取装置获取的,需要进行检测的图像,可以是图片形式的图像,也可以是视频形式以视频帧输出的图像。本实施例为了更清楚的对本实施例提供的人物交互检测方法进行说明,以一张一对二的图像为待检测图像。如图4中所示的待检测图像,图像中包括一位男士(人物对象)、一个杯子(第一物体对象)、一个背包(第二物体对象),男士右肩背着背包,左手拿着杯子。
88.从人物对象的视觉向量可以预测出人物对象的高度、位置等情况。
89.从物体对象的视觉向量可以预测出物体对象的位置、大小、形状、与人物对象的相对距离、与人物对象的接触位置及接触面积等,还可以预测出第一物体对象的类别是容器类、第二物体对象的类别是包类。
90.以下结合图4对本步骤的一种可选的实现形式进行详细说明。
91.图5为本实施例提供的获取待检测图像视觉模态向量的流程图。具体步骤如下:
92.步骤s301-1,将待检测图像输入卷积神经网络,进行图像特征提取。
93.神经网络(neural networks,nns)是由若干神经元及其参数组成的,是一种通过大量的示例来“学习”而执行任务的系统,通常不使用特定于任务的规则进行编程。例如,在图像识别中,神经网络可以通过分析标记为“猫”或“不是猫”的示例图像对猫的特征进行学
习,并使用学习结果来识别其他图像是否含有猫。在神经网络的学习中,并不会向神经网络直接输入猫的特征,而是输入标记为猫的示例图像,神经网络通过迭代学习,就会根据示例图像自动生成表示猫的特征信息。
94.卷积神经网络(convolutional neural networks,cnn)是神经网络的一种,它将若干个神经元组织成一个卷积层,数据从输入开始,靠神经元之间的连接,在若干卷积层中顺序传播,直至最终输出。卷积神经网络还可以依据人为指定的优化目标计算误差,靠反向传播与梯度下降法迭代更新神经网络的参数,使网络得到优化。
95.如图4所示,输入男士拿杯子背包的图像,通过迭代优化的卷积神经网络可以识别出图像中有一个人、一个容器、一个包,并能够对人、容器和包的特征进行提取。
96.步骤s301-2,将待检测图像中的位置编码信息与图像特征进行结合。
97.所述位置编码信息,可以指当前检测图像在一段视频中的先后顺序,也可以指图像中像素点在图像中的坐标位置。
98.本步骤将待检测图像的位置编码信息与提取的图像特征进行结合,具体操作是对二者的编码序列进行加和处理。
99.步骤s301-3,将图像特征信息和位置编码信息的结合信息输入到编码器中进行编码处理,获得表征能力更强的特征序列。
100.transformer是一种可选的编码器,可以将经过加和处理的待检测图像的特征信息和位置编码信息的组合信息输入到transformer的编码器中进行编码。经过自注意力、求和与归一化、前馈神经网络等一系列过程编码,最终能够输出表征能力更强的特征序列。
101.步骤s301-4,将编码后的特征序列输入到解码器中进行解码处理,获得人物对象的视觉向量,及物体对象的视觉向量。
102.可以将编码后的特征序列输入到transformer中进行解码,得到人物对象的视觉向量,物体对象的视觉向量。
103.transformer是神经网络的一种具体形式,包括编码器和解码器。通常编码器和解码器由多个层堆叠而成,每一个层有两个子层连接结构,第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接,第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。
104.步骤s301-5,通过物体对象的视觉向量对物体对象的类别进行预测。
105.如图4所示,男士拿杯子背包的图像经过一系列的编码、解码步骤后输出了男士的视觉向量、第一物品的视觉向量、第二物品的视觉向量。可以通过第一物品的视觉向量预测出第一物品的类别为容器类,通过第二物品的视觉向量预测出第二物品的类别为包类。
106.通过以上步骤,从输入的待检测图像中获取了待检测图像的视觉模态向量。
107.步骤s302,根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量。
108.本步骤是从动词语义角度出发,获取待检测图像中物体对象对应的语义模态向量,即,所述物体对象对应的候选动词的动词向量。
109.所述候选动词,是指待检测图像中物体对象所有可能被执行的动作对应的语义。比如:马可能被执行的动作有:人骑马、人牵马、人喂马、人打马等,这些动作对应的语义有:骑、牵、喂、打等,那么骑、牵、喂、打等就是马对应的候选动词。再比如:图4中,男士(人物对
象)能够对杯子(物体对象)产生的动作有拿、抓、扔等,不可能产生的动作有骑、吃、撕等,因此,拿、抓、扔就是杯子(物体对象)对应的候选动词。
110.所述动词向量,是指动词对应的多维向量。每一个动词都具有其对用的向量。比如“骑”的动词向量可以表示为[1,0,0,0,
……
,0],牵的动词向量可以表示为[0,1,0,0,
……
,0],“喂”的动词向量可以表示为[0,0,1,0,
……
,0],“打”的动词向量可以表示为[0,0,0,1,
……
,0]。不同动词的向量是不可能重复的,因此,可以会用动词向量表征对应的动词。
[0111]
以下结合图4对本步骤的一种可选的实现形式进行详细说明。
[0112]
图6为本实施例提供的获取物体对象对应的语义模态向量的流程图。具体步骤如下:
[0113]
步骤s302-1,获取所述物体对象对应的候选动词的原始向量。
[0114]
一种可选的实现方式包括:
[0115]
第一,将动词向量数据库中的动词向量进行神经网络映射;
[0116]
所述动词向量数据库,是一种公开的人物交互行为的数据库,其中包括了几乎所有动词对应的动词向量,是一个动词向量合集。hico-det数据集、v-coco数据集都是比较全面的动词向量数据库。
[0117]
此步骤的目的是使映射后的动词向量数据库中的动词向量与动词的共现概率尽可能地接近。
[0118]
第二,根据所述物体对象的视觉向量从映射后的动词向量数据库中获取所述候选动词的原始向量。
[0119]
根据待检测图像中物体对象的视觉向量就能够从上述映射后的动词向量数据库中筛选出与物体对象有关的动词向量,即物体对象对应的候选动词的原始向量。
[0120]
如图4所示,以男士拿杯子背包的图像为例进行说明。动词向量数据库中包括拿、抱、扔、吃、喝、打、骑、抓等动词对应的动词向量,通过图像特征提取分析可知,第二物体对象的视觉向量为包类,那么就会从动词向量数据库中筛出与包类对应的候选动词的动词向量,比如:拿、抱、扔、抓的动词向量,构成物体对象对应的候选动词的原始向量。
[0121]
步骤s302-2,获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率。
[0122]
所述动词条件概率,是指事件b发生的条件下,事件a发生的概率。在本实施例中是指,待检测图像中物体对象能够被执行的所有动作的发生概率。
[0123]
如图4所示,男士拿杯子背包的图像中,杯子能够被执行的所有动作包括:拿、抓、摔、骑等等,这些动作的发生概率可能为:拿40%、抓20%、摔10%、骑1%。当然,杯子能够被执行的动作不止上述四种,在本实施例中以上述四种动作为例进行说明。
[0124]
包能够被执行的所有动作包括:背、挎、提、扔等等,这些动作的发生概率可能为:背30%、挎30%、提20%、扔5%。当然,包能够被执行的动作也不止上述四种,在本实施例中以上述四种动作为例进行说明。
[0125]
获得动词条件概率是根据所述物体对象的视觉向量获取所述候选动词相对于所述物体对象的动词条件概率。
[0126]
也就是说,通过本步骤获得的动词条件概率与通过第一步骤获得的候选动词的原始向量是一一对应的。
[0127]
步骤s302-3,根据所述候选动词的原始向量和所述动词条件概率,获取所述物体对象对应的语义模态向量。
[0128]
所述动词的原始向量,是指动词向量未经过处理的原始状态。
[0129]
本步骤具体是指,将待检测图像中物体对象对应的候选动词的原始向量与候选动词的动词条件概率进行聚合。
[0130]
一种可选的聚合方法是对候选动词的原始向量与候选动词的动词条件概率相乘,也就是,将所述候选动词的原始向量与所述动词条件概率的乘积作为所述物体对象对应的语义模态向量。
[0131]
如图4所示,男士拿杯子背包的图像中,第一物体对象(容器类)的候选动词为:拿、举、抬、抗等,第二物体对象(包类)的候选动词为:背、挎、提、扔等。
[0132]
第一物体对象的候选动词的动词条件概率为:拿30%、举20%、抬10%、抗10%;第二物体对象的候选动词的动词条件概率为:背30%、挎30%、提20%、扔5%。
[0133]
对第一物体对象对应的候选动词的原始向量与候选动词的动词条件概率进行聚合的方法为:拿的原始向量
×
0.3、举的原始向量
×
0.2、抬的原始向量
×
0.1、抗的原始向量
×
0.1。
[0134]
对第二物体对象对应的候选动词的原始向量与候选动词的动词条件概率进行聚合的方法为:背的原始向量
×
0.3、挎的原始向量
×
0.3、提的原始向量
×
0.2、扔的原始向量
×
0.05。
[0135]
通过上述步骤能够获得待检测图像中物体对象对应的候选动词的动词向量。
[0136]
步骤s303,对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量。
[0137]
本步骤是对通过步骤s301获取的视觉模态向量与通过步骤s302获取的语义模态向量进行模态间校准。
[0138]
本实施例提供的校准,包括:采用通道注意力机制对所述视觉模态向量和所述语义模态向量进行对应校准。具体为:
[0139]
假定视觉模态向量和语义模态向量的特征数量均为k,每个特征的通道数量为d。
[0140]
由于步骤s302中获得的语义模态向量是以步骤s301中获得的视觉模态向量为引导的,因此视觉模态向量和语义模态向量应是一一对应的。采用通道注意力机制对视觉模态向量和语义模态向量的对应通道进行一一校准。比如:首先,通过语义模态向量计算出通道注意力的大小(d个),然后,用通过语义模态向量计算出的通道注意力大小调整视觉模态向量的通道注意力大小(d个),如此对k对视觉模态向量和语义模态向量的所有特征进行一一校准。同样,也可以用视觉模态向量对语义模态向量进行校准。
[0141]
本实施例提供的校准,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述视觉模态向量进行模态内校准。具体为:
[0142]
使用transformer的编码器对视觉模态向量的k个特征进行相互之间的信息传递,即可得到表征能力更强的k个特征的视觉模态向量。
[0143]
本实施例提供的校准,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述语义模态向量进行模态内校准。具体为:
[0144]
使用transformer的编码器对语义模态向量的k个特征进行相互之间的信息传递,
即可得到表征能力更强的k个特征的语义模态向量。
[0145]
以上提供的对视觉模态向量和语义模态向量进行模态间校准和模态内校准的方法。
[0146]
步骤s304,根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
[0147]
此步骤包括:将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理,得到候选动词的动词特征。
[0148]
所述融合,是指将校准后的视觉模态向量与校准后的语义模态向量进行合并,可以通过特征融合函数完成。
[0149]
也就是说,融合是将所述校准后的视觉模态向量与所述校准后的语义模态向量作为序列元素生成所述候选动词的动词序列。
[0150]
此步骤还包括:根据所述候选动词的动词特征预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
[0151]
一种可选的预测方式为:使用前馈神经网络(feed-forward network,ffn)根据候选动词的动词特征预测待检测图像中的人物对象针对物体对象的动词类别。
[0152]
如图4所示,使用前馈神经网络根据候选动词的动词特征可以预测出:待检测图像中,人物对象针对第一物体对象的动词类别为拿,人物对象针对第二物体对象的动词类别为背。
[0153]
以上为本技术第一实施例提供的人物交互检测方法的一种实现方式,如图4所示,通过上述方法能够对男士拿杯子背包的图像进行检测,最终得到的检测结果包括:“人拿杯子”并且“人背包”。检测结果还包括:人物对象的特征描述(如:男士、身高约170厘米、短发)、第一物体对象的特征描述(如:杯子、有盖、圆柱形,高约10厘米)、第二物体对象的特征描述(如:背包、蓝色、长方形)。检测结果还包括:第一物体对象与人物对象的位置关系(杯子在人前方拿着)、第二物体对象与人物对象的位置关系(包在人背后背着)。当然,检测结果还可以包括其他信息,在此不再进行详细说明。
[0154]
本技术第二实施例提供了又一种人物交互检测方法。
[0155]
图7是本实施例提供的人物交互检测方法的流程图。以下结合图7和图4对本实施例提供的人物交互检测方法进行详细描述。以下描述所涉及的实施例用于解释本技术的技术方案,并不作为实际使用的限定。
[0156]
步骤s701,获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量。
[0157]
所述待检测图像,是指通过图像获取装置获取的,需要进行检测的图像,可以是图片形式的图像,也可以是视频形式以视频帧输出的图像。本实施例为了更清楚的对本实施例提供的人物交互检测方法进行说明,以一张一对二的图像为待检测图像。如图4中所示的待检测图像,图像中包括一位男士(人物对象)、一个杯子(第一物体对象)、一个背包(第二物体对象),男士右肩背着背包,左手拿着杯子。
[0158]
从人物对象的视觉向量可以预测出人物对象的高度、位置等情况。
[0159]
从物体对象的视觉向量可以预测出物体对象的位置、大小、形状、与人物对象的相对距离、与人物对象的接触位置及接触面积等,还可以预测出第一物体对象的类别是容器
类、第二物体对象的类别是包类。
[0160]
以下结合图4对本步骤的一种可选的实现形式进行详细说明。
[0161]
第一,将待检测图像输入卷积神经网络,进行图像特征提取。
[0162]
神经网络(neural networks,nns)是由若干神经元及其参数组成的,是一种通过大量的示例来“学习”而执行任务的系统,通常不使用特定于任务的规则进行编程。例如,在图像识别中,神经网络可以通过分析标记为“猫”或“不是猫”的示例图像对猫的特征进行学习,并使用学习结果来识别其他图像是否含有猫。在神经网络的学习中,并不会向神经网络直接输入猫的特征,而是输入标记为猫的示例图像,神经网络通过迭代学习,就会根据示例图像自动生成表示猫的特征信息。
[0163]
卷积神经网络(convolutional neural networks,cnn)是神经网络的一种,它将若干个神经元组织成一个卷积层,数据从输入开始,靠神经元之间的连接,在若干卷积层中顺序传播,直至最终输出。卷积神经网络还可以依据人为指定的优化目标计算误差,靠反向传播与梯度下降法迭代更新神经网络的参数,使网络得到优化。
[0164]
如图4所示,输入男士拿杯子背包的图像,通过迭代优化的卷积神经网络可以识别出图像中有一个人、一个容器、一个包,并能够对人、容器和包的特征进行提取。
[0165]
第二,将待检测图像中的位置编码信息与图像特征进行结合。
[0166]
所述位置编码信息,可以指当前检测图像在一段视频中的先后顺序,也可以指图像中像素点在图像中的坐标位置。
[0167]
本步骤将待检测图像的位置编码信息与提取的图像特征进行结合,具体操作是对二者的编码序列进行加和处理。
[0168]
第三,将图像特征信息和位置编码信息的结合信息输入到编码器中进行编码处理,获得表征能力更强的特征序列。
[0169]
transformer是一种可选的编码器,可以经过加和处理的待检测图像的特征信息和位置编码信息的组合信息输入到transformer的编码器中进行编码。经过自注意力、求和与归一化、前馈神经网络等一系列过程编码,最终能够输出表征能力更强的特征序列。
[0170]
第四,将编码后的特征序列输入到解码器中进行解码处理,获得人物对象的视觉向量,物体对象的视觉向量;
[0171]
可以将编码后的特征序列输入到transformer中进行解码,得到人物对象的视觉向量,物体对象的视觉向量。
[0172]
transformer是神经网络的一种具体形式,包括编码器和解码器。通常编码器和解码器由多个层堆叠而成,每一个层有两个子层连接结构,第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接,第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。
[0173]
第五,通过物体对象的视觉向量对物体对象的类别进行预测。
[0174]
如图4所示,男士拿杯子背包的图像经过一系列的编码、解码步骤后输出了男士的视觉向量、第一物品的视觉向量、第二物品的视觉向量。可以通过第一物品的视觉向量预测出第一物品的类别为容器类,通过第二物品的视觉向量预测出第二物品的类别为包类。
[0175]
通过以上步骤,从输入的待检测图像中获取了待检测图像的视觉模态向量。
[0176]
步骤s702,获取所述物体对象对应的候选动词的原始向量,并获取所述物体对象
对应的候选动词相对于所述物体对象的动词条件概率。
[0177]
所述候选动词,是指待检测图像中物体对象所有可能被执行的动作对应的语义。比如:马可能被执行的动作有:人骑马、人牵马、人喂马、人打马等,这些动作对应的语义有:骑、牵、喂、打等,那么骑、牵、喂、打等就是马对应的候选动词。再比如:图4中,男士(人物对象)能够对包(物体对象)产生的动作有背、挎、提、扔等,不可能产生的动作有吃、喝等,因此,背、挎、提、扔就是包(物体对象)对应的候选动词。
[0178]
所述动词的原始向量,是指动词向量未经过处理的原始状态。每一个动词都具有其对用的向量。比如“背”的动词向量可以表示为[2,0,0,0,
……
,0],挎的动词向量可以表示为[0,2,0,0,
……
,0],“提”的动词向量可以表示为[0,0,2,0,
……
,0],“扔”的动词向量可以表示为[0,0,0,2,
……
,0]。不同动词的向量是不可能重复的,因此,可以会用动词向量表征对应的动词。
[0179]
本步骤获取候选动词的原始向量,具体是指,获取待检测图像中物体对象对应的候选动词的原始向量。
[0180]
一种可选的实现方式包括:
[0181]
第一,将动词向量数据库中的动词向量进行神经网络映射;
[0182]
所述动词向量数据库,是一种公开的人物交互行为的数据库,其中包括了几乎所有动词对应的动词向量,是一个动词向量合集。hico-det数据集、v-coco数据集都是比较可选的动词向量数据库。
[0183]
此步骤的目的是使映射后的动词向量数据库中的动词向量与动词的共现概率尽可能地接近。
[0184]
第二,根据所述物体对象的视觉向量从映射后的动词向量数据库中获取所述候选动词的原始向量。
[0185]
根据待检测图像中物体对象的视觉向量就能够从上述映射后的动词向量数据库中筛选出与物体对象有关的动词向量,即物体对象对应的候选动词的原始向量。
[0186]
如图4所示,以男士拿杯子背包的图像为例进行说明。动词向量数据库中包括拿、抱、扔、吃、喝、打、骑、抓等动词对应的动词向量,通过图像特征提取分析可知,第二物体对象的视觉向量为包类,那么就会从动词向量数据库中筛出与包类对应的候选动词的动词向量,比如:拿、抱、扔、抓的动词向量,构成物体对象对应的候选动词的原始向量。
[0187]
所述动词条件概率,是指事件b发生的条件下,事件a发生的概率。在本实施例中是指,待检测图像中物体对象能够被执行的所有动作的发生概率。
[0188]
如图4所示,男士拿杯子背包的图像中,杯子能够被执行的所有动作包括:拿、抓、摔、骑等等,这些动作的发生概率可能为:拿40%、抓20%、摔10%、骑1%。当然,杯子能够被执行的动作不止上述四种,在本实施例中以上述四种动作为例进行说明。
[0189]
包能够被执行的所有动作包括:背、挎、提、扔等,这些动作的发生概率可能为:背30%、挎30%、提20%、扔5%。当然,包能够被执行的动作也不止上述四种,在本实施例中以上述四种动作为例进行说明。
[0190]
获得动词条件概率是根据所述物体对象的视觉向量获取所述候选动词相对于所述物体对象的动词条件概率。
[0191]
也就是说,通过本步骤获得的动词条件概率与候选动词的原始向量是一一对应
的。如下表所示:
[0192][0193]
步骤s703,根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量。
[0194]
本步骤具体是指,将待检测图像中物体对象对应的候选动词的原始向量与候选动词的动词条件概率进行聚合。
[0195]
一种可选的聚合方法是对候选动词的原始向量与动词条件概率相乘,也就是,将所述候选动词的原始向量与所述动词条件概率的乘积作为所述物体对象对应的语义模态向量。
[0196]
如图4所示,男士拿杯子背包的图像中,第一物体对象(容器类)的候选动词为:拿、举、抬、抗等,第二物体对象(包类)的候选动词为:背、挎、提、扔等。
[0197]
第一物体对象的候选动词的动词条件概率为:拿30%、举20%、抬10%、抗10%;第二物体对象的候选动词的动词条件概率为:背30%、挎30%、提20%、扔5%。
[0198]
对第一物体对象对应的候选动词的原始向量与候选动词的动词条件概率进行聚合的方法为:拿的原始向量
×
0.3、举的原始向量
×
0.2、抬的原始向量
×
0.1、抗的原始向量
×
0.1。如下表所示:
[0199][0200]
对第二物体对象对应的候选动词的原始向量与候选动词的动词条件概率进行聚合的方法为:背的原始向量
×
0.3、挎的原始向量
×
0.3、提的原始向量
×
0.2、扔的原始向量
×
0.05。如下表所示:
[0201][0202]
通过上述步骤能够获得待检测图像中物体对象对应的候选动词的动词向量。
[0203]
步骤s704,根据所述视觉模态向量与所述语义模态向量,获取所述人物对象针对所述物体对象的动词类别。
[0204]
图8为本实施例提供的获取待检测图像中人物对象针对物体对象的动词类别的流程图,具体步骤如下:
[0205]
步骤s704-1,对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量。
[0206]
本实施例提供的校准,包括:采用通道注意力机制对所述视觉模态向量和所述语义模态向量进行对应校准。具体为:
[0207]
假定视觉模态向量和语义模态向量的特征数量均为k,每个特征的通道数量为d。
[0208]
由于获得的语义模态向量是以获得的视觉模态向量为引导的,因此视觉模态向量和语义模态向量应是一一对应的。采用通道注意力机制对视觉模态向量和语义模态向量的对应通道进行一一校准。
[0209]
比如:首先,通过语义模态向量计算出通道注意力的大小(d个),然后,用通过语义模态向量计算出的通道注意力大小调整视觉模态向量的通道注意力大小(d个),如此对k对视觉模态向量和语义模态向量的所有特征进行一一校准。同样,也可以用视觉模态向量对语义模态向量进行校准。
[0210]
本实施例提供的校准,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述视觉模态向量进行模态内校准。具体为:
[0211]
使用transformer的编码器对视觉模态向量的k个特征进行相互之间的信息传递,即可得到表征能力更强的k个特征的视觉模态向量。
[0212]
本实施例提供的校准,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述语义模态向量进行模态内校准。具体为:
[0213]
使用transformer的编码器对语义模态向量的k个特征进行相互之间的信息传递,即可得到表征能力更强的k个特征的语义模态向量。
[0214]
以上提供的对视觉模态向量和语义模态向量进行模态间校准和模态内校准的方法。
[0215]
步骤s704-2,将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理,得到候选动词的动词特征。
[0216]
所述融合,是指将校准后的视觉模态向量与校准后的语义模态向量进行合并,可
以通过特征融合函数完成。
[0217]
也就是说,融合是将所述校准后的视觉模态向量与所述校准后的语义模态向量作为序列元素生成所述候选动词的动词序列。
[0218]
步骤s704-3,根据所述候选动词的动词特征预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
[0219]
一种可选的预测方式为:使用前馈神经网络(feed-forward network,ffn)根据候选动词的动词特征预测待检测图像中的人物对象针对物体对象的动词类别。
[0220]
如图4所示,使用前馈神经网络根据候选动词的动词特征可以预测出:待检测图像中,人物对象针对第一物体对象的动词类别为拿,人物对象针对第二物体对象的动词类别为背。
[0221]
以上为本技术第二实施例提供的人物交互检测方法的一种实现方式,如图4所示,通过上述方法能够对男士拿杯子背包的图像进行检测,最终得到的检测结果包括:“人拿杯子”并且“人背包”。检测结果还包括:人物对象的特征描述(如:男士、身高约170厘米、短发)、第一物体对象的特征描述(如:杯子、有盖、圆柱形,高约10厘米)、第二物体对象的特征描述(如:背包、蓝色、长方形)。检测结果还包括:第一物体对象与人物对象的位置关系(杯子在人前方拿着)、第二物体对象与人物对象的位置关系(包在人背后背着)。当然,检测结果还可以包括其他信息,在此不再进行详细说明。
[0222]
本技术第三实施例提供了一种人物交互检测装置。图9为本实施例提供的人物交互检测装置的结构示意图。
[0223]
如图9所示,本实施例提供的人物交互检测装置,包括:视觉模态单元901、语义模态单元902、校准单元903、预测单元904;
[0224]
所述视觉模态单元901,用于获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
[0225]
所述语义模态单元902,用于根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
[0226]
可选的,所述根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量,包括:
[0227]
获取所述物体对象对应的候选动词的原始向量;
[0228]
获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率;
[0229]
根据所述候选动词的原始向量和所述动词条件概率,获取所述物体对象对应的语义模态向量。
[0230]
所述校准单元903,用于对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量;
[0231]
可选的,所述对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量,包括:采用通道注意力机制对所述视觉模态向量和所述语义模态向量进行对应校准。
[0232]
可选的,所述对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述视觉模态向量进行模态内校准。
[0233]
可选的,所述对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述语义模态向量进行模态内校准。
[0234]
所述预测单元904,用于根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
[0235]
可选的,所述根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别,包括:
[0236]
将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理,得到候选动词的动词特征;
[0237]
根据所述候选动词的动词特征预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
[0238]
可选的,所述将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理,得到候选动词的动词特征,包括:将所述校准后的视觉模态向量与所述校准后的语义模态向量作为序列元素生成所述候选动词的动词序列。
[0239]
本技术第四实施例提供了一种人物交互检测装置。图10为本实施例提供的人物交互检测装置的结构示意图。
[0240]
如图10所示,本实施例提供的人物交互检测装置,包括:视觉模态单元1001、语义模态单元1002、动词类别获取单元1003;
[0241]
所述视觉模态单元1001,用于获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
[0242]
所述语义模态单元1002,用于获取所述物体对象对应的候选动词的原始向量,并获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率;
[0243]
可选的,所述获取所述物体对象对应的候选动词的原始向量,包括:根据所述物体对象的视觉向量从动词向量数据库中获取所述候选动词的原始向量。
[0244]
可选的,所述获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率,包括:根据所述物体对象的视觉向量获取所述候选动词相对于所述物体对象的动词条件概率。
[0245]
所述语义模态单元1002,还用于根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
[0246]
可选的,所述根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量,包括:将所述候选动词的原始向量与所述动词条件概率的乘积作为所述物体对象对应的语义模态向量。
[0247]
所述动词类别获取单元1003,用于根据所述视觉模态向量与所述语义模态向量,获取所述人物对象针对所述物体对象的动词类别。
[0248]
可选的,所述根据所述视觉模态向量与所述语义模态向量,获取所述人物对象针对所述物体对象的动词类别,包括:
[0249]
对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量;
[0250]
根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
[0251]
本技术第五实施例提供了一种虚拟现实设备。图11为本实施例提供的虚拟现实设备的结构示意图。
[0252]
如图11所示,本实施例提供的虚拟现实设备,包括:存储器1101和处理器1102;所述存储器1101存储计算机指令集,由所述处理器1102执行时,执行如下步骤:
[0253]
获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
[0254]
根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
[0255]
对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量;
[0256]
根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
[0257]
可选的,所述对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量,包括:采用通道注意力机制对所述视觉模态向量和所述语义模态向量进行对应校准。
[0258]
可选的,所述对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述视觉模态向量进行模态内校准。
[0259]
可选的,所述对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量,还包括:对所述视觉模态向量和所述语义模态向量进行模态间校准后,采用信息传递机制对所述语义模态向量进行模态内校准。
[0260]
可选的,所述根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别,包括:
[0261]
将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理,得到候选动词的动词特征;
[0262]
根据所述候选动词的动词特征预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
[0263]
可选的,所述将所述校准后的视觉模态向量与所述校准后的语义模态向量进行融合处理,得到候选动词的动词特征,包括:将所述校准后的视觉模态向量与所述校准后的语义模态向量作为序列元素生成所述候选动词的动词序列。
[0264]
可选的,所述根据所述物体对象的视觉向量,获取所述物体对象对应的语义模态向量,包括:
[0265]
获取所述物体对象对应的候选动词的原始向量;
[0266]
获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率;
[0267]
根据所述候选动词的原始向量和所述动词条件概率,获取所述物体对象对应的语义模态向量。
[0268]
本技术第六实施例还提供了一种虚拟现实设备,包括:存储器和处理器;所述存储
器存储计算机指令集,由所述处理器执行时,执行如下步骤:
[0269]
获取待检测图像的视觉模态向量;所述视觉模态向量,包括:人物对象的视觉向量,及物体对象的视觉向量;
[0270]
获取所述物体对象对应的候选动词的原始向量,并获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率;
[0271]
根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量;所述语义模态向量,包括:所述物体对象对应的候选动词的动词向量;
[0272]
根据所述视觉模态向量与所述语义模态向量,获取所述人物对象针对所述物体对象的动词类别。
[0273]
可选的,所述获取所述物体对象对应的候选动词的原始向量,包括:根据所述物体对象的视觉向量从动词向量数据库中获取所述候选动词的原始向量。
[0274]
可选的,所述获取所述物体对象对应的候选动词相对于所述物体对象的动词条件概率,包括:根据所述物体对象的视觉向量获取所述候选动词相对于所述物体对象的动词条件概率。
[0275]
可选的,所述根据所述候选动词的原始向量和所述动词条件概率获取所述物体对象对应的语义模态向量,包括:将所述候选动词的原始向量与所述动词条件概率的乘积作为所述物体对象对应的语义模态向量。
[0276]
可选的,所述根据所述视觉模态向量与所述语义模态向量,获取所述人物对象针对所述物体对象的动词类别,包括:
[0277]
对所述视觉模态向量和所述语义模态向量进行模态间校准,获得校准后的视觉模态向量和校准后的语义模态向量;
[0278]
根据所述校准后的视觉模态向量和所述校准后的语义模态向量预测所述待检测图像中的所述人物对象针对所述物体对象的动词类别。
[0279]
本技术第七实施例提供了一种电子设备。图12为本实施例提供的电子设备的结构示意图。
[0280]
如图12所示,本实施例提供的电子设备,包括:采集器1201、存储器1202和处理器1203。
[0281]
所述采集器1201,用于采集待检测图像。
[0282]
所述存储器1202,用于存储执行人物交互检测方法的计算机指令。
[0283]
所述处理器1203,用于执行存储于存储器中的计算机指令,执行本技术第一实施例和第二实施例所述的方法。
[0284]
本技术第八实施例提供了一种计算机可读存储介质,计算机可读存储介质包括计算机指令,计算机指令在被处理器执行时用于实现本技术第一实施例和第二实施例中任意一种人物交互检测方法的技术方案。
[0285]
本技术虽然以较佳实施例公开如上,但其并不是用来限定本技术,任何本领域技术人员在不脱离本技术的精神和范围内,都可以做出可能的变动和修改,因此本技术的保护范围应当以本技术权利要求所界定的范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献