一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种利用自注意力机制构建的社会交互组检测方法

2022-05-18 07:00:20 来源:中国专利 TAG:


1.本发明属于计算机视觉技术领域,涉及一种利用自注意力机制构建的社会交互组检测方法。


背景技术:

2.人类天生就是群居动物,所以很容易产生互动,从而形成社会群体。社交场景中交互群体的自动检测具有广阔的应用前景,如群体重识别和人群异常检测。在突发公共卫生事件期间,这项技术还有助于流行病学调查和接触者追踪。社会交互是指:试图影响或考虑他人主观体验或意图的行为。通过社会交互形成的组称为社会交互组。因此,我们认为主观意图对于检测交互组也很重要。相较于根据动作相似性而判断的交互组,这里的交互组定义更加严格。
3.现有的人类交互识别可以分为:(1)基于社会学的方法。一个重要的概念是 f-formation,它被定义为人类在社交互动中保持的内在空间模式,其特点根据图像中每个人的位置来寻找预先定义的交互组的形状(如o形)以实现交互组的判断。然而,这种方法通常需要诸如头部方向和位置之类的信息。在实际场景中,并不容易直接获取。 (2)基于动作的方法。其特点是根据预先定义的动作类型进行交互组的寻找。这类方法虽然取得了较好的结果,但是通常涉及有限的一组动作,这对于可能发生无限多种动作的通用交互识别来说是并不是最优的。(3)还有一种方法是通过利用几何和社会关系实现对人类交互的识别。然而,面部信息对于这个模型是必不可少的,在许多拥挤的场景中,由于遮挡可能很难检测到人脸。


技术实现要素:

4.针对现有技术中的缺陷,本发明提供一种利用自注意力机制构建的社会交互组检测方法。
5.根据本发明的一个方面,一种利用自注意力机制构建的社会交互组检测方法,包括:
6.提取交互要素;
7.从所述交互要素提取特征,并模仿自注意力机制进行融合,获取交互强度特征;
8.基于所述交互强度特征,优化网络;
9.利用优化过的网络对图像中的交互组进行检测。
10.优选地,所述交互要素包括每个人的姿态热力图和每个人的边界框;
11.所述从所述交互要素中提取的特征包括每个人的个人特征和任意两个人之间的距离特征。
12.优选地,所述提取交互要素,包括:利用姿态估计网络提取图像中每个人的姿态热力图和每个人的边界框位置信息。
13.优选地,所述对交互要素进行特征提取,包括:
14.从所述姿态热力图利用卷积层和全连接层提取每个人的个人特征;
15.计算图像中两个人的所述边界框之间的相对位置距离并进行编码,得到相对位置编码;
16.对所述相对位置编码降维,获取任意两个人之间的距离特征。
17.优选地,所述模仿自注意力机制进行融合,获取交互强度特征,包括:
18.对所述图像中任意两个人的个人特征进行处理,获得任意两个人之间的交互强度;
19.对所述的相应的两个人的距离特征进行处理,获得距离特征反比;
20.对所述交互强度和所述距离特征反比进行处理,获得交互权重;
21.对所述交互权重进行处理并结合所述个人个特征,获得交互强度特征。
22.优选地,所述交互强度的获取,包括:
23.将图像中任意两个人的个人特征,先后通过两个全连接层;
24.将所述通过全连接层的个人特征,进行缩放点积;
25.获取任意两个人之间的交互强度;
26.优选地,所述距离特征比反比的获取,包括:
27.对相应的两个人之间的距离特征进行反比操作,获得距离特征反比。
28.优选地,所述交互权重的获取,包括:
29.将所述交互强度和距离特征反比结合并进行softmax操作,获取交互权重。
30.优选地,所述交互强度特征的获取,包括:
31.对所述个人特征进行仿射变换;
32.将所述仿射变换结果与所述交互权重进行张量积;
33.获取交互强度特征。
34.优选地,所述基于所述交互强度特征,优化网络,包括:
35.用全连接层和对称性操作将所述交互强度特征转换为交互概率矩阵;
36.将图像中每对人之间的所述交互概率建立成对交互损失;
37.利用模块度从全局分组角度构建群体损失;
38.将所述交互损失和群体损失线性组合联合优化整个网络。
39.与现有技术相比,本发明具有如下的有益效果:
40.本发明的一种利用自注意力机制构建的社会交互组检测方法,能够仅从图像信息中实现图像中人与人之间交互强弱的量化,并识别出图像中的社会交互组。
41.本发明使用姿态热力图和图像中人的位置来联合构建交互组发现网络,既体现了影响交互的朝向,姿态开放性和位置三个要素,又能实现获取图像中人与人之间的量化交互关系;
42.本发明采用从成对人之间的交互概率和一幅图像的组别角度提出两个损失函数,既约束了人与人之间交互关系,同时又增加了对不同组中的人与人之间的联系强弱的约束,促使获取的交互关系更加真实情况。
附图说明
43.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、
目的和优点将会变得更明显:
44.图1为本发明的一实施例中的利用自注意力机制构建的社会交互组检测方法的流程示意图。
具体实施方式
45.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
46.本发明提供一个实施例,一种利用自注意力机制构建的社会交互组检测方法,包括:
47.s1,提取交互要素;
48.s2,从交互要素提取特征,并模仿自注意力机制进行融合,获取交互强度特征;
49.s3,基于交互强度特征,优化网络;
50.s4,利用优化过的网络检测图像中的社会交互。
51.其中,优化的网络为除去姿态估计部分之外的所有网络。
52.基于上述实施例,进行进一步优化。如图1所示,本一优选实施例的利用自注意力机制构建的社会交互组检测方法的流程示意图。
53.在本实施例中,s1,交互要素提取,包括:
54.s101,输入图像以及图像中每个人的边界框位置,利用在coco数据集上训练过的姿态估计网络simplebaseline(xiaob,wuh,weiy.simplebaselinesforhumanposeestimationandtracking[c].proceedingsoftheeuropeanconferenceoncomputervision(eccv).2018:466-481.)获取每个人的姿态热力图heat,来反应影响交互的姿态开放性和朝向信息;获取每个人的边界框,用边界框来反应影响交互的位置信息。
[0055]
具体的,第i个人的姿态热力图为(r为实数域,c为关键点的个数,wo和ho分别为输出热力图的宽和高),用每个人的边界框(四个坐标分别表示边界框的x和y方向的中心坐标,边界框的宽和高),作为其位置信息。
[0056]
基于上述实施例中的s1,提供一个执行s2的实施例。s2,交互关系计算,针对s1中获取的交互要素进行特征提取,并模仿自注意力机制进行融合,获取交互强度特征。包括:
[0057]
s201,获取任意两个人的个人特征;
[0058]
s202,获取对应两个人之间的距离特征;
[0059]
s203,对图像中任意两个人的个人特征进行处理,获得任意两个人之间的交互强度;
[0060]
s204,对相应的两个人的距离特征进行处理,获得距离特征反比;
[0061]
s205,对交互强度和距离特征反比进行处理,获得任意两个人之间的交互权重;
[0062]
s206,对交互权重进行处理并结合个人特征,获得交互强度特征。
[0063]
作为一优选实施例,执行s201,具体的,利用结合谱归一化的卷积层(sconv)和一个全连接层对姿态热力图进行操作,获取每个人的个人特征h,第i个人的个人特征hi:
[0064][0065]
其中表示可学习的权重,mh表示可学习的偏置。
[0066]
作为一优选实施例,执行s202,具体的,计算图像中任意两个人的边界框之间的相对位置距离并编码,得到相对位置编码。针对图像中任意两个人i和j的边界框位置,获取相对位置距离b
ij

[0067][0068]
将获取的b
ij
进行编码,给定编码频率k代表编码长度,d
model
表示维度。将相对位置距离和频率进行张量积:这里表示张量积。将e
ij
转换为向量并进行正余弦编码,得到相对位置编码为:d
ij
=[sin(e
ij
),cos(e
ij
)]。
[0069]
作为一优选实施例,执行s203,具体的,获取由个人影响产生的任意两个人i,j之间的交互强度p
ij
:利用两个结构相同的全连接层φq,φk,并利用缩放点积得到交互强度,操作如下:
[0070][0071]
其中dim为h经过φq,φk的特征维度。
[0072]
作为一优选实施,执行s204,具体的,将相对位置编码通过一个全连接层获取距离关系:其中wb和mb均为可学习参数。并采用一个反比操作来实现对人与人之间的距离和实际交互为反比关系的模拟:
[0073][0074]
其中λ为一个大于0的参数,以防止出现0为倒数的情况。这里令λ=1。
[0075]
作为一优选实施例,执行s205,具体的,将获取的p
ij
和d

ij
结合并利用一个softmax 操作获取交互权重a的操作为:
[0076][0077]
作为一个优选实施例,执行s206,具体的,对个人特征进行仿射变换与交互权重进行张量积获取交互强度特征s的操作如下:
[0078]
利用仿射变换φv,与交互强度进行张量积,令表示第i个人的个人特征经过φv的特征,并与a进行张量积,其过程为:
[0079][0080]
这里,a
i,:
表示a中的第i行。从而获取交互强度特征,这里s∈rn×n×
dim
,n为图像中的人数。
[0081]
基于上述实施例的s2,提供一个执行s3的实施例。s3,交互发现,利用s2中获取的交互强度特征来获取交互关系矩阵,并建立优化目标来优化整个网络。包括:
[0082]
s301,用全连接层和对称性操作将交互强度特征转换为交互概率矩阵;
[0083]
s302,针对图像中每对人之间的交互概率建立成对交互损失,利用模块度从全局分组角度构建群体损失,将交互损失和群体损失线性组合联合优化整个模型。
[0084]
作为一优选实施例,执行s301,利用一层全连接层以及对称性操作将交互强度特征转换为概率模式x;具体为,首先将s从高维特征降为1维,并利用softmax操作使其限制在0-1之间,操作为:其中ws和ms均为可训练参数。而为了保证交互矩阵的对称性,采用一个对称性操作。在这里,由于默认人自己与自己之间不存在交互,因此将获得的交互概率矩阵对角线置0,最终获得的交互概率矩阵为:其中

表示哈达玛积,而mask为对角线为0,其余为1的n
×
n矩阵。
[0085]
作为一优选实施例,执行302。具体的:
[0086]
从个人角度,根据每对人之间的交互概率,同真实的交互概率矩阵进行对比,可以获得损失函数为:loss
dyad
=-∑
i,j
[g
ij
log(r
ij
) (1-g
ij
)log(1-r
ij
)],其中g表示真实的交互概率矩阵,g为0-1二值矩阵。
[0087]
从全局角度,为了能够增加同社会交互组内人的联系而减弱不同组之间的交互联系,采用复杂网络中模块度的概念,可以获得群体分组质量为:其中n=∑
i,jrij
,ki和kj为交互概率矩阵中第i个人和第j个人的度。由于群体分组质量qg越高,交互概率越接近真实情况,为了方便优化,于是定义群体损失为:loss
group
=1
‑ꢀ
qg。
[0088]
将两个损失函数线性组合,可以得到:其中β为超参数,在本实例中设为10。
[0089]
综上,本实施例,通过采用姿态热力图和图像中每个人的边界框的位置来反映影响交互的关键因素,同时又利用自注意力机制实现了将两种交互要素融合,并得到了交互概率矩阵,实现了交互关系的量化。同时,从个人角度和群体角度两方面构建的损失函数,既约束了人与人之间交互关系,同时又增加了对组别之间联系强弱的约束,促使网络能够判断出更加准确的交互。
[0090]
通过实验证明,本实施例方法通过将获取的交互概率矩阵利用阈值二值化后预测的交互矩阵可以很好的实现图像中交互组的预测,以下表格为实验结果的展示。
[0091]
表1
[0092]
[0093]
综上所述,本实施例提供的利用姿态估计网络提取图像中每个人的姿态热力图,根据图像中任意两个人的边界框坐标计算相对位置编码,对姿态热力图利用卷积层结合全连接层提取个人特征,利用全连接层对相对位置编码提取距离特征,实现对交互影响要素的提取,并采用自注意力机制对两部分特征进行融合,经处理后获取交互概率结果。此外,从个人的角度和全局角度进行建立了两个损失函数,以实现对网络的约束。从实验结果看,各模块的组合有效改善了识别的效果。
[0094]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献