一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于高阶图神经网络的社交关系识别方法与流程

2022-03-14 04:28:23 来源:中国专利 TAG:


1.本发明涉及深度学习领域中的社交关系识别问题,尤其是涉及一种基于高阶图神经网络的社交关系识别方法。


背景技术:

2.在计算机视觉领域中,社交关系是理解图像中人的行为等的重要线索,而基于图像的社交关系识别是理解人们日常互动交流的一种关键方法。现有的研究大多通过提取人脸、身体以及整张图像的相关特征来进行社交关系识别,取得了较高的准确率。另外,图神经网络作为一种全新的网络,能够模拟人的思维对图进行推理,为社交关系识别提供了新的工具和方法。目前,社交关系识别在社交机器人、社交媒体、城市公共空间等相关应用中发挥着重要作用。
3.社交关系识别作为计算机视觉领域的重要研究内容,受到了国内外研究者的广泛关注。相关研究方法基本局限于利用提取的相关特征直接拼接融合进行社交关系分类,忽略了特征之间的相关性,无法挖掘其中的社交关系信息。而图神经网络,尤其是高阶图神经网络正好能胜任这一任务,完成对特征之间的相关性推理。因此,本专利通过预训练模型和一个全连接层分别提取图像中人物对的两张人脸特征、人物对联合区域的特征、整张图片的场景特征以及人脸之间的相对空间位置特征,并将这些特征作为结点构建全连接的无向图,然后作为图神经网络的输入进行图推理,最后由8个二分类器对推理结果进一步分类,提高了社交关系的识别准确率。


技术实现要素:

4.本发明的目的是提供一种基于高阶图神经网络的社交关系识别方法,引入高阶图神经网络对由各层次特征构成的图进行推理,充分学习特征之间的相关信息,有效解决了社交关系识别中无法利用特征之间的社交关系信息的问题。
5.为了方便说明,首先引入以下概念:
6.预训练模型:神经网络模型的训练需要大量的数据和时间以及充足的计算资源,为了避免网络的重复训练,将其他研究者训练的具有较好效果的模型参数迁移到特定任务中的模型中来,并进行微调以适应该任务的需求。
7.图(graph):如图1所示,指图论中的图,是一种非欧氏空间中的图,由结点(node)和连接结点的边(edge)构成。
8.图神经网络(graph neural network,gnn):直接在图上计算的神经网络结构,通过消息传递的方式学习结点的表达,以相邻结点更新当前结点的信息,直到整张图收敛到稳定状态。
9.高阶图神经网络(higher-order graph neural network,k-gnn):在图神经网络的基础上进行拓展,不再只关注图中每一个节点,还将图中节点的子集纳入考虑,在各个子集之间进行消息传递,从而获得由节点子集提供的结构上的信息。
10.本发明具体采用如下技术方案:
11.提出了一种基于高阶图神经网络的社交关系识别方法,该方法的主要特征在于:
12.a.通过不同的预训练模型有针对性地提取图片中不同层次的特征,包括人物对的两张人脸的特征、人物对联合区域的特征以及整张图片的场景特征;
13.b.通过构建8个二分类器实现8分类的功能,对推理结果进行有效利用,以准确划分主导(dominant)、竞争(competitive)、信任(trusting)、温暖(warm)、友善(friendly)、亲密(involved)、坦诚(demonstrative)、鼓励(assured)等8类社交关系;
14.c.利用预训练模型提取的特征和计算得到的空间位置特征作为结点构建无向图,通过高阶图神经网络模拟人的思维对图进行推理;
15.该方法主要包括以下步骤:
16.(1)数据处理与增强:对作为输入的人物对的两张人脸、人物对联合区域以及整张图片统一裁剪为224
×
224的图像,并做随机修改亮度、对比度、随机仿射变换以及归一化等数据增强处理,其中对整张图片额外做随机水平翻转处理;另外,将人物对的两张人脸分别的空间位置和面积信息归一化后作为一路输入;
17.(2)预训练模型选择:在vggface2、imagenet、places365数据集上训练得到的预训练模型分别作为人物对的两张人脸、人物对联合区域以及整张图片的特征提取网络,其中人脸的特征由两个vgg-face(resnet-50)模型提取,人物对联合区域的特征由resnet-101模型提取,场景特征由适用于场景分类任务的resnet-50模型提取,并且各网络均删除最后的全连接层;
18.(3)模型构建:模型由三部分构成,第一部分由4个预训练的resnet模型和1个全连接层构成,分别提取两张人脸特征、人物对联合区域特征、场景特征以及人脸空间位置特征;第二部分由两个一阶图神经网络和两个二阶或三阶图神经网络级联组成;第三部分是分别由两层全连接层组成的8个二分类器;
19.(4)模型训练与保存:由步骤(1)处理后的5路数据分别作为预训练模型和全连接层的输入,经由模型第一部分提取到的特征作为结点,以全连接的方式构建无向图作为图神经网络的输入进行图推理,然后将推理结果分别送入8个二分类器进行社交关系分类,最后根据数据集中对应的标签和分类结果计算模型损失并反向传播更新模型参数,重复该步骤,直到训练出最高准确率的模型并保存;
20.(5)社交关系识别:利用步骤(4)训练得到的模型即可对具有人脸边界框的图片进行社交关系识别。
21.本发明的有益效果是:
22.(1)充分利用预训练模型进行特征提取,节约了大量的训练时间和计算资源。
23.(2)提出了一种用各层次特征作为结点构建图结构的方法。
24.(3)引入图神经网络模拟人的思维对由各层次特征构成的图进行图推理,有效挖掘了特征之间的社交关系信息。
25.(4)将8分类的任务分解为8个二分类的任务,最大限度地利用图推理的结果进行社交关系分类。
附图说明
26.图1为非欧式空间中的图结构。
27.图2为模型整体结构。
28.具体实施方法
29.下面结合附图及实施例对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
30.基于高阶图神经网络的社交关系识别方法,具体包括以下步骤:
31.(1)数据处理与增强
32.数据集提供了每张图片的相关信息,包括图片文件名、两张人脸的边界框以及8个类别的标签,可通过这些信息对图片进行裁剪得到人物对两张脸的图片和人物对联合区域的图片。
33.对作为输入的人物对的两张人脸、人物对联合区域以及整张图片统一裁剪为224
×
224的图像,并做随机修改亮度、对比度、随机仿射变换以及归一化等数据增强处理,其中对整张图片额外做随机水平翻转处理;另外,将人物对的两张人脸分别的空间位置和面积信息归一化后作为一路输入。其中,单张人脸的空间位置和面积信息如公式(1)所示:
34.b
pos
={x
min
,y
min
,x
max
,y
max
,area}
ꢀꢀꢀ
(1)
35.其中,x
min
,y
min
,x
max
,y
max
分别表示该人脸边界框横坐标最小值、纵坐标最小值、横坐标最大值、纵坐标最大值,area表示边界框的面积。
36.(2)预训练模型选择
37.在vggface2、imagenet、places365数据集上训练得到的预训练模型分别作为人物对的两张人脸、人物对联合区域以及整张图片的特征提取网络,其中人脸的特征由两个vgg-face(resnet-50)模型提取,人物对联合区域的特征由resnet-101模型提取,场景特征由适用于场景分类任务的resnet-50模型提取,并且各网络均删除最后的全连接层。
38.(3)模型构建
39.如图2所示,模型由三部分构成,第一部分由4个预训练的resnet模型和1个全连接层构成,分别提取两张人脸特征、人物对联合区域特征、场景特征以及人脸空间位置特征;第二部分由两个一阶图神经网络和两个二阶或三阶图神经网络级联组成;第三部分是分别由两层全连接层组成的8个二分类器。
40.(4)模型训练与保存
41.由步骤(1)处理后的5路数据分别作为预训练模型和全连接层的输入,经由模型第一部分提取到的特征作为结点,以全连接的方式构建无向图作为图神经网络的输入进行图推理,然后将推理结果分别送入8个二分类器进行社交关系分类,最后根据数据集中对应的标签和分类结果计算模型损失并反向传播更新模型参数,重复该步骤,直到训练出最高准确率的模型并保存。
42.(5)社交关系识别
43.利用步骤(4)训练得到的模型即可对具有人脸边界框信息的图片进行社交关系识别。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献