一种基于交替迭代优化的场景图生成装置和方法

2022-12-07 00:24:45 来源：中国专利 TAG：

1.本发明属于计算机视觉技术领域，尤其涉及一种基于交替迭代优化的场景图生成装置和方法。

背景技术：

2.场景图生成是一种推断图像中物体及物体间关系的空间、语义信息的任务。在场景图中，节点和边分别代表图像中的物体及物体间的关系。该任务是物体检测、图像分割等任务向深度图像理解的进一步拓展，近年来吸引了研究领域的大量关注。通过对场景图的生成，可帮助许多下游视觉应用的进行。同时，已有研究证明通过场景图生成，模型同样可以提取更好的图像特征以帮助图像分类、物体检测等更基础的视觉任务。
3.一般来讲，现有场景图生成方法都遵从以下流程：首先，通过任意物体检测器(通常采用faster-rcnn以便于比较)获取图像中物体的包围盒坐标，并提取物体包围盒对应的视觉特征。随后，构建物体识别模块，利用图像中的上下文信息优化物体特征并得出物体分类结果。最后，通过融合物体的视觉特征及其他信息，对每一对物体间的关系进行识别，并结合所有结果输出场景图。常见的拓展形式包括但不限于修改识别网络的网络结构以及引入物体的文本特征。近期也有许多工作聚焦于解决场景图数据集中对关系类别标注的长尾效应问题。
4.然而上述框架存在两大问题。第一，上下文信息缺失。图像中物体间的关系是上下文信息中的重要部分，现有方法通常以场景图中的边来代表这样的关系。但由于物体间关系未知，现有方法往往固定采用全连接或按一定顺序依次连接的方法构建初始场景图，以进行消息传递。这样的构建方法导致初始场景图中的上下文信息与实际场景并不一致，影响了消息传递过程。第二，错误传递。上述框架将场景图生成分为独立的三步，但难以保证每步结果的精度。因此，该框架存在严重的错误传递问题。例如，错误的物体识别结果将使模型难以正确识别物体间的关系类别。

技术实现要素：

5.本发明目的在于提供一种基于交替迭代优化的场景图生成装置和方法，以解决上述的技术问题。
6.为解决上述技术问题，本发明的一种基于交替迭代优化的场景图生成装置和方法的具体技术方案如下：
7.一种基于交替迭代优化的场景图生成装置，包括图像物体检测模块、场景图物体识别模块和场景图关系识别模块；
8.所述图像物体检测模块，负责定位输入图像中物体的包围盒，并提取包围盒对应的物体视觉特征；
9.所述场景图物体识别模块，负责基于场景图关系识别模块的输出，对图像物体检测模块输出的包围盒进行识别，得出对应的物体类别；
10.所述场景图关系识别模块，负责根据场景图物体识别模块的输出提取文本特征，并结合物体视觉特征及空间特征，对物体间的关系进行识别。
11.本发明还公开了一种场景图生成方法，包括训练阶段和测试阶段，所述训练阶段的步骤如下：
12.步骤1：整理数据集：使用带有场景图标注的自然场景图像为训练数据；
13.步骤2：构造训练网络：
14.步骤2.1：物体识别模块采用关系敏感的消息传递网络，针对不同类别的关系训练不同的转换矩阵，并对转换后的邻结点消息进行聚合，用以更新当前节点的特征；
15.步骤2.2：关系识别模块通过结合物体特征、空间特征及物体分类的文本特征，对两者间的关系进行识别；
16.步骤3：使用网络进行训练：在正式进行模型训练前，首先使用预训练好的文本特征提取模型提取图像标注集中的物体、关系类别的文本特征，以备后续训练使用；同时，对于在外部数据集上预训练的物体检测器模型，在场景图数据集上进行微调训练，以获取最优的物体检测效果；
17.步骤4：交替进行步骤2数次，并结合物体识别、关系识别的结果，得出图像对应的场景图。
18.进一步地，所述步骤1包括如下具体步骤：筛选出数据集中出现频率最高的150种物体类别和50种关系类别作为图像标注集；训练中所用的所有图像统一缩放为592x592像素，训练图像和测试图像分别需要有至少70000及30000张图像。
19.进一步地，所述步骤2.1的具体公式如下：
[0020][0021]
其中xi、zi分别为更新前后的节点特征，wt1、wt2为所有节点共享的两个转换矩阵，wr(i,j)为一组与关系类别对应的转换矩阵，б表示非线性函数，ln代表横向规范化，ni为节点i的邻域；同时，对于输入场景图中的每条边，学习一个反向的转换矩阵，因此，对于数据集中共50类关系，该模块共训练100种不同的转换矩阵，以充分利用关系约束监督消息传递。
[0022]
进一步地，所述步骤2.2的具体公式如下：
[0023]
p
r(i,j)
＝fc([f1(xs,xu,xo),f2(gs,go)])
[0024]
其中pr(i,j)表示节点i与节点j间关系的预测概率分布，fc为两层全连接层，f1和f2分别为两个不同的长短期记忆神经网络，s、u、o分别代表主语物体、包围两物体最小包围盒区域以及宾语物体，x和g分别代表视觉特征和文本特征。
[0025]
进一步地，所述步骤3包括如下具体步骤：训练中，首先对模型中所有参数进行随机初始化，按照如下交替迭代优化的算法对物体识别模块和关系识别模块进行优化：
[0026][0027]
其中o为物体识别网络的输出，r为关系识别网络的输出，f为上述关系识别模块的输出pr(i,j)对应的函数，最终，通过平均多次迭代优化步骤中物体识别模块和关系识别模
块的概率分布输出，分别得出最终物体识别与关系识别的概率分布估计，并采用交叉熵损失函数分别对其进行约束，通过计算上述损失函数的梯度，对模型采用随机梯度下降法进行优化。
[0028]
进一步地，所述训练阶段包括如下步骤：测试图像被统一缩放为592x592像素，使用训练得到的场景图生成模型进行测试，输入一张源图像到场景图生成模型中，即可得图像对应的场景图预测结果；
[0029]
采用visual genome数据集，该数据集共包括108000张图像，其中训练图像75651张，测试图像32422张，每张图像平均包含35个物体、26种属性、21对物体间关系以及50个物体区域描述，其中所有概念都与wordnet中概念存在对应，同时，该数据集还包括1773258对与图像内容相关的问答对标注，在该数据集总计33877种物体类别与42374种关系类别中，仅选取出其中出现频率最高的150种物体类别与50种关系类别作为标注集；
[0030]
场景图生成任务可细分为三个子任务，分别为：1)谓词分类：给定图像、图像中物体的包围盒及包围盒对应的标签，预测图像中物体间的关系；2)场景图分类：给定图像与图像中物体的包围盒，预测包围盒对应的标签与物体间的关系；3)场景图检测：仅输入图像，预测图像中物体的包围盒、包围盒对应标签及物体间的关系；
[0031]
对于物体包围盒，评判预测正确的标准为预测结果与标注间的重叠度大于50％，只有一个包括主、谓、宾的三元组关系中，三者类别全部预测正确，且主语物体与宾语物体的包围盒预测正确，这一关系才算预测正确；对于一张整体的整体预测结果，采用topk召回率来评判，其中k通常取20、50及100，根据模型预测的概率分布，对所有可能的关系三元组进行排序，取其中topk的三元组，若包括图像标注中的三元组，则计入召回率中，具体公式如下：
[0032][0033]
其中tk代表置信度排名前k个关系三元组中预测正确的数量，n表示图像标注中三元组的总数量。
[0034]
本发明的一种基于交替迭代优化的场景图生成装置和方法具有以下优点：
[0035]
1、根据物体间关系的不同对物体特征进行转换，改变了现有方法的固定消息传递模式，解决了上下文信息缺失的问题。
[0036]
2、发现了传统场景图生成模型的流程中存在的错误传递问题，并利用物体识别模块与关系识别网络的依赖关系，设计了交替迭代优化算法，缓解了错误传递问题。
[0037]
3、没有引入物体与物体、物体与关系的共同出现频率的统计信息，仅根据图像中包含的信息预测场图像景图，降低了模型训练后对特定数据集的依赖性。
附图说明
[0038]
图1为现有场景图生成方法的错误传递问题示意图。
具体实施方式
[0039]
为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于交
替迭代优化的场景图生成装置和方法做进一步详细的描述。
[0040]
本发明的一种基于交替迭代优化的场景图生成装置，包括图像物体检测模块、场景图物体识别模块和场景图关系识别模块，
[0041]
图像物体检测模块，负责定位输入图像中物体的包围盒，并提取包围盒对应的物体视觉特征；
[0042]
场景图物体识别模块，负责基于场景图关系识别模块的输出，对图像物体检测模块输出的包围盒进行识别，得出对应的物体类别；
[0043]
场景图关系识别模块，负责根据场景图物体识别模块的输出提取文本特征，并结合物体视觉特征及空间特征，对物体间的关系进行识别。
[0044]
本发明的一种基于交替迭代优化的场景图生成方法，包括训练和测试两个阶段，训练阶段的步骤如下：
[0045]
1)整理数据集。
[0046]
整理数据集：本发明使用带有场景图标注的自然场景图像为训练数据。由于实际场景中物体与关系类别均存在严重长尾效应，因此在标注中筛选出现频率较高的物体与关系类别作为训练数据。具体来说，本方法筛选出数据集中出现频率最高的150种物体类别和50种关系类别作为图像标注集。
[0047]
进一步地，训练中所用的所有图像需要统一缩放为592x592像素。模型需要足够多的数据进行训练，训练图像和测试图像分别需要有至少70000及30000张图像。
[0048]
2)构造训练网络。
[0049]
所述训练网络主要包括物体检测器、物体识别模块和关系识别模块，其中物体检测器采用已有的预训练好的模型，在训练过程中模型参数固定。
[0050]
2.1)物体识别模块采用关系敏感的消息传递网络，针对不同类别的关系训练不同的转换矩阵，并对转换后的邻结点消息进行聚合，用以更新当前节点的特征。其具体公式如下：
[0051][0052]
其中xi、zi分别为更新前后的节点特征，wt1、wt2为所有节点共享的两个转换矩阵，wr(i,j)为一组与关系类别对应的转换矩阵，б表示非线性函数(如relu函数)，ln代表横向规范化(layer normalization)，ni为节点i的邻域。同时，对于输入场景图中的每条边，学习一个反向的转换矩阵。因此，对于数据集中共50类关系，该模块共训练100种不同的转换矩阵，以充分利用关系约束监督消息传递。
[0053]
2.2)关系识别模块通过结合物体特征、空间特征及物体分类的文本特征，对两者间的关系进行识别，其公式定义如下：
[0054]
p
r(i,j)
＝fc([f1(xs,xu,xo),f2(gs,go)])
[0055]
其中p
r(i,j)
表示节点i与节点j间关系的预测概率分布，fc为两层全连接层，f1和f2分别为两个不同的长短期记忆神经网络(long short-term memory)，s、u、o分别代表主语物体、包围两物体最小包围盒区域以及宾语物体，x和g分别代表视觉特征和文本特征。
[0056]
3)使用网络进行训练。
[0057]
在正式进行模型训练前，首先使用预训练好的文本特征提取模型提取图像标注集
中的物体、关系类别的文本特征，以备后续训练使用。同时，对于在外部数据集上预训练的物体检测器模型，在场景图数据集上进行微调训练，以获取最优的物体检测效果。
[0058]
训练中，首先对模型中所有参数进行随机初始化。按照如下交替迭代优化的算法对物体识别模块和关系识别模块进行优化：
[0059][0060]
其中o为物体识别网络的输出，r为关系识别网络的输出，f为上述关系识别模块的输出p
r(i,j)
对应的函数。最终，通过平均多次迭代优化步骤中物体识别模块和关系识别模块的概率分布输出，分别得出最终物体识别与关系识别的概率分布估计，并采用交叉熵损失函数分别对其进行约束。通过计算上述损失函数的梯度，对模型采用随机梯度下降法进行优化。
[0061]
测试阶段的步骤如下：
[0062]
测试图像被统一缩放为592x592像素，使用上述训练得到的场景图生成模型进行测试。输入一张源图像到场景图生成模型中，即可得图像对应的场景图预测结果。
[0063]
本发明提出的基于交替迭代优化的场景图生成方法，其测试环境及实验结果为：
[0064]
(1)测试环境：
[0065]
系统环境：ubuntu 18.04；
[0066]
硬件环境：内存：32gb，gpu：nvidiatesla v100，硬盘：1tb；
[0067]
(2)实验数据：
[0068]
1)visual genome数据集。该数据集共包括108000张图像，其中训练图像75651张，测试图像32422张。每张图像平均包含35个物体、26种属性、21对物体间关系以及50个物体区域描述。其中所有概念都与wordnet中概念存在对应。同时，该数据集还包括大量与图像内容相关的问答对标注，总计1773258对。在该数据集总计33877种物体类别与42374种关系类别中，仅选取出其中出现频率最高的150种物体类别与50种关系类别作为标注集。
[0069]
(3)评判标准及相应结果：
[0070]
场景图生成任务可细分为三个子任务，分别为：1)谓词分类：给定图像、图像中物体的包围盒及包围盒对应的标签，预测图像中物体间的关系；2)场景图分类：给定图像与图像中物体的包围盒，预测包围盒对应的标签与物体间的关系；3)场景图检测(生成)：仅输入图像，预测图像中物体的包围盒、包围盒对应标签及物体间的关系。如图1所示，为现有场景图生成方法的错误传递问题示意图。
[0071]
对于物体包围盒，评判预测正确的标准为预测结果与标注间的重叠度(intersection-over-union)大于50％。只有一个包括主、谓、宾的三元组关系中，三者类别全部预测正确，且主语物体与宾语物体的包围盒预测正确，这一关系才算预测正确。对于一张整体的整体预测结果，通常采用topk召回率来评判，其中k通常取20、50及100。具体来说，根据模型预测的概率分布，对所有可能的关系三元组进行排序，取其中topk的三元组，若包括图像标注中的三元组，则计入召回率中。具体公式如下：
[0072][0073]
其中tk代表置信度排名前k个关系三元组中预测正确的数量，n表示图像标注中三元组的总数量(由于每张图平均有21个标注三元组，因此很少出现k《n的情况)。
[0074]
相对应地，本发明在visual genome数据集上的场景图分类效果如表1所示：
[0075]
表1.本发明在visual genome数据集上的场景图分类效果
[0076][0077][0078]
特别地，本发明采用了关系敏感的消息传递网络作为物体识别模块，对于该模块进行了消融实验。以2.1)中公式为基础，将转换矩阵wr(i,j)改为非关系类别敏感的共享转换矩阵wr，并以全连接的场景图作为消息传递网络的输入图，可得基准方法“全连接消息传递网络”。实验结果如下：
[0079][0080]
可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本技术的权利要求范围内的实施例都属于本发明所保护的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种基于交替迭代优化的场景图生成装置和方法

相关文献

最热文献