交互关系检测方法、交互关系检测模型训练方法及装置与流程

2021-11-15 17:53:00 来源：中国专利 TAG：

技术特征：
1.一种交互关系检测方法，其特征在于，包括：获取目标图像，所述目标图像包含第一类型的目标和第二类型的目标；通过交互关系检测模型中的特征提取网络对所述目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系；通过交互关系检测模型中的交互关系检测网络，对所述多个特征向量进行交互关系检测，得到交互关系检测结果，所述交互关系检测结果包括第一类型的目标所在的检测框、第二类型的目标所在的检测框、表征第一类型的目标具体类别的第一标识词、表征第二类型的目标具体类别的第二标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三标识词中的至少一者；所述交互关系检测模型是对待训练交互关系检测模型进行训练得到的，用于训练所述待训练交互关系检测模型的至少部分样本图像在标签空间经过数据增强。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取训练集，所述训练集包括带有标签的多个样本图像，所述多个样本图像的至少部分样本图像在标签空间经过数据增强；利用所述训练集训练待训练交互关系检测模型，得到所述交互关系检测模型；其中，所述待训练交互关系检测模型包括待训练特征提取网络、待训练交互关系检测网络和待训练词向量生成网络；所述待训练特征提取网络用于对所述样本图像进行特征提取，得到多个样本特征向量；所述待训练交互关系检测网络用于对所述多个样本特征向量进行交互关系检测，得到样本交互关系预测结果；所述待训练词向量生成网络用于基于所述样本特征向量，得到样本词向量预测结果。3.根据权利要求2所述的方法，其特征在于，每张样本图像带有交互关系标签和词向量生成标签；所述交互关系标签包括第一类型的目标所在的真实检测框、第二类型的目标所在的真实检测框、表征第一类型的目标具体类别第一真实标识词、表征第二类型的目标具体类别的第二真实标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三真实标识词中的至少一者；所述方法还包括：获取所述多个样本图像中第一样本图像的第一交互关系标签；确定所述第一交互关系标签中的增强标识词，所述增强标识词包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中的至少一者；基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签；所述增强标识词的备选标识词包括所述增强标识词自身和/或所述增强标识词所对应的近似词。4.根据权利要求3所述的方法，其特征在于，所述基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签的步骤，包括：
对于每个增强标识词，从所述增强标识词所对应的备选标识词中选取至少一个词作为该增强标识词对应的生成标识词；根据各增强标识词对应的生成标识词，确定所述第一样本图像对应的生成标识词组合；根据所述第一样本图像对应的生成标识词组合，确定第一样本图像对应的词向量生成标签。5.根据权利要求4所述的方法，其特征在于，所述根据增强标识词对应的生成标识词，确定所述第一样本图像对应的生成标识词组合的步骤，包括：根据增强标识词对应的生成标识词和非增强标识词，确定所述第一样本图像对应的生成标识词组合；所述非增强标识词为包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中未作为增强标识词的标识词。6.根据权利要求4或5所述的方法，其特征在，所述从所述增强标识词所对应的备选标识词中选取至少一个词作为该增强标识词对应的生成标识词的步骤，包括：以选取所述增强标识词作为生成标识词的概率为p，选取任一目标近似词作为生成标识词的概率为1
‑
p，从所述增强标识词所对应的备选标识词中选取一个词作为该增强标识词对应的生成标识词；所述目标近似词包括所述增强标识词所对应的全部近似词，或者所述增强标识词所对应的近似词中未被选取为所述增强标识词的生成标识词的近似词。7.根据权利要求3所述的方法，其特征在于，所述基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签的步骤，包括：根据所述第一样本图像对应的每个所述增强标识词的备选标识词，对不同增强标识词的备选标识词进行组合，得到所述第一样本图像对应的备选标识词组合；选取至少一个备选标识词组合作为所述第一样本图像的目标备选标识词组合；针对每个目标备选标识词组合，根据所述第一样本图像对应的非增强标识词，以及所述目标备选标识词组合中包含的备选标识词，确定所述目标备选标识词组合对应的生成标识词组合，得到所述第一样本图像对应的至少一个生成标识词组合；所述非增强标识词为包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中未作为增强标识词的标识词。8.根据权利要求3
‑
7任一项所述的方法，其特征在于，利用所述训练集训练待训练交互关系检测模型，包括：将所述样本图像输入至所述待训练交互关系检测模型，获得待训练交互关系检测网络输出的样本交互关系预测结果，和待训练词向量生成网络输出的样本词向量预测结果；根据所述样本交互关系预测结果以及所述样本图像的交互关系标签计算第一损失；根据所述样本词向量预测结果以及所述样本图像的词向量生成标签计算第二损失；根据第一损失和第二损失更新所述待训练交互关系检测模型的参数。9.根据权利要求8所述的方法，其特征在于，所述待训练交互关系检测模型的损失为l
total
＝l1 α*l2，其中，l1为所述第一损失，l2为所述第二损失，α为参数，α的取值为0.1；
第二损失l2＝l
distilling
β*l
triplet
，l
distilling
为蒸馏损失函数，l
triplet
根据当前输入的样本图像的样本词向量预测结果与其对应的正样本图像的样本词向量预测结果之间的距离，当前输入的样本图像的样本词向量预测结果与其对应的负样本图像的样本词向量预测结果的距离确定得到，以将局部范围内相似但不同的样本词向量预测结果推远，所述样本图像对应的正样本图像为与所述样本图像包含至少一个相同的目标标识词组合的其他样本图像，所述样本图像对应的负样本图像为除所述样本图像及其对应的正样本图像之外的其他样本图像，目标标识词组合包括表征第一类型的目标和第二类型的目标之间的交互关系类别的第三真实标识词，以及该第三真实标识词对应的表征第一类型的目标具体类别的第一真实标识词、表征第二类型的目标具体类别的第二真实标识词的至少一种；β为参数，β的取值为10。10.一种交互关系检测模型训练方法，其特征在于，所述方法包括：获取训练集，所述训练集包括带有标签的多个样本图像，所述多个样本图像的至少部分样本图像在标签空间经过数据增强；利用所述训练集训练待训练交互关系检测模型，得到所述交互关系检测模型；其中，所述待训练交互关系检测模型包括待训练特征提取网络、待训练交互关系检测网络和待训练词向量生成网络；所述待训练特征提取网络用于对所述样本图像进行特征提取，得到多个样本特征向量；所述待训练交互关系检测网络用于对所述多个样本特征向量进行交互关系检测，得到样本交互关系预测结果；所述待训练词向量生成网络用于基于所述样本特征向量，得到样本词向量预测结果。11.一种在标签空间进行数据增强的方法，其特征在于，所述方法包括：获取所述多个样本图像中第一样本图像的第一交互关系标签；确定所述第一交互关系标签中的增强标识词，所述增强标识词包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中的至少一者；基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签，得到标签空间经过数据增强的第一样本图像；所述增强标识词的备选标识词包括所述增强标识词自身和/或所述增强标识词所对应的近似词。12.一种交互关系检测装置，其特征在于，包括：图像获取模块，用于获取目标图像，所述目标图像包含第一类型的目标和第二类型的目标；特征提取模块，用于通过交互关系检测模型中的特征提取网络对所述目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系；交互关系检测模块，用于通过交互关系检测模型中的交互关系检测网络，对所述多个特征向量进行交互关系检测，得到交互关系检测结果，所述交互关系检测结果包括第一类型的目标所在的检测框、第二类型的目标所在的检测框、表征第一类型的目标具体类别的第一标识词、表征第二类型的目标具体类别的第二标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三标识词中的至少一者；
所述交互关系检测模型是对待训练交互关系检测模型进行训练得到的，用于训练所述待训练交互关系检测模型的至少部分样本图像在标签空间经过数据增强。13.一种交互关系检测模型训练装置，其特征在于，所述装置包括：训练集获取模块，用于获取训练集，所述训练集包括带有标签的多个样本图像，所述多个样本图像的至少部分样本图像在标签空间经过数据增强；模型训练模块，用于利用所述训练集训练待训练交互关系检测模型，得到所述交互关系检测模型；其中，所述待训练交互关系检测模型包括待训练特征提取网络、待训练交互关系检测网络和待训练词向量生成网络；所述待训练特征提取网络用于对所述样本图像进行特征提取，得到多个样本特征向量；所述待训练交互关系检测网络用于对所述多个样本特征向量进行交互关系检测，得到样本交互关系预测结果；所述待训练词向量生成网络用于基于所述样本特征向量，得到样本词向量预测结果。14.一种在标签空间进行数据增强的装置，其特征在于，所述装置包括：标签获取模块，用于获取所述多个样本图像中第一样本图像的第一交互关系标签；增强标识词确定模块，用于确定所述第一交互关系标签中的增强标识词，所述增强标识词包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中的至少一者；标签生成模块，用于基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签，得到标签空间经过数据增强的第一样本图像；所述增强标识词的备选标识词包括所述增强标识词自身和/或所述增强标识词所对应的近似词。15.一种电子设备，其特征在于，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1
‑
8中的任一项所述的交互关系检测方法、权利要求10所述的交互关系检测模型训练方法、权利要求11所述的在标签空间进行数据增强的方法中的至少一种。16.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1
‑
9中的任一项所述的交互关系检测方法、权利要求10所述的交互关系检测模型训练方法、权利要求11所述的在标签空间进行数据增强的方法中的至少一种。

技术总结
本发明公开了一种交互关系检测方法、交互关系检测模型训练方法和装置，所述方法包括：获取目标图像，目标图像包含第一类型的目标和第二类型的目标；通过交互关系检测模型中的特征提取网络对目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系；通过交互关系检测模型中的交互关系检测网络，对多个特征向量进行交互关系检测，得到交互关系检测结果；交互关系检测模型是对待训练交互关系检测模型进行训练得到的，用于训练待训练交互关系检测模型的至少部分样本图像在标签空间经过数据增强。空间经过数据增强。空间经过数据增强。

技术研发人员：邹城李伯勋张弛
受保护的技术使用者：北京旷视科技有限公司
技术研发日：2021.07.15
技术公布日：2021/11/14

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于强表示深度哈希的跨模态检索模型的制作方法

交互关系检测方法、交互关系检测模型训练方法及装置与流程

相关文献

最热文献