一种图像文本匹配的方法

2022-07-13 16:51:01 来源：中国专利 TAG：

1.本发明涉及智能匹配技术领域，具体涉及一种在图像、文本多模态数据中根据一种模态匹配另一种模态的方法。

背景技术：

2.在日常生活中，尤其是在访问互联网资源的过程中，图像和文本是非常重要的两个模态。图像的搜索通常离不开文本描述，而根据图像匹配到与其语义信息相近的文本对于相似图像的查找也具有指导作用，因此图像文本匹配，即计算图像、文本间相似度的方法非常重要。传统的方法不仅需要保存大量除数据本身之外的关系数据，同时也不能很好地应对处于动态变化的数据，而且每一次计算耗时很长，对于有实时性要求的场景也不适用。基于深度学习的图像文本匹配方法通过分别提取图像与文本的特征，对特征进行对齐后进行相似性的计算，在经过大量数据集的监督训练后，得到的模型可以快速准确地在待处理数据中找出与图像匹配的文本或与文本匹配的图像。目前对于图像文本匹配的深度学习方法已经有很多的技术，但是基本都存在不能全面考虑整体与局部的匹配的问题，而且对于图像中关键目标尺寸差距较大的情况也很少有人关注。
3.因此，如何提供一种可以对图像和文本之间进行多尺度特征以及更全面的相似性度量匹配方法是本领域技术人员亟需解决的问题。

技术实现要素：

4.有鉴于此，本发明提出一种基于深度学习和多模态学习的图像特征、文本特征提取，并进行整体和局部相似度匹配的方法。
5.为了实现上述目的，本发明采用如下技术方案：
6.一种图像文本匹配的方法，包括构建模型步骤和模型匹配步骤：
7.所述构建模型步骤包括：
8.s1、利用深度神经网络分别提取多尺度的图像特征和文本特征，所述图像与文本为有匹配标注的数据；
9.s2、利用自注意力机制方法计算图像多尺度特征和文本多尺度特征的多个尺度的全局相似性；
10.s3、在图像多尺度特征和文本多尺度特征之间依次进行节点级匹配和结构级匹配，利用结构级匹配结果计算多个尺度的局部相似性；
11.s4、根据计算出的多个尺度的全局相似性和局部相似性计算最终总相似性；
12.s5、重复s2-s4进行监督学习模型训练，根据损失函数更新模型参数，得到训练后的模型；
13.模型匹配步骤：
14.s6、利用训练后的模型计算输入图像和文本的最终总相似性，根据最终总相似性大小得到匹配的文本或图像。
15.优选的，所述s1包括图像多尺度特征提取步骤：
16.将图像输入至faster r-cnn模型，识别得到若干个图像区域的检测框；
17.利用resnet模型对所述检测框对应的图像区域进行编码，得到提取的视觉特征；
18.将所述视觉特征分别通过输出维度为n个尺度的全连接层，输出的矩阵即为图像多尺度特征，n∈n 。
19.优选的，所述s1包括文本多尺度特征提取步骤：
20.通过赋予每个单词一个唯一的编号，从而对句子进行单词级令牌化，获得句子向量；
21.将所述句子向量嵌入到多维的向量空间后通过双向gru得到文本特征向量；所述双向gru设置有n个，输出n个尺度的文本特征向量。
22.优选的，所述s3中的节点级匹配为将图像与句子中的单词进行匹配的步骤，包括：
23.将图像特征t与文本特征v进行融合，然后沿着视觉轴计算softmax函数，得到相似矩阵，即w＝softmax(λtv
t
)，λ为温度参数；
24.将所述相似矩阵作为权重参数将所有图像特征整合为加权的图像特征；
25.利用余弦相似性度量方法计算加权的图像特征与文本特征的相似性，得到节点级匹配结果。
26.优选的，所述s3中的结构级匹配为将图像与句子中的短语进行匹配的步骤，包括：
27.解析文本句子中各单词之间的语义依赖性，将文本特征构建为一个无向稀疏图，有依赖关系的单词节点记为相邻节点；
28.计算得到单词表示之间的相似矩阵，得到无向稀疏图中边的权重；
29.利用图卷积神经网络整合相似矩阵表征的邻域匹配向量，更新相似矩阵中的节点。
30.优选的，所述s3中利用结构级匹配结果计算局部相似性具体包括：将图卷积神经网络的结果送入全连接层并计算l
2-范数即可得到局部相似性。
31.优选的，所述s4包括：
32.将所述全局相似性和所述局部相似性拼接为一个矩阵后送入全连接层，得到一个尺度下的总相似性；
33.对多个尺度下的总相似性进行加权求和，得到最终总相似性。
34.优选的，所述s6的模型输出为：一个行数等于图像数/文本数，相应的列数等于文本数/图像数的矩阵，矩阵中的每个值即代表该值所在行代表的图像/文本与该值相应的所在列代表的文本/图像计算得到的相似性。
35.经由上述的技术方案可知，与现有技术相比，本发明的有益效果包括：
36.本发明可以在网络训练完成的前提下更快速地找出匹配的图像或文本；对比已有深度学习技术，可以利用原始数据的多尺度特征以及更全面的相似性度量方法得到更准确的结果。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图；
38.图1为本发明实施例提供的图像文本匹配的方法的流程图；
39.图2为本发明实施例提供的训练数据示意图；
40.图3为本发明实施例提供的图像区域目标检测示意图；
41.图4为本发明实施例提供的根据图像匹配文本结果示意图；
42.图5为本发明实施例提供的根据文本匹配图像结果示意图。
具体实施方式
43.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
44.参见附图1，本发明提供了一种图像文本匹配的方法，基于多尺度的特征提取和多尺度的相似性计算，具体包括构建模型步骤和模型匹配步骤：
45.构建模型步骤包括：
46.s1、利用深度神经网络分别提取多尺度的图像特征和文本特征，图像与文本为有匹配标注的数据。
47.本步骤在具体实施时，图像与文本进行匹配标注的目的是建立训练数据集，训练数据集体现与训练图像具有相似性关联的训练文本，用于模型的监督训练，每张图像包含5条描述语句，图像与文本对应实例参见附图2所示。
48.在一个实施例中，图像多尺度特征提取步骤如下：
49.将图像输入至faster r-cnn模型，识别得到若干个图像区域的检测框；
50.利用resnet模型对检测框对应的图像区域进行编码，得到提取的视觉特征；
51.将视觉特征分别通过输出维度为n个尺度的全连接层，输出的矩阵即为图像多尺度特征，n∈n 。
52.在具体执行时：对于图像特征，使用在visual genomes上预训练的faster r-cnn模型，识别到包含实体和属性的36个图像区域，参见附图3所示，上面两个子图分别为原图和识别到的所有图像区域，下面的六个子图是从中挑选出的六个样例，可以看出，识别的区域不仅包含了影子、毛发等实体，还有颜色等属性。然后使用resnet模型对得到的36个检测框对应的图像区域进行编码，得到提取的视觉特征。为了得到多尺度特征，将视觉特征分别通过输出维度为128，256，512，1024(即四个尺度)的全连接层，输出的矩阵即为图像多尺度特征。
53.在一个实施例中，文本多尺度特征提取步骤如下：
54.通过赋予每个单词一个唯一的编号，从而对句子进行单词级令牌化，获得句子向量；
55.将句子向量嵌入到多维的向量空间后通过双向gru得到文本特征向量；双向gru设置有n个，输出n个尺度的文本特征向量。
56.在具体执行时：对于文本特征，首先需要对句子进行单词级令牌化。统计出数据集
中所有的单词，给定每个单词一个独一无二的编号，建立单词-编号的索引表。通过将句子中的单词替换为编号可以将句子编码为数字矩阵，同时由于后续使用到了rnn网络，因此还需要对每个句子首尾添加开始、结束对应编号。将得到的每个句子向量嵌入到300维的向量空间后通过双向gru得到两个编码后的向量，求这两个向量的平均值后得到文本特征向量。为了与图像多尺度特征进行匹配，双向gru网络有4个，输出维度同样为128、256、512和1024。
57.s2、利用自注意力机制方法计算图像多尺度特征和文本多尺度特征的多个尺度的全局相似性。
58.在一个实施例中，对于视觉特征和文本特征来说，首先需要利用自注意力机制来分别计算出全局特征向量。对于两个向量相似度的计算最常用的方法是使用余弦相似性度量，但是为了使模型能够学习到更复杂的匹配，因此采用了带参数的相似性计算方法，即x和y分别代表视觉特征和文本特征，w为可学习参数，|
·
|2表示逐元素平方，‖
·
‖2表示l
2-范数，得到的结果即全局相似性。
59.s3、在图像多尺度特征和文本多尺度特征之间依次进行节点级匹配和结构级匹配，利用结构级匹配结果计算多个尺度的局部相似性。
60.本步骤可以将局部相似性计算分为节点级匹配和结构级匹配两部分。
61.在一个实施例中，节点级匹配为将图像与句子中的单词进行匹配的步骤，包括：
62.将图像特征t与文本特征v进行融合，然后沿着视觉轴计算softmax函数，得到相似矩阵，即w＝softmax(λtv
t
)，λ为温度参数，得到的相似矩阵结果可以衡量图像对每个文本的相似程度；
63.将相似矩阵作为权重参数将所有图像特征整合为加权的图像特征；
64.利用余弦相似性度量方法计算加权的图像特征与文本特征的相似性，得到节点级匹配结果。
65.在一个实施例中，结构级匹配为将图像与句子中的短语进行匹配的步骤，结构级匹配将节点级匹配的结果作为输入，学习细粒度的短语对应关系。包括：
66.使用stanford corenlp工具包解析句子中各单词之间的语义依赖性，将文本特征构建为一个无向稀疏图，有依赖关系的单词节点记为相邻节点；使用矩阵表示每个节点的相邻矩阵，每个节点与其本身也是相邻的。
67.通过使用softmax函数可以计算得到单词表示之间的相似矩阵记为s
ij
＝softmax(λuiuj)，ui、uj分别代表单词i和j，得到无向稀疏图中边的权重，稀疏图中边的权重可以通过l
2-范数求得；
68.利用图卷积神经网络整合相似矩阵表征的邻域匹配向量，更新相似矩阵中的节点。
69.在一个实施例中，利用结构级匹配结果计算局部相似性具体包括：将图卷积神经网络的结果送入全连接层并计算l
2-范数即可得到局部相似性。
70.s4、根据计算出的多个尺度的全局相似性和局部相似性计算最终总相似性。
71.在一个实施例中，将全局相似性和局部相似性拼接为一个矩阵后送入全连接层，得到一个尺度下的总相似性，拼接规则是将(1,n)维向量加到(n,n)维矩阵后面变成(n 1,
n)维矩阵；对多个尺度下的总相似性进行加权求和，得到最终总相似性。其中，本实施例分配给四个尺度的权重分别为0.125、0.25、0.5和1。
72.s5、重复s2-s4进行监督学习模型训练，根据损失函数更新模型参数，得到训练后的模型。
73.本实施例采用的损失函数为三元组损失。当查询的类型是图像i时，在匹配的文本中采样得到t，在不匹配的文本中采样得到t
′
；对称的，对于查询为文本t时，采样得到匹配的图像i和不匹配的图像i
′
。为了最小化损失函数可以达到匹配的图像-文本对相似性得分高、不匹配的图像-文本对相似性得分低的目的，设计损失函数如下：
[0074][0075]
s(.,.)表示本发明实施例建立的相似性计算模型，[
·
]

表示对表达式进行max(
·
,0)操作，α为边际值，设为0.2。本实施例采用的方法为监督学习，因此训练时需要大量监督数据，即图像与文本有匹配标注的数据。每次重复执行步骤二到步骤四时，根据训练机器gpu显存的大小处理一部分数据，每次循环根据损失函数反向传播来更新模型参数，将全部数据送入网络一次后记为循环一次，直到达到指定循环轮次后停止训练。本实施例将每次训练处理的图像数设为64，训练一共持续40轮，并且采用动态学习率防止学习不稳定，在前30轮损失函数为0.002，后10轮损失函数设为0.0002。每轮训练结束后都会将模型在一个小型带标注数据集(验证集)上进行验证，最后训练完成后选择验证集上表现最好的模型作为最终的训练结果。
[0076]
模型匹配步骤：
[0077]
s6、利用训练后的模型计算输入图像和文本的最终总相似性，根据最终总相似性大小得到匹配的文本或图像。
[0078]
在一个实施例中，对模型进行测试即是模拟模型在实际使用过程中的表现。选择在训练集以外的图像和文本作为模型输入，模型输出为：一个行数等于图像数/文本数，相应的列数等于文本数/图像数的矩阵，矩阵中的每个值即代表该值所在行代表的图像/文本与该值相应的所在列代表的文本/图像计算得到的相似性。若要计算某一图像匹配的文本即可将矩阵中图像对应的行排序，值最大的列所代表的文本就是计算得到的最匹配的文本，与此相对也可以计算出与某一文本匹配的图像。
[0079]
为了证明本发明匹配效果的优异性，下面结合具体图像文本匹配结果进行对比说明：
[0080]
附图4为两个根据图像匹配文本的示例，五条语句分别代表计算出的与该图像最相似的文本，可以看出，使用本发明匹配的结果，对于两幅图像都成功与正确的文本计算出了最高的相似性，对于错误的第二张图像的第五条语句也可以证明本发明成功捕捉到了“dog”这个实体。
[0081]
附图5为两个根据文本匹配图像的示例，因为数据集的标注中一条语句只对应一张图像，因此除了与标注对应的图像标为正确之外，其余四张图像都标为错误，但是也可以发现其余图像里有“toilet”、“bathroom”、“dirtbike”或“wine bottle”与文本对应。
[0082]
以上对本发明所提供的图像文本匹配的方法进行了详细介绍，本实施例中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本
发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。
[0083]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本实施例中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本实施例所示的这些实施例，而是要符合与本实施例所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于地理位置信息的智能物流调度管理方法、系统与流程

一种图像文本匹配的方法

相关文献

最热文献