一种基于三分图模型的图像块和标签匹配方法及系统

2022-06-08 12:14:26 来源：中国专利 TAG：

1.本发明属于图像块和标签匹配技术领域，尤其涉及一种基于三分图模型的图像块和标签匹配方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.近年来，众多用户每天在社交网站上分享图像。因此，越来越需要对图像的语义进行有效理解，这对提高图像检索、推荐和管理的性能大有裨益。由于对图像语义理解极其重要，图像标注在计算机视觉领域引起了越来越多的研究兴趣。
4.图像标注可以由机器或人类完成，但是，人工执行此类任务存在耗时、成本高且存在一定的歧义的问题。例如，由于教育背景、思维方式甚至生活经历的不同，不同的人对同一幅图像中的某个对象的理解可能完全不同。机器进行图像标注任务面临两大挑战：第一个是缩小低级视觉特征和高级语义标签之间的语义鸿沟；第二个是在训练数据中学习标签和图像区域之间的对应关系，然而，传统方法在不分析细粒度数据中的对应关系的情况下为整幅图像分配多个标签。

技术实现要素：

5.为了解决上述背景技术中存在的技术问题，本发明提供一种基于三分图模型的图像块和标签匹配方法及系统，构建了一个三分图模型，通过信息扩散来充分发现图像块和标签之间的内部联系。
6.为了实现上述目的，本发明采用如下技术方案：
7.本发明的第一个方面提供一种基于三分图模型的图像块和标签匹配方法，其包括：
8.获取图像集及其对应的标签集；
9.将图像集中的每幅图像分成若干图像块，对所有图像块进行聚类，将每个簇的质心作为一个视觉词，得到视觉词集；
10.基于图像集和视觉词集，得到视觉词-图像二分图；基于图像集和标签集，得到图像-标签二分图；将所述视觉词-图像二分图和所述图像-标签二分图组合为三分图模型；
11.基于三分图模型，计算视觉词与标签的相关性矩阵；
12.对于每幅图像，基于视觉词与标签的相关性矩阵，构建排序矩阵，并基于排序矩阵，匹配每幅图像中的所有图像块的标签。
13.进一步的，所述视觉词-图像二分图中的每个元素表示图像集中的一幅图像与视觉词集中的一个视觉词之间的包含关系。
14.进一步的，所述图像-标签二分图中的每个元素表示图像集中的一幅图像与标签集中的一个标签之间的包含关系。
15.进一步的，所述基于排序矩阵，匹配每幅图像中的所有图像块的标签的具体方法为：
16.对于某幅图像，将排序矩阵内的所有元素进行升序排列，得到索引排序向量；
17.基于索引排序向量和排序矩阵，构造初始视觉词-标签匹配矩阵；
18.按照两个规则，对初始视觉词-标签匹配矩阵进行扫描，得到视觉词与标签的最终匹配矩阵，结合该图像的每个图像块对应的视觉词，得到每个图像块的标签。
19.进一步的，所述初始视觉词-标签匹配矩阵中的第一列的第i个元素代表为索引排序向量中的第i个元素在排序矩阵的行下标，初始视觉词-标签匹配矩阵中的第二列的第i个元素代表为索引排序向量中的第i个元素在排序矩阵的列下标。
20.进一步的，所述两个规则包括：每个视觉词只匹配一次；每个标签所分得的视觉词不能超过标签所能分到的视觉词的数量。
21.进一步的，所述每个标签所能分到的视觉词的数量依据标签的数量和视觉词的数量计算得到。
22.本发明的第二个方面提供一种基于三分图模型的图像块和标签匹配系统，其包括：
23.数据获取模块，其被配置为：获取图像集及其对应的标签集；
24.视觉词集构建模块，其被配置为：将图像集中的每幅图像分成若干图像块，对所有图像块进行聚类，将每个簇的质心作为一个视觉词，得到视觉词集；
25.三分图模型构建模块，其被配置为：基于图像集和视觉词集，得到视觉词-图像二分图；基于图像集和标签集，得到图像-标签二分图；将所述视觉词-图像二分图和所述图像-标签二分图组合为三分图模型；
26.相关性矩阵构建模块，其被配置为：基于三分图模型，计算视觉词与标签的相关性矩阵；
27.标签匹配模块，其被配置为：对于每幅图像，基于视觉词与标签的相关性矩阵，构建排序矩阵，并基于排序矩阵，匹配每幅图像中的所有图像块的标签。
28.本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于三分图模型的图像块和标签匹配方法中的步骤。
29.本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于三分图模型的图像块和标签匹配方法中的步骤。
30.与现有技术相比，本发明的有益效果是：
31.本发明提供了一种基于三分图模型的图像块和标签匹配方法，其通过学习图像与一组标签之间的相关性，从而为细粒度图像提供标签标注，很好地模仿了人类的思维方式，在观察图像时，首先关注感兴趣的部分区域，因此本发明通过深入分析图像块和标签之间的相关性来提供标签标注，并充分捕获视觉和语言模态之间的共享和互补信息。
附图说明
32.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示
意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
33.图1是本发明实施例一的三分图模型的示意图；
34.图2是本发明实施例一的相关性矩阵构建的流程图；
35.图3是本发明实施例一的图像块-标签对生成示意图；
36.图4是本发明实施例一的corel5k图像集的图像块标注准确率结果图；
37.图5是本发明实施例一的nus wide 25k图像集的图像块标注准确率结果图；
38.图6是本发明实施例一的nus wude 5k图像集的图像块标注准确率结果图。
具体实施方式
39.下面结合附图与实施例对本发明作进一步说明。
40.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
41.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
42.实施例一
43.本实施例提供了一种基于三分图模型的图像块和标签匹配方法，构建了一个三分图模型，通过信息扩散来充分发现图像块和标签之间的内部联系，具体包括以下步骤：
44.步骤1、获取图像集及其对应的标签集，将图像集中的每幅图像分成若干块，对所有图像块进行聚类，将每个簇的质心作为一个视觉词，得到视觉词集；基于图像集和视觉词集，得到视觉词-图像二分图；基于图像集和标签集，得到图像-标签二分图；将所述视觉词-图像二分图和所述图像-标签二分图组合为三分图模型；基于三分图模型，计算视觉词与标签的相关性矩阵。
45.具体的，训练数据集中的每幅图像都被分成v*v块图像块，然后对所有图像块进行聚类，每个簇的质心被视为一个视觉词，一个簇的质心为该簇内所有图像块对应的视觉词，每个图像块被表示为距离它最近的视觉词。因此，三分图模型包含三种类型的元素：视觉词、图像和标签。设为一组视觉词，为一组图像，是一组标签。三分图模型可以描述为两个相邻矩阵和分别代表视觉词-图像二分图和图像-标签二分图，其中，视觉词-图像二分图中的每个元素表示图像集中的一幅图像与视觉词集中的一个视觉词之间的包含关系，即如果第j幅图像ij包含第i个视觉词vi，则a
ij
∈ma(位于ma的第i行和第j列的元素)设为1，否则a
ij
＝0；同理，图像-标签二分图中的每个元素表示图像集中的一幅图像与标签集中的一个标签之间的包含关系，即如果第k个标签tk标注了第j幅图像ij，则b
jk
∈mb设为1，否则b
jk
＝0。
46.如图1所示，该图为具有41个视觉词、10幅图像和11个标签的视觉词-图像-标签三
分图模型。为了有效挖掘视觉词、图像和标签之间的关系，本发明提出了一种两阶段信息扩散方法，将每个视觉词或标签量化为一个向量，构建向量集合，通过三分图扩散更新向量集合。
47.对于目标视觉词vg，定义初始以图像为起源的向量集合为即ma矩阵的第g行。在视觉词-图像二分图上经过第一阶段的信息扩散后，从视觉词扩散的起源向量定义为每个视觉词vi从其所属的图像中分配的起源值vri计算如下：
[0048][0049]
其中，是第j维表示ij的相邻视觉词的个数。同理，在图像-标签二分图上经过第一阶段的信息扩散后，从视觉词扩散的起源向量定义为每个标签tk从它所属的图像中分配的起源值trk计算如下：
[0050][0051]
其中，是指ij的相邻标签的个数。那么，信息扩散第二阶段更新的第j维如下。
[0052][0053]
其中和分别指的是vi和tj的相邻图像的数量。
[0054]
目标视觉词vg对应更新后的图像起源向量为对于目标标签t
p
,设置初始图像起源向量为即mb的第p列。与目标视觉词的图像起源向量计算过程类似，可以得到目标标签t
p
对应更新后的图像起源向量接下来，使用欧氏距离估计vg和t
p
之间的相关性如下。
[0055][0056]
记录视觉词和标签相关性的矩阵表示为vt
gp
是vt的第g行和第p列。
[0057]
如图2所示，离线计算旨在构建矩阵vt，在离线计算中，将训练数据集中的图像预
标签”对{(p
x
,ty)∣x∈{1,2,
…
,m},y∈{1,2,
…
,m}}，其中p
x
和ty相互匹配。
[0064]
对于三分图构造的时间复杂度，构建矩阵vt(离线训练计算模块)需要时间；推断图像块和标签(在线推断计算)之间的对应关系需要的时间；对于和可知在线推断计算模块运行速度非常快。
[0065]
如图4、图5和图6所示，分别为corel5k、nus wide 25k和nus wide 5k图像集的图像块标注准确率。
[0066]
本发明提出了一种细粒度对应关系推断法，该方法是一种基于三分图模型的无监督算法，用于匹配细粒度的图像和标签。
[0067]
实施例二
[0068]
本实施例提供了一种基于三分图模型的图像块和标签匹配系统，其具体包括如下模块：
[0069]
数据获取模块，其被配置为：获取图像集及其对应的标签集；
[0070]
视觉词集构建模块，其被配置为：将图像集中的每幅图像分成若干图像块，对所有图像块进行聚类，将每个簇的质心作为一个视觉词，得到视觉词集；
[0071]
三分图模型构建模块，其被配置为：基于图像集和视觉词集，得到视觉词-图像二分图；基于图像集和标签集，得到图像-标签二分图；将所述视觉词-图像二分图和所述图像-标签二分图组合为三分图模型；
[0072]
相关性矩阵构建模块，其被配置为：基于三分图模型，计算视觉词与标签的相关性矩阵；
[0073]
标签匹配模块，其被配置为：对于每幅图像，基于视觉词与标签的相关性矩阵，构建排序矩阵，并基于排序矩阵，匹配每幅图像中的所有图像块的标签。
[0074]
此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。
[0075]
实施例三
[0076]
本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于三分图模型的图像块和标签匹配方法中的步骤。
[0077]
实施例四
[0078]
本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于三分图模型的图像块和标签匹配方法中的步骤。
[0079]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0080]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0081]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0082]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0083]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0084]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：文本处理方法、装置、电子设备和存储介质与流程

一种基于三分图模型的图像块和标签匹配方法及系统

相关文献

最热文献