一种多模态复合编码图像检索方法和系统与流程

2022-02-21 09:24:44 来源：中国专利 TAG：

1.本发明涉及计算机应用领域，尤其涉及一种多模态复合编码图像检索方法和系统。

背景技术：

2.图像检索技术在各种领域得到了广泛的应用，如商品搜索，视频内容理解等。但是由于图像的多样性，图像内容的复杂性，高效准确的图像检索方法的研究一直以来是机器视觉领域重要的研究课题。
3.目前，图像检索的技术流程主要为三步：特征的提取，特征编码以及数据库的索引。根据特征的不同，图像检索一般分为基于文本的检索和基于图像内容的检索，这两种技术也得到了广泛的应用与研究。基于文本的检索一般是对图像进行各维度属性的标记，检索时只能匹配具有相同属性的图像，准确性较高但泛化性能较差，而且需提前对大量图像进行人工标注，时间成本较高。基于图像内容的检索则利用图像语义为线索进行处理，以图像处理技术为基础完成图像低、高维特征的提取，并进行匹配，可检索存在相同或者相似特性的图像，具备一定的泛化性能，人工参与较少；但基于图像特征的多样性复杂性，可能存在大量的误匹配，例如当图像中存在相同类别但非相同目标图像时就很难进行区分。另外，通过提前对图像进行文本语义标注，完成图像内容的文本描述，应用起来标注成本较高，维护难度大。

技术实现要素：

4.鉴于以上所述现有技术的缺点，本发明提供一种多模态复合编码图像检索方法和系统，以解决上述技术问题。
5.本发明提供的多模态复合编码图像检索方法，包括：
6.获取待检索信息，并判定待检索信息的数据类型；
7.根据所述待检索信息的数据类型选择进行粗粒度检索或细粒度检索，所述细粒度检索包括当输入的待检索信息同时包括图像和文本描述数据时，通过对两种特征进行融合，获取复合特征，进而通过所述复合特征进行数据检索，获取目标数据；所述粗粒度检索包括当输入的待检索信息包括图像或文本描述数据之一时，根据对应的特征进行数据检索，获取目标数据。
8.于本发明的一实施例中，预先建立识别模型并进行训练，所述识别模型包括用于图像描述生成的第一模型、用于文本处理的第二模型，以及用于多模态特征提取的第三模型；
9.通过所述第一模型对输入的图像数据进行处理，获取第一输出结果，所述第一输出结果包括图像特征编码以及图像内容的文本描述；
10.通过所述第二模型对输入的文本数据和/或第一模型输出的所述图像内容的文本描述进行处理，获取第二输出结果；
11.当输入的待检索信息为文本描述时，通过所述第二模型的输出结果进行所述粗粒度检索；
12.当输入的待检索信息为图像时，通过所述第一输出结果中的图像特征编码进行所述粗粒度检索，或者，将第一输出结果中的图像内容的文本描述输入至第二模型，通过第一输出结果中的图像特征编码和第二输出结果进行细粒度检索；
13.当同时输入的图像和文本描述时，将图像输入至第一模型，将文本描述输入至第二模型，再将各自的输出结果同时输入至所述第三模型，根据第三模型的输出结果进行所述细粒度检索。
14.于本发明的一实施例中，所述第二输出结果包括文本特征的文本编码，当输入的文本数据和/或第一模型输出的所述图像内容的文本描述包括多个句子时，所述文本编码为包括句子全局特征和局部特征的混合编码。
15.于本发明的一实施例中，通过所述第二模型对输入的文本数据和/或第一模型输出的所述图像内容的文本描述进行处理，获取包含文本特征的文本编码包括：
16.获取句子向量，并将所述句子向量作为混合编码的句编码部分；
17.对所述多个句子进行词性标注，并进行命名实体识别，获取用于与检索相关词性的词语，及词向量，并将所述词向量作为混合编码的词编码部分；
18.通过所述句编码部分和词编码部分，获取包含句子全局特征和局部特征的混合编码；
19.所述句编码部分和词编码部分均作为检索特征。
20.于本发明的一实施例中，所述通过对两种特征进行融合，获取复合特征包括：
21.根据第一模型和第二模型对输出结果，对图像特征和文本特征进行拼接，获取特征矩阵，完成初步融合；
22.通过一特殊卷积对所述特征矩阵进行注意力机制处理，获取新特征矩阵；
23.通过对所述新特征矩阵与原始特征矩阵进行通道融合，完成最终融合。
24.于本发明的一实施例中，通过一特殊卷积对所述特征矩阵进行注意力机制处理，获取将图向量与所有文本特征进行融合的新特征矩阵，所述特殊卷积的长度为特征矩阵的向量长度；
25.将所述新特征矩阵与原始特征矩阵进行通道融合，形成2通道特征图，完成最终融合。
26.于本发明的一实施例中，所述初步融合包括：
27.获取图向量，图向量所对应的所有句子向量，以及所有句子对应的词向量；
28.按图向量、图像对应的第一句子向量、第一句子对应的第一词向量的顺序，依次将图像中所有词向量进行拼接，获取所述包含图像特征和文本特征的特征矩阵。
29.本发明还提供一种多模态复合编码图像检索系统，包括
30.采集模块，用于获取待检索信息，并判定待检索信息的数据类型；
31.处理模块，用于根据所述待检索信息的数据类型选择进行粗粒度检索或细粒度检索，所述细粒度检索包括当输入的待检索信息同时包括图像和文本描述数据时，通过对两种特征进行融合，获取复合特征，进而通过所述复合特征进行数据检索，获取目标数据；所述粗粒度检索包括当输入的待检索信息包括图像或文本描述数据之一时，根据对应的特征
进行数据检索，获取目标数据。
32.本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述方法。
33.本发明还提供一种电子终端，包括：处理器及存储器；
34.所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如上述中任一项所述方法。
35.本发明的有益效果：本发明中的多模态复合编码图像检索方法和系统，可以根据数据类型选择进行粗粒度检索或细粒度检索，可以通过对两种特征进行融合，获取复合特征，进而通过复合特征进行细粒度检索的数据检索；本发明可以提高数据库构建效率，增加了检索方式的灵活性，减小了检索难度，为图像检索提供一种精度与泛化性能统一，模糊检索与精准检索切换更灵活的解决方案。
附图说明
36.图1是本发明实施例中多模态复合编码图像检索方法的流程示意图。
37.图2是本发明实施例中多模态复合编码图像检索方法的句子编码的流程示意图。
38.图3是本发明实施例中多模态复合编码图像检索方法的词编码的流程示意图。
39.图4是本发明实施例中多模态复合编码图像检索方法的多模态特征符合编码流程示意图。
具体实施方式
40.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
41.需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
42.在下文描述中，探讨了大量细节，以提供对本发明实施例的更透彻的解释，然而，对本领域技术人员来说，可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的，在其他实施例中，以方框图的形式而不是以细节的形式来示出公知的结构和设备，以避免使本发明的实施例难以理解。
43.如图1所示，本实施例中的多模态复合编码图像检索方法，包括：
44.s1.获取待检索信息，并判定待检索信息的数据类型；
45.s2.根据所述待检索信息的数据类型选择进行粗粒度检索或细粒度检索，所述细粒度检索包括当输入的待检索信息同时包括图像和文本描述数据时，通过对两种特征进行融合，获取复合特征，进而通过所述复合特征进行数据检索，获取目标数据；所述粗粒度检索包括当输入的待检索信息包括图像或文本描述数据之一时，根据对应的特征进行数据检
索，获取目标数据。
46.在本实施例中，首先获取待检索信息，并判定待检索信息的数据类型，数据类型包括图像和文本，在本实施例中，基于图像处理技术与自然语言处理技术，进行多模态复合编码。可以为后端图像检索提供更丰富、多维度的特征信息，同时可自动完成图像内容中文本信息的提取，解决了图像检索对标注难度与工作量的要求，可同时满足模糊检索与精准检索两种检索方式，降低了图像数据库的构建难度，提高了图像检索效率。
47.在本实施例中，当同时输入图像与文本描述数据时，针对输入图像数据，使用图像描述生成算法完成图像特征与文本描述的提取，针对输入文本数据，使用文本处理算法完成文本特征的提取。再输入图像特征与文本特征，完成融合两种特征的复合特征的提取，对输入特征进行数据库检索，获取目标数据。当仅输入图像数据时，使用图像描述生成算法完成图像特征的提取并得到文本描述，输出文本描述再使用文本处理算法进行文本特征的提取，对输入特征进行数据库检索，获取目标数据。当仅输入文本描述数据时，直接使用文本处理算法进行文本特征的提取，对输入特征进行数据库检索，获取目标数据。通过这种方式可以满足图像数据和文本数据，图像文本数据同时输入的检索，图像与文本特征的融合增加了特征维度，丰富了特征信息，可以提高匹配精度，多种特征组合的方式同时满足了模糊搜索与精准搜索；同时，利用图像描述生成算法直接生成文本描述，可以降低人工参与程度，降低成本，提高效率。
48.在本实施例中，预先建立识别模型并进行训练，述识别模型包括用于图像描述生成的第一模型、用于文本处理的第二模型，以及用于多模态特征提取的第三模型；通过第一模型对输入的图像数据进行处理，获取第一输出结果，第一输出结果包括图像特征编码以及图像内容的文本描述；通过第二模型对输入的文本数据和/或第一模型输出的所述图像内容的文本描述进行处理，获取第二输出结果；当输入的待检索信息为文本描述时，通过所述第二模型的输出结果进行粗粒度检索；当输入的待检索信息为图像时，通过第一输出结果中的图像特征编码进行所述粗粒度检索，或者，将第一输出结果中的图像内容的文本描述输入至第二模型，通过第一输出结果中的图像特征编码和第二输出结果进行细粒度检索；当同时输入的图像和文本描述时，将图像输入至第一模型，将文本描述输入至第二模型，再将各自的输出结果同时输入至所述第三模型，根据第三模型的输出结果进行所述细粒度检索。
49.在本实施例中，第一模型为图像描述生成算法模块，主要功能是对输入的图像数据进行处理，获取低维度的图像编码以及对图像内容的文本描述。本实施例中的图像描述生成(image caption)可以采用现有技术中的成熟解决方案，例如通过encoder-decoder框架的nic(neuralimagecaption)结构类的模型，将图像描述生成看作翻译类任务，通过cnn对图像进行特征提取，获取图像特征，并将cnn输出结果作为rnn的输入，并引入attention(注意力机制)结构，产生描述类文本，最终同时输出图像特征编码和文本描述，作为后续模块的输入，本实施例中的第一模型可基于现有模型与用户私有数据进行迁移学习，构造符合自己数据集的模型，再此不再赘述。在数据库构建阶段，第一模型生成的图像特征编码与文本描述均作为图像的属性编码在数据库中进行持久化作为检索特征。
50.在本实施例中，第二模型为文本处理算法模块，主要功能是对图像描述生成算法生成的文字描述或者人工输入的文字描述进行处理，获取包含句子全局特征和局部特征的
混合编码。基于文本描述可能包含多句，因此，可以对所有句子进行处理并编码。首先，可以通过预训练模型对句子获取句子向量作为混合编码的句子编码部分；然后对句子进行词性标注和命名实体进行识别，获取对检索有帮助的词性的词语如名词以及特殊专有名词，去重并获取其词向量。通过文本处理算法模块的处理，就获取了包含词向量与句向量的文本特征信息。可选的，在本实施例中可以通过albert预训练模型对句子获取句子向量作为混合编码的句子编码部分，然后利用命名实体识别实践(albert crf)对句子进行词性标注和命名实体进行识别，在数据库构建阶段，第二模型生成的句子编码与词编码均作为图像的属性编码在数据库中进行持久化作为检索特征，如图2、图3所示。
51.在本实施例中，第三模型为多模态特征复合编码算法模块。为了完成第一模型和第二模型提取的图像特征与文本特征的融合，获取包含图像和文本全局及局部特征的高维复合信息，基于多模态特征复合编码，实现图像特征、句子特征以及词汇特征几种不同维度特征的融合，提供包含复合信息的更高维度的属性作为检索属性。在本实施例中，获取句子向量，并将句子向量作为混合编码的句编码部分；对多个句子进行词性标注，并进行命名实体识别，获取用于与检索相关词性的词语，及词向量，并将词向量作为混合编码的词编码部分；通过句编码部分和词编码部分，获取包含句子全局特征和局部特征的混合编码。根据第一模型和第二模型对输出结果，对图像特征和文本特征进行拼接，获取特征矩阵，完成初步融合；再通过一特殊卷积对所述特征矩阵进行注意力机制处理，获取新特征矩阵；通过对新特征矩阵与原始特征矩阵进行通道融合，完成最终融合。具体的：
52.首先，将图像描述生成模块生成的图像特征以及文本处理模块生成的文本特征进行拼接，进行特征融合，按照图向量、句子1向量、句子1词汇向量，句子2......等的顺序拼接成为一个包含图像特征与文本特征的特征矩阵，实现初步的特征融合。然后，完成两种模态特征的深层次融合，获取最终的多模态复合特征编码用于检索匹配。基于不同的文本描述包含不同的图像内容，为了融合图像特征与不同的内容描述，可以在在常规text-cnn卷积之前首先使用一个特殊卷积，对特征矩阵完成attention操作，然后使用text-cnn完成编码。可选的，特征矩阵维度为w*h，w为宽度即向量长度，h为高度，即特征数量。特殊卷积的高度为2，长度为w，其中图向量那一行固定参与计算，即图向量与所有文本特征进行融合计算，得到一个w*h的新矩阵。再通过text-cnn将获取的新矩阵与原始特征矩阵进行通道融合，形成一个2通道特征图，输入常规text-cnn模型完成特征编码。完成图像特征与文本特征，文本特征内部各种维度之间的融合，获取更丰富的图像信息。最后，由于特征提取时，有大量参数需要训练获取，因此，可以采用图像相似度的训练方式完成特征提取的参数的计算，在实际检索时，训练阶段不参与工作流程。通过上述实施例中的特征提取与融合，最终的复合特征编码完成了多模态融合，提取了图像的光学信息，内容信息，内容相关信息等多维度信息，提供更为精确的图像编码，流程如图4所示。
53.在本实施例中，通过基于多模态复合编码的图像检索提供最终的检索方案。其中，第一模型和第二模型对训练可以基于现有模型与用户数据进行，第三模型需基于用户数据进行训练，需完成相似图像的标注。在实际检索中，可以根据用户的输入不同，提供多种检索方式：
54.细粒度检索：同时输入图像和文本描述，本发明生成上述多种编码，完成精准检索；仅输入图像，生成图像和文本编码，完成精准检索，但此种方式由于是机器完成描述，精
度要比同时输入图像和文本稍低，且可能存在误匹配。
55.粗粒度检索：
①
仅输入图像，生成图像特征编码，仅对图像特征编码进行匹配；
②
仅输入文本，生成文本特征编码，完成匹配。
56.下面以一个具体实施例进行说明：
57.实施例1
58.s101.图像数据的收集
59.针对用户需求，收集图像数据。
60.s102.图像描述生成模型的构建
61.针对收集的图像数据，利用现有图像描述生成模型进行文本描述生成，由于现有模型并非针对用户数据进行训练，人工修改生成的文本描述，对模型进行迁移学习，完成图像描述生成模型的训练。
62.s103.文本处理模型的训练
63.针对s102.生成的文本描述，同样使用现有的文本处理模型完成句向量、词向量的生成，并进行人工修改迁移学习，完成文本处理模型的训练。
64.s104.多模态复合编码模型的训练
65.使用图像描述生成模型、文本处理模型及用户采集的图像数据，完成多模态复合编码算法的训练。
66.s105.多模态复合编码的图像检索数据库的建立
67.利用上述所有步骤生成的图像描述生成模型、文本处理模型及多模态复合编码模型，针对用户图像数据进行处理，生成图像特征、句子特征、词特征以及复合编码特征作为图像的属性存入数据库中。
68.s106.图像检索
69.构造不同输入的检索接口，完成用户对指定特征数据的检索输出。
70.相应的，本实施例还提供一种多模态复合编码图像检索系统，包括：
71.采集模块，用于获取待检索信息，并判定待检索信息的数据类型；
72.处理模块，用于根据所述待检索信息的数据类型选择进行粗粒度检索或细粒度检索，所述细粒度检索包括当输入的待检索信息同时包括图像和文本描述数据时，通过对两种特征进行融合，获取复合特征，进而通过所述复合特征进行数据检索，获取目标数据；所述粗粒度检索包括当输入的待检索信息包括图像或文本描述数据之一时，根据对应的特征进行数据检索，获取目标数据。
73.本发明中的多模态复合编码图像检索系统，通过上述实施例中的方法，可自动完成对图像内容的理解与生成，降低人工参与度，满足更多的应用场景，降本增效。
74.本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本实施例中的任一项方法。
75.本实施例还提供一种电子终端，包括：处理器及存储器；
76.所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行本实施例中任一项方法。
77.本实施例中的计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序
可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
78.本实施例提供的电子终端，包括处理器、存储器、收发器和通信接口，存储器和通信接口与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于进行通信，处理器和收发器用于运行计算机程序，使电子终端执行如上方法的各个步骤。
79.在本实施例中，存储器可能包含随机存取存储器(random access memory，简称ram)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
80.上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
81.在上述实施例中，除非另外规定，否则通过使用“第一”、“第二”等序号对共同的对象进行描述，只表示其指代相同对象的不同实例，而非是采用表示被描述的对象必须采用给定的顺序，无论是时间地、空间地、排序地或任何其他方式。在上述实施例中，说明书对“本实施例”、“一实施例”、“另一实施例”、或“其他实施例”的提及表示结合实施例说明的特定特征、结构或特性包括在至少一些实施例中，但不必是全部实施例。“本实施例”、“一实施例”、“另一实施例”的多次出现不一定全部都指代相同的实施例。
82.在上述实施例中，尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变形对本领域普通技术人员来说将是显而易见的。例如，其他存储结构(例如，动态ram(dram))可以使用所讨论的实施例。本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。
83.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
84.本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
85.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
86.上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完
成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种废钢料场的三维重建方法及系统与流程

一种多模态复合编码图像检索方法和系统与流程

相关文献

最热文献