图像检索方法、装置、电子设备、介质和程序产品与流程

2022-04-09 09:21:54 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及一种图像检索方法、装置、电子设备、介质和程序产品。

背景技术：

2.随着人工智能技术的发展，图像检索被广泛的应用在图像处理领域中，目前，图像检索需要通过将多张待检测图像生成自然语言表达的形式，根据生成的多个自然语言，与用户输入的自然语言进行对比，将相似度高的自然语言对应的待测图像作为目标图像，以此实现在多张待检测图像中，获取与用户输入的自然语言相匹配的目标图像。
3.然而，当存在大量的待检测图像时，需要先获取大量的待检测图像对应的自然语言，从而降低了图像检索的效率。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种图像检索方法、装置、电子设备、介质和程序产品。
5.第一方面，本公开提供了一种图像检索方法，包括：
6.获取第一文本特征矩阵，所述第一文本特征矩阵为根据用户输入的自然语言信息确定的；
7.获取至少一张待检测图像中每张待检测图像的第一图像特征矩阵，以得到至少一个所述第一图像特征矩阵；
8.根据所述至少一个所述第一图像特征矩阵，以及所述第一文本特征矩阵，计算得到至少一个第二图像特征矩阵；
9.从所述至少一个第二图像特征矩阵中，确定与所述第一文本特征矩阵的相似度参数大于或等于预设参数的目标图像特征矩阵；
10.将所述目标图像特征矩阵所对应的目标图像，确定为与用户输入的自然语言信息匹配的图像，所述目标图像为所述至少一个待检测图像中的一个或多个。
11.可选的，所述根据所述至少一个所述第一图像特征矩阵，以及所述第一文本特征矩阵，计算得到至少一个第二图像特征矩阵，包括：
12.将所述至少一个所述第一图像特征矩阵，分别映射到所述第一文本特征矩阵，以得到至少一个第二文本特征矩阵；
13.根据所述至少一个第二文本特征矩阵、以及至少一个所述第一图像特征矩阵，得到至少一个第二图像特征矩阵。
14.可选的，所述将所述至少一个所述第一图像特征矩阵，分别映射到所述第一文本特征矩阵，以得到至少一个第二文本特征矩阵，包括：
15.确定所述第一文本特征矩阵的第一基矩阵以及第二基矩阵；
16.将所述至少一个所述第一图像特征矩阵，分别映射到所述第一基矩阵，得到所述
第一基矩阵对应的至少一个第三基矩阵；将所述至少一个所述第一图像特征矩阵，分别映射到所述第二基矩阵，得到所述第二基矩阵对应的至少一个第四基矩阵，以得到由所述至少一个第三基矩阵和所述至少一个第四基矩阵组成的所述至少一个所述第二文本特征矩阵。
17.可选的，所述根据所述至少一个第二文本特征矩阵、以及至少一个所述第一图像特征矩阵，得到至少一个第二图像特征矩阵，包括：
18.根据至少一个所述第二文本特征矩阵，得到至少一个所述第二文本特征矩阵中每个向量对应的权重值；
19.根据所述权重值以及至少一个所述第一图像特征矩阵，得到至少一个第二图像特征矩阵。
20.可选的，所述获取第一文本特征矩阵，所述第一文本特征矩阵为根据用户输入的自然语言信息确定的之后，还包括：
21.确定所述第一文本特征矩阵的维度；
22.根据所述维度，获取至少一个所述第一图像特征矩阵，其中，所述第一文本特征矩阵的维度大小与所述至少一个所述第一图像特征矩阵的每个第一图像特征矩阵的维度大小均相同。
23.可选的，所述获取第一文本特征矩阵，所述第一文本特征矩阵为根据用户输入的自然语言信息确定的，包括：
24.将所述用户输入的自然语言信息输入自然语言分析模型，得到所述第一文本特征矩阵；
25.获取至少一张待检测图像中每张待检测图像的第一图像特征矩阵，以得到至少一个所述第一图像特征矩阵，包括：
26.将所述至少一张待检测图像输入图像目标检测模型，得到至少一个所述第一图像特征矩阵。
27.第二方面，本公开提供了一种图像检索装置，包括：
28.第一文本特征矩阵获取模块，用于获取第一文本特征矩阵，所述第一文本特征矩阵为根据用户输入的自然语言信息确定的；
29.第一图像特征矩阵获取模块，用于获取至少一张待检测图像中每张待检测图像的第一图像特征矩阵，以得到至少一个所述第一图像特征矩阵；
30.第二图像特征矩阵计算模块，用于根据所述至少一个所述第一图像特征矩阵，以及所述第一文本特征矩阵，计算得到至少一个第二图像特征矩阵；
31.目标图像特征矩阵确定模块，用于从所述至少一个第二图像特征矩阵中，确定与所述第一文本特征矩阵的相似度参数大于或等于预设参数的目标图像特征矩阵；
32.目标图像确定模块，用于将所述目标图像特征矩阵所对应的目标图像，确定为与用户输入的自然语言信息匹配的图像，所述目标图像为所述至少一个待检测图像中的一个或多个。
33.第三方面，本公开提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面任一项所述方法的步骤。
34.第四方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一项所述方法的步骤。
35.第五方面，本公开提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行时实现第一方面任一项所述方法的步骤。
36.本公开实施例提供的技术方案与现有技术相比具有如下优点：
37.本公开实施例提供的一种图像检索方法，通过获取第一文本特征矩阵，第一文本特征矩阵为根据用户输入的自然语言信息确定的，获取至少一张待检测图像中每张待检测图像的第一图像特征矩阵，以得到至少一个第一图像特征矩阵，根据至少一个第一图像特征矩阵，以及第一文本特征矩阵，计算得到至少一个第二图像特征矩阵，从至少一个第二图像特征矩阵中，确定与第一文本特征矩阵的相似度参数大于或等于预设参数的目标图像特征矩阵，将目标图像特征矩阵所对应的目标图像，确定为与用户输入的自然语言信息匹配的图像。这样，通过直接获取用户输入的自然语言对应的自然语言特征，以及多张待检测图像分别对应的图像特征后，将自然语言特征与图像特征进行对比，确定用户输入的自然语言信息对应的目标图像，相比于基于多张待检测图像生成对应的自然语言后，再与用户输入的自然语言信息进行对比，从而确定目标图像，有效的提高了图像检索的效率。
附图说明
38.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
39.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
40.图1为本公开实施例提供的一种图像检索方法的流程示意图；
41.图2为本公开实施例提供的另一种图像检索方法的流程示意图；
42.图3为本公开实施例提供的再一种图像检索方法的流程示意图；
43.图4为本公开实施例提供的又一种图像检索方法的流程示意图；
44.图5为本公开实施例提供的一种图像检索装置的结构示意图；
45.图6为本公开实施例提供的电子设备的内部结构图。
具体实施方式
46.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
47.在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。
48.目前，图像检索需要通过将多张待检测图像生成自然语言表达的形式，根据生成的多个自然语言，与用户输入的自然语言进行对比，将相似度高自然语言对应的待检测图像作为目标图像，以此实现在多张待检测图像中，获取用户输入的自然语言相匹配的目标
图像。然而，当存在大量的待检测图像时，需要先获取大量的待测图像对应的自然语言，从而降低了图像检索的效率。
49.因此，本公开提供了一种图像检索方法，通过获取第一文本特征矩阵，获取至少一张待检测图像中每张待检测图像的第一图像特征矩阵，以得到至少一个第一图像特征矩阵，根据至少一个第一图像特征矩阵，以及第一文本特征矩阵，计算得到至少一个第二图像特征矩阵，从至少一个第二图像特征矩阵中，确定与第一文本特征矩阵的相似度参数大于或等于预设参数的目标图像特征矩阵，将目标图像特征矩阵所对应的目标图像，确定为与用户输入的自然语言信息匹配的图像。这样，通过直接获取用户输入的自然语言对应的自然语言特征，以及多张待检测图像分别对应的图像特征后，将自然语言特征与图像特征进行对比，确定用户输入的自然语言信息对应的目标图像，相比于基于多张待检测图像生成对应的自然语言后，再与用户输入的自然语言信息进行对比，从而确定目标图像，有效的提高了图像检索的效率。
50.本公开提供的图像检索方法可以应用在图像检索装置，该装置可以为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等电子设备，可选的，该装置还可以为这些电子设备中可以实现图像检索方法的功能模块或者功能实体。
51.图1为本公开实施例提供的一种图像检索方法的流程示意图，如图1所示，具体包括：
52.s10，获取第一文本特征矩阵。
53.其中，第一文本特征矩阵为根据用户输入的自然语言信息确定的。用户输入的自然语言信息可以是用户对终端输入的文本内容，还可以是用户对终端输入的语音内容，但不限于此，本公开不具体限制。
54.示例性的，上述用户对终端输入的文本内容例如可以是“书桌上有一台电脑”，用户对终端输入的语音内容例如可以是“湖面上有一艘小船”。
55.具体的，获取用户对终端输入的自然语言信息对应的第一文本特征。
56.在上述实施例的基础上，在本技术一些实施例中，一种可以实现的方式为：
57.将用户输入的自然语言信息输入自然语言分析模型，得到第一文本特征矩阵。
58.其中，自然语言分析模型是指用来提取用户输入的自然语言信息对应的文本特征矩阵，示例性的，该自然语言分析模型例如可以是来自变换器的双向编码器(bidirectional encoder representation from transformers，bert)，bert模型包括提取文本样本的字向量特征提取层、词向量特征提取层、位置向量特征提取层，该自然语言分析模型是根据训练集训练得到的，通过获取训练样本集，训练样本集包括文本样本以及带标签的文本样本，将文本样本输入至初始自然语言分析模型，得到文本样本对应的输出结果，根据该输出结果以及带标签的文本样本，调整初始自然语言分析模型的权重参数，直至初始自然语言分析模型满足预设收敛条件，确定当前的初始自然语言分析模型为训练好的自然语言分析模型，但不限于此，本公开不具体限制。
59.示例性的，上述自然语言分析模型为bert模型时，将用户输入的自然语言信息“书桌上有一台电脑”，输入至自然语言分析模型中，自然语言分析模型如bert模型提取“书桌上有一台电脑”的字向量、词向量、位置向量等特征，从而得到用户输入的自然语言信息对应的第一文本特征矩阵。
60.s12，获取至少一张待检测图像中每张待检测图像的第一图像特征矩阵，以得到至少一个第一图像特征矩阵。
61.其中，待检测图片是指需要进行检索的至少一张图片，该待检测图片中包括与用户输入的自然语言信息相匹配的一张或多张目标图片。
62.在上述实施例的基础上，在本技术一些实施例中，一种可以实现的方式为：
63.将至少一张待检测图像输入图像目标检测模型，得到至少一个第一图像特征矩阵。
64.其中，图像目标检测模型是指用来提取至少一张待检测图像对应的第一图像特征矩阵的。
65.具体的，将至少一张待检测图像输入至训练好的图像目标检测模型中，根据图像目标检测模型提取至少一张待检测图像中每张待检测图像对应的第一图像特征矩阵，以得到至少一个第一图像特征矩阵。
66.在上述实施例的基础上，在本公开一些实施例中，上述图像目标检测模型例如可以是快速区域卷积神经网络，该图像目标检测模型是根据训练集训练得到的，通过获取训练样本集，训练样本集包括图片样本以及带标签的图片样本，将图片样本输入至初始图像目标检测模型，得到图片样本对应的输出结果，根据该输出结果以及带标签的图片样本，调整初始图像目标检测模型的权重参数，直至初始图像目标检测模型满足预设收敛条件，确定当前的初始图像目标检测模型为训练好的图像目标检测模型，但不限于此，本公开不具体限制。
67.需要说明的是，在上述实施例中，判断初始图像目标检测模型是否收敛的条件例如可以是完成一次网络模型训练后，确定当前初始图像目标检测模型的输出结果是否满足预设条件，例如，当前快速区域卷积神经网络的输出结果与训练样本集中的带标签的图片样本的误差是否小于预设误差。如果不小于预设误差，即当前初始图像目标检测模型的输出结果不满足预设条件，返回继续对当前初始图像目标检测模型进行训练，直至当前初始图像目标检测模型的输出结果的误差满足预设条件，此时，停止网络模型训练，确定当前的图像目标检测模型为训练好的图像目标检测模型。
68.s14，根据至少一个第一图像特征矩阵，以及第一文本特征矩阵，计算得到至少一个第二图像特征矩阵。
69.具体的，根据对用户输入终端的自然语言信息提取的第一文本特征矩阵，以及对至少一张待检测图像提取的至少一个第一图像特征矩阵，计算得到至少一个第二图像特征矩阵。
70.s16，从至少一个第二图像特征矩阵中，确定与第一文本特征矩阵的相似度参数大于或等于预设参数的目标图像特征矩阵。
71.其中，相似度参数是用来在至少一个第二图像特征矩阵中确定目标图像特征矩阵的，预设参数是用来判定至少一个第二图像特征矩阵中为目标图像特征矩阵所设置的参数。
72.示例性的，该相似度参数例如可以是距离，例如可以是11，还可以是计算第二图像特征矩阵与第一文本特征矩阵的余弦参数，但不限于此，本公开不具体限制，本领域技术人员可根据实际情况设置。
73.具体的，根据一个或多个第二图像特征矩阵，计算每个第二图像特征矩阵与第一文本特征矩阵的相似度参数，对于多个相似度参数，当该相似度参数大于或等于预设参数时，确定该第二图像特征矩阵为目标图像特征矩阵。
74.示例性的，上述用户输入的自然语言信息“书桌上有一台电脑”，通过自然语言分析模型提取“书桌上有一台电脑”的第一文本特征矩阵为c，对于至少一张待检测图像，例如可以是五张待检测图像，根据图像目标检测模型提取该五张待检测图像分别对应的第一图像特征矩阵v
11
、v
12
、v
13
、v
14
、v
15
，并基于第一文本特征矩阵为c与第一图像特征矩阵v
11
、v
12
、v
13
、v
14
、v
15
计算得到五个第二图像特征矩阵v
21
、v
22
、v
23
、v
24
、v
25
，分别计算第一文本特征矩阵为c与五个第二图像特征矩阵v
21
、v
22
、v
23
、v
24
、v
25
的相似度参数，例如计算其距离为10、12、5、4、14，当预设参数11时，则确定五个第二图像特征矩阵中v
22
以及v
25
对应的第二图像特征矩阵，所对应的第一图像特征矩阵为目标图像特征矩阵。
75.s18，将目标图像特征矩阵所对应的目标图像，确定为与用户输入的自然语言信息匹配的图像。
76.其中，目标图像为至少一个待检测图像中的一个或多个。
77.具体的，将目标图像特征矩阵所对应的待检测图像，确定为目标图像，即得到与用户输入的自然语言信息相匹配的图像。
78.本公开实施例提供的技术方案中，通过获取第一文本特征矩阵，获取至少一张待检测图像中每张待检测图像的第一图像特征矩阵，以得到至少一个第一图像特征矩阵，根据至少一个第一图像特征矩阵，以及第一文本特征矩阵，计算得到至少一个第二图像特征矩阵，从至少一个第二图像特征矩阵中，确定与第一文本特征矩阵的相似度参数大于或等于预设参数的目标图像特征矩阵，将目标图像特征矩阵所对应的目标图像，确定为与用户输入的自然语言信息匹配的图像。这样，通过直接获取用户输入的自然语言对应的自然语言特征，以及多张待检测图像分别对应的图像特征后，将自然语言特征与图像特征进行对比，确定用户输入的自然语言信息对应的目标图像，相比于基于多张待检测图像生成对应的自然语言后，再与用户输入的自然语言信息进行对比，从而确定目标图像，有效的提高了图像检索的效率。
79.在本技术的一些实施例中，如图2所示，根据至少一个第一图像特征矩阵，以及第一文本特征矩阵，计算得到至少一个第二图像特征矩阵，包括：
80.s141，将至少一个第一图像特征矩阵，分别映射到第一文本特征矩阵，以得到至少一个第二文本特征矩阵。
81.其中，映射是指将至少一个第一图像特征矩阵所包含的特征信息分别关联到第一文本特征矩阵上，该映射方式例如可以是通过将第一图像特征矩阵与第一文本特征矩阵进行矩阵相乘，但不限于此，本公开不具体限制。
82.具体的，将至少一个第一图像特征矩阵中的每个第一图像特征矩阵，均映射到第一文本特征矩阵中，以得到经过每个第一图像特征矩阵映射的第二文本特征矩阵。
83.示例性的，上述第一文本特征矩阵c，对于五张待检测图像分别对应的第一图像特征矩阵v
11
、v
12
、v
13
、v
14
、v
15
，将五个第一图像特征矩阵v
11
、v
12
、v
13
、v
14
、v
15
分别映射到第一文本特征矩阵为c上，得到五个第二文本特征矩阵c
21
、c
22
、c
23
、c
24
、c
25
。
84.s142，根据至少一个第二文本特征矩阵、以及至少一个第一图像特征矩阵，得到至
少一个第二图像特征矩阵。
85.具体的，根据得到的至少一个第二文本特征矩阵中的每个第二文本特征矩阵，以及至少一个第一图像特征矩阵中相对应的第一图像特征矩阵，确定当前每个第一图像特征矩阵对应的第二图像特征矩阵，以得到至少一个第二图像特征矩阵。
86.这样，本实施例将至少一个第一图像特征矩阵，分别映射到第一文本特征矩阵，得到至少一个第二文本特征矩阵，并根据至少一个第二文本特征矩阵、以及至少一个第一图像特征矩阵，得到至少一个第二图像特征矩阵，从而将待检测图像对应的第一图像特征矩阵与自然语言信息对应的第一文本特征矩阵结合，进一步根据第二图像特征矩阵与第一文本特征矩阵确定目标图像，以此有效的提高了图像检索的效率。
87.在本技术的一些实施例中，如图3所示，将至少一个第一图像特征矩阵，分别映射到第一文本特征矩阵，以得到至少一个第二文本特征矩阵，包括：
88.s1411，确定第一文本特征矩阵的第一基矩阵以及第二基矩阵。
89.其中，第一基矩阵以及第二基矩阵为第一文本特征矩阵的主要特征矩阵分量，即通过第一文本特征矩阵，选择至少两个基矩阵，将原始的第一文本特征矩阵变换到这组基矩阵上，通过该方式，使得第一文本特征矩阵中多维的数据信息能够通过基矩阵进行表示，实现了对多维数据信息的降维，示例性的，确定第一文本特征矩阵对应的第一基矩阵以及第二基矩阵可以通过协方差的方式获得，但不限于此，本公开不限于此。
90.示例性的，上述第一文本特征矩阵为c，根据该第一文本特征矩阵为c，确定其对应的第一基矩阵为a、以及第二基矩阵为b，即该第一文本特征矩阵c可以表示为：c＝αa βb,其中，α表示第一基矩阵为a的系数，β表示第二基矩阵为b的系数。
91.s1412，将至少一个第一图像特征矩阵，分别映射到第一基矩阵，得到第一基矩阵对应的至少一个第三基矩阵；将至少一个第一图像特征矩阵，分别映射到第二基矩阵，得到第二基矩阵对应的至少一个第四基矩阵，以得到由至少一个第三基矩阵和至少一个第四基矩阵组成的至少一个第二文本特征矩阵。
92.示例性的，对于五张待检测图像分别对应的第一图像特征矩阵v
11
、v
12
、v
13
、v
14
、v
15
，将五个第一图像特征矩阵v
11
、v
12
、v
13
、v
14
、v
15
测分别映射到第一基矩阵a上，得到对应的第三基矩阵a
11
、a
12
、a
13
、a
14
、a
15
，将五个第一图像特征矩阵v
11
、v
12
、v
13
、v
14
、v
15
测分别映射到第二基矩阵b上，得到对应的第四基矩阵b
11
、b
12
、b
13
、b
14
、b
15
，并根据第三基矩阵a
11
、a
12
、a
13
、a
14
、a
15
以及第四基矩阵b
11
、b
12
、b
13
、b
14
、b
15
组成相对应的第二文本特征矩阵c
21
、c
22
、c
23
、c
24
、c
25
。
93.这样，本实施例通过利用至少两个基矩阵表征第一文本特征矩阵中多维的数据信息，实现了对多维数据信息的降维，进一步的将至少一个第一图像特征矩阵分别映射到至少两个基矩阵上，进一步获取第二文本特征矩阵，这样，通过降低第一文本特征矩阵中数据信息的维度，以此降低了映射的复杂度，有效的提高了图像检索的效率。
94.在本技术的一些实施例中，如图4所示，根据至少一个第二文本特征矩阵、以及至少一个第一图像特征矩阵，得到至少一个第二图像特征矩阵，包括：
95.s1421，根据至少一个第二文本特征矩阵，得到至少一个第二文本特征矩阵中每个向量对应的权重值。
96.具体的，将至少一个第一图像特征矩阵中的每个第一图像特征矩阵，分别映射到
第一文本特征矩阵，以得到至少一个第二文本特征矩阵，进一步的，获取第二文本特征矩阵中每个向量对应的权重值。
97.示例性的，承接上述实施例，对于第二文本特征矩阵c
21
、c
22
、c
23
、c
24
、c
25
，利用归一化指数函数softmax对第二文本特征矩阵c
21
、c
22
、c
23
、c
24
、c
25
分别进行打分，以得到第二文本特征矩阵c
21
、c
22
、c
23
、c
24
、c
25
中每个第二文本特征矩阵中的每个向量对应的权重值。
98.需要说明的是，归一化指数函数softmax是指将一个含任意实数的多维向量“压缩”到另一个多维实向量中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1，该函数多用于多分类问题中，即将将多分类的结果以概率的形式展现出来。
99.s1422，根据权重值以及至少一个第一图像特征矩阵，得到至少一个第二图像特征矩阵。
100.示例性的，根据上述实施例中第二文本特征矩阵c
21
、c
22
、c
23
、c
24
、c
25
中每个第二文本特征矩阵中的每个向量对应的权重值，确定每个第二文本特征矩阵对应的权重矩阵，进一步的，根据每个第二文本特征矩阵c
21
、c
22
、c
23
、c
24
、c
25
对应的第一图像图像特征矩阵v
11
、v
12
、v
13
、v
14
、v
15
，以及每个第二文本特征矩阵对应的权重矩阵，确定第二图像特征矩阵v
21
、v
22
、v
23
、v
24
、v
25
。
101.这样，本实施例通过获取第二文本特征矩阵中每个向量的权重值，根据该权重值与第一图像图像特征矩阵获取第二图像特征矩阵，从而实现了待检测图像的特征信息与自然语言的特征信息的关联，有效的提高了图像检索的效率。
102.在上述实施例的基础上，在本公开的一些实施例中，获取第一文本特征矩阵，第一文本特征矩阵为根据用户输入的自然语言信息确定的之后，还包括：
103.确定第一文本特征矩阵的维度。
104.根据维度，获取至少一个第一图像特征矩阵。
105.其中，第一文本特征矩阵的维度大小与至少一个第一图像特征矩阵的每个第一图像特征矩阵的维度大小均相同。
106.具体的，根据用户输入终端的自然语言信息，利用自然语言分析模型提取自然语言信息的第一文本特征矩阵，该第一文本特征矩阵的维度大小由自然语言分析模型决定，根据该维度大小，设置图像目标检测模型的维度，以此使得得到的至少一个第一图像特征矩阵的每个第一图像特征矩阵的维度，与第一文本特征矩阵的维度大小均相同。
107.本公开实施例还提供了一种图像检索装置，用于执行上述实施例提供的任一种图像检索方法，具备图像检索方法相应的有益效果。
108.图5为本公开实施例提供的一种图像检索装置的结构示意图，如图5所示，图像检索装置包括：第一文本特征矩阵获取模块100、第一图像特征矩阵获取模块120、第二图像特征矩阵计算模块140、目标图像特征矩阵确定模块160以及目标图像确定模块180。
109.其中，第一文本特征矩阵获取模块100，用于获取第一文本特征矩阵，第一文本特征矩阵为根据用户输入的自然语言信息确定的。
110.第一图像特征矩阵获取模块120，用于获取至少一张待检测图像中每张待检测图像的第一图像特征矩阵，以得到至少一个第一图像特征矩阵。
111.第二图像特征矩阵计算模块140，用于根据至少一个第一图像特征矩阵，以及第一文本特征矩阵，计算得到至少一个第二图像特征矩阵。
112.目标图像特征矩阵确定模块160，用于从至少一个第二图像特征矩阵中，确定与第一文本特征矩阵的相似度参数大于或等于预设参数的目标图像特征矩阵。
113.目标图像确定模块180，用于将目标图像特征矩阵所对应的目标图像，确定为与用户输入的自然语言信息匹配的图像，目标图像为至少一个待检测图像中的一个或多个。
114.在本发明实施例一实施方式中，第二图像特征矩阵计算模块140，具体用于将至少一个第一图像特征矩阵，分别映射到第一文本特征矩阵，以得到至少一个第二文本特征矩阵；根据至少一个第二文本特征矩阵、以及至少一个第一图像特征矩阵，得到至少一个第二图像特征矩阵。
115.在本发明实施例一实施方式中，第二图像特征矩阵计算模块140，具体还用于确定第一文本特征矩阵的第一基矩阵以及第二基矩阵；将至少一个所述第一图像特征矩阵，分别映射到第一基矩阵，得到第一基矩阵对应的至少一个第三基矩阵；将至少一个所述第一图像特征矩阵，分别映射到第二基矩阵，得到第二基矩阵对应的至少一个第四基矩阵，以得到由至少一个第三基矩阵和至少一个第四基矩阵组成的至少一个第二文本特征矩阵。
116.在本发明实施例一实施方式中，第二图像特征矩阵计算模块140，具体还用于根据至少一个第二文本特征矩阵，得到至少一个第二文本特征矩阵中每个向量对应的权重值；根据权重值以及至少一个第一图像特征矩阵，得到至少一个第二图像特征矩阵。
117.在本发明实施例一实施方式中，第一文本特征矩阵获取模块100还包括维度确定模块，用于确定第一文本特征矩阵的维度。
118.第一图像特征矩阵获取模块120，用于根据维度，获取至少一个第一图像特征矩阵，其中，第一文本特征矩阵的维度大小与至少一个第一图像特征矩阵的每个第一图像特征矩阵的维度大小均相同。
119.在本发明实施例一实施方式中，第一文本特征矩阵获取模块100，具体用于将用户输入的自然语言信息输入自然语言分析模型，得到第一文本特征矩阵。
120.在本发明实施例一实施方式中，第一图像特征矩阵获取模块120，具体用于将至少一张待检测图像输入图像目标检测模型，得到至少一个第一图像特征矩阵。
121.本公开实施例能够通过直接获取用户输入的自然语言对应的自然语言特征，以及多张待检测图像分别对应的图像特征后，将自然语言特征与图像特征进行对比，确定用户输入的自然语言信息对应的目标图像，相比于基于多张待检测图像生成对应的自然语言后，再与用户输入的自然语言信息进行对比，从而确定目标图像，有效的提高了图像检索的效率。
122.本实施例的装置对应的可用于执行上述图1到图4任一所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
123.本公开实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时可以实现本公开实施例提供的图像检索方法，例如，处理器执行计算机程序时可以实现图1到图4任一所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
124.本公开还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可以实现本公开实施例提供的图像检索方法，例如，计算机程序被处理器执行时实现图1到图4任一所示方法实施例的技术方案，其实现原理和技术效果类似，此
处不再赘述。
125.本公开提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行时可以实现本公开实施例提供的图像检索方法，例如，计算机执行时实现图1到图4任一所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
126.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
127.以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、装置、电子设备及计算机存储介质与流程

图像检索方法、装置、电子设备、介质和程序产品与流程

相关文献

最热文献