用于修改查询图像的技术的制作方法

2021-12-15 02:22:00 来源：中国专利 TAG：

技术特征：
1.用于执行基于图像的搜索的一个或多个计算设备，包括：硬件逻辑电路，所述硬件逻辑电路包括：(a)通过执行存储在存储器中的机器可读指令来执行操作的一个或多个硬件处理器，和/或(b)使用特定于任务的逻辑门集合来执行操作的一个或多个其他硬件逻辑单元，所述操作包括：响应于由用户对输入设备的操纵，从所述用户接收对输入图像的选择；从所述输入图像中提取第一信息项，所述第一信息项表示所述输入图像的至少一个现有特性；提供指定至少一个预期图像特性的第二信息项；基于所述第一信息项和所述第二信息项来生成查询图像，所述查询图像包含表示所述输入图像的所述至少一个现有特性和所述至少一个预期图像特性的组合的内容；将所述查询图像提交给计算机实现的搜索引擎；接收由所述搜索引擎评估的、与所述查询图像相匹配的候选图像集合；以及使用输出设备向所述用户呈现所述候选图像集合。2.根据权利要求1所述的一个或多个计算设备，其中所述输入图像对应于第一输入图像，其中所述第一信息项对应于与所述第一输入图像相关联的第一潜在变量向量，并且所述第二信息项对应于与接收的第二输入图像相关联的第二潜在变量向量，其中所述提取包括：使用由所述硬件逻辑电路实现的编码器以基于所述第一输入图像产生所述第一潜在变量向量，其中所述提供包括：使用由所述硬件逻辑电路实现的编码器以基于所述第二输入图像产生所述第二潜在变量向量，其中所述操作还包括：组合所述第一潜在变量向量和至少所述第二潜在变量向量以产生混合潜在变量向量，以及其中所述生成包括：使用由所述硬件逻辑电路实现的解码器神经网络以基于所述混合潜在变量向量产生所述查询图像，所述解码器神经网络基于由生成式机器训练的模型所提供的参数值来操作。3.根据权利要求2所述的一个或多个计算设备，其中所述操作还包括：响应于由所述用户通过操纵由用户界面呈现所提供的图形控件所做出的一个或多个选择，接收一个或多个加权值；以及基于所述一个或多个加权值来修改与一个或多个相应输入图像相关联的一个或多个潜在变量向量。4.根据权利要求2所述的一个或多个计算设备，其中训练系统通过在生成式对抗网络中训练生成器组件来产生所述解码器神经网络。5.根据权利要求2所述的一个或多个计算设备，其中每个编码器通过以下方式来操作：(a)将给定输入图像转换为所述给定输入项的特征空间表示；(b)使用所述解码器神经网络将与所述给定输入图像相关联的候选潜在变量向量转换为候选输出图像；(c)将所述候选输出图像转换为所述候选输出图像的特征空间表示；(d)确定所述给定输入图像的特征空间表示与所述候选输出图像的特征空间表示之间
的距离；(e)基于所述距离来调整所述候选潜在变量向量；以及重复操作(a)到(e)多次，直到优化目标被达到。6.根据权利要求2所述的一个或多个计算设备，其中每个编码器使用前馈神经网络而被实现，所述前馈神经网络近似用于迭代地找到潜在变量向量的过程的结果。7.根据权利要求2所述的一个或多个计算设备，其中训练系统通过分别训练变分自编码器(vae)的编码器组件和解码器组件来产生每个编码器和所述解码器神经网络。8.根据权利要求2所述的一个或多个计算设备，其中训练系统通过分别训练基于流的神经网络系统的编码器组件和解码器组件来产生每个编码器和所述解码器神经网络，在所述基于流的神经网络系统中所述解码器组件实现由所述编码器组件所提供的函数的逆函数。9.一种执行基于图像的搜索的方法，包括：响应于由用户对第一输入图像和第二输入图像的选择，接收至少所述第一输入图像和所述第二输入图像；使用编码器以基于所述第一输入图像产生第一潜在变量向量；使用编码器以基于所述第二输入图像产生第二潜在变量向量；组合所述第一潜在变量向量和至少所述第二潜在变量向量以产生混合潜在变量向量；使用解码器神经网络以基于所述混合潜在变量向量产生查询图像；将所述查询图像提交给计算机实现的搜索引擎；接收由所述搜索引擎评估的、与所述查询图像相匹配的候选图像集合；以及使用输出设备向所述用户呈现所述候选图像集合。10.一种用于存储计算机可读指令的计算机可读存储介质，所述计算机可读指令在由一个或多个硬件处理器执行时，执行包括以下步骤的方法：响应于由用户对第一输入图像和第二输入图像的选择，接收至少所述第一输入图像和所述第二输入图像；使用编码器以基于所述第一输入图像产生第一潜在变量向量；使用编码器以基于所述第二输入图像产生第二潜在变量向量；组合所述第一潜在变量向量和至少所述第二潜在变量向量以产生混合潜在变量向量；使用解码器神经网络以基于所述混合潜在变量向量产生查询图像，训练系统通过在生成式对抗网络中训练生成器组件来产生所述解码器神经网络；将所述查询图像提交给计算机实现的搜索引擎；接收由所述搜索引擎评估的、与所述查询图像相匹配的候选图像集合；以及使用输出设备向所述用户呈现所述候选图像集合。11.根据权利要求2所述的一个或多个计算设备，其中所述操作还包括：从所述用户接收描述所述第二输入图像的文本性的信息；以及通过执行基于所述文本性的信息的搜索来取回所述第二输入图像。12.根据权利要求2所述的一个或多个计算设备，其中所述组合包括：组合所述第一潜在变量向量和多个补充潜在变量向量，以产生所述混合潜在变量向量，
所述多个补充潜在变量向量与通过执行基于文本的图像搜索取回的多个输入图像相关联，所述多个补充潜在变量向量包括所述第二潜在变量向量。13.根据权利要求3所述的一个或多个计算设备，其中所述图形控件包括光标导航空间，其中所述光标导航空间的外围上的不同参考点对应于相应的输入图像，以及其中要被应用于输入图像的加权值基于光标在所述光标导航空间中相对于所述参考点的定位。14.根据权利要求3所述的一个或多个计算设备，其中所述操作还包括：改变被应用于与一个或多个相应输入图像相关联的一个或多个相应潜在变量向量的一个或多个加权值；响应于所述改变，显示基于所述一个或多个潜在变量向量产生的所生成的图像的改变的表示；以及接收来自所述用户的保存加权值集合的指令，所述用户在观察到所生成的图像的预期状态后做出所述指令。15.根据权利要求2所述的一个或多个计算设备，其中每个编码器通过将给定输入图像下采样为大小被减少的输入图像来操作。

技术总结
本文描述了一种用于执行基于图像的搜索的计算机实现的技术，该搜索允许用户创建表达用户的搜索意图的自定义查询图像。该技术基于描述查询图像的至少一个预期特性的一个或多个输入图像和/或一个或多个信息项来生成查询图像。该技术然后将查询图像提交给搜索引擎，并且作为响应，接收与查询图像相匹配的候选图像集合。在一种实现中，该技术使用对混合潜在变量向量进行操作的解码器神经网络来构建查询图像。在一种方法中，该技术使用生成式对抗网络(GAN)来生成解码器神经网络。网络(GAN)来生成解码器神经网络。网络(GAN)来生成解码器神经网络。

技术研发人员：R
受保护的技术使用者：微软技术许可有限责任公司
技术研发日：2020.03.17
技术公布日：2021/12/14

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

用于修改查询图像的技术的制作方法

相关文献

最热文献