一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

生成和应用针对图像的对象级关系索引的制作方法

2022-02-20 12:37:03 来源:中国专利 TAG:

生成和应用针对图像的对象级关系索引


背景技术:

1.在当前实践中,用户可以进行基于文本的搜索或基于图像的搜索。在后一种类型的搜索中,用户捕获或选择单个复合图像,并且然后将该图像作为查询提交给搜索引擎。搜索引擎利用索引来标识与所提交的图像匹配的一个或多个候选图像。更具体地,索引将单个条目用于每个候选图像。


技术实现要素:

2.本文中描述了一种计算机实现技术,用于使用机器训练模型来标识图像内的个体对象。该技术然后针对所标识的对象创建关系索引。即,关系索引中的每个索引条目与给定对象相关联,并且每个索引条目包括与给定对象有关的属性集合。例如,一个这样的属性标识与给定对象相关联的潜在语义向量。
3.每个属性提供一种将给定对象链接到关系索引中的一个或多个其他对象的方法。关系索引作为整体可以被概念化为具有通过边(与对象之间的关系相关联)连接在一起的节点(与个体对象相关联)的图。
4.该技术还涉及使用关系索引执行搜索。在该过程中,用户提交指定查询对象的查询。该技术查阅关系索引以查找与查询对象相关的一个或多个对象。在某些情况下,查询对象和每个其他对象具有互补关系,这由以下事实所反映:这两个对象共同出现在一个或多个图像中。例如,查询对象可以指定第一服装项目(例如,裤子),而另一对象可以指定补充服装项目(例如,衬衫)。
5.根据一个技术优点,该技术允许用户通过在每个对象级粒度上从大量图像语料库中提取洞察力,来快速且高效地标识相关信息。
6.以上总结的技术可以体现在各种类型的系统、设备、组件、方法、计算机可读存储介质、数据结构、图形用户界面呈现、制品等中。
7.本“发明内容”旨在以简化的形式介绍一些概念;这些概念在下面的“具体实施方式”中进一步描述。本“发明内容”不旨在确定所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
8.图1示出了说明性计算环境,该计算环境包括对象提取系统,用于基于在图像中出现的对象来产生关系索引。计算环境还包括用于使用关系索引来检索对象的对象检索系统。
9.图2示出了可以由图1的对象提取系统标识的对象(和对象之间的关系)的示例。
10.图3示出了可以用于实现图1的对象提取系统的说明性计算设备。
11.图4示出了图1的对象提取系统针对每个对象能够提取的属性集合。
12.图5示出了与特定对象相关联的属性集合的示例。
13.图6示出了可以由图1的对象提取系统使用、以控制被添加到关系索引的对象种类
的创建侧对象过滤组件。
14.图7-图9示出了可以在图1的对象提取系统中使用、以检测图像中的对象的三个图像分类组件。
15.图10示出了可以用于实现图7-图9的图像分类组件的各方面的说明性卷积神经网络(cnn)。
16.图11示出了图1所示的对象检索系统的一个说明性实现。图11还示出了用于基于从关系索引中提取的信息来创建机器训练模型的训练系统。
17.图12示出了用于创建特定于环境的关系索引的对象检索平台。特定于环境的对象检索系统使用特定于环境的关系索引来执行搜索操作。
18.图13示出了用于与图11或图12的对象检索系统结合使用的、向用户征求搜索选项的用户界面呈现。
19.图14-图17示出了可以由图11或图12的对象检索系统呈现的用户界面呈现。这些呈现允许用户询问每个对象检索系统,并且作为响应,从对象检索系统接收搜索结果。
20.图18示出了表示图1的对象提取系统的概述的过程。
21.图19示出了表示图11或12的对象检索系统的概述的过程。
22.图20示出了可以用于实现上述附图中所示的特征的任何方面的一种说明性类型的计算设备。
23.在整个公开和附图中使用相同的数字来表示相似的组件和特征。100系列编号是指最初在图1中发现的特征,200系列编号是指最初在图2中发现的特征,300系列编号是指最初在图3中发现的特征,以此类推。
具体实施方式
24.本公开组织如下。a节描述了用于生成和应用关系索引的计算环境,该关系索引用于检索图像相关的信息。b节阐述了解释a节的计算环境的操作的说明性方法。c节描述了可以用于实现a节和b节中所描述特征的任何方面的说明性计算功能。
25.作为初步事项,术语“硬件逻辑电路系统”对应于执行存储在存储器中的机器可读指令的一个或多个硬件处理器(例如,cpu、gpu等)、和/或使用特定于任务的一组固定和/或可编程逻辑门来执行操作的一个或多个其他硬件逻辑单元(例如,fpga)。c节提供了有关硬件逻辑电路系统的一种实现的附加信息。在某些上下文中,术语“组件”和“引擎”中的每个是指执行特定功能的硬件逻辑电路系统的一部分。
26.在一种情况下,图中的各个部分分成不同单元的图示划分可以反映在实际实现中对应不同物理和有形部分的使用。备选地或附加地,图中所示的任何单个部件可以由多个实际物理部件来实现。备选地或附加地,图中的任何两个或更多个单独部件的描绘可以反映由单个实际物理部件执行的不同功能。
27.其他图以流程图的形式描述概念。在这种形式中,某些操作被描述为构成以特定顺序执行的不同块。这样的实现是说明性的和非限制性的。本文中描述的某些块可以分组在一起并且在单个操作中执行,某些块可以分解为多个组件块,并且某些块可以按照与本文中所示的顺序不同的顺序执行(包括执行块的并行方式)。在一种实现中,流程图中所示的与处理相关功能相关的块可以由部分c中描述的硬件逻辑电路系统来实现,而该硬件逻
辑电路系统又可以由包括特定于任务的一组逻辑门的一个或多个硬件处理器和/或其他逻辑单元来实现。
28.关于术语,短语“被配置为”涵盖用于执行所标识的操作的各种物理和有形机制。这些机制可以被配置为使用部分c的硬件逻辑电路系统来执行操作。术语“逻辑”同样涵盖用于执行任务的各种物理和有形机制。例如,流程图中所示的每个处理相关操作对应于用于执行该操作的逻辑组件。逻辑组件可以使用部分c的硬件逻辑电路系统来执行其操作。当由计算设备实现时,逻辑组件表示作为计算系统的物理部分的电气元件,无论以何种方式实现。
29.本文中描述的任何存储资源、或该存储资源的任何组合都可以被视为计算机可读介质。在很多情况下,计算机可读介质表示某种形式的物理和有形实体。术语计算机可读介质还包括传播信号,例如,经由物理管道和/或空气或其他无线介质等传输或接收的传播信号。然而,特定术语“计算机可读存储介质”明确排除传播信号本身,同时包括所有其他形式的计算机可读介质。
30.以下解释可以将一个或多个特征标识为“可选的”。这种类型的声明不应当被解释为对可以被视为可选的特征的详尽说明;即,其他特征可以被视为可选的,尽管在文本中没有明确指出。此外,对单个实体的任何描述并不旨在排除使用多个这样的实体;同样,对多个实体的描述并不排除使用单个实体。此外,虽然描述可以将某些特征解释为执行所标识的功能或实现所标识的机制的替代方式,但是这些特征也可以以任何组合方式组合在一起。最后,术语“示例性”或“说明性”是指潜在的很多实现中的一种实现。
31.a.说明性计算环境
32.a.1.概述
33.图1示出了计算环境102,计算环境102包括说明性对象提取系统104和对象检索系统106。对象提取系统104创建关系索引108,关系索引108描述从输入图像语料库中提取的对象以及图像本身(它们本身构成对象)。对象检索系统106使用关系索引108进行搜索。例如,对象检索系统106可以接收查询,该查询指定对象(本文中称为“查询对象”),例如,通过提交示出查询对象的图像。作为响应,对象检索系统106使用关系索引108来查找链接到查询对象的一个或多个其他对象。对象检索系统106可以公开应用程序编程接口(api)或其他类型的接口。一个或多个应用110执行涉及经由对象检索系统106查询关系索引的各种功能。
34.该小节提供了计算环境102的概述。小节a.2提供了关于对象提取系统104的附加说明性细节。小节a.3提供了关于对象检索系统106的附加细节。
35.首先参考对象提取系统104,对象收获组件112执行从一个或多个图像源接收图像的初始任务。对象收获组件112可以使用基于推送的技术(其中源独立地将图像转发到对象收获组件112)、基于拉取的技术(其中对象收获组件112从源拉取图像)或其组合来接收图像。在一种基于拉取的实现中,对象收获组件112使用现有的基于图像的搜索引擎来从互联网或其他广域网检索图像,而不区分不同种类的图像内容。现有的基于图像的引擎使用图像索引执行该任务,该图像索引在图像级粒度上标识图像,例如,通过针对每个图像分配一个索引条目。在另一种方法中,对象收获组件112使用现有的基于图像的搜索引擎来访问通过广域网(例如,互联网)可访问的满足指定搜索标准的图像。例如,对象收获组件112可以
使用搜索引擎来收集与一个或多个指定主题有关的图像。例如,对象收获组件112可以通过向搜索引擎提交时尚相关的搜索查询来接收与时尚有关的图像。
36.对象提取组件114标识每个图像中存在的(多个)对象。对象提取组件114可以使用任何(多个)机器训练分类模型来执行该任务。例如,a.2节描述了用于执行该任务的三个说明性种类的神经网络。作为概述,可以训练多类分类模型以检测图像中的任何对象集,诸如人、特定人脸、动物物种、自然景观特征、建筑物、产品等。此外,分类模型可以被训练以检测在图像中描绘的动作,诸如“跑步”、“游泳”、“指向”等。更具体地,一些分类模型标识图像包含特定种类对象的概率,而不估计这些对象在图像中的位置。其他分类模型标识图像中对象的存在和位置,例如,通过指定边界框、对象遮蔽等。
37.创建侧对象过滤组件116可选地移除检测到的未能满足一个或多个测试的对象(和对象之间的关系)。a.2节描述了充当该角色的不同类型的过滤组件。例如,品质过滤组件将不符合各种品质相关标准的对象排除在外。
38.在一种实现中,对象收获组件112将其对每个对象的分析结果表达为属性集合。对象收获组件112然后将这些结果存储在数据存储库118中。如本文中使用的,“属性”是指与属性值(例如,“意大利”)耦合的属性变量(例如,位置)。属性包括关于对象的分类的信息(本文中称为实体信息)、以及对象在图像中的位置(如果已知)。对象提取组件114可以在不同级别的特异度下对对象进行分类。例如,在一种情况下,对象提取组件114将示出建筑物实体的图像标识为“房屋”。备选地或附加地,对象提取组件114标识图像中的特定类型的实体,诸如“白宫”。对象提取组件114可以通过指定其封闭边界框的位置或通过指定其掩蔽等来描述每个对象的位置。可选地,对象提取组件114还可以存储与对象本身相关联的图像内容,例如,对应于由与对象相关联的边界框所包围的像素内容。
39.对象收获组件112还可以计算与每个对象相关联的至少一个潜在语义向量。然后它将(多个)潜在语义向量存储为与对象相关联的另一属性。在一种实现中,对象收获组件112可以通过使用深度神经网络(dnn)(诸如下面结合图10描述的该种类的卷积神经网络(cnn))计算每个潜在语义向量。cnn将与对象相关联的图像的区域映射为与潜在语义向量相对应的该区域的特征空间表示。潜在语义向量对应于对象含义的分布式表示。
40.对象收获组件112还可以存储关于每个对象的其他属性。属性可以包括:与对象相关联的父对象(如果有);与对象相关联的图像;与对象相关联的网页(如果有);与对象相关联的实体;与对象相关联的图像被捕获的时间;与对象相关联的图像被捕获的位置,等等。这个列表是可扩展的;因此,不同环境可以存储不同的属性集合以服务于其相应最终使用目标。
41.图形构建组件120将存储在数据存储库118中的对象信息组装成关系索引108,关系索引108存储在另一数据存储库122中。它通过向每个对象分配索引条目来执行该任务。索引条目可以被概念化为图中的节点。图形构建组件120还将对象分配给从中提取了对象的每个复合图像。图形构建组件120还向从中提取了一个或多个图像的每个网页分配对象。因此,关系索引108中的一些索引条目表示没有组件子对象的对象,而其他索引条目表示包含两个或更多个子对象的复合对象。
42.关系索引108还包括将对象连接在一起的边(链接)集合。例如,在某些情况下,一个对象包括明确指向一个或多个其他对象的一个或多个属性。例如,对象可以包括指示其
属于图像内的父对象的第一属性。它可以包括指示其属于特定图像的第二属性。并且它可以包括标识其最终源自特定网页的第三对象。每个这样的属性定义了两个对象之间的链接。
43.对象可以包括其他属性,该属性没有明确地指向其他对象,但是与共享相同属性(或者更具体地,共享相同属性变量的相同属性值)的一个或多个对象建立联系。例如,在某个特定于环境的接近度阈值(λ1)内,第一图像中的第一对象的潜在语义向量可能与第二图像中的第二对象相关联的潜在语义向量匹配。可以说,第一对象链接到第二对象,因为它们都具有相同的潜在语义向量,并且因此被认为是相同的实体。备选地,第一对象可以通过描述相似对象的链接而被链接到第二对象;当它们的两个潜在语义向量之间的距离大于第一阈值(λ1)但小于第二阈值(λ2)时,这是正确的。应用可以使用任何距离度量(诸如余弦相似度、欧几里得距离等)来定义两个向量之间的距离。
44.在其他情况下,第一对象和第二对象可以因为它们源自同时捕获的图像而被认为被链接。在其他情况下,第一对象和第二对象可以因为它们源自在相同位置捕获的图像而被认为被链接。在其他情况下,对象可以因为它们与相同实体相关联而被认为被链接,即使它们的语义向量在语义向量空间中可能不靠近在一起。
45.在一些实现中,图形构建组件120不分配用以表示对象之间的链接的单独的数据项。相反,在这种情况下,图形构建组件120使用对象本身的属性来指定链接。在其他实现中,图形构建组件120可以包括指定链接的显式数据项。
46.注意,关系索引108隐含地存储应用可以使用的、用以调查对象在图像内共现的信息。例如,当两个对象都链接到相同父对象时,应用可以断定两个对象共同出现在相同图像中。如果它们共同出现在父对象中,则它们也固有地共同出现在相同图像中。在其他情况下,应用可以因为它们出现在相同图像中而断定两个对象共同出现,尽管它们不属于相同父对象。在其他情况下,应用可以因为对象都源自相同网页中的图像而断定对象共同出现,即使它们并非源自该网页上的相同图像。
47.可选的共现标识组件124可以向关系索引108添加附加链接以指示对象之间的附加关联。例如,考虑这样一种情况,其中图像示出一个人站在地标(诸如历史建筑物)旁边。由于人和历史建筑物都被描绘在相同图像中,因此对象提取系统104自动地将人对象链接到历史建筑物对象。但是对象提取系统104不会自动将人对象链接到作为语义单元的历史建筑物对象。当这个人是在度假时参观历史建筑物的游客时,该对象的这种处理是适当的;否则这个人与这个历史建筑物没有很深的联系。但接下来考虑男人是历史建筑物的看守人的情况。在这种情况下,这个人可能以被认为是名副其实的历史建筑物本身的固定人选。共现标识组件124标识诸如这些等情况并且用附加对象属性来记录它们。例如,共现标识组件124可以向人对象添加指向历史建筑物对象的属性,反之亦然。共现标识组件124可以基于统计信息进行该评估,例如,当它观察到相同人在超过规定数目的图像中出现在历史建筑物旁边时。
48.提供另一示例,图像可以示出两个人。同样,与这两个人相关联的对象共同出现,因为它们在至少一个图像中一起出现。但这些人可能是陌生人,并且这个图像可能只是巧合将他们拍到了一起。因此,这两个对象之间的链接很浅。另一方面,这些人可能是亲密的朋友或婚姻伙伴。当观察到这两个人一起出现在超过规定数目的图像中时,共现标识组件
124可以进行该评估。在这种情况下,它可以向相互指向的两个对象添加属性。共现标识组件124被称为“补充”,因为它捕获由对象提取组件114标识的关系之外的关系。
49.进一步注意,图形构建组件120可以以资源高效方式将信息存储在关系索引108中。例如,关系索引108可以包括页面级索引条目,页面级索引条目链接到图像级索引条目以记录对应图像出现在特定网页上的这一事实。图像级索引条目又可以链接到一个或多个父级索引条目。每个父级索引条目又可以链接到一个或多个子级索引条目,以此类推。图形构建组件120可以以避免重复信息的方式存储关于该对象链的信息。例如,图形构建组件120可以存储指示对应图像被创建的时间和位置的图像级索引条目的属性。链接到该图像对象的每个子对象都继承这些属性,而不必复制该信息。
50.与对象检索系统106交互的用户可以提交指定查询对象和感兴趣关系的搜索查询。基于该查询,对象检索系统106利用关系索引108来查找相关对象。例如,假定感兴趣对象是衬衫,并且用户指定她有兴趣查找与衬衫互补的服装项目。对象检索系统106可以返回链接到衬衫的一组裤子、帽子、鞋子等。更具体地,这些互补对象与衬衫相关联,因为它们与衬衫一起出现在一个或多个图像中。在其他情况下,用户可能只对查找出现衬衫的图像感兴趣。在其他情况下,用户可能对查找与指定衬衫相似但不相同的衬衫的图像感兴趣。用户可以挖掘在关系索引108中指定的对象之间的其他关系。
51.图2示出了可以将说明性图像202链接到其他图像和相关联对象的一些关系的示例。在这个仅仅是说明性的情况下,图像202示出了一位名人站在意大利比萨的比萨大教堂旁边。对象提取组件114标识该图像202中的多个对象,包括人物对象204和比萨大教堂对象206。对象提取组件114还确定人物对象204由多个组件对象组成。例如,对象提取组件114使用面部识别技术来识别人的身份(如果可能),以提供面部对象208。面部识别技术可以通过将与人的面部相关联的潜在语义向量与先前存储的与已知面部相关联的向量进行比较来执行该任务。对象提取组件114还标识分别与识别出的夹克和裤子相关联的夹克对象210和裤子对象212。更一般地,对象收获组件112为图像202中的每个这样的对象提取完整的属性集合,包括潜在语义向量、边界框信息、实体信息等。图2示出了时间信息214,时间信息214可以对应于可交换图像文件格式(exif)元数据。数码相机在捕获时将时间信息214与图像202相关联。
52.在这个仅仅是说明性的示例中,假定面部对象208被链接到相同人出现的至少三个其他图像(222、224、226)中的面部对象(216、218、220)。例如,图像202中的面部对象208可以与图像(222、224、226)中的面部对象(216、218、220)链接,因为面部对象208具有在每个这样的其他面部对象的阈值距离内的潜在语义向量。
53.类似地,图像202中的夹克对象210被链接到图像230中的相同夹克对象228。图像202中的裤子对象212被链接到图像236和238中的相同的相应裤子对象(232、234)。建筑物对象206被链接到图像242中的相同建筑物对象240。图像242进而包括由于它们都共享相同捕获位置(即,因为它们都是在意大利国家/地区拍摄的)的这一事实而链接到图像248中的雕像对象246的另一建筑物对象244。同样,雕像对象246被链接到图像226中的另一建筑对象250,因为它们都属于相同国家。由于这些图像是同时拍摄的,所以图像202被链接到图像252。图像202也被链接到图像252,因为建筑对象206(在图像202中)和城市景观对象254(在图像252中)属于相同国家(意大利)。最后,图像202包括指示其源自特定网页258的链接。如
图所示,该网页258包括多个图像,包括图像202。
54.注意,图2所示的对象中的一些由于它们源自相同父对象的这一事实而相关。例如,图像236中的裤子对象232由于它们属于相同人的这一事实而被链接到衬衫对象256。类似地,图像238中的裤子对象234由于它们属于相同人的这一事实而被链接到衬衫对象258。这提供了一种关系,给定指定查询对象(诸如指定裤子对象212的查询对象),对象检索系统106可以利用该关系从关系索引108中提取互补对象。
55.图3示出了可以用于实现图1的计算环境102的计算设备302。计算设备302包括经由计算机网络308耦合到一个或多个用户计算设备306的一个或多个服务器304。用户计算设备306可以对应于以下中的任何一种:台式计算设备、膝上型计算设备、任何类型的手持计算设备(智能电话、平板型计算设备等)、混合现实设备、游戏控制台、可穿戴计算设备、智能物联网(iot)设备等。每个用户计算设备(诸如代表性用户计算设备310)包括本地程序功能(诸如代表性本地程序功能312)。计算机网络308可以对应于广域网(例如,互联网)、局域网、一个或多个点对点链接等、或其任何组合。
56.计算环境102的功能可以以任何方式分布在服务器304与用户计算设备306之间。在一种实现中,服务器304实现计算环境102的所有功能。在这种情况下,用户可以经由由用户计算设备提供的浏览器程序与对象检索系统106的功能交互。在另一实现中,每个用户计算设备实现图1所示的功能中的一些,而服务器304实现其他功能。例如,每个用户计算设备可以实现对象检索系统106的至少一些用户界面功能;服务器304可以实现图1所示的其余功能。
57.a.2.对象提取系统
58.图4示出了图1的对象提取系统104可以针对每个对象而提取的属性集合。在一种非限制性实现中,对象可以包括对象id;至少一个潜在语义向量;标识与对象相关联的父对象(如果有)的父对象id;标识其中包括有对象的图像的图像id;标识其中包括有对象的图像的网页或其他源文档的页面id;捕获图像的时间;捕获图像的位置;与对象相关联的实体等。注意,任何对象都可以通过从父对象继承来包括属性;在这种情况下,不需要对象存储属性的副本。
59.图5示出了与图2所示的夹克对象210相关联的一组说明性属性。注意,夹克对象210包括指示其属于父人物对象204的父对象id。
60.图6示出了创建侧对象过滤组件116的更详细的描述。如上所述,创建侧对象过滤组件116可以消除由对象提取组件114标识的未能满足各种测试的任何对象。备选地或附加地,创建侧对象过滤组件116可以修改与对象相关联的属性,例如,通过移除将对象与另一对象相关联的链接。对象过滤组件116包括执行不同功能的子组件集合。在一些情况下,每个子组件可以基于在数据存储库602中提供的离散的一组规则来操作。备选地或附加地,每个子组件可以使用机器训练模型来操作。
61.主题过滤组件604可以移除与一个或多个类别的非许可对象相对应的对象。每个应用环境都可以定义什么是非许可对象。例如,一些环境可以排除示出特定种类的人的对象(例如,私人而不是公众人物、儿童等)。主体过滤组件可以通过将由对象提取组件提供的对象类型信息和面部识别信息与定义许可对象的白名单进行比较来操作;主题过滤组件604可以排除具有未出现在白名单上的对象类型或用户身份的任何对象。
62.品质过滤组件606排除不满足一个或多个规定品质相关测试的对象。例如,在时尚相关领域,品质过滤组件606可以使用机器训练分类模型来区分服装的目录品质图像与人的个人照片。它可以排除个人照片,除非这些照片与目录图像非常相似。另一机器训练模型可以标识被遮挡或剪切的对象等。训练系统(未示出)可以基于被标记为品质良好或品质较差的训练图像语料库来训练这些种类的分类模型。备选地或附加地,品质过滤组件606可以应用离散量度(例如,信噪比量度)来消除不合标准的对象。备选地或附加地,品质过滤组件606可以基于对象的来源(例如,基于获取其对应对象的网站)来确定是否保留对象。
63.分集过滤组件608可以基于各种分集相关考虑因素来移除对象。例如,在这些对象不向关系索引贡献任何新信息的情况下,分集过滤组件608可以移除重复对象。例如,假定图6中的夹克对象210链接到与夹克对象228相同的很多其他夹克对象(例如,因为它们的潜在语义向量是相同的,相对于特定于环境的容限阈值)。分集过滤组件608可以排除关系索引108中的这些冗余对象中的全部或一些,因为冗余对象不传达超出夹克对象228的任何信息。但是即使以这种方式修剪关系索引108,分集过滤组件608可以保留标识关系索引108中的对象和关系的共性的统计信息。这些规定使关系索引108更高效。
64.法律过滤组件610和隐私过滤组件612可以基于特定管辖区的法律和/或规范移除任何对象。隐私过滤组件612还可以模糊各种对象以保护用户的隐私,诸如面部、个人信息等。数据存储库602可以包括定义应当排除或模糊哪些对象类型的规则。
65.在更一般的隐私主题上,计算环境102可以包括保护个人隐私的各种规定。在一个这样的选项中,计算环境102允许个体最终用户明确授权计算环境102收集他们自己捕获的和/或在其中描绘他们的图像。计算环境102然后允许用户撤销这样的授权;在该事件时,计算环境102将移除由用户提交的和/或在其中描绘用户的图像的索引项。根据另一规定,对象提取系统104可以使用各种类型的广泛的公共可用图像来标识对象之间的关系。例如,对象提取系统104可以使用目录图像和用户照片两者来确定不同服装项目之间的相关性。但是一旦了解了服装项目之间的关系,对象检索系统106将仅显示与服装项目相关联的目录图像。备选地或附加地,它只能显示由已经被明确选择以参与由计算环境102提供的服务的用户提交的图像。
66.图7-图10示出了对象提取组件114的三个相应实现。每个实现使用分类组件来标识图像内的(多个)实体,从而提供实体信息。一些实现还标识这些实体在图像内的位置。
67.从图7开始,该图示出了识别输入图像中的对象、但不标识这些对象的位置的图像分类组件702。例如,图像分类组件702可以标识出输入图像704包含至少一个人和至少一个计算设备,但也不提供标识这些对象在图像中的位置的边界框信息。在一种实现中,图像分类组件702包括每像素分类组件706,每像素分类组件706标识相对于可能对象类型集合(例如,狗、猫、人等)每个像素最有可能属于的对象。每像素分类组件可以使用卷积神经网络(cnn)执行该任务。对象标识组件708使用每像素分类组件706的输出结果,来确定图像是否包含所考虑的每个对象的至少一个实例。对象标识组件708可以通过生成归一化得分来做出该确定,该归一化得分标识与所考虑的每个对象相关联的像素在输入图像中出现的频率。关于一种类型的基于像素的对象检测器的一般背景信息可以在fang等人的“from captions to visual concepts and back”(arxiv:1411.4952v3[cs.cv],april 14,2015,10pages)中找到。
[0068]
前进到图8,该图示出了使用双级方法来确定对象在输入图像中的存在和位置的第二图像分类组件802。在第一级,roi确定组件804标识与输入图像中的相应对象相关联的感兴趣区域(roi)。roi确定组件804可以依赖于不同技术来执行该功能。在选择性搜索方法中,最初从相对较小的图像区域开始,roi确定组件804迭代地合并输入图像中满足规定相似性测试的图像区域。roi确定组件804可以基于与输入图像相关联的特征(诸如颜色、亮度、色调、纹理等)的任何组合来评估相似性。在该迭代过程终止时,roi确定组件804围绕所标识的区域绘制边界框。在另一种方法中,roi确定组件804可以使用区域提议网络(rpn)来生成roi。在下一级中,每roi对象分类组件806使用cnn或其他机器训练模型,来标识与每个roi相关联的最可能对象。与一种说明性类型的双级图像分类组件有关的一般背景信息可以在ren等人的“faster r-cnn:towards real-time object detection with region proposal networks”(arxiv:1506.01497v3[cs.cv],january 6,2016,14pages)中找到。
[0069]
图9示出了使用单级来确定对象在输入图像中的存在和位置的第三图像分类组件902。首先,该图像分类组件902使用基础cnn 904将输入图像转换为中间特征表示(“特征表示”)。然后它使用对象分类器和框位置确定器(ocbld)906同时对对象进行分类并且确定它们在特征表示中的相应位置。ocbld 906通过处理具有不同相应比例的特征表示的多个版本来执行该任务。通过对不同尺寸的版本执行分析,ocbld 906可以检测具有不同尺寸的对象。更具体地,对于表示的每个版本,ocbld 906在表示上移动较小过滤器。在过滤器的每个位置处,obcld 906考虑其中可能存在或不存在对象的一组候选边界框。对于每个这样的候选边界框,ocbld 906生成多个得分,每个得分表示特定种类的对象存在于所考虑的候选边界框中的可能性。最终级抑制组件使用非最大抑制,来标识图像中包含的最可能对象及其相应边界框。关于一种说明性类型的单级图像分类组件的一般背景信息可以在liu等人,“ssd:single shot multibox detector”(arxiv:1512.02325v5[cs.cv],december 29,2016,17pages)中找到。
[0070]
在又一种方法(未示出)中,分类组件可以通过基于与对象相关联的图像内容计算潜在语义向量(“查询潜在语义向量”),来确定特定对象的分类。然后它可以使用这个查询潜在语义向量,在参考图像的数据存储库中查找一个或多个匹配图像。这些匹配图像对应于具有在查询潜在语义向量的规定距离内的潜在语义向量的图像。在一种实现中,分类组件可以使用近似最近邻(ann)技术查找这些附近的潜在语义向量。假定数据存储库中的每个这样的参考图像都用描述其分类的标签信息或关键字信息进行注释。分类组件可以为(多个)所标识的匹配图像提取该文本信息,以提供所考虑的对象的分类。简而言之,该分类模型利用检索操作作为分类操作的代理。与上述三个示例一样,可以说,该分类组件使用机器训练模型,因为它使用机器训练模型来生成潜在语义向量。
[0071]
可以训练一个或多个其他分类模型以检测特定种类的对象。例如,机器训练的面部识别模型可以基于人脸图像使用cnn,来确定图像中描绘的人的身份。
[0072]
图10示出了可以用于实现上述分类组件的各个部分的卷积神经网络(cnn)1002。cnn 1002在阶段流水线中执行分析。一个或多个卷积组件1004对输入图像1006执行卷积操作。一个或多个池化组件1008执行下采样操作。一个或多个全连接组件1010分别提供一个或多个全连接神经网络,每个全连接神经网络包括任何数目的层。更具体地,cnn 1002可以以任何顺序散布上述三个种类的组件。例如,cnn 1002可以包括与池化组件交错的两个或
更多个卷积组件。在一些实现中,cnn 1002可以包括基于由前一层提供的特征信息输出分类结果的分类组件1012。例如,分类组件1012可以对应于softmax组件、支持向量机(svm)组件等。
[0073]
在每个卷积操作中,卷积组件在输入图像上移动n
×
m内核(也称为滤波器)(其中“输入图像”在该一般上下文中是指馈送到卷积组件的任何图像)。在一种实现中,在内核的每个位置,卷积组件生成内核值与图像的底层像素值的点积。卷积组件将该点积存储为输出图像中与内核的当前位置相对应的位置处的输出值。更具体地,卷积组件可以对具有不同机器学习内核值的不同内核集合执行上述操作。每个内核对应于不同模式。在早期处理层中,卷积组件可以应用内核以标识图像中相对原始的模式(诸如边、角等)。在后面的层中,卷积组件可以应用内核以查找更复杂的形状。
[0074]
在每个池化操作中,池化组件在输入图像上移动预定大小的窗口(其中输入图像对应于馈送到池化组件的任何图像)。池化组件然后对窗口所包围的输入图像的值执行某种聚合/汇总操作,诸如通过标识和存储窗口中的最大值,生成和存储窗口中的值的平均值,等等。
[0075]
全连接组件可以通过形成单个输入向量来开始其操作。它可以通过串联馈送到其的输入图像(或多个图像)的行或列来执行该任务,以形成单个输入向量。然后,全连接组件将输入向量馈送到全连接神经网络的第一层。通常,神经网络中的每一层j神经元产生由下式给出的输出值zj:zj=f(wjz
j-1
bj),其中j=2,...n。符号j-1是指神经网络的前一层。符号wj表示层j的机器学习权重矩阵,符号bj表示层j的机器学习偏置向量。激活函数f(
·
)可以用不同方式表示,诸如整流线性单元(relu)。
[0076]
考虑特定上下文,其中cnn 1002接收与特定对象相关联的图像的一部分,诸如由与对象相关联的边界框包围的像素。(多个)全连接组件1010的输出,可以被认为是与对象相关联的潜在语义向量。该向量提供与对象相关联的含义的分布式表示。在这点上,对象收获组件112可以利用cnn 1002来为所考虑的每个对象生成标识与对象相关联的潜在语义向量的属性。
[0077]
a.3.对象检索系统
[0078]
图11示出了对象检索系统106的一种说明性实现。给定由用户提交的查询对象,对象检索系统106允许用户使用关系索引108提取信息。
[0079]
对象检索系统106包括允许用户与对象检索系统106交互的用户界面(ui)组件1102。更具体地,ui组件1102包括允许用户指定查询对象的源对象选择组件1104。在一种情况下,用户通过在较大的一组图像中选择查询对象来指定查询对象。例如,假定用户当前正在查看包括多个图像的网页,每个图像描绘单个对象。用户可以通过单击图像中的一个来选择查询对象。或者,用户可以捕获并且加载描绘对象的新图像。在又一种情况下,用户可以通过键入标识对象的字母数字信息或以其他方式选择该字母数字信息来指定对象。例如,用户可以通过输入夹克对象的产品名称作为查询对象来选择该夹克对象。
[0080]
在又一种情况下,假定图像包含两个或更多个对象。用户可以通过选择与图像相关联的图像的一部分来选择图像中的对象。例如,用户可以单击图像中与对象相关联的点。或者,用户可以调节边界框使得其包含对象。
[0081]
应用侧对象提取组件1106执行与创建侧对象提取组件114相同的角色。即,应用侧
对象提取组件114可以使用图7-图9所示的任何分类组件检测由用户指定的种类的对象,标识与对象相关联的潜在语义向量,等等。更一般地,应用侧对象提取组件1106可以提取与每个图像或在图像内指定的每个对象相关联的属性集合。在其他情况下,用户可以选择其属性已经被标识并且存储在关系索引108中(例如,在离线提取过程中)的对象。
[0082]
对象检索组件1108使用查询对象来标识链接到查询对象的一个或多个其他对象,如关系索引108所指定的。在一种实现中,对象检索组件1108通过首先定位关系索引108(如果存在)中与查询对象相关联的索引条目来执行该任务。例如,对象检索组件1108可以使用由应用侧对象检测组件1106为查询对象而提取的一个或多个属性(或先前提供的与查询对象相关联的(多个)属性)来以特定于环境的容忍度在关系索引108中查找与查询对象相对应的节点。然后根据由用户指定的关系种类(边类型)标识链接到查询对象的其他对象。例如,如果用户有兴趣标识与查询对象具有互补关系的对象,则它跟踪关系索引108中与对象共同出现相关联的适当边以查找相关对象。在另一实现中,对象检索组件1108使用由应用侧对象检测组件1106为查询对象而提取的(多个)属性(或与查询对象相关联的先前提供的(多个)属性)来在关系索引108中直接查找相关对象,例如,无需首先尝试在关系索引108中查找与查询对象相关联的预先存在的对应节点。
[0083]
在以上述方式查找相关对象之后,对象检索组件1108可以从数据存储库1110(其可以对应于专用数据存储库或与互联网相关联的分布式资源)中检索与所标识的对象相关联的图像信息。在一种实现中,数据存储库1110存储由对象提取系统104在其关系索引108的生成中处理的实际图像。例如,假定对象提取系统104从特定公共图像x中提取特定对象(诸如夹克对象);数据存储库1110将存储这个相同图像x。在另一种情况下,数据存储库1110包含代理图像,诸如目录图像或某个其他种类的精选图像集合。例如,数据存储库1110可以使用目录图像x'来代替由对象提取系统104实际使用以检测夹克对象的上述公共图像x。然后显示该目录图像x'代替图像x。
[0084]
可选的应用侧对象过滤组件1112可以提供由创建侧对象过滤组件116执行的任何过滤操作。但是应用侧对象过滤组件1112可以应用为适应特定应用的目标而定制的规则集和/或机器训练模型。例如,在购物相关上下文中,应用侧对象过滤组件1112可以将检索到的对象聚类为一个或多个组,并且然后从每个聚类中选择一个或多个代表性对象以呈现给用户。这一规定提高了呈现给用户的项目的多样性。应用侧对象过滤组件1112可以通过使用任何类型的聚类技术(例如,k均值聚类)在语义向量空间中形成各组潜在语义向量来执行该任务。然后它可以从该组中选择具有最佳品质的一个或多个图像,如由品质过滤组件评估的。
[0085]
结果呈现组件1114呈现由对象检索系统106标识的对象。结果呈现组件1114可以使用任何呈现策略来执行该任务,诸如通过呈现与所标识的对象相关联的图像阵列。此外,结果呈现组件1114可以显示将查询对象连接到所标识的相关对象的边。结果呈现组件1114还可以用标签注释边以描述边描绘的关系的种类。备选地或附加地,结果呈现组件1114可以呈现描述相关对象的字母数字信息,诸如通过提供描述相关对象的文本片段的列表。
[0086]
图11还示出了用于基于从关系索引108中提取的信息创建机器训练模型的训练系统1116。训练系统1116包括用于提取相关图像对的数据集收获组件1118。它通过向对象检索组件1108提交查询对象并且响应于此而接收相关对象来执行该任务。例如,数据集收获
组件1118可以向对象检索组件108提交示出衬衫对象的查询对象。假定对象检索组件1108返回示出衬衫对象和补充裤子对象的图像。换言之,对象检索组件1108标识衬衫对象与裤子对象共同出现在其中的至少一个图像。衬衫对象和裤子对象的配对构成了单个肯定训练示例。数据集收获组件1118可以通过将对象随机配对在一起(假定这些对象不会相关)来生成否定训练示例。数据集收获组件1118将训练示例存储在数据存储库1120中。
[0087]
训练组件1122然后基于数据存储库1120中的训练示例训练机器训练模型。它可以使用任何机器学习技术来执行该任务,诸如随机梯度下降等。更具体地,在一种情况下,训练组件1122可以训练模型,该模型在给定输入查询对象id或示出查询对象本身的输入图像的情况下预测补充对象id。在另一种情况下,训练组件1122训练生成模型,该生成模型基于指定查询对象合成互补对象图像。在不期望它与数据存储库1110中的真实预先存在图像匹配的意义上,该对象是合成的。对象检索系统106然后可以在规定容限范围内从与所生成的图像匹配的数据存储库1110中检索“真实”预先存在图像。
[0088]
图12示出了用于创建特定于环境的关系索引1204的对象检索平台1202。例如,假定百货商店包括它销售的产品目录。假定它还在数据存储库1208中包括描述这些产品的一组高品质图像1206。关系挖掘组件1210提取主关系索引108(如上所述)中与百货商店目录中的项目匹配的所有索引条目(和这些索引条目之间的关系),并且排除所有其他索引条目和关系。然后它将索引条目和链接的该子集存储在数据存储库1212中。对象和链接的该子集构成特定于环境的关系索引1204,因为它被专门定制以适合特定机构的目录选择。
[0089]
特定于环境的对象检索系统1214执行与上述对象检索系统106相同的功能,但在由特定于环境的关系索引1204定义的较窄上下文内。特定于环境的对象检索系统1214还可以示出从其目录获取的图像,如存储在数据存储库1208中的。这有助于提供统一的用户体验。然而,如果这些最终用户如此授权,对象检索系统1214还可以向用户提供查看由最终用户捕获的示出其产品的图像的选项。例如,对象检索系统1214可以呈现个人照片,该照片示出穿着百货公司出售的衬衫的人,代替或补充该衬衫的正式目录图像。
[0090]
图13示出了图11的用户界面(ui)组件1102可以向用户呈现的ui呈现1302。它允许用户在提交搜索查询时指定他或她的搜索目标的各方面。它还允许用户响应于搜索查询的提交来指定对象检索系统106的行为。例如,在区域1304中,ui组件可以允许用户指定:从其获取匹配对象的(多个)源;要显示的匹配对象的(多个)类型;应当排除的匹配对象的(多个)类型;查询对象与相关对象之间的(多个)感兴趣关系;获取匹配对象的时间跨度(相对于对象的创建时间)等。这些标准是出于说明而非限制的精神而提出的;ui呈现1302可以允许用户以另外的方式控制由对象检索系统106执行的匹配。
[0091]
在区域1306中,ui呈现1302还包括用于控制ui组件1102如何向用户呈现搜索结果的各种选项。例如,ui呈现1302可以允许用户指示对象检索系统106去除搜索结果中的重复项、按流行度或时间等对搜索结果进行排序、等等。
[0092]
图14示出了由ui组件1102提供的另一ui呈现1402。这里,用户与ui组件1102交互以指定图像1404中的查询对象,例如,通过移动边界框1406,使得它包含查询对象。本示例中的查询对象指定裤子。进一步假定,用户指定(经由ui呈现1302等)他或她有兴趣查看与查询对象具有互补关系的对象。
[0093]
作为响应,对象检索系统106标识包括多组图像的搜索结果1408。每个图像补充由
用户标识的裤子。例如,第一组图像(1410、1412、1414、
……
)标识互补衬衫。这里,这些图像(1410、1412、1414、
……
)中的每个示出了穿着由用户标识的裤子和互补衬衫的模特。但在另一种情况下,搜索结果1408可以仅示出互补衬衫的图像。搜索结果2408可选地还示出图像中的互补鞋子(1416、1418、1420、
……
)、图像中的互补帽子(1422、1424、1426、
……
)等。应用侧对象过滤组件1112可以通过对相关互补对象进行聚类,并且然后从每个如此标识的组中选择一组排名靠前的图像来形成这些组。
[0094]
图15示出了ui呈现1502,其中用户选择与图像1506中的特定人相关联的查询对象1504。假定应用侧对象提取组件1106使用面部识别技术来确定查询对象对应于名人。进一步假定,用户指定他或她有兴趣确定查询对象中示出的人与其他名人之间的联系。
[0095]
作为响应,对象检索系统106提供搜索结果1508,搜索结果1508示出与查询对象在图像中共同出现的一组面部相关对象1510。搜索结果1508还可以可选地示出将以下项连接的链接:与查询对象相关联的面部相关对象1512与面部相关对象集合1510。换言之,搜索结果1508示出具有与查询对象相对应轴心点的社交图。搜索结果1508还可以可选地提供图形提示1514,该图形提示1514邀请用户查看实际源图像,在该实际源图像中,查询对象与所标识的面部相关对象1510中的一个或多个一起出现。
[0096]
图16示出了ui呈现1602,ui呈现1602示出了按捕获时间布置包括相同查询对象(这里是罗马斗兽场)的图像1604的搜索结果。例如,用户可以请求这一系列图像来查看多年重建投影的进度。
[0097]
图17示出了ui呈现1702,ui呈现1702示出了提供标有位置“意大利”的一组图像1704的搜索结果。尽管未示出,但用户可以通过指定两个或更多个属性(诸如位置和时间)来请求搜索结果。
[0098]
在另一应用中,用户可以指示对象检索系统106查找与指定查询对象相似的对象,但不查找相同查询对象的重复副本。对象检索系统106可以通过使用近似最近邻(ann)技术查找具有在到与查询对象相关联的潜在语义向量的距离λ2内但比到与查询对象相关联的潜在语义向量的距离λ1远的潜在语义向量的图像来执行该任务。
[0099]
在另一应用中,用户可以指示对象检索系统106查找其中出现指定查询对象的所有图像,对于什么构成查询对象的重复版本具有指定容忍度。对象检索系统106可以使用ann技术来执行该任务。然后,用户可以检查这些图像以确定它们是否表示对用户的查询对象的版权侵犯。
[0100]
b.说明性过程
[0101]
图18和图19以流程图的形式示出了解释a节的计算环境102的操作的过程。由于计算环境102的操作的基本原理已经在a节中进行了描述,某些操作将在本节中以概括方式讨论。如“具体实施方式”的序言部分所述,每个流程图都表示为以特定顺序执行的一系列操作。但这些操作的顺序仅仅是代表性的,并且可以以任何方式改变。
[0102]
图18示出了表示图1的对象提取系统104的概述的过程1802。更具体地,对象提取系统104针对多个图像中的每个图像执行图18所示的步骤,例如,以串联或并联方式。在框1804中,对象提取系统104从图像源检索图像。在框1806中,对象提取系统104使用机器训练模型标识在所述图像中描绘的对象集合。在框1808中,对象提取系统104使用机器训练模型,将与该对象集合中的每个对象相关联的图像内容映射到至少一个潜在语义向量,每个
潜在语义向量对应于与对象相关联的属性。在框1810中,对象提取系统104标识与每个对象相关联的一个或多个附加属性。在框1812中,对象提取系统104在关系索引108中提供与每个对象相关联的索引条目,该索引条目包括与该对象相关联的属性集合,该属性集合包括至少一个潜在语义向量和与对象相关联的一个或多个附加属性。关系索引108整体包括多个索引条目,多个索引条目经由与该多个索引条目相关联的属性被链接。在以上述方式处理期望数目的图像之后,在框1814中,对象提取系统104在与对象检索系统106相关联的数据存储库中安装关系索引108。
[0103]
图19示出了过程1902,过程1902表示图11或12的对象检索系统106的概述。在框1904中,对象检索系统106从用户接收指定查询对象的搜索查询,用户使用由用户计算设备提供的输入设备提交搜索查询。在框1906中,对象检索系统106可选地标识关系索引108中与查询对象有关的索引条目。在框1908中,对象检索系统106基于将查询对象链接到与查询对象相关的至少一个其他对象的至少一个属性,使用关系索引108来标识至少一个其他对象。在框1910中,对象检索系统106向用户计算设备提供向用户通知至少一个其他对象的搜索结果。
[0104]
c.代表性计算功能
[0105]
图20示出了可以用于实现上述附图中阐述的机制的任何方面的计算设备2002。例如,参考图3,图20所示的类型的计算设备2002可以用于实现任何服务器或用户计算设备等。在所有情况下,计算设备2002表示物理且有形的处理机制。
[0106]
计算设备2002可以包括一个或多个硬件处理器2004。(多个)硬件处理器2004可以包括但不限于一个或多个中央处理单元(cpu)和/或一个或多个图形处理单元(gpu)、和/或一个或多个专用集成电路(asic)等。更一般地,任何硬件处理器都可以对应于通用处理单元或专用处理器单元。
[0107]
计算设备2002还可以包括与一个或多个计算机可读介质硬件单元相对应的计算机可读存储介质2006。计算机可读存储介质2006保留任何种类的信息2008,诸如机器可读指令、设置、数据等。没有限制,例如,计算机可读存储介质2006可以包括一个或多个固态设备、一个或多个磁性硬盘、一个或多个光盘、磁带等。计算机可读存储介质2006的任何实例可以使用任何技术来存储和检索信息。此外,计算机可读存储介质2006的任何实例可以表示计算设备2002的固定或可移动单元。此外,计算机可读存储介质2006的任何实例可以提供信息的易失性或非易失性保留。
[0108]
计算设备2002可以以不同方式利用计算机可读存储介质2006的任何实例。例如,计算机可读存储介质2006的任何实例可以表示用于在计算设备2002对程序的执行期间存储瞬时信息的硬件存储器单元(诸如随机存取存储器(ram))、和/或用于更永久地保留/归档信息的硬件存储单元(诸如硬盘)。在后一种情况下,计算设备2002还包括用于从计算机可读存储介质2006的实例存储和检索信息的一个或多个驱动机构2010(诸如硬盘驱动机构)。
[0109]
当(多个)硬件处理器2004执行存储在计算机可读存储介质2006的任何实例中的计算机可读指令时,计算设备2002可以执行上述功能中的任何一种。例如,计算设备2002可以执行计算机可读指令以执行b节中描述的每个过程块。
[0110]
备选地或附加地,计算设备2002可以依赖于一个或多个其他硬件逻辑单元2012来
使用特定于任务的一组逻辑门来执行操作。例如,(多个)硬件逻辑单元2012可以包括例如在制造时创建和设置并且此后不可改变的硬件逻辑门的固定配置。备选地或附加地,(多个)其他硬件逻辑单元2012可以包括可以被设置为执行不同应用特定任务的一组可编程硬件逻辑门。后一类器件包括但不限于可编程阵列逻辑器件(pal)、通用阵列逻辑器件(gal)、复杂可编程逻辑器件(cpld)、现场可编程门阵列(fpga)等。
[0111]
图20总体上指示硬件逻辑电路系统2014包括(多个)硬件处理器2004、计算机可读存储介质2006和/或(多个)其他硬件逻辑单元2012的任何组合。即,计算设备2002可以采用执行计算机可读存储介质2006中提供的机器可读指令的(多个)硬件处理器2004和/或使用一组固定和/或可编程硬件逻辑门执行操作的一个或多个其他硬件逻辑单元2012的任何组合。更一般地,硬件逻辑电路系统2014对应于基于存储和/或以其他方式体现在(多个)硬件逻辑单元中的逻辑来执行操作的(多个)任何类型的一个或多个硬件逻辑单元。
[0112]
在一些情况下(例如,在计算设备2002表示用户计算设备的情况下),计算设备2002还包括用于接收各种输入(经由输入设备2018)并且用于提供各种输出(经由输出设备2020)的输入/输出接口2016。说明性的输入设备包括键盘设备、鼠标输入设备、触摸屏输入设备、数字化板、一个或多个静态图像相机、一个或多个摄像机、一个或多个深度相机系统、一个或多个麦克风、语音识别机制、任何运动检测机制(例如,加速度计、陀螺仪等)等。一种特定的输出机制可以包括显示设备2022和相关联的图形用户界面呈现(gui)2024。显示设备2022可以对应于液晶显示设备、发光二极管显示(led)设备、阴极射线管设备、投影机构等。其他输出设备包括打印机、一个或多个扬声器、触觉输出机构、存档机构(用于存储输出信息)等。计算设备2002还可以包括用于经由一个或多个通信管道2028与其他设备交换数据的一个或多个网络接口2026。一个或多个通信总线2030将上述单元通信耦合在一起。
[0113]
(多个)通信管道2028可以以任何方式实现,例如,通过局域网、广域计算机网络(例如,互联网)、点对点连接等、或任何其组合。(多个)通信管道2028可以包括由任何协议或协议组合管理的硬连线链接、无线链接、路由器、网关功能、名称服务器等的任何组合。
[0114]
图20将计算设备2002示出为由离散的一组分离单元组成。在一些情况下,该组单元可以对应于在具有任何形状因子的计算设备机箱中提供的离散硬件单元。图20示出了其底部的说明性形状因子。在其他情况下,计算设备2002可以包括集成了图1所示的单元中的两个或更多个单元的功能的硬件逻辑单元。例如,计算设备2002可以包括与结合了图20所示的单元中的两个或更多个单元的功能的集成电路相对应的片上系统(soc或soc)。
[0115]
以下概述提供本文中阐述技术的说明性方面的非穷尽集合。
[0116]
根据第一方面,描述了一种用于生成和应用关系索引的计算机实现的方法。该方法包括,对于多个图像中的每个图像:从图像源检索图像;使用机器训练模型来标识在图像中描绘的对象集合;使用机器训练模型将与该对象集合中的每个对象相关联的图像内容映射到至少一个潜在语义向量,每个潜在语义向量对应于与对象相关联的属性;标识与每个对象相关联的一个或多个附加属性;以及提供在关系索引中的与每个对象相关联的索引条目,索引条目包括与对象相关联的属性集合,该属性集合包括至少一个潜在语义向量和与对象相关联的一个或多个附加属性。关系索引整体包括多个索引条目,该多个索引条目经由与多个索引条目相关联的属性被链接。该方法还包括在与对象检索系统相关联的数据存储库中安装关系索引。在应用阶段,该方法包括:从用户接收指定查询对象的搜索查询,用
户使用由用户计算设备提供的输入设备提交搜索查询;基于将查询对象链接到与查询对象相关的至少一个其他对象的至少一个属性,使用关系索引标识至少一个其他对象;以及向用户计算设备提供向用户通知至少一个其他对象的搜索结果。
[0117]
根据第二方面,标识一个或多个附加属性的操作包括,对于与给定图像相关联的给定对象:标识其中出现给定对象的给定图像;并且标识其中出现给定图像的页面。
[0118]
根据第三方面,标识一个或多个附加属性的操作包括:对于与给定图像相关联的给定对象,标识给定对象是否与给定图像中的一个或多个其他对象相关。
[0119]
根据与第三方面相关的第四方面,标识给定对象是否相关的操作包括:确定给定对象和另一对象是否与给定图像中的相同父对象相关联。
[0120]
根据第五方面,标识一个或多个附加属性的操作包括:对于与给定图像相关联的给定对象,标识与给定对象相关联的实体。
[0121]
根据第六方面,该方法还包括:对于给定图像中的每个给定对象,确定是否要将给定对象的索引条目包括在关系索引中,该确定使用机器训练模型来确定与给定对象相关的品质是否满足规定品质测试。
[0122]
根据第七方面,描述了用于生成关系索引的一种或多种计算设备。(多个)计算设备包括硬件逻辑电路系统,硬件逻辑电路系统又包括:(a)一个或多个硬件处理器,通过执行存储在存储器中的机器可读指令来执行操作,和/或(b)一个或多个其他硬件逻辑单元,使用特定于任务的一组逻辑门执行操作。该操作包括,对于多个图像中的每个图像:从图像源检索图像;使用机器训练模型标识在图像中描绘的对象集合;使用机器训练模型将与该对象集合中的每个对象相关联的图像内容映射到至少一个潜在语义向量,每个潜在语义向量对应于与对象相关联的属性;标识与每个对象相关联的一个或多个附加属性;以及提供在关系索引中的与每个对象相关联的索引条目,索引条目包括与对象相关联的属性集合,该属性集合包括至少一个潜在语义向量和与对象相关联的一个或多个附加属性。关系索引整体包括多个索引条目,多个索引条目经由与多个索引条目相关联的属性被链接。
[0123]
根据与第七方面相关的第八方面,标识一个或多个附加属性的操作包括:对于与给定图像相关联的给定对象,标识其中给定对象出现的给定图像;并且标识其中给定图像出现的页面。
[0124]
根据与第七方面相关的第九方面,标识一个或多个附加属性的操作包括:对于与给定图像相关联的给定对象,标识给定对象是否与给定图像中的一个或多个其他对象相关联。
[0125]
根据与第九方面相关的第十方面,标识给定对象是否相关的操作包括:确定给定对象和另一对象是否与给定图像中的相同父对象相关联。
[0126]
根据与第七方面相关的第十一方面,标识一个或多个附加属性的操作包括:对于与给定图像相关联的给定对象,标识与给定对象相关联的创建时间;并且标识给定对象被创建的位置。
[0127]
根据与第七方面相关的第十二方面,标识一个或多个附加属性的操作包括:对于与给定图像相关联的给定对象,标识与给定对象相关联的实体。
[0128]
根据与第七方面相关的第十三方面,该操作还包括:对于给定图像中的每个给定对象,使用机器训练模型确定与给定对象相关联的品质是否满足规定品质测试。
[0129]
根据与第七方面相关的第十四方面,该操作还包括过滤关系索引以提取与特定环境相关联的对象和关系,以产生特定于环境的关系索引。
[0130]
根据第十五方面,描述了一种计算机可读存储介质,用于存储计算机可读指令。计算机可读指令在由一个或多个硬件处理器执行时执行如下方法,该方法包括:从用户接收指定查询对象的搜索查询,用户使用由用户计算设备提供的输入设备提交搜索查询;基于将查询对象链接到与查询对象相关的至少一个其他对象的至少一个属性,使用关系索引标识至少一个其他对象;以及向用户计算设备提供向用户通知至少一个其他对象的搜索结果。关系索引具有多个索引条目,每个索引条目与在图像中出现的对象相关联,并且与对象相关联的每个索引条目包括与该对象相关联的多个属性,该多个属性包括提供与对象相关联的至少一个潜在语义向量的属性。
[0131]
根据与第十五方面相关的第十六方面,接收搜索查询的操作包括接收用户对图像内的查询对象的选择。
[0132]
根据与第十五方面相关的第十七方面,该方法还包括从用户接收描述感兴趣关系的输入,其中使用操作通过以下方式来查找至少一个其他对象:相对于感兴趣关系查找与查询对象相关的一个或多个对象。
[0133]
根据与第十七方面相关的第十八方面,感兴趣关系是互补性,并且其中作为结果,查询对象与至少一个其他对象具有互补关系,互补关系基于查询对象和至少一个其他对象中的每个其他对象共同出现在一个或多个图像中的确定。
[0134]
根据与第十五方面相关的第十九方面,该方法还包括过滤搜索结果以提供与多个类别相关联的多个对象。
[0135]
根据与第十五方面相关的第二十方面,提供的操作包括提供与至少一个对象相关联的至少一个图像,该至少一个图像取自与特定环境相关联的特定于环境的图像的数据存储库,与特定于环境的图像相比,图像提取系统基于更全面的图像语料库生成关系索引。
[0136]
第二十一方面对应于上述第一至第二十方面的任何组合(例如,任何逻辑上一致的布置或子集)。
[0137]
第二十二方面对应于与第一到二十一方面相关的任何方法对应物、设备对应物、系统对应物、装置加功能对应物、计算机可读存储介质对应物、数据结构对应物、制品对应物、图形用户界面呈现对应物等。
[0138]
最后,本文中描述的功能可以采用各种机制来确保任何用户数据以符合适用法律、社会规范以及个人用户的期望和偏好的方式被处理。例如,该功能可以允许用户明确选择加入(然后明确选择退出)该功能的规定。该功能还可以提供合适的安全机制(例如,数据清理机制、加密机制、密码保护机制等)来确保用户数据的隐私。
[0139]
此外,本描述可能已经在说明性挑战或问题的上下文中阐述了各种概念。这种解释方式并不旨在暗示其他人已经以本文中指定的方式理解和/或阐明了该挑战或问题。此外,这种解释方式并非意在暗示权利要求中记载的主题仅限于解决所标识的挑战或问题;即,权利要求中的主题可以应用于本文中描述的挑战或问题之外的其他挑战或问题的上下文中。
[0140]
虽然已经以结构特征和/或方法动作特定的语言描述了主题,但是应当理解,所附权利要求中定义的主题不一定限于上述特定特征或动作。相反,上述特定特征和动作被公
开作为实现权利要求的示例形式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献