集成交互式图像分割的制作方法

2021-10-27 13:28:00 来源：中国专利 TAG：分割图像集成实施公开

1.本公开的实施例涉及图像分割(image segmentation)，并且更具体地涉及集成交互式图像分割。

背景技术：

2.例如，图像经常被分割以允许对图像进行编辑。图像分割通常是生成图像分段(segment)的过程。这种分段可以在编辑环境中使用掩模来可视化，该掩模指示将应用编辑的图像的分割部分，而不是将不被编辑影响的图像部分。分段可以沿着图像内的边界被创建，使得该分段表示图像内的对象和/或特征。例如，在个人的肖像中，图像可以被分割到个人的面部的分段或背景的分段中，或者如果更多的细节被期望，则图像可以被分割到个人的眼部分段、个人的牙齿分段、个人的头发分段等中。如此，针对这种肖像使用掩模可以指示编辑将仅被应用于图像的(多个)强调部分，而不是(多个)非强调部分。

技术实现要素：

3.本公开的实施例涉及允许基于多个分割的图像的最优分割的集成分割系统。根据本公开的实施例，集成分割系统允许通过考虑先前分割来组合多个分割方法(例如，使用各种分割工具实现的不同分割技术)。例如，可以通过将(例如，使用图像分割方法的)先前分割与(例如，使用相同或不同的图像分割方法的)当前分割迭代集成来生成最优分割。为了创建这种集成分割系统，可以使用一个或多个神经网络。例如，当从一种分割方法过渡到下一种分割方法时，集成分割系统可以实现卷积rnn以维持有关一个或多个先前分割的信息。卷积rnn可以将(多个)先前分割与当前分割组合，而不需要关于用于生成分割的(多种)图像分割方法的任何信息。
4.卷积rnn可以集成使用有关概率分布图的信息的分割方法，该概率分布图与图像分割有关。例如，卷积rnn可以被用于确定针对图像的特征图。然后，这种特征图可以与(例如，来自当前分割方法的)当前概率分布图和(例如，来自先前分割方法的)先前概率分布图组合。特别地，特征图可以与当前概率分布图组合以生成第一特征(例如，特征图和当前概率分布图的组合)。此外，特征图可以与先前概率分布图组合以生成第二特征(例如，特征图和先前概率分布图的组合)。然后，第一特征和第二特征可以被连结(concatenated)以生成更新的概率分布图。该更新的概率分布图合并了有关当前分割方法和先前分割方法的信息。这种过程可以被重复，直到更新的分割掩模是最优分割掩模为止。
附图说明
5.图1a描绘了根据本公开的各种实施例的操作环境的示例配置，其中可以采用本公开的一些实现。
6.图1b描绘了根据本公开的各种实施例的操作环境的示例配置，其中可以采用本公开的一些实现。
7.图2描绘了根据本公开的各种实施例的说明性集成分割系统的各方面。
8.图3图示了根据本公开的实施例的示出用于执行多种分割方法集成的实施例的处理流程。
9.图4图示了根据本公开的实施例的示出集成多种分割方法的实施例的处理流程。
10.图5图示了根据本公开的实施例的示出用于执行多种分割方法集成以生成最优分割掩模的实施例的处理流程。
11.图6图示了根据本公开的实施例的示出用于集成包括移除分割方法的多种分割方法的实施例的处理流程。
12.图7图示了根据本公开的实施例的示例环境，该示例环境可以被用于当执行当前分割时集成有关(多个)先前分割的信息。
13.图8图示了根据本公开的实施例的示例环境，该示例环境可以被用于当执行包括移除动作的当前分割时集成有关(多个)先前分割的信息。
14.图9图示了根据本公开的实施例的示例环境，该示例环境可以用于有关集成分割系统的联合嵌入监督(joint embedding supervision)，该集成分割系统允许基于多个分割的图像的最优分割。
15.图10是示例计算设备的框图，其中可以采用本公开的实施例。
具体实施方式
16.为满足法定要求，本文对本公开的主题进行了详细说明。然而，说明书本身并不旨在限制本专利的范围。相反，发明人已经设想到，所要求保护的主题也可以结合其他当前或未来技术而以其他方式被实施，以包括与在本文档中所描述的步骤相似的不同步骤或步骤的组合。此外，尽管术语“步骤”和/或“框”可以在本文中用于表示所采用的方法的不同元素，但除非并且除了明确地描述了各个步骤的顺序，否则这些术语不应被解释为暗示在本文所公开的各个步骤之间的任何特定顺序。
17.通常，用户期望直观地编辑图像。例如，用户可能期望不需要在编辑系统内的困难工具的专业知识的编辑，或者不高度重复和耗时的编辑。在其中编辑图像的一种方法是使用分割。图像分割可以指定图像内的分段，以便可以编辑该分段。可以使用分割掩模来可视化这种分段，该分割掩模指示将被应用编辑的图像的分割部分，而不是将不被编辑影响的图像部分。然而，在将图像分割，使得生成的分割掩模有关用户期望分割的图像的确切部分可能存在困难。例如，在场中的狗的图像中，第一分割工具(例如，使用第一分割方法)可能不将狗的耳朵包括在生成的分割掩模中。在修改生成的分割掩模的尝试中，可以选择第二分割工具。然而，在大多数常规系统中，基于选择第二分割工具(例如，使用第二分割方法)，通常会删除最初生成的分割掩模，并生成全新的分割掩模(在生成的分割掩模中仍然可能不包括狗的耳朵)。如此，在尝试分割图像时，很难组合各种分割工具。在克服组合各种分割工具的困难的尝试中，通过平均两个分割掩模，使用不同分割工具生成的分割掩模已经被组合。然而，这可能导致组合的分割掩模仍然包含不准确性(例如，在组合的分割掩模中不包括狗的耳朵)。
18.随着技术的进步，各种用于图像分割的方法已经被发展，以尝试更容易且更准确地分割图像。例如，各种快速且智能地分割图像的(例如，基于神经网络的)深度学习技术已
经被实现。然而，即使在使用这些基于深度学习的技术来生成针对图像的分割时，在分割图像时也很难组合多个分割工具。如前文所述的，通常，如果新的分割工具被应用于图像，则使用先前分割工具所做的任何分割都将损失。使用各种深度学习技术组合分割工具的已经被尝试的一种方式要求在每次添加新的分割工具时，都对有关分割工具的神经网络进行完整的重新训练，以组合这些工具。重新训练神经网络以考虑由其他工具(例如，使用不同的方法)生成的先前分割在计算上是昂贵的，并且限制了系统的可扩展性。以这种方式，现存的技术通常在考虑了图像的先前分割的允许以可扩展和计算高效的方式组合各种分割工具方面存在缺陷。
19.因此，本公开的实施例涉及允许基于多个分割的图像的最优分割的集成分割系统。特别地，集成分割系统允许通过考虑先前分割来组合(例如，使用各种分割工具执行的)多种分割方法。这种分割方法可以包括基于以下的分割：深度学习技术、颜色范围或显著性检测、阈值、聚类方法、基于压缩的方法、基于直方图的方法、边缘检测、双重聚类方法、区域生长方法、基于偏微分方程的方法、变分方法、图形分区方法、分水岭变换、基于模型的分割、多尺度分割和半自动分割。
20.组合多种分割方法允许用户容易地获得图像的最优分割。例如，可以通过将(例如，使用图像分割方法的)先前分割与(例如，使用相同或不同的图像分割方法的)当前分割迭代集成，来生成最优分割。作为示例，随着用户与图像交互，可以将已经应用于图像的(多个)先前分割方法集成到更新的图像分割中。以这种方式，使用集成分割系统来分割图像允许将多个交互式图像分割方法吸收到整体集成图像分割过程中。有利地，在基于图像的最优图像分割生成分割掩模时，以这种方式组合各种图像分割方法利用了各种图像分割方法的每种图像分割方法的强项。
21.更详细而言，本公开的实施例涉及用户友好且与任何交互式图像分割方法可兼容的集成分割系统。特别地，如本文所述，集成分割系统可以将各种交互式图像分割方法集成到统一的库中。该统一的库允许各种图像分割方法响应于指示用于图像的期望的分割的交互(例如，单击、滑动、边界框)而在彼此的基础上建立。例如，用户可以使用第一图像分割方法与图像交互，以指示应该将狗包括在分割中，并且第一图像分割方法可以生成不包括狗耳朵的第一分割掩模。使用第二图像分割方法，用户可以指示应该将狗的耳朵包含在分割中。本公开的集成分割系统允许在使用第二图像分割方法分割图像时考虑第一分割掩模，以生成最优分割掩模(例如，包含狗和狗的耳朵)。有利地，集成分割系统的统一库允许用户使用最好地指示用户针对图像的期望分割的任何类型的交互式输入来与图像交互。以这种方式，集成分割系统允许用户以直观且直接的方式与图像交互，以获得最优分割掩模。
22.为了将多种分割方法集成到图像的最优分割中，可以将有关先前分割的信息集成到当前分割中。在一个实施例中，可以使用一个或多个神经网络来实现集成分割系统。神经网络通常是指使用大簇连接神经元的计算方法。例如，神经网络可以由完全连接的层组成。神经网络是自学习和训练的而不是被显式地编程的，使得神经网络的生成输出反映了期望的结果。在各实施例中，集成分割系统可以包括基于卷积递归神经网络(rnn)架构的一个或多个神经网络。例如，当从一种分割方法过渡到下一种分割方法时，集成分割系统可以实现卷积rnn以维持有关一个或多个先前分割的信息。
23.在执行当前分割时，集成分割系统可以使用卷积rnn来集成有关(多个)先前分割
的信息。卷积rnn可以将(多个)先前分割与当前分割组合，而不需要关于用于生成分割的(多个)图像分割方法的任何信息。以这种方式，由于任何图像分割方法都可以被用来生成分割，因此集成的分割系统具有很高的可扩展性。例如，甚至在先前没有使用卷积rnn来集成图像分割方法时，仍可以将新的图像分割方法添加到集成分割系统。
24.可以基于卷积rnn来执行将(多个)先前分割与当前分割组合的集成，该卷积rnn接收并组合有关图像的先前分割的信息和有关图像的当前分割的信息。这种信息可以至少包括概率分布图。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。根据该概率分布图可以生成分割掩模。特别地，卷积rnn可以接收有关先前概率分布图的信息。使用该信息，卷积rnn可以基于有关先前概率分布图的信息来生成隐藏状态。随后，当后续分割方法被用来分割图像时，可以使用该隐藏状态更新当前概率分布图(例如，使用后续分割方法确定)以生成更新的概率分布图。以这种方式，卷积rnn的隐藏状态可以被用来将有关先前分割的信息合并到当前分割中。然后，所产生的更新概率分布图可以被用来生成更新的分割掩模(例如，合并先前分割和当前分割)。这种过程可以被重复，直到更新的分割掩模是最优分割掩模为止。
25.更详细而言，卷积rnn可以使用有关概率分布图的信息来集成分割方法以分割图像。例如，卷积rnn可以被用来确定针对图像的特征图。然后，这种特征图可以与(例如，来自当前分割方法的)当前概率分布图和(例如，来自先前分割方法的)先前概率分布图组合。特别地，特征图可以与当前概率分布图组合以生成第一特征(例如，特征图和当前概率分布图的组合)。此外，特征图可以与先前概率分布图组合以生成第二特征(例如，特征图和先前概率分布图的组合)。然后，第一特征和第二特征可以被连结以生成更新的概率分布图。该更新的概率分布图合并了有关当前分割方法和先前分割方法的信息。
26.在一些实施例中，卷积rnn可以使用有关分割图像的信息集成移除图像方法。移除分割方法可以在交互式对象选择指示对象、单独特征或图像的一部分应当从所期望的分割掩模移除时发生。通常，在执行移除图像分割方法时，需要有预先存在的分割掩模，从中可以选择用于从所期望的分割掩模排除的对象、特征或部分。通常，当对作为第一分割的图像执行移除图像分割方法时，不存在足够的信息来指示从图像选择排除什么对象、特征或部分。例如，当仅有狗被期望时，第一分割方法可以生成猫和狗的第一分割掩模。当第二分割方法(例如，移除图像分割方法)被用来指示不应将猫包括在分割掩模中时，通常移除分割工具将不具有关于猫和狗的第一分割掩模的任何信息。例如，集成分割系统不具有所使用的图像分割方法的类型的任何知识。如此，集成分割系统可以将移除信息合并到卷积rnn中，以便系统维持跟踪应该从期望分割掩模排除图像的什么对象、特征或部分。
27.特别地，卷积rnn可以被用来确定针对图像的特征图。这种特征图可以合并移除信息。例如，如果交互式对象选择指示猫的移除，则可以从确定的特征图移除有关猫的信息。然后，可以将该特征图(例如，具有有关猫被移除的信息)与(例如，来自当前分割方法的)当前概率分布图和(例如，来自先前分割方法的)先前概率分布图组合。特别地，特征图可以与当前概率分布图组合以生成第一特征(例如，特征图和当前概率分布图的组合)。此外，特征图可以与先前概率分布图组合以生成第二特征(例如，特征图和先前概率分布图的组合)。然后，第一特征和第二特征可以被连结以生成更新的概率分布图。该更新的概率分布图合并了有关当前分割方法和先前分割方法的信息。
28.卷积rnn可以被训练为集成各种交互式图像分割方法。在一个实施例中，可以使用两种图像分割方法来训练卷积rnn(例如，phrasecut和深度交互式对象选择(“dios”)。例如，当接收到口语命令时，可以使用基于语言的分割方法(例如phrasecut)。当接收到单击时，可以使用基于单击的分割方法(例如，dios)。首先，为了训练卷积rnn，可以对图像执行第一分割方法。为了执行第一分割方法，可以接收指示应使用何种分割的交互式对象选择(例如，phrasecut的口语命令和dios的单击)。然后，可以运行第一分割方法以生成概率分布图。该概率分布图可以与图像一起被馈送至卷积rnn。卷积rnn可以存储有关第一分割方法的隐藏状态，并输出更新的概率掩模。在更新的概率掩模和基础真实(ground
‑
truth)掩模之间的损失可以被用来更新卷积rnn。例如，可以使用像素损失。
29.在实施例中，卷积rnn不具有用于生成概率分布图的方法的知识。在不具有该知识的情况下训练卷积rnn确保经训练的卷积rnn将可扩展到任何类型的图像分割方法。例如，尽管卷积rnn可以使用两种图像分割方法进行训练，但是在执行图像的最优分割时，经训练的卷积rnn可以用于集成任何数目的图像分割方法。
30.在实施例中，分类器神经网络可以从更新的概率分布图生成分割掩模。这种分类器神经网络可以接收特征(例如，以更新的概率分布图的形式)并生成最终输出(例如，以最优分割掩模的形式)。例如，分类器神经网络可以包括译码器部分，译码器部分可以将特征提取到由人类无法解释的特征空间中，并将特征转换回图像状态。在一些实施例中，可以训练分类器神经网络如何将来自与当前概率分布图组合的特征图和来自与先前概率分布图组合的特征图的特征组合。例如，因为卷积rnn不具有所使用的图像分割方法的任何知识，所以分类器神经网络可以使用该信息以智能地将有关第一图像分割方法的第一特征与有关第二图像分割方法的第二特征组合。作为示例，如果第一图像分割方法相对于对象的内部更准确，但是对于边缘不那么准确，并且第二图像分割方法相对于对象的内部更不准确，但是对于边缘更准确，则分类器神经网络可以相应地组合第一特征和第二特征(例如，偏好有关更可靠/准确的方法的部分)。
31.转到图1a，图1a描绘了根据本公开的各种实施例的操作环境的示例配置，在该操作环境中可以采用本公开的一些实现。应当理解，本文所述的这一布置和其他布置仅作为示例阐述。附加于或替代所示出的布置和元素，还可以使用其他布置和元素(例如，机器、接口、功能、顺序和功能分组等)，并且为了清楚起见，可以完全省略一些元素。此外，本文描述的许多元件是功能实体，它们可以被实现为分立或分布式组件，或者与其他组件结合，并且在任何合适的组合和位置中。本文描述为由一个或多个实体执行的各种功能可以通过硬件、固件和/或软件来实行。例如，一些功能可以由执行存储在存储器中的指令的处理器来执行，如参照图10进一步描述的。
32.应该理解，在图1a中示出的操作环境100是一个合适操作环境的示例。在未示出的其他组件中，操作环境100包括多个用户设备，诸如用户设备102a和102b至102n、网络104和(多个)服务器108。在图1a中示出的组件的每个组件可以经由任何类型的计算设备来实现，例如，诸如结合图10描述的计算设备1000中的一个或多个计算设备。这些组件可以经由网络104彼此通信，网络104可以是有线的、无线的或两者。网络104可以包括多个网络或网络的网络，但是以简单的形式示出，以便不模糊本公开的各个方面。通过示例的方式，网络104可以包括一个或多个广域网(wan)、一个或多个局域网(lan)、一个或多个公共网络(诸如互
联网)和/或一个或多个私用网络。在网络104包括无线电信网络的情况下，诸如基站、通信塔、甚至接入点(以及其他组件)等组件可以提供无线连接性。联网环境在办公室、企业范围的计算机网络、内联网和互联网中常见。网络104可以是能够在机器、数据库和(移动或其他)设备之间进行通信的任何网络。因此，网络104可以是有线网络、无线网络(例如，移动网络或蜂窝网络)、存储区域网络(san)或其任何合适组合。在一种示例实施例中，网络104包括私有网络、公共网络(例如互联网)或其组合的一个或多个部分。因此，网络104未被详细描述。
33.应当理解，任何数目的用户设备、服务器和其他组件可以在本公开的范围内的操作环境100内被采用。每个组件可以包括单个设备或在分布的环境中协作的多个设备。
34.用户设备102a到102n可以是能够由用户操作的任何类型的计算设备。例如，在一些实现中，用户设备102a到102n是关于图10描述的计算设备类型。通过示例而非限制，用户设备可以被实施为个人计算机(pc)、膝上型计算机、移动设备、智能电话、平板计算机、智能手表、可穿戴计算机、个人数字助理(pda)、mp3播放器、全球定位系统(gps)或设备、视频播放器、手持式通信设备、游戏设备或系统、娱乐系统、车载计算机系统、嵌入式系统控制器、遥控器、设备、消费电子设备、工作站、这些描绘的设备的任何组合或任何其他合适的设备。
35.用户设备可以包括一个或多个处理器和一个或多个计算机可读介质。计算机可读介质可以包括可由一个或多个处理器执行的计算机可读指令。指令可以由一个或多个应用(诸如在图1a中示出的应用110)来实施。为了简单起见，应用110被称为单个应用，但是其功能性可以在实践中由一个或多个应用来实施。如上文所指示的，其他用户设备可以包括与应用110类似的一个或多个应用。
36.(多个)应用通常可以是能够在执行图像编辑时支持用户设备和(多个)服务器108之间的信息交换的任何应用，诸如，分割图像以生成用于编辑图像的分割掩模。在一些实现中，(多个)应用包括web应用，该web应用可以在web浏览器中运行，并且可以至少部分地被托管在环境100的服务器侧上。此外，或者相反，(多个)应用可以包括专用应用，诸如具有图像编辑和/或处理功能性的应用。例如，可以将这种应用配置为显示图像和/或允许用户输入或标识图像以用于编辑。在一些情况下，应用被集成到操作系统中(例如，作为服务)。因此，本文预期“应用”被广义地解释。示例应用包括等。
37.根据本文的实施例，应用110可以支持对图像进行分割，将分割呈现为分割掩模，并且使用最优分割掩模来编辑图像。特别地，用户可以选择或输入用于分割的图像或图片。可以以任何方式选择或输入图像和/或图片。应用可以支持对存储在用户设备102a(例如，在照片库中)上的一个或多个图像的访问，和/或从远程设备102b
‑
102n和/或应用(诸如，从服务器108)导入图像。例如，用户可以使用设备(例如，用户设备102a)上的相机拍摄照片。作为另一示例，用户可以从(例如，存储在可通过网络访问的数据存储库中的或被本地存储在用户设备102a处的)存储库选择所期望的图像。基于输入图像，可以使用下文参照图2的集成分割系统204进一步讨论其中一些技术，并且可以经由用户设备102a将分割掩模提供给用户。
38.特别地，用户可以使用应用110执行图像的交互式对象选择。这种交互式对象选择可以基于交互式动作(例如，单击、涂鸦、边框和/或语言)。基于接收到的交互式对象选择，可以使用所选择的分割方法将图像分割。在经历分割之后，可以将分割掩模显示给用户。用
户可以使用(多个)附加的交互式对象选择进一步与图像和显示的分割掩模交互。这种交互式对象选择可以指示用户期望对显示的分割掩模进行的进一步细化。从这些附加的交互式对象选择，可以将更新的分割掩模(例如，优化的分割掩模)显示给用户。可以使用下文参照图2的集成分割系统204进一步讨论的集成分割技术来生成这种更新的分割掩模。
39.用户设备可以通过网络104与服务器108(例如，软件即服务(saas)服务器)通信，服务器108提供基于云和/或基于网络的集成分割系统106。集成分割系统可以与用户设备和对应的用户接口通信，以支持使用例如应用110经由用户设备的分割和/或向用户呈现图像。
40.如本文所述的，服务器108可以支持分割图像，生成优化的分割掩模，以及经由集成分割系统106将这种分割呈现为分割掩模。服务器108包括一个或多个处理器和一个或多个计算机可读介质。计算机可读介质包括由一个或多个处理器可执行的计算机可读指令。在下文的附加细节中描述的，指令可以选择性地实现集成分割系统106的一个或多个组件。服务器108能够集成各种交互式图像分割方法以生成优化的分割掩模。这种交互式图像分割方法可以被存储在统一的库中。该统一的库允许各种图像分割方法响应于指示用于图像的期望的分割的交互(例如，单击、滑动、边界框)而在彼此的基础上建立。
41.针对基于云的实现，在服务器108上的指令可以实现集成分割系统106的一个或多个组件。应用110可以由用户用于与在(多个)服务器108上实现的功能性(诸如集成分割系统106)接口连接。在一些情况下，应用110包括web浏览器。在其他情况下，如参考图1b进一步讨论的，可以不需要服务器108。
42.因此，应当理解，可以经由布置在分布式环境中的共同提供本文描述的功能性的多个设备来提供集成分割系统106。此外，未示出的其他组件也可以被包括在分布式环境内。附加地或替代地，集成分割系统106可以至少部分地集成到用户设备(诸如用户设备102a)中。
43.参考图1b，示出了根据本公开的各种实施例的说明性集成分割系统的各个方面。图1b描绘了根据示例实施例的用户设备114，其被配置为允许通过集成多个分割方法来执行图像的最优分割。用户设备114可以与用户设备102a
‑
102n相同或相似，并且可以被配置为支持集成分割系统116(作为独立或联网的设备)。例如，用户设备114可以存储和执行软件/指令，以支持在用户与集成分割系统116之间经由用户设备的用户接口118的交互。
44.用户设备可以由用户利用以支持分割图像、将分割呈现为分割掩模、以及使用分割掩模(例如，优化的分割掩模)编辑图像。特别地，用户可以利用用户接口118选择或输入用于分割的图像或图片。可以以任何方式选择或输入图像和/或图片。用户接口可以支持用户访问存储在用户设备(例如，在照片库中)上的一个或多个图像，和/或从远程设备和/或应用导入图像。基于输入图像，可以使用各种技术对输入图像进行分割(下文参考图2的集成分割系统204进一步讨论其中一些技术)，并且可以经由用户接口将优化的分割掩模提供给用户。在组合多种图像分割方法以生成优化的分割掩模之后，分割掩模可以被用来编辑图像。
45.参照图2，示出了根据本公开的各种实施例的说明性图像分割环境200的各方面。集成分割系统204包括交互分析引擎206、统一库引擎208和集成引擎210。集成分割系统204的前述引擎可以例如在图1a的操作环境100和/或图1b的操作环境112中实现。特别地，这些
引擎可以被集成到用户设备102a和102b至102n以及(多个)服务器108和/或用户设备114的任何合适组合中。虽然交互分析引擎、统一库引擎和集成引擎被描绘为分离的引擎，但是应该理解，单个引擎可以执行引擎中的一个或多个引擎的功能性。附加地，在实现中，引擎的功能性可以使用附加引擎来执行。此外，应当理解，统一库引擎的功能性可以由与集成分割系统(例如，图像分割系统)分离的系统提供。
46.这种集成分割系统可以结合数据存储库202工作。数据存储库202可以存储在本文描述的实施例中使用的计算机指令(例如，软件程序指令、例程或服务)、数据和/或模型。在一些实现中，数据存储库202可以存储经由集成分割系统204的各种引擎和/或组件接收的信息或数据，并且根据需要而将对该信息或数据的访问提供给各种引擎和/或组件。尽管被描绘为单个组件，但数据存储库202可以被实施为一个或多个数据存储库。此外，数据存储库202中的信息可以以任何合适的方式分布于一个或多个用于存储的数据存储库上(其可被托管于外部)。
47.在实施例中，数据存储库202可以被用来存储神经网络系统，该神经网络系统能够用于通过集成多个分割方法来执行图像的最优分割。特别地，这种最优分割可以基于深度学习技术(在下文参考集成引擎210进一步讨论)。这种神经网络系统可以由一个或多个神经网络组成。
48.在实施例中，存储在数据存储库202中的数据可以包括用户可以使用例如集成分割系统来选择用于分割的图像。图像可以包括人、对象或场景的视觉表示。图像的示例可以包括图片、绘画、绘图和/或照片的数字版本。这种图像可以从远程设备(诸如从服务器或用户设备)被输入到数据存储库202中。存储在数据存储库202中的数据还可以包括针对图像生成的分割掩模。这种分割掩模可以被存储为多个分段和/或掩模。分段可以沿着图像内的边界被创建，和/或分段可以用于指定图像内的对象和/或特征。存储在数据存储库202中的数据还可以包括被编辑的图像。保存的编辑可以包括使用所选择的分割掩模将编辑应用于图像的对应部分的对图像的操纵。
49.集成分割系统204通常可以用于分割图像。具体地，集成分割系统可以被配置用于通过集成多个分割方法来进行图像的最优分割。如本文所使用的，图像分割是基于与图像的一个或多个交互来将图像分区到分割掩模中的过程。这种交互可以是交互式对象选择(例如，指示要分割到分割掩模中的图像的一部分)。这种分割掩模可以被用在图像编辑中，以选择性地仅将编辑应用于由交互指示(例如，交互式对象选择)的图像部分。
50.交互分析引擎206可以接收和分析与图像的交互。这些交互可以是交互式对象选择。这种交互式对象选择可以基于由用户执行的交互式动作。例如，交互式动作可以包括单击、涂鸦、绘制边界框和/或口述语言命令。交互式动作可以指示要从分割包括或排除的对象、区域和/或图像的一部分。用户可以使用图形用户接口(gui)对图像执行交互式对象选择。作为说明性示例，用户可以单击图像中的狗以指示该狗应当被包括在分割中。作为另一示例，用户可以发出口语命令，以指示狗应该被包括在图像分割中。
51.在一些实施例中，交互分析引擎206可以进一步确定应当被用来分割图像的特定图像分割方法。在一些实施例中，用户可以选择特定的图像分割方法。例如，用户可以(例如，经由图形用户接口交互)通过选择图像分割方法明确地选择该方法。在实施例中，当用户明确地选择方法时，交互分析引擎206可以接收应当用于分割图像的特定图像分割方法。
例如，用户可以选择用于指示特定图像分割方法的分割工具。例如，用户可以(例如，经由图形用户接口交互)通过选择图像分割方法明确地选择该方法。在其他实施例中，用户可以隐式地选择该方法(例如，该方法可以基于交互式对象选择而被选择)。
52.从接收到的交互式对象选择，集成分割系统可以运行特定的图像分割方法。在一些实施例中，交互分析引擎206可以分析接收到的交互式对象选择，以确定应当被用来分割图像的特定图像分割方法。例如，基于交互式对象选择可以选择方法。例如，如果交互式对象选择是口语命令，则所选择的图像分割方法可以是基于语言的分割方法(例如phrasecut)。在一些实例中，经训练的神经网络可以被用来确定应当被用来分割图像的特定图像分割方法。
53.一旦用于分割图像的特定图像分割方法(例如，使用交互分析引擎206)被选择，统一库引擎208就可以运行该图像分割方法。统一库引擎208可以包括任何数目的图像分割方法。这种图像分割方法可以使用包括以下技术来实现：深度学习技术、颜色范围或显著性检测、阈值、聚类方法、基于压缩的方法、基于直方图的方法、边缘检测、双重聚类方法、区域生长方法、基于偏微分方程的方法、变分法、图形分区方法、分水岭变换、基于模型的分割、多尺度分割和半自动分割。具体地，深度学习技术可以包括实例等级语义分割、自动边界感知的人类切分、使用级联cnn的对象检测、通用分割算法等。
54.如所示出的，统一库引擎208可以包括分割组件212。统一库引擎208的前述组件可以例如在图1a的操作环境100和/或图1b的操作环境112中实现。特别地，这些组件可以被集成到用户设备102a和102b至102n以及(多个)服务器106和/或用户设备114的任何合适组合中。应当理解，虽然分割组件被描绘为单个组件，但是在实现中，可以使用一个或多个附加组件来执行组件的功能性。
55.通常，分割组件212可以被配置为执行图像分割方法。特别地，分割组件可以执行被选择用于分割图像的特定图像分割方法(例如，使用交互分析引擎206)。在执行图像分割方法时，分割组件212可以基于接收到的图像和有关图像的交互式对象选择来生成概率分布图。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。例如，在分割图像时，概率分布图可以是由分割方法生成的信息。可以从该概率分布图生成分割掩模。
56.图像可以由分割组件212访问或参考以进行分割。在这方面，分割组件212可以经由数据存储库202和/或从远程设备(诸如从服务器或用户设备)访问或取回由用户选择的图像。作为另一示例，分割组件212可以经由用户设备接收提供给集成分割系统204的图像。
57.基于针对图像运行图像分割方法(例如，使用分割组件212)，集成引擎210可以被利用以通过集成多个分割方法来获得图像的最优分割。例如，可以通过将(例如，使用由分割组件212执行的图像分割方法的)先前分割与(例如，使用由分割组件212执行的相同或不同的图像分割方法的)当前分割迭代地集成来生成最优分割。作为示例，随着用户与图像交互，集成引擎210可以将(多个)先前分割方法集成到当前图像分割中。
58.在实施例中，集成引擎210可以使用基于卷积递归神经网络(rnn)架构的一个或多个神经网络。例如，集成引擎210可以实现卷积rnn，以在从一种分割方法过渡到另一种分割时维持信息，从而可以将多个交互式图像分割方法吸收到集成图像分割处理中。
59.集成引擎210可以被用来训练卷积rnn将有关(多个)先前分割的信息集成到当前分割中。可以使用各种交互式图像分割方法来训练卷积rnn。在一个实施例中，可以使用两
种图像分割方法(例如phrasecut和dios)来训练卷积rnn。例如，当接收到口语命令时，可以使用基于语言的分割方法(例如phrasecut)。当接收到单击时，可以使用基于单击的分割方法(例如，dios)。
60.起初，为了训练卷积rnn，可以对图像执行第一分割方法。为了执行第一分割方法，可以接收指示应使用哪个分割的交互式对象选择(例如，phrasecut的口语命令和dios的单击)。然后，可以运行第一分割方法来生成概率分布图。该概率分布图可以与图像一起被馈送到卷积rnn中。卷积rnn可以存储有关第一分割方法的隐藏状态，并输出更新的概率掩模。经更新的概率掩模和地面真值掩模之间的损失可以被用来更新卷积rnn。例如，可以使用像素损失。
61.集成引擎210还可以使用一个或多个分类器神经网络。例如，集成引擎210可以实现分类器神经网络，该分类器神经网络可以从更新的概率分布图生成分割掩模。这种分类器神经网络可以接收特征(例如，以更新的概率分布图的形式)并生成最终输出(例如，以最优分割掩模的形式)。例如，分类器神经网络可以包括译码器部分，译码器部分可以将特征提取到人类无法解释的特征空间中，并将特征转换回图像状态。
62.在一些实施例中，集成引擎210可以训练分类器神经网络，以组合来自与当前概率分布图组合的特征图的特征和与先前概率分布图组合的特征图的特征。例如，在卷积rnn不具有所使用的图像分割方法的知识的实施例中，分类器神经网络可以使用该信息来智能地组合有关第一图像分割方法的第一特征(例如，特征图和当前概率分布图的组合)和有关第二图像分割方法的第二特征(例如，特征图和先前概率分布图的组合)。作为示例，如果第一图像分割方法更准确地涉及对象的内部，但是对于边缘不那么准确，并且第二图像分割方法相对于对象的内部更不准确，但是对于边缘更准确，则分类器神经网络可以因此组合第一特征和第二特征(例如，偏好有关更可靠/准确的方法的部分)。
63.如所示出的，集成引擎210可以包括图像分析组件214、移除组件216和掩模组件218。集成引擎210的前述组件可以例如在图1a的操作环境100和/或图1b的操作环境112中实现。特别地，这些组件可以被集成到用户设备102a和102b至102n以及(多个)服务器106和/或用户设备114的任何合适组合中。应当理解，虽然图像分析组件、移除组件和掩模组件被描绘为分离的组件，但是在实现中，可以使用单个组件和/或附加组件来执行引擎的功能性。此外，在一些实施例中，移除组件216及其相关联的功能性是可选的，并且可以从集成引擎210被排除。
64.通常，图像分析组件214可以被配置为分析图像。特别地，图像分析组件214可以被用来确定图像的特征。在一个实施例中，可以使用例如神经网络来执行这种分析。这种神经网络可以是基于卷积rnn架构的。例如，卷积rnn可以被用来确定针对图像的特征图。该特征图可以指示图像的特征。这种特征图可以有助于基于所选择/未选择的对象来分割图像。例如，如果交互式输入指示应当在分割中包括猫，则可以使用有关猫的特征图的表示来帮助生成包含猫的分割掩模。
65.移除组件216可以被使用在交互式对象选择指示应从期望的分割掩模排除图像的对象、特征或部分的实例中。移除组件可以将来自(例如，由交互分析引擎206接收和/或分析的)交互式对象选择的移除信息合并到卷积rnn中，以便可以跟踪应当从期望分割掩模排除的图像的对象、特征或部分。特别地，在卷积rnn确定针对图像的特征图(例如，使用图像
分析组件214)之后，移除组件216可以将移除信息合并到特征图中。例如，如果交互式对象选择指示对象的移除，则可以从确定的特征图移除有关该对象的信息。
66.通常，掩模组件218被配置为通过集成多个分割方法来根据最优分割生成用于图像的分割掩模。例如，可以通过将(例如，使用图像分割方法的)先前分割与(例如，使用相同或不同的图像分割方法的)当前分割迭代地集成以生成最优分割掩模。掩模组件218可以在执行当前分割时使用卷积rnn来集成有关(多个)先前分割的信息。特别地，掩模组件218可以接收有关图像的先前分割的信息并且将有关图像的先前分割的信息与有关图像的当前分割的信息组合。
67.如所示出的，掩模组件218可以包括概率图元件220和生成元件222。掩模组件218的前述元件可以例如在图1a的操作环境100和/或图1b的操作环境112中实现。特别地，这些元件可以被集成到用户设备102a和102b至102n以及(多个)服务器106和/或用户设备114的任何合适组合中。应当理解，虽然概率图元件和生成元件被描绘为分离的元件，但是在实现中，可以使用单个元件和/或附加元件来执行元件的功能性。
68.概率图元件220可以被用来在执行当前分割时集成有关(多个)先前分割的信息。这种信息可以至少包括概率分布图。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。例如，可以从分割组件212接收来自当前图像分割方法的概率分布图。基于接收到概率分布图，卷积rnn可以基于有关概率分布图的信息来生成隐藏状态。
69.随后，当使用后续分割方法分割图像(例如，使用分割组件212)时，可以由概率图元件220接收当前概率分布图。概率图元件220可以使用卷积rnn的隐藏状态(例如，基于有关先前图像分割方法的概率分布图的隐藏状态)来更新当前概率分布图。概率图元件220可以生成更新的概率分布图，该概率分布图将有关先前分割的信息合并到当前分割中。
70.通常，卷积rnn可以如以下地更新隐藏状态(例如s
t
)、更新的概率分布图(例如y
t
)和当前分割掩模(例如m
t
)。
[0071][0072][0073][0074]
在这种等式中，和可以是可学习卷积参数，并且可以是偏置。σ(x)＝1/(1 e
‑
x
)可以是双sigmoid函数。在每个阶段中，隐藏状态可以根据先前状态(例如s
t
‑1)和新的概率图(例如p
t
)来更新。
[0075]
生成元件222可以使用所产生的更新的概率分布图来生成更新的分割掩模(例如，将先前分割和当前分割合并)。分割掩模可以以各种方式被呈现给用户。生成单元222可以运行分类器神经网络以从更新的概率分布图生成分割掩模。
[0076]
参考图3，提供了示出根据本公开的实施例的用于执行多个分割方法集成的方法300的实施例的处理流程。如在图2中图示的，方法300可以例如由集成分割系统204执行。
[0077]
在框302处，图像被接收。这种图像可以从存储在数据库(诸如图2的数据存储库202)中的一组图像或图片被接收。特别地，用户可以选择或输入接收到的图像。这种图像可
以以任何方式被选择或输入。例如，用户可以使用设备上的相机拍摄照片。作为另一示例，用户可以从(例如，存储在通过网络可访问的数据存储库中的或被本地存储在用户设备处的)存储库选择期望的图像。
[0078]
在框304处，交互被接收。交互可以是通过用户的对图像的交互式对象选择。这种交互式对象选择可以基于交互式操作(例如，单击、涂鸦、边界框和/或语言)。基于所接收的交互式对象选择，可以选择用于分割(例如，在框302处接收的)图像的图像分割方法。在一些实施例中，用户可以选择特定的图像分割方法。例如，用户可以(例如，经由图形用户接口交互)通过选择图像分割方法明确地选择该方法。在其他实施例中，用于分割图像的图像分割方法是基于所接收的交互的。以这种方式，用户可以隐式地选择方法(例如，该方法可以基于交互式对象选择而被选择)。
[0079]
在框306处，图像的分割被执行。图像分割是将图像分区到至少一个分段中的过程。特别地，分段可以沿着图像内的边界被创建，和/或分段可以用于指定图像内的对象和/或特征。例如，当分割方法被用来分割图像时，可以生成概率分布图。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。例如，在分割图像时，概率分布图可以是由分割方法生成的信息。
[0080]
这种分割可以使用任何数目的技术来执行。这种技术包括深度学习技术、颜色范围或显著性检测、阈值、聚类方法、基于压缩的方法、基于直方图的方法、边缘检测、双重聚类方法、区域生长方法、基于偏微分方程的方法、变分方法、图形分区方法，分水岭变换、基于模型的分割、多尺度分割和半自动分割。具体地，深度学习技术可以包括实例等级的语义分割、自动边界感知的人类切分、使用级联卷积神经网络的对象检测、诸如r
‑
cnn和/或掩模r
‑
cnn等通用分割算法。
[0081]
在框308处，概率图集成被执行。概率图集成是将(例如，来自先前分割方法的)先前概率分布图和(例如，来自当前分割方法的)当前概率分布图组合的过程。
[0082]
特别地，卷积rnn可以被用来接收有关先前概率分布图的信息。使用该信息，卷积rnn可以基于有关先前概率分布图的信息来生成隐藏状态。随后，在当前分割方法被用来分割图像时，可以使用该隐藏状态更新(例如，使用当前分割方法确定的)当前概率分布图以生成更新的概率分布图。以这种方式，卷积rnn的隐藏状态可以被用来将有关先前分割的信息合并到当前分割中。
[0083]
在框310处，分割掩模被生成。所生成的分割掩模可以是使用所产生的更新的概率分布图生成的。分割掩模可以将先前分割和当前分割合并。
[0084]
在框312处，分割掩模可以被呈现。分割掩模的呈现允许用户查看和可视化图像的(多个)分割区域。用户可以用附加的(多个)交互式对象选择进一步与图像和显示的分割掩模交互。这种交互式对象选择可以指示用户期望对显示的分割掩模进行的进一步细化。从这些附加的(多个)交互式对象选择，更新的分割掩模(例如，优化的分割掩模)可以被显示给用户。
[0085]
参考图4，提供了示出根据本公开的实施例的用于集成多个分割方法的方法400的实施例的处理流程。如在图2中图示的，方法400可以例如由集成分割系统204执行。
[0086]
在框402处，图像被接收。这种图像可以从存储在数据库(例如图2的数据存储库202)中的一组图像或图片被接收。特别地，用户可以选择或输入接收到的图像。这种图像可
以以任何方式被选择或输入。例如，用户可以使用设备上的相机拍摄照片。作为另一示例，用户可以从(例如，存储在通过网络可访问的数据存储库中的或被本地存储在用户设备处的)存储库选择期望的图像。在框404，针对图像(例如，在框402处接收的图像)生成特征图。这种特征图通常可以涉及关于对象、单独特征和/或图像的部分的信息。该特征图可以使用卷积rnn生成。
[0087]
在框406处，概率图集成被执行。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。概率图集成是将(例如，来自先前分割方法的)先前概率分布图与(例如，来自当前分割方法的)当前概率分布图组合的过程。特别地，图像的特征图可以与(例如，来自当前分割方法的)当前概率分布图和(例如，来自先前分割方法的)先前概率分布图组合。例如，特征图可以与当前概率分布图组合以生成第一特征(例如，特征图和当前概率分布图的组合)。此外，特征图可以与先前概率分布图组合以生成第二特征(例如，特征图和先前概率分布图的组合)。然后，第一特征和第二特征可以被连结。该连结的第一特征和第二特征可以被用来生成更新的概率分布图。更新的概率分布图合并了有关当前分割方法和先前分割方法的信息。
[0088]
更详细地，概率图集成可以由接收有关先前概率分布图的信息的卷积rnn来执行。使用该信息，卷积rnn可以基于有关先前概率分布图的信息来生成隐藏状态。随后，当后续分割方法(例如，当前分割方法)被用来分割图像时，可以使用该隐藏状态来更新(例如，使用后续分割方法确定的)当前概率分布图，以生成更新的概率分布图。以这种方式，卷积rnn的隐藏状态可以被用来将有关先前分割的信息合并到当前分割中。
[0089]
在框408处，分割掩模被生成。特别地，更新的概率分布图可以被用来生成分割掩模(例如，将先前分割和当前分割合并)。用户可以使用附加的(多个)交互式对象选择进一步与图像和生成的分割掩模交互。这种交互式对象选择可以指示用户期望对分割掩模进行的进一步细化。根据这些附加的交互式对象选择，优化的分割掩模可以被生成。
[0090]
参考图5，提供了示出根据本公开的实施例的用于集成多个分割方法以生成优化的分割掩模的方法500的实施例的处理流程。方法500可以例如由如在图2中图示的集成分割系统204来执行。
[0091]
在框502处，图像被接收。这种图像可以从存储在数据库(诸如图2的数据存储库202)中的一组图像或图片被接收。特别地，用户可以选择或输入接收到的图像。这种图像可以以任何方式被选择或输入。例如，用户可以使用设备上的相机拍摄照片。作为另一示例，用户可以从(例如，存储在通过网络可访问的数据存储库中的或被本地存储在用户设备处的)存储库选择期望的图像。
[0092]
在框504处，交互被接收。交互可以是通过用户的对图像的交互式对象选择。这种交互式对象选择可以基于交互式操作(例如，单击、涂鸦、边界框和/或语言)。基于所接收的交互式对象选择，可以选择用于分割(例如，在框502处接收的)图像的图像分割方法。在一些实施例中，用户可以选择特定的图像分割方法。例如，用户可以(例如，经由图形用户接口交互)通过选择图像分割方法明确地选择该方法。在其他实施例中，用于分割图像的图像分割方法是基于所接收的交互的。以这种方式，用户可以隐式地选择方法(例如，该方法可以基于交互式对象选择而被选择)。
[0093]
在框506处，图像的分割被执行。图像分割是将图像分区到分段中的过程。特别地，
分段可以沿着图像内的边界创建，和/或分割可以用于指示图像内的对象和/或特征。例如，图像分割可以生成概率分布图。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。这种分割可以使用任何数目的技术来执行。这种技术包括深度学习技术、颜色范围或显著性检测、阈值、聚类方法、基于压缩的方法、基于直方图的方法、边缘检测、双重聚类方法、区域生长方法、基于偏微分方程的方法、变分方法、图形分区方法，分水岭变换、基于模型的分割、多尺度分割和半自动分割。具体地，深度学习技术可以包括实例等级的语义分割、自动边界感知的人类切分、使用级联卷积神经网络的目标检测、诸如r
‑
cnn和/或掩模r
‑
cnn的通用分割算法。
[0094]
在框508处，是否对图像执行过先前分割被确定。如果不存在先前分割，则过程可以行进到框510。如果已经存在先前分割，则过程可以行进到框516，在下文中进一步详细描述。
[0095]
在框510处，概率分布图从当前分割生成。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。在框512处，隐藏状态被存储。特别地，卷积rnn可以接收有关概率分布图的信息。使用该信息，卷积rnn可以生成隐藏状态。该隐藏状态可以被用来维持有关概率分布图的信息。通过维持该信息，卷积rnn可以将关于概率分布图的信息与随后生成的概率分布图组合(例如，将先前图像分割方法与随后的图像分割方法组合)。
[0096]
在框514处，分割掩模被生成。生成的分割掩模可以使用概率分布图生成。用户可以使用附加的交互对象选择(例如，利用在框504处的后续交互)进一步与图像交互。这种交互式对象选择可以指示用户期望对显示的分割掩模进行进一步细化。根据这些附加的交互对象选择，如参考框516至框520进一步讨论的，可以生成更新的分割掩模(例如，优化的分割掩模)。
[0097]
在框516处，当前概率分布图被接收。当前概率图可以基于当前分割。在框518处，先前概率分布图被接收。先前概率分布图可以基于先前分割。例如，可以使用隐藏状态接收先前概率分布图。特别地，卷积rnn可以被用来接收有关先前概率分布图的信息。使用该信息，卷积rnn可以基于有关先前概率分布图的信息来生成隐藏状态。
[0098]
在框520处，当前概率分布图被与先前概率分布图集成。特别地，可以使用隐藏状态更新(例如，使用当前分割方法确定的)当前概率分布图，以生成更新的概率分布图。以这种方式，卷积rnn的隐藏状态可以被用来将有关先前分割的信息合并到当前分割中。
[0099]
在框514处，分割掩模被生成。特别地，所产生的更新概率分布图可以被用来生成(例如，合并先前分割和当前分割的)更新的分割掩模。生成的分割掩模可以被呈现给用户。分割掩模的呈现允许用户查看和可视化图像的(多个)分割区域。如前文所述的，用户可以使用附加的(多个)交互式对象选择来进一步与图像和显示的分割掩模交互。
[0100]
参考图6，提供了示出根据本公开的实施例的用于集成包括移除分割方法的多个分割方法的方法600的实施例的处理流程。方法600可以例如通过如在图2中图示的集成分割系统204来执行。
[0101]
在框602处，图像被接收。这种图像可以从存储在数据库(例如图2的数据存储库202)中的一组图像或图片被接收。特别地，用户可以选择或输入接收到的图像。这种图像可以以任何方式被选择或输入。例如，用户可以使用设备上的相机拍摄照片。作为另一示例，用户可以从(例如，存储在可通过网络访问的数据存储库中的或被本地存储在用户设备处
的)存储库选择期望的图像。
[0102]
在框604处，确定是否存在移除交互。移除交互可以是交互式对象选择，其指示应当从期望的分割掩模排除图像的对象、特征或部分。当存在移除交互时，处理可以行进至框606。当不存在移除交互时，处理可以行进至框608。
[0103]
在框606处，移除被执行。移除可以通过将移除信息合并到卷积rnn中来执行，使得系统可以维持跟踪应当从期望的分割掩模排除图像的哪些对象、特征或部分。
[0104]
在框608处，特征图被生成。这种特征图通常可以涉及关于图像的对象、特征和/或部分的信息。该特征图可以使用卷积rnn生成。当在框606处执行移除时，特征图可以合并移除信息(例如，来自框606)。例如，如果交互式对象选择指示对象的移除，则可以从特征图移除有关该对象的信息。
[0105]
在框610处，概率图集成被执行。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。概率图集成是将(例如，来自先前分割方法的)先前概率分布图与(例如，来自当前分割方法的)当前概率分布图组合的过程。例如，特征图(例如，具有有关在框606处发生移除时被移除的对象的信息)可以与(例如，来自当前分割方法的)当前概率分布图和(例如，来自先前分割方法的)先前概率分布图组合。
[0106]
特别地，卷积rnn可以被用来接收有关先前概率分布图的信息。使用该信息，卷积rnn可以基于有关先前概率分布图的信息来生成隐藏状态。随后，当使用后续分割方法(例如，当前分割方法)分割图像时，可以使用该隐藏状态更新(例如，使用后续分割方法确定的)当前概率分布图，以生成更新的概率分布图。以这种方式，卷积rnn的隐藏状态可以被用来将有关先前分割的信息合并到当前分割中。然后，所产生的更新的概率分布图可以被用来生成更新的分割掩模(例如，合并先前分割和当前分割)。
[0107]
在框612处，分割掩模被生成。所生成的分割掩模可以被呈现给用户。分割掩模的呈现允许用户查看和可视化图像的分割区域。用户可以使用附加的(多个)交互式对象选择进一步与图像和生成的分割掩模交互。这种交互式对象选择可以指示用户期望对分割掩模进行的进一步细化。基于这些附加的(多个)交互对象选择，优化的分割掩模可以被生成。
[0108]
图7图示了根据本公开的实施例的示例环境700，该示例环境700可以被用于在执行当前分割时集成有关(多个)先前分割的信息。特别地，卷积rnn可以被用来集成该信息。卷积rnn可以将(多个)先前分割与当前分割组合，而不需要关于用于生成分割的图像分割方法的任何信息。
[0109]
图像702可以被接收以用于分割。这种图像可以从存储在数据库(诸如图2的数据存储库202)中的一组图像或图片被接收。特别地，用户可以选择或输入接收到的图像。这种图像可以以任何方式被选择或输入。例如，用户可以使用设备上的相机拍摄照片。作为另一示例，用户可以从(例如，存储在通过网络可访问的数据存储库中的或被本地存储在用户设备处的)存储库选择期望的图像。
[0110]
各种图像分割方法(例如，方法708a、方法708b、
……
、方法708n)可以被集成到统一库706中。该统一库允许各种图像分割方法响应于指示用于图像的期望的分割的交互(例如，单击、滑动、边界框)而在彼此的基础上建立。
[0111]
交互704可以被接收。交互可以是通过用户的对图像的交互式对象选择。这种交互式对象选择可以基于交互式动作(例如，单击、涂鸦、边界框和/或语言)。基于接收到的交互
式对象选择，可以选择用于分割图像702的图像分割方法(例如，方法708a、方法708b、
……
、方法708n)。在一些实施例中，用户可以选择图像分割方法(例如，方法708n)。例如，用户可以(例如，经由图形用户接口交互)通过选择方法708n明确地选择方法。在其他实施例中，用于分割图像的图像分割方法基于交互704。以这种方式，用户可以(例如，基于交互式对象选择)隐式地选择方法708n。
[0112]
方法708n可以被用来基于交互704分割图像702。根据该分割，当前概率分布图714可以被生成。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。
[0113]
图像702也可以被输入到cnn 710中。cnn 710可以是被用来在执行当前分割时集成有关(多个)先前分割的信息的卷积递归神经网络。根据图像702，cnn 710可以生成特征图712。特征图712通常可以涉及关于图像702的对象、特征和/或部分的信息。
[0114]
cnn 710可以从统一库706接收当前概率分布图714。cnn 710还可以具有有关先前概率分布图716的信息。有关先前概率分布图716的该信息可以被存储为cnn 710的隐藏状态。cnn 710可以将当前概率分布图714和先前概率分布图716与特征图712组合。特别地，cnn 710可以将当前概率分布图714与特征图712组合以生成第一特征718。cnn 710还可以将先前概率分布图716和特征图712组合以生成第二特征720。第一特征718和第二特征720可以被连结以生成更新的特征722。更新的特征722可以被输入到分类器724中。分类器724可以是能够从更新的特征722生成分割掩模的分类器神经网络。例如，分类器神经网络可以包括译码器部分，译码器部分可以将特征提取到人类无法解释的特征空间中，并将特征转换回图像状态中。以这种方式，分类器724可以生成更新的分割掩模726。
[0115]
图8图示了根据本公开的实施例的可以被用于在执行包括移除动作的当前分割时集成有关(多个)先前分割的信息的示例环境800。特别地，卷积rnn可以被用来集成该信息。卷积rnn可以将(多个)先前分割与当前分割组合，而不需要关于用于生成分割的(多个)图像分割方法的任何信息。
[0116]
图像802可以被接收以用于分割。这种图像可以从存储在数据库(诸如图2的数据存储库202)中的一组图像或图片被接收。特别地，用户可以选择或输入接收到的图像。这种图像可以以任何方式被选择或输入。例如，用户可以使用设备上的相机拍摄照片。作为另一示例，用户可以从(例如，存储在通过网络可访问的数据存储库中的或被本地存储在用户设备处的)存储库选择期望的图像。
[0117]
各种图像分割方法(例如，方法808a、方法808b、
……
、方法808n)可以被集成在统一库806中。该统一库允许各种图像分割方法响应于指示用于图像的期望的分割的交互(例如，单击、滑动、边界框)而在彼此的基础上建立。
[0118]
交互804可以被接收。交互可以是通过用户的对图像的交互式对象选择。这种交互式对象选择可以基于交互式动作(例如，单击、涂鸦、边界框和/或语言)。基于接收到的交互式对象选择，可以选择用于分割图像802的图像分割方法(例如，方法808a、方法808b、
……
、方法808n)。在一些实施例中，用户可以选择图像分割方法(例如，方法808n)。例如，用户可以(例如，经由图形用户接口交互)通过选择方法808n明确地选择方法。在其他实施例中，被用来分割图像的图像分割方法是基于交互804的。以这种方式，用户可以(例如，基于交互式对象选择)隐式地选择方法808n。
[0119]
基于交互804，方法808n可以被用来分割图像802。根据该分割，当前概率分布图
818可以被生成。概率分布图通常可以是分割方法的输出(例如，分割掩模、热图等)。
[0120]
图像802也可以被输入到cnn 810中。cnn 810可以是被用来在执行当前分割时集成有关(多个)先前分割的信息的卷积递归神经网络。根据图像802，cnn 810可以生成特征图812。特征图812通常可以涉及关于图像802的对象、特征和/或部分的信息。
[0121]
当交互804指示应当从期望的分割掩模排除(例如，移除)的图像的对象、特征或部分时，移除814可以被合并到cnn 810中。移除814可以将来自交互804的移除信息合并到cnn 810中，以便可以跟踪应该从期望的分割掩模排除的图像802的对象、特征或部分。特别地，移除814可以通过cnn 810与特征图812组合以生成特征图816。例如，如果交互804指示对象的移除，则移除814可以包含有关该对象的信息，使得该对象被从特征图816移除。
[0122]
cnn 810可以从统一库806接收当前概率分布图818。cnn 810还可以具有有关先前概率分布图820的信息。有关先前概率分布图820的信息可以被存储为cnn 810的隐藏状态。cnn 810可以将当前概率分布图818和先前概率分布图820与特征图816组合。特别地，cnn 810可以将当前概率分布图818与特征图816组合以生成第一特征822。cnn 810还可以将先前概率分布图820与特征图816组合以生成第二特征824。第一特征822和第二特征824可以被连结以生成更新的特征826。更新的特征826可以被输入到分类器828中。分类器828可以是能够从更新的特征826生成分割掩模的分类器神经网络。例如，分类器神经网络可以包括译码器部分，译码器部分可以将特征提取到人类无法解释的特征空间中，并将特征转换回图像状态中。以这种方式，分类器828可以生成更新的分割掩模830。
[0123]
图9图示了根据本公开的实施例的示例环境900，示例环境900可以被用于有关允许基于多个分割的图像的最优分割的集成分割系统的联合嵌入监督。特别地，卷积rnn可以被用于该联合嵌入监督。卷积rnn可以将(多个)先前分割与当前分割组合起来，而不需要关于用于生成分割的(多个)图像分割方法的任何信息。
[0124]
图像902可以被接收以用于分割。这种图像可以从存储在数据库(诸如图2的数据存储库202)中的一组图像或图片被接收。特别地，用户可以选择或输入接收到的图像。这种图像可以以任何方式被选择或输入。例如，用户可以使用设备上的相机拍摄照片。作为另一示例，用户可以从(例如，存储在通过网络可访问的数据存储库中的或被本地存储在用户设备处的)存储库选择期望的图像。
[0125]
(多个)交互904可以被接收。(多个)交互904可以是来自用户的交互式输入。这些交互可以是通过用户的对图像902的交互式对象选择。这种交互式对象选择可以基于交互式动作(例如，单击、涂鸦、边界框和/或语言)。基于(多个)交互904，统一库906可以选择用于分割图像902的图像分割方法。在一些实施例中，用户可以选择图像分割方法。例如，用户可以(例如，通过图形用户接口交互)明确地选择方法。在其他实施例中，被用来分割图像的图像分割方法可以由统一库906基于交互904来选择。
[0126]
使用图像分割方法，统一库906可以根据图像902和(多个)交互904生成(多个)概率分布图908(例如，p0)。(多个)概率分布图908可以被用来生成(多个)分割掩模914(例如m0)。接下来，用户可以根据(多个)分割掩模914更新(多个)交互904。更新的(多个)交互904可以是任何类型的交互(例如，与初始图像分割方法相同或不同)。统一库906可以选择用于更新(多个)概率分布图908的图像分割方法。卷积rnn可以被用来生成(多个)更新的概率分布图908。例如，图像分割方法可以更新概率分布图(例如p
t
)作为当前输出，并且与(多个)
隐藏状态910(例如s
t
‑1)一起，以推断更新的概率分布图910(例如y
t
)。这些步骤可以继续，直到用户对生成的分割掩模914(例如m
t
)满意为止。
[0127]
在已经描述了本公开的实施例之后，下面描述了可以在其中实现本公开的实施例的示例操作环境，以便为本公开的各个方面提供一般上下文。参照图10，用于实现本公开的实施例的说明性操作环境被示出，并且通常被指定为计算设备1000。计算设备1000仅是合适的计算环境的一个示例，并不旨在暗示对本公开的使用范围或功能性范围进行任何限制。也不应将计算设备1000解释为具有有关所图示的任何一个组件或组件的组合的任何依赖性或要求。
[0128]
本公开的实施例可以在计算机代码或机器可用指令的一般上下文中被描述，包括由计算机或其他机器(诸如智能电话或其他手持式设备)执行的计算机可执行指令(诸如程序模块)。通常，包括例程、程序、对象、组件、数据结构等的程序模块(或引擎)是指执行特定任务或实现特定抽象数据类型的代码。本公开的实施例可以在各种系统配置中被实践(包括手持式设备、消费电子产品、通用计算机、更专用的计算设备等)。本公开的实施例也可以在分布式计算环境中被实践，其中任务由通过通信网络链接的远程处理设备执行。
[0129]
参照图10，计算设备1000包括直接或间接耦合以下设备的总线1010：存储器1012、一个或多个处理器1014、一个或多个呈现组件1016、输入/输出端口1018、输入/输出组件1020和说明性电源1022。总线1010表示可以是一个或多个总线(诸如地址总线、数据总线或其组合)。尽管为了清楚起见，图10的各个框用清晰地描绘的线示出，但实际上，这样的描绘不是那么清楚，并且这些线可以重叠。例如，也可以将呈现组件(诸如显示设备)视为i/o组件。此外，处理器通常具有高速缓存的形式的存储器。我们认识到这是本领域的本质，并重申图10的示意图仅是示例计算设备的说明，该示例计算设备可以与本公开的一个或多个实施例结合使用。在诸如“工作站”、“服务器”、“膝上型电脑”、“手持式设备”等类别之间没有进行区分，是因为所有类别都在图10的范围内并且参考了“计算设备”。
[0130]
计算设备1000通常包括各种非瞬态计算机可读介质。非瞬态计算机可读介质可以是可以由计算设备1000访问的任何可用介质，并且非瞬态计算机可读介质可以包括易失性和非易失性介质、可移除和不可移除介质。通过示例而不是限制的方式，非瞬态计算机可读介质可以包括非瞬态计算机存储介质和通信介质。
[0131]
非瞬态计算机存储介质包括在用于存储信息的任何方法或技术中实现的易失性和非易失性、可移除和不可移除介质，该信息诸如计算机可读指令、数据结构、程序模块或其他数据。非瞬态计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd
‑
rom、数字多功能磁盘(dvd)或其他光盘存储装置、盒式磁带、磁带、磁盘存储装置或其他磁性存储设备，或者可以被用来存储所期望的信息并且可以由计算设备1000访问的任何其他介质。非瞬态计算机存储介质本身不包括信号。
[0132]
通信介质通常在经调制的数据信号(诸如载波或其他传输机构)中实施计算机可读指令、数据结构、程序模块或其他数据，并且通信介质通常包括任何信息递送介质。术语“经调制的数据信号”意味着具有以下一个或多个特性的信号：该信号的特性按照对信号中的信息进行编码的方式来设置或改变。通过示例而不是限制的方式，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、rf、红外和其他无线介质的无线介质。上述任何组合也应被包括在计算机可读介质的范围内。
[0133]
存储器1012包括易失性和/或非易失性存储器的形式的计算机存储介质。如所描绘的，存储器1012包括指令1024。当由(多个)处理器1014执行时，指令1024被配置为使计算设备(参考上文讨论的附图)执行本文所述的任何操作，或者实现本文所述的任何程序模块。存储器可以是可移除的、不可移除的或其组合。说明性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备1000包括从诸如存储器1012或i/o组件1020等各种实体读取数据的一个或多个处理器。(多个)呈现组件1016向用户或其他设备呈现数据指示。说明性呈现组件包括显示设备、扬声器、打印组件、振动组件等。
[0134]
i/o端口1018允许计算设备1000逻辑地耦合到包括i/o组件1020的其他设备，i/o组件1020中的一些组件可以是内置的。说明性组件包括麦克风、操纵杆、游戏板、卫星天线、扫描仪、打印机、无线设备等。
[0135]
本文呈现的实施例已经相对于特定实施例进行了描述，这些实施例在所有方面都旨在是说明性的而不是限制性的。在不脱离本公开范围的情况下，备选实施例对本公开所属领域的普通技术人员将是清楚的。
[0136]
根据上述内容，将看到本公开的一个优点是很好地实现了上述所有目的和目标，以及阐述了明显的且结构固有的其他优点。
[0137]
可以理解，某些特征和子组合是实用的，并且可以被采用而无需参考其他特征或子组合。这是由权利要求所预期的，并且在权利要求的范围内。
[0138]
在前述详细描述中参考了附图，附图形成了本发明的一部分，其中相同的附图标记指示贯穿其中的相同部分，并且通过图示的方式示出了可以被实践的实施例。应当理解，在不脱离本公开的范围的情况下，可以利用其他实施例，并且可以进行结构或逻辑改变。因此，不在限制意义上采用前述详细描述，并且实施例的范围由所附权利要求及其等同物限定。
[0139]
已经使用由本领域技术人员通常使用的术语来描述说明性实施例的各个方面，以将其工作的实质传达给其他本领域技术人员。然而，将对于本领域技术人员而言明显的是，可以仅使用所描述的一些方面来实践备选实施例。出于说明的目的，阐述了具体的数字、材料和配置，以便提供对说明性实施例的透彻理解。然而，对于本领域技术人员而言明显的是，可以在没有具体细节的情况下实践备选实施例。在其他实例中，为了不模糊说明性实施例，已经省略或简化了众所周知的特征。
[0140]
已经按照最有助于理解说明性实施例的方式将各种操作依次描述为多个离散操作；然而，不应将描述顺序解释为暗示这些操作必然依赖于顺序。特别地，这些操作不需要按照呈现的顺序来执行。此外，将操作描述为分离的操作不应被解释为要求操作必须独立和/或由分离的实体执行。实体和/或模块作为分离模块的描述同样不应解释为要求模块是分离的和/或执行分离的操作。在各种实施例中，图示的和/或描述的操作、实体、数据和/或模块可以被融合、分解为进一步的子部分和/或被省略。
[0141]
短语“在一个实施例中”或“在一个实施例中”被重复使用。该短语一般不指相同的实施例；然而，它可以指相同的实施例。除非上下文另有指定，否则术语“包括(comprising)”、“具有”和“包括(including)”是同义词。短语“a/b”意味着“a或b”。短语“a和/或b”意味着(a)、(b)、或(a和b)。短语“a、b和c中的至少一个”意味着(a)、(b)、(c)、(a和b)、(a和c)、(b和c)或(a、b和c)。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、装置、电子设备及计算机存储介质与流程

集成交互式图像分割的制作方法

相关文献

最热文献