用于检测和校正感知错误的语义特征的生成和使用的制作方法

2022-08-21 20:37:25 来源：中国专利 TAG：

用于检测和校正感知错误的语义特征的生成和使用
1.相关申请的交叉引用
2.本技术是2020年9月23日提交的美国申请no.17/030,354的部分继续申请，该美国申请no.17/030,354是2019年9月24日提交的美国临时申请no.62/905,059以及2020年3月3日提交的美国临时申请no.62/984,713的非临时专利申请，其全部内容通过引用并入本文。
3.本技术还要求2020年3月3日提交的u.s.62/984,728的权益并且是u.s.62/984,728的非临时专利申请，其全部内容通过引用并入于此。
4.发明背景
5.(1)发明领域
6.本发明涉及感知系统，并且更具体地，涉及一种使用语义特征来检测和校正感知错误的感知系统。
7.(2)相关技术描述
8.感知系统通常被用于目标识别和跟踪。在现行前景方面，深度学习为目前发展水平的感知系统的主要部分提供动力(参见所并入的参考文献列表中的参考文献no.4)。这些系统固有地难以解读和理解，这使得关于其成功和失败的推理成为困难的任务。另外，现今大多数感知系统仅以基于外观的信息为基础来操作，无论该信息是来自光检测与测距系统(lidar)的三维深度信息还是来自电光传感器的采用图像形式的视觉信息。当与人类感知相比时，目前发展水平的感知系统缺乏关于世界物理的概念信息、实体之间关系的观念以及任务特定上下文。
9.此外，现今的感知系统受困扰于与假阳性检测、漏检、误分类、目标轨迹中断(track)、轨迹中的类别切换等相关的问题。感知系统的可靠性是采用自主系统的主要障碍。因此，为了解决这些问题，当前的感知系统采用传感器以及传感器模态冗余化(modality redundancy)来克服缺乏感知性能。虽然冗余化尝试解决这些问题中的一些问题，但是冗余系统的使用显著增加了系统的必需尺寸、重量以及功率(swap)。本发明具有通过去除对冗余化的需要来减少swap的潜力。
10.因此，持续需要这样的一种感知系统，其提供语义信息和错误校正的机器理解，同时减少swap而不需要冗余化。

技术实现要素：

11.本公开提供了一种检测和校正感知系统中的感知错误的系统。在一个方面，所述系统包括存储器以及一个或更多个处理器。所述存储器是非暂时性计算机可读介质，所述非暂时性计算机可读介质上编码有可执行指令，使得在执行所述指令时，所述一个或更多个处理器执行若干操作，例如：根据场景的感知数据生成检测目标的列表；根据所述感知数据中的与检测目标的列表相关联的背景生成背景类的列表；对于所述检测目标的列表中的各个检测目标，从所述背景类的列表中识别最近背景类；确定所述目标类的目标嵌入矢量；确定所述最近背景类的背景类嵌入矢量；以及基于所述目标嵌入矢量与所述背景类嵌入矢量之间的距离来确定语义特征。
12.在另一方面，所述系统执行以下操作：生成所述语义特征的概率分布，所述概率分布具有真阳性分布和假阳性分布；识别所述真阳性分布的下界和上界以使所述下界与上界之间的范围表示真阳性探针(probe)的置信度概率p
tp
，使得所述置信度概率p
tp
是输入感知参数的公理；基于所述公理来调整所述输入感知参数，以生成最优感知参数；以及基于所述最优感知参数来调整所述感知系统的一个或更多个感知参数。
13.在另一方面，所述语义特征是余弦相似性度量(metric)。
14.此外，所述语义特征是条件随机场(crf)特征，其中，通过概率框架来获得同现统计，其中最大后验概率推论被用于确定同现目标的似然。
15.在另一方面，所述系统执行以下操作：使自主载具基于所述最优感知参数来发起物理操作。
16.最后，本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令，所述计算机可读指令可以由具有一个或更多个处理器的计算机执行，使得在执行所述指令时，所述一个或更多个处理器执行本文列出的操作。另选地，计算机实现的方法包括使计算机执行这些指令并执行所得操作的行为。
附图说明
17.根据本发明的各个方面的以下详细描述，结合参考以下附图，本发明的目的、特征和优点将显而易见，在附图中：
18.图1是描绘根据本发明的各个实施方式的系统的组件的框图；
19.图2是具体实施本发明的方面的计算机程序产品的例示图；
20.图3是描绘根据本发明的各种实施方式的用于生成语义特征的先决条件的例示图；
21.图4是描绘根据本发明的各种实施方式的语义特征生成处理的流程图；
22.图5是描绘根据本发明的各种实施方式的针对五个不同的示例目标的条件随机场(crf)的结构的例示图；
23.图6是描绘根据本发明的各种实施方式的在目标检测中的示例误分类的例示图；
24.图7是描绘根据本发明的各种实施方式的pstl框架的概览的流程图；
25.图8是描绘根据本发明的各种实施方式的探针的样本概率分布的曲线图。
具体实施方式
26.本发明涉及一种使用语义特征来检测和校正感知错误的感知系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的上下文中。各种变型例以及不同应用的多种用途对于本领域技术人员来说是显而易见的，并且本文定义的一般原理可以被应用于广泛方面。因此，本发明并非旨在限于所呈现的方面，而是与符合本文所公开的原理和新颖特征的最广范围相一致。
27.在下面的详细描述中，阐述了许多具体细节以便提供对本发明的更透彻理解。然而，对本领域技术人员而言将显而易见的是，本发明可以在不必限于这些具体细节的情况下来实践。在其它情况下，公知结构和设备以框图形式示出，而非详细示出，以避免模糊本
发明。
28.请读者关注与本说明书同时提交并且与本说明书一起开放以供公众查阅的所有文件和文档，并且所有这些文件和文档的内容通过引用并入本文。除非另有明确说明，否则本说明书(包括任何所附权利要求、摘要以及绘图)中公开的所有特征可以由用于相同、等同或相似目的的另选特征来代替，因此，除非另有明确说明，否则所公开的各个特征仅是一系列的等同或相似特征中的一个示例。
29.此外，权利要求中没有明确陈述用于执行指定功能的“装置”或用于执行特定功能的“步骤”的任何要素不应被解释为如35u.s.c.第112(f)节中规定的“装置”或“步骤”条款。特别地，在本文的权利要求书中使用
“……
的步骤”或
“……
的动作”并非旨在触发35u.s.c.第112(f)节的条款。
30.在详细描述本发明之前，首先提供参考文献列表。接下来，提供本发明各个主要方面的描述。随后，介绍为读者提供了对本发明的一般理解。最后，提供本发明各个实施方式的具体细节，以使得能够理解具体方面。
31.(1)并入的参考文献列表
32.贯穿本技术引用以下参考文献。为清楚和方便起见，本文中为读者列出这些参考文献作为集中式资源。以下参考文献通过引用并入于此，如同在本文中充分阐述一样。这些参考文献通过参照如下对应文献参考编号而在本技术中加以引用：
33.1."wordnet|a lexical database for english".wordnet.princeton.edu,2010.
34.2.tripathi,subarna,et al."using scene graph context to improve image generation."arxiv preprint arxiv:1901.03762(2019).
35.3.sadigh,dorsa,and ashish kapoor."safe control under uncertainty with probabilistic signal temporal logic."(2016).
36.4.krizhevsky,alex,ilya sutskever,and geoffrey e.hinton."imagenet classification with deep convolutional neural networks."advances in neural information processing systems,vol.2,pp.1097
–
1105,2012.
37.5.caesar,holger,jasper uijlings,and vittorio ferrari."coco-stuff:thing and stuff classes in context."proceedings of the ieee conference on computer vision and pattern recognition.2018.
38.6.kirillov,alexander,et al."panoptic segmentation."proceedings of the ieee conference on computer vision and pattern recognition.2019.
39.7.xiong,yuwen,et al."upsnet:a unified panoptic segmentation network."proceedings of the ieee conference on computer vision and pattern recognition.2019.
40.8.kirillov,alexander,et al."panoptic feature pyramid networks."proceedings of the ieee conference on computer vision and pattern recognition.2019.
41.9.redmon,joseph,and ali farhadi."yolov3:an incremental improvement."arxiv preprint arxiv:1804.02767(2018).
42.10.he,kaiming,et al."mask r-cnn."proceedings of the ieee international conference on computer vision.2017.
43.11.chen,liang-chieh,et al."semantic image segmentation with deep convolutional nets and fully connected crfs."arxiv preprint arxiv:1412.7062(2014).
44.12.speer,robert,joshua chin,and catherine havasi."conceptnet 5.5:an open multilingual graph of general knowledge."thirty-first aaai conference on artificial intelligence.2017.
45.13.mikolov,tomas,et al."distributed representations of words and phrases and their compositionality."advances in neural information processing systems.2013.
46.14.bojanowski,piotr,et al."enriching word vectors with subword information."transactions of the association for computational linguistics 5(2017):135-146.
47.15.joulin,armand,et al."bag of tricks for efficient text classification."arxiv preprint arxiv:1607.01759(2016).
48.16.u.s.application no.17/030,354,filed september 23,2020,entitled,"system and method of perception error evaluation and correction by solving optimization problems under the probabilistic signal temporal logic based constraints".
49.17.ren,shaoqing,et al."faster r-cnn:towards real-time object detection with region proposal networks."advances in neural information processing systems.2015.
50.(2)主要方面
51.本发明的各种实施方式包括三个“主要”方面。第一个主要方面是一种使用语义特征来检测和校正感知错误的感知系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的设备中。第二个主要方面是利用数据处理系统(计算机)操作的通常采用软件形式的方法。第三个主要方面是计算机程序产品。计算机程序产品通常表示存储在诸如光学存储设备(例如，光盘(cd)或数字通用盘(dvd))或磁存储设备(例如，软盘或磁带)之类的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其他非限制性示例包括：硬盘、只读存储器(rom)以及闪存型存储器。这些方面将在下面进行更详细描述。
52.图1中提供了描绘本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。在执行时，所述指令使计算机系统100执行特定动作并展现特定行为，如本文所描述的。在各个方面，可以将计算机系统100在操作以执行本文所描述的适用于特定应用的功能的任何设备中具体实施，诸如台式计算机、移动电话或智能手机、平板计算机、在移动平台中具体实施的计算机、或者可以单独地
和/或共同地执行指令以执行相关操作/处理的一个或多个任何其它设备。
53.计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外，一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器，诸如并行处理器、专用集成电路(asic)、可编程逻辑阵列(pla)、复杂可编程逻辑器件(cpld)、或现场可编程门阵列(fpga)，或者可操作为执行相关操作的任何其它处理组件。
54.计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“ram”)、静态ram、动态ram等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“rom”)、可编程rom(“prom”)、可擦除可编程rom(“eprom”)、电可擦除可编程rom(“eeprom”)、闪速存储器等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取回的指令。在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，诸如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其他电子设备和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。
55.在一个方面，计算机系统100可以包括与地址/数据总线102联接的输入设备112，其中，输入设备112被配置成将信息和命令选择传送至处理器104。根据一个方面，输入设备112是字母数字输入设备(诸如键盘)，其可以包括字母数字键和/或功能键。另选地，输入设备112可以是除字母数字输入设备之外的其他输入设备。在一方面，计算机系统100可以包括与地址/数据总线102联接的光标控制设备114，其中，光标控制设备114被配置成将用户输入信息和/或命令选择传送至处理器104。在一方面，光标控制设备114是利用诸如鼠标器、轨迹球、轨迹板、光学跟踪设备或触摸屏的设备来实现的。尽管前述如此，但在一方面，诸如响应于使用与输入设备112相关联的特殊键和键序列命令，光标控制设备114经由来自输入设备112的输入而被引导和/或启用。在另选方面，光标控制设备114被配置成通过话音命令管理或引导。
56.在一方面，计算机系统100还可以包括一个或更多个可选计算机可用数据存储设备，诸如与地址/数据总线102联接的存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面，存储设备116是诸如磁或光盘驱动器(例如，硬盘驱动器(“hdd”)、软盘、光盘只读存储器(“cd-rom”)、数字通用盘(“dvd”))的存储设备。依据一个方面，显示设备118与地址/数据总线102联接，其中，显示设备118被配置成显示视频和/或图形。在一方面，显示设备118可以包括：阴极射线管(“crt”)、液晶显示器(“lcd”)、场发射显示器(“fed”)、等离子体显示器，或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其他显示设备。
57.本文所呈现的计算机系统100是根据一方面的示例计算环境。然而，计算机系统100的非限制示例并不严格限于作为计算机系统。例如，一个方面提供了计算机系统100表
示可以根据本文所述各个方面使用的一类数据处理分析。此外，还可以实现其他计算系统。实际上，本技术的精神和范围不限于任何单一数据处理环境。因此，在一方面，使用通过计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中，这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外，一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，诸如，在该计算环境中，任务由通过通信网络链接的远程处理设备执行，或者诸如，在该计算环境中，各种程序模块位于包括存储器-存储设备的本地和远程计算机存储介质中。
58.图2中描绘了具体实施本发明的计算机程序产品(即，存储设备)的示图。计算机程序产品被描绘为软盘200或诸如cd或dvd的光盘202。然而，如先前提到的，该计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作，并且可以表示整个程序的片段或单个分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子设备(即，编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，诸如存储在计算机的存储器中或软盘、cd-rom以及闪存驱动器上。无论如何，这些指令被编码在非暂时性计算机可读介质上。
59.(3)介绍
60.如上所述，本公开致力于一种感知系统。本公开提供了一种根据语义信息生成特征并且使用这种信息来检测和校正感知系统中的错误的系统和方法。该处理使得能够在语义空间中创建特征嵌入矢量。嵌入可以对信息提示进行编码，该信息提示包括但不限于，目标同现、空间关系、目标/背景分类学、词本体、基于场景图的上下文以及语源关系。对词本体和基于场景图的上下文的理解可以分别在参考文献no.1和no.2中找到。将这种信息编码在嵌入矢量中的能力有助于机器懂得感知系统中的上下文，而不是纯粹依赖于基于外观的特征。所公开的系统利用了使用概率信号时间逻辑框架的这种语义特征来检测和校正感知错误，该感知错误包括但不限于，目标误分类、目标漏检、目标轨迹中断以及假阳性目标检测。对概率信号时间逻辑的理解可以在参考文献no.3中找到。该系统可以使用语义信息来为概率信号时间逻辑框架创建一个或更多个约束，该语义信息被用于检测和校正这种感知系统中的感知错误。
61.在检测和校正感知错误方面，本公开的系统比现有技术更鲁棒且计算成本更低，并且重要的是对于基本应用是高性能的。本公开的系统提供了优于现有技术的若干独特优点，包括：(1)将来自图像和其它传感器输出的上下文(contextual)语义信息转换成机器可理解的特征嵌入矢量，(2)使用语义特征嵌入来创建概率时间逻辑框架中的约束和公理，(3)以形式上可验证的方式对由语义上下文辅助的感知错误的改进评价和校正，以及(4)将场景中的目标之间的依赖性模型(dependency model)的公式化，从而允许使用依赖性模型来提高检测准确性。
62.本领域技术人员可以意识到，该系统具有采用感知系统的若干应用。一些非限制性示例包括在智能、监视和侦察应用(isr)、自主载具和其它无人驾驶空中系统以及目标识别和跟踪方面的使用。在本发明中描述的系统也可以被用于对其它感知系统进行基准测试。具体细节提供如下。
63.(4)各个实施方式的具体细节
64.本公开描述了一种生成特征嵌入的方法和系统，该特征嵌入对语义信息进行编码并使用这种特征嵌入来检测和校正错误。系统首先生成要被用作探针的语义特征。使用这些探针，系统建立概率信号时间逻辑(pstl)，该pstl提供公理(axiom)。利用这些基于公理的约束，求解优化问题以合成用于感知系统的减少感知错误的控制。
65.如上所述，系统首先生成要被用作探针的语义特征。然而，并且如图3所示，存在一些计算语义特征嵌入的先决条件。例如，根据原始输入感知数据300(例如，图像等)，系统必须首先获得图像中的检测目标的列表302以及检测目标的位置(经由实例提取)以及背景类(被定义为coco-stuff中的“素材(stuff)”，参见参考文献no.5)的列表306连同这些背景类的图像掩模(经由背景提取)。在图像中检测到的目标/类的列表是由感知系统来提供的。本公开的系统熟练掌握感知系统(即，与感知系统一起工作)；换句话说，本公开的系统使用感知系统的输出，并且基于附加的语义上下文来确认/改进感知系统的结果。本公开的系统可以根据现有的域知识来生成任何目标类的语义特征，但是在一个方面，本系统不负责检测图像中的这些目标。
66.这些先决条件可以根据原始输入感知数据300来计算，原始输入感知数据例如是电光传感器图像、激光雷达深度图、雷达检测或其任何组合。为了便于本描述，将使用来自摄像头的图像。对于摄像头图像，可以使用目前发展水平的全景分割304模型(参见参考文献no.6、no.7和no.8)来计算这些先决条件。另选地，可以将任何性能好的目标检测技术(例如，参见参考文献no.8、no.9和no.10)同语义分割技术(参见参考文献no.11)合作使用，以获得相同的先决条件，所述先决条件包括与各个检测目标相关联的已识别目标类以及各个检测目标的图像位置。
67.为了使用该生成方法，该系统需要概念词嵌入。为了便于本描述并且作为非限制性示例，使用conceptnet numberbatch(参见参考文献no.12)。
68.可以遵循以下伪代码来生成用于目标-背景关系的语义特征：
[0069][0070]
图4进一步例示了生成语义特征的处理。对于来自目标的列表302的各个检测目标400，系统通过使用从目标像素到背景像素的最小欧几里德(euclidian)距离来从背景类的
列表306中找到最近背景402。这是通过将检测目标400与背景类的列表306中的各个背景类进行比较来识别具有最小距离的背景类404来完成的。应注意，先前的示例不是计算最近背景类的唯一方式。计算最近背景类的任何方法都可以作为本公开的处理的部分。余弦相似性只是可以被用作特征的度量的一个示例。它仅被用作示例是因为当使用不同的相似性度量或者创建除相似性之外的不同类型的语义特征时，本发明也是适用的。
[0071]
使用概念词嵌入，系统然后继续分别经由目标嵌入410和背景嵌入406来找到目标类408和最近背景类404的嵌入矢量。然后，系统相应地使用下式确定余弦相似性412，作为目标408的嵌入矢量410与背景类404的嵌入矢量406之间的相似性度量：
[0072][0073]
其中，a表示目标类，b表示对应的最近背景类。θ是高维空间中的两个矢量a与b之间的角度。θ的余弦是矢量a与b之间的相似性的指示符。
[0074]
可以将所计算的余弦相似性412用作语义特征414。该特征414应当通过提供介于-1至1之间的相似性得分来对目标是否紧密相关进行编码。由于使用概念嵌入而不是简单的词嵌入(如word2vec或fasttext，参见参考文献no.13至no.15)，因此，嵌入已经编码有语义信息而不是仅仅使用语言上下文。
[0075]
类似于如何计算目标-背景相干性(coherence)的语义特征，系统也可以计算目标-目标相干性。如果两个目标的共存是合理的，则可以将它们说成是相干的。例如，如果在图像中检测到紧挨着人的手提包，则可以说是合理的，因为人们携带手提包。而如果检测到紧挨着交通灯的手提包，则可能会怀疑感知系统的结果。在当前情况下，为了计算目标-目标相干性的语义特征，系统可以计算源图像中彼此靠近或相邻定位的两个目标类的概念嵌入的余弦相似性。
[0076]
在本公开的系统中，系统使用目标之间的条件同现统计(conditional cooccurrence statistics)来进一步评估目标检测中的潜在错误。“有条件的(conditional)”是因为考虑到如果没有计算上的过度(overkill)和“同现统计”来学习目标之间的依赖性，则给定场景的所有语义目标之间的关系将是多余的。为此，制定条件随机场(crf)框架，其中通过概率框架获得同现统计，在该概率框架中，以场景/情景使用最大后验概率(map)推论为条件来评估同现目标的可能性。目标是构建描述情景中的目标之间的相关性的图模型，并以该场景为条件进行预测。对于更多细节，考虑图模型g＝(v，e)，其中，v是m个节点的集合，各个节点对应于特定目标。e是团(clique)之间的边缘集合。团可以利用任何数量的目标的任何组合来进行定义；然而，推论可能很快变得难以处理。例如，图5例示了特定场景中的可能的团的范围。这里的目的是利用目标内的互信息(mutual information)(例如，不同目标彼此一样(comone)并且以特定场景(例如，城市驾驶区域)为条件的信息)来表征各个模型。互信息也不限于共同性(commonality)。术语“互(mutual)”是一般性地使用的，因为有时模式不是共同的，而是在两个目标之间一致地自然增长；统计一致性被称为互信息。
[0077]
这可以被写为，
[0078][0079]
其中，团势(clique potential)φc(y，x)是从各个团的特征函数获得的非负实值，并且其中p是条件概率，x和y是图像中的目标对的语义特征。如果团为两个，则它们被称为一对；对于超出成对分析的情况，计算量呈指数增长。理论上，如果c是所有可能的团，则其将是目标的所有组合；但实际上，这种推论是难以处理的。因此，该处理坚持成对分析；然而，为了一般性起见，将该处理描述为团以例示其不仅限于是成对的。
[0080]
特征函数定义了节点之间的连接。作为非限制性示例并且参照本文所描述的实验，由于该处理集中于成对交互，因此，有两个特征函数要设计：1)一元特征函数，其是利用目标检测的置信度来计算的(在语义特征生成之前)；然后是(2)成对特征函数，其是利用语义特征之间的余弦相似性来计算的。各个团c具有的特征函数的数量是一种设计选择。一方面，期望确保特征函数可以捕获有区别的信息，另一方面，期望确保该处理不引入太多的参数以致过拟合或者使计算难以处理。因此，按照以下方式确定上界，即，使得如果团中的目标的最大数量是n并且最小数量是1，则下界是n，并且上界是2的所有组合加上3
…
n！的所有组合。各个团势是通过一组特征函数来进行因式分解的，其中，k是团c中的特征函数的索引。通常，各个特征函数的显著性是根据同现统计(即类似于在城市场景条件下手提包和人常常是彼此紧挨着被检测到的)来学习的，然而，在该框架中，距离度量(measure)是处于概念水平的。因此，各个特征函数具有与其相关联的权重因子或“显著性”权重越高，该对在对场景中的给定目标进行分类时就越具有区别性。
[0081]
最后，为了进行概率度量，使用归一化项z(x)(也被称为针对所有可能团定义的配分函数)如下：
[0082]
z(x；θ)＝∑yπ
c∈c
{φc(y，x；θ)}。
[0083]
在该框架中，特征函数的权重是直接根据归一化的同现统计(其可以潜在地使用归一化的余弦距离来获得)来获得的。在标准crf术语中，将势(potential)写为：
[0084][0085]
各个参数θk的值直接受数据(该数据是被用于训练的数据或者潜在地来自现有知识的数据，诸如来自conceptnet)的稀疏性所影响。增加稀疏性提高了crf结构的表达力，这也是隐马尔可夫模型(hidden markov model(hmm))或动态贝叶斯网络(dynamic bayesian network(dbn))的基础理论。
[0086]
一旦对参数进行了训练(基于同现概率)，就将map推论用于各个测试样本，以选择其参数返回最高条件似然的标签。例如，在场景是城市目标的条件下，目标“汽车”和“公共汽车”与“汽车”和“飞行器”相比将具有更高的相关性。
[0087]
可以将该生成的语义特征用于确认目标-背景相干性。例如，并且如图6所示，飞行器600被误分类为冲浪板。在这种情形下，使用语义特征可能是有益的。在图像中检测到的冲浪板的最近背景类是天空和道路。使用这个信息，系统可以基于目标-背景相干性来计算
语义特征。如果目标检测网络可以为检测目标提供附加的潜在类/类别，则系统还可以计算这些类的语义特征。在该示例中，在下表中示出了飞行器的相同语义特征。
[0088]
目标类背景类语义特征冲浪板天空-0.0145飞行器天空0.2829冲浪板道路0.0319飞行器道路0.0754
[0089]
基于上表中所计算的语义特征值，清楚的是，冲浪板和天空在语义空间中并不接近并且是完全相异的。仅基于该观察，存在来自语义特征的如下清楚信号，即，冲浪板可能是不正确检测。最新的计算机视觉技术采用候选生成方法(proposal generation approach)，其中，生成第一目标候选，然后对所述候选进行评估和分类。在试图使用该语义特征校正错误时，系统可以计算冲浪板边界框候选的候选者(candidate)类别的语义特征。这在上表中示出。该系统可以将来自飞行器和天空与道路背景类的组合的语义特征与来自冲浪板和背景类的组合的语义特征进行比较。查看表中的值，很明显，相比于冲浪板，飞行器与天空和道路是明显更具相干性的。使用该信息，可以使用来自区域候选网络(regional proposal network)的候选者类别将所检测到的错误固定成具有正确的类别。有关区域候选网络的讨论，参见参考文献no.17。
[0090]
如图7所示，本公开的发明采用概率信号时间逻辑(probabilistic signal temporal logic(pstl))702框架(参见针对pstl的参考文献no.16)来使用上述语义特征。语义特征(如图4中的要素414所示)是作为感知探针生成700处理的一部分生成的并且被用作探针。pstl框架702使用所生成的探针，所生成的探针包括但不限于，目标大小、纵横比、对比度以及熵。因此，语义特征将被用作pstl 702中的探针。对于各个探针，使用统计分析，以基于真阳性检测和假阳性检测来生成真阳性概率分布和假阳性概率分布。例如，图8描绘了使用任何适当处理的探针的样本概率分布，其示例在参考文献no.16中进行了描述。
[0091]
通过分析这些真阳性800和假阳性802的分布及其交叉点，可以建立真阳性的上界804和下界806。在该示例中，阴影区域表示真阳性探针的置信度概率p
tp
。再次参照图7，将其描述为针对pstl的公理704，提供了：
[0092][0093]
其中，pr(
·
)是谓项(predicate)，y是真实检测结果，ts：te是指ts与te之间的时间序列，因此f(x，ts：te)是时间帧ts：te中的探针序列。在该式中，令x是对应语义特征的探针，则y将是语义特征的正确检测结果。这意味着探针指示语义特征检测/识别是有效的。取决于探针维数，概率函数也可以是多维的。对来自x的所有可用公理进行集成提供了对应检测或识别的“多维范围”。如上所述，这里使用的x是探针或语义特征，而非公理。
[0094]
然后，可以使用这些公理704来优化将提供最佳的真阳性与假阳性比率的理想感知控制参数708。因此，感知控制参数可以基于优化来调整。经调整的感知参数可以被用于修改感知系统的输入，或者修改感知系统的硬件中的参数，或者修改感知系统内部的模型中的参数。所有这三种情况(输入、硬件以及模型)都被认为是感知系统的一部分。
[0095]
使用基于pstl约束的优化706(例如，参见参考文献no.16)来优化理想感知控制参
数708。必须首先构建“感知动态”，以便建立优化问题，如下所示：
[0096]
x
t
′
＝f
t
(x
t
) g
t
(u
t
)，
[0097]
其中，x
t
是时间t处的探针状态，x
t
′
是下一时间帧t
′
中的预测探针。这里，x被定义为探针状态；它是正被用作探针的语义特征。f
t
(
·
)是状态转移函数，g
t
(
·
)是具有控制输入u
t
的输入函数(应注意，状态转移函数f
t
不应与探针序列f或特征函数f
kc
混淆)。目标是实现最优u
t
以减少感知错误，并且在这样做时，生成最优感知参数708(即，u
opt
)。为了满足该目标，将优化问题设定成：
[0098][0099]
其中，j(
·
)是估计感知错误的成本函数。因此，最小化j(
·
)可以实现最佳感知模块控制输入。最终，具有用于探针的两个或更多个基于pstl的约束f(x
t
)，g(z
t
)等的最终优化公式变为，
[0100][0101][0102][0103]
使用上述方法，可以为语义目标-背景相干性建立以下样本pstl公理：
[0104][0105]
在该式中，z是语义特征。对于语义特征，由于余弦相似性值将总是介于-1至1之间，并且余弦相似性1将总是理想的场景，因此，该处理可以被设计成忽略上界并且形成仅单侧下界的约束。在以上建立的样本公理中，对于飞行器，语义目标-背景相干性特征值应当在时间ts：te的至少99％内大于0.2，以使不违反pstl。语义特征阈值和p
tpz
将在一个类与另一类之间不同。p
tpz
是关于真阳性的界限的概率约束。z和x表示不同的约束。在一个示例中，p
tpx
可以是飞行器边界的约束，p
tpz
可以是手提包边界的约束，z和x在这个上下文中是标识符，它们可以是a、b、c或者任何其它字母或短语。
[0106]
本系统的输出是被用于识别和校正感知错误的约束集合。可以在具有多种不同应用的系统中校正这些感知错误，这些应用包括但不限于，自主城市驾驶、自主飞行、情报监视与侦察、搜索和救援。不正确的检测可能导致自主系统遵循不希望的轨线(trajectory)。因此，本公开的系统的输出通过调整感知参数来校正错误检测，这进而影响该有形物理自主系统的规划和决策制定。例如，系统可以使自主系统更改其移动以校正行进轨线。
[0107]
换句话说，本公开的系统提供了一个或更多个约束的集合，诸如上面引用的那些约束。这些约束被用于识别感知错误。然后，检查图像中的其它目标候选者，以最终校正所识别的错误。在一个方面，该错误识别和校正是本发明中描述的系统的输出，其可以被中继至规划器，以影响、修改和规划自主系统的更好且更安全的轨线。
[0108]
作为另一示例，自动驾驶(self-driving)载具可能将自行车误分类为人。在没有本系统的情况下，自动驾驶汽车将会预期行人停留在人行道上，而实际上自行车未被约束至人行道。本系统能够校正该错误并且将自行车准确地通知给自动驾驶载具。使用本公开的系统，自动驾驶载具将在物理世界中采取确实不同的路线来限制其自身进入自行车车道，以避免潜在的事故。在这样做时，系统可以使自动驾驶载具通过载具中的其它系统(诸
如加速器、制动器、或转向)来发起物理操作，以避免与所检测到的目标(例如，在该示例中的自行车)碰撞。因此，在一方面，自动驾驶载具将自动地调整/修改其轨线，以考虑如本文所述的方法和系统的结果。本领域技术人员可以意识到，该概念可以扩展至多种应用，诸如无人驾驶飞行器、工厂中的机器人设备等。
[0109]
最后，虽然已经根据若干实施方式对本发明进行了描述，但本领域普通技术人员将容易地认识到，本发明可以在其他环境中具有其他应用。应注意，可以有许多实施方式和实现。此外，所附权利要求绝不旨在将本发明的范围限于上述具体实施方式。另外，“用于
……
的装置”的任何叙述旨在引发要素和权利要求的装置加功能的解读，而未特别使用“用于
……
的装置”叙述的任何要素不应被解读为装置加功能要素，即使权利要求以其他方式包括了“装置”一词。此外，虽然已经按特定顺序叙述了特定方法步骤，但这些方法步骤可以按任何期望的顺序进行并且落入本发明的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：工件图像解析装置、工件图像解析方法以及程序与流程

用于检测和校正感知错误的语义特征的生成和使用的制作方法

相关文献

最热文献