一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视觉行为引导的对象检测的制作方法

2021-11-09 20:22:00 来源:中国专利 TAG:


1.本公开总体上涉及深度神经网络。


背景技术:

2.自主车辆可基于传感器输入来执行计算机控制的转向和速度控制。在一些情况下,自主车辆可使用深度神经网络(dnn)来执行许多图像理解任务,包括分类、分割和生成字幕。例如,深度神经网络可将图像作为输入,向图像内描绘的各个方面/对象分配重要性,并且将所述方面/对象彼此区分开。


技术实现要素:

3.一种训练深度神经网络的方法可包括:从与传感器相关联的眼睛跟踪系统接收在操作员控制车辆时捕获的图像帧;从所述眼睛跟踪系统接收对应于所述图像帧的眼球注视数据;以及迭代地训练所述深度神经网络以基于所述眼球注视数据确定所述图像帧内描绘的感兴趣对象。所述深度神经网络生成至少一个特征映射图并基于所述眼球注视数据确定与所述至少一个特征映射图内的所述感兴趣对象相对应的提议区域。
4.在其他特征中,所述眼睛跟踪系统是可穿戴眼睛跟踪系统,并且在所述传感器捕获所述图像帧时由所述操作员穿戴。
5.在其他特征中,所述深度神经网络包括卷积神经网络(cnn),其中到所述cnn的输入是所述图像帧,其中所述cnn的输出包括所述至少一个特征映射图。
6.在其他特征中,所述深度神经网络包括区域提议网络,所述区域提议网络接收所述至少一个特征映射图和对应于所述眼球注视数据的投影眼睛坐标,其中所述区域提议网络基于所述投影眼睛坐标来确定所述提议区域。
7.在其他特征中,所述深度神经网络包括接收所述至少一个特征映射图和所述提议区域的感兴趣区域池化层,其中所述感兴趣区域池化层对所述至少一个特征映射图进行修改,使得修改后的特征映射图的大小等于预定大小。
8.在其他特征中,所述深度神经网络包括接收所述修改后的特征映射图的至少一个完全连接层,其中所述至少一个完全连接层对所述感兴趣对象进行分类。
9.在其他特征中,所述图像帧是从所述传感器接收的多个视频帧中的一个。
10.在其他特征中,所述眼睛跟踪系统包括:所述传感器;指向所述操作员的眼睛的一个或多个照明器;指向所述操作员的眼睛的一个或多个相机;以及计算机,所述计算机被编程为使用所述眼球注视数据和所述图像帧来确定所述操作员的注视点,其中所述传感器包括红绿蓝(rgb)相机。
11.在其他特征中,所述方法包括:将所述经训练的深度神经网络安装在车辆中;以及使用所述经训练的深度神经网络以自主模式导航所述车辆。
12.在其他特征中,所述眼球注视数据包括以下信息中的一者或多者:(所述图像帧的)时间戳、左眼注视点、右眼注视点、左眼三维(3d)注视位置、右眼3d注视位置、组合眼3d
注视位置、左眼瞳孔位置、右眼瞳孔位置、左眼瞳孔直径、右眼瞳孔直径、左眼置信度参数、右眼置信度参数、皮肤电反应响应参数、三轴加速度计值、三轴陀螺仪值或映射的注视点。
13.根据至少一个另外的说明性示例,描述了一种系统,其包括:包括传感器的眼睛跟踪系统;通信地耦接到所述传感器和所述眼睛跟踪系统的计算机,所述计算机包括一个或多个处理器和存储器,所述存储器存储可由所述一个或多个处理器执行的指令,其中所述指令在由所述处理器执行时致使所述处理器:从所述眼睛跟踪系统接收在操作员控制车辆时捕获的图像帧;从所述眼睛跟踪系统接收对应于所述图像帧的眼球注视数据;以及迭代地训练深度神经网络以基于所述眼球注视数据来确定所述图像帧内描绘的感兴趣对象。所述深度神经网络生成至少一个特征映射图并基于所述眼球注视数据确定与所述至少一个特征映射图内的所述感兴趣对象相对应的提议区域。
14.根据上述至少一个示例,所述深度神经网络包括行人检测算法、第一深度神经网络(第一dnn)、第二深度神经网络(第二dnn)和第三深度神经网络(第三dnn),其中到所述行人检测算法和所述第二dnn中的每一者的输入是所述图像帧,其中所述第一dnn和所述第二dnn的输出是到所述第三dnn的输入,其中所述第三dnn的输出是对所述一个或多个目标行人的指示。
15.根据上述至少一个示例,公开了一种包括至少一个处理器和存储器的计算装置,其被编程为执行上述一种或多种方法的示例的任何组合。
16.根据至少一个示例,公开了一种计算机程序产品,其包括计算机可读介质,所述计算机可读介质存储可由计算机处理器执行的指令,其中所述计算机程序产品的所述指令包括上述一种或多种方法的示例的任何组合和/或可由如上文和本文所述的一个或多个处理器执行的所述指令的任何组合。
17.在其他特征中,所述眼睛跟踪系统是可穿戴眼睛跟踪系统,并且在所述传感器捕获所述图像帧时由所述操作员穿戴。
18.在其他特征中,所述深度神经网络包括卷积神经网络(cnn),其中到所述cnn的输入是所述图像帧,其中所述cnn的输出包括所述至少一个特征映射图。
19.在其他特征中,所述深度神经网络包括区域提议网络,所述区域提议网络接收所述至少一个特征映射图和对应于所述眼球注视数据的投影眼睛坐标,其中所述区域提议网络基于所述投影眼睛坐标来确定所述提议区域。
20.在其他特征中,所述深度神经网络包括接收所述至少一个特征映射图和所述提议区域的感兴趣区域池化层,其中所述感兴趣区域池化层对所述至少一个特征映射图进行修改,使得修改后的特征映射图的大小等于预定大小。
21.在其他特征中,所述深度神经网络包括接收所述修改后的特征映射图的至少一个完全连接层,其中所述至少一个完全连接层对所述感兴趣对象进行分类。
22.在其他特征中,所述图像帧是从所述传感器接收的多个视频帧中的一个。
23.在其他特征中,所述眼睛跟踪系统包括:所述传感器;指向所述操作员的眼睛的一个或多个照明器;指向所述操作员的眼睛的一个或多个相机;以及计算机,所述计算机被编程为使用所述眼球注视数据和所述图像帧来确定所述操作员的注视点,其中所述传感器包括红绿蓝(rgb)相机。
24.在其他特征中,所述指令在由所述处理器执行时致使所述处理器:基于所述感兴
趣对象以自主模式导航所述车辆。
25.在其他特征中,所述眼球注视数据包括以下信息中的一者或多者:(所述图像帧的)时间戳、左眼注视点、右眼注视点、左眼三维(3d)注视位置、右眼3d注视位置、组合眼3d注视位置、左眼瞳孔位置、右眼瞳孔位置、左眼瞳孔直径、右眼瞳孔直径、左眼置信度参数、右眼置信度参数、皮肤电反应响应参数、三轴加速度计值、三轴陀螺仪值或映射的注视点。
附图说明
26.图1是用于深度神经网络的系统的示意图,所述系统包括车辆(仅示出车辆的一部分)、示例性眼睛跟踪系统和计算机。
27.图2是眼睛跟踪系统的示例性示意图。
28.图3是计算机的示例性示意图。
29.图4是示出深度神经网络的示例的示意图。
30.图5是示出深度神经网络的深度神经网络(dnn)的示例的示意图。
31.图6是由深度神经网络生成的示例性特征映射图的图示。
32.图7是示出包括车辆操作员感兴趣的一个或多个对象的图像帧的示例的示意图。
33.图8是示出训练深度神经网络以确定一个或多个目标对象的过程的流程图。
34.图9是示出使用经训练的深度神经网络的过程的流程图。
具体实施方式
35.本公开公开了一种提供基于驾驶员优先级的对象检测和分类的系统。在一个或多个示例中,所述系统可包括深度神经网络。深度神经网络可包括faster r

cnn(卷积神经网络)。深度神经网络可接收由眼睛跟踪系统捕获的图像序列。眼睛跟踪系统可捕获图像序列并确定用户的眼球注视数据。使用眼球注视数据和图像序列,深度神经网络生成对应于眼球注视数据的区域提议。结果,深度神经网络可减少由典型faster r

cnn系统生成的区域提议的数量。
36.现在转向附图,其中相同的附图标记指示相同或类似的特征和/或功能,公开了训练系统10,其包括用于使用训练系统10的深度神经网络和技术。一旦经过训练,深度神经网络便可安装到车辆12中,从而允许车辆12以自主模式导航。更具体地,深度神经网络可被训练以对感兴趣的对象进行检测和分类。例如,深度神经网络可模仿人类视觉行为以将重点放在将更可能受到人类驾驶员的注意的对象上。这些对象可包括但不限于交通标志、横穿马路的行人和/或自行车、附近某处的汽车和/或一定距离内的招牌。经训练的深度神经网络仅使用图像数据,使得深度神经网络相对于与传感器阵列(例如,lidar、雷达等)结合使用图像数据的系统来说计算成本相对低廉。
37.神经网络可通过选择某些特征来训练,以教导神经网络以期望方式表现。然而,如本文所讨论,通过使用得自经验丰富的人类驾驶员/操作员的数据(经由监督式学习)来改进对系统10的深度神经网络的训练。训练深度神经网络包括使用眼睛跟踪系统14,所述眼睛跟踪系统14在操作员控制车辆12时确定操作员的眼球注视数据。更具体地,眼睛跟踪系统14的输出包括与所捕获图像中的数个特征相关的操作员的眼球移动和位置;并且这些特征中的一些在适当时将包括操作员的视野内的对象。因此,当训练深度神经网络时,眼球注
视数据被认为比程序员选择某些特征更好地识别相关特征,因为在操作员驾驶期间操作员所观看的内容或引起操作员注意的内容往往对操作员行为和操作员决策具有更大的影响。另外,使用这种训练技术改进了训练深度神经网络的计算效率。
38.一旦经过训练,深度神经网络便可安装在众多车辆计算机上,并且可用于在具有行人的场景中对相应车辆进行导航。此外,一旦安装到车载计算机,经训练的深度神经网络便会提高关于导航的计算效率。例如,以自主模式进行操作通常需要行人跟踪,即,预测场景中的所有行人的轨迹。然而,这可能是计算密集的。利用本文所描述的经训练的深度神经网络,可确定行人(在本文中称为目标行人)的子集和/或目标对象以及仅所述行人子集的轨迹。因此,使用经训练的深度神经网络使此类车载计算的效率更高。
39.图1至图3示出训练系统10,其可包括车辆12、眼睛跟踪系统14(例如,其可由车辆12的驾驶员座椅16中的人类操作员穿戴)以及利用深度神经网络的计算机18。
40.在图1中,所示车辆12是乘用车辆;然而,这仅仅是一个示例。车辆12替代地可以是卡车、运动型多功能车(suv)、休闲车、公共汽车、水上载具、飞行器或包括驾驶员控制接口20(例如,诸如方向盘、加速度器控件、制动控件等)的任何其他合适的车辆。车辆12可被配置为以任何合适的部分自主或完全自主模式操作(例如,包括在没有人类交互的情况下的导航)。
41.如图1及图2所示,眼睛跟踪系统14可包括监测操作员的眼球注视数据并反复确定与所捕获图像相对应的注视点(例如,操作员正看着的位置)的任何装置或设备。在一些示例中,眼睛跟踪系统14包括:前视传感器22(例如,诸如红绿蓝(rgb)相机),所述前视传感器22同时捕获表示操作员的视野(fov)的视频;多个眼镜监测相机24;指向操作员的眼睛的多个照明器26;以及计算机28,所述计算机28被配置为针对来自传感器22的视频数据的多个图像帧反复确定操作员的眼球注视数据。眼睛跟踪系统14可以是所谓的可穿戴眼睛跟踪系统,或者它可以是安装在车辆12中的系统。眼睛跟踪系统14的非限制性商业实现方式是tobii ab的“pro glasses 2”,它包括眼镜架、镜片和上面讨论的硬件。在其他示例中,传感器22和/或计算机28可以不是与一个或多个相机24和一个或多个照明器26的共同总成的一部分,例如,传感器22可安装在车辆12中的其他地方等。
42.眼球注视数据的非限制性示例包括每个视频帧(i)的信息集;例如,其中i是整数值(例如,i=0至n),其中n是视频帧的总数量。每个信息集可包括以下说明性眼球注视数据标准中的一者或多者:(帧的)时间戳、左眼注视点(例如,帧(i)内的(x,y)值)、右眼注视点(例如,帧(i)内的(x,y)值)、左眼三维(3d)注视位置(例如,相对于操作员的视野的(x,y,z)值)、右眼3d注视位置(例如,相对于操作员的视野的(x,y,z)值)、组合眼3d注视位置(例如,左眼和右眼两者)、左眼瞳孔位置、右眼瞳孔位置、左眼瞳孔直径、右眼瞳孔直径、左眼置信度参数(例如,指示相对于前述标准的准确度概率)、右眼置信度参数(例如,指示相对于前述标准的准确度概率)、皮肤电反应(gsr)参数、三轴加速度计值(例如,指示根据三空间参考系的平移力)、三轴陀螺仪值(例如,指示根据同一参考系的俯仰力、侧倾力和横摆力)以及映射的注视点(即,右眼和左眼注视点值以及右眼、左眼和组合眼3d注视位置与帧(i)的相关性)。标准的另外的示例可与以上示例性标准部分地组合或完全组合。因此,应了解,一个或多个相机24和一个或多个照明器26可指向操作员的右眼和左眼,并且计算机28使用该信息(连同来自传感器22的传感器数据)来计算以上标准。
43.计算机18(图1和图3)可包括一个或多个处理器40(出于说明目的在图中仅示出一个)、存储器42和多个指令44(仅作为示例,软件代码),所述指令44存储在存储器42上并且可由一个或多个处理器40执行。一个或多个处理器40可被编程为处理和/或执行数字指令以执行本文所述的任务中的至少一些。一个或多个处理器40的非限制性示例包括微处理器、微控制器或控制器中的一者或多者;专用集成电路(asic);现场可编程门阵列(fpga);包括被布置为执行预定任务或指令的离散数字和/或模拟电子部件的一个或多个电路等,仅举几例。在至少一个示例中,一个或多个处理器40从存储器42读取并执行多个指令集(例如,包括指令44),所述多个指令集可被体现为存储在非暂时性计算机可读存储介质(例如,诸如存储器42)上的计算机程序产品。下文将在使用流程图示出并且在本文其他地方描述的过程中描述指令44的非限制性示例,其中除非另有说明,否则这些和其他指令可按任何合适的顺序执行。所述指令和以下所描述的示例性过程仅仅是实施例,并且并不意图进行限制。
44.存储器42可包括任何非暂时性计算机可用或可读介质,所述非暂时性计算机可用或可读介质可包括一个或多个存储装置或存储制品。示例性非暂时性计算机可用存储装置包括常规硬盘、固态存储器、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)以及任何其他易失性或非易失性介质。非易失性介质包括例如光盘或磁盘以及其他持久性存储器,而易失性介质例如还可包括动态随机存取存储器(dram)。这些存储装置是非限制性示例;例如,其他形式的计算机可读介质也是存在的并且包括磁性介质、压缩光盘rom(cd

rom)、数字视频盘(dvd)、其他光学介质、任何合适的存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。如以上所讨论,存储器42可存储一个或多个指令集(例如,诸如指令44),所述一个或多个指令集可被体现为软件、固件或可由一个或多个处理器40执行的其他编程指令,包括但不限于本文所陈述的指令示例。在操作中,一个或多个处理器40可从存储器42读取数据和/或向存储器写入数据。
45.指令44(存储在存储器42中并且可由一个或多个处理器40执行)可包括用于执行本文所描述的方法的任何合适的指令集。如以下更充分地描述的,指令44可包括深度神经网络80。如图所示,深度神经网络80包括输入层82、一个或多个隐藏层84、86(通过示例示出两个,然而,也可使用任何合适数量的层)以及输出层88,其中每个层包括多个神经元(j)(也称为“节点”;每个神经元具有唯一索引j)。在完全连接的神经网络中,给定层的每个神经元连接到后续层中的神经元中的每一个(如图所示)。图4中示出了三十个神经元;然而,这仅仅是示例性数量;层82

88可分别具有任何合适数量的神经元。
46.到输入层82的输入集可包括由前视传感器22生成的输入图像。关于其他层(例如,层84

88),到每个神经元的输入集可由来自前一层的连接表示。例如,在图中,(层82的)神经元j1‑
j8中的每一个向(层84的)j9提供输入,并且这些输入中的每一个可乘以相应的权重。在一些示例中,可以根据输入函数对加权输入求和以产生净输入(其可以或可以不根据相应的偏差值进行调整)。在一些示例中,可将相应的净输入提供给预定神经网络函数(例如,诸如激活函数等),所述预定神经网络函数继而提供输出。这对于相应层的每个神经元可类似地重复。如图所示,相应神经元的输出可以是到后续层中的多个神经元的输入,或者包括输出层88。
47.图5示出深度神经网络80的示例性实现方式。深度神经网络80可包括适于基于每个图像帧(i)提取特征映射图(i)的卷积神经网络(cnn)。根据一个非限制性示例,深度神经网络80可包括卷积神经网络90、区域提议网络(rpn)92、感兴趣区域(roi)池化层94、第一完全连接层96和第二完全连接层98。卷积层90可从眼睛跟踪系统14接收图像帧(i)并使用内核或滤波器对图像帧(i)进行卷积,例如,从而产生多个卷积特征(例如,特征映射图)。特征映射图可包括贯穿特征映射图的一个或多个锚点,以用于提议生成。锚点可以是贯穿特征映射图放置的用于特征映射图内的一个或多个点的固定边界框,并且可最初与每个像素相对应。通常(尽管不是必需的),可存在卷积的多次迭代。也可以采用其他方面和卷积技术。
48.特征映射图被提供到rpn 92以用于区域提议生成。如图所示,rpn 92还接收投影眼睛坐标91。投影眼睛坐标91可包括由眼睛跟踪系统14生成的眼睛注视位置数据。例如,基于图像帧(i),投影眼睛坐标91可对应于坐标(例如,x和y值)。在一个或多个实现方式中,使用合适的映射函数将投影眼睛坐标91从视觉坐标映射到特征映射图坐标。rpn 92基于锚点和投影眼睛坐标来生成区域提议。例如,rpn 92生成在投影眼睛坐标91周围或邻近于所述投影眼睛坐标91的区域提议,而不是在整个特征映射图上转变滑动窗口。rpn 92生成区域提议(诸如边界框),以指示像素子集可包括感兴趣对象以用于分类目的。
49.提议区域和特征映射图被提供到roi池化层94。在各种实现方式中,提议区域可具有不同的大小,这可导致不同大小的特征映射图。roi池化层94被配置为将特征映射图修改为相同大小。roi池化层94还可基于特征映射图修改对提议区域进行修改。可将修改后的特征映射图提供到第一完全连接层96以进行分类,并提供到第二完全连接层98以进行边界框回归。例如,第一完全连接层96可生成指示一个或多个提议区域内的对象的类型的预测,并且第二完全连接层98可包括用于使与提议区域相关联的误差最小化的回归器。例如,第二完全连接层98可尝试使提议区域与地面实况框之间的损失最小化。
50.在训练期间,可将地面实况框提供到深度神经网络80,以用于更新深度神经网络80内的一个或多个权重。例如,在训练期间,可将提议区域与地面实况框进行比较以确定损失函数。使用损失函数,深度神经网络80可经由反向传播来更新一个或多个权重。
51.图6示出由深度神经网络80生成的示例性特征映射图100。如图所示,特征映射图100的大小为m
×
m,其中m是大于或等于1的整数。rpn 92从深度神经网络80接收特征映射图100以及投影眼睛坐标91并且将滑动窗口102定位在投影眼睛坐标104周围。在示例性实现方式中,滑动窗口102的大小为p
×
p,其中p是大于或等于1且小于m的整数。在这个示例中,滑动窗口102可围绕投影眼睛坐标居中以在特征映射图100内生成区域提议。
52.转到图7,示出了由眼睛跟踪系统14捕获的图像帧(i)的示例。图7示出道路200、道路200一侧上的人行道202、道路200相对侧上的人行道204,以及多个行人p1和p2,其全部在传感器22的视野内。如图所示,图像帧(i)还可包括标志s1。在示例性图像帧(i)中,行人p1正在道路100内行走(并且横穿所述道路),而行人p2正开始从人行道102走进道路100内。
53.使用图7所示的示例性图像帧(i),眼睛跟踪系统14跟踪用户的眼睛注视。眼睛跟踪系统14将图像帧(i)和对应的眼睛注视数据提供到深度神经网络80。如以上所讨论,深度神经网络80基于眼睛注视数据生成区域提议以用于分类和回归目的。例如,如果用户的眼睛注视集中在p1上,则深度神经网络80可生成关于p1的区域提议以用于分类和回归目的。
54.图8示出说明基于驾驶员优先级的对象检测的示例性过程800的示例性流程图。过
程800包括可由计算机18执行(例如,可由存储在存储器42中的一个或多个处理器40执行)的软件指令。软件指令的非限制性示例在图中被示出为指令框。将了解,虽然不一定在过程800中明确解释,但是也可执行其他软件指令。
55.过程800可在框805处开始,其中计算机18(从传感器22)接收由传感器22在操作员(例如,用户)控制车辆12时捕获的至少一个图像帧(i)。在至少一个示例中,操作员穿戴眼睛跟踪系统14,并且传感器22包括系统14的一部分(例如,由眼镜架等携带)。更具体地,根据一个示例,(眼睛跟踪系统14的)计算机28首先接收帧(i),并且除了使用帧(i)跟踪操作员的眼睛移动之外,计算机28还将帧(i)提供到计算机18。不意图进行限制而是示出过程800,认为框805的当前图像帧(i)与图7中所示的图像帧类似。因此,当传感器22正在捕获图像帧(i)时,操作员正在通过在车辆12沿道路100行驶时使车辆12转向、制动和/或加速来控制车辆12。
56.在随后的框810中,眼睛跟踪系统14监测操作员的眼睛并确定与图像帧(i)相对应的眼球注视数据。如以上所描述,确定眼球注视数据可包括:眼睛跟踪系统14通过使用一个或多个相机24和一个或多个照明器26监测操作员的眼睛来收集多个标准,同时传感器22捕获从操作员的视角向前看的场景的图像。此外,眼球注视数据可包括操作员的眼睛标准与相应图像帧(i)的相关性(例如,时间戳)。眼球注视数据可包括在以上所阐述的示例的非详尽列表中引用的标准中的至少一些。
57.在框815中,计算机18从眼睛跟踪系统14接收图像帧(i)和眼球注视数据。计算机18可使用合适的映射技术来将眼球注视数据映射到特征映射图坐标,即,投影眼睛坐标。在框820中,卷积神经网络90生成对应于图像帧(i)的一个或多个特征映射图。在框825处,区域提议网络92基于由卷积神经网络90生成的特征映射图以及投影眼睛坐标91来生成提议区域。如以上所讨论,提议区域可对应于感兴趣的对象。在框830处,roi池化层94对特征映射图进行修改,使得每个特征映射图具有相同的大小(例如,预定大小)。在框835处,完全连接层96、98对提议区域内的对象进行分类并基于回归技术使损失函数最小化。例如,计算机18可将提议区域和/或分类与地面实况数据进行比较。地面实况数据可(部分地)由操作员观察3d注视点达阈值时间量(thr
time1
)(其中3d注视点与图像帧(i)中的感兴趣对象相对应)、瞳孔大小大于阈值(thr
pupil
)同时操作员观看3d注视点达第二阈值时间量(thr
time2
)等来定义。另外地或替代地,地面实况数据可包括关于感兴趣对象的定义区域。计算机18还可将地面实况数据的定义区域与提议区域进行比较。
58.在框840处,基于与地面实况数据的比较来更新深度神经网络的一个或多个权重。例如,计算机18基于比较来更新深度神经网络80的权重。
59.在框845处,确定计数器i是否大于或等于预定阈值。预定阈值可被定义为训练深度神经网络80的数个时期。如果计数器i不大于或等于预定阈值,则在框850处使计数器i递增(例如,i=i 1),并且然后循环到框805。否则,过程800结束。
60.图9是示出使用在过程800中训练的深度神经网络80的过程900的一个或多个流程图。过程900包括可由车载计算机18执行的软件指令。软件指令的非限制性示例在图中被示出为指令框。将了解,虽然不一定在过程900中明确解释,但是也可执行其他软件指令。
61.过程900可以框905开始,其中将深度神经网络80安装在车辆12的机载计算机18中。计算机18可嵌入类似于车辆12的车辆中,并且车辆可以是可售单元(例如,由车辆制造
商出售给最终用户/客户)。
62.在框910中,可经由安装在车辆中的传感器在计算机18处接收图像数据。传感器可以类似于传感器22,不同的是它并非眼睛跟踪系统14的一部分(例如,具有经训练的深度神经网络的车辆中不需要眼睛跟踪系统14)。相反,传感器由车辆用于导航和/或其他自主驾驶任务。
63.在随后的框915中,可使用图像数据和经训练的深度神经网络80来对目标对象进行识别(例如,分类)。在框920中,计算机18可基于所分类的对象来确定车辆动作。例如,计算机18可计算目标对象的轨迹。在至少一个示例中,仅针对由深度神经网络80的输出分类的对象计算轨迹。由于可计算的轨迹较少,计算机18上的计算负担得以最小化。在框925中,基于对象,以部分或完全自主模式导航车辆12。
64.因此,已经描述了一种训练系统和用于在操作员控制车辆时使用所述训练系统训练深度神经网络以确定目标对象的技术。训练系统可包括眼睛跟踪系统和一个或多个深度神经网络。此外,使用来自眼睛跟踪系统的数据来执行训练。
65.一般来说,所描述的计算系统和/或装置可采用数种计算机操作系统中的任一种,包括但绝不限于以下版本和/或种类:applink/smart device link中间件、microsoft操作系统、unix操作系统(例如,由加利福尼亚州红木海岸的甲骨文公司发布的操作系统)、由纽约州阿蒙克市的国际商业机器公司发布的aix unix操作系统、linux操作系统、由加利福尼亚州库比蒂诺市的苹果公司发布的mac osx和ios操作系统、由加拿大滑铁卢的黑莓有限公司发布的blackberry os以及由谷歌公司开发的android操作系统。
66.计算装置通常包括计算机可执行指令,其中所述指令可由诸如以上列出的那些计算装置的一个或多个计算装置执行。计算机可执行指令可根据使用多种编程语言和/或技术创建的计算机程序来编译或解译,所述多种编程语言和/或技术单独地或组合地包括但不限于java
tm
、c、c 、visual basic、java script、perl、python等。这些应用中的一些可在计算机器(诸如所谓的java虚拟机、所谓的dalvik虚拟机等)上编译和执行。一般来说,处理器(例如,微处理器)例如从存储器、计算机可读介质等接收指令,并且执行这些指令,由此执行一个或多个过程,包括本文所描述过程中的一者或多者。此类指令和其他数据可使用多种计算机可读介质来存储和传输。
67.计算机可读介质(也称为处理器可读介质)包括参与提供可由计算机(例如,由计算机的处理器)读取的数据(例如,指令)的任何非暂时性(例如,有形)介质。此类介质可采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质可包括例如光盘或磁盘以及其他持久性存储器。易失性介质可包括例如通常构成主存储器的动态随机存取存储器(dram)。此类指令可通过一种或多种传输介质来传输,所述一种或多种传输介质包括同轴电缆、铜线和光纤,包括构成耦接到计算机的处理器的系统总线的电线。常见形式的计算机可读介质包括例如软磁盘、软盘、硬盘、磁带、任何其他磁性介质、cd

rom、dvd、任何其他光学介质、穿孔卡、纸带、带有孔图案的任何其他物理介质、ram、prom、eprom、flash

eeprom、任何其他存储器芯片或盒式磁带或计算机可从其中读取的任何其他介质。
68.在本文描述了数据库、数据存储库或其他数据存储装置的情况下,这些可包括用于存储、访问和检索各种数据的各种机构,包括分层数据库、文件系统中的文件集、呈专用
格式的应用数据库、数据库管理系统(dbms)等。每个此类数据存储装置通常包括在采用计算机操作系统(诸如以上所提及的那些操作系统中的一种操作系统)的计算装置内,并且经由网络以多种方式中的任一种或多种来访问。文件系统可从计算机操作系统访问,并且可包括以各种格式存储的文件。除了用于创建、存储、编辑和执行已存储的程序的语言,dbms通常还采用结构化查询语言(sql),诸如以上所提及的pl/sql语言。
69.在一些示例中,系统元件可被实施为一个或多个计算装置(例如,可穿戴装置、服务器、个人计算机等)上、存储在与其相关联的计算机可读介质(例如,磁盘、存储器等)上的计算机可读指令(例如,软件)。计算机程序产品可包括存储在计算机可读介质上用于执行本文所描述的功能的此类指令。
70.处理器经由电路、芯片或其他电子部件来实施,并且可包括一个或多个微控制器、一个或多个现场可编程门阵列(fpga)、一个或多个专用电路(asic)、一个或多个数字信号处理器(dsp)、一个或多个客户集成电路等。处理器可被编程为处理传感器数据。
71.存储器(或数据存储装置)经由电路、芯片或其他电子部件来实施,并且可包括以下中的一者或多者:只读存储器(rom)、随机存取存储器(ram)、快闪存储器、电可编程存储器(eprom)、电可编程且可擦除存储器(eeprom)、嵌入式多媒体卡(emmc)、硬盘驱动器或者任何易失性或非易失性介质等。存储器可存储从传感器收集的数据。
72.已经以说明性方式描述了本公开,并且应理解,已经使用的术语意图具有描述性词语而非限制性词语的性质。鉴于以上教导,本公开的许多修改和变化是可能的,并且本公开可以不同于具体描述的其他方式来实践。
73.根据本发明,一种训练深度神经网络的方法包括:从与传感器相关联的眼睛跟踪系统接收在操作员控制车辆时捕获的图像帧;从所述眼睛跟踪系统接收对应于所述图像帧的眼球注视数据;以及迭代地训练所述深度神经网络以基于所述眼球注视数据来确定所述图像帧内描绘的感兴趣对象,其中所述深度神经网络生成至少一个特征映射图并基于所述眼球注视数据确定与所述至少一个特征映射图内的所述感兴趣对象相对应的提议区域。
74.在本发明的一个方面,所述眼睛跟踪系统是可穿戴眼睛跟踪系统,并且在所述传感器捕获所述图像帧时由所述操作员穿戴。
75.在本发明的一个方面,所述深度神经网络包括卷积神经网络(cnn),其中到所述cnn的输入是所述图像帧,其中所述cnn的输出包括所述至少一个特征映射图。
76.在本发明的一个方面,所述深度神经网络包括区域提议网络,所述区域提议网络接收所述至少一个特征映射图和对应于所述眼球注视数据的投影眼睛坐标,其中所述区域提议网络基于所述投影眼睛坐标来确定所述提议区域。
77.在本发明的一个方面,所述深度神经网络包括接收所述至少一个特征映射图和所述提议区域的感兴趣区域池化层,其中所述感兴趣区域池化层对所述至少一个特征映射图进行修改,使得修改后的特征映射图的大小等于预定大小。
78.在本发明的一个方面,所述深度神经网络包括接收所述修改后的特征映射图的至少一个完全连接层,其中所述至少一个完全连接层对所述感兴趣对象进行分类。
79.在本发明的一个方面,所述图像帧是从所述传感器接收的多个视频帧中的一个。
80.在本发明的一个方面,所述眼睛跟踪系统包括:所述传感器;指向所述操作员的眼睛的一个或多个照明器;指向所述操作员的眼睛的一个或多个相机;以及计算机,所述计算
机被编程为使用所述眼球注视数据和所述图像帧来确定所述操作员的注视点,其中所述传感器包括红绿蓝(rgb)相机。
81.在本发明的一个方面,所述方法包括:将所述经训练的深度神经网络安装在车辆中;以及使用所述经训练的深度神经网络以自主模式导航所述车辆。
82.在本发明的一个方面,所述眼球注视数据包括以下信息中的一者或多者:(所述图像帧的)时间戳、左眼注视点、右眼注视点、左眼三维(3d)注视位置、右眼3d注视位置、组合眼3d注视位置、左眼瞳孔位置、右眼瞳孔位置、左眼瞳孔直径、右眼瞳孔直径、左眼置信度参数、右眼置信度参数、皮肤电反应响应参数、三轴加速度计值、三轴陀螺仪值或映射的注视点。
83.根据本发明,提供了一种系统,其具有:包括传感器的眼睛跟踪系统;通信地耦接到所述传感器和所述眼睛跟踪系统的计算机,所述计算机包括一个或多个处理器和存储器,所述存储器存储可由所述一个或多个处理器执行的指令,其中所述指令在由所述处理器执行时致使所述处理器:从所述眼睛跟踪系统接收在操作员控制车辆时捕获的图像帧;从所述眼睛跟踪系统接收对应于所述图像帧的眼球注视数据;以及迭代地训练深度神经网络以基于所述眼球注视数据来确定所述图像帧内描绘的感兴趣对象,其中所述深度神经网络生成至少一个特征映射图并基于所述眼球注视数据确定与所述至少一个特征图内的所述感兴趣对象相对应的提议区域。
84.根据一个实施例,所述眼睛跟踪系统是可穿戴眼睛跟踪系统,并且在所述传感器捕获所述图像帧时由所述操作员穿戴。
85.根据一个实施例,所述深度神经网络包括卷积神经网络(cnn),其中到所述cnn的输入是所述图像帧,其中所述cnn的输出包括所述至少一个特征映射图。
86.根据一个实施例,所述深度神经网络包括区域提议网络,所述区域提议网络接收所述至少一个特征映射图和对应于所述眼球注视数据的投影眼睛坐标,其中所述区域提议网络基于所述投影眼睛坐标来确定所述提议区域。
87.根据一个实施例,所述深度神经网络包括接收所述至少一个特征映射图和所述提议区域的感兴趣区域池化层,其中所述感兴趣区域池化层对所述至少一个特征映射图进行修改,使得修改后的特征映射图的大小等于预定大小。
88.根据一个实施例,所述深度神经网络包括接收所述修改后的特征映射图的至少一个完全连接层,其中所述至少一个完全连接层对所述感兴趣对象进行分类。
89.根据一个实施例,所述图像帧是从所述眼睛跟踪系统接收的多个视频帧中的一个。
90.根据一个实施例,所述眼睛跟踪系统包括:所述传感器;指向所述操作员的眼睛的一个或多个照明器;指向所述操作员的眼睛的一个或多个相机;以及计算机,所述计算机被编程为使用所述眼球注视数据和所述图像帧来确定所述操作员的注视点,其中所述传感器包括红绿蓝(rgb)相机。
91.根据一个实施例,所述指令在由所述处理器执行时致使所述处理器:基于所述感兴趣对象以自主模式导航所述车辆。
92.根据一个实施例,所述眼球注视数据包括以下信息中的一者或多者:(所述图像帧的)时间戳、左眼注视点、右眼注视点、左眼三维(3d)注视位置、右眼3d注视位置、组合眼3d
注视位置、左眼瞳孔位置、右眼瞳孔位置、左眼瞳孔直径、右眼瞳孔直径、左眼置信度参数、右眼置信度参数、皮肤电反应响应参数、三轴加速度计值、三轴陀螺仪值或映射的注视点。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献