一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

增强的对象检测的制作方法

2022-07-20 05:32:42 来源:中国专利 TAG:


1.本公开总体上涉及车辆传感器,并且更具体地涉及车辆传感器增强的对象检测。


背景技术:

2.车辆可配备有计算装置、网络、传感器和控制器以获取关于车辆的环境的数据并基于所述数据来操作车辆。车辆传感器可提供关于将行驶的路线以及车辆环境中要避开的对象的数据。车辆的操作可依赖于在车辆正在道路上进行操作时获取关于车辆环境中的对象的准确且及时的数据。车辆可使用计算装置,所述计算装置被配置为从由车辆传感器收集的图像数据识别对象。


技术实现要素:

3.一种系统包括计算机,所述计算机包括处理器和存储器,所述存储器存储指令,所述指令可由所述处理器执行以:确定包括多个图像的训练数据集,每个图像包括第一对象和对应于所述对象的对象标签;训练第一机器学习程序以基于对应于所述第一对象的所述对象标签识别所述多个图像中的所述第一对象的相应对象参数,以及基于所述对象参数的多个识别的分布的标准偏差识别置信水平;从第二机器学习程序接收多个第二图像,每个第二图像包括以低置信水平识别的第二对象,其中所述低置信水平对应于第二对象身份是正确的小于第一阈值的置信水平;用所述第一机器学习程序处理所述多个第二图像以识别具有对应的第二置信水平的第二对象参数;以及当所述第一机器学习程序识别具有大于第二阈值的第二置信水平的所述第二对象参数时,基于所识别的第二对象参数重新训练所述第一机器学习程序。
4.所述第二图像中的所述第二对象可以是拖车,并且所述第一机器学习程序可被训练为输出沿着所述拖车的轴与所述第二图像的竖直轴之间的角度作为所述第二对象参数,所述第二置信水平基于预测角度的分布与平均预测角度的标准偏差。
5.所述指令还可包括用于进行以下操作的指令:向车辆发送消息,所述消息包括所述第二图像、所述第二图像中的每一个中的所述拖车的相应识别、所述第二图像中的每一个的输出角度以及所述第二图像中的每一个的所述第二置信水平。
6.所述车辆可包括计算机,所述计算机被编程为基于所述输出角度致动部件以使所述车辆倒退移动。
7.所述第二图像中的每一个的所述第二置信水平可以是所述预测角度的所述分布与所述平均预测角度的所述标准偏差的乘法逆元。
8.所述指令还可包括用于进行以下操作的指令:训练所述第二机器学习程序以基于所述第二图像中的每一个的所述第二对象的识别特征将所述对象分类为多个分类中的一个。
9.所述指令还可包括用于进行以下操作的指令:从所述第二机器学习程序输出所述第二图像中的一个中没有第二对象的识别;将所述第二图像和所述没有对象的识别输入到
所述第一机器学习程序;以及从所述第一机器学习程序输出所述第二图像中的所述第二对象参数的识别。
10.所述指令还可包括用于进行以下操作的指令:从车辆接收所述第二图像并且用所述第二机器学习程序将所述多个第二图像中的每一个分配给多个分类中的一个。
11.所述指令还可包括用于进行以下操作的指令:从所述第一机器学习程序输出未包括在所述第二机器学习程序的所述多个分类中的一个中的所述多个第二图像中的一个中检测到的第二对象参数。
12.所述第二机器学习程序可包括自动编码器、变分编码器、神经网络或生成对抗网络中的至少一者。
13.所述指令还可包括用于进行以下操作的指令:针对所述第二图像中的每一个对潜在图像进行编码并且从所述第二机器学习程序输出所述潜在图像中的第二对象的检测。
14.所述指令还可包括用于进行以下操作的指令:基于所述对象标签,将所述训练数据集中的每个图像分配给一个分类。
15.一种方法包括:确定包括多个图像的训练数据集,每个图像包括第一对象和对应于所述对象的对象标签;训练第一机器学习程序以基于对应于所述第一对象的所述对象标签识别所述多个图像中的所述第一对象的相应对象参数,以及基于所述第一对象参数的多个识别的分布的标准偏差识别置信水平;从第二机器学习程序接收多个第二图像,每个第二图像包括以低置信水平识别的第二对象,其中所述低置信水平对应于第二对象身份是正确的小于第一阈值的置信水平;用所述第一机器学习程序处理所述多个第二图像以识别具有对应的第二置信水平的第二对象参数;以及当所述第一机器学习程序识别具有大于第二阈值的高的第二置信水平的所述第二对象参数时,基于所识别的第二对象参数重新训练所述第一机器学习程序。
16.所述第二图像中的所述第二对象可以是拖车,并且所述第一机器学习程序可被训练为输出沿着所述拖车的轴与所述第二图像的竖直轴之间的角度作为所述第二对象参数,所述第二置信水平基于预测角度的分布与平均预测角度的标准偏差。
17.所述方法还可包括:向车辆发送消息,所述消息包括所述第二图像、所述第二图像中的每一个中的所述拖车的相应识别、所述第二图像中的每一个的输出角度以及所述第二图像中的每一个的所述第二置信水平。
18.所述方法还可包括:基于所述输出角度致动部件以使车辆倒退移动。
19.所述方法还可包括:训练所述第二机器学习程序以基于所述第二图像中的每一个的所述第二对象的识别特征将所述对象分类为多个分类中的一个。
20.所述方法还可包括:从所述第二机器学习程序输出所述第二图像中的一个中没有第二对象的识别;将所述第二图像和所述没有对象的识别输入到所述第一机器学习程序;以及从所述第一机器学习程序输出所述第二图像中的所述第二对象参数的识别。
21.所述方法还可包括:从车辆接收所述第二图像并且用所述第二机器学习程序将所述多个第二图像中的每一个分配给多个分类中的一个。
22.所述方法还可包括:针对所述第二图像中的每一个对潜在图像进行编码并且从所述第二机器学习程序输出所述潜在图像中的第二对象的检测。
23.所述方法还可包括:基于所述对象标签,将所述训练数据集中的每个图像分配给
一个分类。
24.所述方法还可包括:从所述第一机器学习程序输出未包括在所述第二机器学习程序的所述多个分类中的一个中的所述多个第二图像中的一个中检测到的第二对象。
25.还公开了一种计算装置,所述计算装置被编程为执行上述方法步骤中的任一个。还公开了一种包括所述计算装置的车辆。还公开了一种计算机程序产品,所述计算机程序产品包括计算机可读介质,所述计算机可读介质存储指令,所述指令可由计算机处理器执行以执行上述方法步骤中的任一个。
26.机器学习程序(诸如深度学习算法)可检测由车辆收集的图像中的对象和/或对象参数。包括多个参考图像的训练数据集可训练机器学习程序以识别图像中的对象参数。基于训练数据集,机器学习程序可输出置信水平,所述置信水平基于图像中的对象参数的识别是正确的可能性。从机器学习程序输出对象参数的识别和置信水平可向车辆提供数据以辅助车辆的操作。例如,识别附接到车辆的后拖车的拖车角度可在车辆倒退移动时辅助车辆。可训练机器学习程序以识别图像中车辆可能未识别的对象参数。
27.训练数据集可填充有来自外部服务器(诸如互联网上的网站)的图像。图像收集程序(诸如网络爬取算法)可收集对象和文本的图像以标记对象。与最初编译训练数据集时相比,具有注释文本标签的图像可通过向更多的图像提供更多的对象来改进训练数据集。例如,当新模型、新类别和/或新型拖车被引入市场时,图像收集程序可收集图像并用识别新模型、新类别和/或新类型的文本标签来注释图像。可将新注释的图像添加到训练数据集,并且可重新训练机器学习程序以识别拖车的新模型。用从网络(诸如互联网)收集的图像更新训练数据集可改进机器学习程序的训练和使用,以识别图像中的对象参数。
附图说明
28.图1是用于操作车辆的示例性系统的框图。
29.图2是被编程为识别图像中的对象参数的示例性服务器的框图。
30.图3是服务器可识别其中的对象参数的示例性图像。
31.图4是示例性神经网络的图。
32.图5是用于训练机器学习程序以识别图像中的对象参数的示例性过程的框图。
33.图6是用机器学习程序识别图像中的对象参数的示例性过程的框图。
具体实施方式
34.图1示出了用于操作车辆105的示例性系统100。车辆105中的计算机110被编程为从一个或多个传感器115接收收集的数据。例如,车辆105的数据可包括车辆105的位置、关于车辆周围的环境的数据、关于车辆外部的对象(诸如另一车辆)的数据等。车辆105的位置通常以常规形式提供,所述形式为例如经由使用全球定位系统(gps)的导航系统获得的地理坐标(诸如纬度和经度坐标)。数据的另外示例可包括车辆105的系统和部件的测量值,例如车辆105的速度、车辆105的轨迹等。
35.计算机110通常被编程为在车辆105网络上进行通信,所述网络例如包括常规车辆105的通信总线(诸如can总线、lin总线等)和/或其他有线和/或无线技术(例如以太网、wifi等)。经由网络、总线和/或其他有线或无线机制(例如车辆105中的有线或无线局域
网),计算机110可向车辆105中的各种装置(例如控制器、致动器、传感器等,包括传感器115)传输消息和/或从所述各种装置接收消息。替代地或另外,在计算机110实际上包括多个装置的情况下,车辆网络可用于在本公开中表示为计算机110的装置之间的通信。例如,计算机110可以是具有如上所述的处理器和存储器的通用计算机,和/或可包括专用电子电路,所述专用电子电路包括为特定操作而制造的asic,例如用于处理传感器数据和/或传送传感器数据的asic。在另一个示例中,计算机110可包括fpga(现场可编程门阵列),该fpga是被制造为可由乘员配置的集成电路。通常,在电子设计自动化中使用诸如vhdl(超高速集成电路硬件描述语言)的硬件描述语言来描述诸如fpga和asic的数字和混合信号系统。例如,asic是基于制造前提供的vhdl编程而制造的,而fpga内部的逻辑部件可基于例如存储在电连接到fpga电路的存储器中的vhdl编程来配置。在一些示例中,一个或多个处理器、一个或多个asic和/或fpga电路的组合可包括在计算机110中。
36.另外,计算机110可被编程用于与网络125进行通信,如下所述,所述网络可包括各种有线和/或无线联网技术,例如蜂窝、种有线和/或无线联网技术,例如蜂窝、低功耗(ble)、有线和/或无线分组网络等。
37.存储器可以是任何类型的存储器,例如,硬盘驱动器、固态驱动器、服务器或任何易失性或非易失性介质。存储器可存储从传感器115发送的所收集数据。存储器可以是与计算机110分离的装置,并且计算机110可经由车辆105中的网络(例如,通过can总线、无线网络等)检索由存储器存储的信息。替代地或另外,存储器可以是计算机110的一部分,例如作为计算机110的存储器。
38.传感器115可包括多种装置。例如,车辆105中的各种控制器可充当传感器115以经由车辆105网络或总线提供数据,例如与车辆速度、加速度、位置、子系统和/或部件状态等有关的数据。此外,其他传感器115可包括相机、运动检测器等,即,用于提供数据以评估部件的位置、评估道路的坡度等的传感器115。传感器115还可包括但不限于短程雷达、远程雷达、激光雷达和/或超声换能器。
39.所收集的数据可包括在车辆105中收集的多种数据。上面提供了所收集的数据的示例,并且此外,数据通常使用一个或多个传感器115来收集,并且可另外包括在计算机110中和/或在服务器130处根据其计算出的数据。通常,所收集的数据可包括可由传感器115采集的和/或根据此类数据计算出的任何数据。
40.车辆105可包括多个车辆部件120。在这种背景下,每个车辆部件120包括一个或多个硬件部件,所述一个或多个硬件部件适于执行机械功能或操作——诸如使车辆105移动、使车辆105减慢或停止、使车辆105转向等。部件120的非限制性示例包括:推进部件(包括例如内燃发动机和/或电动马达等)、传动部件、转向部件(例如,可包括方向盘、转向齿条等中的一者或多者)、制动部件、泊车辅助部件、自适应巡航控制部件、自适应转向部件、可移动座椅等等。部件120可包括计算装置,例如,电子控制单元(ecu)等和/或诸如以上关于计算机110描述的计算装置,并且它们同样经由车辆105网络进行通信。
41.车辆105可以完全自主模式、半自主模式或非自主模式中的一者进行操作。完全自主模式被定义为其中车辆105的推进(通常经由包括电动马达和/或内燃发动机的动力传动系统进行)、制动和转向中的每一者都由计算机110控制或监测的模式。半自主模式是其中车辆105的推进(通常经由包括电动马达和/或内燃发动机的动力传动系统进行)、制动和转
向中的至少一者至少部分地由计算机110而不是人类操作员控制或监测的模式。在非自主模式(即,手动模式)下,车辆105的推进、制动和转向由人类操作员控制。
42.系统100还可包括连接到服务器130的网络125。计算机110还可被编程为经由网络125与诸如服务器130的一个或多个远程站点通信,这种远程站点可能包括处理器和存储器。网络125表示车辆计算机110可通过其与远程服务器130进行通信的一种或多种机制。因此,网络125可以是各种有线或无线通信机制中的一种或多种,包括有线(例如,电缆和光纤)和/或无线(例如,蜂窝、无线、卫星、微波和射频)通信机制的任何期望的组合以及任何期望的网络拓扑结构(或当使用多种通信机制时的多种拓扑结构)。示例性通信网络包括提供数据通信服务的无线通信网络(例如,使用低功耗(ble)、ieee 802.11、车辆对车辆(v2v)诸如专用短程通信(dsrc)等)、局域网(lan)和/或包括互联网的广域网(wan)。
43.图2是可识别图像中的对象和对象参数的示例性机器学习程序的框图。“对象参数”是图像中的对象的一个或多个物理参数。机器学习程序可存储在服务器130的存储器中。车辆105中的计算机110可向服务器130发送一个或多个图像,服务器130可将机器学习程序应用于所述图像,并且服务器130可输出所述图像中的对象的识别。计算机110可基于所识别的对象致动一个或多个部件120以操作车辆105。可在图像中识别的示例性对象参数包括例如如下所述的拖车角度、拖车类型、拖车长度等。
44.服务器130可包括图像收集程序200。“图像收集”程序200在外部服务器130中搜索具有对象标签的图像。例如,图像收集程序200可在互联网上的网站中搜索具有识别图像中的对象的html和/或xml标记的图像。图像收集程序200针对指定关键词对网站编码中的文本进行解析,并返回具有指定关键词的网站上列出的图像。图像收集程序200可基于指定的关键词将对象标签分配给从网站接收的图像。图像收集程序200可在识别网站中的关键词后用包括所识别的关键词的对象标签来注释所收集的图像。图像收集程序200可以是常规的网络爬取算法,例如,在https://www.crummy.com/software/beautifulsoup/bs4/doc/下(在提交本专利申请的日期)可获得的beautiful soup、web scraper、parsehub等。关键词可通过人类输入例如制造商、供应商、零售商、产品手册、产品类型等来指定,并且图像收集程序200可在外部服务器130中搜索指定的关键词。
45.服务器130可用由图像收集程序200收集的图像来构建训练数据集。训练数据集可以是一组图像,每个图像包括对象和识别所述对象的带注释的对象标签。服务器130可使用训练数据集来训练一个或多个机器学习程序,诸如深度学习算法。也就是说,训练数据集可以是用于训练机器学习程序(诸如深度神经网络、聚类程序等)的参考图像。如下所述,机器学习程序基于识别训练数据集中图像中的对象的对象标签调整输出。
46.服务器130包括被训练为输出图像中的对象参数的识别215的置信水平210的机器学习程序205。在图2中,机器学习程序205是确定置信水平的机器学习程序205。“置信水平”基于由机器学习程序205执行的对象参数的多个识别的分布的标准偏差。因此,置信水平210可以是例如标准偏差的乘法逆元。替代地,置信水平210可以是文本值,例如“低”、“中等”或“高”,并且当分布的标准偏差在特定值范围内时,机器学习程序205可输出每个文本值,例如,当标准偏差大于4时,机器学习程序205可输出“低”置信水平210;当标准偏差在1与4之间时,机器学习程序205可输出“中等”置信水平;以及当标准偏差小于1时,机器学习
程序205可输出“高”置信水平。机器学习程序205接收包括对象的图像作为输入。机器学习程序205输出对象参数的识别215和识别对象的置信水平210。服务器130可用训练数据集来训练机器学习程序205,以基于对象标签来识别图像中的对象参数并确定每个对象参数的识别215的相应置信水平210。也就是说,机器学习程序205可基于注释到图像的对象标签将训练数据集中的每个图像分配给分类(例如,类别)。机器学习程序205可以是例如如下所述的深度神经网络400。
47.服务器130包括第二机器学习程序220。第二机器学习程序220识别从车辆发送的图像中的对象和/或对象参数。第二机器学习程序220可以是例如将每个输入图像分配给与对象的分类对应的集群的聚类程序。在图2中,第二机器学习程序220是聚类程序。也就是说,第二机器学习程序220可包括多个集群,每个集群是特定类型的对象的分类,并且第二机器学习程序220可将输入图像分配给集群中的一个。替代地或另外,集群中的一个或多个可以是“潜在”集群,即,不对特定类型的对象进行分类但包括共享由聚类程序识别的一个或多个共同特征的图像的集群。第二机器学习程序220可输出与所分配的集群相关联的对象,从而识别图像中的对象。
48.第二机器学习程序220可从车辆105接收低置信图像。“低置信”图像是其中车辆105的计算机110确定图像的置信水平低于阈值的图像。也就是说,计算机110可被编程有机器学习程序,诸如识别置信水平的置信程序205,所述置信水平是识别图像中的对象参数的置信水平。计算机110可将具有低于阈值的相应置信水平的图像发送到服务器130,并且第二机器学习程序220可将低置信图像分配给一个或多个集群,如上所述。为了识别低置信图像中的对象和/或对象参数,可用包括对象和/或对象参数的识别的注释的参考图像来训练第二机器学习程序220。参考图像可以是具有注释的低置信图像,并且第二机器学习程序220可输出参考图像中的对象和/或对象参数的识别。服务器130可训练第二机器学习程序220,直到使如下所述的成本函数最小化为止。
49.服务器130可训练第二机器学习程序220以基于对象的识别特征将低置信图像分类为多个类别和/或潜在集群中的一个。对象的“特征”是从其他类型的对象中识别一类型对象的部分或元素。示例性特征可包括例如拖车大小、附件形状、品牌名称、附件的量等。另外或替代地,第二机器学习程序220可基于潜在特征(即,与预先确定的识别部分或元素不相关联的特征)将低置信图像分配给集群。因此,每个集群可与对象的特征相关联,并且可基于图像中的特征的分类将每个图像分配给集群中的一个。
50.第二机器学习程序220可包括自动编码器、变分编码器、神经网络或生成对抗网络中的至少一者。例如,当第二机器学习220程序包括自动编码器时,第二机器学习程序220可针对输入图像中的每一个对潜在图像进行编码并且从第二机器学习程序220输出对潜在图像中的对象的检测(即,将潜在图像分配给集群)。潜在图像是其中忽略了不太可能是对象的数据的图像,并且自动编码器仅考虑可用于识别为对象的数据。自动编码器可将潜在图像分配给集群,因为无关数据被忽略,并且自动编码器的算法可被训练以基于有限的潜在数据将潜在图像分配给集群。
51.第二机器学习程序220可输出没有输入低置信图像可分配到的集群的识别,即,在低置信图像中无法检测到对象。第二机器学习程序220可确定不能将低置信图像分配给集群,并且输出没有分配集群的低置信图像。也就是说,第二机器学习程序220可被训练为通
过将来自车辆105的低置信图像分配给集群来识别低置信图像中的对象,并且第二机器学习程序220可不将集群分配给低置信图像中的一个或多个。服务器130可将其中第二机器学习程序220没有识别出对象的低置信图像输入到机器学习程序205。机器学习程序205可输出图像中对象参数的识别215和对象参数的识别的置信水平210(如上所述)。因此,机器学习程序205可识别图像中第二机器学习程序220无法识别的对象参数。
52.机器学习程序205可根据第二机器学习程序220输出每个图像的置信水平210和对象参数识别215。第二机器学习程序220输出图像中的识别对象参数,并且机器学习程序205输出对象参数的第二识别215和对象参数的识别是正确的置信水平210。因此,机器学习程序205证实来自第二机器学习程序220的对象参数的识别,并且提供来自第二机器学习程序220的识别是正确的置信水平。为了确定置信水平,机器学习程序205生成图像中的对象参数的多个识别的分布,确定分布与多个识别的平均值的标准偏差,并且基于所述标准偏差输出置信水平210,例如,作为标准偏差的乘法逆元。如上所述,机器学习程序205可检测来自第二机器学习程序220的图像中的对象参数,所述对象参数不包括在第二机器学习程序220的多个集群中的一个中。也就是说,机器学习程序205可识别图像中第二机器学习程序220无法识别的对象参数。机器学习程序205因此改进了来自第二机器学习程序220的对象和/或对象参数的检测并且向计算机110提供对象参数的识别215的置信水平210。
53.服务器130可将高置信图像添加到训练数据集以重新训练机器学习程序205。“高置信”图像是其中机器学习程序205识别出具有高于第二阈值的置信水平210的对象参数的图像。所述第二阈值可基于训练数据集中的图像的最小置信水平210来确定。也就是说,当机器学习程序205输出图像中对象参数的识别215的大于训练数据集中所有图像的最低置信水平210的置信水平210时,服务器130可在训练数据集中包括该图像和置信水平210。将高置信图像添加到训练数据集可通过提供另外的参考图像来训练机器学习程序205来改进机器学习程序205的操作。服务器130可用训练数据集中的高置信图像重新训练机器学习程序205,以提高图像中的对象的输出识别215的精度和准确度,从而产生识别是正确的较高置信水平210。
54.图3是包括对象的图像300。车辆105的计算机110可用传感器115(例如,后视相机)收集图像300。图3的示例中的图像300是后拖车305的图像300。计算机110可定义具有从原点o延伸的水平轴x和竖直轴y的二维坐标系。拖车305的轴a可将与竖直轴y的角度θ定义为后拖车305的对象参数。角度θ描述了拖车305相对于车辆105的取向。当车辆105倒退移动时,计算机110可使用由角度θ表示的关于拖车305的取向的数据来致动一个或多个部件120以使拖车305移动。也就是说,当车辆105倒退移动时,拖车305可在与车辆105不同的方向上移动,并且计算机110可致动转向、推进和/或制动中的至少一者以使车辆105移动,使得拖车305在车辆操作员预期的方向上移动。
55.机器学习程序205和/或第二机器学习程序220可基于输入图像300输出角度θ。如上所述,机器学习程序205可使用诸如深度学习的机器学习技术来输出角度θ和角度是正确的置信水平210。机器学习程序205可从第二机器学习程序220接收图像300(如上所述)作为低置信图像。机器学习程序205可输出识别低置信图像300中的角度θ的置信水平210。例如,置信水平210可基于由机器学习程序205确定的图像300中的角度θ的预测之间的标准偏差。例如,机器学习程序205可多次预测图像300中的角度θ,从而产生可能的角度θ的分布。机器
学习程序205可计算平均预测角度并且可输出平均预测角度作为所识别的角度θ。机器学习程序205可识别可能的角度θ与平均角度的标准偏差,并且基于所述标准偏差来确定置信水平210。服务器130可经由网络125向计算机110发送具有输入图像的输出角度θ、置信水平210和原始图像300的消息。
56.车辆105的计算机110可基于由机器学习程序205和/或第二机器学习程序220识别的对象参数以及由机器学习程序205输出的置信水平210来致动一个或多个部件120。例如,计算机110可基于在图像300中识别的拖车305的角度θ来致动推进和转向以使车辆105倒退移动。当与拖车305倒退移动时,车辆105可以致使拖车305偏离预期方向的方式移动。利用图像300中的拖车305的角度θ,计算机110可致动推进和转向,使得车辆105和拖车305在车辆105的操作员预期的方向上移动。也就是说,对象的识别提高了车辆105的操作的准确度和精度。
57.图4是可被训练以识别图像300中的对象参数的示例性深度神经网络(dnn)400的图。机器学习程序205可以是dnn 400。例如,dnn 400可以是可加载到存储器中并由包括在服务器130中的处理器执行的软件程序。dnn 400可包括n个输入节点405,每个输入节点接受输入i的集合(即,输入i的每个集合可包括一个或多个输入x)。dnn 400可包括提供输出o1...om的集合的m个输出节点(其中m和n可以是但通常不是相同的自然数)。dnn 400包括多个层(包括k个隐藏层),每个层包括一个或多个节点405。节点405有时被称为人工神经元405,因为它们被设计成模拟生物(例如,人类)神经元。神经元框410示出了到示例性人工神经元405i的输入以及在其中进行的处理。将到每个神经元405的一个集合的输入x1...xr各自乘以相应权重w
i1
...w
ir
,然后在输入函数∑中对加权输入进行求和以提供可能按偏差bi进行了调整的净输入ai,然后将所述净输入提供给激活函数f,所述激活函数继而提供神经元405i输出yi。激活函数f可以是通常基于经验分析来选择的多种合适的函数。如图4中的箭头所示,然后可提供神经元405的输出以将其包括在到下一层中的一个或多个神经元405的一个集合的输入中。
58.可训练dnn 400以接受例如来自相机的参考图像作为输入数据,并且输出一个或多个参数以识别参考图像中的对象。例如,可训练dnn 400以输出图像中的对象的识别的置信水平。也就是说,可用地面实况数据(即,关于现实世界状况或状态的数据)对dnn 400进行训练。例如,可通过使用高斯分布初始化权重w,并且可将每个节点405的偏差b设置为零。训练dnn 400可包括经由常规技术(诸如反向传播)加以优化来更新权重和偏差。
59.节点405的一个集合的权重w一起作为节点405的权重向量。dnn 400的同一层中的相应节点405的权重向量可组合以形成层的权重矩阵。dnn 400的同一层中的相应节点405的偏差值b可组合以形成层的偏差向量。然后可在经训练的dnn 400中使用每个层的权重矩阵和每个层的偏差向量。
60.在本上下文中,用于训练dnn 400的地面实况数据可包括具有对象标签的图像数据,例如由图像收集程序收集,如上所述。例如,图像收集程序可收集多个图像,然后可对图像进行标记以训练dnn400,即对象标签可指定从而识别图像中的对象。然后,可训练dnn400以输出与对象相关的数据值,并且可将输出的数据值与注释进行比较以识别差异,即,输出的数据值和输入的注释图像的成本函数。可调整权重w和偏差b以减小成本函数的输出,即,使输出的数据值与输入的注释图像之间的差异最小化。当使成本函数最小化时,服务器130
可确定训练了dnn 400。
61.图5是用于训练机器学习程序205以输出图像中的对象的识别215的置信水平210(即,置信程序205)的示例过程500的框图。过程500在框505中开始,其中服务器130中的图像收集程序200从一个或多个外部服务器130收集多个图像。如上所述,图像收集程序200可以是收集在html和/或xml标记中包括指定关键词的图像的网络爬取算法。关键词可通过人类输入例如制造商、供应商、零售商、产品手册等来指定。图像收集程序200可从互联网上的一个或多个网站收集多个图像。
62.接下来,在框510中,服务器130识别所收集的图像中的对象标签。图像收集程序200可被训练为将文本包括在html和/或xml标记中作为注释到图像的对象标签。在html和/或xml标记中的文本通常识别图像中的对象,并且图像收集程序200可将来自html和/或xml标记的对象标签分配给图像以识别图像中的一个或多个对象。服务器130可确定训练数据集,所述数据集包括由图像收集程序200收集的具有对象标签的图像。
63.接下来,在框515中,服务器130将来自训练数据集的图像输入到机器学习程序205。服务器130输入具有对象标签的图像以训练机器学习程序205输出图像中对象参数的相应置信水平210和识别215。如上所述,服务器130将训练数据集中的图像用作参考图像来训练机器学习程序205。
64.接下来,在框520中,机器学习程序205输出训练数据集中的每个图像的对象参数的识别215和识别对象参数的置信水平210。如上文关于深度神经网络400所描述,机器学习程序205可将一个或多个权重w和偏差b应用于通过dnn 400的连续层的每个节点405。然后,机器学习程序205输出训练数据集中的每个图像的识别215和置信水平210。
65.接下来,在框525中,服务器130确定机器学习程序205是否被训练。如上所述,当对象的输出识别215和置信水平210与具有对象标签的输入图像之间的成本函数被最小化时,服务器130可确定机器学习程序205被训练。可训练机器学习程序205以输出与对象相关的数据值,并且可将输出的数据值与注释进行比较以识别差异,即,输出的数据值与输入的注释图像的成本函数。服务器130可调整权重w和偏差b以减小成本函数的输出,即,使输出的数据值与输入的注释图像之间的差异最小化。如果服务器130确定训练了机器学习程序205,则过程500结束。否则,过程500返回到框505。
66.图6是用于识别图像中的对象参数的示例性过程600的框图。过程600开始于框605,其中车辆105收集一个或多个图像。车辆105中的计算机110可致动相机115以收集车辆105的周围环境的图像。例如,计算机110可收集车辆105后面的拖车的图像。
67.接下来,在框610中,计算机110识别一个或多个低置信图像并将所述低置信图像传输到服务器130。如上所述,低置信图像是其中计算机110确定图像中对象的识别的置信水平低于阈值的图像。在识别出低置信图像时,计算机110将低置信图像传输到服务器130以识别低置信图像中的对象。
68.接下来,在框615中,服务器130将低置信图像输入到对象聚类程序220以输出每个低置信图像中的对象和/或对象参数的识别。如上所述,聚类程序220是机器学习程序,其被训练为将每个低置信图像分配给多个集群中的一个。每个集群与特定对象或对象参数相关联,并且聚类程序220可将低置信图像中的对象和/或对象参数识别为与低置信图像分配到的集群相关联的对象。
69.接下来,在框620中,服务器130将来自对象聚类程序220的低置信图像和输出识别输入到置信程序205,所述置信程序205是被训练以输出图像中每个对象参数的识别215的相应置信水平210的机器学习程序。如上所述,置信水平是对象的识别215是正确的量度。如上文在过程500中所描述,可用训练数据集来训练置信程序205,以识别图像中的对象和每个对象的识别215的置信水平210。
70.接下来,在框625中,服务器130向计算机110发送低置信图像与每个图像的每个对象参数的识别215和每个对象参数的识别215的置信水平210。服务器130可通过网络125发送包括图像和来自机器学习程序205、220的输出的消息。
71.接下来,在框630中,计算机110基于对象参数识别215和置信水平210来致动一个或多个部件120。例如,计算机110可基于低置信图像中识别出的拖车致动推进以使车辆105倒退移动。来自服务器130的消息可包括图像中的拖车的所识别的拖车角度θ,并且计算机110可基于所述拖车角度来致动推进以使车辆105移动。
72.接下来,在框635中,计算机110确定是否继续过程600。例如,当车辆105已经停止并且断电时,计算机110可确定不继续过程600。如果计算机110确定继续,则过程600返回到框605。否则,过程600结束。
73.本文所讨论的计算装置(包括计算机110)包括处理器和存储器,所述存储器通常各自包括可由诸如上面识别的计算装置的一个或多个计算装置执行并用于执行上述过程的框或步骤的指令。计算机可执行指令可由使用多种编程语言和/或技术创建的计算机程序来编译或解释,所述编程语言和/或技术包括但不限于单独或组合形式的java
tm
、c、c 、visual basic、java script、python、perl、html等。一般来说,处理器(例如,微处理器)例如从存储器、计算机可读介质等接收指令并且执行这些指令,由此执行一个或多个过程,包括本文所描述的过程中的一者或多者。此类指令和其他数据可使用各种计算机可读介质来存储和传输。计算机110中的文件通常是存储在计算机可读介质(诸如存储介质、随机存取存储器等)上的数据的集合。
74.计算机可读介质包括参与提供可由计算机读取的数据(例如,指令)的任何介质。这种介质可采用许多形式,包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘和其他持久性存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(dram)。计算机可读介质的常见形式包括例如软盘、软磁盘、硬盘、磁带、任何其他磁性介质、cd rom、dvd、任何其他光学介质、纸带、具有孔图案的任何其他物理介质、ram、prom、eprom、快闪eeprom、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。
75.关于本文所描述的介质、过程、系统、方法等,应理解,尽管已经将此类过程等的步骤描述为按照某个有序序列发生,但是此类过程可通过以不同于本文描述的顺序的顺序执行所描述的步骤来实践。还应当理解,可同时执行某些步骤,可添加其他步骤,或者可省略本文所描述的某些步骤。例如,在过程500中,可省略一个或多个步骤,或者可以与图5中所示不同的顺序执行步骤。换句话说,本文对系统和/或过程的描述是为了示出某些实施例而提供,而决不应将其理解为对所公开的主题进行限制。
76.因此,应当理解,包括以上描述和附图以及所附权利要求的本公开意图是说明性的而非限制性的。在阅读了以上描述之后,除了所提供的示例之外的许多实施例和应用对
于本领域技术人员而言将是明显的。本发明的范围不应参考以上描述来确定,而应参考所附的和/或基于此包括在非临时专利申请中的权利要求连同此类权利要求所赋予权利的等效物的全部范围来确定。设想并预期未来的发展将在本文讨论的技术中发生,并且所公开的系统和方法将并入到此类未来实施例中。总而言之,应理解,所公开的主题能够进行修改和变化。
77.除非另有说明或上下文另有要求,否则修饰名词的冠词“一个”应被理解为是指一个或多个。短语“基于”涵盖部分地或完全地基于。
78.根据本发明,提供了一种系统,所述系统具有计算机,所述计算机包括处理器和存储器,所述存储器存储指令,所述指令可由所述处理器执行以:确定包括多个图像的训练数据集,每个图像包括第一对象和对应于所述对象的对象标签;训练第一机器学习程序以基于对应于所述第一对象的所述对象标签识别所述多个图像中的所述第一对象的相应对象参数,以及基于所述对象参数的多个识别的分布的标准偏差识别置信水平;从第二机器学习程序接收多个第二图像,每个第二图像包括以低置信水平识别的第二对象,其中所述低置信水平对应于第二对象身份是正确的小于第一阈值的置信水平;用所述第一机器学习程序处理所述多个第二图像以识别具有对应的第二置信水平的第二对象参数;以及当所述第一机器学习程序识别具有大于第二阈值的第二置信水平的所述第二对象参数时,基于所识别的第二对象参数重新训练所述第一机器学习程序。
79.根据实施例,所述第二图像中的所述第二对象是拖车,并且所述第一机器学习程序被训练为输出沿着所述拖车的轴与所述第二图像的竖直轴之间的角度作为所述第二对象参数,所述第二置信水平基于预测角度的分布与平均预测角度的标准偏差。
80.根据实施例,所述指令还包括用于进行以下操作的指令:向车辆发送消息,所述消息包括所述第二图像、所述第二图像中的每一个中的所述拖车的相应识别、所述第二图像中的每一个的输出角度以及所述第二图像中的每一个的所述第二置信水平。
81.根据实施例,所述车辆包括计算机,所述计算机被编程为基于所述输出角度致动部件以使所述车辆倒退移动。
82.根据实施例,所述第二图像中的每一个的所述第二置信水平是所述预测角度的所述分布与所述平均预测角度的所述标准偏差的乘法逆元。
83.根据实施例,所述指令还包括用于进行以下操作的指令:训练所述第二机器学习程序以基于所述第二图像中的每一个的所述第二对象的识别特征将所述对象分类为多个分类中的一个。
84.根据实施例,所述指令还包括用于进行以下操作的指令:从所述第二机器学习程序输出所述第二图像中的一个中没有第二对象的识别;将所述第二图像和所述没有对象的识别输入到所述第一机器学习程序;以及从所述第一机器学习程序输出所述第二图像中的所述第二对象参数的识别。
85.根据实施例,所述指令还包括用于进行以下操作的指令:从车辆接收所述第二图像并且用所述第二机器学习程序将所述多个第二图像中的每一个分配给多个分类中的一个。
86.根据实施例,所述指令还包括用于进行以下操作的指令:从所述第一机器学习程序输出未包括在所述第二机器学习程序的所述多个分类中的一个中的所述多个第二图像
中的一个中检测到的第二对象参数。
87.根据实施例,所述第二机器学习程序包括自动编码器、变分编码器、神经网络或生成对抗网络中的至少一者。
88.根据实施例,所述指令还包括用于进行以下操作的指令:针对所述第二图像中的每一个对潜在图像进行编码并且从所述第二机器学习程序输出所述潜在图像中的第二对象的检测。
89.根据实施例,所述指令还包括用于进行以下操作的指令:基于所述对象标签,将所述训练数据集中的每个图像分配给一个分类。
90.根据本发明,一种方法包括:确定包括多个图像的训练数据集,每个图像包括第一对象和对应于所述对象的对象标签;训练第一机器学习程序以基于对应于所述第一对象的所述对象标签识别所述多个图像中的所述第一对象的相应对象参数,以及基于所述第一对象参数的多个识别的分布的标准偏差识别置信水平;从第二机器学习程序接收多个第二图像,每个第二图像包括以低置信水平识别的第二对象,其中所述低置信水平对应于第二对象身份是正确的小于第一阈值的置信水平;用所述第一机器学习程序处理所述多个第二图像以识别具有对应的第二置信水平的第二对象参数;以及当所述第一机器学习程序识别具有大于第二阈值的高的第二置信水平的所述第二对象参数时,基于所识别的第二对象参数重新训练所述第一机器学习程序。
91.根据实施例,所述第二图像中的所述第二对象是拖车,并且所述第一机器学习程序被训练为输出沿着所述拖车的轴与所述第二图像的竖直轴之间的角度作为所述第二对象参数,所述第二置信水平基于预测角度的分布与平均预测角度的标准偏差。
92.根据实施例,本发明的特征还在于:向车辆发送消息,所述消息包括所述第二图像、所述第二图像中的每一个中的所述拖车的相应识别、所述第二图像中的每一个的输出角度以及所述第二图像中的每一个的所述第二置信水平。
93.根据实施例,所述车辆包括计算机,所述计算机被编程为基于所述输出角度致动部件以使所述车辆倒退移动。
94.根据实施例,本发明的特征还在于:训练所述第二机器学习程序以基于所述第二图像中的每一个的所述第二对象的识别特征将所述对象分类为多个分类中的一个。
95.根据实施例,本发明的特征还在于:从所述第二机器学习程序输出所述第二图像中的一个中没有第二对象的识别;将所述第二图像和所述没有对象的识别输入到所述第一机器学习程序;以及从所述第一机器学习程序输出所述第二图像中的所述第二对象参数的识别。
96.根据实施例,本发明的特征还在于:从车辆接收所述第二图像并且用所述第二机器学习程序将所述多个第二图像中的每一个分配给多个分类中的一个。
97.根据实施例,本发明的特征还在于:从所述第一机器学习程序输出未包括在所述第二机器学习程序的所述多个分类中的一个中的所述多个第二图像中的一个中检测到的第二对象。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献