一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标检测方法、训练方法、装置、电子设备以及存储介质与流程

2023-08-16 18:05:25 来源:中国专利 TAG:


1.本公开涉及图像处理技术领域,尤其涉及自动驾驶技术领域和深度学习技术领域。


背景技术:

2.随着人工智能技术的快速发展,越来越多的终端可以基于人工智能算法来识别周围空间的障碍物、标识牌等目标对象来辅助终端执行相应地操作。例如无人车可以基于采集到的图像来检测周围空间中障碍物的精确位置,进而根据检测结果来实现自动泊车、自动避障等自动驾驶功能。


技术实现要素:

3.本公开提供了一种目标检测方法、训练方法、装置、电子设备、存储介质和计算机程序产品。
4.根据本公开的一方面,提供了一种目标检测方法,包括:对待处理图像进行图像特征提取,得到第一图像特征和至少一个第二图像特征,所述第一图像特征的特征尺度大于所述第二图像特征的特征尺度;根据至少一个所述第二图像特征,确定深度信息特征;以及根据所述深度信息特征和所述第一图像特征,对与所述待处理图像相关的目标对象进行目标检测,得到目标对象检测结果。
5.根据本公开的另一方面,提供了一种深度学习模型的训练方法,包括:获取训练样本,训练样本包括与样本目标对象相关的样本图像和样本标签;将样本图像输入至深度学习模型的图像特征提取网络,输出样本第一图像特征和至少一个样本第二图像特征,样本第一图像特征的特征尺度大于样本第二图像特征的特征尺度;将至少一个第二图像特征输入至深度学习模型的深度检测网络,输出样本深度信息特征;将样本深度信息特征和样本第一图像特征输入至深度学习模型的目标检测网络,输出样本目标对象检测结果;以及根据样本目标对象检测结果和样本标签,训练深度学习模型,得到训练后的深度学习模型。
6.根据本公开的另一方面,提供了一种目标检测装置,包括:图像特征提取模块,用于对待处理图像进行图像特征提取,得到第一图像特征和至少一个第二图像特征,第一图像特征的特征尺度大于第二图像特征的特征尺度;深度信息特征确定模块,用于根据至少一个第二图像特征,确定深度信息特征;以及目标对象检测结果获得模块,用于根据深度信息特征和第一图像特征,对与待处理图像相关的目标对象进行目标检测,得到目标对象检测结果。
7.根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括:训练样本获得模块,用于获取训练样本,训练样本包括与样本目标对象相关的样本图像和样本标签;样本图像特征提取模块,用于将样本图像输入至深度学习模型的图像特征提取网络,输出样本第一图像特征和至少一个样本第二图像特征,样本第一图像特征的特征尺度大于样本第二图像特征的特征尺度;样本深度信息特征获得模块,用于将至少一个第二图像特征输入
至深度学习模型的深度检测网络,输出样本深度信息特征;样本目标对象检测结果获得模块,用于将样本深度信息特征和样本第一图像特征输入至深度学习模型的目标检测网络,输出样本目标对象检测结果;以及训练模块,用于根据样本目标对象检测结果和样本标签,训练深度学习模型,得到训练后的深度学习模型。
8.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据本公开实施例提供的方法。
9.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开实施例提供的方法。
10.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开实施例提供的方法。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案,不构成对本公开的限定。其中。
13.图1示意性示出了根据本公开实施例的可以应用目标检测方法及装置的示例性系统架构。
14.图2示意性示出了根据本公开实施例的目标检测方法的流程图。
15.图3示意性示出了根据本公开实施例的目标检测方法的原理图。
16.图4示意性示出了根据本公开实施例的深度检测网络的原理图。
17.图5示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。
18.图6示意性示出了根据本公开实施例的深度学习模型的训练方法的原理图。
19.图7示意性示出了根据本公开实施例的目标检测装置的框图。
20.图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。
21.图9示出了可以用来实施本公开的实施例的目标检测方法、深度学习模型的训练方法的示例电子设备900的示意性框图。
具体实施方式
22.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
23.在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
24.随着人工智能技术的快速发展,无人车、智能机器人等终端可以基于目标检测算法来识别周围空间的障碍物、标识牌等目标对象来执行相应地操作。而发明人发现通常的目标检测算法存在检测精度较低的问题,而为了提升针对目标的检测精度,通常需要增加
目标检测所需的计算开销,还会造成目标检测计算耗时较长,目标检测延迟等问题,导致相关终端难以正常运行。
25.本公开的实施例提供了目标检测方法、训练方法、装置、电子设备、存储介质和计算机程序产品。该目标检测方法包括:对待处理图像进行图像特征提取,得到第一图像特征和至少一个第二图像特征,第一图像特征的特征尺度大于第二图像特征的特征尺度;根据至少一个第二图像特征,确定深度信息特征;以及根据深度信息特征和第一图像特征,对与待处理图像相关的目标对象进行目标检测,得到目标对象检测结果。
26.根据本公开的实施例,通过从待处理图像中提取不同特征尺度的第一图像特征和第二图像特征,且根据特征尺度较小的第二图像特征来生成深度信息特征,可以减少得到深度信息特征的计算量与计算时长,同时使第一图像特征充分保留待处理图像中的图像信息,进而根据深度信息特征和第一图像特征来进行目标检测,可以在保障目标检测精度的同时,整体上减少目标检测所需的计算开销和计算时长,从而提升目标检测效率,降低目标检测对于硬件计算性能的依赖,至少部分避免目标对象检测结果的时间延迟。因此根据本公开实施例提供的目标检测方法,可以提升自动辅助驾驶、智能无人车、无人机自动控制等场景中,针对障碍物、移动车辆等目标对象的目标检测效率,提升得到目标对象检测结果的时效性。
27.图1示意性示出了根据本公开实施例的可以应用目标检测方法及装置的示例性系统架构。
28.需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用目标检测方法及装置的示例性系统架构可以包括车辆,但车辆可以无需与服务器进行交互,即可实现本公开实施例提供的目标检测方法及装置。
29.如图1所示,根据该实施例的系统架构100可以包括车辆101、网络102和服务器103。网络102用以在车辆101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线和/或无线通信链路等等。
30.用户可以使用车辆101通过网络102与服务器103交互,以接收或发送消息等。车辆101上可以安装有图像采集装置,例如单目摄像头等。车辆101中还可以安装有适用于处理采集到的图像的芯片等数据处理装置。
31.车辆101可以是具有智能辅助驾驶功能交通工具,包括但不限于乘用车、货车、特种作业车辆等等。
32.服务器103可以是提供各种服务的服务器,例如对车辆101的智能辅助驾驶功能提供支持的后台管理服务器、云服务器等等(仅为示例)。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果(例如根据请求生产的车辆行驶控制信号等)反馈给车辆。服务器103也可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(

virtual private server",或简称

vps

)中,存在的管理难度大,业务扩展性弱的缺陷。服务器103也可以为分布式系统的服务器,或者是结合了区块链的服务器。”33.需要说明的是,本公开实施例所提供的目标检测方法一般可以由车辆101执行。相
应地,本公开实施例所提供的目标检测装置也可以设置于车辆101中。
34.或者,本公开实施例所提供的目标检测方法一般也可以由服务器103执行。相应地,本公开实施例所提供的目标检测装置一般可以设置于服务器103中。本公开实施例所提供的目标检测方法也可以由不同于服务器103且能够与车辆101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的目标检测装置也可以设置于不同于服务器103且能够与车辆101和/或服务器103通信的服务器或服务器集群中。
35.应该理解,图1中的车辆、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的车辆、网络和服务器。
36.图2示意性示出了根据本公开实施例的目标检测方法的流程图。
37.如图2所示,该目标检测方法包括操作s210~s230。
38.在操作s210,对待处理图像进行图像特征提取,得到第一图像特征和至少一个第二图像特征,第一图像特征的特征尺度大于第二图像特征的特征尺度。
39.在操作s220,根据至少一个第二图像特征,确定深度信息特征。
40.在操作s230,根据深度信息特征和第一图像特征,对与待处理图像相关的目标对象进行目标检测,得到目标对象检测结果。
41.根据本公开的实施例,待处理图像可以是基于图像采集装置对包含有目标对象的空间进行图像采集后得到的图像。图像采集装置例如可以是单目相机等单目图像采集装置。或者,图像采集装置还可以是环视图像采集装置。本公开的实施例对图像采集装置的具体装置类型不做限定。
42.根据本公开的实施例,可以基于神经网络算法来对待处理图像进行图像特征提取,例如可以基于卷积神经网络算法对待处理图像进行图像特征提取。但不仅限于此,还可以基于其他类型的神经网络算法来对待处理图像进行图像特征提取,本公开的实施例对提取图像特征的具体算法类型不做限定,本领域技术人员可以根据实际需求进行选择。
43.根据本公开的实施例,对待处理图像进行图像特征提取,得到至少一个第二图像特征,可以是通过对待处理图像进行缩放,并对缩放后得到的待处理图像进行图像特征提取,从而可以得到特征尺度较小的第二图像特征。但不仅限于此,还可以通过对第一图像特征进行下采样的方式来得到特征尺度较小的第二图像特征,本公开的实施例对得到第二图像特征的具体方式不做限定,本领域技术人员可以根据实际需求进行选择。
44.需要说明的是,本公开的实施例对第一图像特征和第二图像特征各自的数量不做限定。
45.根据本公开的实施例,可以基于神经网络算法来处理至少一个第二图像特征,以便于提取第二图像特征中与待处理图像的深度属性相关的图像信息,进而得到深度信息特征。例如可以基于卷积神经网络算法来处理至少一个第二图像特征,或者还可以基于长短期记忆网络算法来处理至少一个第二图像特征。本公开的实施例对得到深度信息特征的具体算分类型不做限定,本领域技术人员可以根据实际需求进行选择。
46.根据本公开的实施例,通过从待处理图像中提取不同特征尺度的第一图像特征和第二图像特征,且根据特征尺度较小的第二图像特征来生成深度信息特征,可以减少得到深度信息特征的计算量与计算时长,同时根据特征尺度较大的第一图像特征来充分保留待处理图像中的图像信息。
47.根据本公开的实施例,可以基于目标检测算法来处理深度信息特征和第一图像特征,例如可以基于lss(lift splat shoot)算法来处理深度信息特征和第一图像特征。但不仅限于此,还可以基于其他类型的目标检测算法来处理深度信息特征和第一图像特征,本公开的实施例对处理深度信息特征和第一图像特征的具体算法类型不做限定。
48.根据本公开的实施例,特征尺度较大的第一图像特征来充分保留待处理图像中的图像信息,且根据特征尺度较小的第二图像特征生成的深度信息特征,可以加快得到深度信息特征的计算速度,降低计算开销。因此,根据深度信息特征和第一图像特征,对与待处理图像相关的目标对象进行目标检测,可以整体上减少目标检测所需的计算开销和计算时长,从而提升目标检测效率,降低目标检测对于硬件计算性能的依赖,至少部分避免目标对象检测结果的时间延迟,提升得到目标对象检测结果的实时性。
49.需要说明的是,目标对象检测结果可以是表征目标对象的二维检测结果,或者还可以是表征目标对象的三维检测结果。本公开的实施例对目标对象检测结果的具体类型不做限定,只要能够表征目标对象的尺寸、类型、运动状态等任意一项或多项对象属性即可。
50.根据本公开的实施例,对待处理图像进行图像特征提取,得到第一图像特征和至少一个第二图像特征可以包括:对待处理图像进行至少一次卷积,得到初始图像特征;对初始图像特征进行至少一次下采样,得到第一图像特征;以及对第一图像特征进行至少一次下采样,得到至少一个第二图像特征。
51.图3示意性示出了根据本公开实施例的目标检测方法的原理图。
52.如图3所示,待处理图像301可以是安装于车辆上的环视图像采集装置采集到的图像,例如可以通过安装于车辆上的多个位置的图像采集装置采集到的车辆周围空间的图像。
53.可以将待处理图像301输入至包含有图像特征提取网络310、深度检测网络320和目标检测网络330的深度学习模型,以实现本公开实施例提供的目标检测方法。
54.具体地,对待处理图像进行至少一次卷积,例如可以是将待处理图像301输入至图像特征提取网络310的初始图像特征提取层311,输出初始图像特征302。初始图像特征提取层311例如可以是基于rep vgg(visual geometry group)网络块构建得到的轻量级骨干网络层,从而可以提升得到初始图像特征302的计算速度,减少计算开销。
55.如图3所示,对初始图像特征进行至少一次下采样,可以是将初始图像特征302输入至第一采样层312,输出第一图像特征303。第一采样层312可以是基于卷积网络和池化网络构建得到的,第一图像特征303例如可以是相对于待处理图像301原始尺寸下采样8倍后得到的图像特征。
56.如图3所示,第一图像特征进行至少一次下采样,得到至少一个第二图像特征,例如可以是将第一图像特征303输入至第二下采样层313,输出第1个第二图像特征304。
57.根据本公开的实施例,通过对第一图像特征进行至少一次下采样,得到至少一个第二图像特征,避免针对待处理图像直接进行下采样造成的计算开销较大、计算时长过长、计算过拟合等问题,进而可以进一步减少得到特征尺寸较小的第二图像特征的时效性,从而从整体上提升目标检测效率。
58.根据本公开的实施例,通过提取得到特征尺寸较大的第一图像特征,可以使第一图像特征包含有待处理图像中较多的图像信息,从而有利于根据第一图像特征精确地得到
与目标对象对应的检测框、位置等对象属性检测结果。通过提取得到特征尺寸较小的第二图像特征,可以使第二图像特征较为精准地相应待处理图像中的语义特征,以便于后续得到目标对象准确的分类结果,或还可以有利于对待处理图像进行准确地语义分割。因此,通过融合第一图像特征和第二图像特征,来对与待处理图像相关的目标对象进行目标检测,可以同时满足对象属性检测结果的检测精度和目标对象分类的需求。
59.根据本公开的实施例,第二图像特征包括多个,多个第二图像特征之间具有不同的特征尺度。
60.其中,根据至少一个第二图像特征,确定深度信息特征可以包括:融合多个第二图像特征,得到融合图像特征;以及根据融合图像特征,对待处理图像进行深度信息检测,得到深度信息特征。
61.如图3所示,还可以将第1个第二图像特征304输入至第三下采样层314,输出第2个第二图像特征305。第1个第二图像特征304可以是相对于待处理图像301原始尺寸下采样16倍后得到的图像特征,第2个第二图像特征305可以是相对于待处理图像301原始尺寸下采样32倍后得到的图像特征。
62.如图3所示,融合多个第二图像特征,例如可以是将第1个第二图像特征304和第2个第二图像特征305输入至深度检测网络320的融合层321,输出融合图像特征。融合层321可以是基于多层感知器算法构建得到的,融合层321或者还可以是基于拼接算法构建得到的。本公开的实施例对构建融合层321的具体算法类型不做限定。
63.如图3所示,根据融合图像特征,对待处理图像进行深度信息检测,得到深度信息特征,可以是将融合层321输出的融合图像特征输入至深度特征检测层322,输出深度信息特征306。深度特征检测层322可以是基于卷积神经网络构建得到的,以便于通过对融合图像特征进行特征提取,实现第1个第二图像特征304和第2个第二图像特征305之间的特征深度融合,增加特征表征的感受野,并提取到待处理图像301中的语义特征,使深度信息特征能够学习到待处理图像301中更加全面的语义信息,提升深度信息特征的深度表征精度。
64.应该理解的是,图3中所示的第二图像特征304、305的数量仅为示例性的,并非用于对第二图像特征的数量的限定,本领域技术人员可以根据实际需求选择得到的第二图像特征的实际数量。
65.根据本公开的实施例,根据深度信息特征和第一图像特征,对与待处理图像相关的目标对象进行目标检测,得到目标对象检测结果可以包括:根据深度信息特征和第一图像特征,确定与待处理图像对应的鸟瞰图特征;以及将鸟瞰图特征输入至基于注意力机制构建得到的第一目标对象检测层,输出目标对象检测结果。
66.如图3所示,可以将深度信息特征306和第一图像特征303输入至目标检测网络330的鸟瞰图特征检测层331,输出鸟瞰图特征。鸟瞰图特征检测层331例如可以是基于lss(lift splat shoot)算法构建得到的鸟瞰图检测器。还可以将鸟瞰图特征输入至第一目标对象检测层332,输出目标对象检测结果307。第一目标对象检测层332可以是基于transformer算法构建得到的端到端检测头(head)。
67.根据本公开的实施例,目标对象检测结果例如可以是与目标对象对应的检测框、目标对象的分类结果、目标对象的位置等等。本公开的实施例对目标对象检测结果的具体类型不做限定。
68.根据本公开的实施例,通过基于transformer算法构建得到的端到端检测头(head)来生成目标对象检测结果,可以至少避免基于nms(non maximum suppression,非极大抑制)算法来构建目标对象检测头产生的计算时长过长的问题,从而提升目标检测的整体效率。
69.根据本公开的实施例,融合多个第二图像特征可以包括:从多个第二图像特征中,确定至少一个第三图像特征和至少一个第四图像特征,第三图像特征的特征尺度大于第四图像特征的特征尺度;对第四图像特征进行至少一次卷积,得到目标第四图像特征;以及根据第三图像特征和目标第四图像特征,得到融合图像特征。
70.图4示意性示出了根据本公开实施例的深度检测网络的原理图。
71.如图4所示,可以从2个第二图像特征中,将特征尺度较大的第二图像特征确定为第三图像特征401,并将特征尺度较小的第二图像特征确定为第四图像特征402。对第四图像特征进行至少一次卷积,可以是将第四图像特征402输入至深度检测网络410的卷积层411,输出目标第四图像特征403。根据第三图像特征和目标第四图像特征,得到融合图像特征,例如可以是将输入至深度检测网络410的第三图像特征401与目标第四图像特征403进行拼接,得到融合图像特征。得到的融合图像特征输入至基于卷积神经网络算法构建得到的深度检测层412,输出深度信息特征404。
72.应该理解的是,图4所示的深度检测网络410可以用于本公开实施例中提供的目标检测方法中,以便于提取得到准确表征深度信息的深度图像特征。
73.图5示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。
74.如图5所示,该训练方法包括操作s510~s550。
75.在操作s510,获取训练样本,训练样本包括与样本目标对象相关的样本图像和样本标签。
76.在操作s520,将样本图像输入至深度学习模型的图像特征提取网络,输出样本第一图像特征和至少一个样本第二图像特征,样本第一图像特征的特征尺度大于样本第二图像特征的特征尺度。
77.在操作s530,将至少一个第二图像特征输入至深度学习模型的深度检测网络,输出样本深度信息特征。
78.在操作s540,将样本深度信息特征和样本第一图像特征输入至深度学习模型的目标检测网络,输出样本目标对象检测结果。
79.在操作s550,根据样本目标对象检测结果和样本标签,训练深度学习模型,得到训练后的深度学习模型。
80.根据本公开的实施例,训练后得到的深度学习模型,可以应用于上文描述的目标检测方法。相应地,根据本公开实施例提供的深度学习模型的训练方法训练得到的深度学习模型,可以应用于本公开实施例提供的目标检测方法。
81.根据本公开的实施例,根据本公开的实施例,样本图像可以是基于图像采集装置对包含有样本目标对象的空间进行图像采集后得到的图像。图像采集装置例如可以是单目相机等单目图像采集装置。或者,图像采集装置还可以是环视图像采集装置。本公开的实施例对图像采集装置的具体装置类型不做限定。
82.根据本公开的实施例,特征尺度较大的样本第一图像特征来充分保留样本图像中
的图像信息,且根据特征尺度较小的样本第二图像特征生成的样本深度信息特征,可以加快得到样本深度信息特征的计算速度,降低计算开销。因此,训练后得到的深度学习模型,可以整体上减少目标检测所需的计算开销和计算时长,从而提升目标检测效率,降低目标检测对于硬件计算性能的依赖,至少部分避免目标对象检测结果的时间延迟,提升得到目标对象检测结果的实时性。
83.需要说明的是,本公开实施例提供的深度学习模型的训练方法中涉及的技术术语,包括但不限于样本图像、样本第一图像特征、样本第二图像特征等,与上述实施中提供的目标检测方法中涉及的对应的技术术语,包括但不限于待处理图像、第一图像特征、第二图像特征等,具有相同或相应的技术属性,本公开的实施例对此不再赘述。
84.图6示意性示出了根据本公开实施例的深度学习模型的训练方法的原理图。
85.如图6所示,深度学习模型可以包括图像特征提取网络610、深度检测网络620、目标检测网络630和深度信息检测层640。
86.样本图像601可以是安装于车辆上的环视图像采集装置采集到的图像,例如可以通过安装于车辆上的多个位置的图像采集装置采集到的车辆周围空间的图像。样本图像的图像数量可以是多张或者也可以是一张,本公开的实施例对样本图像的具体数量不做限定。
87.如图6所示,可以将样本图像601输入至图像特征提取网络610的初始图像特征提取层611,输出样本初始图像特征602。初始图像特征提取层611例如可以是基于rep vgg(visual geometry group)网络块构建得到的轻量级骨干网络层,从而可以提升得到样本初始图像特征602的计算速度,减少计算开销。
88.根据本公开的实施例,还可以结合rep vgg(visual geometry group)网络块和轻量级的simsppf(simplified spatial pyramid pooling-fast)网络块来构建图像特征提取网络,进而进一步提升目标检测效率。
89.如图6所示,可以将样本初始图像特征602输入至第一采样层612,输出样本第一图像特征603。第一采样层612可以是基于卷积网络和池化网络构建得到的,样本第一图像特征603例如可以是相对于样本图像601原始尺寸下采样8倍后得到的图像特征。可以将样本第一图像特征603输入至第二下采样层313,输出第1个样本第二图像特征604。
90.如图6所示,还可以将第1个样本第二图像特征604输入至第三下采样层614,输出第2个样本第二图像特征605。第1个样本第二图像特征604可以是相对于样本图像601原始尺寸下采样16倍后得到的图像特征,第2个样本第二图像特征605可以是相对于样本图像601原始尺寸下采样32倍后得到的图像特征。
91.如图6所示,可以将第1个样本第二图像特征604和第2个样本第二图像特征605输入至深度检测网络620,输出样本深度信息特征606。深度检测网络620可以是基于多层感知器算法、卷积神经网络算法等任意类型的神经网络算法构建得到的。通过深度检测网络620实现第1个样本第二图像特征604和第2个样本第二图像特征605之间的特征深度融合,增加特征表征的感受野,并提取到样本图像601中的语义特征,使样本深度信息特征606能够学习到样本图像601中更加全面的语义信息,提升深度信息特征的深度表征精度。
92.应该理解的是,图6中所示的样本第二图像特征604、605的数量仅为示例性的,并非用于对第二图像特征的数量的限定,本领域技术人员可以根据实际需求选择得到的第二
图像特征的实际数量。
93.如图6所示,将样本深度信息特征和样本第一图像特征输入至深度学习模型的目标检测网络,输出样本目标对象检测结果,例如可以是将样本深度信息特征606和样本第一图像特征603输入至目标检测网络630的鸟瞰图特征检测层631,输出样本鸟瞰图特征。样本鸟瞰图特征输入至第一目标对象检测层632,输出样本第一目标对象检测结果6071,样本鸟瞰图特征还可以输入至第二目标对象检测层633,输出样本第二目标对象检测结果6072。
94.根据本公开的实施例,样本目标对象检测结果可以包括与第一目标对象检测层632对应的样本第一目标对象检测结果6071,以及与第二目标对象检测层633对应的样本第二目标对象检测结果6072。第一目标对象检测层632可以是基于注意力机制构建得到的,例如可以基于注意力神经网络算法构建得到第一目标对象检测层632。第二目标对象检测层633可以是基于非极大抑制算法构建得到的。
95.根据本公开的实施例,根据样本目标对象检测结果和样本标签,训练深度学习模型可以包括:根据样本第一目标对象检测结果、样本第二目标对象检测结果和样本标签,训练深度学习模型。
96.如图6所示,样本标签可以包括与样本第一目标对象检测结果6071和样本第二目标对象检测结果6072对应的样本检测结果标签6081。可以基于损失函数分别计算样本检测结果标签6081与样本第一目标对象检测结果6071之间的第一损失值,以及计算样本检测结果标签6081与样本第二目标对象检测结果6082之间的第二损失值。根据第一损失值和第二损失值来迭代地调整深度学习模型的模型参数,得到训练后的深度学习模型。
97.根据本公开的实施例,通过第一损失值和第二损失值来训练深度学习模型,可以使得到的训练后的深度学习模型保留基于注意力机制构建得到的第一目标对象检测层,以及基于非极大抑制算法构建得到的第二目标对象检测层各自的目标对象检测优势,进而提升深度学习模型的鲁棒性,同时加快损失函数额收敛速度,提升训练速率。
98.如图6所示,样本标签还可以包括与样本深度信息特征606对应的样本深度信息标签6082。通过将样本深度信息特征606输入至深度学习模型的深度信息检测层640,输出样本深度信息6073。基于损失函数计算样本深度信息6073和样本深度信息标签6082之间的第三损失值,并根据第一损失值、第二损失值和第三损失值,来迭代地调整深度学习模型的模型参数,得到训练后的深度学习模型。
99.根据本公开的实施例,在训练后的深度学习模型应用于目标检测方法的情况下,可以仅仅通过第一目标对象检测层来生成目标对象检测结果。通过基于注意力网络算法构建得到的端到端的第一目标对象检测层来生成目标对象检测结果,可以至少避免基于nms(non maximum suppression,非极大抑制)算法来构建目标对象检测头产生的计算时长过长的问题,从而提升目标检测的整体效率。
100.图7示意性示出了根据本公开实施例的目标检测装置的框图。
101.如图7所示,目标检测装置700包括:图像特征提取模块710、深度信息特征确定模块720和目标对象检测结果获得模块730。
102.图像特征提取模块710,用于对待处理图像进行图像特征提取,得到第一图像特征和至少一个第二图像特征,第一图像特征的特征尺度大于第二图像特征的特征尺度。
103.深度信息特征确定模块720,用于根据至少一个第二图像特征,确定深度信息特
征。
104.目标对象检测结果获得模块730,用于根据深度信息特征和第一图像特征,对与待处理图像相关的目标对象进行目标检测,得到目标对象检测结果。
105.根据本公开的实施例,第二图像特征包括多个,多个第二图像特征之间具有不同的特征尺度。
106.其中,深度信息特征确定模块包括:融合图像特征获得单元和深度信息特征获得单元。
107.融合图像特征获得单元,用于融合多个第二图像特征,得到融合图像特征。
108.深度信息特征获得单元,用于根据融合图像特征,对待处理图像进行深度信息检测,得到深度信息特征。
109.根据本公开的实施例,融合图像特征获得单元包括:图像特征确定子单元、目标第四图像特征获得子单元和融合图像特征获得子单元。
110.图像特征确定子单元,用于从多个第二图像特征中,确定至少一个第三图像特征和至少一个第四图像特征,第三图像特征的特征尺度大于第四图像特征的特征尺度。
111.目标第四图像特征获得子单元,用于对第四图像特征进行至少一次卷积,得到目标第四图像特征。
112.融合图像特征获得子单元,用于根据第三图像特征和目标第四图像特征,得到融合图像特征。
113.根据本公开的实施例,目标对象检测结果获得模块包括:鸟瞰图特征获得单元和目标对象检测结果获得单元。
114.鸟瞰图特征获得单元,用于根据深度信息特征和第一图像特征,确定与待处理图像对应的鸟瞰图特征。
115.目标对象检测结果获得单元,用于将鸟瞰图特征输入至基于注意力机制构建得到的第一目标对象检测层,输出目标对象检测结果。
116.根据本公开的实施例,图像特征提取模块包括:初始图像特征获得单元、第一图像特征获得单元和第二图像特征获得单元。
117.初始图像特征获得单元,用于对待处理图像进行至少一次卷积,得到初始图像特征。
118.第一图像特征获得单元,用于对初始图像特征进行至少一次下采样,得到第一图像特征。
119.第二图像特征获得单元,用于对第一图像特征进行至少一次下采样,得到至少一个第二图像特征。
120.图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。
121.如图8所示,深度学习模型的训练装置800包括:训练样本获得模块810、样本图像特征提取模块820、样本深度信息特征获得模块830、样本目标对象检测结果获得模块840和训练模块850。
122.训练样本获得模块810,用于获取训练样本,训练样本包括与样本目标对象相关的样本图像和样本标签。
123.样本图像特征提取模块820,用于将样本图像输入至深度学习模型的图像特征提
取网络,输出样本第一图像特征和至少一个样本第二图像特征,样本第一图像特征的特征尺度大于样本第二图像特征的特征尺度。
124.样本深度信息特征获得模块830,用于将至少一个第二图像特征输入至深度学习模型的深度检测网络,输出样本深度信息特征。
125.样本目标对象检测结果获得模块840,用于将样本深度信息特征和样本第一图像特征输入至深度学习模型的目标检测网络,输出样本目标对象检测结果。
126.训练模块850,用于根据样本目标对象检测结果和样本标签,训练深度学习模型,得到训练后的深度学习模型。
127.根据本公开的实施例,目标检测网络包括基于注意力机制构建得到的第一目标对象检测层,以及基于非极大抑制算法构建得到的第二目标对象检测层,样本目标对象检测结果包括与第一目标对象检测层对应的样本第一目标对象检测结果,以及与第二目标对象检测层对应的样本第二目标对象检测结果。
128.其中,训练模块包括训练单元。
129.训练单元,用于根据样本第一目标对象检测结果、样本第二目标对象检测结果和样本标签,训练深度学习模型。
130.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
131.根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
132.根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
133.根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
134.图9示出了可以用来实施本公开的实施例的目标检测方法、深度学习模型的训练方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
135.如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
136.设备900中的多个部件连接至i/o接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如
因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
137.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如目标检测方法、深度学习模型的训练方法。例如,在一些实施例中,目标检测方法、深度学习模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由计算单元901执行时,可以执行上文描述的目标检测方法、深度学习模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标检测方法、深度学习模型的训练方法。
138.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
139.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
140.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
141.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
142.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
143.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
144.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
145.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表