一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标检测方法、装置、电子设备及存储介质与流程

2022-02-22 08:36:53 来源:中国专利 TAG:


1.本技术涉及神经网络领域,具体涉及目标检测方法、装置、电子设备及存储介质。


背景技术:

2.目前,通常使用检测网络进行物体、人体等对象的检测。基于单尺度特征图进行目标检测的检测速度快但是精度低,相比于基于单尺度特征图进行目标检测,多尺度特征图包括的与物体相关的特征多,基于多尺度特征图进行目标检测的精度较高,但多尺度特征图的数据量大,目标检测的检测速度慢,难以应用在一些对实时性要求高的应用场景中。如何以较快的检测速度进行精度较高的目标检测成为一个需要解决的问题。


技术实现要素:

3.本技术实施例提供一种目标检测方法、装置、电子设备、存储介质、计算机程序产品,以便实现以较快的检测速度进行精度较高的目标检测。
4.本技术实施例提供一种目标检测方法,包括:
5.获取待检测图像;
6.对所述待检测图像进行特征提取,得到所述待检测图像对应的单尺度特征;
7.基于所述待检测图像对应的单尺度特征进行空洞卷积处理,得到所述待检测图像对应的多尺度特征;
8.基于所述多尺度特征,预测所述待检测图像的检测结果,所述检测结果包括:所述待检测图像中对象的类型和/或所述待检测图像中对象的位置。
9.本技术实施例提供一种目标检测装置,包括:
10.获取单元,被配置为获取待检测图像;
11.提取单元,被配置为对待检测图像进行特征提取,得到待检测图像对应的单尺度特征;
12.处理单元,被配置为基于所述待检测图像对应的单尺度特征进行空洞卷积处理,得到所述待检测图像对应的多尺度特征;
13.检测单元,被配置为基于所述多尺度特征,预测所述待检测图像的检测结果,所述检测结果包括:所述待检测图像中对象的类型和/或所述待检测图像中对象的位置。
14.本技术实施例提供一种电子设备,包括:
15.处理器;
16.用于存储该处理器可执行指令的存储器;
17.其中,该处理器被配置为执行所述指令,以实现上述目标检测方法。
18.本技术实施例提供一种存储介质,该存储介质中存储有指令,当存储介质中的指令由处理器执行时,能够实现上述目标检测方法。
19.本技术实施例提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现上述目标检测方法。
20.本技术实施例提供的目标检测方法、装置、电子设备、存储介质、计算机程序产品,基于待检测图像对应的单尺度特征进行空洞卷积处理,得到待检测图像对应的多尺度特征,基于待检测图像对应的多尺度特征,预测待检测图像的检测结果,待检测图像对应的多尺度特征是在通过空洞卷积增加相应的特征图的感受野的情况下得到的,待检测图像对应的多尺度特征更加丰富,基于更加丰富的待检测图像对应的多尺度特征预测待检测图像的检测结果,得到的检测结果的准确性更高。同时,本技术直接对待检测图像对应的单尺度特征进行处理,得到多尺度特征,待检测图像对应的单尺度特征的数据量远小于多尺度特征图的数据量,减少得到多尺度特征的耗时,使得目标检测的速度更快,可以应用在一些对实时性要求高的应用场景中。从而,通过本技术提供的目标检测方法可以以较快的检测速度进行精度较高的目标检测。
附图说明
21.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
22.图1示出了本技术实施例提供的目标检测方法的流程图;
23.图2示出了空洞编码器中的残差模块的结构示意图;
24.图3示出了本技术实施例提供的目标检测装置的结构框图;
25.图4示出了本技术实施例提供的电子设备的结构框图。
具体实施方式
26.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
27.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
28.近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(artificial intelligence,ai)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(slam)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
29.图1示出了本技术实施例提供的目标检测方法的流程图,该方法可以由终端设备
或服务器执行,该方法包括:
30.步骤101,获取待检测图像。
31.在本技术中,待检测图像可以由终端设备例如移动终端、车载终端上的摄像头采集。
32.步骤102,对待检测图像进行特征提取,得到待检测图像对应的单尺度特征。
33.在本技术中,可以利用用于特征提取的卷积神经网络对待检测图像进行特征提取,得到待检测图像对应的单尺度特征。
34.例如,该卷积神经网络可以采用用于目标检测的网络例如faster rcnn中的基准网络即backbone网络。可以将待检测图像输入到用于特征提取的卷积神经网络中,得到用于特征提取的卷积神经网络输出的待检测图像对应的单尺度特征。
35.步骤103,基于待检测图像对应的单尺度特征进行空洞卷积处理,得到待检测图像对应的多尺度特征。
36.在本技术中,可以利用用于空洞卷积的卷积层对待检测图像对应的单尺度特征进行空洞卷积(dilated convolution)处理,得到待检测图像对应的多尺度特征。用于空洞卷积的卷积层可以包括多个用于空洞卷积的卷积核,每一个用于空洞卷积的卷积核在进行空洞卷积时的空洞率可以不同,从而,通过进行空洞卷积时的空洞率不同的多个用于空洞卷积的卷积核进行空洞卷积,可以形成多个不同的较大的感受野,进而对待检测图像进行多尺度感知以形成多尺度特征。对于每一个用于空洞卷积的卷积核,该用于空洞卷积的卷积核分别对待检测图像对应的单尺度特征中的每一个特征图进行空洞卷积,得到相应的经过空洞卷积的特征图。得到的所有经过空洞卷积的特征图组成待检测图像对应的多尺度特征。
37.步骤104,基于待检测图像对应的多尺度特征,预测待检测图像的检测结果。
38.在本技术中,检测结果包括:待检测图像中对象的类型和/或待检测图像中对象的位置。
39.当需要获取待检测图像中对象的类型时,可以将待检测图像对应的多尺度特征输入到用于分类的网络中,得到用于分类的网络输出的检测图像中对象的类型。当需要获取待检测图像中对象的位置时,可以将待检测图像对应的多尺度特征输入到用于对对象的位置进行回归的网络中,得到用于对对象的位置进行回归的网络输出的待检测图像中对象的位置。
40.在本技术中,基于待检测图像对应的单尺度特征进行空洞卷积处理,得到待检测图像对应的多尺度特征,基于待检测图像对应的多尺度特征,预测待检测图像的检测结果,待检测图像对应的多尺度特征是在通过空洞卷积增加相应的特征图的感受野的情况下得到的,待检测图像对应的多尺度特征更加丰富,基于更加丰富的待检测图像对应的多尺度特征预测待检测图像的检测结果,得到的检测结果的准确性更高。同时,本技术直接对待检测图像对应的单尺度特征进行处理,得到多尺度特征,待检测图像对应的单尺度特征的数据量远小于多尺度特征图的数据量,减少得到多尺度特征的耗时,使得目标检测的速度更快,可以应用在一些对实时性要求高的应用场景中。从而,通过本技术提供的目标检测方法可以以较快的检测速度进行精度较高的目标检测。
41.在一些实施例中,基于待检测图像对应的单尺度特征进行空洞卷积处理,得到待
检测图像对应的多尺度特征包括:对待检测图像对应的单尺度特征进行多次空洞卷积处理,得到待检测图像对应的多尺度特征,其中,首次空洞卷积处理的处理数据为待检测图像对应的单尺度特征,非首次空洞卷积处理的处理数据为相邻的前一次空洞卷积处理的处理结果数据。
42.在本技术中,可以针对待检测图像对应的单尺度特征进行多次空洞卷积处理,得到待检测图像对应的多尺度特征。首次空洞卷积处理的处理数据为待检测图像对应的单尺度特征,非首次空洞卷积处理的处理数据为相邻的前一次空洞卷积处理的处理结果数据。
43.用于空洞卷积的卷积层可以包括多个用于空洞卷积的卷积核,每一个用于空洞卷积的卷积核在进行空洞卷积时的空洞率可以不同,通过进行空洞卷积时的空洞率不同的多个用于空洞卷积的卷积核进行空洞卷积,可以形成多个不同的较大的感受野。
44.首次空洞卷积处理的处理数据可以为在进行首次空洞卷积处理时,输入到用于空洞卷积的卷积层中的数据。在进行首次空洞卷积处理时,可以将待检测图像对应的单尺度特征输入到用于空洞卷积的卷积层中,对于每一个用于空洞卷积的卷积核,该用于空洞卷积的卷积核分别对待检测图像对应的单尺度特征中的每一个特征图进行空洞卷积,得到相应的经过空洞卷积的特征图,得到的所有经过空洞卷积的特征图组成在进行首次空洞卷积处理时,用于空洞卷积的卷积层输出的处理结果数据。
45.非首次空洞卷积处理的处理数据可以为在进行非首次空洞卷积处理时,输入到用于空洞卷积的卷积层中的数据,非首次空洞卷积处理的处理数据为相邻的前一次空洞卷积处理的处理结果数据,换言之,在进行非首次空洞卷积处理时,将相邻的前一次空洞卷积处理的处理结果数据输入到用于空洞卷积的卷积层中。例如,m不等于1,在进行第m次空洞卷积处理时,可以将在第m-1次空洞卷积处理时用于空洞卷积的卷积层输出的处理结果数据作为第m次空洞卷积处理的处理数据。
46.在本技术中,可以将在最后一次空洞卷积处理时用于空洞卷积的卷积层输出的处理结果数据作为待检测图像对应的多尺度特征。
47.例如,针对待检测图像对应的单尺度特征进行n次空洞卷积处理,可以将在第n次空洞卷积处理时用于空洞卷积的卷积层输出的处理结果数据作为待检测图像对应的多尺度特征。
48.在本技术中,对待检测图像对应的单尺度特征进行多次空洞卷积处理,可以多次增加在得到待检测图像对应的多尺度特征的过程中产生的相关特征图的感受野,从而,提升得到的多尺度特征包括的与待检测图像中的物体相关的特征的丰富度,进而提升检测结果的准确性。
49.在一些实施例中,通过空洞编码器对待检测图像对应的单尺度特征进行空洞卷积处理;空洞编码器包括多个级联的残差模块;相应的,对待检测图像对应的单尺度特征进行多次空洞卷积处理,得到待检测图像对应的多尺度特征,包括:通过多个级联的残差模块对待检测图像对应的单尺度特征进行多次空洞卷积处理,得到多尺度特征;其中,一个残差模块用于执行一次空洞卷积处理,前一个残差模块的输出结果作为相邻的后一个残差模块的输入数据。
50.本技术中的空洞编码器中的残差模块具有空洞卷积功能,本技术中的残差模块通过对resnet网络中的原始残差模块进行改进得到。用于空洞卷积的卷积层中的卷积核的尺
寸可以为3x3,即用于空洞卷积的卷积层为一个3x3卷积层。利用用于空洞卷积的卷积层替换resnet网络中的原始残差模块中的原始3x3卷积层,即可得到本技术中的残差模块。resnet网络中的原始残差模块还包括位于原始3x3卷积层之前的1x1卷积层和位于原始3x3卷积层之后的1x1卷积层,相应的,本技术中的空洞编码器中的残差模块还包括位于用于空洞卷积的卷积层之前的1x1卷积层和位于用于空洞卷积的卷积层之后的1x1卷积层。
51.在本技术中,当通过多个级联的残差模块对待检测图像对应的单尺度特征进行多次空洞卷积处理,得到待检测图像对应的多尺度特征时,由空洞编码器中的第n个残差模块完成第n次空洞卷积处理。空洞编码器中的第1个残差模块的输入数据为待检测图像对应的单尺度特征,将待检测图像对应的单尺度特征输入到空洞编码器中的第1个残差模块中,得到空洞编码器中的第1个残差模块的输出结果。
52.在本技术中,前一个残差模块的输出结果作为相邻的后一个残差模块的输入数据,对于空洞编码器中的第n个残差模块,前一个残差模块是指第n-1个残差模块,第n个残差模块为相对于第n-1个残差模块而言,相邻的后一个残差模块。例如,对于空洞编码器中的第2个残差模块,前一个残差模块是指第1个残差模块,第2个残差模块为相对于第n-1个残差模块而言,相邻的后一个残差模块。将第1个残差模块的输出结果作为第2个残差模块的输入数据,以此类推。
53.在本技术中,将空洞编码器中的最后一个残差模块的输出结果作为待检测图像对应的多尺度特征。若空洞编码器包括n个残差模块,则将第n个残差模块的输出结果作为待检测图像对应的多尺度特征。
54.残差模块用于将残差模块的输入数据与残差模块中的最后一个卷积层的输出结果进行残差连接,得到残差模块的输出结果,残差连接相当于将残差模块的输入数据与残差模块中的最后一个卷积层的输出结果进行融合。
55.在本技术中,通过多个级联的残差模块对待检测图像对应的单尺度特征进行多次空洞卷积处理,得到待检测图像对应的多尺度特征,既可以多次增加在得到待检测图像对应的多尺度特征的过程中产生的相关特征图的感受野,提升得到的多尺度特征包括的与待检测图像中的物体相关的特征的丰富度,也可以避免由于空洞卷积可能导致的部分已经提取的局部特征即残差模块的输入数据中的部分特征丢失的情况。
56.在一些实施例中,空洞编码器中的各个残差模块对应的空洞率不同。
57.在本技术中,空洞编码器中的残差模块对应的空洞率为:残差模块中的用于空洞卷积的卷积层在进行空洞卷积处理时的空洞率。在从空洞编码器中的第1个残差模块到空洞编码器中的最后一个残差模块的方向上,残差模块对应的空洞率可以递增即逐渐增大。
58.空洞率的大小决定感受野的大小,某一个感受野适用于提取出与某一个尺寸等级的物体相关的特征。
59.在本技术中,空洞编码器中的各个残差模块对应的空洞率不同,可以形成多个不同的大小的感受野,进而通过空洞卷积,针对不同的尺寸等级的物体,均可以在适用于提取与该尺寸等级的物体相关的特征的感受野下,提取出与该尺寸等级的物体相关的特征,进而可以针对不同的尺寸等级的物体例如小物体、中物体、大物体,均可以获取到较为精确的特征,以进行较为准确地检测。
60.在一些实施例中,基于待检测图像对应的单尺度特征进行空洞卷积处理,得到待
检测图像对应的多尺度特征,包括:基于待检测图像对应的检测任务,对待检测图像对应的单尺度特征进行特征映射,得到映射后的待检测图像对应的单尺度特征,其中,待检测图像对应的检测任务包括:用于检测待检测图像中对象的类型的任务和/或用于检测待检测图像中对象的位置的任务;对映射后的待检测图像对应的单尺度特征进行空洞卷积处理,得到待检测图像对应的多尺度特征。
61.在本技术中,基于待检测图像对应的检测任务,对待检测图像对应的单尺度特征进行特征映射,得到映射后的待检测图像对应的单尺度特征。映射后的待检测图像对应的单尺度特征为待检测图像对应的单尺度特征中的、适用于执行检测任务的单尺度特征。相应的,映射后的待检测图像对应的单尺度特征包括:适用于执行用于检测待检测图像中对象的类型的任务的单尺度特征和/或适用于执行用于检测待检测图像中对象的位置的任务的单尺度特征。
62.在本技术中,可以利用用于特征映射的卷积层例如fasterrcnn网络中的rpn模块中的用于特征映射的3*3卷积层,对待检测图像对应的单尺度特征进行对应于检测任务的特征映射,得到待检测图像对应的映射后单尺度特征。
63.在本技术中,当对映射后的待检测图像对应的单尺度特征进行空洞卷积处理,得到待检测图像对应的多尺度特征时,可以利用用于空洞卷积的卷积层对映射后的待检测图像对应的单尺度特征进行空洞卷积处理,得到待检测图像对应的多尺度特征。用于空洞卷积的卷积层可以包括多个用于空洞卷积的卷积核,每一个用于空洞卷积的卷积核在进行空洞卷积时的空洞率可以不同。
64.利用用于空洞卷积的卷积层对映射后的待检测图像对应的单尺度特征进行空洞卷积处理的过程与步骤103中的利用用于空洞卷积的卷积层对待检测图像对应的单尺度特征进行空洞卷积处理的过程同理。不同之处仅在于在利用用于空洞卷积的卷积层对待检测图像对应的单尺度特征进行空洞卷积处理时,用于空洞卷积的卷积层的输入数据为待检测图像对应的单尺度特征,在利用用于空洞卷积的卷积层对映射后的待检测图像对应的单尺度特征进行空洞卷积处理时,用于空洞卷积的卷积层的输入数据为映射后的待检测图像对应的单尺度特征。
65.映射后的待检测图像对应的单尺度特征的数据量小于待检测图像对应的单尺度特征的数据量,相比于步骤103中的对待检测图像对应的单尺度特征进行空洞卷积处理,可以减少空洞卷积处理的计算量,提升得到待检测图像对应的多尺度特征的速度,进而提升目标检测的速度。
66.在本技术中,当对映射后的待检测图像对应的单尺度特征进行空洞卷积处理,得到待检测图像对应的多尺度特征时,可以通过用于空洞卷积的卷积层对映射后的待检测图像对应的单尺度特征进行多次空洞卷积处理,得到待检测图像对应的多尺度特征。通过用于空洞卷积的卷积层对映射后的待检测图像对应的单尺度特征进行多次空洞卷积处理的过程与上述通过用于空洞卷积的卷积层对待检测图像对应的单尺度特征进行多次空洞卷积处理的过程同理,不同之处仅在于当对待检测图像对应的单尺度特征进行多次空洞卷积处理时,首次空洞卷积处理的处理数据为待检测图像对应的单尺度特征,当对映射后的待检测图像对应的单尺度特征进行多次空洞卷积处理时,首次空洞卷积处理的处理数据为映射后的待检测图像对应的单尺度特征。
67.在本技术中,当对映射后的待检测图像对应的单尺度特征进行空洞卷积处理时,可以通过空洞编码器对映射后的待检测图像对应的单尺度特征进行空洞卷积处理,得到待检测图像对应的多尺度特征。通过空洞编码器对映射后的待检测图像对应的单尺度特征进行空洞卷积处理的过程与上述通过空洞编码器对待检测图像对应的单尺度特征进行空洞卷积处理的过程同理,不同之处仅在于当通过空洞编码器对待检测图像对应的单尺度特征进行空洞卷积处理时,输入到空洞编码器中的数据为待检测图像对应的单尺度特征,即空洞编码器中的第1个残差模块的输入数据为待检测图像对应的单尺度特征,当通过空洞编码器对映射后的待检测图像对应的单尺度特征进行空洞卷积处理时,输入到空洞编码器中的数据为映射后的待检测图像对应的单尺度特征,即空洞编码器中的第1个残差模块的输入数据为映射后的待检测图像对应的单尺度特征。
68.请参考图2,其示出了空洞编码器中的残差模块的结构示意图。
69.图2示例性的示出了空洞编码器中的一个残差模块的结构。空洞编码器中的每一个残差模块的结构相同。空洞编码器中的残差模块包括1x1卷积层201、用于空洞卷积的空洞卷积层202、1x1卷积层203。在利用残差模块进行一次空洞卷积时,利用1x1卷积层201对残差模块的输入数据205进行处理,1x1卷积层201的输出数据作为用于空洞卷积的空洞卷积层202的输入数据,用于空洞卷积的空洞卷积层202对输入数据进行空洞卷积处理,得到用于空洞卷积的空洞卷积层202的输出结果,用于空洞卷积的空洞卷积层202的输出数据作为1x1卷积层203的输入数据,由1x1卷积层203对用于空洞卷积的空洞卷积层202的输出结果进行处理,得到1x1卷积层203的输出结果204。在残差模块中,将1x1卷积层203的输出结果204与残差模块的输入数据205进行残差连接206,得到残差模块的输出结果。
70.在一些实施例中,目标检测方法由检测网络执行,在获取待检测图像之前,还包括:对于样本图像中的每一个标注框,确定针对该样本图像生成的所有锚框中的、与该标注框的交并比(intersection over union,简称iou)最大的预设数量个锚框;将该预设数量个锚框确定为该标注框对应的正样本,将该所有锚框中的除了正样本之外的锚框确定为负样本;基于每一个标注框对应的正样本和所有负样本,对该检测网络进行训练。
71.在本技术中,目标检测方法可以由检测网络执行,检测网络可以包括上述每一个步骤对应的模块,步骤对应的模块用于执行该步骤。在获取待检测图像之前,利用样本图像训练检测网络。检测网络针对样本图像生成的预设数量的锚框,针对样本图像生成的预设数量的锚框与已有的任意一种用于目标检测的神经网络生成锚框的过程同理。
72.对于样本图像中的每一个标注框,可以按照标注框与锚框的交并比从大至小的顺序,对检测网络针对样本图像生成的所有锚框进行排序,将排序之后前预设数量个锚框中的每一个锚框均确定为该标注框对应的正样本。
73.预设数量为k,对于每一个标注框,计算该标注框与检测网络针对样本图像生成的每一个锚框的交并比,按照该标注框与锚框的交并比从大至小的顺序,对目标检测网络生成的所有锚框进行排序,将排序之后前k个锚框中的每一个锚框均确定为该标注框对应的正样本。
74.在确定每一个标注框对应的正样本之后,随即确定所有正样本,将所有锚框中的除了正样本之外的每一个锚框均确定为负样本。可以利用每一个标注框对应的正样本和所有负样本,对该检测网络进行训练。
75.在训练用于进行目标检测的检测网络的过程中,正样本的作用为使得检测网络学习与正样本相关的对象具有的特征。
76.在本技术中,样本图像中的每一个标注框的正样本的数量均为预设数量,使得每一个标注框的正样本的数量均衡,可以避免以下情况,以确保取得较好的检测网络的训练效果:若仅根据交并比是否大于阈值确定每一个标注框的正样本,可能出现某个标注框相对于其他标注框,正样本的数量过多,导致检测网络在学习与该正样本相关的对象具有的特征时出现过拟合的情况。若仅根据交并比是否大于阈值确定每一个标注框的正样本,也可能出现某个标注框相对于其他标注框,正样本的数量过少,导致检测网络难以充分地学习与该正样本相关的对象具有的特征。
77.在一些实施例中,利用每一个标注框对应的正样本和负样本,对检测网络进行训练,包括:对于每一个标注框,确定该标注框对应的所有正样本中、与该标注框的交并比大于第一阈值的目标正样本,以及,确定所有负样本中、与任意一个标注框的交并比均小于第二阈值的目标负样本;其中,第一阈值大于第二阈值;基于每一个标注框所对应的目标正样本和所有目标负样本,进行检测网络模型的训练。
78.在本技术中,对于每一个标注框,可以将该标注框对应的所有正样本中的、与该标注框的交并比大于第一阈值的正样本确定为该标注框对应的目标正样本,使得与该标注框的交并比较小的正样本不参与检测网络的训练。可以将所有负样本中的、与任意一个标注框的交并比均小于第二阈值的负样本确定为目标负样本,使得与至少一个标注框的交并比较大的负样本不参与检测网络的训练。
79.在本技术中,仅利用每一个标注框对应的目标正样本和所有目标负样本训练目标检测网络,相比于直接利用每一个标注框对应的所有正样本和所有负样本训练检测网络,可以避免与标注框的交并比较小的正样本和/或与标注框的交并比较大的负样本参与检测网络的训练,可能造成的检测网络的参数无法收敛到局部极小值的情况,同时,还可以减少参与检测网络的训练的样本的数量,进而减少检测网络的训练的耗时。
80.请参考图3,其示出了本技术实施例提供的目标检测装置的结构框图。目标检测装置包括:获取单元301,提取单元302,处理单元303,检测单元304。
81.获取单元301被配置为获取待检测图像;
82.提取单元302被配置为对待检测图像进行特征提取,得到待检测图像对应的单尺度特征;
83.处理单元303被配置为基于所述待检测图像对应的单尺度特征进行空洞卷积处理,得到所述待检测图像对应的多尺度特征;
84.检测单元304被配置为基于所述多尺度特征,预测所述待检测图像的检测结果,所述检测结果包括:所述待检测图像中对象的类型和/或所述待检测图像中对象的位置。
85.处理单元303进一步被配置为对待检测图像对应的单尺度特征进行多次空洞卷积处理,得到所述多尺度特征,其中,首次空洞卷积处理的处理数据为所述待检测图像对应的单尺度特征,非首次空洞卷积处理的处理数据为相邻的前一次空洞卷积处理的处理结果数据。
86.处理单元303进一步被配置为通过空洞编码器对所述待检测图像对应的单尺度特征进行空洞卷积处理;所述空洞编码器包括多个级联的残差模块;通过所述多个级联的残
差模块对所述待检测图像对应的单尺度特征进行多次空洞卷积处理,得到所述多尺度特征;其中,一个所述残差模块用于执行一次空洞卷积处理,前一个残差模块的输出结果作为相邻的后一个残差模块的输入数据。
87.在一些实施例中,各个残差模块对应的空洞率不同。
88.在一些实施例中,处理单元303进一步被配置为基于所述待检测图像对应的检测任务,对所述待检测图像对应的单尺度特征进行特征映射,得到映射后的所述待检测图像对应的单尺度特征,其中,所述检测任务包括:用于检测所述待检测图像中对象的类型的任务和/或用于检测所述待检测图像中对象的位置的任务;对映射后的待检测图像对应的单尺度特征进行空洞卷积处理,得到所述待检测图像对应的多尺度特征。
89.在一些实施例中,目标检测方法由检测网络执行,目标检测装置还包括:训练单元,被配置为在获取待检测图像之前,对于样本图像中的每一个标注框,确定针对所述样本图像生成的所有锚框中的、与所述标注框的交并比最大的预设数量个锚框;将所述预设数量个锚框确定为所述标注框对应的正样本,将所述所有锚框中的除了正样本之外的锚框确定为负样本;基于每一个标注框对应的正样本和负样本,对所述检测网络进行训练。
90.在一些实施例中,训练单元进一步被配置为对于每一个所述标注框,确定所述标注框对应的所有正样本中、与所述标注框的交并比大于第一阈值的目标正样本,以及,确定所述标注框对应的所有负样本中、与任意一个标注框的交并比均小于第二阈值的目标负样本;其中,第一阈值大于第二阈值;基于每一个所述标注框所对应的所述目标正样本和所述目标负样本,进行所述检测网络模型的训练。
91.本技术提供的目标检测方法的实施例中的任意一个步骤和任意一个步骤中的具体操作均可以由目标检测装置中的相应的单元完成。目标检测装置中的各个单元完成的相应的操作的过程参考在目标检测方法的实施例中描述的相应的操作的过程。
92.通过目标检测装置进行目标检测,可以基于待检测图像对应的单尺度特征进行空洞卷积处理,得到待检测图像对应的多尺度特征,基于待检测图像对应的多尺度特征,预测待检测图像的检测结果,待检测图像对应的多尺度特征是在通过空洞卷积增加相应的特征图的感受野的情况下得到的,待检测图像对应的多尺度特征更加丰富,基于更加丰富的待检测图像对应的多尺度特征预测待检测图像的检测结果,得到的检测结果的准确性更高。同时,本技术直接对待检测图像对应的单尺度特征进行处理,得到多尺度特征,待检测图像对应的单尺度特征的数据量远小于多尺度特征图的数据量,减少得到多尺度特征的耗时,使得目标检测的速度更快,可以应用在一些对实时性要求高的应用场景中。从而,可以以较快的检测速度进行精度较高的目标检测。
93.图4是本实施例提供的一种电子设备的结构框图。电子设备包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述方法。
94.电子设备还可以包括一个电源组件426被配置为执行电子设备的电源管理,一个有线或无线网络接口450被配置为将电子设备连接到网络,和一个输入输出(i/o)接口458。电子设备可以操作基于存储在存储器432的操作系统,例如windows servertm,macos xtm,
unixtm,linuxtm,freebsdtm或类似。
95.在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器,上述指令可由电子设备执行以完成上述目标检测方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
96.在示例性实施例中,还提供一种计算机程序产品,包括计算机可读代码,当计算机可读代码在电子设备上运行时,使得电子设备执行上述目标检测方法。
97.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
98.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献