一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

识别图像中的对象的方法、设备和计算机可读存储介质与流程

2021-10-22 22:24:00 来源:中国专利 TAG:物体 检测 尺度 中大 图像


1.本公开内容涉及物体检测,并且具体地涉及图像中的大尺度变化范围的物体的检测。


背景技术:

2.物体检测场景中经常出现待检测物体的尺度变化范围较大,这增加了检测难度。例如,在遥感图像中,物体的角度是任意的、其外观和尺度变化很大并且背景也很复杂。比如,在公开数据集dota1.0中,物体的尺度范围从20
×
20像素到1200
×
1200像素,如图1所示
3.目前最流行的方法都是基于两阶段目标检测方法,例如faster rcnn(甚高速区域卷积神经网络)、fpn(特征金字塔网络)、sppnet(空间金字塔池化)等。这些方法均取得了令人满意的效果。
4.然而,对于物体检测任务来说,特别是具有大尺度变化范围的检测任务,例如准确定位和分类遥感图像中的目标,如车辆、飞机、桥梁等,一个单一的模型实际上是不够鲁棒和泛化的,而且通常对小尺寸和大尺寸物体的检测效果并不理想。


技术实现要素:

5.在下文中给出了关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
6.根据本发明的一个方面,提供了一种用于识别图像中的对象的方法,包括:将图像的不同缩放比例版本分别输入一个或更多个检测模型,以检测所述图像中的对象;基于要识别的对象的特征,对所述一个或更多个检测模型的检测结果进行过滤;和融合所述一个或更多个检测模型的过滤后的检测结果。
7.根据本发明的另一个方面,提供了一种用于识别图像中的对象的设备,包括:检测装置,其被配置成将图像的不同缩放比例版本分别输入一个或更多个检测模型,以检测所述图像中的对象;过滤装置,其被配置成基于要识别的对象的特征,对所述一个或更多个检测模型的检测结果进行过滤;和融合装置,其被配置成融合所述一个或更多个检测模型的过滤后的检测结果。
8.根据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
9.通过本发明的用于识别图像中的对象的方法和设备,使得提高对图像中的大尺度变化范围的物体的检测精度。
10.通过以下结合附图对本发明的优选实施方式的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
11.为了进一步阐述本公开内容的以上和其它优点和特征,下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本公开内容的典型示例,而不应看作是对本公开内容的范围的限定。在附图中:
12.图1示意性地示出了dota数据集中的物体尺寸的沿横轴归一化的分布;
13.图2a示出了检测模型r2cnn 的架构;
14.图2b示意性地示出了r2cnn 对应的多个特征层及其融合;
15.图3是根据一个实施方式的用于识别图像中的对象的方法300的流程图;
16.图4示意性地示出了图3的方法300的优选实施方式;
17.图5a和5b示出了通过根据本发明的实施方式的用于识别图像中的对象的方法所获得的检测效果;
18.图6是根据一个实施方式的用于识别图像中的对象的设备600的框图;和
19.图7是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。
具体实施方式
20.在下文中将结合附图对本公开的示范性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
21.在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
22.如上文提到的,对于具有大尺度变化范围的检测任务,一个单一的模型是不够鲁棒和泛化的,并且对小尺寸和大尺寸物体的检测效果不理想。
23.为了提高检测性能,本公开内容提出了一种检测方法,该方法融合了针对不同物体尺寸的图像金字塔检测机制和模型集成机制。
24.具体地,对于图像金字塔检测机制,可以利用不同的缩放因子调整输入图像,针对不同目标尺寸训练相应的检测模型,用于多尺度目标检测。例如,可以将图像缩小,使得原本尺寸较大的物体变得尺度适中以便于检测。相反地,将图像放大更有利于小物体的检测。
25.对于模型集成机制,可以针对特定的检测模型滤除其目标尺寸以外的检测结果,从而减少对其它模型的检测结果的负面影响。例如,可以采用同一个网络结构的不同检测模型,或者采用不同网络结构的不同检测模型,或者两者兼有。常见的检测模型例如包括faster rcnn、fpn、sppnet、ssd(单次多盒检测)、yolo、retinanet等。
26.应理解,由于图像金字塔式的检测方法会导致针对某一尺寸的模型在其他尺寸上
检测效果并不理想,因此简单的融合各检测模型的结果会导致检测性能的下降。为了解决该问题,可以在结果融合前滤除检测效果不理想的检测结果。具体地,可以针对每个检测模型定义不同的过滤阈值。例如,对于放大图像的检测模型,可以定义检测范围为[-∞,thre1],以过滤掉该检测模型对大尺寸物体的检测结果。对于缩小图像的检测模型,可以定义检测范围为[thre3, ∞],以过滤掉该检测模型对小尺寸物体的检测结果。类似地,对于只检测中等尺寸物体的检测模型,可以定义检测范围为[thre
21
,thre
22
],以过滤掉该检测模型对大、小尺寸物体的检测结果。在进行上述过滤之后,可以使用多种融合机制来融合滤除后的多模型的检测结果。
[0027]
应理解,阈值thre1、thre3、thre
21
和thre
22
可以根据不同的检测需求来设定。
[0028]
对于过滤后的多模型的结果融合,可以采用常见的现有方案,例如nms(非极大值抑制)、r-nms(旋转非极大值抑制)、soft-nms(软非极大值抑制)、skew-nms(倾斜非极大值抑制)、mask-nms(掩膜非极大值抑制)等。
[0029]
下面将结合图2a、图2b和图4来详细描述图3所示的根据一个实施方式的用于识别图像中的对象的方法300。
[0030]
方法300开始于步骤301。在步骤301中,将图像的不同缩放比例版本分别输入一个或更多个检测模型,以检测图像中的对象。
[0031]
具体地,在本实施方式中,检测模型例如可以使用r2cnn (旋转区域卷积神经网络)。图2a示出了r2cnn 的架构,其基于faster rcnn架构。
[0032]
如图2a所示,r2cnn 包括四个模块,即fpn结构、attention(注意力)机制、区域建议网络(rpn,region proposal network)和fast rcnn。为了便于本发明的理解,下面简要介绍r2cnn 的原理。
[0033]
首先,通过包含fpn结构的主干网络来计算特征图、进行特征提取并且融合不同层的特征图,以适应多尺度物体检测。图2b给出了检测模型对应的多个特征层的示意图。如图2b所示,通过主干网络计算特征图,该特征图包含三层conv2、conv3和conv4。然后,由fpn模块通过对这三个层conv2、conv3和conv4上采样来进行融合以适应多尺度物体检测。
[0034]
接着,如图2a所示,主干网络还包含attention(注意力)机制,以使特征图更加关注到前景目标,并且减少背景噪声的影响。
[0035]
接着,利用区域建议网络(rpn,region proposal network)生成轴对齐的检测框(aabb)。
[0036]
接着,对于rpn提出的每个aabb,通过fast rcnn提取其集合特征,同时预测分类得分aabb(水平检测框-hbb)和倾斜最小面积检测框(倾斜检测框-obb)。
[0037]
最后,可以利用例如倾斜nms得到最终的检测结果。
[0038]
另外,对于图2a所示的模型结构,其总损失函数l
tota
l({p
i
},{t
i
})包括三个部分:l
rpn
(p1,t1)和l
fastrcnn
(p2,t2,t
r
),如下面的等式(1)所示。对于attention机制,其损失函数使用交叉熵来衡量预测图与二值化的真值图之间的相似性。对于rpn,其损失函数l
rpn
(p1,t1)包括两种损失:前景/背景分类损失和hbb回归损失如等式(2)所示。对于fast rcnn,其损失
函数l
fastrcnn
(p2,t2,t
r
)包括三种损失:类别分类损失hbb回归损失和obb回归损失如等式(3)所示。在hbb回归中,将计算三个参数化坐标(框的中心坐标、宽度和高度),而在obb回归中,将添加一个坐标-旋转角度。分类损失和回归损失分别采用交叉熵损失和smooth l1损失。
[0039][0040][0041][0042]
其中,p1是rpn的分类置信度,p2是fast rcnn分类置信度,是对应的真值结果,t1是rpn的hbb回归结果,t2是fast rcnn的hbb回归结果,t
r
是fast rcnn的obb回归结构,是相应的真值,l
rgul
是权重的正则项,并且λ
i
是手动设置的超参。例如,可以如下设置超参:
[0043]
λ1=2.0,λ2=1/7,λ3=2.0,λ4=4.0,λ5=0.0001。
[0044]
对于检测模型的集成,在本实施方式中,采用同种网络结构的集成策略,并采用三种缩放比例的图像金字塔方法。也就是说,考虑三种不同的输入尺度,即三个检测模型。
[0045]
应理解,以上检测模型的集成方式仅是一个示例,本发明不限于此。特别地,本发明不限于仅采用一种检测模型的集成,而是也可以采用两种或更多种检测模型的集成;并且也不限三种缩放比例的图像金字塔方法,而是也可以采用两种或更多种缩放比例的图像金字塔方法。
[0046]
优选地,方法300还包括步骤301’。在步骤301’中,在进行对象识别之前,先使用按照不同比例缩放的图像来训练相对应的检测模型,使得训练后的检测模型对于检测特定缩放比例的图像中的具有特定特征的对象而言最优。具体地,在本实施方式中,例如将所有图像的大小缩放为1.5x、1.0x、0.5x,并且将每个缩放后的图像分割成1024
×
1024、重叠度为256的图像,然后使用每个比例下的图像来训练一种检测模型。
[0047]
优选地,在使用同种网络结构的集成策略的情况下,例如使用如图2a所示的检测模型r2cnn ,可以按照图像的不同缩放比例版本来对用于对应输入尺度的检测模型设置不同的参数,例如上面的等式(1)、等式(2)和等式(3)中的参数λ
i
,以进一步提高识别精度。
[0048]
在训练好检测模型之后,可以将具有不同比例的图像分别输入用于对应输入尺度的检测模型,以检测图像中的目标对象。如图4所示,将0.5x比例的图像输入0.5x的r2cnn 、将1.0x比例的图像输入1.0x的r2cnn 并且将1.5x的图像输入1.5x的r2cnn 。
[0049]
接着,在步骤302中,基于要识别的对象的特征,对一个或更多个检测模型的检测结果进行过滤。具体地,在本实施方式中,由于使用了三个模型,因此分别过滤放大图像在大物体上的检测结果并且过滤缩小图像在小物体上的检测结果;对于尺寸不变的图像,只保留其在中等尺度物体上的检测结果。例如,可以使用物体面积作为检测阈值来进行过滤,具体参数见下。
[0050]
thre1=700*700像素,thre3=200*200像素thre
21
=100*100像素,thre
22
=800*800像素
[0051]
应理解,虽然上面的示例是基于物体面积来设置检测阈值的,但是本发明不限于此。例如,也可以基于物体的类别来设置检测阈值,或者基于物体的形状来设置检测阈值。
[0052]
最后,在步骤303中,融合一个或更多个检测模型的过滤后的检测结果。具体地,在本实施方式中,可以采用例如nms来进行融合:
[0053]
det
final
=nms(结果1(面积<thre1),结果2(thre
21
<面积<thre
22
),结果3(thre3<面积))。
[0054]
应理解,本发明不限于采用nms来进行融合,而是也可以采用任何其他合适的方法,例如但不限于r-nms、soft-nms、skew-nms、mask-nms等。
[0055]
图5a和5b示出了通过用于识别图像中的对象的方法300所获得的检测效果。
[0056]
如图5a所示,对于缩放比例为0.5x的情况,可以看到其对于小物体的检测效果不理想。这是因为在特征提取过程中,小物体的尺寸被进一步压缩,从而导致其位置及特征表达失真。
[0057]
如图5b所示,对于缩放比例为1.5x的情况,可以看到其对于大物体的检测效果不理想。这是因为物体的尺寸超过其检测范围,从而导致检测不准确。然而,这个大物体的检测结果在缩放比例为0.5x的情况下检测效果很好。
[0058]
表1是采用map的评价指标分别对用于不同输入尺度的检测模型进行评价的结果。从表1中可以看出,根据本发明的方法能明显提升整体性能。
[0059]
方法hbbobbr2cnn _0.5x58.1248.81r2cnn _1.0x72.9468.33r2cnn _1.5x73.0969.38模型集成74.1569.31带过滤的模型集成74.5970.64
[0060]
表1
[0061]
因此,通过以上结合图2a至图4描述的用于识别图像中的对象的方法300,使得提高对图像中的大尺度变化范围的物体的检测精度。
[0062]
以上所讨论的方法可以完全由计算机可执行的程序来实现,也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时,或者将计算机可执行的程序载入可运行程序的硬件设备时,则实现了下文将要描述的用于识别图像中的对象的设备。下文中,在不重复上文中已经讨论的一些细节的情况下给出这些设备的概要,但是应当注意,虽然这些设备可以执行前文所描述的方法,但是所述方法不一定采用所描述的设备的那些部件或不一定由那些部件执行。
[0063]
图6示出了根据一个实施方式的用于识别图像中的对象的设备600,其包括检测装置601、过滤装置602和融合装置603。检测装置601用于将图像的不同缩放比例版本分别输入一个或更多个检测模型,以检测所述图像中的对象。过滤装置602用于基于要识别的对象的特征,对所述一个或更多个检测模型的检测结果进行过滤。融合装置603用于融合所述一个或更多个检测模型的过滤后的检测结果。
[0064]
根据一个优选的实施方式,用于识别图像中的对象的设备600还包括训练装置601’,其用于用具有特定缩放比例的图像来训练一个或更多个检测模型中之一,使得该被训练的检测模型对于检测具有特定缩放比例的图像中的具有特定特征的对象而言最优。
[0065]
图6所示的用于识别图像中的对象的设备600对应于图3所示的用于识别图像中的对象的方法300。因此,用于识别图像中的对象的设备600中的各装置的相关细节已经在对图3的用于识别图像中的对象的方法300的描述中详细给出,在此不再赘述。
[0066]
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
[0067]
图7是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。如图7所示,中央处理单元(cpu)701根据只读存储器(rom)702中存储的程序或从存储部分708加载到随机存取存储器(ram)703的程序执行各种处理。在ram 703中,也根据需要存储当cpu 701执行各种处理等等时所需的数据。cpu 701、rom 702和ram 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
[0068]
下述部件连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(crt)、液晶显示器(lcd)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如lan卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可移除介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
[0069]
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可移除介质711安装构成软件的程序。
[0070]
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质711。可移除介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者,存储介质可以是rom 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
[0071]
本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
[0072]
相应地,被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
[0073]
通过以上描述,本公开的实施方式提供了以下的技术方案,但不限于此。
[0074]
附记1.一种用于识别图像中的对象的方法,包括:
[0075]
将图像的不同缩放比例版本分别输入一个或更多个检测模型,以检测所述图像中的对象;
[0076]
基于要识别的对象的特征,对所述一个或更多个检测模型的检测结果进行过滤;

[0077]
融合所述一个或更多个检测模型的过滤后的检测结果。
[0078]
附记2.根据附记1的方法,还包括用具有特定缩放比例的图像来训练所述一个或更多个检测模型中之一,使得该被训练的检测模型对于检测具有所述特定缩放比例的图像中的具有特定特征的对象而言最优。
[0079]
附记3.根据附记1或2的方法,其中,所述特征是要识别的对象的大小的范围。
[0080]
附记4.根据附记1或2的方法,其中,所述一个或更多个检测模型是相同类型的模型。
[0081]
附记5.根据附记4的方法,其中,所述一个或更多个检测模型按照所述图像的不同缩放比例版本而被分别设置不同的参数。
[0082]
附记6.根据附记4的方法,其中,所述一个或更多个检测模型是旋转区域卷积神经网络模型r2cnn、快速区域卷积神经网络模型fast rcnn、掩膜区域卷积神经网络模型mask-rcnn、特征金字塔网络fpn、空间金字塔池化网络sppnet、单次多盒检测ssd、yolo或者retinanet。
[0083]
附记7.根据附记1或2的方法,其中,所述一个或更多个检测模型是不同类型的模型。
[0084]
附记8.根据附记7的方法,其中,所述一个或更多个检测模型是旋转区域卷积神经网络模型r2cnn、快速区域卷积神经网络模型fast-rcnn、掩膜区域卷积神经网络模型mask-rcnn、特征金字塔网络fpn、空间金字塔池化网络sppnet、单次多盒检测ssd、yolo和retinanet中的两种或更多种。
[0085]
附记9.根据附记1或2的方法,其中,利用以下算法来融合过滤后的检测结果:非极大值抑制nms、旋转非极大值抑制r-nms,软非极大值抑制soft-nms,倾斜非极大值抑制skew-nms或者掩膜非极大值抑制mask-nms。
[0086]
附记10.根据附记1或2的方法,其中,所述图像是遥感图像。
[0087]
附记11.一种用于识别图像中的对象的设备,包括:
[0088]
检测装置,其被配置成将图像的不同缩放比例版本分别输入一个或更多个检测模型,以检测所述图像中的对象;
[0089]
过滤装置,其被配置成基于要识别的对象的特征,对所述一个或更多个检测模型的检测结果进行过滤;和
[0090]
融合装置,其被配置成融合所述一个或更多个检测模型的过滤后的检测结果。
[0091]
附记12.根据附记11的设备,还包括训练装置,其被配置成用具有特定缩放比例的图像来训练所述一个或更多个检测模型中之一,使得该被训练的检测模型对于检测具有所述特定缩放比例的图像中的具有特定特征的对象而言最优。
[0092]
附记13.根据附记11或12的设备,其中,所述特征是要识别的对象的大小的范围。
[0093]
附记14.根据附记11或12的设备,其中,所述一个或更多个检测模型是相同类型的模型。
[0094]
附记15.根据附记14的设备,其中,所述一个或更多个检测模型按照所述图像的不同缩放比例版本而被分别设置不同的参数。
[0095]
附记16.根据附记14的设备,其中,所述一个或更多个检测模型是旋转区域卷积神
经网络模型r2cnn、快速区域卷积神经网络模型fast rcnn、掩膜区域卷积神经网络模型mask-rcnn、特征金字塔网络fpn、空间金字塔池化网络sppnet、单次多盒检测ssd、yolo或者retinanet。
[0096]
附记17.根据附记11或12的设备,其中,所述一个或更多个检测模型是不同类型的模型。
[0097]
附记18.根据附记17的设备,其中,所述一个或更多个检测模型是旋转区域卷积神经网络模型r2cnn、快速区域卷积神经网络模型fast-rcnn、掩膜区域卷积神经网络模型mask-rcnn、特征金字塔网络fpn、空间金字塔池化网络sppnet、单次多盒检测ssd、yolo和retinanet中的两种或更多种。
[0098]
附记19.根据附记11或12的设备,其中,利用以下算法来融合过滤后的检测结果:非极大值抑制nms、旋转非极大值抑制r-nms,软非极大值抑制soft-nms,倾斜非极大值抑制skew-nms或者掩膜非极大值抑制mask-nms。
[0099]
附记20.一种计算机可读存储介质,所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序:
[0100]
将图像的不同缩放比例版本分别输入一个或更多个检测模型,以检测所述图像中的对象;
[0101]
基于要识别的对象的特征,对所述一个或更多个检测模型的检测结果进行过滤;和
[0102]
融合所述一个或更多个检测模型的过滤后的检测结果。
[0103]
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0104]
以上虽然结合附图详细描述了本发明的实施方式,但是应当明白,上面所描述的实施方式只是被配置为说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜