一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种目标识别方法及装置与流程

2022-05-06 08:29:32 来源:中国专利 TAG:

一种目标识别方法及装置
1.交叉引用
2.本技术要求于2020年10月14日提交中国专利局、申请号为202011097641.5、申请名称为“一种图像识别方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本技术中。
技术领域
3.本技术涉及通信技术领域,尤其涉及一种目标识别方法及装置。


背景技术:

4.目前,基于图像的目标识别具备较为广泛的应用前景,例如,在违章车辆管理、商品识别、濒危物种保护、交通监控与侦缉等场景中,均会涉及到基于图像的目标识别。
5.以违章车辆管理为例,基于图像的目标识别可以通过道路上或一些场所的图像,识别违章车辆,获取该违章车辆的车辆信息,如车辆的车牌、车辆的车标等。
6.但由于现实情况的复杂性,如拍摄图像当时的光照、道路的路况以及违章车辆周围的环境的影响,可能会导致图像中违章车辆存在被遮挡的情况,使得不能基于图像进行较为准确的目标识别,也即无法准确识别到违章车辆,无法获取该违章车辆较为准确的车辆信息。


技术实现要素:

7.本技术提供一种目标识别方法及装置,用以提升目标识别的准确率。
8.第一方面,本技术实施例提供了一种目标识别的方法,该方法可以由目标识别装置来执行,在该方法中,目标识别装置获取输入图像,该输入图像中包括待识别的目标,为了能够识别出该目标,目标识别装置可以先确定该输入图像的区分性区域,输入图像的区分性区域为输入图像中能够指示目标所属类别的区域的子集;目标识别装置在确定了该区分性区域后,可以通过遮挡输入图像中的该区分性区域,获得第一特征图像,也就是说,该第一特征图像是输入图像中区分性区域被遮挡的图像。之后,目标识别装置可以根据第一特征图像识别目标。
9.通过上述方法,目标识别装置在进行目标识别时,考虑到了输入图像中区分性区域被遮挡的情况,获取在该种情况下的第一特征图像,可以对该第一特征图像中除区分性区域之外的区域进行分析,确定目标所属的类别,这种目标识别的过程中通过加强分析区分性区域之外的区域,达到准确识别目标的效果,保证目标识别的准确率。
10.在一种可能的实现方式中,目标识别装置除了通过遮挡输入图像的区分性区域,还可以不对该输入图像中的区分性区域进行遮挡,如正常显示该区分性区域,或突出显示该区分性区域,生成第二特征图像。也就是说,该第二特征图像为输入图像的区分性区域未被遮挡的特征图像;当在进行目标识别时,目标识别装置可以根据第一特征图像和第二特征图像识别目标。
11.通过上述方法,目标识别装置既考虑到区分性区域被遮挡的情况又考虑区分性区域不被遮挡的情况,获得第一特征图像和第二特征图像,分别对应了输入图像中可能存在的遮挡(或因为拍摄环境影响引起的图像不能呈现真实状况)的情况以及输入图像不存在遮挡(或输入图像能够呈现真实状况),根据该第一特征图像和第二特征图像进行目标识别,可以减少遮挡或环境影响,进而提升目标识别的准确率。
12.在一种可能的实现方式中,目标识别装置在确定区分性区域时,可以根据输入图像的空间特征确定区分性区域。例如,选取输入图像中空间特征大于阈值,或处于某一区间范围内的区域作为区分性区域。本技术实施例并不限定根据输入图像的空间特征确定区分性区域的方式。
13.通过上述方法,通过输入图像的空间特征可以确定出更加具有区分性,更能够表征目标区别于其他目标所属类别的区分性区域。
14.在一种可能的实现方式中,目标识别装置在根据输入图像的空间特征确定区分性区域时,可以为输入图像的空间特征配置分值;例如,可以利用注意力模型为输入图像的空间特征配置分值,将空间特征的分值大于阈值的区域作为区分性区域。
15.通过上述方法,空间特征的分值越大,说明包含的信息量更多,确定的区分性区域更具备区分性。
16.在一种可能的实现方式中,目标识别装置在根据输入图像的区分性区域生成第一特征图像时,可以为输入图像中的像素点配置第一系数值,例如,可以将输入图像中属于区分性区域的像素点的第一系数值配置为较小的第一值,其余像素点的第一系数值配置为较大的第二值,各个像素点的第一系数值构成的图为第一系数图;之后,再将第一系数图作用到输入图像上(在具体应用时,可以作用到该输入图像的特征图像或经过处理后的该输入图像的特征图像,如实施例中的fout或b上),生成第一特征图像。
17.通过上述方法,将系数图作用到输入图像上可以降低输入图像中区分性区域的各个像素值,实现对区分性区域的遮挡,进而可以较为方便的获得第一特征图像。
18.在一种可能的实现方式中,目标识别装置根据输入图像的区分性区域生成第二特征图像,可以为输入图像中的像素点配置第二系数值,例如,可以将输入图像中属于区分性区域的像素点的第二系数值配置为较大的第一值,其余像素点的系数配置为较小的第二值,又例如,将输入图像中属于区分性区域的像素点的第二系数值配置为像素点的空间特征的分值。各个像素点的第二系数值构成的图为第二系数图;之后,再将第二系数图作用到输入图像上(在具体应用时,可以作用到该输入图像的特征图像或经过处理后的输入图像的特征图像上,如实施例中的fout或b上),生成第二特征图像。
19.通过上述方法,目标识别装置可以通过多种不同的方式改变输入图像中区域分区域的各个像素值,实现对区分性区域的突显,进而,可以获得第二特征图像。
20.在一种可能的实现方式中,目标识别装置根据第一特征图像和第二特征图像识别目标时,可以在通道维度上对第一特征图像和第二特征图像进行聚合、降维,生成第三特征图像;之后,再基于第三特征图像,确定多个感受野不同的候选特征图像,其中,每个候选特征图像的大小相同;之后,将多个候选特征图像融合为第四特征图像;根据第四特征图像识别目标。
21.通过上述方法,第四特征图像是根据感受野不同的多个候选特征图像融合而成
的,这样获得的第四特征图像的感受野中能够涵盖更多的利于目标识别的有效信息,减少不利于目标识别的无效信息,使得目标识别装置通过第四特征图像可以更加准确的识别目标。
22.在一种可能的实现方式中,目标识别装置在第一特征图像和第二特征图像在通道维度上聚合,生成第三特征图像时,可以先在通道维度上将第一特征图像和第二特征图像聚合、降维,生成聚合图像;该聚合图像可以与第一特征图像或第二特征图像大小相同,之后,在通道维度上为聚合图像配置权重,生成第三特征图像,为候选特征图像配置的权重可以达到如下效果:在区分性区域在输入图像中被遮挡时聚合图像中属于第一特征图像的部分在通道上的权重大于聚合图像中属于第二特征图像的部分在通道上的权重、或在区分性区域在输入图像中未被遮挡时聚合图像中属于第一特征图像的部分在通道上的权重小于聚合图像中属于第二特征图像的部分在通道上的权重。
23.通过上述方法,利用在通道维度的权重配置,能够在区分性区域遮挡的情况下,突出聚合图像中属于第二特征图像的部分,在区分性区域未被遮挡的情况下,可以突出聚合图像中属于第一特征图像的部分,使得第三特征图像在通道维度上的权重能够更加符合输入图像中区分性区域被遮挡或未被遮挡的状态。
24.在一种可能的实现方式中,目标识别装置在基于第三特征图像,确定多个候选特征图像,可以将多个不同的卷积核分别作用在第三特征图像中,通过扩张分离卷积(也即在第三特征图像中通过填充0)获得多个候选特征图像。
25.通过上述方法,目标识别装置利用扩张分离卷积获得多个大小相同的候选特征图像,便于后续将该多个候选特征图像进行融合。
26.在一种可能的实现方式中,目标识别装置将多个的候选特征图像融合为第四特征图像时,可以为每个候选特征图像配置权重,该权重可以是通过预先的学习、以及训练获得的,之后,基于每个候选特征图像和每个候选特征图像对应的权重,获得第四特征图像。
27.通过上述方法,为每个候选特征图像配置对应的权重,可以后续融合生成第四特征图像时,各有侧重的保留各个候选特征图像中的信息,以使得该第四特征图像的感受野能够涵盖更多利于目标识别的有效信息。
28.第二方面,本技术实施例还提供了一种目标识别装置,该目标识别装置具有实现上述第一方面的方法实例中行为的功能,有益效果可以参见第一方面的描述此处不再赘述。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述装置的结构中包括获取单元、图像生成单元、识别单元以及确定单元,这些单元可以执行上述第一方面方法示例中的相应功能,具体参见方法示例中的详细描述,此处不做赘述。
29.第三方面,本技术实施例还提供了一种装置,该装置具有实现上述第一方面的方法实例中行为的功能,有益效果可以参见第一方面的描述此处不再赘述。所述装置的结构中包括处理器和存储器,所述处理器被配置为支持所述目标识别装置执行上述第一方面方法中相应的功能。所述存储器与所述处理器耦合,其保存所述通信装置必要的程序指令和数据。所述通信装置的结构中还包括通信接口,用于与其他设备进行通信。
30.第四方面,本技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面以及第一方面的各个
可能的实现方式中所述的方法。
31.第五方面,本技术还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面以及第一方面的各个可能的实现方式中所述的方法。
32.第六方面,本技术还提供一种计算机芯片,所述芯片与存储器相连,所述芯片用于读取并执行所述存储器中存储的软件程序,执行上述第一方面以及第一方面的各个可能的实现方式中所述的方法。
附图说明
33.图1为本技术提供的一种特征图像的示意图;
34.图2为本技术提供的一种系统的架构示意图;
35.图3a为本技术提供的一种目标识别方法示意图;
36.图3b为本技术提供的另一种目标识别方法示意图;
37.图4为本技术提供的区分性区域确定方法的示意图;
38.图5a为本技术提供的一种利用注意力模型为空间特征配置分值的方法示意图;
39.图5b为本技术提供的一种利用注意力模型为空间特征和时间特征配置分值的方法示意图;
40.图6a为本技术提供的一种生成第一特征图像的方法示意图;
41.图6b为本技术提供的一种第一特征图像的效果示意图;
42.图7a为本技术提供的一种生成第二特征图像的方法示意图;
43.图7b为本技术提供的一种第二特征图像的效果示意图;
44.图8为本技术提供的一种将第三特征图像转换为第四特征图像的示意图;
45.图9为本技术提供的一种生成第六特征图像的方法示意图;
46.图10a为本技术提供的一种resnet50的结构示意图;
47.图10b为本技术提供的一种cnn的结构示意图;
48.图11为本技术提供的一种目标识别装置的结构示意图;
49.图12为本技术提供的一种装置示意图。
具体实施方式
50.在对本技术实施例提供的一种目标识别方法以及设备进行说明之前,先对本技术实施例设计的一些概念进行说明:
51.1、图像特征,特征图像
52.图像特征用于表征图像的属性,图像特征的类型有很多种,图像特征可以分为空间特征以及视觉特征,不同的图像特征可以从不同的角度来对图像进行表征。图像特征可以量化为数值,该数值即为特征值。
53.图像中不同区域的图像特征是不同的,也即图像中不同区域对应不同的特征值,由该图像的各个区域对应的特征值构成的图像即为特征图像。
54.2、通道维度、空间维度、视觉特征以及空间特征
55.如图1所示,一个特征图像可以抽象为空间中的一个长宽高分别为c、h以及w的立方体,其中,c所在方向为通道维度,w和h所在的平面为空间维度。
56.从图1中可知,该特征图像在通道维度的长度为c,可以理解为该特征图像有c个通道。视觉特征是描述通道维度上的特征,一个通道可以对应一个视觉特征。对于不同的特征图像,通道的数量可能不同。视觉特征的类型有许多,如颜色特征、纹理特征。
57.该特征图像在空间维度上展示了图像中各个人或物之间的距离或关系,空间特征描述是空间维度上的特征。空间特征上的一个特征值与图像中一个区域(由多个像素点构成)对应,用于描述该区域在空间维度上的特征。
58.3、区分性区域
59.区分性区域用于区分不同类别的目标,是可以表征区别于其他目标所属类别的差异的区域的子集,也即在一个图像中能够表征区别于其他目标所属类别的差异的区域有许多,可以从这些区域中选择一部分区域作为区分性区域,也即将这些区域的一个子集作为区分性区域。例如,对于车辆的图像中,车头、车标、后视灯以及轮胎所在的区域均是能够表征区别于其他目标所属类别的差异的区域,可以将这些区域中车头、车标、以及后视灯所在的区域作为区分性区域。
60.区分性区域的确定方法有许多种,例如,可以采用本技术实施例中提供的注意力模型确定该区分性区域,也可以对特征图像中各个像素点进行聚类,将各个像素点的值大于设定值区域作为区分性区域,也可以将各个像素点的值处于预设范围的区域作为区分性区域。
61.本技术实施例中的区分性区域适应于粗粒度的目标识别(也即识别目标所属的大类别,如植物、动物、人的识别),也适用于细粒度的目标识别(也即识别目标所属的小类型,例如识别不同鸟所属的类别)。以细粒度的目标识别场景为例,区分性区域是能从同一大类别中将该图像中的目标所属的类别区分开来的区域。简单来说,譬如区分鸟这个大类别下的不同鸟类(鹦鹉、麻雀、黄鹂等),同一大类别下的很多鸟类在外观和体积上极其相似仅存在着极其微小的差异,这些差异大多存在于鸟的喙、爪子、羽毛颜色、眼睛、尾巴等区域,而这些区域被称为区分性区域,这些区域是能够将该鸟区分出来的区域。
62.4、聚合、降维
63.在本技术实施例中可以在通道维度上对多个特征图像进行聚合,在通道维度上的聚合是指在将两个特征图像在通道维度上叠加。
64.在本技术实施例中还可以在通道维度上对特征图像进行降维,在通道维度上的降维是指缩小特征图像在通道维度上的长度,使降维后的特征图像在通道维度的长度满足特定需求。在本技术实施例中,当在通道维度上对多个特征图像进行聚合时,聚合后的图像在通道维度上的长度等于该多个特征图像在通道维度上长度之和。为了保证输出的图像与聚合前的特征图像在通道维度上的长度是一致的,在通道维度上对多个特征图像聚合后,可以再进行降维,以获得与该多个特征图像大小一致的特征图像。
65.5、感受野(receptive field)
66.感受野是指特征图像上的像素点在原始图像上映射的区域大小。
67.6、扩张分离卷积、扩张率
68.扩张分离卷积是指扩张卷积和深度可分离卷积的结合体。其中,扩张卷积(dilated convolution)也被称为空洞卷积或者膨胀卷积,是在标准的卷积核中注入空洞(填0),以此来增加感受野(reception field)。相比原来的正常卷积操作,扩张卷积多了一
个参数:扩张率(dilation rate,也可以简写为rate)。扩张率指的是卷积核的点之间的0的数量,扩张卷积不仅会一定的扩张率扩大卷积核的尺寸,还会通过填充(padding)0值的操作,填充特征图,使得卷积后的图像与卷积前的图像具有相同的尺寸却具有更大的感受野。
69.深度可分离卷积是一种轻量级并且可以分别获取通道和空间上的信息的卷积操作。相比于标准卷积,这种深度可分离卷积的参数量和计算成本要低的多,深度可分离卷积分为深度卷积(depthwise convolution)与逐点卷积(pointwise convolution)两部分操作。对于depthwise convolution,和标准卷积不同,此卷积中一个卷积核对一个通道卷积,各个通道都有对应的卷积核进行操作。pointwise convolution中每个卷积核能够将多个通道的信息有效的融合并生成一张特征图像,这样多个卷积核对不同的特征进行提取得到多维的特征输出。总的说来,depthwise convolution可以单独对每个通道进行操作,独立的获取各个通道的信息,于是便出现了不同通道的相同空间位置之间的信息没有交互的情况,为此需要pointwise convolution来完成不同通道之间的信息交互。
70.扩张分离卷积是将扩张卷积应用于深度可分离卷积过程中,使用扩张卷积先对各个通道进行深度卷积,然后再用逐点卷积融合各个通道的信息,这种扩张分离卷积操作能够在不降低分类精度的前提下实现减少计算量和参数量。
71.如图2所示为本技术实施例所适用的一种系统架构图,该系统中包括图像收集装置200、目标识别装置100。
72.图像收集装置200用于收集图像,图像收集装置200在收集到图像之后,将收集到的图像反馈给目标识别装置100。在不同的应用场景中,图像收集装置200部署的位置以及图像收集装置200的类型会不同。例如,在违章车辆识别的场景中,图像收集装置200可以是部署在道路两侧的摄像装置,也可以是部署在交通路口的监控装置。图像收集装置200可以拍摄道路的图像,将拍摄到的图像发送给目标识别装置100。又例如,在物种类别识别场景中,图像收集装置200可以是部署在森林、或海洋的摄像装置,图像收集装置200可以拍摄森林中各种动植物的图像,或海洋中各种动植物的图像,将拍摄到的图像发送给目标识别装置100。
73.目标识别装置100能够接收来自图像收集装置200的图像,执行本技术实施例提供的目标识别方法。本技术实施例并不限定目标识别装置100部署的位置,例如该目标识别装置100可以部署在边缘数据中心,如部署在边缘数据中心的边缘计算节点(multi-access edge computing,mec),也可以部署在云数据中心,还可以部署在终端计算设备上。目标识别装置100也可以分布式的部署在边缘数据中心、云数据中心以及终端计算设备中的部分或全部环境中。
74.目标识别装置100可以为一个硬件装置,如服务器、服务集群、终端计算设备,也可以为一个软件装置,具体可以为运行在硬件计算设备上的软件模块。
75.在本技术实施例中,目标识别装置100在进行目标识别时,可以进行粗粒度的目标识别,也可以对目标进行更细粒度的识别。举例来说,粗粒度的目标识别可以理解为目标识别装置100能够对目标进行简单的分类,对目标所属的大类别进行识别,例如,目标识别装置100可以识别图像中的人类、车辆、动物、植物。细粒度的目标识别可以理解为目标识别装置100能够对目标进行精细的分类,对目标所属的小类别进行识别,例如,目标识别装置100可以识别图像中的车辆的车型、品牌等,又例如,目标识别装置100可以识别图像中不同鸟
所属的种类。
76.另外,目标识别装置100除了接收图像收集装置200发送的图像,还可以接收来自其他装置的数据,以违章车辆识别的场景为例,目标设备装置100还可以接收来自路侧单元、雷达测量的数据。其中,路侧单元(road side unit,rsu)可以对经过该路侧单元的车辆进行识别,获取该车辆的信息,路侧单元可以将获取的车辆的信息发送给目标识别装置100,目标识别装置100在对图像收集装置发送的图像进行目标识别后,还可以根据路侧单元发送的车辆的信息对图像中的目标进行标识。雷达可以进行测距,测量车辆之间的距离、车辆到某一物体的距离。雷达可以将测量到的信息发送边缘感知单元,之后再由边缘感知单元将该信息发送至目标识别装置,目标识别装置100在对图像收集装置200发送的图像进行目标识别后,还可以将雷达测量到的信息标注在图像中的目标上。
77.目标识别装置100除了接收数据(如来自图像收集装置、路侧单元、或雷达的数据),将识别后的信息(如该目标的信息,或标注了目标以及来自路侧单元、雷达等的信息的图像)发送给其他设备,例如在违章测量识别的场景中,目标识别装置可以识别输入图像中的违章车辆,获取该违章车辆的信息,将该违章车辆的信息发送至交通指挥中心系统。
78.下面结合附图,对本技术实施例提供的一种目标识别方法进行说明,参见图3a,该方法包括:
79.步骤101:目标识别装置100从图像收集装置200获取输入图像,该输入图像包括待识别的目标。
80.步骤102:目标识别装置100通过遮挡该输入图像中的区分性区域,获取第一特征图像,也就是说,第一特征图像是输入图像中的区分性区域被遮挡的特征图像。在该第一特征图像中该区分性区域被隐藏了,在第一特征图像中区分性区域的像素点的特征值可以明显比其他区域的像素点的特征值小,如区分性区域的像素点的特征值为零。
81.区分性区域的确定方式可以参见如图3b所示的实施例中步骤202中的相关说明,目标识别装置100获取第一特征图像的方式可以参见如图3b所示的实施例中步骤203~步骤204的相关说明。
82.步骤103:目标识别装置100利用该第一特征图像识别该输入图像的目标。
83.目标识别装置100进行目标识别的过程可以参见如图3b所示的实施例中步骤207~步骤211的相关说明。
84.为了能够在基于图像进行目标识别的过程中,在被识别的图像中目标存在遮挡或因为拍摄环境影响引起的图像不能呈现真实状况的情况下,仍能够基于该图像进行准确的目标识别,获取该图像中目标的相关信息。在本技术实施例中,在获取输入图像之后,利用该输入图像中的区分性区域产生第一特征图像,其中,第一特征图像是该区分性区域被遮挡的特征图像。在获取这第一特征图像之后,再根据该第一特征图像识别该目标。从上述过程可知,在本技术实施例中考虑了区分性区域被遮挡的情况,对应于被识别的图像中存在遮挡(或因为拍摄环境影响引起的图像不能呈现真实状况)的情况。基于该第一特征图像,能够较为准确的识别出该输入图像中的目标,减少遮挡或者环境原因对目标识别的影响,提高识别的准确率。
85.需要说明的是,本技术实施例提供的目标识别过程主要涉及深度学习领域,用到的模块或者神经网络可以先训练再使用,也即先利用训练集对模块或者神经网络进行训
练,不断调整该模块或者神经网络的参数,使得该模块或者神经网络可以输出较为准确的结果。在训练完成后,该模块或者神经网络可以投入使用,该模块或神经网络可以对输入的数据进行处理,输出结果,如输入特征图像。但是训练以及使用的过程中对输入的数据进行处理的过程是一致的,区别在于训练过程中需要根据每次输出的结果对该模块或者神经网络的参数进行调整,使用的过程倾向于通过该模块或神经网络获取输出,下面涉及的方法以使用为例,介绍本技术实施例提供的目标识别方法。
86.参见图3b,为了确保目标识别的效率,本技术实施例以利用第一特征图像和第二特征图像识别目标为例,该方法具体包括:
87.步骤201:目标识别装置100获取输入图像,这里并不限定输入图像的类型。该输入图像可以为图像收集装置200采集后直接发送的图像,也可以为基于图像收集装置200采集的图像处理之后的图像。
88.步骤202:目标识别装置100确定输入图像中的区分性区域。
89.在计算图像中的区分性区域之前首先要对图像进行特征提取以获取该输入图像的特征图像。本技术实施例并不限定该目标识别装置100获取该输入图像的特征图像的方式,例如,目标识别装置100可以利用resnet50神经网络或vgg16网络获取该输入图像的特征图像,该输入图像的特征图像可以是resnet50神经网络的瓶颈部分的网络层、vgg16网络中的中高网络层输出的特征图像,如vgg16网络的conv3_x、conv4_x、conv5_x以及conv6。
90.本技术并不限定目标识别装置100确定区分性区域的方法,凡是能够确定区分性区域的方式均适用于本技术实施例。下面对本技术实施例提供的一种确定区分性区域的方法进行说明,如图4所示,该方法包括:
91.步骤301、目标识别装置100确定该输入图像的空间特征。
92.目标识别装置100获取该输入图像的特征图像后,该输入图像的特征图像在空间维度上各个像素点的值表征了该输入图像的空间特征,各个像素点的值即为特征值。
93.步骤302、目标识别装置100可以基于注意力模型,为空间特征配置分值。
94.注意力模型能够从一个特定的角度,衡量多个信息,确定每个信息的价值。在本技术实施例中,目标识别装置100在执行步骤302时,可以利用注意力模型对该输入图像对应的特征图像的空间特征进行衡量,确定各个空间特征的价值,如确定该空间特征所包含的信息量,对各个空间特征配置分值。例如,对于包含信息量丰富的空间特征配置较高的分值,包含信息量较少的空间特征配置较低的分值。
95.可选的,目标识别装置100除了为空间特征配置分值之外,还可以为视觉特征配置分值。也即在通道维度上,为各个视觉特征进行打分,配置分值。
96.目标识别装置100为视觉特征配置分值的方式与目标识别装置100为空间特征配置分值的方式类似,也可以采用注意力模型为视觉特征配置分值。为空间特征配置分值所采用的注意力模型以及为视觉特征配置分值所采用的注意力模型是两个相互独立的注意力模型。
97.如图5a所示,为目标识别装置100利用注意力模型为空间特征进行打分,配置分值的流程图。
98.图5a中,对于输入图像的特征图像fin,可以采用注意力模型,为该输入图像的空间特征配置分值,该分值可以直接配置在输入图像的特征图像上,也即利用该分值与特征
图像中对应的特征值相乘,获取特征图像b。特征图像b和fin的大小相同,特征图像b是在fin上作用了空间特征的分值之后的特征图像。该特征图像b可以是步骤204和步骤206中第一系数图和第二系数图作用的特征图像。
99.如图5b所示,为目标识别装置100利用两个独立的注意力模型为空间特征和视觉特征进行打分,配置分值的流程图。
100.图5b中,对于输入图像的特征图像fin,可以同步的采用两个注意力模型,为该输入图像的空间特征和时间特征配置分值,该为空间特征配置的分值可以直接配置在输入图像的特征图像上,也即利用该分值与特征图像中对应的特征值相乘,获取特征图像a;为该输入图像的视觉特征的分值可以直接配置在输入图像上,获取特征图像b。之后,将特征图像a和特征图像b进行聚合、降维,获得特征图像fout。fin和fout的大小相同,fout是在fin上作用了空间特征的分值和视觉特征的分值之后的特征图像。该特征图像fout可以是步骤204和步骤206中第一系数图和第二系数图作用的特征图像。
101.需要说明的是,每个视觉特征或空间特征的价值在于对于目标识别(如细粒度的目标识别或粗粒度的目标识别)分类的贡献,有些视觉特征或空间特征可以较为直接的指示目标的属性(如类别),对于目标识别的贡献比较大,有些视觉特征或空间特征并不能突显出目标的属性,对于目标识别的贡献比较小。在本技术实施例中,以基于空间特征确定区分性区域为例,在空间维度上使用注意力模型通过对分值的配置实现增强对目标识别有益的空间特征的表达,减弱对目标识别影响不大的空间特征的表达,使得获取的有效的特征表达从而提高目标识别的准确度。
102.步骤303、目标识别装置100根据输入图像中空间特征的分值确定区分性区域,本技术实施例并不限定目标识别装置100执行步骤303的方式,例如,目标识别装置100可以将输入图像中空间特征的分值大于阈值的区域作为区分性区域。该阈值可以为经验值,也可以是通过仿真、模拟等方式确定的值。也可以将输入图像中空间特征的分值大于处于特定范围的区域作为区分性区域,该特定范围可以是固定值,也可以是人为设置的值。
103.在确定了该输入图像中的区分性区域后,可以分别确定第一特征图像(参见步骤203~204)以及第二特征图像(参见步骤205~206)。
104.步骤203:目标识别装置100遮挡该输入图像中的区分性区域,为该输入图像中的各个像素点配置第一系数值,各个像素点的第一系数值构成第一系数图。
105.为了遮挡该输入图像中的区分性区域,可以将该输入图像中区分性区域中的像素值的配置较低的第一系数值,为除了区分性区域中像素点的其余像素点配置较高的第一系数值。
106.示例性的,对于区分性区域内的像素点fi,需要遮挡该像素点fi,可以配置该像素点对应的第一系数值为零,若该像素点空间特征的分值小于阈值,该像素点的第一系数值被置1,也即:
[0107][0108]
其中,att(fi)为基于注意力模型确定的该像素点空间特征的分值,t为阈值。
[0109]
步骤204:目标识别装置100将第一系数图作用到输入图像的特征图像上,获得第一特征图像。目标识别装置100也可以将第一系数图作用到图5a所示的特征图像b或特征图
像fout上,这里仅是以将第一系数图作用到输入图像的特征图像为例进行说明。
[0110]
目标识别装置100将输入图像的特征图像上每个像素点的值与第一系数图上该像素点的第一系数值相乘,获得第一特征图像。该第一特征图像的尺寸为c*h*w,其中,c为通道的长度,h为空间高度,w为空间宽度。
[0111]
如图6a所示为目标识别装置100生成第一特征图像的流程图(其中,利用注意力模型对输入图像的空间特征打分、确定区分性区域的部分对应于步骤301-步骤303,其中,生成第一系数图的部分对应于步骤203),目标识别装置100利用注意力模型对输入图像的空间特征进行打分,配置分值(用于确定区分性区域),之后再基于各个像素点的空间特征的分值生成第一系数图,之后,将第一系数图作用到输入图像的特征图像上,生成第一特征图像。
[0112]
如图6b所示,为第一特征图像的效果图,输入图像中的区分性区域可以为车辆的后视镜、车头灯、以及车牌。遮挡了这些区分性区域后,这些区域性区域在输入图像中变为黑色,其他区域正常显示。
[0113]
可选的,目标识别装置100还可以不遮挡该输入图像中的区分性区域,获取第二特征图像,第二特征图像是输入图像中的区分性区域不被遮挡的特征图像,在该第二特征区域中该区分性区域可以正常显示,该第二特征图像可以为输入图像的特征图像,也即不遮挡该输入图像的特征图像中的区分性区域,使其正常显示。在一种可能的实现方式中,为了能够更加突显出该区分性区域与其他区域的区别,第二特征图像可以是区分性区域的像素点的特征值可以明显比其他区域的像素点的特征值高的特征图像。目标识别装置100获取该第二特征图像的方式可以参见步骤205~步骤206的相关说明。
[0114]
步骤205:目标识别装置100不遮挡该输入图像中的区分性区域,为该输入图像中的各个像素点配置第二系数值,各个像素点的第二系数值构成第二系数图。
[0115]
目标识别装置100不遮挡该输入图像中的区分性区域是指保持该区分性区域清晰。为了保证该区分性区域可以正常显示,甚至能够突出显示。目标识别装置100在为该输入图像的各个像素点配置第二系数值时,可以将该输入图像中区分性区域中的像素点的配置较高的第二系数值,为除了区分性区域中像素点的其余像素点配置较低的第二系数值。
[0116]
例如,对于该输入图像的特征图像的区分性区域内的像素点,需要突出该像素点,可以配置该像素点的第二系数值为1,对于该输入图像的区分性区域之外的像素点,该像素点的第二系数值配置为0。
[0117]
又例如,对于该输入图像的特征图像的各个像素点,可以将各个像素点的空间特征的分值进行归一化处理,使得各个像素点的空间特征的分值可以分布在[0,1],各个像素点进行了归一化之后空间特征的分值可以作为各个像素点的第二系数值,构成第二系数图。
[0118]
采用如下方式将各个像素点的空间特征的分值进行归一化处理:
[0119]
map
突显(i)
=σ(att(fi)),其中,
[0120]
步骤206:目标识别装置100将第二系数图作用到输入图像的特征图像上,获得第二特征图像。与步骤204类似,目标识别装置100也可以将第二系数图作用到图5a所示的特征图像b或特征图像fout上,这里仅是以将第二系数图作用到输入图像的特征图像为例进
行说明。
[0121]
目标识别装置100将输入图像上每个像素点的值与第二系数图上该像素点的第二系数值相乘,获得第二特征图像。该第二特征图像的尺寸为c*h*w,其中,c为通道的长度,h为空间高度,w为空间宽度。
[0122]
如图7a所示为目标识别装置100生成第二特征图像的流程图(其中,利用注意力模型对输入图像的空间特征打分、确定区分性区域的部分对应于步骤301-步骤303,其中,生成第一系数图的部分对应于步骤205),目标识别装置100利用注意力模型对输入图像的视觉特征进行打分,配置分值,之后,基于各个像素点的空间特征的分值生成第二系数图,之后,将第二系数图作用到输入图像的特征图像上,生成第二特征图像。
[0123]
如图7b所示,为第二特征图像的效果图,输入图像中的区分性区域可以为车辆的后视镜、车头灯、以及车牌,不遮挡这些区分性区域,进一步地,可以强化这些区分性区域,这些区分性区域在输入图像中亮度提高,其他区域亮度较暗。
[0124]
经过如上步骤,目标识别装置100获取了第一特征图像和第二特征图像。
[0125]
步骤207:目标识别装置100将第一特征图像和第二特征图像在通道维度上聚合、降维,生成第三特征图像。
[0126]
通常,第一特征图像和第二特征图像在通道维度上聚合后的尺寸为2c*h*w。为了保证第三特征图像的尺寸与第一特征图像或第二特征图像的尺寸一致,在第一特征图像和第二特征图聚合后,还可以对聚合后的图像进行降维,也即在通道维度上压缩,生成第三特征图像,使得第三特征图在通道维度的长度为c。
[0127]
也即第三特征图像相当于将第一特征图像和第二特征图像在通道维度上拼接之后,经过压缩生成特征图像,第三特征图像中包括了第一特征图像和第二特征图像,也即在通道维度上,可以从第三特征图像中区分出属于第一特征图像的部分和属于第二特征图像的部分。
[0128]
步骤208:目标识别装置100在通道维度上为第三特征图像配置权重,生成第四特征图像。
[0129]
目标识别装置100在执行步骤208时,可以先在通道维度上为第三特征图像配置权重,也即将该权重配置到第三特征图像的通道上,生成第四特征图像。
[0130]
本技术实施例并不限定在通道维度上为第三特征图像配置权重的方式,例如可以利用基于通道关系建模的注意力(efficient channel attention,eca)模型,在通道维度上为第三特征图像配置权重。
[0131]
该eca模型的是预先训练好的,能够基于通道维度建立的,能够实现对通道关系建模,学习视觉特征之间的联系,从而通过在通道维度上为第三特征图像配置权重获取更高效的视觉特征表达。
[0132]
在训练过程开始时,eca模型中的参数会被随机初始化,随着训练的进行,分类器可以将分类的结果反馈给eca模型,使得eca模型能够根据分类的结果适应性地调整权重的分值,给与那些对于分类有突出贡献的视觉特征一个大的权重,而对分类结果贡献较小的视觉特征给与一个小的权重,从而在训练过程中不断地学习不断地调整权重的分配,直至训练到一个稳定状态,也就获取了一个最有助于目标识别的权重分配。简单来说,在eca模型的训练过程中,基于梯度下降算法,通过对训练集中特征图像的不断学习,实现对eca模
型的训练,使得eca模型能够对特征图像所有的通道特征权重重新分配,使得在遇到区分性区域被遮挡的情况时,能够增大特征图像中遮挡区分性区域的部分在通道上的权重,以便后续分类器能够学习其他区域具有区分性的特征,否则,增大特征图像中未遮挡区分性区域的部分在通道上的权重,找出区分性区域的特征从而分类器可以识别区分性区域的特征,作出正确判断。
[0133]
为第三特征图像配置的权重满足如下条件:在区分性区域在输入图像中被遮挡的情况下,第三特征图像中属于第一特征图像的部分在通道上的权重大于第三特征图像中属于第二特征图像的部分在通道上的权重、或在区分性区域在输入图像中未被遮挡时第三特征图像中属于第一特征图像的部分在通道上的权重小于第三特征图像中属于第二特征图像的部分在通道上的权重。
[0134]
如图8所示,为利用eca模型将第三特征图像转换为第四特征图像的示意图。图8中,位于第三特征图像和第四特征图像之间的部分即为eca模型,其中仅示例性的绘制出了该eca模型所包括的一些操作,如平均池化操作(gap)、sigmoid激活函数等。
[0135]
在步骤201到步骤208中,目标识别装置100最终获得的第四特征图像中属于第一特征图像的部分和属于第二特图像的部分配置了不同的权重,能够对应输入图像中区分性区域被遮挡或未被遮挡的情况,基于此,当输入图像中区分性区域被遮挡,可以为第一特征图像配置较高的权重,第二特征图像配置较低的权重,这样后续在进行目标识别时,可以从除区分性区域外的其他区域获取较多的信息,以辅助对区分性区域内的目标识别,确定该目标的类别。当输入图像中区分性区域未被遮挡,可以为第四特征图像中属于第一特征图像的部分配置较低的权重,第四特征图像中属于第二特征图像的部分配置较高的权重,这样后续在进行目标识别时,可以从区分性区域获取较多的信息,能够区分性区域进行较为全面的分析,以准确识别该区分性区域内的目标。
[0136]
在本技术实施例中,步骤202~步骤208可以由基于双重注意力的辨别性细粒度特征表示方法(discriminative fine-grained feature representation method based on double attention,dmf)装置执行,dmf装置可以嵌入到神经网络中,例如位于神经网络中用于提取图像特征的网络层之后。本技术实施例并限定的dmf装置的位置以及数量,例如,dmf装置可以嵌入到神经网络中每一个能够提取图像特征的网络层之后,以resnet50为例,dmf装置可以嵌入到cnn中,位于cnn的每一个阶段(stage)之后。通常在神经网络中在提取图像特征的网络层以及分类器之间,还存在其他网络层,该其他网络层能够对dmf装置输出的第四特征图像进行一些的处理,在进行了一系列处理(这里并不限定此处一系列处理的具体类型,例如可以为卷积操作,也可以是池化操作,也可以是卷积操作与池化操作的结合)之后,获取第五特征图像,第五特征图像才能够被传输至分类器进行分类。
[0137]
为了能够进一步提高分类器的分类的精确程度,也即提高目标识别的准确率,目标识别装置100还可以对第五特征图像进行进一步处理,下面对第五特征图像的进一步处理方式进行说明。
[0138]
步骤209:目标识别装置100基于第五特征图像,确定多个候选特征图像,每个候选特征图像对应不同的感受野,也即每个候选特征图像与一个感受野对应。感受野指的是特征图像上像素点在输入图像上映射出的区域大小。这里并不限定候选特征图像的数量,可以根据实际应用场景确定候选特征图像的数量。
[0139]
为了获得多个候选特征图像,目标识别装置100可以利用多个大小不同尺寸的卷积核分别作用到第五特征图像上,通过扩张分离卷积获得多个候选特征图像。由于卷积核的大小不同,则通过扩张分离卷积获得的多个候选特征图像的感受野也不同。
[0140]
步骤210:目标识别装置100将多个候选特征图像融合为第六特征图像。第六特征图像的感受野是包括冗余区域较少的区域,该冗余区域是不利于目标识别的区域,也即该冗余区域中包括较少或者不包括表征目标类别的信息。从另一个角度来说,该第六特征图像的感受野包括的有效信息较多,该有效信息指示能够用于目标识别的信息,如该有效信息是能够被分类器提取,且基于该有效信息能够确定目标类型。
[0141]
以对鸟的类别识别为例,该第六特征图像的感受野可以包括较少的非鸟的区域,对于鸟的类别识别,当前图像中显示了鸟的头部,但鸟头部羽毛颜色会因为拍摄的场景会呈现不同的效果,也即头部羽毛颜色并不利于目标识别,属于冗余区域。而鸟的喙、眼睛等区域不会轻易因为拍摄场景的不同而发生变化,鸟的喙、眼睛等区域包含的有效信息较多,该第六特征图像的感受野可以包括该鸟的喙、眼睛等区域。
[0142]
目标识别装置100在将该多个候选特征图像融合时,可以对该多个候选特征图像进行聚合、降维,并为聚合、降维后的特征图像中属于各个候选特征图像的部分配置权重,获得第六特征图像,其中,为各个候选特征图像配置的权重是预先通过训练学习获得的。
[0143]
通过步骤209~步骤210,目标识别装置100获取的多个候选特征图像中每个候选特征图像与一个感受野对应,且每个候选特征图像对应的感受野的大小不同,这些感受野中有的感受野可能只覆盖了该目标的一部分,有的感受野可能覆盖了该目标,但还包含的较多的非目标区域。通过对该多个候选特征图像的融合(聚合、降维、以及配置权重),能够实现感受野与目标的自适应过程,获得更利于目标识别的感受野,该感受野即为第六特征图像的感受野。这样当基于该第六特征图像进行目标识别时,能够更加准确提取目标的特征,确定该目标所属的类型。
[0144]
如图9所示,为目标识别装置100生成第六特征图像的流程图,图8中,目标识别装置100利用了六个不同的卷积核,分别对第六特征图像进行卷积操作。
[0145]
该六个卷积核分别为1*1卷积(conv)核、扩张率(rate)为1的3*3卷积核、扩张率为2的3*3卷积核、扩张率为3的3*3卷积核、扩张率为4的3*3卷积核、扩张率为5的3*3卷积核。
[0146]
其中,卷积核的大小是指长x宽卷积核的尺寸。举例来说,常用的尺寸有3x3、5x5。
[0147]
第五特征图像经过一个卷积核,会输出一张大小为c*h*w的候选特征图像,第五特征图像经过六个卷积核,会得到六张大小为c*h*w的候选特征图像。
[0148]
目标识别装置100可以将该六张大小为c*h*w的候选特征图像在通道维度上聚合、降维获得一张6c/n*h*w的特征图像(其中,n是指在通道上降维的参数,图9中以n=16为例进行说明),在降维之后,可以在通道维度上为各个候选特征图像进行权重重分配,在图9中仅示例性的绘制出了在进行权重重分配所经过的几个操作,例如全局平均池化操作(gap)、1*1的卷积核(也即con1*1)、bn relu、sigmoid函数等。其中,配置的权重可以是通过预先训练、学习获得的。
[0149]
其中,尺寸为1*1的卷积核可以实现卷积操作,通过设定1*1卷积核的数量能够来实现升降维度的操作。gap是指对特征图像上的每个特征值求和后取平均得到一个数值,该数值可以表征整张特征图像的特征信息。bn relu为卷积神经网络中的归一化和激活函数,
主要实现归一化操作和增强非线性的操作。fc为全连接层,是神经网络中较为常见的一层,在整个神经网络中可以起到“分类器”的作用。
[0150]
需要说明的是,在图9中一个卷积核的尺寸为1*1卷积(conv)核,通过设置1*1的卷积核及逆行卷积操作可以有效保留原始的特征信息,并且通过gap来获取全局信息,使得有效弥补扩张卷积有可能造成的获取的信息不连续的问题,从而得到更加完整高效的特征表达。
[0151]
目标识别装置100可以直接在通道维度上对降维后的特征图像配置权重,获得第六特征图像,也可以在通道维度上对降维后的特征图像配置权重后,与另一个特征图像进行聚合、降维,生成第六特征图像,该另一个特征图像可以是对第五特征图像进行平均池化操作后生成的特征图像,该另一个特征图像的大小为c*h*w。其中,与另一个特征图像聚合、降维的目的是为了保证输入输出特征维度一致,并且适当的降维可以有效提高计算效率和识别精度。
[0152]
步骤211:目标识别装置100基于第六特征图像进行目标识别。
[0153]
目标识别装置100在执行步骤211时,可以借助分类器来实现,分类器可以是预先训练的、能够根据特征图像来确定该特征图像中目标的类别,实现目标识别。
[0154]
应需理解的是,在步骤209和步骤210中,以目标识别装置100对第五特征图像进行处理,当然在实际应用场景中,目标识别装置100也可以在获取第四特征图像后,直接对第四特征图像进行处理。
[0155]
在本技术实施例中,步骤209~步骤210可以由基于感受野自适应调整的多尺度特征融合方法(multi-scale feature fusion method based on receptive field adaptive adjustment,rfam)装置执行,rfam装置可以放置在分类器之前,对需要输入到分类器的特征图像进行处理,以使得分类器最终能够输出准确的结果。
[0156]
下面从整体应用的角度对本技术实施例提供的目标识别方法应用在resnet50中时的实现方式进行说明,参见图10a,为该图像识别方法应用在resnet50中时进行图像识别的方法流程图。在该方法中,图像识别装置可以分拆为三个装置,为方便区分,分别称为dfm装置、rfam装置以及分类器。其中dfm装置用于执行如上述如图3所示的实施例中的步骤201~208。rfam装置用于执行如上述如图3所示的实施例中的步骤209~210。分类器用于执行如上述如图3所示的实施例中的步骤211。
[0157]
resnet50中包括一个主线,在该主线上包括主cnn和一个主rfam装置,其中,主cnn可以对输入图像进行特征提取,输出特征图像。主cnn中可以添加dfm装置,如图10b为主cnn的结构示意图,主cnn包括四个stage(每个stage其实质为卷积层,用于实现特征提取),可以在每个stage后添加一个dfm装置,每个dfm装置可以对该dfm装置之前设置的stage输出的特征图像进行处理,如执行本技术实施例中的步骤201~208。主rfam装置可以对该主cnn输出的特征图像进行处理。该主cnn可以输出多个特征图像,其中一个针对整个输入图像的特征图像,该特征图像可以传输至主rfam装置进行处理。该多个特征图像中还包括一些针对输入图像不同区域的特征图像,这些特征图像中包含的信息量较多的特征图像可以传输至该主cnn之后的多个分支进行处理,每个分支处理一个特征图像,这里以主cnn之后连接四个分支为例。每个分支中包括一个分支cnn和一个分支rfam装置。对于任一分支,该分支可以对主cnn输出的一个特征图像进行处理。具体的,分支cnn可以对该特征图像继续进行
特征提取,输出新的特征图像,分支cnn中可以添加dfm装置,分支cnn中添加dfm装置的方式可以参见主cnn中添加dfm装置的方式,具体可参见前述说明,此处不再赘述。分支rfam装置可以对该分支cnn输出的特征图像进行处理。
[0158]
主线中的rfam装置以及各个分支中分支rfam装置输出的特征图像可以输入至分类器中,分类器可以基于特征图像进行目标识别,之后将各个分类器的结构进行汇总输出最终的结果,该结果可以指示输入图像中的目标。
[0159]
基于与方法实施例同一发明构思,本技术实施例还提供了一种目标识别装置,用于执行上述如图3a~3b、4所示的方法实施例中所述目标识别装置执行的方法,相关特征可参见上述方法实施例,此处不再赘述。如图11所示,为本技术实施例提供的一种目标识别装置,该目标识别装置1100包括获取单元1101、图像生成单元1102以及识别单元1103,可选的,还可以包括确定单元1104。
[0160]
获取单元1101,用于获取输入图像,输入图像包括待识别的目标。获取单元1101可以执行图3a所示的方法实施例中的步骤101。获取单元1101可以执行图3b所示的方法实施例中的步骤201。
[0161]
图像生成单元1102,用于根据输入图像的区分性区域生成第一特征图像,第一特征图像为输入图像的区分性区域被遮挡的特征图像,输入图像的区分性区域为输入图像中能够指示目标所属类别的区域的子集。图像生成单元1102可以执行图3a所示的方法实施例中的步骤102。图像生成单元1102可以执行图3b所示的方法实施例中的步骤203~204。。
[0162]
识别单元1103,用于根据第一特征图像识别目标。识别单元1103可以执行图3a所示的方法实施例中的步骤103。
[0163]
作为一种可能的实施方式,图像生成单元1102还可以不遮挡该输入图像中的区分性区域,获得第二特征图像,也就是说,第二特征图像为输入图像的区分性区域未被遮挡的图像;图像生成单元1102可以执行图3b所示的方法实施例中的步骤205~206。
[0164]
当识别单元1103在根据第一特征图像识别目标时,识别单元1103可以同时考虑第一特征图像和第二特征图像,根据第一特征图像和第二特征图像识别目标。识别单元1103可以执行图3b所示的方法实施例中的步骤207~211。
[0165]
作为一种可能的实施方式,图像生成单元1102在生成第一特征图像以及第二特征图像之后,确定单元1104还可以根据输入图像的空间特征确定区分性区域。
[0166]
作为一种可能的实施方式,确定单元1104在根据输入图像的空间特征确定区分性区域时,可以为输入图像的空间特征配置分值;确定单元1104可以将空间特征的分值大于阈值的区域作为区分性区域。也可以将分值处于预设范围的区域作为区分性区域。确定单元1104可以执行图3b所示的方法实施例中的步骤202。确定单元1104可以执行图4所示的方法实施例。
[0167]
作为一种可能的实施方式,图像生成单元1102在根据输入图像的区分性区域生成第一特征图像时,可以为输入图像中的像素点配置第一系数值。各个像素点的第一系数值构成的图为第一系数图。为像素点配置第一系数值的方式有很多,例如,可以将输入图像中属于区分性区域的像素点的第一系数值配置为较小的第一值;其余像素点的第一系数配置为较大的第二值,其中,第一值小于第二值,各个像素点的第一系数值构成的图为第一系数图;在获得了第一系数图之后,图像生成单元1102将第一系数图作用到输入图像上,生成第
一特征图像。
[0168]
作为一种可能的实施方式,图像生成单元1102在根据输入图像的区分性区域生成第二特征图像时,可以为输入图像中的像素点配置第二系数值。各个像素点的第二系数值构成的图为第二系数图。为像素点配置第二系数值的方式有很多,例如,图像生成单元1102可以将输入图像中属于区分性区域的像素点的第二系数值配置为像素点的空间特征的分值;又例如,图像生成单元1102可以将输入图像中属于区分性区域的像素点的第二系数值配置为较大的第三值,其余像素点的第二系数值配置为较小的第四值,其中,第三值大于第四值。在获得了第二系数图之后,将第二系数图作用到输入图像上,生成第二特征图像。
[0169]
作为一种可能的实施方式,识别单元1103在根据第一特征图像和第二特征图像识别目标时,可以先在通道维度上将第一特征图像和第二特征图像聚合,生成第三特征图像。之后,基于第三特征图像,确定多个大小相同的候选特征图像,其中,每个候选特征图像的感受野不同;将多个候选特征图像融合为第四特征图像;利用第四特征图像进行目标识别。
[0170]
作为一种可能的实施方式,识别单元1103在第一特征图像和第二特征图像在通道维度上聚合,生成第三特征图像时,可以在通道维度上将第一特征图像和第二特征图像聚合,降维,生成聚合图像;在通道维度上为聚合图像配置权重,生成第三特征图像,为候选特征图像配置的权重满足可以如下条件:在区分性区域在输入图像中被遮挡时聚合图像中属于第一特征图像的部分在通道上的权重大于聚合图像中属于第二特征图像的部分在通道上的权重、或在区分性区域在输入图像中未被遮挡时聚合图像中属于第一特征图像的部分在通道上的权重小于聚合图像中属于第二特征图像的部分在通道上的权重。
[0171]
作为一种可能的实施方式,识别单元1103在基于第三特征图像,确定多个大小相同的候选特征图像时,可以将多个不同的卷积核分别作用在第三特征图像中,通过扩张分离卷积的方式获得多个候选特征图像。
[0172]
作为一种可能的实施方式,识别单元1103在将多个的候选特征图像融合为第四特征图像时,可以为每个候选特征图像配置对应的权重,之后,基于每个候选特征图像和每个候选特征图像对应的权重,获得第四特征图像。
[0173]
需要说明的是,本技术实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。在本技术的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0174]
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介
质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,ssd)。
[0175]
在一个简单的实施例中,本领域的技术人员可以想到如图3a~3b所示的实施例中目标识别装置可采用图12所示的形式。
[0176]
如图12所示的装置1200,包括至少一个处理器1201、存储器1202,可选的,还可以包括通信接口1203。
[0177]
存储器1202可以是易失性存储器,例如随机存取存储器;存储器也可以是非易失性存储器,例如只读存储器,快闪存储器,硬盘(hard disk drive,hdd)或固态硬盘、或者存储器1202是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1202可以是上述存储器的组合。
[0178]
本技术实施例中不限定上述处理器1201以及存储器1202之间的具体连接介质。
[0179]
处理器1201可以为中央处理器(central processing unit,cpu),该处理器1201还可以是其他通用处理器、数字信号处理器(digital signal process,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件、人工智能芯片、片上芯片等。通用处理器可以是微处理器或者是任何常规的处理器等。具有数据收发功能,能够与其他设备进行通信,在如图12装置中,也可以设置独立的数据收发模块,例如通信接口1203,用于收发数据;处理器1201在与其他设备进行通信时,可以通过通信接口1203进行数据传输,如获取输入图像等。
[0180]
当所述目标识别装置采用图12所示的形式时,图12中的处理器1201可以通过调用存储器1202中存储的计算机执行指令,使得所述目标识别装置可以执行上述任一方法实施例中的所述目标识别装置执行的方法。
[0181]
具体的,图11的获取单元、图像生成单元、识别单元以及确定单元的功能/实现过程均可以通过图12中的处理器1201调用存储器1202中存储的计算机执行指令来实现。或者,图11中的图像生成单元、识别单元以及确定单元的功能/实现过程可以通过图12中的处理器1201调用存储器1202中存储的计算机执行指令来实现,图11的获取单元以及发送单元的功能/实现过程可以通过图12中的通信接口1203来实现。
[0182]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0183]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0184]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0185]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0186]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献