一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

影像辨识方法及影像辨识系统与流程

2022-04-30 02:45:06 来源:中国专利 TAG:


1.本公开涉及一种影像辨识方法及影像辨识系统。


背景技术:

2.在影像辨识领域中,类神经网络(neural network)已广泛被使用。然而,不同类型的辨识往往需要不同的类神经网络(neural network)架构,因此,在传统上,多特征的辨识需要建构多组类神经网络。如何能够利用单一类神经网络架构,来对多种特征进行辨识,以提升效能,是本领域技术人员所致力的目标。


技术实现要素:

3.本公开提供一种影像辨识方法及影像辨识系统,能够根据获取的特征,同时输出对应于不同侦测任务的辨识结果。
4.本公开提供一种影像辨识方法,用于多种侦测任务,影像辨识方法包括:通过影像传感器获取待辨识影像;将待辨识影像输入至单一卷积神经网络;依据单一卷积神经网络的输出结果,获取属于第一侦测任务的第一特征图以及属于第二侦测任务的第二特征图,其中第一特征图与第二特征图具有共有特征;使用终端层网络模块依据第一特征图从待辨识影像中产生对应第一侦测任务的第一辨识结果,并且依据第二特征图从待辨识影像中产生对应第二侦测任务的第二辨识结果;以及输出对应第一侦测任务的第一辨识结果和对应第二侦测任务的第二辨识结果。
5.本公开提供一种影像辨识系统,包括影像传感器、储存装置、输出装置以及处理器。影像传感器获取待辨识影像。处理器耦接影像传感器、输出装置与储存装置。处理器将待辨识影像输入至单一卷积神经网络,其中储存装置储存单一卷积神经网络;处理器依据单一卷积神经网络的输出结果,获取属于第一侦测任务的第一特征图以及属于第二侦测任务的第二特征图,其中第一特征图与第二特征图具有共有特征。处理器使用终端层网络模块依据第一特征图产生待辨识影像对应第一侦测任务的第一辨识结果,并且依据第二特征图产生待辨识影像对应第二侦测任务的第二辨识结果。输出装置输出对应第一侦测任务的第一辨识结果和对应第二侦测任务的第二辨识结果。
6.基于上述,本公开实施例的影像辨识方法与系统,能够使用单一卷积神经网络获取不同的侦测任务的辨识结果。
7.为让本公开的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。
附图说明
8.图1是根据本公开的实施例所绘示的影像辨识系统的方块图。
9.图2是根据本公开的实施例所绘示的基于单一卷积神经网络的影像辨识模块的概要图。
10.图3是根据本公开的实施例所绘示的影像预处理的示意图。
11.图4是根据本公开的实施例所绘示的获取不同侦测任务的特征图的示意图。
12.图5是根据本公开的实施例所绘示的利用计算机视觉技术获取方格图的示意图。
13.图6是根据本公开的实施例所绘示的第一特征图与第二特征图的示意图。
14.图7是根据本公开的实施例所绘示的第一损失函数的示意图。
15.图8是根据本公开的实施例所绘示的第二损失函数的示意图。
16.图9a、图9b、图9c和图9d是根据本公开的实施例所绘示的利用计算机视觉技术得出分割图(segmentation map)的示意图。
17.图10是根据本公开的实施例所绘示的影像辨识方法的流程图。
18.附图标记说明
19.100:影像辨识系统
20.110:影像传感器
21.120:储存装置
22.130:输出装置
23.140:处理器
24.2000:基于单一卷积神经网络的影像辨识模块
25.2002:影像预处理模块
26.2004:骨干架构模块
27.2006:终端层网络模块
28.2008:计算机视觉处理模块
29.wm:神经网络模型的维度宽度
30.hm:神经网络模型的维度高度
31.wi:原始影像宽度
32.hi:原始影像高度
33.ii:待辨识影像
34.i:输入影像
35.310:影像填充操作
36.320、330:调整影像大小操作
37.311、321:原始影像
38.312、322:输入影像
39.410:单一卷积神经网络
40.420-1、420-2、420-3:第一特征图
41.430:第二特征图
42.510:影像分割基准
43.520:正数数据方格图
44.x,y:边界框(bounding box)坐标
45.w:边界框宽
46.h:边界框高
47.cl:侦测信心度
48.p:分类(class)机率
49.rs0:点候选
50.rd0:侦测框候选
51.rs:点预测
52.rd:侦测框预测
53.910:点候选
54.920:特征图
55.930:正数资料方格图
56.940、950:核心
57.s1010、s1020、s1030、s1040、s1050、s1060:步骤
具体实施方式
58.现将详细地参考本公开的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同元件符号在附图和描述中用来表示相同或相似部分。
59.图1是根据本公开的实施例所绘示的影像辨识系统的方块图。
60.请参照图1,影像辨识系统100用以执行本公开所述的影像辨识方法,以使用单一卷积神经网络,获取不同的侦测任务的辨识结果。影像辨识系统100可以是行动装置、个人数字助理(personal digital assistant,pda)、笔记本电脑、平板电脑、台式电脑等,或是其他的电子装置,在此并不设限。
61.影像辨识系统100包括影像传感器110、储存装置120、输出装置130以及处理器140。
62.影像传感器110用以获取待辨识影像。在本实施例中,影像传感器110例如是摄影机或是行动装置的相机。
63.储存装置120用以储存单一卷积神经网络,待辨识影像以及辨识结果。在本实施例中,储存装置120可以是任意形式的固定式或可移动式随机存取内存(random access memory,ram)、只读存储器(read-only memory,rom)、闪存(flash memory)、硬盘或其他类似装置或这些装置的组合。
64.输出装置130是用以输出影像辨识结果的装置或组件。输出装置130例如是显示器。举例来说,当待辨识影像为道路影像(例如包括树木、车辆以及行人影像),输出装置130可以根据本公开的影像辨识方法,输出此待辨识影像中树木、车辆以及行人的影像。
65.处理器140是耦接至影像传感器110、储存装置120以及输出装置130,以控制影像辨识系统100的运作。在本实施例中,处理器140例如是一般用途处理器、特殊用途处理器、传统的处理器、数字信号处理器、多个微处理器(microprocessor)、一个或多个结合数字信号处理器核心的微处理器、控制器、微控制器、特殊应用集成电路(application specific integratedcircuit,asic)、现场可编程逻辑门阵列(field programmable gate array,fpga)、任何其他种类的集成电路、状态机、基于进阶精简指令集机器(advanced risc machine,arm)的处理器以及类似品。
66.在本实施例中,处理器140可以运行基于单一卷积神经网络的影像辨识模块,来同时进行多个侦测任务的辨识。
67.图2是根据本公开的实施例所绘示的基于单一卷积神经网络的影像辨识模块的概要图。
68.请参照图2,基于单一卷积神经网络的影像辨识模块2000包括影像预处理模块2002、骨干架构模块(backbone architecture)2004、终端层网络模块(end-layer network)2006以及计算机视觉处理模块2008。
69.在本实施例中,处理器140会运行影像预处理模块2002,以对影像传感器110所获取的待辨识影像进行预处理。
70.图3是根据本公开的实施例所绘示的影像预处理的示意图。
71.请参照图3,影像预处理模块2002可以将待辨识影像(例如原始影像311或是原始影像321)的长宽维度标准化(normalized)为神经网络模型的维度。
72.具体来说,假设神经网络模型的维度是宽度为wm、高度为hm,如图3的操作310影像填充(padding)所示,影像预处理模块2002将原始影像311(宽度为wi高度为hi)进行影像填充以调整影像的长宽比(aspect ratio)而得到输入影像312。
73.此外,在另一范例中,如图3的操作320与操作330以及下述式1所示,影像预处理模块2002还可以利用双三次插值(bicubic interpolation)将原始影像321重设大小(resize)而得到输入影像322。
[0074][0075]
请再参照图2,骨干架构模块(backbone architecture)2004用以截取待辨识影像的特征,并且终端层网络模块2006用以根据骨干架构模块2004输出的特征图,进行多个侦测任务与辨识。
[0076]
具体来说,骨干架构模块2004配置有单一卷积神经网络的多个卷积层,并且处理器140会运行骨干架构模块2004从待辨识影像截取对应多个侦测任务的特征,以产生特征图。然后,处理器140会运行终端层网络模块2006,以进行多个侦测与辨识。
[0077]
在本实施例中,例如,第一侦测任务为二维物件侦测任务,并且第二侦测任务为影像分割侦测任务。因此,骨干架构模块2004会输出对应第一侦测任务的第一特征图与第二侦测任务的第二特征图,并且终端层网络模块2006会依据特征图,进行用于第一侦测任务的物件侦测与用于第二侦测任务的点侦测。
[0078]
图4是根据本公开的实施例所绘示的获取不同侦测任务的特征图的示意图。
[0079]
请参照图4,在将输入影像312输入至骨干架构模块2004之后,处理器140可以从骨干架构模块2004配置的单一卷积神经网络410获取第一侦测任务的第一特征图420-1、420-2、420-3以及第二侦测任务的第二特征图430。特别是,处理器140可以使用具有多个卷积层的骨干架构模块2004从待辨识影像(例如,输入影像312)截取第一侦测任务的第一特征图420-1、420-2、420-3以及第二侦测任务的第二特征图430的共有特征,并且据此产生第一特征图420-1、420-2、420-3以及第二特征图430的共有特征图。
[0080]
例如,在本实施例中,第一侦测任务为二维物件侦测任务,因此第一侦测任务的第一特征图可以包括边界框(bounding box)的坐标、边界框的宽与高、边界框的侦测信心度以及边界框的分类(class)机率。并且第二侦测任务为影像分割侦测任务,因此第二侦测任务的第二特征图可以包括边界框的坐标、边界框的侦测信心度以及边界框的分类机率。
[0081]
请再参考图2,计算机视觉处理模块2008用以依据特征图的信息来进行上述的点侦测。具体来说,为了能够正确进行影像分割侦测,在本实施例中,处理器140会运行计算机视觉处理模块2008,以依据第二侦测任务的第二特征图的信息执行以计算机视觉(computer vision)为基础的处理。
[0082]
图5是根据本公开的实施例所绘示一种利用计算机视觉技术获取方格图的示意图。
[0083]
请参照图5,计算机视觉处理模块2008依据上述骨干架构模块2004所产生的特征图,可以从输入影像(例如输入影像312)获得对应的影像分割基准(image segmentation ground truth),即影像分割基准510。
[0084]
如图5所示,影像分割基准510包括点gs0、gs1、gs2、gs3、gs4、gs5、gs6与gs7。假设神经网络模型的维度是宽度为wm、高度为hm,并且γ为细胞图(cell map)的比例(scaler)。在方格图(grid map)520中,有包括点gs0、gs1、gs2、gs3、gs4、gs5、gs6与gs7的细胞可以被视为正数数据(positive data),而未包括点gs0、gs1、gs2、gs3、gs4、gs5、gs6与gs7的细胞可以暂时先被视为负数数据(negative data)。接着,可以利用下述式2与式3,计算机视觉处理模块2008可以进行相邻的点gsn与gs
n 1
间的向量分析(vector analysis)。
[0085][0086][0087]
在完成相邻的点gsn与gs
n 1
间的向量分析之后,处理器140可以对每个gsn≤gs
n 1
反复地执行gsn=gsn δxy,并且所有第一个碰到负数细胞数据(negative cell data)的点将被转换成正数数据(positive data)。借此,处理器140可以从影像分割基准510得出正数数据方格图(grid map)520,即,得出包含点gs0、gs1、gs2、gs3、gs4、gs5、gs6与gs7的所有细胞的正数数据方格图520。
[0088]
图6是根据本公开的实施例所绘示的第一特征图与第二特征图的示意图。
[0089]
请参照图6,第二特征图点候选(point candidate)rs0(x,y,cl,p)可以包括边界框(bounding box)的坐标(x,y)、边界框的侦测信心度cl以及边界框的分类(class)机率。第一特征图侦测框候选(detection box candidates)rd0(x,y,w,h,cl,p)可以包括边界框的坐标(x,y)、边界框的宽w与高h、边界框的侦测信心度cl以及边界框的分类(class)机率。在将点候选rs0(x,y,cl,p)与侦测框候选rd0(x,y,w,h,cl,p)排列成如图6的数组形式之后,可以利用非极大值抑制技术(non maximum suppression,nms),移除低信心度的点候选与侦测框候选。借此,点预测(point prediction,即rs(x,y,c,cl,p))与侦测框预测(detection box predictions,即rd(x,y,w,h,c,cl,p))可以被产生。
[0090]
在实施例中,可以为该第一侦测任务配置第一损失函数(loss function),并且为该第二侦测任务配置第二损失函数。第一损失函数用以计算第一辨识结果与对应该第一侦测任务的第一参考结果之间的误差,第二损失函数是用以计算第二辨识结果与对应第二侦测任务的第二参考结果之间的误差。
[0091]
图7是根据本公开的实施例所绘示的第一损失函数的示意图。
[0092]
根据影像分割基准510(即gs(x,y,c))与经由图6所示方式产生出的点预测rs(x,y,c,cl,p),第一损失函数分割损失seg
1oss
(segmentation loss)可以计算第一辨识结果点预测rs(x,y,c,cl,p)与对应第一侦测任务的第一参考结果影像分割基准510(即gs(x,y,c))之间的误差,seg
loss
可以经由下述式4至式7得出。
[0093][0094][0095][0096][0097]
其中λpt为正数xy预测的正常权重,为正数点预测,λnopt为负数(空值)xv预测的正常权重,为负数点预测,gsi(cl)=1,gsi(p(c))=1,mf为匹次数量,f为框架索引。
[0098]
图8是根据本公开的实施例所绘示的第二损失函数的示意图。
[0099]
处理器140的骨干架构模块2004可以依据从输入影像(例如输入影像312)获得二维基准(2d ground truth)810。根据二维基准810(即gd(x,y,w,h,c))与经由图6所示方式产生出的侦测框预测rd(x,y,w,h,c,cl,p)),第二损失函数二维物件侦测损失obj
loss
(2d object detection loss)可以计算第二辨识结果侦测框预测rd(x,y,w,h,c,cl,p)与对应第二侦测任务的第二参考结果二维基准810(即gd(x,y,w,h,c))之间的误差,obj
1oss
可以经由下述式8至式12得出。
[0100][0101][0102][0103][0104][0105]
其中λxy为正数xy预测的正常权重,为正数侦测预测,λnobb为负数(空值)xy
预测的正常权重,为负数侦测预测,gdi(cl)为1,gdi(p(c))为1,a为框总数,mf为匹次数量,f为框架索引。
[0106]
在实施例中,处理器140可以在终端层网络模块2006中配置多个预测层,并且依据对应第一侦测任务的第一损失函数与对应第二侦测任务的第二损失函数处理共有特征图。也就是说,在处理器140通过骨干架构模块2004从待辨识影像(输入影像312)截取共有特征,并产生第一特征图420-1、420-2、420-3以及第二特征图430的共有特征图之后,处理器140可以依据上述式4至式7所得出对应第一侦测任务的第一损失函数,与上述式8至式12所得出对应第二侦测任务的第二损失函数,处理共有特征图。
[0107]
在实施例中,处理器140可以使用多个正规化权重平衡该第二侦测任务的损失值的范围以参照该第一侦测任务的损失值的范围来调整该骨干架构模块的可学习权重。例如,在得到第一损失函数分割损失seg
loss
与第二损失函数二维物件侦测损失obj
loss
之后,可以利用下述式13得出合并损失final
loss
。处理器140可以利用合并损失final
loss
调整骨干架构模块2004的可学习权重。
[0108][0109]
其中其中为骨干架构模块2004只以影像分割侦测任务训练时的最小分割损失,为骨干架构模块只以二维物件侦测任务训练时的最小二维物件侦测损失。
[0110]
在实施例中,处理器140可以在终端层网络模块中利用计算机视觉技术分群与链接对应第二侦测任务的辨识结果。
[0111]
图9a、图9b、图9c和图9d是根据本公开的实施例所绘示的利用计算机视觉技术得出分割图(segmentation map)的示意图。
[0112]
请参照图9a,假设经由图6所示方式得出的点候选(point candidate)rs0(x,y,cl,p)为图9a中的点候选910、由图4所示方式得到的第二侦测任务(影像分割)的第二特征图430为图9a中的特征图920、以及由图5所示方式得到的正数数据方格图520为图9a中的正数资料方格图930。本实施例,处理器140可以使用计算机视觉技术,利用点候选910、特征图920、正数数据方格图930以及输入影像312得出分割图(segmentation map)。
[0113]
在本实施例中,处理器140可以利用计算机视觉技术得出分割图的运作可以分为三个阶段。在第一阶段中,处理器140可以利用下述式14与式15识别出起始点st
pt
和终点ed
pt

[0114][0115][0116]
其中为正数点预测,为底部正数点预测。
[0117]
在第二阶段中,处理器140将继续找出点顺序的索引。
[0118]
图9b是本公开的实施例所绘示的使用计算机视觉技术得出分割图的第二阶段示意图。
[0119]
请参照图9b,假设在第一阶段中得出的起始点st
pt
为点910-1,在第一阶段中得出的终点ed
pt
为点910-2。第二阶段的实施方式为,从起始点st
pt
(点910-1)开始,核心(kernel)可以搜寻正数数据方格图930中,相邻的细胞中是否有正数细胞(positive cell),其中核心可以如图9b中的长与宽均为3的核心940所示,并且利用下述式16与式17决定顺序索引。
[0120]
q(u
origin
,v
origin
)=0
ꢀꢀꢀꢀ
(16)
[0121][0122]
图9c是本公开的实施例所绘示的使用计算机视觉技术得出分割图的第二阶段的另一示意图。
[0123]
当利用核心940(即kn)无法在正数数据方格图930中找出相邻的正数细胞(positive cell)时,可以利用另一个长宽均为5的核心950k
gap
在特征图920与正数资料方格图930中,搜寻相邻细胞,其操作可由以下式18至式20所表示。
[0124]
q(u
origin
,v
origin
)=0,f3(u
origin
,v
origin
)=0
ꢀꢀ
(18)
[0125]
状况1:
[0126][0127]
状况2:
[0128][0129]
在处理完第二阶段之后,接着可以利用排序后的点,画出如图9d所表示的轮廓(contour),以得到待辨识影像对应第二侦测任务(影像分割)的第二辨识结果,即影像分割结果。
[0130]
图10是根据本公开的实施例所绘示的影像辨识方法的流程图。
[0131]
请参照图10,在步骤s1010中,影像传感器110会获取待辨识影像。
[0132]
在步骤s1020中,处理器140会对影像进行预处理。
[0133]
在步骤s1030中,处理器140可以将待辨识影像(即图3中的输入影像312或输入影像322)输入至单一卷积神经网络。在此,单一卷积神经网络例如是影像辨识的类神经网络算法yolov3(you only look once version 3,yolo version 3),本公开不限制所使用的单一卷积神经网络的种类。
[0134]
接着,在步骤s1040中,处理器140根据单一卷积神经网络获取属于第一侦测任务的第一特征图(feature map)以及属于第二侦测任务的第二特征图。
[0135]
在步骤s1050中,处理器140可以依据第一特征图(第一特征图420-1、420-2、420-3)从待辨识影像中产生对应第一侦测任务(二维物件侦测)的第一辨识结果(即二维物件侦测结果),以及依据第二特征图(第二特征图430)从待辨识影像中产生对应第二侦测任务(影像分割)的第二辨识结果(即影像分割结果)。
[0136]
在步骤s1060中,输出装置130输出对应第一侦测任务(二维物件侦测)的第一辨识结果(即二维物件侦测结果)和对应第二侦测任务(影像分割)的第二辨识结果(即影像分割结果)。
[0137]
综上所述,本公开实施例的影像辨识方法与系统,可以在不同的侦测任务的特征图之间具有共有特征时,仅使用单一卷积神经网络即可得到不同的侦测任务的辨识结果。基此,可以节省影像辨识所需要的时间并且提高影像辨识的准确度。
[0138]
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献