一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种图像识别方法、装置、设备及存储介质与流程

2021-11-05 21:30:00 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,更具体地说,涉及一种图像识别方法、装置、设备及存储介质。


背景技术:

2.目前,公知的摄像监管大多都是由单个视野有限的摄像头组成的监管系统,由于视野的局限性导致覆盖一片区域需要用到的摄像头数量众多,而且依然可能存在死角,进而无法实现相应区域的有效监管。


技术实现要素:

3.本发明的目的是提供一种图像识别方法、装置、设备及存储介质,不仅无需使用众多摄像头,且能够消除死角,能够实现对相应区域的有效监管。
4.为了实现上述目的,本发明提供如下技术方案:
5.一种图像识别方法,包括:
6.接收全景摄像头传输的全景图像,并确定当前接收的全景图像为待识别图像;其中,所述全景图像为所述全景摄像头针对指定区域采集得到的;
7.利用视觉识别模型对所述待识别图像进行计算机视觉识别,得到相应的视觉识别结果;其中,所述视觉识别模型为预先利用历史上针对所述指定区域采集得到的全景图像训练得到的;
8.将所述视觉识别结果进行展示,以供对所述指定区域进行监管。
9.优选的,接收全景摄像头传输的全景图像,包括:
10.接收所述全景摄像头通过5g网络传输的全景图像。
11.优选的,利用视觉识别模型对所述待识别图像进行计算机视觉识别,得到相应的视觉识别结果,包括:
12.对所述待识别图像进行等距分割,得到相应的多个子待识别图像;
13.利用所述视觉识别模型同时对多个所述子待识别图像分别进行计算机视觉识别,得到相应的多个子视觉识别结果;
14.将多个所述子视觉识别结果按照对应子待识别图像在所述待识别图像中的位置进行拼接和填充,得到所述视觉识别结果。
15.优选的,对所述待识别图像进行等距分割,得到相应的多个子待识别图像,包括:
16.对所述待识别图像进行等距分割,得到相应的多个子待识别图像,且在所述待识别图像中位于相邻位置的子待识别图像之间具有相应的重叠区域;
17.相应的,得到相应的多个子视觉识别结果之后,还包括:
18.针对所述子识别结果中与同一重叠区域对应的多个结果,仅保留该多个结果中符合预设要求的结果。
19.优选的,确定当前接收的全景图像为待识别图像之后,还包括:
20.判断所述待识别图像是否为能够正常显示的图像,如果是,则执行利用视觉识别模型对所述待识别图像进行计算机视觉识别的步骤,如果否,则删除所述待识别图像,并继续执行接收全景摄像头传输的全景图像的步骤。
21.优选的,预先利用历史上针对所述指定区域采集得到的全景图像训练得到所述视觉识别模型,包括:
22.获取历史上所述全景摄像头针对所述指定区域采集得到的多个全景图像为样本图像;
23.利用所述样本图像对基于深度学习的神经网络模型进行训练,得到相应的视觉识别模型。
24.优选的,利用所述样本图像对基于深度学习的神经网络模型进行训练之前,还包括:
25.对所述样本图像进行图像增强处理。
26.一种图像识别装置,包括:
27.接收模块,用于:接收全景摄像头传输的全景图像,并确定当前接收的全景图像为待识别图像;其中,所述全景图像为所述全景摄像头针对指定区域采集得到的;
28.识别模块,用于:利用视觉识别模型对所述待识别图像进行计算机视觉识别,得到相应的视觉识别结果;其中,所述视觉识别模型为预先利用历史上针对所述指定区域采集得到的全景图像训练得到的;
29.展示模块,用于:将所述视觉识别结果进行展示,以供对所述指定区域进行监管。
30.一种图像识别设备,包括:
31.存储器,用于存储计算机程序;
32.处理器,用于执行所述计算机程序时实现如上任一项所述图像识别方法的步骤。
33.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项图像识别方法的步骤。
34.本发明提供了一种图像识别方法、装置、设备及存储介质,该方法包括:接收全景摄像头传输的全景图像,并确定当前接收的全景图像为待识别图像;利用视觉识别模型对所述待识别图像进行计算机视觉识别,得到相应的视觉识别结果;将所述视觉识别结果进行展示,以供对所述指定区域进行监管;其中,所述全景图像为所述全景摄像头针对指定区域采集得到的,所述视觉识别模型为预先利用历史上针对所述指定区域采集得到的全景图像训练得到的。本技术利用全景摄像头实现需监管区域的全景图像的采集,进而基于采集到的全景图像实现相应计算机视觉识别,并将计算机视觉识别的视觉识别结果进行展示,以供监管者基于展示的视觉识别结果实现相应的监管。可见,本技术基于全景摄像头实现对需监管区域360度全方位的图像采集,不仅无需使用众多摄像头,且能够消除死角,进而能够实现对相应区域的有效监管。
附图说明
35.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
提供的附图获得其他的附图。
36.图1为本发明实施例提供的一种图像识别方法的流程图;
37.图2为本发明实施例提供的一种图像识别方法中cspdarknet53结构图;
38.图3为本发明实施例提供的一种图像识别方法中数据增强示意图;
39.图4为本发明实施例提供的一种图像识别方法中具体实现流程图;
40.图5为本发明实施例提供的一种图像识别装置的结构示意图。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.请参阅图1,其示出了本发明实施例提供的一种图像识别方法的流程图,可以包括:
43.s11:接收全景摄像头传输的全景图像,并确定当前接收的全景图像为待识别图像;其中,全景图像为全景摄像头针对指定区域采集得到的。
44.本发明实施例提供的一种图像识别方法的执行主体可以为对应的图像识别装置、设备,而该图像识别装置、设备可以统称为监管系统,本技术实施例以该图像识别方法的执行主体为监管系统进行具体说明。相应的,本技术实施例中安装有摄像头、用于利用摄像头实现所监管区域的图像采集的模块则可以称之为监控终端。
45.需要说明的是,指定区域为需要监管的区域,而监控终端安装的摄像头可以为全景摄像头,全景摄像头采集的图像则可以称之为全景图像;监控终端利用全景摄像头实现对指定区域的图像采集,然后将采集的全景图像传输给监管系统,以供监管系统实现相应的图像识别以供有效监管等操作。其中,利用全景摄像头实现指定区域的图像采集时能够确保在水平方向和垂直方向上摄像头的有效视野为360度全方位,进而保证利用全景摄像头即可实现指定区域360度全方位的图像采集及相应的监管操作,避免现有技术中需要使用摄像头数量众多及可能存在死角的缺点。另外,本技术实施例中的全景摄像头具体可以为vr设备,其实现图像采集时可以是采用全景vr技术实现的,全景vr又被称为3d实景,是一种新兴的富媒体技术,其可以利用多个单相机摄实景照片,经过特殊的拼合、处理,将360度的实景在一张图中展现,并且可搭配vr设备进行操作、交互,使得监管者可以远程对指定区域进行任意视角的监管,从而通过这种方式达到对监管的区域去除死角的效果。
46.s12:利用视觉识别模型对待识别图像进行计算机视觉识别,得到相应的视觉识别结果;其中,视觉识别模型为预先利用历史上针对指定区域采集得到的全景图像训练得到的。
47.本技术实施例在接收全景摄像头采集并传输的全景图像后,可以利用预先训练得到的视觉识别模型对全景图像进行计算机视觉识别,本技术实施例中对全景图像进行计算机视觉识别具体可以为对全景图像进行目标识别,从而得到全景图像中包含的需要识别的目标,如全景图像为路口的图像,则目标可以为车辆,全景图像为商场出入口,则目标可以为人员,当然根据实际需要进行的其他设定均在本发明的保护范围之内。目标识别与现有
技术中对应概念的含义相同,具体来说,目标识别为一个特殊目标(或一种类型的目标)从其它目标(或其它类型的目标)中被区分出来的过程,它既包括两个非常相似目标的识别,也包括一种类型的目标同其他类型目标的识别。
48.另外,可以预先获取当前时刻之前、距离当前时刻最近的一段时间内利用全景摄像头对指定区域进行拍摄得到的全景图像,然后将这些全景图像作为样本图像进行训练,以得到用于实现计算机视觉识别的视觉识别模型。
49.s13:将视觉识别结果进行展示,以供对指定区域进行监管。
50.监管者可以通过展示的视觉识别结果进行对指定区域的监管等操作。另外需要说明的是,在一种具体场景下,本技术中的指定区域可以为某个路口,而需要识别的目标则可以为该路口的车辆;在这种具体场景下,本技术实施例可以通过全景摄像头采集指定的路口的全景图像,然后对全景图像进行目标识别得到其中包含的指定的车辆,也即视觉识别结果,以使得监管者通过视觉识别结果实现对指定的路口的交通情况的监管;当然也可以根据实际需要应用到其他具体的应用场景,均在本发明的保护范围之内。
51.本技术利用全景摄像头实现需监管区域的全景图像的采集,进而基于采集到的全景图像实现相应计算机视觉识别,并将计算机视觉识别的视觉识别结果进行展示,以供监管者基于展示的视觉识别结果实现相应的监管。可见,本技术基于全景摄像头实现对需监管区域360度全方位的图像采集,不仅无需使用众多摄像头,且能够消除死角,进而能够实现对相应区域的有效监管。
52.另外,本技术预先训练得到视觉识别模型后,即可离线利用视觉识别模型随时实现全景图像的计算机视觉识别,从而便于快速简便的实现对全景图像的计算机视觉识别。
53.本发明实施例提供的一种图像识别方法,接收全景摄像头传输的全景图像,可以包括:
54.接收全景摄像头通过5g网络传输的全景图像。
55.本技术实施例中全景摄像头可以采集视频流,而采集到的视频流中每帧图像则为相应的全景图像。在一种具体方式中,监控终端及监管系统之间的通信可以基于5g通信技术实现,5g(5th generation mobile networks)是最新一代蜂窝移动通信技术,具有高数据速率、减少延迟、节省能源、降低成本、提高系统容量和支持大规模设备连接的特性。相应的,监控终端在采集到指定区域的全景图像后,可以通过5g网络将全景图像传输给监管系统,也即本技术使用5g最新一代蜂窝移动通信通道,以大带宽和低时延来解决4k/8k视频流的传输问题,实现视频流的高速保真传输;同时,由于5g通信技术的加持,使得可以应对超高分辨率的视频流传输,这使得在进行机器视觉识别时对于细小的目标也可以通过处理获得较好的分辨率来作为监管系统的输入。
56.本发明实施例提供的一种图像识别方法,利用视觉识别模型对待识别图像进行计算机视觉识别,得到相应的视觉识别结果,可以包括:
57.对待识别图像进行等距分割,得到相应的多个子待识别图像;
58.利用视觉识别模型同时对多个子待识别图像分别进行计算机视觉识别,得到相应的多个子视觉识别结果;
59.将多个子视觉识别结果按照对应子待识别图像在待识别图像中的位置进行拼接和填充,得到视觉识别结果。
60.需要说明的是,为了提高计算机视觉识别的识别效率,本技术实施例可以对待识别图像进行等距分割,得到对待识别图像进行等距分割后得到的多个图像块均作为子待识别图像,然后这多个子待识别图像以一一对应的方式同时输入至多个视觉识别模型中,得到这多个视觉识别模型输出的结果分别为子视觉识别结果后,将这些子视觉识别结果按照其对应子待识别图像在待识别图像中的位置进行拼接和填充,从而得到最终的视觉识别结果。其中,上述多个视觉识别模型均是按照相同的方式训练得到的,而将得到的全部子视觉识别结果进行拼接和填充,则为将每个子视觉识别结果填充至其对应子待识别图像在待识别图像中的位置处,然后将填充后的这些子视觉识别结果按照其对应子待识别图像在待识别图像中的位置依次拼接在一起,则可以得到总的视觉识别结果,如任意子视觉识别结果对应的子待识别图像位于待识别图像的左上角,则子视觉识别结果则位于总的视觉识别结果的左上角,任意子视觉识别结果对应的子待识别图像位于待识别图像的右上角,则子视觉识别结果则位于总的视觉识别结果的右上角,以此类推,每个子视觉识别结果均位于其对应子待识别图像在待识别图像中的对应位置处,则可以得到总的视觉识别结果。
61.另外,本技术实施例中可以利用进程锁来锁定用于实现子视觉识别结果拼接和填充的进程(该进程可以称为合并进程),以禁止其进行正常的子视觉识别结果拼接和填充的操作,直至全部子视觉识别结果均得到后再解除上述进程锁,以使得上述合并进程能够将多个子视觉识别结果按照对应子待识别图像在待识别图像中的位置进行拼接和填充,避免得到的视觉识别结果不完整。另外,每个控制基于子待识别图像得到子视觉识别结果的进程可以称为识别进程,识别进程可以具有相应的进程共享变量,如果任意识别进程能够得到相应子视觉识别结果,则利用进程共享变量返回相应的子视觉识别结果,否则,返回空,以表示子视觉识别结果出现问题,指示合并进程无需再等待该任意识别进程返回子视觉识别结果。可见,本技术为了让多个子待识别图像在模型内进行前向传导互不干扰,使用多进程并行处理一帧大图像的不同块,并使用进程共享变量和进程锁来确保程序的稳定性。
62.本发明实施例提供的一种图像识别方法,对待识别图像进行等距分割,得到相应的多个子待识别图像,可以包括:
63.对待识别图像进行等距分割,得到相应的多个子待识别图像,且在待识别图像中位于相邻位置的子待识别图像之间具有相应的重叠区域;
64.相应的,得到相应的多个子视觉识别结果之后,还可以包括:
65.针对子识别结果中与同一重叠区域对应的多个结果,仅保留该多个结果中符合预设要求的结果。
66.需要说明的是,本技术实施例针对超高分辨率的待识别图像,对待识别图像进行等距分割的同时还可以保证分割后所得区域之间有一定的重叠区域;相应的,对分割后的子待识别图像进行计算视觉识别,并在对所有子待识别图像作完检测识别后,再根据在待识别图像中的位置进行拼接和填充,对其中的重叠区域只保留重合物体的一个最好的结果,从而能够进一步保证对于图像识别的准确性。另外,视觉识别模型对任意子待识别图像进行计算机视觉识别后,得到的为该子待识别图像中任意位置是否存在需要检测的目标的概率,而保留最好的结果则为保留该概率最大的结果(即符合预设要求的结果),当然根据实际需要进行的其他设定也均在本发明的保护范围之内。
67.本发明实施例提供的一种图像识别方法,确定当前接收的全景图像为待识别图像
之后,还可以包括:
68.判断待识别图像是否为能够正常显示的图像,如果是,则执行利用视觉识别模型对待识别图像进行计算机视觉识别的步骤,如果否,则删除待识别图像,并继续执行接收全景摄像头传输的全景图像的步骤。
69.需要说明的是,本技术实施例中在对待识别图像进行计算机视觉识别之前,还可以判断待识别图像是否为能够正常显示的图像(如花屏则为无法正常显示的图像),如果是,则能够从待识别图像中识别到有效的信息,因此执行后续对其进行计算机视觉识别的步骤,否则,说明无法从待识别图像中识别到有效的信息,因此可以对全景图像直接进行删除,从而避免对无效的待识别图像的计算机视觉识别等操作,减少资源及时间的浪费。
70.本发明实施例提供的一种图像识别方法,预先利用历史上针对指定区域采集得到的全景图像训练得到视觉识别模型,可以包括:
71.获取历史上全景摄像头针对指定区域采集得到的多个全景图像为样本图像;
72.利用样本图像对基于深度学习的神经网络模型进行训练,得到相应的视觉识别模型。
73.需要说明的是,本技术实施例可以获取当前时刻之前、距离当前时刻最近的一段时间内全景摄像头对指定区域拍摄所得的多个全景图像,然后利用这些全景图像对基于深度学习的神经网络模型进行训练,从而得到相应的视觉识别模型。可见,本技术基于深度学习的神经网络实现图像识别工作,能够保证图像识别工作的准确性。
74.具体来说,针对本技术实施例中使用的基于深度学习的神经网络模型,网络结构采用的算法中保留神经网络模型的head部分,修改主干网络为cspdarknet53(如图2所示),同时采用spp的思想来扩大感受野,使用panet来作为neck部分。其中,cspdarknet53包含29个卷积层,725*725的感受野以及27.6m的参数量;原始的panet融合的时候使用的方法是addition,而在本技术实施例的算法中将加法操作改为了乘法;跨最小批的归一化(cross mini

batch normal),cbn是对当前以及当前往前数3个mini

batch的结果进行归一化,使用的神经网络模型在cbn的基础上改进;修改的sam,从sam的逐空间的attention,到逐点的attention。为了更加快速高效识别目标,可以使用提供的轻量级模型。
75.在目标检测和识别的过程中,以算法的回归框、置信度以及分类的损失值作为需要收敛的目标,在算法的后处理中通过调节iou以及置信度的阈值来过滤一些不可靠的结果。对于回归框的损失来说,由于为了检测不同视野下不同大小的物体,设计了3组视野下的基准框,分别负责8倍下采样、16倍数下采样、32倍下采样,将网络输出的结果框所在中心与对应的基准框进行对比,使用ciou loss在考虑了两个框中心点的距离的基础上做了更详细的度量,如:重叠面积和长宽比,有公式:
[0076][0077][0078]
其中,v度量了两个框的长宽比的距离,α是一个平衡系数,取值由iou和v共同决定,w
p
和h
p
都是归一化后的值;类型损失,在目标检测中一般采用交叉熵损失(binary_crossentropy),对每一个类别计算交叉熵损失再进行求和;置信度损失同样采用二元交叉
熵损失。
[0079]
本发明实施例提供的一种图像识别方法,利用样本图像对基于深度学习的神经网络模型进行训练之前,还可以包括:
[0080]
对样本图像进行图像增强处理。
[0081]
本技术为了进一步增强视觉识别模型的识别准确性,可以在样本图像的预处理上使用mosaic数据增强(如图3所示),把四张样本图像拼成一张图像来训练,变相的等价于增大了mini

batch,还可以通过以下手段:图像扰动、改变亮度、改变对比对、改变饱和度、改变色调、加噪声、随机缩放、随机裁剪、翻转、旋转以及随机擦除等手段,对样本图像的数据增强来加强视觉识别模型在生产环境下的鲁棒性和泛化性能。
[0082]
在一种具体实现方式中,本发明实施例提供的一种图像识别方法可以如图4所示,其中的分割是否有误也即为判断图像是否为能够正常显示的图像。可见,本发明采用vr全景技术来去除死角,使用全景摄像头可以确保在水平方向与垂直方向上摄像头的有效视野为360度全方位,加上5g通信技术的支撑,可以实现视频流的高速保真传输。同时,由于5g通信技术的加持,使得可以应对超高分辨率的视频流传输,这使得对于细小的目标可以通过处理获得较好的分辨率来作为监管系统的输入;通过vr设备的交互,监管者可以远程对监管现场进行任意视角的监管。
[0083]
本发明实施例还提供了一种图像识别装置,如图5所示,可以包括:
[0084]
接收模块11,用于:接收全景摄像头传输的全景图像,并确定当前接收的全景图像为待识别图像;全景图像为全景摄像头针对指定区域采集得到的;
[0085]
识别模块12,用于:利用视觉识别模型对待识别图像进行计算机视觉识别,得到相应的视觉识别结果;其中,视觉识别模型为预先利用历史上针对指定区域采集得到的全景图像训练得到的;
[0086]
展示模块13,用于:将视觉识别结果进行展示以供对指定区域进行监管。
[0087]
本发明实施例提供的一种图像识别装置,接收模块可以包括:
[0088]
接收单元,用于:接收全景摄像头通过5g网络传输的全景图像。
[0089]
本发明实施例提供的一种图像识别装置,识别模块可以包括:
[0090]
识别单元,用于:对待识别图像进行等距分割,得到相应的多个子待识别图像;利用视觉识别模型同时对多个子待识别图像分别进行计算机视觉识别,得到相应的多个子视觉识别结果;将多个子视觉识别结果按照对应子待识别图像在待识别图像中的位置进行拼接和填充,得到视觉识别结果。
[0091]
本发明实施例提供的一种图像识别装置,识别单元可以包括:识别子单元,用于:对待识别图像进行等距分割,得到相应的多个子待识别图像,且在待识别图像中位于相邻位置的子待识别图像之间具有相应的重叠区域;
[0092]
相应的,图像识别装置还可以包括:处理模块,用于:得到相应的多个子视觉识别结果之后,针对子识别结果中与同一重叠区域对应的多个结果,仅保留该多个结果中符合预设要求的结果。
[0093]
本发明实施例提供的一种图像识别装置,还可以包括:
[0094]
判断模块,用于:确定当前接收的全景图像为待识别图像之后,判断待识别图像是否为能够正常显示的图像,如果是,则执行利用视觉识别模型对待识别图像进行计算机视
觉识别的步骤,如果否,则删除待识别图像,并继续执行接收全景摄像头传输的全景图像的步骤。
[0095]
本发明实施例提供的一种图像识别装置,还可以包括:
[0096]
训练模块,用于:获取历史上全景摄像头针对指定区域采集得到的多个全景图像为样本图像;利用样本图像对基于深度学习的神经网络模型进行训练,得到相应的视觉识别模型。
[0097]
本发明实施例提供的一种图像识别装置,还可以包括:
[0098]
预处理模块,用于:利用样本图像对基于深度学习的神经网络模型进行训练之前,对样本图像进行图像增强处理。
[0099]
本发明实施例还提供了一种图像识别设备,可以包括:
[0100]
存储器,用于存储计算机程序;
[0101]
处理器,用于执行计算机程序时实现如上任一项图像识别方法的步骤。
[0102]
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项图像识别方法的步骤。
[0103]
需要说明的是,本发明实施例提供的一种图像识别装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种图像识别方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
[0104]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献