一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种车辆违法载人检测方法、装置、设备及存储介质与流程

2022-06-18 02:53:10 来源:中国专利 TAG:


1.本技术涉及智能交通技术领域,尤其涉及一种车辆违法载人检测方法、装置、设备及存储介质。


背景技术:

2.一些农用车辆(例如三轮车等)在农村属于最普遍的交通运输工具,可便于农民拉农资、跑生意等,有着极高的使用频率。但是,由于农用车辆的安全性和稳定性较差,对于载人运输有非常高的危害,一但发生意外,往往造成极为严重的交通事故;因此,相关法律明确规定:禁止农用车辆载人。
3.为了协助监督农用车辆的违法载人行为,保护人们的出行安全,如何快速有效地检测农用车辆是否违法载人,是一个亟待解决的问题。


技术实现要素:

4.本技术提供了一种车辆违法载人检测方法、装置、设备及存储介质,用以准确地检测农用车辆是否违法载人。
5.本技术实施例提供的具体技术方案如下:
6.第一方面,本技术实施例提供一种车辆违法载人检测方法,包括:
7.获取待检测的行车视频中的多帧行车图像;
8.对所述多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,所述目标车辆为限制载人的车辆;
9.若任意一帧行车图像的目标车辆检测结果包括目标车辆的检测信息,且行人检测结果包括多个行人的检测信息,则根据所述任意一帧行车图像的所述目标车辆的检测信息和每个行人的检测信息,确定所述任意一帧行车图像中的所述目标车辆与所述每个行人的位置关系及检测区域重叠度;
10.根据所述任意一帧行车图像中的所述目标车辆分别与所述多个行人的位置关系及检测区域重叠度,确定所述任意一帧行车图像中的所述目标车辆的载人判定结果;
11.基于获得的各帧行车图像各自对应的所述目标车辆的载人判定结果,确定所述目标车辆是否违法载人。
12.本技术实施例中,对行车视频中的多帧行车图像进行目标车辆检测和行人检测,针对每帧行车图像,如果检测到目标车辆和多个行人,则确定该帧行车图像中的目标车辆的载人判定结果,例如:载人状态或者未载人状态;然后,根据多帧行车图像的目标车辆的载人判定结果,确定目标车辆是否违法载人,这样,可以快速有效地检测目标车辆是否违法载人。
13.在一些可选的实施方式中,所述对所述多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果,包括:
14.通过目标检测模型对所述多帧行车图像分别进行目标车辆检测以及行人检测,得
到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,所述目标检测模型至少包括空间注意力机制网络和通道注意力机制网络,所述空间注意力机制网络和所述通道注意力机制网络用于关注行车图像中的行人可见区域。
15.本技术实施例中,考虑到行人被遮挡后容易漏检的问题,在目标检测模型中引入空间注意力机制和通道注意力机制,在检测行人时,可以重点关注行人的可见区域,避免行人漏检问题,提高行人检测的召回率,从而更准确地检测目标车辆是否违法载人。
16.在一些可选的实施方式中,所述目标检测模型还包括由多个依次连接的卷积层构成的特征金字塔网络、第一特征融合网络和第二特征融合网络;
17.第一个卷积层与所述空间注意力机制网络连接,多个卷积层中的部分卷积层、所述空间注意力机制网络分别与所述第一特征融合网络连接;
18.第二个卷积层与所述通道注意力机制网络连接,多个卷积层中的部分卷积层、所述通道注意力机制网络分别与所述第二特征融合网络连接。
19.上述结构的目标检测模型中,特征金字塔网络可以实现多尺度的细粒度特征提取,同时为了更好的实现行人和目标车辆的精准检测和分离,引入空间注意力机制和通道注意力机制,可以保证行人和目标车辆的检测准确性,避免漏检情况的发生,从而更准确地检测目标车辆是否违法载人。
20.在一些可选的实施方式中,所述目标检测网络是通过图像样本集对初始目标检测网络训练获得的,训练过程中的损失函数包括分类损失函数、回归损失函数和所述空间注意力机制网络的损失函数;
21.其中,所述回归损失函数将每个图像样本的预测行人区域与实际行人可见区域的交并比,作为该图像样本的损失值的权重。
22.在该实施方式中,对于一个图像样本,如果其预测行人区域与实际行人可见区域重叠较多,那么该图像样本产生的损失更为可信,可以分配较高的权重,反之则分配较低的权重;这样,可以使得训练得到的目标检测模型准确检测行人的可见区域,避免行人由于被遮挡造成的漏检问题,从而更准确地检测目标车辆是否违法载人。
23.在一些可选的实施方式中,所述目标车辆的检测信息包括目标车辆检测区域和所述目标车辆检测区域的位置信息,每个行人的检测信息包括行人检测区域和所述行人检测区域的位置信息;
24.所述根据所述任意一帧行车图像的所述目标车辆的检测信息和每个行人的检测信息,确定所述任意一帧行车图像中的所述目标车辆与所述每个行人的位置关系及检测区域重叠度,包括:
25.根据所述任意一帧行车图像中的所述目标车辆检测区域的位置信息和每个行人检测区域的位置信息,确定所述目标车辆检测区域与所述每个行人检测区域的中心坐标的位置关系;
26.将所述目标车辆检测区域与所述每个行人检测区域的中心坐标的位置关系,作为所述目标车辆与所述每个行人的位置关系;
27.确定所述目标车辆检测区域与每个行人检测区域的交集和并集的比值,并将所述交集和并集的比值作为所述目标车辆与所述每个行人的检测区域重叠度。
28.在上述实施方式中,根据每个行人的行人检测区域的中心坐标与相应的目标车辆
检测区域的位置关系,可以确定每个行人与相应的目标车辆的位置关系;根据目标车辆检测区域与每个行人检测区域的交集和并集的比值,可以确定目标车辆与每个行人的检测区域重叠度。
29.在一些可选的实施方式中,所述根据所述任意一帧行车图像中的所述目标车辆分别与所述多个行人的位置关系及检测区域重叠度,确定所述任意一帧行车图像中的所述目标车辆的载人判定结果,包括:
30.确定所述多个行人中,与所述目标车辆的检测区域重叠度达到预设值的目标行人;
31.若所述目标行人的数量超过预设数量,且每个目标行人的行人检测区域的中心坐标在所述目标车辆检测区域内,则确定所述任意一帧行车图像中的所述目标车辆为载人状态。
32.在上述实施方式中,在确定目标车辆的载人判定结果时,不仅考虑目标车辆与行人的位置关系,还考虑行人与目标车辆的检测区域重叠度;当一个行人与目标车辆的检测区域重叠度满足条件,且该行人的行人检测区域的中心坐标在该目标车辆检测区域内时,可以认为该行人在目标车辆上,否则认为该行人为过路行人,可以避免由过路行人造成的非法载人误检测。同时,考虑到目标车辆的驾驶员,当目标车辆上的行人数量超过预设数量时,认为目标车辆为载人状态。
33.在一些可选的实施方式中,所述基于获得的各帧行车图像各自对应的所述目标车辆的载人判定结果,确定所述目标车辆是否违法载人,包括:
34.若所述各帧行车图像中,所述目标车辆为载人状态的行车图像的数量占比达到预设占比,且所述目标车辆在所述各帧行车图像中处于非静止状态,则确定所述目标车辆违法载人。
35.在上述实施方式中,为了避免由于时空位置交叠引起的载人误检测,在目标车辆处于非静止状态时,根据多帧行车图像的目标车辆载人判定结果,确定目标车辆是否违法载人,可以提高目标车辆违法载人的检测准确性。
36.第二方面,本技术实施例提供一种车辆违法载人检测装置,包括:
37.获取模块,用于获取待检测的行车视频中的多帧行车图像;
38.检测模块,用于对所述多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,所述目标车辆为限制载人的车辆;
39.位置确定模块,用于若任意一帧行车图像的目标车辆检测结果包括目标车辆的检测信息,且行人检测结果包括多个行人的检测信息,则根据所述任意一帧行车图像的所述目标车辆的检测信息和每个行人的检测信息,确定所述任意一帧行车图像中的所述目标车辆与所述每个行人的位置关系及检测区域重叠度;
40.状态确定模块,用于根据所述任意一帧行车图像中的所述目标车辆分别与所述多个行人的位置关系及检测区域重叠度,确定所述任意一帧行车图像中的所述目标车辆的载人判定结果;
41.载人判定模块,用于基于获得的各帧行车图像各自对应的所述目标车辆的载人判定结果,确定所述目标车辆是否违法载人。
42.在一些可选的实施方式中,所述检测模块还用于:
43.通过目标检测模型对所述多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,所述目标检测模型至少包括空间注意力机制网络和通道注意力机制网络,所述空间注意力机制网络和所述通道注意力机制网络用于关注行车图像中的行人可见区域。
44.在一些可选的实施方式中,所述目标检测模型还包括由多个依次连接的卷积层构成的特征金字塔网络、第一特征融合网络和第二特征融合网络;
45.第一个卷积层与所述空间注意力机制网络连接,多个卷积层中的部分卷积层、所述空间注意力机制网络分别与所述第一特征融合网络连接;
46.第二个卷积层与所述通道注意力机制网络连接,多个卷积层中的部分卷积层、所述通道注意力机制网络分别与所述第二特征融合网络连接。
47.在一些可选的实施方式中,所述目标检测网络是通过图像样本集对初始目标检测网络训练获得的,训练过程中的损失函数包括分类损失函数、回归损失函数和所述空间注意力机制网络的损失函数;
48.其中,所述回归损失函数将每个图像样本的预测行人区域与实际行人可见区域的交并比,作为该图像样本的损失值的权重。
49.在一些可选的实施方式中,每个目标车辆的检测信息包括目标车辆检测区域和所述目标车辆检测区域的位置信息,每个行人的检测信息包括行人检测区域和所述行人检测区域的位置信息;
50.所述位置确定模块还用于:
51.根据所述任意一帧行车图像中的所述目标车辆检测区域的位置信息和每个行人检测区域的位置信息,确定所述目标车辆检测区域与所述每个行人检测区域的中心坐标的位置关系;
52.将所述目标车辆检测区域与所述每个行人检测区域的中心坐标的位置关系,作为所述目标车辆与所述每个行人的位置关系;
53.确定所述目标车辆检测区域与每个行人检测区域的交集和并集的比值,并将所述交集和并集的比值作为所述目标车辆与所述每个行人的检测区域重叠度。
54.在一些可选的实施方式中,所述状态确定模块还用于:
55.确定所述多个行人中,与所述目标车辆的检测区域重叠度达到预设值的目标行人;
56.若所述目标行人的数量超过预设数量,且每个目标行人的行人检测区域的中心坐标在所述目标车辆检测区域内,则确定所述任意一帧行车图像中的所述目标车辆为载人状态。
57.在一些可选的实施方式中,所述载人判定模块还用于:
58.若所述各帧行车图像中,所述目标车辆为载人状态的行车图像的数量占比达到预设占比,且所述目标车辆在所述各帧行车图像中处于非静止状态,则确定所述目标车辆违法载人。
59.第三方面,本技术实施例提供一种车辆违法载人检测设备,包括处理器以及数据接收单元;
60.数据接收单元被配置为:接收待检测的行车视频;
61.处理器被配置为:执行第一方面任一项所述的方法。
62.第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面任一项所述的方法。
63.第二方面至第四方面任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果,此处不再赘述。
附图说明
64.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
65.图1为本技术实施例中提供的一种车辆违法载人检测方法的应用场景示意图;
66.图2为本技术实施例中提供的一种车辆违法载人检测方法的流程图;
67.图3为本技术实施例中提供的一种目标车辆检测区域与行人检测区域的交并比示意图;
68.图4为本技术实施例中提供的一种行车图像的行人及目标车辆的检测示意图;
69.图5为本技术实施例中提供另一种车辆违法载人检测方法的流程图;
70.图6为本技术实施例中提供的一种目标检测模型的结构示意图;
71.图7为本技术实施例中提供的一种基于空间注意力机制的特征提取网络的结构示意图;
72.图8为本技术实施例中提供的一种基于通道注意力机制的特征提取网络的结构示意图;
73.图9为本技术实施例中提供的一种特征融合网络的结构示意图;
74.图10为本技术实施例中提供的一种车辆违法载人检测装置的结构示意图;
75.图11为本技术实施例中提供的一种检测设备的结构示意图。
具体实施方式
76.为了使本技术领域的人员更好地理解本技术中的技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
77.在本技术的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
78.在智能交通系统中,使用高清摄像机拍摄行车视频,并根据视频图像处理技术对
行车视频进行处理,可以检测车辆的违法驾驶行为。为了快速有效地检测农用车辆是否违法载人,本技术实施例提供一种车辆违法载人检测方法、装置、设备及存储介质,对行车视频中的多帧行车图像进行目标车辆和行人检测,针对每帧行车图像,如果检测到目标车辆和行人,则确定该帧行车图像中的目标车辆的载人判定结果,然后,根据多帧行车图像的目标车辆的载人判定结果,确定目标车辆是否违法载人,这样,可以快速有效地检测目标车辆是否违法载人。
79.下面对本技术实施例的车辆违法载人检测方法的应用场景进行示例性介绍。
80.参考图1,其为本技术实施例所提供的车辆违法载人检测方法的应用场景示意图。该应用场景包括摄像头100和检测设备200,摄像头100和检测设备200之间可以通过有线或无线的通信网络连接。
81.其中,检测设备200可以是任何可以进行视频图像处理的设备。摄像头100用于拍摄行车视频,并将行车视频实时发送给检测设备200,检测设备200在接收到行车视频后,可以对多帧行车图像进行目标车辆检测和行人检测,进而确定是否存在目标车辆违法载人行为。
82.下面结合附图和具体实施例对本技术的车辆违法载人检测方法进行详细介绍。
83.如图2所示,本技术实施例提供了一种车辆违法载人检测方法,可以由检测设备执行,包括以下步骤:
84.步骤s201,获取待检测的行车视频中的多帧行车图像。
85.其中,行车视频可以是摄像头拍摄得到的,通过对行车视频逐帧进行解码并编码成预设格式的行车图像,获得多帧行车图像。
86.需要说明的是,本技术实施例中,对于行车视频的采集和使用等,均符合国家相关法律法规要求。
87.步骤s202,对多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,目标车辆为限制载人的车辆。
88.本技术实施例中,目标车辆可以是不允许载人的车辆,例如三轮车、货运车等。对多帧行车图像分别进行检测时,可以每解码获得一帧行车图像,对该帧行车图像进行检测,也可以解码获得多帧行车图像后,再对多帧行车图像分别进行检测。具体地,可以通过目标检测模型对每帧行车图像进行目标车辆检测以及行人检测。
89.步骤s203,若任意一帧行车图像的目标车辆检测结果包括目标车辆的检测信息,且行人检测结果包括多个行人的检测信息,则根据任意一帧行车图像的目标车辆的检测信息和每个行人的检测信息,确定任意一帧行车图像中的目标车辆与每个行人的位置关系及检测区域重叠度。
90.其中,当任意一帧行车图像中包括目标车辆和行人时,通过对该行车图像进行目标车辆检测和行人检测,可以获得目标车辆的检测信息和行人的检测信息。考虑到目标车辆上有驾驶员,通常地,目标车辆的驾驶员的数量可以是一个或者两个;假设驾驶员的数量为1个,则当任意一帧行车图像中包括至少两个行人时,可以继续判断该行车图像中的目标车辆是否载人;此外,驾驶员的数量也可能为2个,此时当任意一帧行车图像中包括至少三个行人时,可以继续判断该行车图像中的目标车辆是否载人。
91.进一步地,根据目标车辆的检测信息和每个行人的检测信息,可以确定该目标车
辆和每个行人的位置关系及检测区域重叠度,根据该位置关系及检测区域重叠度,可以确定行人是否在目标车辆上。
92.需要说明的是,任意一帧行车图像中也可以包括多个目标车辆,此时,可以确定多个目标车辆各自与每个行人的位置关系,从而确定每个目标车辆上的行人的数量,本技术下面实施例中以一个目标车辆为例进行说明。
93.假设目标车辆上的驾驶员为一个,则当任意一帧行车图像中有目标车辆,但是只有一个行人时,可以不执行步骤s203以及下面的步骤s204,可以直接判定该帧行车图像中的目标车辆为未载人状态。
94.在上述步骤s203中,每个目标车辆的检测信息可以包括目标车辆检测区域和目标车辆检测区域的位置信息,每个行人的检测信息可以包括行人检测区域和行人检测区域的位置信息。
95.基于此,在执行上述步骤s203时,具体可以执行以下步骤a1-a3:
96.步骤a1、根据任意一帧行车图像中的目标车辆检测区域的位置信息和每个行人检测区域的位置信息,确定目标车辆检测区域与每个行人检测区域的中心坐标的位置关系。
97.其中,目标车辆检测区域与每个行人检测区域的中心坐标的位置关系包括:每个行人检测区域的中心坐标在目标车辆检测区域内,或者每个行人检测区域的中心坐标不在目标车辆检测区域内。
98.步骤a2、将目标车辆检测区域与每个行人检测区域的中心坐标的位置关系,作为目标车辆与每个行人的位置关系。
99.步骤a3、确定目标车辆检测区域与每个行人检测区域的交集和并集的比值,并将交集和并集的比值作为目标车辆与每个行人的检测区域重叠度。
100.示例性的,如图3所示,a表示行人检测区域,b表示目标车辆检测区域,目标车辆检测区域与行人检测区域的交集和并集的比值
101.步骤s204,根据任意一帧行车图像中的目标车辆分别与多个行人的位置关系及检测区域重叠度,确定任意一帧行车图像中的目标车辆的载人判定结果。
102.其中,根据目标车辆与每个行人的位置关系及检测区域重叠度,可以确定每个行人是否在目标车辆上,从而确定该目标车辆上的行人数量,当该行人数量大于预设数量(例如为1)时,可以确定该目标车辆载人。
103.通常地,当一个行人的行人检测区域的中心坐标在一个目标车辆检测区域内时,可以认为该行人在该目标车辆检测区域对应的目标车辆上。进一步地,为了更准确地确定目标车辆上的行人,避免过路行人造成的载人误检测,在考虑行人检测区域的中心坐标与目标车辆检测区域的位置关系的基础上,还可以同时考虑行人检测区域和目标车辆检测区域的重叠度,即行人检测区域和目标车辆检测区域的交集和并集的比值。
104.可选地,在执行上述步骤s204时,可以执行以下步骤b1-b2:
105.步骤b1、确定多个行人中,与目标车辆的检测区域重叠度达到预设值的目标行人。
106.其中,目标车辆与行人的检测区域重叠度即目标车辆检测区域与行人检测区域的交集和并集的比值(下面简称交并比)。上述预设值可以根据需要设置,例如为0.6、0.7等,在此不作限定。
107.步骤b2、若目标行人的数量超过预设数量,且每个目标行人的行人检测区域的中心坐标在目标车辆检测区域内,则确定任意一帧行车图像中的目标车辆为载人状态。
108.其中,预设数量可以是目标车辆的驾驶员的数量,通常为一个或两个,也就是说,当目标车辆上的行人数量超过驾驶员数量时,认为该目标车辆载人。在该实施方式中,当一个行人同时满足以下两个条件时,可以认为该行人在目标车辆上:条件一,行人检测区域与目标车辆检测区域的交并比达到预设值;条件二,行人检测区域的中心坐标在目标车辆检测区域内;相反地,当一个行人不满足上述两个条件中的一个时,认为该行人为目标车辆周边的过路行人。
109.示例性的,如图4所示,一帧行车图像中包括一个目标车辆检测区域和两个行人检测区域,这两个行人检测区域的中心坐标均在目标车辆检测区域内,并且,这两个行人检测区域各自与目标车辆检测区域的重叠度均达到预设值,此时,可以确定该帧行车图像中目标车辆为载人状态。
110.本技术实施例中,在确定目标车辆的载人判定结果时,不仅考虑目标车辆与行人的位置关系,还考虑行人检测区域与目标车辆区域的交并比,可以避免由过路行人造成的非法载人误检测。同时,考虑到目标车辆的驾驶员,当目标车辆上的行人数量超过预设数量时,认为目标车辆为载人状态。
111.步骤s205,基于获得的各帧行车图像各自对应的目标车辆的载人判定结果,确定目标车辆是否违法载人。
112.在获得包含该目标车辆的各帧行车图像后,当该目标车辆为载人状态的行车图像有多个时,可以确定该目标车辆违法载人,这样,可以避免由单帧行车图像的载人误检测导致的违法载人误判定。
113.可选地,步骤s205中确定目标车辆是否违法载人时,可以通过以下方式判定:
114.若包含目标车辆的各帧行车图像中,目标车辆为载人状态的行车图像的数量占比达到预设占比,且目标车辆在各帧行车图像中处于非静止状态,则确定目标车辆违法载人。
115.其中,预设占比可以根据需要设置。假设,预设占比为50%,在行车视频中的其中3秒出现某个目标车辆,且该目标车辆为非静止状态,通过检测这3秒行车视频中的各帧行车图像,获得各帧行车图像对应的该目标车辆的载人判定结果,如果超过50%的行车图像的载人判定结果为载人状态,则可以确定该目标车辆违法载人,此时可以推送告警信息。这样,可以避免由于时空位置交叠引起的单帧行车图像的载人误检测。
116.本技术实施例中,对连续多帧行车图像进行目标车辆和行人检测,针对每帧行车图像,如果检测到目标车辆和行人,则确定该帧行车图像中的目标车辆的载人判定结果,例如:载人状态或者未载人状态;然后,根据多帧行车图像的目标车辆的载人判定结果,确定目标车辆是否违法载人,这样,可以快速有效地检测目标车辆是否违法载人。
117.下面对上述步骤s202中,对行车图像进行目标车辆检测以及行人检测的方式进行示例性介绍。
118.在一些实施例中,如图5所示,上述步骤s202可以包括以下步骤:
119.步骤s2021,通过目标检测模型对多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,目标检测模型至少包括空间注意力机制网络和通道注意力机制网络,空间注意力机制网络和通道注意力机
制网络用于关注行车图像中的行人可见区域。
120.本技术实施例中,目标检测模型可以在目标检测网络的基础上,引入上述空间注意力机制网络和通道注意力机制网络,例如,目标检测网络可以是ssd(single shot multibox detector)目标检测网络或者其他目标检测网络,使得目标检测模型在检测行人时,更加关注行人可见区域,避免由于行人被遮挡而导致漏检,提高行人检测的召回率,从而更准确地检测目标车辆是否违法载人。
121.下面对本技术实施例中的目标检测模型的结构进行示例性介绍。
122.在一些可选的实施方式中,目标检测模型还包括由多个依次连接的卷积层构成的特征金字塔网络、第一特征融合网络和第二特征融合网络;
123.第一个卷积层与空间注意力机制网络连接,多个卷积层中的部分卷积层、空间注意力机制网络分别与第一特征融合网络连接;第二个卷积层与通道注意力机制网络连接,多个卷积层中的部分卷积层、通道注意力机制网络分别与第二特征融合网络连接。
124.示例性的,如图6所示,目标检测模型可以采用ssd目标检测模型作为基线网络模型,分别引入残差网络(residual network,resnet)、特征金字塔网络(feature pyramid networks,fpn)、空间注意力机制网络、通道注意力机制网络、第一特征融合网络和第二特征融合网络,对目标检测网络进行重构。
125.其中,特征金字塔网络包括conv3(convolution3,第3个卷积)、conv4、conv5、conv6_2(第6个卷积中的第2个卷积层)、conv7_2、conv8_2这几个卷积层,实现多尺度的细粒度特征提取。空间注意力机制网络、conv3、conv4、conv5构成残差网络,conv3与空间注意力机制网络连接,空间注意力机制网络、conv4、conv5分别与第一特征融合网络连接;conv4与通道注意力机制网络连接,通道注意力机制网络、conv5、conv6_2分别与第二特征融合网络连接。
126.本技术实施例考虑到行人被遮挡问题,在上述目标检测模型中引入空间注意力机制和通道注意力机制来重点关注行人未被遮挡的区域(即可见区域),增加行人关键部位的特征权重,从而避免背景遮挡等干扰信息的影响。针对目标检测中的分类和定位两个方面采用不同的注意力机制:在定位支路采用空间注意力机制,在分类支路采用通道注意力机制。
127.其中,空间注意力机制关注的是行人的可见区域的空间位置。如图7所示,空间注意力机制网络采用基于残差块的down-up(上下)堆栈沙漏特征提取网络来实现检测目标的关键特征信息的筛选,增加检测目标的上下文信息关联。堆栈沙漏特征提取网络的整个网络结构是全卷积组成形式,其中的max pool是指最大池化,pad 1表示边缘扩充为1,stride 2表示池化的步长为2;该网络结构首先采用下采样操作结合残差块对输入特征图进行压缩,在保留目标多尺度特征信息的同时能够有效完成噪声和背景信息的过滤。接下来通过双线性上采样操作来实现特征图的升维,确保特征图在通过残差注意力网络模块后能够输出指定维度的特征向量,支撑整个网络的后续卷积操作。
128.通道注意力机制关注的是行人的可见区域的特征通道,不同的特征通道编码了行人不同部位的特征。如图8所示,通道注意力机制网络首先对分类支路的特征向量分别进行全局池化和最大池化;将全局池化后的特征向量f
avg
和最大池化后的特征向量f
max
送入全连接层(fully connected layers,fc),对这两个权重向量进行“压缩”和“拉伸”操作,具体
地,将这两个特征向量依次输入fc1(尺度为1*1*16)和fc2(尺度为1*1*256),fc1和fc2之间采用修正线性单元(rectified linear unit,relu)进行激活,relu为神经元的激活函数;然后通过神经网络的激活函数sigmoid函数将特征向量的分量限制在0~1之间,并将通过全局池化和最大池化分别得到的特征向量进行加权融合,得到最终的特征表达。该方式与原始结构中仅使用平均池化操作不同,我们采用全局池化和最大池化的双通道操作方法,可以在保留每个通道平均特征的同时突出其主要特征,使得网络更加关注目标的可见部位。
129.进一步地,为了使空间注意力机制网络输出的目标特征图,在需要检测目标的位置提供上下文信息,可以将目标特征图与更高层次的上下文特征进行融合,其中,更高层次的上下文特征可以是上述图6中的conv4、conv5,通过第一特征融合网络将目标特征图和上下文特征进行融合。
130.同样地,为了使通道注意力机制网络输出的目标特征图,在需要检测目标的位置提供上下文信息,可以将目标特征图与更高层次的上下文特征进行融合,其中,更高层次的上下文特征可以是上述图6中的conv5、conv6_2,通过第二特征融合网络将目标特征图和上下文特征进行融合。
131.上述第一特征融合网络和第二特征融合网络的结构如图9所示,由于不同层的特征图具有不同的空间大小,无法直接进行加权融合操作,因此,在通过连接特征进行融合之前,对上下文特征执行反卷积,使它们具有与目标特征相同的空间大小,实现特征大小和通道数的对齐。同时,在连接特征之前的标准化操作是非常重要的,由于不同层中的每个特征值都有不同的尺度。因此,在每一层之后进行批处理归一化(例如通过l2范数进行归一化)和relu激活。最终通过叠加特征来连接目标特征和上下文特征。
132.本技术实施例的上述结构的目标检测模型,通过特征金字塔网络可以实现多尺度的细粒度特征提取,同时为了更好的实现行人和目标车辆的精准检测和分离,引入空间注意力机制和通道注意力机制,可以保证行人和目标车辆的检测准确性,避免漏检情况的发生,从而更准确地检测目标车辆是否违法载人。
133.上述目标检测网络是通过图像样本集对初始目标检测网络训练获得的,训练过程中的损失函数包括分类损失函数、回归损失函数和空间注意力机制网络的损失函数。其中,回归损失函数将每个图像样本的预测行人区域与实际行人可见区域的交并比,作为该图像样本的损失值的权重。
134.具体地,本技术实施例通过一个多任务损失函数联合地对各个网络进行参数调优,该损失函数由上述分类损失函数、回归损失函数和空间注意力机制网络的损失函数组成,如下式所示:
[0135][0136]
其中,lc(pn,pn*)为分类损失函数,基本形式为加权的交叉熵损失函数,其主要目的是改善基于回归的目标检测算法中的正负样本极端不平衡的问题;mc为在每个训练图像中预测出的所有目标框的数目;a表示能够检测出的类别的种类数,pn,pn*分别表示预测的第n个目标框的类别概率以及相应的实际类别;回归损失函数lr(t,t*)为回归损失函数,其可以根据不同遮挡程度自主设计权重的大小,通过将预测的目标框与实际的目标可见区域
边界框的交并比(intersection over ground truth,iog),代替预测的目标框与实际的目标区域边界框的交并比(intersection-over-union,iou),来计算每个正样本产生的损失函数权重,能够更好的处理目标遮挡问题;t和t*分别表示目标框的检测坐标框和真实坐标框;mr为所有目标框的数目中,仅考虑判断为背景的目标框的数目;la(m,m*)为空间注意力机制子网络的损失函数,其实际上是一个基于掩膜像素的交叉熵损失函数;分别为空间注意力机制生成的掩膜及其对应的掩膜标签;λ1和λ2是用来平衡子损失函数的参数,可以根据需要设置,例如均设为1。
[0137]
在训练过程中,为了进一步解决行人被遮挡导致的漏检问题,在计算回归损失函数时,对于正图像样本,通过将预测的行人边界框与实际行人可见区域边界框的交并比iog,作为该正图像样本产生损失函数的权重,即若预测的正图像样本边界框与行人可见区域重叠较多,那么它产生的损失更为可信,分配较高的权重,反之则分配较低的权重。这样,可以使得训练得到的目标检测模型准确检测行人的可见区域,避免行人由于被遮挡造成的漏检问题,从而更准确地检测目标车辆是否违法载人。
[0138]
如图10所示,基于相同的发明构思,本技术实施例提供一种车辆违法载人检测装置,包括:
[0139]
获取模块101,用于获取待检测的行车视频中的多帧行车图像;
[0140]
检测模块102,用于对多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,目标车辆为限制载人的车辆;
[0141]
位置确定模块103,用于若任意一帧行车图像的目标车辆检测结果包括目标车辆的检测信息,且行人检测结果包括多个行人的检测信息,则根据任意一帧行车图像的目标车辆的检测信息和每个行人的检测信息,确定任意一帧行车图像中的目标车辆与每个行人的位置关系及检测区域重叠度;
[0142]
状态确定模块104,用于根据任意一帧行车图像中的目标车辆分别与多个行人的位置关系及检测区域重叠度,确定任意一帧行车图像中的目标车辆的载人判定结果;
[0143]
载人判定模块105,用于基于获得的各帧行车图像各自对应的目标车辆的载人判定结果,确定目标车辆是否违法载人。
[0144]
在一些可选的实施方式中,检测模块102还用于:
[0145]
通过目标检测模型对多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,目标检测模型至少包括空间注意力机制网络和通道注意力机制网络,空间注意力机制网络和通道注意力机制网络用于关注行车图像中的行人可见区域。
[0146]
在一些可选的实施方式中,目标检测模型还包括由多个依次连接的卷积层构成的特征金字塔网络、第一特征融合网络和第二特征融合网络;
[0147]
第一个卷积层与空间注意力机制网络连接,多个卷积层中的部分卷积层、空间注意力机制网络分别与第一特征融合网络连接;
[0148]
第二个卷积层与通道注意力机制网络连接,多个卷积层中的部分卷积层、通道注意力机制网络分别与第二特征融合网络连接。
[0149]
在一些可选的实施方式中,目标检测网络是通过图像样本集对初始目标检测网络训练获得的,训练过程中的损失函数包括分类损失函数、回归损失函数和空间注意力机制
网络的损失函数;
[0150]
其中,回归损失函数将每个图像样本的预测行人区域与实际行人可见区域的交并比,作为该图像样本的损失值的权重。
[0151]
在一些可选的实施方式中,目标车辆的检测信息包括目标车辆检测区域和目标车辆检测区域的位置信息,每个行人的检测信息包括行人检测区域和行人检测区域的位置信息;
[0152]
位置确定模块103还用于:
[0153]
根据任意一帧行车图像中的目标车辆检测区域的位置信息和每个行人检测区域的位置信息,确定目标车辆检测区域与每个行人检测区域的中心坐标的位置关系;
[0154]
将目标车辆检测区域与每个行人检测区域的中心坐标的位置关系,作为目标车辆与每个行人的位置关系;
[0155]
确定目标车辆检测区域与每个行人检测区域的交集和并集的比值,并将交集和并集的比值作为目标车辆与每个行人的检测区域重叠度。
[0156]
在一些可选的实施方式中,状态确定模块104还用于:
[0157]
确定多个行人中,与目标车辆的检测区域重叠度达到预设值的目标行人;
[0158]
若目标行人的数量超过预设数量,且每个目标行人的行人检测区域的中心坐标在目标车辆检测区域内,则确定任意一帧行车图像中的目标车辆为载人状态。
[0159]
在一些可选的实施方式中,载人判定模块105还用于:
[0160]
若各帧行车图像中,目标车辆为载人状态的行车图像的数量占比达到预设占比,且目标车辆在各帧行车图像中处于非静止状态,则确定目标车辆违法载人。
[0161]
由于上述装置解决问题的原理与车辆违法载人方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
[0162]
如图11所示,基于相同的发明构思,本技术实施例提供一种车辆违法载人检测设备,该检测设备包括:处理器1101以及数据接收单元1102。
[0163]
上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0164]
数据接收单元1102被配置为:接收待检测的行车视频;
[0165]
处理器1101被配置为:
[0166]
获取待检测的行车视频中的多帧行车图像;
[0167]
对多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,目标车辆为限制载人的车辆;
[0168]
若任意一帧行车图像的目标车辆检测结果包括目标车辆的检测信息,且行人检测结果包括多个行人的检测信息,则根据任意一帧行车图像的目标车辆的检测信息和每个行人的检测信息,确定任意一帧行车图像中的目标车辆与每个行人的位置关系及检测区域重叠度;
[0169]
根据任意一帧行车图像中的目标车辆分别与多个行人的位置关系及检测区域重叠度,确定任意一帧行车图像中的目标车辆的载人判定结果;
[0170]
基于获得的各帧行车图像各自对应的目标车辆的载人判定结果,确定目标车辆是否违法载人。
[0171]
在一些示例性的实施方式中,对多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果时,处理器1101还被配置为:
[0172]
通过目标检测模型对多帧行车图像分别进行目标车辆检测以及行人检测,得到多帧行车图像各自的目标车辆检测结果和行人检测结果;其中,目标检测模型至少包括空间注意力机制网络和通道注意力机制网络,空间注意力机制网络和通道注意力机制网络用于关注行车图像中的行人可见区域。
[0173]
在一些示例性的实施方式中,目标检测模型还包括由多个依次连接的卷积层构成的特征金字塔网络、第一特征融合网络和第二特征融合网络;
[0174]
第一个卷积层与空间注意力机制网络连接,多个卷积层中的部分卷积层、空间注意力机制网络分别与第一特征融合网络连接;
[0175]
第二个卷积层与通道注意力机制网络连接,多个卷积层中的部分卷积层、通道注意力机制网络分别与第二特征融合网络连接。
[0176]
在一些示例性的实施方式中,目标检测网络是通过图像样本集对初始目标检测网络训练获得的,训练过程中的损失函数包括分类损失函数、回归损失函数和空间注意力机制网络的损失函数;
[0177]
其中,回归损失函数将每个图像样本的预测行人区域与实际行人可见区域的交并比,作为该图像样本的损失值的权重。
[0178]
在一些示例性的实施方式中,每个目标车辆的检测信息包括目标车辆检测区域和目标车辆检测区域的位置信息,每个行人的检测信息包括行人检测区域和行人检测区域的位置信息;
[0179]
根据任意一帧行车图像的目标车辆的检测信息和每个行人的检测信息,确定任意一帧行车图像中的目标车辆与每个行人的位置关系及检测区域重叠度时,处理器1101具体被配置为:
[0180]
根据任意一帧行车图像中的目标车辆检测区域的位置信息和每个行人检测区域的位置信息,确定目标车辆检测区域与每个行人检测区域的中心坐标的位置关系;
[0181]
将目标车辆检测区域与每个行人检测区域的中心坐标的位置关系,作为目标车辆与每个行人的位置关系;
[0182]
确定目标车辆检测区域与每个行人检测区域的交集和并集的比值,并将交集和并集的比值作为目标车辆与每个行人的检测区域重叠度。
[0183]
在一些示例性的实施方式中,根据任意一帧行车图像中的目标车辆分别与多个行人的位置关系及检测区域重叠度,确定任意一帧行车图像中的目标车辆的载人判定结果时,处理器1101还被配置为:
[0184]
确定多个行人中,与目标车辆的检测区域重叠度达到预设值的目标行人;
[0185]
若目标行人的数量超过预设数量,且每个目标行人的行人检测区域的中心坐标在目标车辆检测区域内,则确定任意一帧行车图像中的目标车辆为载人状态。
[0186]
在一些示例性的实施方式中,基于获得的各帧行车图像各自对应的目标车辆的载
人判定结果,确定目标车辆是否违法载人时,处理器1101具体被配置为:
[0187]
若各帧行车图像中,目标车辆为载人状态的行车图像的数量占比达到预设占比,且目标车辆在各帧行车图像中处于非静止状态,则确定目标车辆违法载人。
[0188]
本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行上述实施例的任一种车辆违法载人检测方法。
[0189]
上述实施例中的计算机可读存储介质可以是设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(mo)等、光学存储器如cd、dvd、bd、hvd等、以及半导体存储器如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd)等。
[0190]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0191]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0192]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0193]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0194]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献