图像检测方法及装置、电子设备和存储介质与流程

2022-11-14 02:16:53 来源：中国专利 TAG：

1.本公开涉及计算机视觉技术领域，尤其涉及一种图像检测方法及装置、电子设备和存储介质。

背景技术：

2.随着电动自行车的普及以及外卖行业的蓬勃发展，电动自行车逐渐成为人们短途通勤的首选。但是，在驾驶电动自行车的过程中，往往存在驾驶员贪图便捷，为抄近路直接驶入人行道的情况。而人行道内行人密度大，部分行人习惯低头浏览手机内容，未注意观测路面信息，不能及时做出行为反馈，而此时驶入人行道的电动自行车又往往速度很快，甚至存在逆行的情况，难以及时准确的避开所有行人，因而造成了大量电动自行车与行人相撞的事故，给行人的安全造成了很大威胁。这一现象越来越成为大型城市亟待解决的监管问题。
3.目前部分特大型城市已经开展了人工监管的工作，禁止驾驶员在人行道内骑行非机动车，人行道内仅允许下车推行通过。然而，人工监管需要消耗大量的人力成本，难以确保监管效力，覆盖范围有限，驾驶员往往仅在人工监管的路口，或者监管员视野范围附近下车推行，通过监管检查后会继续在人行道内骑行。而自动监管此类问题仍处于萌芽状态，尚未存在成熟解决方案。

技术实现要素：

4.本公开提出了一种图像检测技术方案。
5.根据本公开的一方面，提供了一种图像检测方法，包括：获取待处理图像；对所述待处理图像进行语义分割，得到语义分割结果，所述语义分割结果包括人行道区域；根据所述语义分割结果，对所述待处理图像进行目标识别，得到目标识别结果；在所述目标识别结果包括至少一个交通参与者区域，和/或，至少一个非机动车区域的情况下，根据所述语义分割结果和所述目标识别结果，确定检测结果，所述检测结果用于表征人行道中是否存在违规行为。
6.在一种可能的实现方式中，所述根据所述语义分割结果和所述目标识别结果，确定检测结果，包括：所述根据所述语义分割结果和所述目标识别结果，判断所述非机动车区域是否位于所述人行道区域的范围内，以及判断是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车；在所述非机动车区域位于所述人行道区域的范围内，且存在驾驶员正在驾驶所述非机动车的情况下，所述检测结果为存在违规行为。
7.在一种可能的实现方式中，判断所述非机动车区域是否位于所述人行道区域的范围内，包括：根据所述非机动车区域，确定所述非机动车区域的车轮区域；判断所述车轮区域是否位于所述人行道区域的范围内；在所述车轮区域位于所述人行道区域的范围内的情况下，所述非机动车区域位于所述人行道区域的范围内。
8.在一种可能的实现方式中，判断所述车轮区域是否位于所述人行道区域的范围
内，包括：根据所述车轮区域与所述人行道区域的重合面积，确定预测阈值；在所述预测阈值大于预设的判断阈值的情况下，判断所述非机动车区域位于所述人行道区域的范围内。
9.在一种可能的实现方式中，判断所述车轮区域是否位于所述人行道区域的范围内，包括：确定所述车轮区域与所述非机动车区域的相对位置、所述车轮区域与所述非机动车区域的相对大小、所述车轮区域与所述人行道区域的重合区域占所述非机动车区域的比例；将所述车轮区域与所述非机动车区域的相对位置、所述车轮区域与所述非机动车区域的相对大小、所述车轮区域与所述人行道区域的重合区域占所述非机动车区域的比例，输入训练好的二分类模型，得到所述二分类模型的分类结果；其中，所述分类结果的类别包括车轮区域位于所述人行道区域的范围内、车轮区域不位于所述人行道区域的范围内。
10.在一种可能的实现方式中，所述判断是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车，包括：确定所述非机动车区域的第一中心点，以及所述非机动车区域附近的至少一个交通参与者区域的第二中心点；从至少一个第二中心点中，寻找所述第一中心点的匹配中心点，所述匹配中心点为与所述第一中心点在水平方向的距离最近，并且空间距离最近的第二中心点；在所述第一中心点的竖直坐标值小于匹配中心点的竖直坐标值的情况下，判断驾驶员正在驾驶所述非机动车。
11.在一种可能的实现方式中，对所述待处理图像进行语义分割，得到语义分割结果，包括：将所述待处理图像分割成n个图像子块，n为大于1的整数；根据n个图像子块，以及每个图像子块的位置信息，确定具有位置编码的输入序列；将所述输入序列输入编码器进行编码处理，得到具有语义上下文信息的编码序列；将所述编码序列和类嵌入信息输入解码器进行解码处理，得到语义分割结果；根据所述语义分割结果，对所述待处理图像进行目标识别，得到目标识别结果，包括：将所述语义分割结果输入目标识别网络中进行目标识别处理，得到所述待处理图像的目标待识别结果。
12.在一种可能的实现方式中，在所述根据所述语义分割结果和所述目标识别结果，确定检测结果之后，所述方法还包括：确定违规行为的违规状态信息，所述违规状态信息包括超速、逆行、违规载人、未戴头盔中的至少一种，和/或，对存在违规行为的交通参与者进行人脸识别，确定所述存在违规行为的交通参与者的身份信息，和/或，对存在违规行为的非机动车进行车牌识别，确定所述存在违规行为的非机动车的车牌信息；将所述违规状态信息、所述身份信息、所述车牌信息中的至少一种，上传至数据库。
13.根据本公开的一方面，提供了一种图像检测装置，包括：获取模块，用于获取待处理图像；语义分割模块，用于对所述待处理图像进行语义分割，得到语义分割结果，所述语义分割结果包括人行道区域；目标识别模块，用于根据所述语义分割结果，对所述待处理图像进行目标识别，得到目标识别结果；检测模块，用于在所述目标识别结果包括至少一个交通参与者区域，和/或，至少一个非机动车区域的情况下，根据所述语义分割结果和所述目标识别结果，确定检测结果，所述检测结果用于表征人行道中是否存在违规行为。
14.在一种可能的实现方式中，所述检测模块用于：所述根据所述语义分割结果和所述目标识别结果，判断所述非机动车区域是否位于所述人行道区域的范围内，以及判断是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车；在所述非机动车区域位于所述人行道区域的范围内，且存在驾驶员正在驾驶所述非机动车的情况下，所述检测结果为存在违规行为。
15.在一种可能的实现方式中，判断所述非机动车区域是否位于所述人行道区域的范围内，包括：根据所述非机动车区域，确定所述非机动车区域的车轮区域；判断所述车轮区域是否位于所述人行道区域的范围内；在所述车轮区域位于所述人行道区域的范围内的情况下，所述非机动车区域位于所述人行道区域的范围内。
16.在一种可能的实现方式中，判断所述车轮区域是否位于所述人行道区域的范围内，包括：根据所述车轮区域与所述人行道区域的重合面积，确定预测阈值；在所述预测阈值大于预设的判断阈值的情况下，判断所述非机动车区域位于所述人行道区域的范围内。
17.在一种可能的实现方式中，判断所述车轮区域是否位于所述人行道区域的范围内，包括：确定所述车轮区域与所述非机动车区域的相对位置、所述车轮区域与所述非机动车区域的相对大小、所述车轮区域与所述人行道区域的重合区域占所述非机动车区域的比例；将所述车轮区域与所述非机动车区域的相对位置、所述车轮区域与所述非机动车区域的相对大小、所述车轮区域与所述人行道区域的重合区域占所述非机动车区域的比例，输入训练好的二分类模型，得到所述二分类模型的分类结果；其中，所述分类结果的类别包括车轮区域位于所述人行道区域的范围内、车轮区域不位于所述人行道区域的范围内。
18.在一种可能的实现方式中，所述判断是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车，包括：确定所述非机动车区域的第一中心点，以及所述非机动车区域附近的至少一个交通参与者区域的第二中心点；从至少一个第二中心点中，寻找所述第一中心点的匹配中心点，所述匹配中心点为与所述第一中心点在水平方向的距离最近，并且空间距离最近的第二中心点；在所述第一中心点的竖直坐标值小于匹配中心点的竖直坐标值的情况下，判断驾驶员正在驾驶所述非机动车。
19.在一种可能的实现方式中，所述语义分割模块用于：将所述待处理图像分割成n个图像子块，n为大于1的整数；根据n个图像子块，以及每个图像子块的位置信息，确定具有位置编码的输入序列；将所述输入序列输入编码器进行编码处理，得到具有语义上下文信息的编码序列；将所述编码序列和类嵌入信息输入解码器进行解码处理，得到语义分割结果；所述目标识别模块用于：将所述语义分割结果输入目标识别网络中进行目标识别处理，得到所述待处理图像的目标待识别结果。
20.在一种可能的实现方式中，所述装置还包括上传模块，用于在所述根据所述语义分割结果和所述目标识别结果，确定检测结果之后，确定违规行为的违规状态信息，所述违规状态信息包括超速、逆行、违规载人、未戴头盔中的至少一种，和/或，对存在违规行为的交通参与者进行人脸识别，确定所述存在违规行为的交通参与者的身份信息，和/或，对存在违规行为的非机动车进行车牌识别，确定所述存在违规行为的非机动车的车牌信息；将所述违规状态信息、所述身份信息、所述车牌信息中的至少一种，上传至数据库。
21.根据本公开的一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。
22.根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。
23.在本公开实施例中，可对获取的待处理图像进行语义分割，得到语义分割结果，并根据该语义分割结果，对待处理图像进行目标识别，得到目标识别结果，可在目标识别结果
包括至少一个交通参与者区域，和/或，至少一个非机动车区域的情况下，根据语义分割结果和目标识别结果，确定用于表征人行道中是否存在违规行为的检测结果，实现了实时、有效、成本低廉且适宜大范围推广的自动监管人行道上非机动车的违规驾驶。
24.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。
附图说明
25.此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。
26.图1示出根据本公开实施例的图像检测方法的流程图。
27.图2示出根据本公开实施例的目标识别网络的示意图。
28.图3示出根据本公开实施例的目标识别结果的示意图。
29.图4示出根据本公开实施例的确定检测结果的示意图。
30.图5示出根据本公开实施例的图像检测装置的框图。
31.图6示出根据本公开实施例的一种电子设备的框图。
32.图7示出根据本公开实施例的另一种电子设备的框图。
具体实施方式
33.以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。
34.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
35.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括a、b、c中的至少一种，可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
36.另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。
37.相关技术中，可基于视觉方法检测非机动车在常规行驶过程中，是否存在车辆超速、逆行、压线行驶等违规行为。然而，相关技术大多是基于车道线检测及分割的方法，对非机动车的行驶范围进行判定，仅适用于非机动车在非机动车道路(具有车道线)上的行驶状态。
38.考虑到人行道往往不具有车道线这样显著的特征，纹理信息往往并不丰富，上述方法无法直接适用于人行道上违规行驶状态的检测。
39.有鉴于此，为了适用于人行道上违规行驶状态的检测场景，本公开提供了一种图像检测方法，可对获取的待处理图像进行语义分割，得到语义分割结果，并根据该语义分割
结果，对待处理图像进行目标识别，得到目标识别结果，可在目标识别结果包括至少一个交通参与者区域，和/或，至少一个非机动车区域的情况下，根据语义分割结果和目标识别结果，确定用于表征人行道中是否存在违规行为的检测结果，实现了实时、有效、成本低廉且适宜大范围推广的自动监管人行道上非机动车的违规驾驶。
40.图1示出根据本公开实施例的图像检测方法的流程图，如图1所示，所述图像检测方法包括：在步骤s11中，获取待处理图像。
41.在步骤s12中，对所述待处理图像进行语义分割，得到语义分割结果，所述语义分割结果包括人行道区域。
42.在步骤s13中，根据所述语义分割结果，对所述待处理图像进行目标识别，得到目标识别结果。
43.在步骤s14中，在所述目标识别结果包括至少一个交通参与者区域，和/或，至少一个非机动车区域的情况下，根据所述语义分割结果和所述目标识别结果，确定检测结果，所述检测结果用于表征人行道中是否存在违规行为。
44.在一种可能的实现方式中，所述图像检测方法可以由终端设备或服务器等电子设备执行，终端设备可以为用户设备(user equipment，ue)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(personal digital assistant，pda)、手持设备、计算设备、车载设备、可穿戴设备等，所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者，可通过服务器执行所述方法。
45.在一种可能的实现方式中，该图像检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。在一个示例中，该处理器可以为通用处理器如中央处理器(cpu，central processing unit)、图形处理器(gpu，graphics processing unit)、特定应用集成电路(application-specific integrated circuit，asic)等，也可以为人工智能处理器，如人工智能(ai，artificial intelligence)芯片等，例如：神经网络处理器(neural processing unit，npu)。
46.在一种可能的实现方式中，在步骤s11中，获取包含人行道的待处理图像。其中，待处理图像可以是电子设备获取的任意一个图像。电子设备可以对当前场景进行图像采集，得到一个或多个待处理图像。或者，电子设备可以在视频文件中包括的多个图像帧中选择一个或多个图像帧作为待处理图像。在一些实现方式中，电子设备可以从其他设备获取一个或多个待处理图像。
47.优选地，为了降低成本，提高检测的实时性，可利用城市道路监管预先架设的摄像头，将其实时采集道路视频流中的一个或多个图像帧作为待处理图像。
48.在步骤s11获取到待处理图像，可在步骤s12中，对待处理图像进行语义分割(semantic segmentation)，得到语义分割结果。
49.示例性地，可以将待处理图像输入训练好的语义分割网络中进行语义分割处理，根据语义信息对输入的待处理图像进行像素级别的图像分类，从预设的标签集(例如包括人行道、公路、建筑物等)中预测出每个像素的语义类别标签，以将待处理图像中的每个像素链接到对应的类别标签，得到待处理图像的语义分割结果。其中，在语义分割结果中，由类别标签为人行道的像素所构成的区域，即人行道区域。
50.示例性地，语义分割网络可是一个基于编码器-解码器结构的神经网络。编码器可
以是一个预训练的分类网络，例如全卷积网络(fully convolutional networks，fcn)、深度残差网络(deep residual network，resnet)等；解码器用于将编码器学习到的可判别特征(较低分辨率)从语义上投影到像素空间(较高分辨率)，以获得更密集的分类。
51.考虑到语义分割不仅在像素级有判别能力，还可以将编码器在不同阶段学到的可判别特征投影到像素空间(即映射回原图大小)的机制。不同的架构可采用不同的机制(例如跳跃连接、金字塔池化等)作为解码器的一部分，本公开对此不作限制。
52.在步骤s12得到了语义分割结果，可在步骤s13中，根据语义分割结果，对待处理图像进行目标识别，得到目标识别结果。
53.示例性地，在人行道上没有交通参与者以及非机动车的场景下，目标识别结果可以不包括交通参与者区域以及非机动车区域；在人行道上存在交通参与者以及非机动车的场景下，目标识别结果可以包括至少一个交通参与者区域，和/或，至少一个非机动车区域。其中，交通参与者可包括行人、驾驶员、乘车人等与交通发生直接或间接关系的人，非机动车区域可包括自行车、电动自行车、三轮车等。
54.示例性地，可将语义分割结果输入训练好的目标识别网络中进行目标识别处理，得到待处理图像的目标待识别结果。其中，目标识别网络可以包括下述至少一种：卷积神经网络(convolutional neural networks，cnn)、循环神经网络(recurrent neural network，rnn)、深度神经网络(deep neural networks，dnn)、基于深度学习的yolo网络(you only look once，yolo)、残差网络(residual networks，resnets)、反向传播神经网络(back propagation，bp)、骨干神经网络(backbone neural network)等。
55.示例性地，在目标识别网络包括卷积神经网络的情况下，还可选用轻量化网络(mobilenet)作为卷积神经网络基础模型，在mobilenet的基础上，增加其他网络结构，构成卷积神经网络。由于mobilenet体积小、数据处理速度快，其训练速度较快，而且，训练得到的目标状态的神经网络同样具有体积小、数据处理速度快的优势，更适于部署在嵌入式设备中。
56.应当理解，上述目标识别网络的网络结构仅为一种示例，可包括多个卷积层、多个池化层、多个全连接层等，其网络结构的具体构建方式和结构可以按照实际情况确定，上述示例不构成对本公开实施例的限定。
57.在步骤s14中，如果目标识别结果包括至少一个交通参与者区域，和/或，至少一个非机动车区域，可根据语义分割结果和目标识别结果，确定检测结果，例如可以分析语义分割结果包括的人行道区域，以及目标识别结果中包括的交通参与者区域、非机动车区域，通过分析这些区域之间的相互关系，判断是否存在驾驶员正在人行道驾驶非机动车，得到用于表征人行道中是否存在违规行为的检测结果。
58.应当理解，如果步骤s13得到的目标识别结果不包括交通参与者区域以及非机动车区域，说明人行道上没有交通参与者以及非机动车，不会存在违规行为，在这种情况下，为了提高效率，减少对计算资源的消耗，可以不进行更深入的计算(例如不执行步骤s14)，可以直接确定出人行道中不存在违规行为的检测结果。
59.这样，通过步骤s11～s14，可实现实时、有效、成本低廉且适宜大范围推广的自动监管人行道上非机动车的违规驾驶。
60.下面对本公开实施例的图像检测方法进行展开说明。
61.在步骤s11获取到待处理图像，可在步骤s12中，将获取的待处理图像输入语义分割网络中进行语义分割处理，得到待处理图像的语义分割结果。
62.在一种可能的实现方式中，可将待处理图像输入语义分割网络中进行语义分割处理，得到所述待处理图像的语义分割结果，所述语义分割网络包括编码器和解码器。
63.对比相关技术中，语义分割算法可基于全卷积网络(fully convolutional networks，fcn)结合编码器-解码器的结构，此类算法因依托卷积神经网络，处理过程偏向于局部交互，对于待处理图像上下文信息的捕捉能力较弱。而人行道场景较为复杂，尤其是人行道往往不具有斑马线、车道线等明显特征，如果没有提供较强的全局上下文信息进行辅助判断，会导致分割的结果不够准确。
64.本公开的实施例可采用一种无需卷积神经网络的语义分割网络。该语义分割网络可以是一种基于自我关注的、用于序列的神经网络结构，并结合编码器-解码器结构对图像进行分割，可以捕获场景元素之间的全局交互信息，在人行道场景下，分割效果明显优于基于全卷积网络的方法。
65.下面分别从编码阶段和解码阶段对本公开实施例的语义分割网络进行示例性说明。
66.示例性地，可将所述待处理图像分割成n个图像子块，n为大于1的整数；根据n个图像子块，以及每个图像子块的位置信息，确定具有位置编码的输入序列；将所述输入序列输入编码器进行编码处理，得到具有语义上下文信息的编码序列；将所述编码序列和类嵌入信息输入解码器进行解码处理，得到语义分割结果。
67.在编码阶段，可以将待处理图像分割成若干图像子块，并将其拉成一条图像序列。
68.例如：可将一个大小为h
×w×
c的待处理图像分割成n个p
×
p
×
c大小的图像子块，其中，h和w分别为待处理图像的高度和宽度，p为分割成的每个图像子块的边长，c为通道数量，n为图像子块的数量，即：n＝(h
×
w)/p2。
69.可将这n个图像子块压平成一维向量，并将每个图像子块对应的携带有位置信息的位置编码加入一维向量，也即，将这n个图像子块映射为具有位置编码的嵌入式补丁的输入序列z0∈rn×d，其中，n为输入序列z0的数量，d为每个输入序列z0的序列长度。
70.然后，可以使用编码器将具有位置编码的输入序列z0∈rn×d，映射至具有丰富语义上下文信息的编码序列z
l
∈rn×d。
71.其中，编码器可以是由一个多头自注意(multi-headed self-attention，msa)块和多层感知(multilayer perceptron，mlp)块(例如两层的点向mlp块)组成，在每个块之前可应用层标准化(layernorm，ln)，在每个块之后可应用残差连接(skip connect)来连接输入与输出，编码逻辑可表示如下：
72.a
i-1
＝msa(ln(z
i-1
)) z
i-1
73.zi＝mlp(ln(a
i-1
) a
i-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
74.在公式(1)中，i代表当前第i轮迭代过程，i∈{1,
…
,l}，z
i-1
代表第i轮编码器的输入序列，zi代表第i轮编码器的输出序列，msa代表多头自注意块，mlp代表多层感知块，ln代表层标准化函数。
75.其中，多头自注意力块可以表示为：
76.77.在公式(2)中，d代表输入序列的长度，q，k，v为三个权重矩阵，查询矩阵q代表从训练样本中学习到的特征矩阵，k矩阵代表输入序列的特征矩阵，v矩阵与k矩阵相等，可利用查询矩阵q和k矩阵进行相似度计算，并利用归一化指数函数softmax将其转换为概率分布，此时概率值大的位置表示两者相似度大的部分，然后将概率分布乘上v值矩阵，从而用注意力权重分布加权了v矩阵，也就改变了v矩阵本身的分布。
78.在解码阶段，可利用线性操作将编码阶段的块序列解码为分割映射。即从z
l
∈rn×d经过点状层实例归一化(point-wise linear layer)变换到z
lin
∈rn×k，然后,将序列z
lin
∈rn×k重塑为二维特征图，上采样至原始图像大小，得到语义分割结果s∈rh×w×k，其中，h为语义分割结果的高度，w为语义分割结果的高度，k为语义类别标签的数目。
79.解码阶段可引入一组k个可学习的类嵌入cls＝[cls1,
…
,clsk]∈rk×d，每个类嵌入都可以是随机初始化的，并分配一个语义类，用于生成类掩码。然后，可将类嵌入cls与编码序列z
l
联合处理，投入解码器mask计算标准化编码序列zm及类嵌入c的标量积，生成k个类别的掩码序列mask(zm,c)，即：
[0080]
mask(zm,c)＝z
mct
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0081]
即第i个掩码序列mask(zm,c)表示在该类别上，像素点属于第i类事物的概率。该掩码序列进一步重塑到二维特征图，再经过双线性插值上采样到原始图像大小，得到像素级分类结果。
[0082]
在实际的应用中，可利用ade20k数据集进行训练，该训练集包括了20210张图像及150个语义类别标签，可得到人行道的像素级精准分割结果。
[0083]
这样，本公开实施例的人行道分割算法可以不使用卷积神经网络参与分割，而是采用自然语言处理领域的神经网络结构(例如基于自我关注的、用于序列的神经网络结构)获取上下文语义信息，显著提升了人行道场景下的分割鲁棒性和精度。
[0084]
在步骤s12得到语义分割结果，可在步骤s13中，将所述语义分割结果输入训练好的目标识别网络中进行目标识别处理，得到所述待处理图像的目标待识别结果。
[0085]
图2示出根据本公开实施例的目标识别网络的示意图。如图2所示，目标识别网络可基于yolov4方法，即：主干网络采用cspdarknet53结构，即一种基于跨阶段局部网络(cross stage partial network，csp)以及darkenet53网络(yolov3网络中的一部分)的结果；颈(neck)部分采用空间金字塔池化(spatial pyramid pooling，spp)结构及路径聚合网络(path aggregation network，pan)结构。头(head)部采用yolo检测头，例如yolov3检测头。
[0086]
应当理解，本公开仅以图2所示的目标识别网络为例，目标识别网络可包括至少一个卷积层、至少一个池化层(下采样)、至少一个连接层，本公开对目标识别网络的具体结构不作限制。
[0087]
示例性地，可基于损失函数，对初始状态的目标识别网络进行训练，得到训练好的目标状态的目标识别网络。
[0088]
例如，损失函数clou
loss
以表示为：
[0089][0090]
在公式(4)中，代表预测区域(目标识别网络输出的预测区域，例如包
括人体交通参与者区域、非机动车区域)与真实区域(训练样本中的标注区域)中心点的欧式距离；代表是能够同时包含预测区域和真实区域的最小闭包区域的对角线距离；iou(intersection over union，iou)代表预测区域与真实区域的重叠度；v代表衡量长宽比是否与真实预测内容一致的参数，具体为：
[0091]
v＝4/π2·
[arctan(w
gt
/h
gt
)-arctan(w
p
/h
p
) ]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0092]
在公式(5)中，w
p
、h
p
和w
gt
、h
gt
分别代表预测区域的高宽和真实区域的高宽。
[0093]
这样，该损失函数在重叠度iou损失函数的基础上，解决了边界区域不重合时产生歧义、预测区域同时位于同一真实区域内时，预测区域的中心点距离难以衡量的问题；以及，相同面积预测区域同时位于同一真值区域时，预测区域边界的宽高比尺度被忽略的问题。
[0094]
此外，在非极大值抑制处理采用diou_nms方法，即通过迭代的形式，不断的以最大置信度的预测区域去与其他预测区域做diou操作(即一种同时考虑了预测区域和真实区域的重叠面积和中心点距离的重叠度)，并过滤那些diou较大(即交集较大)的预测区域，有助于重叠目标检测，特别适合于行人、车辆密集的人行道路检测。
[0095]
图3示出根据本公开实施例的目标识别结果的示意图。如图3所示，目标识别结果可以包括至少一个交通参与者区域，和/或，至少一个非机动车区域。应当理解，在人行道上没有交通参与者以及非机动车的场景下，目标识别结果也可以不包括交通参与者区域以及非机动车区域(图3未示出)，本公开对此不作限制。
[0096]
其中，图3通过使用矩形预测框的形式标注各交通参与者以及各非机动车区域，也可以通过其他形状(例如椭圆)的预测框、坐标、边缘线、颜色标注等方式，标注各交通参与者以及各非机动车区域，本公开对用于标注各交通参与者以及各非机动车区域的方法不作具体限制。
[0097]
进一步，在目标识别结果包括至少一个交通参与者区域，和/或，至少一个非机动车区域的情况下，为了更准确的显示目标识别结果，目标识别结果还可以包括每个交通参与者区域对应的第一置信度，和/或，每个非机动车区域分别对应的第二置信度。其中，第一置信度用于指示属于交通参与者的概率，第二置信度用于指示属于非机动车区域的概率。
[0098]
示例性地，还可以在每个方框的上部设置标签，比如，左侧的多个字符用于表示区域类别，例如，bicycle代表非机动车包括的自行车、motorbike代表非机动车包括的电动车、person代表交通参与者，右侧的数字为该区域类别对的置信度，置信度的大小范围可以为0～1。
[0099]
如果步骤s13得到的目标识别结果不包括交通参与者区域以及非机动车区域，可以不执行步骤s14，直接确定出人行道中不存在违规行为的检测结果。
[0100]
否则，执行步骤s14，也即，在目标识别结果包括至少一个交通参与者区域，和/或，至少一个非机动车区域的情况下，根据语义分割结果和目标识别结果，确定用于表征人行道中是否存在违规行为的检测结果。
[0101]
考虑到无论是非机动车在人行道内违规超速行驶，还是非机动车在人行道内逆向行驶，此两种行为均会对行人产生较大安全威胁，因此，本公开的实施例可以将驾驶员正在人行道内驾驶非机动车的行为，确定为违规行为，即一旦满足两个条件，即：一是非机动车出现在人行道范围内，二是驾驶员正在驾驶非机动车，即可判断为违规行为。
[0102]
这样，为了确定用于表征人行道中是否存在违规行为的检测结果，可通过语义分割结果和目标识别结果，分析出待处理图像中是否存在驾驶员正在人行道内驾驶非机动车的行为，以得到用于表征人行道中是否存在违规行为的检测结果，该检测结果包括人行道中存在违规行为，以及人行道中不存在违规行为。
[0103]
在一种可能的实现方式中，步骤s14可包括：所述根据所述语义分割结果和所述目标识别结果，判断所述非机动车区域是否位于所述人行道区域的范围内，以及判断是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车；在所述非机动车区域位于所述人行道区域的范围内，且存在驾驶员正在驾驶所述非机动车的情况下，所述检测结果为存在违规行为。否则，检测结果为不存在违规行为。
[0104]
举例来说，图4示出根据本公开实施例的确定检测结果的示意图。如图4所示，假设待处理图像的语义分割结果包括人行道区域a，目标识别结果包括三个交通参与者区域，即：交通参与者区域b1、交通参与者区域b2、交通参与者区域b3，以及三个非机动车区域，即非机动车区域c1、非机动车区域c2、非机动车区域c3。
[0105]
可通过判断各非机动车区域是否位于人行道区域的范围内，以及判断是否存在驾驶员正在驾驶非机动车区域对应的非机动车，确定检测结果；通过对图4中各区域的分析判断可知：非机动车区域c1位于人行道区域a的范围内，且存在驾驶员b3正在驾驶该非机动车区域c1的非机动车，所以图4对应的检测结果为存在违规行为。
[0106]
示例性地，为了提高检测效率，在确定检测结果的过程中，可以并行地判断非机动车区域是否位于人行道区域的范围内，以及是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车，在这两者均满足的情况下，即在非机动车区域位于人行道区域的范围内，且存在驾驶员正在驾驶所述非机动车的情况下，将检测结果确定为存在违规行为；否则，检测结果为不存在违规行为。
[0107]
或者，为了减少对硬件资源的消耗，也可以先判断每个非机动车区域是否位于人行道区域的范围内。在存在非机动车区域位于人行道区域的范围内的情况下，才会进一步针对位于人行道范围内的非机动车区域，判断是否存在驾驶员正在驾驶非机动车区域对应的非机动车，在驾驶员正在驾驶人行道区域范围内的非机动车区域对应的非机动车的情况下，将检测结果确定为存在违规行为。
[0108]
这样，如果人行道区域的范围内没有非机动车区域，可直接将检测结果确定为不存在违规行为，无需再判断是否存在驾驶员正在驾驶非机动车区域对应的非机动车，就可以得到检测结果。
[0109]
类似的，为了减少对硬件资源的消耗，也可以先判断是否存在驾驶员正在驾驶非机动车区域对应的非机动车。在存在驾驶员正在驾驶非机动车区域对应的非机动车的情况下，才会进一步针对正在行驶的非机动车区域，判断非机动车区域是否位于人行道区域的范围内，在非机动车区域位于人行道区域的范围内的情况下，将检测结果确定为存在违规行为。
[0110]
这样，如果不存在驾驶员正在驾驶非机动车区域对应的非机动车，说明机动车均未处于行驶状态，可直接将结果确定为不存在违规行为，无需再判断非机动车区域是否位于人行道区域的范围内，就可以得到检测结果。
[0111]
通过上述方式，根据语义分割结果和目标识别结果，利用“判断非机动车区域是否
位于人行道区域的范围内”和“判断是否存在驾驶员正在驾驶非机动车区域对应的非机动车”这两个判断条件，可以实现高效、准确地确定检测结果，有利于实时、有效的自动监管人行道上非机动车的违规驾驶。
[0112]
应当理解，本公开对确定检测结果的方式不作具体限制，可根据不同的应用场景，选择不同的确定检测结果的方式。例如，可根据目标识别结果中包括的交通参与者数量和/或非机动车区域的数量，确定是采用并行判断的方式，还是采用先判断一个条件，再其成立的情况下，再判断另一个条件的方法，确定检测结果。
[0113]
下面分别对两个判断条件“判断非机动车区域是否位于人行道区域的范围内”和“判断是否存在驾驶员正在驾驶非机动车区域对应的非机动车”进行展开说明。
[0114]
在一种可能的实现方式中，判断所述非机动车区域是否位于所述人行道区域的范围内，可包括步骤sa1～sa3：在步骤sa1中，根据所述非机动车区域，确定所述非机动车区域的车轮区域。
[0115]
在步骤sa2中，判断所述车轮区域是否位于所述人行道区域的范围内。
[0116]
在步骤sa3中，在所述车轮区域位于所述人行道区域的范围内的情况下，所述非机动车区域位于所述人行道区域的范围内。
[0117]
举例来说，在步骤sa1中，可根据车轮的特征(例如形状特征和位置特征等)，从非机动车区域中确定出车轮区域，本公开对确定车轮区域的具体方法不作限制。
[0118]
在步骤sa1确定出车轮区域，可在步骤sa2中判断车轮区域是否位于人行道区域的范围内。
[0119]
示例性地，步骤sa2可包括：根据所述车轮区域与所述人行道区域的重合面积，确定预测阈值；在所述预测阈值大于预设的判断阈值的情况下，判断所述非机动车区域位于所述人行道区域的范围内。
[0120]
举例来说，根据所述车轮区域与所述人行道区域的重合面积，可以直接将重合面积确定为预测阈值；也可以将重合面积与车轮面积的比值，确定为预测阈值，本公开对预测阈值的确定方式不作限制。
[0121]
在确定了预测阈值，可以比较预测阈值与预设的判断阈值的大小，判断非机动车区域是否位于人行道区域的范围内。如果预测阈值大于判断阈值，非机动车区域位于人行道区域的范围内；如果预测阈值小于或等于判断阈值，非机动车区域没有位于人行道区域的范围内。其中，判断阈值可根据经验设定，本公开对此不作限制。
[0122]
通过这种方式，可以判断车轮区域是否位于人行道区域范围内，该判断方法简单，容易实现。
[0123]
进一步，为了更准确地判断车轮区域是否位于人行道区域范围内，可以利用训练好的二分类模型，判断车轮区域是否位于人行道区域范围内。其中，二分类模型例如包括支持向量机(support vector machine，svm)、基于神经网络的二分类模型等，本公开对二分类模型的类别不作具体限制。
[0124]
可预先通过手动标注的训练样本图像进行建模分析，即使用某一数量已经完成了人行道分割(包括人行道区域)和目标识别(可包括非机动车区域、人行道区域)的样本图像，在该样本图像上手动标注非机动车车轮部分，得到车轮区域，并为该车轮是否在人行道内打正负标签，例如，正样本标签代表车轮在人行道内，负样本标签代表车轮不在人行道
内。其中，在标注的过程中，可尽量将车轮完整地置于标注框正中部位。
[0125]
然后，确定车轮区域与非机动车区域的相对位置，例如，可以先确定非机动车区域的基准点(例如非机动车区域的左下角的顶点)，将车轮区域中心点坐标与基准点的差值确定为两者的相对位置(x’,y’)。
[0126]
以及，确定车轮区域与非机动车区域的相对大小，例如，车轮区域的宽高占非机动车检测区域的宽高的比例(w’,h’)。
[0127]
以及，确定车轮区域与人行道区域的重合区域占非机动车区域的比例，例如，车轮区域与人行道区域重合的像素点占车轮区域像素点总量的比例λ。
[0128]
然后可以将这五个参数作为输入，即：相对位置(x’,y’)、相对大小(w’,h’)、比例λ，输入初始状态的二分类模型，得到第一分类结果。
[0129]
可基于损失函数、第一分类结果、手动标注的正负标签，对初始状态的二分类模型进行迭代训练，使二分类模型对样本图像进行学习，得到训练好的二分类模型。该训练好的二分类模型可用于判断非机动车的车轮是否位于人行道内，此处二分类模型可根据具体应用场景，在训练及分类判断时选择合适的算法，本公开对此不作具体限制。
[0130]
在训练好二分类模型，可在步骤sa2中应用训练好的二分类模型，判断车轮区域是否位于人行道区域范围内。
[0131]
示例性地，步骤sa2可包括sa21、sa22：在步骤sa21中，确定所述车轮区域与所述非机动车区域的相对位置、所述车轮区域与所述非机动车区域的相对大小、所述车轮区域与所述人行道区域的重合区域占所述非机动车区域的比例。
[0132]
例如，可根据前序步骤确定的车轮区域和非机动车区域，确定车轮区域与非机动车区域的相对位置，例如，可以先确定非机动车区域的基准点(例如非机动车区域的左下角的顶点)，将车轮区域中心点坐标与基准点的差值确定为两者的相对位置(x”,y”)。
[0133]
可根据前序步骤确定的车轮区域和非机动车区域，确定车轮区域与非机动车区域的相对大小，例如，车轮区域的宽高占非机动车检测区域的宽高的比例(w”,h”)。
[0134]
可根据前序步骤确定的车轮区域和人行道区域，确定车轮区域与人行道区域的重合区域占非机动车区域的比例，例如，车轮区域与人行道区域重合的像素点占车轮区域像素点总量的比例λ’。
[0135]
在步骤sa22中，将所述车轮区域与所述非机动车区域的相对位置、所述车轮区域与所述非机动车区域的相对大小、所述车轮区域与所述人行道区域的重合区域占所述非机动车区域的比例，输入训练好的二分类模型，得到所述二分类模型的分类结果；其中，所述分类结果的类别包括车轮区域位于所述人行道区域的范围内、车轮区域没有位于所述人行道区域的范围内。
[0136]
例如，可以将车轮区域与非机动车区域的相对位置(x”,y”)、车轮区域与非机动车区域的相对大小(w”,h”)、车轮区域与人行道区域的重合区域占非机动车区域的比例λ’，输入训练好的二分类模型，得到第一分类结果。该第一分类结果可以用于指示车轮区域是否位于人行道区域的范围内。
[0137]
通过这种方式，可以更准确地判断车轮区域是否位于人行道区域范围内。
[0138]
在步骤sa2中判断出车轮区域是否位于人行道区域的范围内，可在步骤sa3中，在判断出车轮区域位于人行道区域的范围内的情况下，确定非机动车区域位于人行道区域的
范围内；或者，在判断出车轮区域没有位于人行道区域的范围内的情况下，确定非机动车区域不在人行道区域的范围内。
[0139]
通过步骤sa1～sa3，可以将判断非机动车区域是否位于人行道区域的范围内，转换为简单地判断车轮区域是否位于人行道区域的范围内，实现高效快速地判断非机动车区域是否位于所述人行道区域的范围内。
[0140]
上面介绍了“判断非机动车区域是否位于人行道区域的范围内”的方法，下面对“判断是否存在驾驶员正在驾驶非机动车区域对应的非机动车”进行展开说明。
[0141]
在人行道上，交通参与者与非机动车的关系可以有三种情况，即：人在非机动车上，人在非机动车旁边(附近)，人远离非机动车。
[0142]
当人在非机动车上驾驶的情况下，其对应的图像特征会表现为人与非机动车的重心距离相对较近，重心在x轴方向(即水平方向)位置差别不大，人的重心在y轴方向(即竖直方向)的坐标小于非机动车的重心在y轴方向的坐标，并且，两者的重心在y轴方向的位置差别相对较大。
[0143]
当人在非机动车旁边的情况下，其对应的图像特征会表现为人与非机动车的重心距离相对较近，且两者的重心在y轴方向的位置差别不大。
[0144]
当人远离非机动车的情况下，其对应的图像特征表现为人与非机动车的重心距离相对较远。
[0145]
应当理解，图像坐标系可以选取左上角顶点为原点，竖直向下的方向为y轴正方向，水平向右的方向为x轴正方向，本公开仅以此图像坐标系为例，对图像坐标系的原点，以及坐标轴的具体方向不作具体限制。
[0146]
因而，可以通过交通参与者区域同非机动车区域相比较，以交通参与者的中心点代替行交通参与者的重心，以非机动车区域的中心点代替非机动车的重心，判断是否存在驾驶员正在驾驶非机动车。
[0147]
在一种可能的实现方式中，所述判断是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车，可包括步骤sb1～sb3：在步骤sb1中，确定所述非机动车区域的第一中心点，以及所述非机动车区域附近的至少一个交通参与者区域的第二中心点。
[0148]
示例性地，可以将非机动车区域的几何中心点(或者质心点、重心点)确定为第一中心点，以及将非机动车区域附近的至少一个交通参与者的几何中心点(或者质心点、重心点)分别确定为其对应的第二中心点。
[0149]
其中，非机动车区域附近的至少一个交通参与者区域可以是以第一中心点为圆心，在预设半径范围内的交通参与者；也可以是与非机动车区域接触或部分重合的交通参与者；本公开对非机动车区域附近的交通参与者不作具体限制，可根据实际的应用场景进行设置。
[0150]
在步骤sb2中，从至少一个第二中心点中，寻找所述第一中心点的匹配中心点，所述匹配中心点为与所述第一中心点在水平方向的距离最近，并且空间距离最近的第二中心点。
[0151]
示例性地，假设某个第一中心点的坐标为(x1,y1)，其对应的n个第二中心点为(x
21
,y
21
)～(x
2n
,y
2n
)。可以分别计算第一中心点(x1,y1)与每个第二中心点(x
2k
,y
2k
),k∈[1,n]的在水平方向的距离|x
1-x
2k
|，以及空间距离[(x
1-x
2k
)2 (y
1-y
2k
)2]
0.5
。
[0152]
从n个第二中心点(x
21
,y
21
)～(x
2n
,y
2n
)中，寻找是否存在在水平方向的距离最小并且空间距离也最小的第二中心点，如果存在在水平方向的距离最小并且空间距离也最小的第二中心点，可以将该第二中心点作为匹配中心点，说明有可能会存在驾驶员正在驾驶该第一中心点对应的非机动车区域对应的非机动车；如果不存在在在水平方向的距离最小并且空间距离也最小的匹配中心点，说明不存在驾驶员正在驾驶该第一中心点对应的非机动车区域对应的非机动车。
[0153]
应当理解，在寻找匹配中心点的过程中可以并行地计算每个第二中心点与第一中心点在水平方向的距离和空间距离；也可以先计算每个第二中心点与第一中心点在水平方向的距离，再计算每个第二中心点与第一中心点的空间距离；还可以先计算每个第二中心点与第一中心点的空间距离，再计算每个第二中心点与第一中心点在水平方向的距离；本公开对此不作具体限制。
[0154]
在步骤sb3中，在所述第一中心点的竖直坐标值小于匹配中心点的竖直坐标值的情况下，判断驾驶员正在驾驶所述非机动车。
[0155]
示例性地，假设某个第一中心点的坐标为(x1,y1)，匹配中心点的坐标为(xo,yo)，如果第一中心点的竖直坐标值y1小于匹配中心点的竖直坐标值yo，可判断出匹配中心点(xo,yo)对应的驾驶员正在驾驶第一中心点(x1,y1)对应的非机动车；如果第一中心点的竖直坐标值y1大于或等于匹配中心点的竖直坐标值yo，可判断出不存在驾驶员正在驾驶第一中心点(x1,y1)对应的非机动车。
[0156]
通过这种方式，可对非机动车附近的交通参与者进行分析，找到交通参与者区域的第二中心点与非机动车区域的第一中心点在水平方向距离最近，交通参与者区域的第二中心的在竖直方向的坐标小于非机动车区域的第一中心点在竖直方向的坐标，并且两者的中心点的欧式距离相对最近的匹配关系，具有这样匹配关系的交通参与者及非机动车可以判断为驾驶员正在驾驶非机动车。该方法简单便捷，可准确快速地判断出是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车。
[0157]
这样，如果同时满是上述两个判断条件“判断非机动车区域是否位于人行道区域的范围内”和“判断是否存在驾驶员正在驾驶非机动车区域对应的非机动车”，即在非机动车区域位于人行道区域的范围内，且存在驾驶员正在驾驶非机动车的情况下，所述检测结果为存在违规行为。否则，检测结果为不存在违规行为。
[0158]
在步骤s14确定了是否存在违规行为的检测结果之后，所述方法还包括：确定违规行为的违规状态信息，所述违规状态信息包括超速、逆行、违规载人、未戴头盔中的至少一种，和/或，对存在违规行为的交通参与者进行人脸识别，确定所述存在违规行为的交通参与者的身份信息，和/或，对存在违规行为的非机动车进行车牌识别，确定所述存在违规行为的非机动车的车牌信息；将所述违规状态信息、所述身份信息、所述车牌信息中的至少一种，上传至数据库。
[0159]
示例性地，可基于各种图像识别方法(例如包括基于神经网络的图像识别方法)，确定违规行为的违规状态信息，即：超速、逆行、违规载人、未戴头盔等。
[0160]
例如，针对某一存在违规行为的非机动车，可获取该非机动车的连续多帧的待处理图像，以确定该机动车的移动轨迹，根据移动轨迹判断该机动车是否超速或逆行。
[0161]
例如，可以针对存在违规行为的非机动车区域，以及交通参与者区域进行图像分
析，通过非机动车上的交通参与者数量，确定是否违规载人。
[0162]
例如，针对存在违规行为的交通参与者区域，通过识别交通参与者的头部区域是否存在头盔，确定交通参与者是否戴头盔。
[0163]
示例性地，可以从存在违规行为的交通参与者区域中，分割出人脸区域。提取该人脸区域的视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等特征信息，并基于人脸区域的这些特征信息进行人脸识别，确定所述存在违规行为的交通参与者的身份信息。
[0164]
其中，人脸识别方法可包括基于人脸特征点的识别算法(feature-based recognition algorithms)、基于整幅人脸图像的识别算法(appearance-based recognition algorithms)、基于模板的识别算法(template-based recognition algorithms)、利用神经网络进行识别的算法(recognition algorithms using neural network)等，本公开对人脸识别算法的类别不作限制。
[0165]
示例性地，可以从存在违规行为的非机动车区域中，分割出车牌区域。对车牌区域进行字符识别和颜色识别，确定存在违规行为的非机动车的车牌信息，所述车牌信息包。
[0166]
其中，所述车牌识别方法可包括基于边缘的车牌识别方法，基于颜色的车牌识别方法，基于机器学习的车牌识别方法，本公开对车牌识别方法的类别不作限制。
[0167]
在得到了违规状态信息、所述身份信息、所述车牌信息，可以将所述违规状态信息、所述身份信息、所述车牌信息中的至少一种，上传至本地或远端(例如云端、服务器端等)的数据库。
[0168]
通过这种方式，有利于联合相关监管部门，获取驾驶人信息及违规状态，进一步构建非机动车驾驶员驾驶信用数据库，实现“数字化监管、违规可溯源、违规有成本”的自动监管体系。
[0169]
综上所述，本公开提供了一种图像检测方法，能够适用于人行道上违规行驶状态的检测场景，可对获取的待处理图像进行语义分割，得到语义分割结果，并根据该语义分割结果，对待处理图像进行目标识别，得到目标识别结果；然后，在目标识别结果包括至少一个交通参与者区域，和/或，至少一个非机动车区域的情况下，根据语义分割结果和目标识别结果，判断是否满足判断条件“判断非机动车区域是否位于人行道区域的范围内”和“判断是否存在驾驶员正在驾驶非机动车区域对应的非机动车”，以确定用于表征人行道中是否存在违规行为的检测结果，如果非机动车区域位于人行道区域的范围内，且存在驾驶员正在驾驶非机动车的情况下，检测结果为存在违规行为；否则，检测结果为不存在违规行为。
[0170]
通过这种方式，实现了实时、有效、成本低廉且适宜大范围推广的自动监管人行道上非机动车的违规驾驶。
[0171]
可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0172]
此外，本公开还提供了图像检测装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种图像检测方法，相应技术方案和描述和参见方法部分的
相应记载，不再赘述。
[0173]
图5示出根据本公开实施例的图像检测装置的框图，如图5所示，所述装置包括：获取模块51，用于获取待处理图像；语义分割模块52，用于对所述待处理图像进行语义分割，得到语义分割结果，所述语义分割结果包括人行道区域；目标识别模块53，用于根据所述语义分割结果，对所述待处理图像进行目标识别，得到目标识别结果；检测模块54，用于在所述目标识别结果包括至少一个交通参与者区域，和/或，至少一个非机动车区域的情况下，根据所述语义分割结果和所述目标识别结果，确定检测结果，所述检测结果用于表征人行道中是否存在违规行为。
[0174]
在一种可能的实现方式中，所述检测模块54用于：所述根据所述语义分割结果和所述目标识别结果，判断所述非机动车区域是否位于所述人行道区域的范围内，以及判断是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车；在所述非机动车区域位于所述人行道区域的范围内，且存在驾驶员正在驾驶所述非机动车的情况下，所述检测结果为存在违规行为。
[0175]
在一种可能的实现方式中，判断所述非机动车区域是否位于所述人行道区域的范围内，包括：根据所述非机动车区域，确定所述非机动车区域的车轮区域；判断所述车轮区域是否位于所述人行道区域的范围内；在所述车轮区域位于所述人行道区域的范围内的情况下，所述非机动车区域位于所述人行道区域的范围内。
[0176]
在一种可能的实现方式中，判断所述车轮区域是否位于所述人行道区域的范围内，包括：根据所述车轮区域与所述人行道区域的重合面积，确定预测阈值；在所述预测阈值大于预设的判断阈值的情况下，判断所述非机动车区域位于所述人行道区域的范围内。
[0177]
在一种可能的实现方式中，判断所述车轮区域是否位于所述人行道区域的范围内，包括：确定所述车轮区域与所述非机动车区域的相对位置、所述车轮区域与所述非机动车区域的相对大小、所述车轮区域与所述人行道区域的重合区域占所述非机动车区域的比例；将所述车轮区域与所述非机动车区域的相对位置、所述车轮区域与所述非机动车区域的相对大小、所述车轮区域与所述人行道区域的重合区域占所述非机动车区域的比例，输入训练好的二分类模型，得到所述二分类模型的分类结果；其中，所述分类结果的类别包括车轮区域位于所述人行道区域的范围内、车轮区域不位于所述人行道区域的范围内。
[0178]
在一种可能的实现方式中，所述判断是否存在驾驶员正在驾驶所述非机动车区域对应的非机动车，包括：确定所述非机动车区域的第一中心点，以及所述非机动车区域附近的至少一个交通参与者区域的第二中心点；从至少一个第二中心点中，寻找所述第一中心点的匹配中心点，所述匹配中心点为与所述第一中心点在水平方向的距离最近，并且空间距离最近的第二中心点；在所述第一中心点的竖直坐标值小于匹配中心点的竖直坐标值的情况下，判断驾驶员正在驾驶所述非机动车。
[0179]
在一种可能的实现方式中，所述语义分割模块52用于：将所述待处理图像分割成n个图像子块，n为大于1的整数；根据n个图像子块，以及每个图像子块的位置信息，确定具有位置编码的输入序列；将所述输入序列输入编码器进行编码处理，得到具有语义上下文信息的编码序列；将所述编码序列和类嵌入信息输入解码器进行解码处理，得到语义分割结果；所述目标识别模块53用于：将所述语义分割结果输入目标识别网络中进行目标识别处理，得到所述待处理图像的目标待识别结果。
[0180]
在一种可能的实现方式中，所述装置还包括上传模块，用于在所述根据所述语义分割结果和所述目标识别结果，确定检测结果之后，确定违规行为的违规状态信息，所述违规状态信息包括超速、逆行、违规载人、未戴头盔中的至少一种，和/或，对存在违规行为的交通参与者进行人脸识别，确定所述存在违规行为的交通参与者的身份信息，和/或，对存在违规行为的非机动车进行车牌识别，确定所述存在违规行为的非机动车的车牌信息；将所述违规状态信息、所述身份信息、所述车牌信息中的至少一种，上传至数据库。
[0181]
该方法与计算机系统的内部结构存在特定技术关联，且能够解决如何提升硬件运算效率或执行效果的技术问题(包括减少数据存储量、减少数据传输量、提高硬件处理速度等)，从而获得符合自然规律的计算机系统内部性能改进的技术效果。
[0182]
在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。
[0183]
本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
[0184]
本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。
[0185]
本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。
[0186]
电子设备可以被提供为终端、服务器或其它形态的设备。
[0187]
图6示出根据本公开实施例的一种电子设备800的框图。例如，电子设备800可以是用户设备(user equipment，ue)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，pda)、手持设备、计算设备、车载设备、可穿戴设备等终端设备。
[0188]
参照图6，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出接口812，传感器组件814，以及通信组件816。
[0189]
处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。
[0190]
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0191]
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。
[0192]
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0193]
音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。
[0194]
输入/输出接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
[0195]
传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如互补金属氧化物半导体(cmos)或电荷耦合装置(ccd)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
[0196]
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如无线网络(wi-fi)、第二代移动通信技术(2g)、第三代移动通信技术(3g)、第四代移动通信技术(4g)、通用移动通信技术的长期演进(lte)、第五代移动通信技术(5g)或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0197]
在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
[0198]
在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由电子设备800的处理器820执行以完成
上述方法。
[0199]
图7示出根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器或终端设备。参照图7，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。
[0200]
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如微软服务器操作系统(windows server
tm
)，苹果公司推出的基于图形用户界面操作系统(mac os x
tm
)，多用户多进程的计算机操作系统(unix
tm
),自由和开放原代码的类unix操作系统(linux
tm
)，开放原代码的类unix操作系统(freebsd
tm
)或类似。
[0201]
在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
[0202]
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
[0203]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0204]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0205]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c 等，以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机
或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。
[0206]
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。
[0207]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0208]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0209]
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0210]
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(software development kit，sdk)等等。
[0211]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。
[0212]
本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0213]
若本技术技术方案涉及个人信息，应用本技术技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本技术技术方案涉及敏感个人信息，应用本技术技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时
满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
[0214]
以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：面向矿区自动驾驶数据集搭建的点云数据增强方法及装置与流程

图像检测方法及装置、电子设备和存储介质与流程

相关文献

最热文献