一种基于人体朝向判断的钓鱼行为检测方法与流程

2022-11-30 16:20:46 来源：中国专利 TAG：

1.本发明涉及钓鱼行为检测技术领域，具体涉及一种基于人体朝向判断的钓鱼行为检测方法。

背景技术：

2.发电厂发出的电，并不是只供附近的人们使用，还要传输到很远的地方，满足更多的需要。这些电不能直接通过普通的电线传输出去，而是要用高压输电线路传送的。高压输电线路不可避免地跨越众多湖泊，因钓鱼而触电的事故屡有发生。
3.现有的钓鱼行为检测方法主要是先检测行人，再在行人周围用语义分割的方法分割鱼竿，结合人和鱼竿的信息判断是否有人钓鱼。现有检测方法在稍微复杂的场景（比如场景中包含栏杆、电线、船桨、树枝等物体）会失效或检测准确度大大降低，因为这些物品很容易被误检成鱼竿。同时鱼竿比较细长，很难分割得很准确，从而影响后续判断。为此，提出一种基于人体朝向判断的钓鱼行为检测方法。

技术实现要素：

4.本发明所要解决的技术问题在于：如何解决复杂场景下现有检测方法存在的误检、准确率低等问题，提供了一种基于人体朝向判断的钓鱼行为检测方法，让网络自主学习是否存在钓鱼行为，推理时无需对鱼竿等进行语义分割，也无需复杂的后处理，避免分割不准、后处理逻辑不对导致的误判，在复杂场景也会有较高的检测精度。
5.本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：步骤s1：行人检测通过行人检测模型对监控视频中待检测图片进行逐帧检测，判断图片中是否有人，如果没有，则返回继续检测下一张图片，如果有人，则输出行人框；步骤s2：钓鱼行为分析将步骤s1中的行人框从待检测图片中裁剪下来，输入到人体朝向判断模型中，判断行人朝向，并根据行人朝向的判断结果按对应方向对行人框的大小进行扩充；根据扩充后的行人框的范围将行人图片从待检测图片中裁剪下来，输入到钓鱼行为判断模型中，判断是否存在钓鱼行为。
6.更进一步地，在所述步骤s1中，行人框坐标记为（x,y,w,h），其中，x、y为行人框任一边角点在图片中的x轴和y轴坐标，w表示行人框的宽度，h表示行人框的高度，x-y两轴坐标系为像素坐标系。
7.更进一步地，在所述步骤s1中，所述行人检测模型基于yolov5s网络实现。
8.更进一步地，所述步骤s2的具体处理过程如下：步骤s21：根据步骤s1中行人检测模型输出的行人框坐标将行人图片从待检测图片中裁剪下来，输入到人体朝向判断模型中；步骤s22：根据步骤s21中判断模型判断的行人人体的沿水平方向的左右朝向，在
步骤s1中行人框的基础上，将宽沿人体朝向方向侧扩充2n倍，高向上扩充n倍；若无法判断出行人的左右朝向，则将行人框往左、右和上三个方向扩充n倍，其中n为正数；步骤s23：调整后的行人框坐标记作，根据调整后的行人框坐标将行人图片从待检测图片中裁剪下来，输入到钓鱼行为判断模型中，判断是否存在钓鱼行为。
9.更进一步地，在所述步骤s21中，人体朝向判断模型是一个三分类模型，分类结果分别是人体的3个朝向，即左、右和其他。
10.更进一步地，在所述步骤s21中，人体朝向判断模型的训练过程如下：步骤s211：获取大量含有人的数据图片，将图片中人的朝向按照左、右、其他三种类别进行语义分类标注；步骤s212：将步骤s211中标注完成的数据集投入到训练网络中，训练网络的主干网络使用resnet50，损失函数采用交叉熵损失函数，训练完成后即可获得人体朝向判断模型。
11.更进一步地，在所述步骤s23中，钓鱼行为判断模型的训练过程如下：步骤s231：所有的原始图片均包含有人的数据图片，将含有鱼竿的图片进行语义分割，标注图片中鱼竿的多边形，按照步骤s2中图片裁剪方式，将图片中的人从原始图片中裁剪出来，形成数据集；步骤s232：将数据集中有钓鱼行为的图片作为正样本，无钓鱼行为的图片作为负样本，并在正样本中增加类似鱼竿的噪声，然后进行数据增强处理；步骤s233：将经过步骤s232处理的数据集投入到训练网络中，训练网络的主干网络使用resnet50，损失函数采用多任务损失函数，训练完成后即可获得钓鱼行为判断模型。
12.更进一步地，在所述步骤s232中，数据增强处理包括多尺度变换、旋转、翻转增强处理，以及通过图像修复算法去除正样本中被语义分割标注出的鱼竿，将去除鱼竿的图片当做负样本，该部分正负样本直接的差异是有无鱼竿。
13.更进一步地，在所述步骤s233中，所述钓鱼行为判断模型的输出有两个分支，其中一个分支是分类分支，另一个分支是语义分割的分支，两个分支共享主干网络；其中，分类分支输出的是二分类，语义分割的分支输出的是鱼竿分割结果，语义分割分支仅参与训练，不参与检测过程。
14.本发明相比现有技术具有以下优点：该基于人体朝向判断的钓鱼行为检测方法，结合人体朝向判断模型分析得出行人的朝向，根据行人的朝向来调整裁剪方式，从而尽可能多的将鱼竿部分裁剪下来；按语义分割的方法标注图片中鱼竿的多边形，再用图像修复算法去除图片中的鱼竿，去除鱼竿的图片作为负样本，能够更好的让模型专注于鱼竿的信息，提高模型学习的准确率，获得效果更好的分类模型；在传统分类模型的基础上，添加一个鱼竿分割的分支，让网络可以更专注到鱼竿的信息，推理时无需对鱼竿等进行语义分割，也无需复杂的后处理，避免分割不准、后处理逻辑不对导致的误判，在复杂场景也会有较高的检测精度。
附图说明
15.图1是本发明实施例中基于人体朝向判断的钓鱼行为检测方法的流程示意图；
图2是本发明实施例中算法自主钓鱼行为分析的流程示意图；图3是本发明实施例中钓鱼行为判断模型训练框架示意图；图4是本发明实施例中钓鱼行为判断模型测试框架示意图；图5是本发明实施例中残差组件结构示意图；图6是本发明实施例中yolov5s网络的结构示意图。
具体实施方式
16.下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。
17.如图1所示，本实施例提供一种技术方案：一种基于人体朝向判断的钓鱼行为检测方法，主要包括以下两个步骤：行人检测和算法自主钓鱼行为分析。由于钓鱼的主体一定是人，因此先判断是否存在人，如果场景中有人，则再判断此人是否有钓鱼的行为，如果判断此人有钓鱼的行为则预警。
18.其中算法自主钓鱼行为分析流程如图2所示，基于行人检测步骤的检测结果，进行人体朝向的分析。分析朝向的目的是为了裁剪人体框的时候尽可能的包含更多的鱼竿部分，因为通常钓鱼时人的朝向和鱼竿所在的方向是大体一致的。根据人体的朝向将人和鱼竿从图像中裁剪下来，输入到钓鱼行为判断模型中，进而判断是否存在钓鱼行为。
19.下面从行人检测、算法自主钓鱼行为分析两个部分详细介绍本发明的技术方案。
20.第一阶段：行人检测通过行人检测模型可以判断检测图片中是否有人，如果没有，则返回继续检测下一张图片，如果有人，则输出行人框，保存方式是左上顶点坐标和宽、高（x,y,w,h）；在本实施例中，行人检测模型基于yolov5s网络实现，yolov5s网络结构见图6，整个网络包括输入端、主干网络（backbone）、检测头（neck）、预测头（prediction）。yolov5s是基于anchor的目标检测方法，对于行人检测这个任务来说，在检测前会预设一定数量的anchor，当输入一张图片，网络会输出有没有某个anchor是符合行人特征的，如果有，则再调整该anchor的位置大小，最后输出准确的行人的位置。
21.在本实施例中，行人检测模型训练的主要流程包括图像输入神经网络（yolov5s网络）,得到模型的输出结果,计算模型的输出与真实值的损失,计算损失值的梯度,最后用梯度下降算法更新模型参数。
22.在本实施例中，yolov5s算法用ciou来评估预测框和真实框的位置损失，ciou公式如下：
其中：表示预测框与真实框的交并比；表示预测框和真实框的中心距离的平方；是两框最小包围矩形的斜对角线长度；表征长宽比的一致性；是调节因子，越大其影响越大。yolov5算法用focalloss来评价目标框和预测框的分类损失和置信度损失，可以在交叉熵损失的基础上，增加难分类样本的权重。
23.第二阶段：算法自主钓鱼行为分析该步骤的输入是裁剪下来的行人图片，行人的位置在行人检测阶段中已经确定，但如果仅仅将行人裁剪下来，会丢失比较多鱼竿的信息。因此，考虑到钓鱼时人的朝向和鱼竿所在的方向是大体一致的，根据人体的朝向将人和鱼竿同时从图像中裁剪下来。因此该步骤涉及到两个神经网络模型，人体朝向判断模型和钓鱼行为判断模型。
24.具体过程如下：根据上一步行人检测模型输出的行人框坐标（x,y,w,h）将行人图片裁剪下来，输入到人体朝向判断模型中，若人体朝向是
‘
左’，在（x,y,w,h）的基础上，宽往左扩充1倍，高向上扩充0.5倍。若人体朝向是
‘
右’，在（x,y,w,h）的基础上，宽往右扩充1倍，高向上扩充0.5倍。若人体朝向是
‘
其他’，在（x,y,w,h）的基础上，宽往左、右各扩充0.5倍，高向上扩充0.5倍。调整后的行人框坐标记作,跟（x,y,w,h）相比，会包含更多的鱼竿部分，根据调整后的行人框将行人图片从原图（待检测图片）中裁剪下来，输入到钓鱼行为判断模型中，判断是否存在钓鱼行为。
25.下面对人体朝向判断模型的训练流程进行说明：训练过程如下：1.制作数据集，获取大量含有人的数据图片，将图片中人的朝向按照
‘
左’、
‘
右’、
‘
其他’三种类别进行语义分类标注。
26.2.训练模型，将上一步标注完成的数据集投入到训练网络中，主干网络使用resnet50，损失函数使用的是交叉熵损失函数，公式如下：，其中n是样本数量，代表标签值，代表网络预测值；训练完成后即可获得人体朝向判断模型。
27.在本实施例中，人体朝向判断模型是一个3分类模型，分别是人体的3个朝向：左、右和其他。主干网络使用resnet50，网络结构如表1所示，整个网络由5个块组成，第一个块是一个7*7的卷积，之后接一个3*3的最大池化，后面4个块分别是由3、4、6、3个残差组件组成。残差组件结构示意图如图5所示。
28.下面对钓鱼行为判断模型的训练流程进行说明：1.数据处理所有的原始图片都是包含有人的数据图片，将含有鱼竿的图片进行语义分割，标注图片中鱼竿的多边形；按照步骤二所述图片裁剪方法，将图片中的人从原始图片中裁剪出来，形成数据集。将数据集中有钓鱼行为的图片作为正样本，无钓鱼行为的图片作为负样本。为了增加模型鲁棒性，会在正样本中随机划线，模拟
‘
电线’、
‘
栏杆’、
‘
芦苇’等等类似鱼竿的噪声。另外，在数据增强方面，本发明除了采用一般的多尺度变换、旋转、翻转等数据增强方法，为了让模型可以更专注于学习到鱼竿的信息，本发明还设计了一种基于图像修复的离线数据增强方法：通过图像修复算法去除正样本中被语义分割标注出的鱼竿，将去除鱼竿的图片当做负样本（非钓鱼），那么这部分正负样本直接的差异仅仅是有无鱼竿。
29.经过本步骤处理的数据训练集，能够更好的让模型专注于鱼竿的信息，提高模型
学习的准确率，获得效果更好的分类模型。
30.2.模型训练将上一步处理好的数据集投入到训练网络中，对钓鱼行为判断模型进行训练。在钓鱼行为判断模型框架设计方面，主干网络使用resnet50，网络结构如表1所示，损失函数为多任务损失。网络的输出有两个分支，其中一个分支是传统的分类网络分支，另一个分支是语义分割的分支，这两个分支共享主干网络。分类分支输出的是二分类（钓鱼、不钓鱼），语义分割的分支输出的是鱼竿分割。添加鱼竿语义分割的分支，目的是让网络可以更专注到鱼竿的信息，语义分割分支参与训练，但是实际使用时不参与推理测试。训练时的网络框架如图3所示，测试时的网络框架如图4所示。resnet50网络结构如下表1所示：
综上所述，上述实施例的基于人体朝向判断的钓鱼行为检测方法，结合人体朝向判断模型分析得出行人的朝向，根据行人的朝向来调整裁剪方式，从而尽可能多的将鱼竿
部分裁剪下来；按语义分割的方法标注图片中鱼竿的多边形，再用图像修复算法去除图片中的鱼竿，去除鱼竿的图片作为负样本，能够更好的让模型专注于鱼竿的信息，提高模型学习的准确率，获得效果更好的分类模型；在传统分类模型的基础上，添加一个鱼竿分割的分支，让网络可以更专注到鱼竿的信息，推理时无需对鱼竿等进行语义分割，也无需复杂的后处理，避免分割不准、后处理逻辑不对导致的误判，在复杂场景也会有较高的检测精度。
31.尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：语义引导的缺陷图像生成方法、装置、设备及存储介质与流程

一种基于人体朝向判断的钓鱼行为检测方法与流程

相关文献

最热文献