一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种自动识别规律性动作行为的方法与流程

2022-06-05 09:11:53 来源:中国专利 TAG:


1.本发明涉及自动识别技术领域,具体为一种自动识别规律性动作行为的方法。


背景技术:

2.在日常生活中,我们通常需要监测一系列有规律的动作。例如上课时监测学生是否点头或者摇头来判断学生上课的状态;健身动作识别中识别深蹲、俯卧撑,引体向上等动作是否规范。随着近年来ai技术的发展,通常使用视频分析模型对这类连续帧动作进行识别。使用ai视频分析模型对人的行为进行识别通常分为两步,首先使用目标检测算法将行人检测出来,再将行人框裁剪下来送入动作识别模型进行识别。其中目标检测算法是对2d单帧图像进行处理,可以选用一些轻量的、速度快的神经网络模型。而动作识别模型需要对连续多帧的2d图像进行处理,因此模型的输入增加了一个维度,输入特征变得更丰富,神经网络模型也需要更多的参数对其进行分析,所以动作识别的模型通常参数很多,计算速度也很慢;因此视频中人的行为分析整个流程十分缓慢,特别是当当前视频中需要识别的人很多的时,需要按照顺序对每个人进行动作识别。如果对这些行人进行并行处理,则又需要很大的内存。除此之外,训练ai模型需要大量的数据才能够保证准确率,而数据的收集以及标注往往需要花费大量的人力与物力。
3.为此我们提出一种自动识别规律性动作行为的方法用于解决上述问题。


技术实现要素:

4.本发明的目的在于提供一种自动识别规律性动作行为的方法,以解决上述背景技术中提出的问题。
5.为实现上述目的,本发明提供如下技术方案:一种自动识别规律性动作行为的方法,包括如下步骤:
6.s1、使用ai模型对视频流每一帧进行分析,得到检测目标的位置信息;
7.s2、对每一帧的位置信息进行一系列的数据过滤、数据平滑操作;
8.s3、根据平滑后的连续帧的目标位置信息得到目标的运动曲线,与预定义余弦周期函数进行相似度对比,判断检测对象动作。
9.优选的一种实施案例,步骤s1中中,得到检测目标的位置信息的方法为:使用ai目标检测模型来分析当前画面,检测视频流中目标的人脸、人头、身体来进行分析,以上目标检测算法使用单帧图片进行作为神经网络的输入,输出人脸框、人头框、身体框在图像中的左上角右下角两个二维坐标(x1,y1,x2,y2)。
10.优选的一种实施案例,步骤s2中,选取ai目标检测模型预测坐标框的中心点的横坐标x的值作为判定点m,使用卡尔曼滤波对ai目标检测模型输出的二维坐标进行平滑,减少噪声的影响。
11.优选的一种实施案例,步骤s2中,得到卡尔曼滤波修正之后的结果后,会计算修正后的判定点n与原始判定点m的距离,如果(n-m)大于预测框的宽w,则表示m点偏移了系统预
测太多,判定该点为离群点,也就是说则m点来自一个误检测的预测框,将这种情况进行过滤,根据连续的视频帧获取了一系列修正点n,在n中选取波峰波谷,有规律的周期运动应该是“波峰-波谷-波峰-波谷”,所以排除有连续波峰或者波谷的情况,为减少判别过程中的噪声,还会过滤波形间隔太短(即出现波峰波谷的周期小于预定义的周期值),波峰谷差距过小,波峰谷比例差距过大等情况。
12.优选的一种实施案例,步骤s3中,对获取的横坐标x、纵坐标y进行线性回归,如果回归得到的直线斜率超过预设定的阈值,则认为该目标在纵坐标y方向变化幅度较大,进而过滤掉该情况,计算这段时间内目标判定点到上述回归线中垂线的距离,再根据这个距离最后一次过滤掉一些潜在的离群点。
13.优选的一种实施案例,步骤s3中,经过一系列过滤之后,得到了目标的运动曲线,最终计算该曲线与预定义余弦周期函数的相似度,如果相似度大于阈值,则认为该目标在进行规律性周期运动,,相似度算法我们选取的是皮尔森相关系数。
14.优选的一种实施案例,所述皮尔森相关系数反应了两个变量之间的线性相关程度,它的取值在[-1,1]之间,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系,皮尔森相关系数如下:
[0015]

[0016]
本发明的有益效果在于:
[0017]
1、本发明将规律性运动检测转化为简单的曲线相似度计算,整个流程十分简单并且有效,只需要有目标的位置信息即可判断;
[0018]
2、方法具有很强的扩展性,通过ai目标检测模型来获取坐标信息,当然这并不局限于ai模型的预测值,只要能够获取目标位置信息,例如传感器等设备的测量值,均可以处理;同时该发明具有很强的健壮性和防干扰能力,考虑到现实生活中,无论是设备测量值还是ai模型的预测值据存在噪声、离群值,因此对输入的数据进行平滑、过滤、拟合等处理,提高该方法的准确性;
[0019]
3、方法中的计算都只是简单的数学运算,直线拟合,计算周期,波峰波谷等,因此方法在保证可扩展性,准确率的同时,速度快捷。
附图说明
[0020]
图1为本发明实施例提供的一种自动识别规律性动作行为的方法的整体流程图。
[0021]
图2为本发明iou计算两个边框的重叠程度示意图。
[0022]
图3为本发明yolov5预测流程图。
具体实施方式
[0023]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0024]
实施例:如图1至图3所示,本发明提供了一种自动识别规律性动作行为的方法,包括如下步骤:
[0025]
s1、使用ai模型对视频流每一帧进行分析,得到检测目标的位置信息;
[0026]
s2、对每一帧的位置信息进行一系列的数据过滤、数据平滑操作;
[0027]
s3、根据平滑后的连续帧的目标位置信息得到目标的运动曲线,与预定义余弦周期函数进行相似度对比,判断检测对象动作。
[0028]
进一步的,步骤s1中中,得到检测目标的位置信息的方法为:使用ai目标检测模型来分析当前画面,检测视频流中目标的人脸、人头、身体来进行分析,以上目标检测算法使用单帧图片进行作为神经网络的输入,输出人脸框、人头框、身体框在图像中的左上角右下角两个二维坐标(x1,y1,x2,y2),经过优化,模型运行速度十分快,在边缘设备上达到10ms以内的延时。
[0029]
进一步的,对ai目标检测模型的选择考虑到需要实时分析视频给出预测结果并送入后面的过滤步骤,也要保证预测的精度,采用的是速度与精度有着良好兼容的yolov5算法对视频图像进行检测。yolov5采用cspnet结构作为图像特征提取器,能够在保持精度的情况下减少模型的参数量以及计算量;包含自底向上与自顶向下结构的多层金字塔网络panet,融合多尺度特征图的信息,高层高级语义的信息与低层纹理信息的融合,能够适应尺度不一的目标。yolov5首先将图片缩放到统一的大小,然后将图片划分为nxn的网格,如果目标的中心点在某个网格中,则该网格以及该网格附近的网格对该目标进行预测。每个网格会输出目标的分类概率,能够反应目标是否存在的置信度,以及边框的偏移量。为了提高模型的准确率,对于不同大小的目标框,yolov5首先会给每一个网格预定义一组锚框,然后将每个网格输出的边框偏移量与预定义的锚框进行计算得到最终的预测框。
[0030]
进一步的,由于该方法是将图片划分为nxn的网格进行目标的预测,并且每个网格都要输出目标的分类概率,置信度以及边框偏移量。因此网络的输出是稠密的,但一般来说图像中的目标比较少,所以得到网络输出之后需要对稠密的预测输出进行筛选。前面说到的置信度能够反应该物体是否在该网格,因此先设置一个置信度阈值,过滤掉那些低置信度的输出;然后由于预测框十分的多并且框与框之间的重叠程度也很高,因此采用非极大值抑制nms算法将多于的框去除掉。其中非极大值抑制首先将预测框按照置信度的大小从高到低排序,然后计算每个框之间的iou值。然后根据置信度与iou值对重叠的框进行筛选,如果两个框的iou值大于一个阈值,则保留置信度较高的框,这样操作直到遍历所有的预测框,最终的剩下的边框就是目标预测框。yolov5预测流程如图3所示。当然可用在本发明中的目标检测算法包括但不限于yolov5。
[0031]
进一步的,iou是计算两个边框的重叠程度方法,iou由两个边框的交集比上并集计算所得,如图2所示,两个边框整体为并集,红色区域为交集,二者的比值就是两个边框的iou值。
[0032]
进一步的,步骤s2中,选取ai目标检测模型预测坐标框的中心点的横坐标x的值作为判定点m,但由于ai目标检测模型对于视频流中连续的变化不能够很快适应,所以预测的二维坐标会存在一定范围的波动。而这部分波动是不够平滑的,会严重影响规律性动作的
判别。使用卡尔曼滤波对ai目标检测模型输出的二维坐标进行平滑,减少噪声的影响,卡尔曼滤波首先根据目标之前状态的位置信息以及预定义的卡尔曼系统参数预测出一个目标预测值,然后再与目标当前状态的实际测量值结合进行修正,以达到一个“预测——实测——修正”的过程,根据系统的量测值来减少随机干扰。从而可以很好的平滑ai目标检测模型输出的位置信息。
[0033]
进一步的,步骤s2中,得到卡尔曼滤波修正之后的结果后,会计算修正后的判定点n与原始判定点m的距离,如果(n-m)大于预测框的宽w,则表示m点偏移了系统预测太多,判定该点为离群点,也就是说则m点来自一个误检测的预测框,将这种情况进行过滤,根据连续的视频帧获取了一系列修正点n,在n中选取波峰波谷,有规律的周期运动应该是“波峰-波谷-波峰-波谷”,所以排除有连续波峰或者波谷的情况,为减少判别过程中的噪声,还会过滤波形间隔太短(即出现波峰波谷的周期小于预定义的周期值),波峰谷差距过小,波峰谷比例差距过大等情况。
[0034]
进一步的,以某银行中检测柜员转椅为例,该发明通过监控视频流根据柜员来回左右转椅来判断柜员是否在认真办理业务,转椅带动着头部运动,横坐标x变化幅度较大,纵坐标y幅度较小,但设想一种情况,例如当柜员转动头部时,横坐标x与纵坐标y会同时发生较大幅度的变化。而横坐标x变化幅度可能会与转椅时类似,因为上述步骤未考虑纵坐标y,所以容易造成误判,因此,在仅仅考虑ai目标检测模型预测框中心点横坐标x是不够的。而同时对横坐标x、纵坐标y建模(即同时考虑二者的周期性规律变化)比较困难,并且再经过卡尔曼滤波,计算波峰波谷等步骤会增加更多的计算量。秉持着低计算量和简单有效的设计原则,为能够处理这种情况,从满足上述规律性(即经过了波峰波谷一系列筛选)之后那一刻开始,对获取的横坐标x、纵坐标y进行线性回归,如果回归得到的直线斜率超过预设定的阈值,则认为该目标在纵坐标y方向变化幅度较大,进而过滤掉该情况,计算这段时间内目标判定点到上述回归线中垂线的距离,再根据这个距离最后一次过滤掉一些潜在的离群点。
[0035]
进一步的,步骤s3中,经过一系列过滤之后,得到了目标的运动曲线,最终计算该曲线与预定义余弦周期函数的相似度,如果相似度大于阈值,则认为该目标在进行规律性周期运动,,相似度算法我们选取的是皮尔森相关系数。
[0036]
进一步的,所述皮尔森相关系数反应了两个变量之间的线性相关程度,它的取值在[-1,1]之间,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系,皮尔森相关系数如下:
[0037]

[0038]
综上所述,本发明将规律性运动检测转化为简单的曲线相似度计算,整个流程十分简单并且有效,只需要有目标的位置信息即可判断;此外方法具有很强的扩展性,通过ai目标检测模型来获取坐标信息,当然这并不局限于ai模型的预测值,只要能够获取目标位置信息,例如传感器等设备的测量值,均可以处理;同时该发明具有很强的健壮性和防干扰
能力,考虑到现实生活中,无论是设备测量值还是ai模型的预测值据存在噪声、离群值,因此对输入的数据进行平滑、过滤、拟合等处理,提高该方法的准确性。尽管本发明存在较多的数据计算,过滤等过程,但这些计算都只是简单的数学运算,直线拟合,计算周期,波峰波谷等,因此方法在保证可扩展性,准确率的同时,速度也十分快。
[0039]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献