一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于视觉的场外施工深度学习实例分割跟踪方法

2022-08-13 10:17:24 来源:中国专利 TAG:


1.本发明属于图像处理和深度学习技术领域,特别涉及一种基于视觉的场外施工深度学习实例分割跟踪方法,包括基于视觉的实例分割方法和基于掩模的对关联步骤的优化方法。


背景技术:

2.实例分割是对图像进行目标检测以得到不同类别的目标区域,将同一类的目标区域细分得到其中特定目标候选区域,对每个候选区域进行分割得到目标图像的分割结果。
3.实例分割广泛地被用于各种计算机视觉处理工作中,例如汽车的自动驾驶、医学诊断、治安管理。但是目前的实例分割技术精确度较低,鲁棒性不强,难以满足长时间监控分析的需求。
4.基于视觉的工作者跟踪是指从录像中提取工作者的轨迹,这是基于视觉的建筑工作者监控的基本步骤。建造业研究界的许多研究已发展出以视觉为基础的追踪方法,以方便监察建造业工作者。值得注意的是,这些研究大多集中于跟踪现场施工的工作者,而只有少数学者致力于开发跟踪非现场施工工作者的方法。chu等人采用mdnet方法来跟踪场外施工中的工作者,该方法从卷积神经网络(convolutional neural networks)中学习多个域特征,以实现在施工场景中的稳健跟踪性能。然而,他们的方法是为跟踪单个目标而开发的,不能直接用于多个工作者跟踪。
5.在场外施工中,由于工作空间相对有限,工作人员数量多,姿态变化频繁,基于视觉的跟踪条件复杂。现有的基于视觉的跟踪方法在非现场施工环境下难以获得稳健的工作者跟踪性能,原因有二。首先,现有的方法采用目标检测来识别工作者对象,这在处理遮挡、尺度变化、背景杂波和突然移动等跟踪难题时难以获得可靠的性能;其次,现有的方法基于包围盒信息跨帧关联工作者对象。考虑到工作者在穿戴个人防护装备(personal protective equipment)时具有相似的视觉特征,在场外施工中,包围盒水平关联容易产生错误。


技术实现要素:

6.有鉴于现有技术的上述缺陷,本发明的目的在于提供一种基于视觉的场外施工深度学习实例分割跟踪方法,通过基于视觉的实例分割方法及基于掩模的对关联步骤的优化方法,以解决上述技术问题,
7.本发明采用的一个技术方案是:
8.一种基于视觉的场外施工深度学习实例分割跟踪方法,其包括实例分割方法,该方法包括如下步骤:
9.步骤s1:实例分割:实例分割模块从输入视频中检测工作者,得到工作者的包围盒和分割掩码;
10.步骤s2:实例关联:实例关联模块在所述输入视频的每两个连续帧上构造一个工
作实例关联矩阵;
11.步骤s3:实例指派:实例指派模块利用匈牙利算法在实例指派中产生跟踪结果。
12.在所述步骤s1实例分割模块中使用基于深度学习的掩码r-cnn算法遮蔽r-cnn;掩码r-cnn方法包括三个模块,即特征提取器模块、区域建议网络模块(rpn)和扩展分类器网络模块(extended classifier network);
13.通过采用掩码的r-cnn算法来描述工作者的身体部位,获得相比目标检测分割方法更精确的掩模来描述被遮挡的工作者。
14.所述掩码r-cnn深度学习算法算法的具体步骤如下:
15.由resnet101神经网络对输入图像进行处理,提取特征提取模块中的特征映射;利用rpn模块对n
×
n空间窗口的特征映射进行滑动;在这个模块中,为每个滑动窗口初始化12个锚定框作为兴趣区域(region ofinterests,roi),这些锚定框由三个长宽比(1:1,1:2,2:1)和四个比例比(322,642,1282,5122)定义;每个感兴趣区域由三层卷积网络处理,两层全连通盒分类和盒回归处理rpn模块根据它们成为对象的可能性产生300个rois。
16.所述掩码r-cnn深度学习算法,采用感兴趣区域对齐技术,从每个感兴趣区域的特征图中提取固定形状特征;在ecls模块中,这些固定形状特征分别由三个神经网络进行盒分类、盒回归和掩模回归处理;其中,盒分类网络产生属于任意预定义类的每个投资回报率的置信度;回归网络预测每个对象的像素坐标,掩模回归网络预测每个对象在像素级别的分割掩模。
17.所述步骤s2实例关联模块采用基于掩模的方法来优化工作者跟踪的关联步骤。
18.将卡尔曼滤波预测和模糊推理结合,得到一种新的实例关联方法。
19.以所述步骤s1实例分割模块生成的工作者的包围盒和掩码作为输入,将每两帧连续的工作者分割结果关联起来,并为实例分配模块生成一个关联矩阵。
20.在所述步骤s2实例关联模块中,输入图像时,一旦一个新的工作者实例在一个帧被分割,卡尔曼滤波跟踪器将被初始化来跟踪这个实例,通过使用这个工作者的边框信息,其中一个唯一的id号被分配给tracklet;卡尔曼滤波使用了一系列随时间变化的观测数据,并产生下一时间步长的估计;每个物体的状态模拟如下:
21.state=[cx,cy,u,v]
[0022]
其中cx和cy分别表示物体包围盒中心点的水平和垂直坐标;u和v表示物体在水平和垂直坐标上的速度;换句话说,卡尔曼滤波只是用来跟踪工件实例的中心点,而不是用来跟踪包围盒。
[0023]
所述步骤s2关联模块的具体步骤如下:
[0024]
卡尔曼滤波利用前一帧的包围盒信息,预测工作者在当前帧的中心点位置;将运动向量计算为同一工作实例在当前帧和前一帧之间的中心点运动;通过将检测到的遮罩与运动矢量相加,可以得到当前帧上的跟踪遮罩;将当前帧上的关联矩阵计算为当前帧上跟踪掩模和分段掩模的掩模交叉过并(mask intersection-over-union)。
[0025]
本发明的有益技术效果在于:
[0026]
1.将实例分割引入到场外施工工作者跟踪中,使工地管理具有更强的追踪性,从而提升工地安全;
[0027]
2.提出了一种新的建筑工作者图像数据集用于训练实例分割方法;
[0028]
3.提出了一种新的基于掩码的实例关联方法来提高工作者跟踪的鲁棒性;
[0029]
4.从整体上提高非现场施工工作者的视觉检测效率和现场安全。
附图说明
[0030]
图1是本发明提供的基于视觉的场外施工深度学习实例分割跟踪方法一个实施例的流程示意图;
[0031]
图2是本发明提供的掩蔽r-cnn方法一个实施例的流程示意图;
[0032]
图3是本发明一个较佳实施例的检测结果示意图。
具体实施方式
[0033]
下面对本发明的实施例作详细说明,下述的实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0034]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,在不冲突的情况下,本文所描述的实施例可以与其它实施例相结合。
[0035]
实施例:
[0036]
本发明提供的基于视觉的场外施工深度学习实例分割跟踪方法,其包括基于视觉的实例分割方法及基于掩模的对关联步骤的优化方法。
[0037]
图1是本发明实施例提供的实例分割方法的流程示意图,如图1所示,该流程包括以下步骤:
[0038]
步骤s1,实例分割模块,采用深度学习算法掩蔽r-cnn,从输入视频的所有帧中检测工作者;掩码r-cnn的分割结果包含两种关于工作者的信息,即包围盒和掩码,其中分割掩码可以在像素级提供更丰富的工作者实例信息;
[0039]
步骤s2,实例关联模块,在每两个连续帧上构造一个工作实例关联矩阵;首先,卡尔曼滤波利用前一帧的包围盒信息,预测工作者在当前帧的中心点位置;然后,将运动向量计算为同一工作实例在当前帧和前一帧之间的中心点运动;通过将检测到的遮罩与运动矢量相加,可以得到当前帧上的跟踪遮罩;最后将当前帧上的关联矩阵计算为当前帧上跟踪掩模和分段掩模的掩模交叉过并;
[0040]
步骤s3,实例分配模块,使用匈牙利算法来产生跟踪结果。
[0041]
图2是本发明实施例提供的基于视觉,结合深度学习的掩码r-cnn算法,如图2所示,该算法包括以下内容:
[0042]
三个主要模块,即特征提取器、区域建议网络和扩展分类器网络;首先,由resnet101神经网络对输入图像进行处理,提取特征提取模块中的特征映射;然后,利用rpn模块对n
×
n空间窗口的特征映射进行滑动;在这个模块中,为每个滑动窗口初始化12个锚定框作为兴趣区域,这些锚定框由三个长宽比(1:1,1:2,2:1)和四个比例比(322,642,1282,5122)定义;每个感兴趣区域由三层卷积网络处理,两层全连通盒分类和盒回归处理;
最后,rpn模块根据它们成为对象的可能性产生300个rois;此外,还采用了感兴趣区域对齐技术,从每个感兴趣区域的特征图中提取固定形状特征;在ecls模块中,这些固定形状特征分别由三个神经网络进行盒分类、盒回归和掩模回归处理;其中,盒分类网络产生属于任意预定义类的每个投资回报率的置信度;回归网络预测每个对象的像素坐标,掩模回归网络预测每个对象在像素级别的分割掩模。
[0043]
在本发明的所述步骤s2,实例关联模块中,采用以下优化方法:
[0044]
在输入图像中,一旦一个新的工作者实例在一个帧被分割,卡尔曼滤波跟踪器将被初始化来跟踪这个实例,通过使用这个工作者的边框信息,其中一个唯一的id号被分配给tracklet;卡尔曼滤波使用了一系列随时间变化的观测数据,并产生下一时间步长的估计,这已经被用于基于视觉的跟踪;在这项研究中,每个物体的状态模拟如下:
[0045]
state=[cx,cy,u,v]
[0046]
其中cx和cy分别表示物体包围盒中心点的水平和垂直坐标;u和v表示物体在水平和垂直坐标上的速度;换句话说,卡尔曼滤波只是用来跟踪工件实例的中心点,而不是用来跟踪包围盒。
[0047]
本发明重点是通过优化基于计算机视觉原理的方法提高视觉检测效率,其包括以下步骤:步骤s1:实例分割:实例分割模块从输入视频中检测工作者,得到工作者的包围盒和分割掩码;步骤s2:实例关联:实例关联模块在所述输入视频的每两个连续帧上构造一个工作实例关联矩阵;步骤s3:实例指派:实例指派模块利用匈牙利算法在实例指派中产生跟踪结果。本发明用于追踪建筑工地上非现场施工工作者的身体轮廓,将实例分割引入到场外施工工作者跟踪中,使工地管理具有更强的追踪性,从而提升非现场施工工作者的视觉检测效率和现场安全。
[0048]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献