一种视频中行人和人脸混合提取方法与流程

2022-03-09 00:19:31 来源：中国专利 TAG：

1.本发明涉及视频抓拍技术领域，具体为一种视频中行人和人脸混合提取方法。

背景技术：

2.近年来，随着智慧城市、智慧安防领域的发展，视频监控作为不可或缺的数据获取方法，城市中部署了随处可见的安防监控摄像头，时刻保障着人们的安全。而行人和人脸作为安防摄像头主要关注的对象，需要有高效的抓拍提取手段以提高监控人员的工作效率，目前业内主要使用集成了人脸抓拍和行人抓拍功能抓拍摄像头对监控区域内经过行人和人脸进行提取，比如海康威视、大华等抓拍摄像头。
3.目前市面上使用抓拍相机方式提取行人和人脸信息的产品存在着以下四点缺陷：
4.1、使用成本高
5.相对普通监控摄像机，带抓拍功能通常要贵的多，同时由于城市已经部署过很多普通监控摄像机，将它们全部更新、部署即造成之前投入资金的浪费、工作量又巨大。
6.2、算法升级维护繁琐
7.由于抓拍相机内部集成抓拍提取算法，而随着人工智能算法的不断演进，抓拍算法也会越来越准确，功能越来越丰富，但当前的抓拍摄像机对于算法的更新需要逐个升级相机固件，有的相机甚至可能还需要现场连接摄像机，优化升级繁琐，工作量大。
8.3、覆盖面少
9.由于带有抓拍功能的相机推出较晚同时价格较高，目前城市中绝大部分监控摄像头都是不带抓拍功能的普通摄像头，可以智能提取监控区域中的行人和人脸信息，快速定位重点人的区域覆盖面很少。
10.4、品种繁多，功能和效果参差不齐
11.目前各大监控摄像头厂家都在研发支持行人或人脸抓拍功能的摄像机，但效果和功能各不相同，如果有的相机仅支持人脸的抓拍提取但不支持行人的抓拍提取，有的相机虽然支持的功能多但效果不佳，很容易出现漏拍或抓拍图片效果不佳的情况，而抓拍摄像机又受限于部署和升级繁琐的问题，一旦上线短期很难更换。
12.因此我们对此做出改进，提出一种视频中行人和人脸混合提取方法。

技术实现要素：

13.为了解决上述技术问题，本发明提供了如下的技术方案：
14.本发明一种视频中行人和人脸混合提取方法，包括以下几个步骤：
15.s1、对摄像头通过5g网络传入的实时视频流解码和离线存储的监控视频文件解码，采用ffmpeg视频处理库进行视频逐帧解码，从而得到序列化的图片数据，而后将图片数据分别送入人脸检测模块和行人检测模块中；
16.s2、对s1解码出的视频信息，进行目标检测，得到人脸和行人信息，使用基于centernet深度学习网络训练出的行人检测模块器进行视频帧中行人位置和大小的检测；
17.s3、对s2中的人脸和行人信息进行目标定位跟踪，使用faceboxes作为视频帧中人脸位置和大小的检测器，对不同尺寸、姿态和场景下的人脸进行定位，采用sort算法，将s2当前检测的目标与现有目标相关联，并管理跟踪目标的生命周期；
18.s4、对s3检测出的行人和人脸图片分别进行质量评估，质量评估使用基于深度学习的质量分类算法以及传统图像处理方法获得各项质量评估结果；
19.s5、对行人和人脸进行相关联对比识别；
20.s6、混合提取对比，根据行人、人脸以及关联评估提取输出结果。
21.作为本发明的一种优选技术方案，所述s1s1目标检测中包括cpu和gpu硬件和视频解码模块，所述视频解码模块与摄像头通过5g网络信号连接，所述视频解码模块采用ffmpeg视频处理库进行视频逐帧解码。
22.作为本发明的一种优选技术方案，所述s2中设有人脸检测模块和行人检测模块，所述人脸检测模块采用faceboxes检测器，检测视频帧中人脸位置和大小，所述人脸检测模块包括人脸检测模块算法，所述人脸检测模块算法包括以下三个步骤：
23.步骤一、通过rdcl利用7
×
7、5
×
5的大卷积核和crelu完成1024
×
1024高分辨率图像的快速下采样，在大幅度减少参数量的同时，覆盖必要的图片分布信息；
24.步骤二、引入mscl和fpn将不同尺度卷积层的信息进行了融合；进一步扩大了模型的感受视野，提升了对不同尺度人脸的召回能力；
25.步骤三、引入anchordensificationstrategy，通过稠密采样anchor提升小人脸匹配成功的概率。
26.作为本发明的一种优选技术方案，所述s2中行人检测模块采用centernet目标检测方法，检测当前热点与周围8个临近点，采用3
×
3最大池化。
27.作为本发明的一种优选技术方案，所述s2中包括人脸跟踪模块和行人跟踪模块，所述人脸跟踪模块和行人跟踪模块均采用多目标跟踪，且采用sort算法，以目标检测框iou作为前后帧间目标关系度量指标，预测当前位置，并关联检测框到目标。
28.作为本发明的一种优选技术方案，所述s4中包括人脸质量评估模块和行人质量评估模块，所述人脸质量评估模块和行人质量评估模块均使用基于深度学习的质量分类算法以及传统图像处理方法，所述人脸跟踪模块包括行人评估维度和人脸质量评估模块维度，所述行人评估维度由行人清晰度、行人重叠度、行人宽高比例、是否存在到人脸、行人是否完整和行人朝向构成，所述人脸质量评估模块维度由人脸清晰度、人脸角度和人脸遮挡情况构成。
29.作为本发明的一种优选技术方案，所述s5中包括人脸/行人关联模块，所述人脸/行人关联模块选择关联到的帧数最多的一个人脸id作为此行人的最优关联人脸，避免短暂关联结果的干扰，减少关联的错误。
30.作为本发明的一种优选技术方案，所述s6中设有人脸/行人结果输出模块，所述人脸/行人结果输出模块中记录行人离开后输出和行人长时间逗留后输出，根据行人、人脸以及关联评估给定的输出结果综合评定出同一行人id中最佳的行人和人脸图片和属性信息。
31.本发明的有益效果是：
32.1、该种视频中行人和人脸混合提取方法，实现速度更快、资源消耗更低的算法处理，在nvidia2080ti卡上fh-video-mix-capture对于实时监控视频流可以实现8路以上的
实时处理，对于离线视频处理帧率可以达到200fps左右，提取效果良好，可以在行人离开和长时间逗留监控区域后输出最优行人和人脸信息，同时升级成本低，不需要更新原先部署的监控摄像头，使用烽火人工智能计算服务器即可让原始部署的普通监控摄像头升级使用行人和人脸提取功能，大大节省了人力和资金成本；
33.2、该种视频中行人和人脸混合提取方法，将行人和人脸结合起来，实时独立检测和评估最佳行人和人脸，使视频可以一次性输出经过监控区域的最佳行人和人脸，可以方便的升级提取算法，亦可以针对性、定制化优化提取算法以获得更适合的提取效果；
34.3、该种视频中行人和人脸混合提取方法，行人和人脸的关联结合了视频中连续帧跟踪信息，通过选择关联行人最多的人脸可以避免因短暂交回造成输出的行人和人脸关联错误问题，以及对于安防领域行人信息的提取更为完整，关联了行人和人脸信息，方便行人属性和人脸特征的追溯，而大多数抓拍摄像机只有单一的人脸抓拍和行人抓拍功能，亦不能很好解决关联问题；
35.4、该种视频中行人和人脸混合提取方法，行人质量评估模块综合了清晰度、重叠度、宽高比、行人完整程度等维度有效过滤掉不能很好提取行人特征的行人，同时加入了是否识别出人脸以及朝向优先级策略，使输出的行人图片信息更全面、友好，方便后续的查询追溯，同时可以对历史监控视频数据进行行人和人脸的提取工作，便于历史数据的整理回溯；
36.5、该种视频中行人和人脸混合提取方法，人脸质量评估模块综合了清晰度、左右和俯仰姿态角度以及人脸遮挡情况等维度，有效过滤掉人脸质量不佳图片，输出人脸信息更丰富的人脸图片，方便后续对行人、人脸的查询追溯，由于视频边缘不可避免会出现行人或人脸的截断现象，而因处于边缘被截断的行人或人脸图片是质量分类模型较难分类正确的；
37.6、该种视频中行人和人脸混合提取方法，加入了视频边缘的判定策略，当在连续帧中行人(人脸)存在非边缘的合格图片则放弃边缘行人(人脸)图片帧的处理，使最终输出的行人和人脸更加完整。
附图说明
38.附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：
39.图1是本发明一种视频中行人和人脸混合提取方法的行人和人脸混合提取方法步骤示意图；
40.图2是本发明一种视频中行人和人脸混合提取方法的行人和人脸混合提取方法流程图；
41.图3是本发明一种视频中行人和人脸混合提取方法的人脸检测模块算法方法步骤示意图。
具体实施方式
42.以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。
43.实施例：如图1-3所示，本发明一种视频中行人和人脸混合提取方法，包括以下几个步骤：
44.s1、对摄像头通过5g网络传入的实时视频流解码和离线存储的监控视频文件解码，采用ffmpeg视频处理库进行视频逐帧解码，从而得到序列化的图片数据，而后将图片数据分别送入人脸检测模块和行人检测模块中；
45.s2、对s1解码出的视频信息，进行目标检测，得到人脸和行人信息，使用基于centernet深度学习网络训练出的行人检测模块器进行视频帧中行人位置和大小的检测；
46.s3、对s2中的人脸和行人信息进行目标定位跟踪，使用faceboxes作为视频帧中人脸位置和大小的检测器，对不同尺寸、姿态和场景下的人脸进行定位，采用sort算法，将s2当前检测的目标与现有目标相关联，并管理跟踪目标的生命周期；
47.s4、对s3检测出的行人和人脸图片分别进行质量评估，质量评估使用基于深度学习的质量分类算法以及传统图像处理方法获得各项质量评估结果；
48.s5、对行人和人脸进行相关联对比识别；
49.s6、混合提取对比，根据行人、人脸以及关联评估提取输出结果。
50.其中，s1目标检测中包括cpu和gpu硬件和视频解码模块，视频解码模块与摄像头通过5g网络信号连接，视频解码模块采用ffmpeg视频处理库进行视频逐帧解码。
51.其中，s2中设有人脸检测模块和行人检测模块，人脸检测模块采用faceboxes检测器，检测视频帧中人脸位置和大小，人脸检测模块包括人脸检测模块算法，人脸检测模块算法包括以下三个步骤：
52.步骤一、通过rdcl利用7
×
7、5
×
5的大卷积核和crelu完成1024
×
1024高分辨率图像的快速下采样，在大幅度减少参数量的同时，覆盖必要的图片分布信息；
53.步骤二、引入mscl和fpn将不同尺度卷积层的信息进行了融合；进一步扩大了模型的感受视野，提升了对不同尺度人脸的召回能力；
54.步骤三、引入anchordensificationstrategy，通过稠密采样anchor提升小人脸匹配成功的概率。
55.其中，s2中行人检测模块采用centernet目标检测方法，检测当前热点与周围8个临近点，采用3
×
3最大池化。
56.其中，s2中包括人脸跟踪模块和行人跟踪模块，人脸跟踪模块和行人跟踪模块均采用多目标跟踪，且采用sort算法，以目标检测框iou作为前后帧间目标关系度量指标，预测当前位置，并关联检测框到目标。
57.其中，s4中包括人脸质量评估模块和行人质量评估模块，人脸质量评估模块和行人质量评估模块均使用基于深度学习的质量分类算法以及传统图像处理方法，人脸跟踪模块包括行人评估维度和人脸质量评估模块维度，行人评估维度由行人清晰度、行人重叠度、行人宽高比例、是否存在到人脸、行人是否完整和行人朝向构成，人脸质量评估模块维度由人脸清晰度、人脸角度和人脸遮挡情况构成。
58.其中，s5中包括人脸/行人关联模块，人脸/行人关联模块选择关联到的帧数最多的一个人脸id作为此行人的最优关联人脸，避免短暂关联结果的干扰，减少关联的错误。
59.其中，s6中设有人脸/行人结果输出模块，人脸/行人结果输出模块中记录行人离开后输出和行人长时间逗留后输出，根据行人、人脸以及关联评估给定的输出结果综合评
定出同一行人id中最佳的行人和人脸图片和属性信息。
60.工作原理：视频解码模块支持由摄像头通过网络传入的实时视频流解码和离线存储的监控视频文件解码，采用ffmpeg视频处理库进行视频逐帧解码，从而得到序列化的图片数据，而后将图片数据分别送入人脸检测模块和行人检测模块中，使用基于centernet深度学习网络训练出的行人检测模块器进行视频帧中行人进行位置和大小的检测，centernet作为一种anchor-free的目标检测方法，直接将目标作为一个点去预测，彻底丢掉了nms后处理操作。
61.针对一张图像进行下采样，随后对下采样后的图像进行预测，对于每个类在下采样的特征图中预测中心点，然后将输出图中的每个类的热点单独地提取出来，提取方法就是检测当前热点是否比周围8个临近点都大或者等于，然后提取100个这样的点，采用3
×
3最大池化的方式，最后根据当前中心点存在物体的概率，在100个结果中选取最终结果，以及使用faceboxes作为视频帧中人脸位置和大小的检测器，faceboxes是一种轻量级的单阶段人脸检测模块算法，网络结构近似ssd，整体使用n
×
n卷积，对于cpu部署和硬件优化友好。
62.多目标跟踪基于sort算法实现，sort算法以检测作为关键组件，传播目标状态到未来帧中，将当前检测与现有目标相关联，并管理跟踪目标的生命周期，从实践验证来看在目标检测效果较好的情况下可以非常快速地对监控场景下的行人/人脸目标进行跟踪关联。
63.检测出的行人和人脸图片分别进行质量评估，质量评估使用基于深度学习的质量分类算法以及传统图像处理方法获得各项质量评估结果，具体行人评估维度如下：
64.行人清晰度：越清晰的行人图片清晰度得分越高；
65.行人重叠度：与其他行人重叠度越低得分越高；
66.行人宽高比例：宽高比越接近1:4得分越高；
67.是否存在到人脸：优先选择检测到的行人漏出脸部的行人图片；
68.行人是否完整：优先选择行人未被遮挡截断的行人图片；
69.行人朝向：按照正向优于背向，背向优于侧向的方式选择行人图片；
70.人脸质量评估模块维度如下：
71.人脸清晰度：越清晰的行人图片清晰度得分越高；
72.人脸角度：人脸角度越正得分越高；
73.人脸遮挡情况：人脸遮挡越少得分越高
74.行人和人脸各自通过各维度的质量综合评估出质量得分以及输出优先级，取最优图片作为当前行人/人脸id下的待输出图片。
75.提取到的人脸需要与行人关联，这样可以更好的分析监控视频中的行人信息，此处使用单个视频帧中的人脸存在于行人框顶部15％以内的区域判定，当然由于在监控场景中不可避免会出现多个不同人脸出现在行人判定区域内，这里在单个行人关联出的人脸信息结构中保存了关联到的每个人脸数量，最终选择关联到的帧数最多的一个人脸id作为此行人的最优关联人脸，避免短暂关联结果的干扰，减少关联的错误。
76.统一管理混合提取刷出机制，包括行人离开后输出和行人长时间逗留后输出，根据行人、人脸以及关联评估给定的输出结果综合评定出同一行人id中最佳的行人和人脸的
图片和属性信息
77.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于深度强化学习的车辆行驶状态估计系统及方法与流程

一种视频中行人和人脸混合提取方法与流程

相关文献

最热文献