一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多分支深度神经网络及混合密度图的人群计数方法与流程

2022-03-16 13:48:22 来源:中国专利 TAG:


1.本发明涉及人工智能、机器视觉、超高清显示领域,特别地涉及一种基于多分支深度神经网络及混合密度图的人群计数方法。


背景技术:

2.国内外的大型活动中频发踩踏事件,已经造成了不小的伤亡,如2015年上海外滩踩踏事件,已达到了我国规定的重大伤亡事故级别。因此,针对人群计数问题的研究也越来越火热,若能通过准确估计当前场景的人群密度,并安排相应的安保措施,则可以有效减少或避免此类事件的发生。人群计数具体是指利用计算机视觉技术估计某个区域的人数。传统人群计数方法主要分类两大类:1.基于检测的方法,这种方法通过使用检测器来检测人群场景中人的头部或肩膀以对其进行计数;2.基于回归的方法,基于检测的方法尽管可以在部分场景获得合理结果,但面临复杂场景如拥挤和遮挡的情况,效果往往不好,然而通过回归计数则能较好减轻上述问题。2020年8月si-yue yu和jian pu提出结合密度图和前景特征的人群计数方法,先构建一个具有两个任务的全卷积网络,提取多尺度空间上下文信息来学习密度图,通过实际检测,基于回归的方法优于基于检测的方法。
3.同时,随着超高清视频采集装置的不断进步,图像采集技术有了跨越式发展。
4.背景技术存在的主要问题是:拥挤的人群时常会造成踩踏等事件,严重的还会造成重大伤亡事故。针对这些恶性事件可行的预防手段则是人群计数等人流统计方法。然而传统的人群计数手段存在种种难以解决的问题,人群计数主要有基于检测的方法以及基于回归的方法,基于检测的方法主要通过使用检测器来检测人群场景中人的头部或肩膀轮廓以对其进行计数,由于相机视野范围和图像分辨率有限以及目标遮挡的情况存在,基于检测器的检测效果往往不佳;而基于回归的方法在面临人群拥挤、前景人头和背景人头大小差异较大的情况下,也不能取得较好的效果。解决以上问题及缺陷的难度为:上述问题使用传统方法较难解决,针对使用范围和图像分辨率的限制,唯一的解决方法就是采用分辨率更高且视角更广的视频图像采集设备;而针对遮挡问题、及背景前景人头大小问题,传统的解决方法难以处理密集重叠的人群,一旦人群规模上升,现有的方法将会产生较大误差。
5.解决以上问题及缺陷的意义为:人群计数方法中存在的视野范围窄、分辨率差、遮挡以及背景前景人头大小不一等问题,如果能够妥善解决,将能够更加准确估计人流数量,为监管及安保机构提供更加实时且准确的人群流量数据,帮助预防大规模聚集、踩踏等事件的发生。


技术实现要素:

6.本发明提供了一种基于多分支深度神经网络及混合密度图的人群计数方法,是一种结合超高清视频采集装置的多分支深度神经网络配合混合密度图的人群计数方法。由于采用了超高清图像及多分支深度卷积网络,能有效应对人群密度过高、遮挡严重等情况,同时,本发明根据人群规模调整密度图生成方式,可以有效避免人群过于稀疏情况下人群计
数产生误差。
7.本发明的技术方案如下:
8.一种基于多分支深度神经网络的人群计数方法,包括以下步骤:s1.标记人群图像,将人群图像生成对应的密度图,训练人群计数模型;s2.将待识别的图像根据分辨率的不同随机裁剪出9个240*240大小的子图像;s3.对训练用人群图像的子图像进行图像增强变换,得到增强后的子图像;s4.将步骤s3得到的增强后的子图像送入多分支深度卷积网络(mcnn),识别不同大小的人头图像;以及s5.将s4得到的结果进行堆叠,再经过一个1
×
1的卷积层处理得到对应的密度图映射,对密度图进行积分即可得到估计人数。
9.优选的,在上述基于多分支深度神经网络的人群计数方法中,在步骤s1中,首先需要对人群图像数据进行标注,标记出图像中的人物位置,之后将人群图像经过自适应高斯核函数或固定高斯核函数卷积转为对应的密度图,将人群图像数据和生成的密度图放进人群计数模型以训练人群计数模型。
10.优选的,在上述基于多分支深度神经网络的人群计数方法中,在步骤s2中,在训练阶段,给定一张分辨率为1080p的图像,将待识别的图像按分辨率的不同随机裁剪出9个240
×
240大小的子图像。
11.优选的,在上述基于多分支深度神经网络的人群计数方法中,在步骤s3中,图像增强变换包括旋转或对比度调整。
12.优选的,在上述基于多分支深度神经网络的人群计数方法中,在步骤s4中,多分支深度卷积网络采用三个分支分别识别不同大小的人头图像,最后将多分支深度卷积网络提取出的原始图像的特征堆叠得到合并特征图,再经过一个1
×
1的卷积映射到密度图,使用欧式距离来衡量预测结果密度图和标记值的差异。
13.优选的,在上述基于多分支深度神经网络的人群计数方法中,多分支深度卷积网络包括三个分支:大尺度卷积核、中等尺度卷积核和小尺度卷积核,其中大尺度卷积核、中等尺度卷积核和小尺度卷积核所使用的卷积核分别为(9
×
9)、(7
×
7)、(7
×
7)、(7
×
7);(7
×
7)、(5
×
5)、(5
×
5)、(5
×
5)以及(5
×
5)、(3
×
3)、(3
×
3)、(3
×
3)。
14.根据本发明的技术方案,产生的有益效果是:
15.本发明提出的方法与现有的方法相比有以下几点改进:
16.1.)提出一种多分支深度学习网络,引入imagenet预训练模型,形成了针对图像中不同大小人像的识别;
17.2.)传统方法无法应对复杂场景下的人群计数(如遮挡严重、人群规模大于200人等),基于深度学习的人群计数方法可以将检测人群的数量扩展到1000人以上;
18.3.)根据人群规模大小,提出一种新的密度图生成方式,在人群密度较高时,由于人与人之间的重叠较多且间距较小,可以采用人头与周围4个人头的平均距离来表示人头的实际尺寸;人群密度较低时,人与人间距很大,采用平均距离表示人头尺寸将造成很大误差,此时则采用固定的高斯核函数将人头视为统一大小的圆点,将人群技术转化为关键点计数问题,降低算力消耗;
19.4.)传统的基于深度学习的人群计数算法对输入图像的敏感度较高,采用8k图像超高清采集装置,使得现有图像分辨率大大提高,细节精度优于传统相机/摄像机,同时配合自适应图像金字塔技术,针对人群的密集程度选取合适的图像分辨率,平衡系统效率与
算力消耗。
20.本发明方法在进行人群计数时,利用多分支深度卷积网络,采用1080p/4k/8k图像作为识别对象,有效地避免了传统人群计数算法容易出现的弊端。
21.为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
22.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
23.图1为本发明的基于多分支深度神经网络的人群计数方法的流程图;
24.图2为测试图像及对应的密度图;
25.图3为人群坐标示意图;
26.图4为不同高斯核函数对应的密度图;
27.图5是多分支深度卷积网络的结构图;以及
28.图6是不同分辨率下的影像细节对比图。
具体实施方式
29.为使本发明的目的、技术方法及优点更加清晰,下面结合附图及具体实例,对本发明做进一步的详细说明。这些实例仅仅是说明性的,而并非对本发明的限制。
30.本发明的目的是提供一种基于多分支深度神经网络及混合密度图的人群计数方法,是一种结合自适应图像金字塔优化的多分枝深度卷积网络人群计数方法,根据通过多分支深度神经网络生成密度图对人群数量进行估计,同时提出一种新的密度图生成算法,配合图像金字塔策略,根据人流量大小,自适应调节图像采集装置的分辨率,优化系统算力消耗。具体地,该方法利用深度学习技术,学习一种从人群图像特征到图像密度图的映射。首先标记训练数据,根据图像中人群密集情况将标记好的图像经过自适应高斯核函数或固定高斯核函数卷积得到对应密度图,接着将训练数据和生成的密度图放到网络中进行训练,得到训练好的模型,之后根据模型即可推理出测试数据集中图像对应的密度图,最后对密度图进行积分,即可得到估计出的人数。
31.图1为本发明的基于多分支深度神经网络及混合密度图的人群计数方法的流程图,具体从开始到结束包括以下步骤:
32.s1.在训练阶段,标记人群图像,将人群图像生成对应的密度图,训练人群计数模型。具体地,首先需要对人群图像数据(即,训练数据)进行标注,标记出图像中的人物位置,之后将人群图像经过自适应高斯核函数或固定高斯核函数卷积转为对应的密度图,将人群图像数据和生成的密度图放进人群计数模型以训练人群计数模型。
33.开放场景下的人群计数需要将人群图像(即,测试图像)转为对应的密度图,如附图2所示。图3为人群坐标示意图,图3左部“1”所指示的是人头中心所在位置,即(3,6),(12,9),(17,15)处有人存在。右部为经过自适应高斯处理后的位置示意图,图中3*3的区域表示人所在的实际范围。
34.在训练阶段,用h(x)表示图中人群计数的总和,用函数δ(x-xi)表示在像素点xi处
有人头的概率,函数在(x=xi)处为1,其他地方全为0。那么,一张图有n个人头的话,可以描述为(1)式函数。
[0035][0036]
此时h(x)是离散函数,将其转化为一个连续密度函数,使用高斯核g
σ
(x),得到概率密度函数f(x),如(2)式所示。
[0037]
f(x)=h(x)
×gσ
(x)
………
(2)
[0038]
然而(2)式中描述的密度函数f(x)是假定xi为平面图像的独立样本,而实际上每个xi都是现实场景中的人群密度的样本,由于存在透视畸变,与不同人群样本关联的像素点在二维平面图像中应对应于不同大小的区域。考虑到畸变对计数的影响较大,且训练所用数据多数是训练集中的数据,难以获取与之对应的真实畸变大小,并考虑在拥挤的场景中,通常头部的大小与两个相邻人的中心距离有关。因此对于任意人头中心xi,其与周围人头间的距离记作平均距离因此考虑将自适应间距纳入考虑,(2)式可转化为(3)式。
[0039][0040]
其中,为高斯核函数的标准差,通过反复测试结合经验反推出β的最佳值为0.3。然而,在人群较为稀疏的情况下,不能再用作为人头大小的表示,因此采用固定大小的高斯核函数σi=3(根据trancos、the ucsd数据集上训练结果得出),经过实际实验,选用固定高斯核函数,在人群稀疏的场景下可以有效减小估计误差。固定高斯核函数和自适应高斯核函数在稀疏场景下生成密度图的对比见图4,其中左图为真实场景下的照片,中图为自适应高斯核函数生成的密度图,右图为固定值高斯核函数生成的密度图,可以看到,近景由于人群稀疏,自适应高斯核函数难以识别到,而固定值高斯核函数则准确识别出了近景人群。
[0041]
s2.将待识别的图像(即原始图像)根据分辨率的不同随机裁剪出9个240
×
40大小的子图像。在训练阶段,给定一张分辨率为1080p(4k/8k)的图像,以1080p分辨率的图像为例,将待识别的图像(即原始图像)按分辨率的不同随机裁剪出9个240
×
240大小的子图像。
[0042]
s3.在训练阶段,对所用训练用图像(即s1中的人群图像)的子图像进行图像增强变换,例如旋转、对比度调整等随机变化,得到增强后的子图像,以提高算法模型的泛化性和鲁棒性。
[0043]
s4.将步骤s3得到的图像(即增强后的子图像)送入多分支深度卷积网络(mcnn),识别不同大小的人头图像。此时需要预先加载imagenet预训练模型,防止因随机初始化导致的训练结果较差的问题。mcnn网络结构如图5所示。图5中示出了卷积层、池化层、输入的图像、融合特征图像、生成的密度图之间的关系。mcnn网络由三个分支组成,第一列记作l列(large,大尺度卷积核)、第二列记作m列(medium,中等尺度卷积核)和第三列记作s列(small,小尺度卷积核)。l列、m列和s列所使用的卷积核分别为(9
×
9),(7
×
7),(7
×
7),(7
×
7);(7
×
7),(5
×
5),(5
×
5),(5
×
5)以及(5
×
5),(33),(3
×
3),(3
×
3);由于人群图像中的人头大小不一,设计统一尺度的卷积核不利于识别到较小或超大的人头图像,因此采用三个分支分别识别不同大小的人头图像。最后将卷积网络提取出的原始图像的特征(即卷积网络的输出)堆叠得到合并特征图,再经过一个(1
×
1)的卷积映射到密度图。此时使用欧式距离来衡量预测结果密度图和标记值的差异,如下式所示。
[0044][0045]
s5.将s4得到的特征(即s4过程得到的结果)进行堆叠,再经过一个(1
×
1)的卷积层处理得到对应的密度图映射,对密度图进行积分即可得到估计人数。
[0046]
本发明采用超高清图像采集设备捕获图像,采集到的图像默认分辨率为8k(即7680
×
4320像素),然而当人群数量较少、不存在明显遮挡情况时使用8k分辨率的图像将大大提高系统响应时间,同时加大对云端算力的消耗。图6中,full hd表示全高清,分辨率为1080p,ultra hd为超高清,分辨率为2160p,full ultra hd为全超高清,分辨率为4320p。为优化整体系统性能,结合智慧大屏实际工况,采用图像金字塔策略,对原始8k图像进行下采样,分别生成2160p和1080p的图像。当系统检测到人群数量不大,人流较为稀疏时,采用1080p图像进行识别,随着人流量增大,视实际情况选用更高分辨率的图像,以此平衡运算消耗和整体系统能耗。
[0047]
本发明的实施例在人群计数数据集acc(awesome-crowd-counting)以及free-view上进行训练并测试,并用目前公认的评价标准map(mean average precision)对实验结果进行了评估。本发明提出的方法达到了目前领先的检测精度。
[0048]
以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献