一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度信息和显著性信息的人群计数方法及系统

2022-11-14 13:24:24 来源:中国专利 TAG:


1.本发明属于计算机视觉领域,更具体地,涉及一种基于深度信息和显著性信息的人群计数方法。


背景技术:

2.密集人群计数的任务是估计图像或视频中包含的人物数量。随着全球人口数量的上涨和人类社会活动的增加,各地公共场所经常会出现人群大量聚集的情况,如交通枢纽和娱乐场所等,这给公共安全带来了巨大的隐患。密集人群计数任务在视频监视、交通控制和大都市安全方面应用广泛,各国研究人员开展了大量研究。人群计数的方法还可以推广到其他领域的类似任务,例如医学中显微图像的细胞数量估计、交通拥挤情况下的车辆估计和广泛的生物样本调查等。
3.传统人群计数方法主要可以分为基于检测和回归的方法,随着人群密度的提升,这两种方法很难处理人群之间严重的遮挡问题。由于深度学习模型具有强大的特征提取能力,基于深度学习的人群计数方法研究已经取得了很多优秀的成果。目前主流的方法是利用卷积神经网络预测原始图像的密度图,利用密度图计算出人数。
4.wang等人最先将卷积神经网络(convolution neural networks,cnn)引入人群计数领域,提出了一种适用于密集人群场景的端到端的cnn回归模型。模型对alexnet网络进行改进,并且将最后的全连接层替换为单神经元层,直接预测人群数量。缺点是无法统计场景中的人员分布情况,在人群密集或者场景复杂的情况下,效果不好。zhang等人受多分支深度卷积神经网络提出了一种多列卷积神经网络mcnn用于人群计数,每一分支网络都采用不同大小的卷积核,用来提取不同尺度目标的特征信息,减少因为视角变化形成的目标大小不一导致的计数误差。虽然多分支结构计数网络取得了较好的计数效果,但是多分支结构网络模型的复杂性较高,由此也带来了一些新的问题。比如网络模型参数繁多、训练困难,结构有冗余等问题。为此,li等人提出了一种适用于密集人群计数的扩张卷积神经网络模型csrnet。csrnet没有采用以往广泛使用的多分支网络结构,而是将舍弃了全连接层的vgg16网络作为该网络的前端部分,后端则采用6层扩张卷积神经网络,构成一个单通道计数网络,大幅度减少了参数量,降低了训练难度。同时,借助空洞卷积可以在保持输入图像分辨率的同时扩大感受野的优势,保留了更多的图像细节信息,使得生成的人群密度图质量更高。
5.为了解决由于摄像机与人群距离不同造成的目标尺寸变化较大的问题,引入辅助信息来辅助人群计数引起了关注。shi等人将透视信息与人群计数相结合,提高计数准确度。透视信息呈现的是整个图像的深度差异,与深度图像有一定的相似性。xu等人使用图像的深度信息将场景分割成远景区域和近景区域,然后应用不同的机制(基于密度图和基于检测)来估计这两个区域的计数结果统计出总人数。yang等人使用预训练的深度分支为人群计数提供深度信息,深度信息一定程度上反应了人群的密度,并且隐含了尺度变化信息,然而忽略了人群区域之外的深度信息会对计数结果造成影响这一问题。


技术实现要素:

6.本发明的目的是针对以上不足,提供一种基于深度信息和显著性信息的人群计数方法及系统,利用视觉显著性信息和深度信息相结合的方式来辅助人群计数,利用显著性信息可以校正深度信息,降低没有人群信息区域造成的干扰,提高计数效果。
7.为实现上述目的,本发明是通过以下技术方案实现的:
8.第一方面,本发明提供一种基于深度信息和显著性信息的人群计数方法,包括:
9.采集指定区域的人群样本图像;
10.将采集到的人群样本图像输入训练好的基于显著性信息和深度信息的密度图预测模型;
11.输出人群样本图像中的总人数。
12.进一步地,所述密度图预测模型是通过以下方法构建的:
13.利用图像深度信息预测网络对输入的人群样本图像进行深度预测,得到图像深度信息;
14.将输入的人群样本图像、其对应的预测显著性信息以及深度信息一起输入人群密度图预测网络,利用显著性信息校正深度信息,利用校正后的深度信息指导密度图预测网络训练,生成密度图预测模型。
15.进一步地,所述显著性信息是利用显著性预测模型对输入的人群样本图像进行显著性图的预测生成的,所述显著性预测模型是通过以下方法构建的:
16.对输入的人群样本图像对应的人头标注数据进行高斯模糊,生成真值显著性图;
17.利用视觉显著性预测网络对输入的人群样本图像进行显著性信息的预测,生成预测显著性图;
18.根据预测显著性图和真值显著性图计算损失函数,通过梯度反向传播调整网络参数,经过迭代,生成显著性预测模型。
19.进一步地,所述对输入的人群样本图像对应的人头标注数据进行高斯模糊,是使用标准差为19的高斯核函数对其进行高斯模糊。
20.进一步地,所述密度图预测网络训练,包括:
21.对于输入的人群样本图像r,与其对应的深度图d和显著性图s,在编码器的第l层,令r
l
、d
l
和s
l
分别为编码器先前卷积层的输出特征图,用相应层的显著性特征校正深度特征,校正方法为:
[0022]vl
=sigmoid(φs(s
l
))
[0023]dl
=v
l
⊙dl
[0024]
其中,φs代表1
×
1的卷积层,v
l
为编码器第l层的权重,由sigmoid函数计算,

表示元素级别乘法,利用权重v
l
作用dl,使之突出人群区域,减少非人群区域深度信息的影响;
[0025]
将校正后的深度信息d
l
对r
l
加权为
[0026]rl
=r
l
⊙dl
[0027]
其中,

为元素级别乘法;
[0028]
之后将r
l
、d
l
和s
l
输入到后续网络。
[0029]
进一步地,所述密度预测网络,包括:编码模块、深度校正与嵌入模块、增强多尺度
模块、解码模块;
[0030]
所述编码模块用于提取输入图像的多级特征;
[0031]
所述深度校正与嵌入模块用于深度信息的校正与融合;
[0032]
所述增强多尺度模块用于多尺度综合特征提取与融合;
[0033]
所述解码模块用于输出尺寸与输入图像相同的预测密度图。
[0034]
进一步地,所述编码器模块为经过预训练的vgg16网络;所述增强多尺度模块包括多分支不同扩张率的3
×
3卷积,扩张卷积提供了比普通卷积操作更大的感受野;所述解码模块为7层扩张卷积网络,用于输出尺寸与输入图像相同的预测密度图。
[0035]
进一步地,所述输出人群样本图像中的总人数,包括
[0036]
利用密度预测模型生成人群样本图像的预测密度图,通过对预测密度图各像素点求和获得图中的总人数。
[0037]
第二方面,本发明还提供一种基于深度信息和显著性信息的人群计数系统,包括处理器及存储介质;
[0038]
所述存储介质用于存储指令;
[0039]
所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。
[0040]
与现有技术相比,本发明的有益效果为:
[0041]
(1)本方法将人群显著性信息引入了人群计数领域,将人头标注点作为人眼关注点,利用高斯模糊生成人群计数的视觉显著性标签,利用深度学习网络进行训练测试,得到了人群计数的视觉显著性信息,辅助人群计数的训练;
[0042]
(2)本方法利用视觉显著性信息和深度信息相结合的方式来辅助人群计数,利用显著性信息可以校正深度信息,降低没有人群信息区域造成的干扰,提高计数效果。
附图说明
[0043]
图1是本发明实施例提供的一种基于深度信息与显著性信息的人群计数方法的流程图;
[0044]
图2是实施例所述的人群计数总体网络结构示意图;
[0045]
图3是实施例所述的增强多尺度模块的网络结构示意图。
具体实施方式
[0046]
下面将结合附图和具体实施例对本发明作进一步描述,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0047]
实施例1
[0048]
如图1~图3所示,一种基于深度信息与显著性信息的人群计数方法,包括:采集指定区域的人群样本图像;将采集到的人群样本图像输入训练好的基于显著性信息和深度信息的密度图预测模型;输出人群样本图像中的总人数。
[0049]
在本实施例中,对于采集到的人群样本图像,采用基于深度信息与显著性信息的人群计数方法,其应用过程如图1所示,具体涉及如下步骤:
[0050]
步骤1)对输入的人群样本图像对应的人头标注数据进行高斯模糊,生成真值显著性图。
[0051]
本实施例中,参考了人眼关注点预测数据集salicon数据集,该数据集包含了20000张选自microsoft coco数据集的图像,是迄今为止图像人眼关注点检测领域规模最大的数据集。但是该数据集没有使用眼动仪录制眼动数据,而是利用了亚马逊众筹标记平台,让标注者用鼠标点击自己关注的位置。对于人群计数数据集来说,这和人头标注的过程是相似的。之后对同一幅图像的所有预处理的鼠标点击样本进行高斯模糊,生成真值显著性图。对于输入样本图像对应的人头标注数据,使用标准差为19的高斯核函数对其进行高斯模糊,生成真值显著性图。
[0052]
步骤2)利用视觉显著性预测网络对输入的人群样本图像进行显著性信息的预测,生成预测显著性图,并根据预测显著性图和真值显著性图计算损失函数,通过梯度反向传播调整网络参数,经过迭代,生成显著性预测模型,利用该模型对输入样本图像进行显著性图的预测,生成预测显著性信息。
[0053]
步骤3)利用图像深度信息预测网络对输入样本图像进行深度预测,得到图像深度信息。
[0054]
本发明实施中,利用预训练好的深度信息预测网络模型对输入样本图像进行深度预测,预测图像可以很好地适应各种场景布局,表现出不同位置到摄像机的距离变化。
[0055]
步骤4)将输入样本图像、其对应的预测显著性信息与深度信息一起输入人群密度图预测网络,利用显著性信息校正深度信息,利用校正后的深度信息指导密度图预测网络训练,生成密度图预测模型。
[0056]
本实施例中,人群密度图预测网络总体网络结构如图2所示。将输入样本图像与其对应的预测显著性信息与深度信息一起输入人群密度图预测网络。对于输入样本图像r,与其对应的深度图d和显著性图s,在编码器的第l层,令r
l
、d
l
和s
l
分别为编码器先前卷积层的输出特征图。用相应层的显著性特征校正深度特征,校正方法为:
[0057]vl
=sigmoid(φs(s
l
))
[0058]dl
=v
l
⊙dl
[0059]
其中,φs代表1
×
1的卷积层,v
l
为编码器第l层的权重,由sigmoid函数计算,

表示元素级别乘法,利用权重v
l
作用d
l
,使之突出人群区域,减少非人群区域深度信息的影响;
[0060]
将校正后的深度信息d
l
对r
l
加权为
[0061]rl
=r
l
⊙dl
[0062]
其中,

为元素级别乘法;
[0063]
之后将r
l
、d
l
和s
l
输入到后续网络。
[0064]
为了处理人群的尺度变化问题,大多数之前的工作都采用了多列网络架构,如mcnn使用了三列子网络来提取不同尺度的特征,然而特征的尺度多样性会受到网络列数的限制。为了解决这个问题,借鉴了inception的架构思想,并进一步利用扩张卷积,提出一种增强多尺度模块,对输入特征图进行尺度增强,如图3所示。
[0065]
扩张卷积提供了比普通卷积操作更大的感受野,它可以捕捉边界周围区域和比普通卷积更丰富的上下文信息。在人群场景中图像中人物的头部区域总是变化很大。单一的感受野不能适应人头尺度的变化,分别使用了扩张率d为1、2、4的3
×
3卷积来捕捉特征,更好的适应人群场景中多样化的人群分布。
[0066]
最后将特征图输入解码器模块,解码器模块为7层扩张卷积网络,利用更大的感受
野提取更深层的重要信息,用于输出尺寸与输入图像相同的预测密度图,利用欧式距离来衡量预测结果密度图与标签的差距,如式(1)所示
[0067][0068]
式(1)中,xi为输入图像,f(xi)为估计密度图,d(xi)是真实密度图,n为训练样本个数。通过梯度反向传播调整网络参数,经过迭代训练密度预测网络。
[0069]
步骤5)在对单张图像进行人群计数时,利用密度预测模型生成此图像的预测密度图,通过对预测密度图各像素点求和获得图中的总人数。
[0070]
在训练出稳定的密度预测模型后,利用此模型对输入图像生成此图像的预测密度图,在获得密度图之后,通过像素点求和获得图中的总人数。
[0071]
实施例2
[0072]
基于实施例1所述的基于深度信息与显著性信息的人群计数方法,本实施例提供一种基于深度信息和显著性信息的人群计数系统,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行实施例1所述方法的步骤。
[0073]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和技术原理的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的,这些修改和变更也应视为本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献