用于人群计数的轻量金字塔空洞卷积聚合网络的训练方法与流程

2022-03-02 04:01:48 来源：中国专利 TAG：

1.本发明涉及一种用于人群计数的轻量金字塔空洞卷积聚合网络的训练方法。

背景技术：

2.人群计数旨在估计视频帧或图像中的人群数量。它能够有效地监测公共场景中人群的数量和密度分布，在公共安全和智慧城市中有着非常重要的应用，引起了学者们的广泛关注。但是人群计数的准确性容易受到图像中头部多尺度变化的影响。为了解决多尺度问题，研究者提出了许多复杂的网络模型，如预分类或多列网络结构。这些结构导致了网络参数的增加，使得实际应用场景中人群计数的部署具有挑战性和困难。一些研究者为了降低模型的参数量，不再采用vgg或者resnet等重型网络，这种方式虽然能够大大减少参数量，却不能提取丰富的特征信息，造成计数精度的下降。此外，普通的卷积也会造成大量的参数量和信息的冗余。

技术实现要素：

3.本发明的目的在于提供一种用于人群计数的轻量金字塔空洞卷积聚合网络的训练方法。
4.为解决上述问题，本发明提供一种用于人群计数的轻量金字塔空洞卷积聚合网络的训练方法，包括：
5.步骤一，将图片输入到轻量化主干网络中，提取大小为原图像分辨率1/32倍的特征图；
6.步骤二，将提取到的特征图输入到多个轻量金字塔空洞卷积提取多尺度信息模块中，每一个轻量金字塔空洞卷积提取多尺度信息模块，采用金字塔形式聚合不同空洞率的单通道空洞卷积模块来实现多尺度特征信息的提取，同时降低模型的参数量；
7.步骤三，对提取到的多尺度特征信息进行上采样，最后通过一个1
×
1的卷积核生成通道数为1的密度图；
8.步骤四，对密度图进行积分求和得到图片的预测人数。
9.进一步的，在上述方法中，所述轻量化主干网络采用轻量级ghostnet的前13层，通过该轻量化主干网络增加网络模型的深度，降低模型的参数量，提取特征图。
10.进一步的，在上述方法中，步骤二之前，还包括，生成轻量金字塔空洞卷积提取多尺度信息模块，包括：
11.将输入的特征图记为通道数为m，首先将特征图输入到3x3的卷积层提取主要的特征信息并对通道数进行降维，得到通道数为n的特征图，记为每一个通道上的特征图表示为i表示第i个通道；
12.采用单通道空洞卷积的方法，即采用n个通道数为1、空洞率为d的空洞卷积与对应的第i个通道上的特征图进行卷积，公式如
下：
[0013][0014]
其中，表示一组空洞率为d的空洞卷积提取出的特征信息，pi表示第i个通道上的特征图，f
id
表示第i个空洞率为d的空洞卷积，它与第i个特征图pi进行卷积，记为pi*f
id
，φ(
·
)表示将n个空洞卷积提取出的特征图在通道上直接进行连接融合；
[0015]
多个轻量金字塔空洞卷积提取多尺度信息模块中一共使用4组空洞率不同的空洞卷积，将不同组提取的特征图记为然后采用融合机制将4组特征图进行信息融合，记为f，并将f的结构称为以金字塔形式聚合不同空洞率的单通道空洞卷积模块；
[0016]
将提取到的主要特征信息与以金字塔形式聚合不同空洞率的单通道空洞卷积模块输出的特征信息f在通道上直接进行连接，公式为：
[0017]
y＝φ(p，f)，
[0018]
其中，y表示轻量金字塔空洞卷积提取多尺度信息模块的输出，φ(
·
)表示将p和f直接在通道上直接进行连接，
[0019]
如果以金字塔形式聚合不同空洞率的单通道空洞卷积模块采用的是元素相加融合机制，则最终输出的通道数为2n；
[0020]
如果以金字塔形式聚合不同空洞率的单通道空洞卷积模块采用的是连接融合机制，则最终输出的通道数为5n。
[0021]
进一步的，在上述方法中，所述轻量金字塔空洞卷积提取多尺度信息模块，采用元素相加融合机制和连接融合机制的两种信息融合机制，根据融合机制的不同，将pscd模块分为两大类，s-pscd模块和c-pscd模块。
[0022]
进一步的，在上述方法中，所述元s-pscd模块，直接对提取到的四组特征信息在对应的位置上进行像素点相加，通道数为n，其公式记为：
[0023][0024]
进一步的，在上述方法中，所述c-pscd模块是在通道上对提取的特征图直接进行连接，通道数为4n，其公式记为：
[0025]fconcat
＝φ(d1，d2，d3，d6)。
[0026]
进一步的，在上述方法中，所述轻量金字塔空洞卷积提取多尺度信息模块一共采用3个，其中，
[0027]
第一和第二个轻量金字塔空洞卷积提取多尺度信息模块采用元素相加融合机制，第三个轻量金字塔空洞卷积提取多尺度信息模块采用连接融合机制。
[0028]
进一步的，在上述方法中，步骤三提出的上采样方式采用转置卷积的方式，上采样32倍，输出与输入图像一样大小的密度图。
[0029]
与现有技术相比，本发明公开了一种自适应多尺度上下文聚合的人群计数的算法，用于拥挤场景中的人群密度估计。该方法主要包括以下步骤：输入一张图片，首先经过
主干网络提取特征信息，然后将提取的特征图以级联的形式输入到多个多尺度上下文聚合模块。该模块首先用空洞率不同的卷积核提取多尺度信息，然后通过通道注意力机制自适应选择通道上下文特征信息并进行聚合。每通过一个多尺度上下文聚合模块，就通过上采样将特征图转化为分辨率更高的特征图，最后经过一个1*1的卷积核输出估计密度图，并通过积分求和得到预测的人数。本发明提供的方法通过多个空洞率不同的卷积核有效的提取了多尺度信息，解决了人头大小不统一的问题，并通过通道注意力机制自适应选择和聚合有用的上下文信息，避免了信息的冗余，可以在拥挤场景下有更精确的密度估计，具有较高的鲁棒性。
附图说明
[0030]
图1是本发明一实施例的用于人群计数的轻量金字塔空洞卷积聚合网络的结构图；
[0031]
图2是本发明一实施例的元素相加融合机制的示意图；
[0032]
图3是本发明一实施例的连接融合机制的示意图。
具体实施方式
[0033]
为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0034]
针对当前网络深度较深、模型参数量过大的问题，本发明的目的是设计一种能够提取多尺度特征信息的轻量化网络模型，大大降低模型的参数量，实现实际场景下的部署，包括以下步骤：
[0035]
步骤一、将图片输入到轻量化主干网络中，提取大小为原图像分辨率1/32倍的特征图。
[0036]
步骤二、将提取到的特征图输入到多个轻量金字塔空洞卷积提取多尺度信息模块(lpc)中，每一个模块采用金字塔形式聚合不同空洞率的单通道空洞卷积(pscd)来实现多尺度特征信息的提取，同时降低模型的参数量。
[0037]
步骤三、对提取到的特征信息进行上采样，最后通过一个1
×
1的卷积核生成通道数为1的密度图。
[0038]
步骤四、对密度图进行积分求和得到图片的预测人数。
[0039]
采用设计的轻量化的网络结构，在保证网络计数效果的同时大大减少参数量，同时提取多尺度特征信息，解决图片中人头大小不统一的问题。
[0040]
首先主干网络采用的是轻量级ghostnet的前13层，通过该结构增加网络模型的深度，降低模型的参数量，提取主要的特征信息。
[0041]
其次，将提取的主要特征信息送到步骤二中的lpc模块中，具体操作如下，如图1所示：
[0042]
输入的特征信息记为通道数为m。首先将特征图输入到3x3的卷积层提取主要的特征信息并对通道数进行降维，得到通道数为n的特征图，记为每一个通道上的特征图表示为i表示第i个通道。为了提取图片中的多尺度信息，
解决图片中人头大小变化大的问题，采用多组空洞率不同的3x3的卷积层提取不同尺度的特征信息。空洞卷积可以在不增加参数量的情况下扩大感受野，因此lpc模块采用多组空洞率不同的卷积核可以提取不同尺度的特征信息，实现在减少参数量的情况下提取多尺度信息。具体过程如下：
[0043]
为了能够进一步减少参数量，采用单通道空洞卷积的方法，即采用n个通道数为1、空洞率为d的空洞卷积与对应的第i个通道上的特征图进行卷积，公式如下：
[0044][0045]
其中表示一组空洞率为d的空洞卷积提取出的特征信息。pi表示第i个通道上的特征图，f
id
表示第i个空洞率为d的空洞卷积，它与第i个特征图pi进行卷积，记为pi*f
id
。φ(
·
)表示将n个空洞卷积提取出的特征图在通道上直接进行连接融合。
[0046]
为了能够提取多尺度信息，解决图片的透视问题，lpc模块一共使用了4组空洞率不同的空洞卷积，将不同组提取的特征图记为然后采用融合机制将四组特征图进行信息融合，记为f，并将此部分结构称为以金字塔形式聚合不同空洞率的单通道空洞卷积模块(pscd)。
[0047]
采用这种单通道空洞卷积的方法可以有效的提取多尺度信息，但是这种单通道卷积的方式忽略了空间信息之间的联系，因此将提取到的主要特征信息与pscd模块输出的特征信息f在通道上直接进行连接，公式为：
[0048]
y＝φ(p，f)，
[0049]
其中y表示lpc模块的输出。φ(
·
)表示将p和f直接在通道上直接进行连接。如果pscd模块采用的是元素相加融合机制，则最终输出的通道数为2n，如果pscd模块采用的是连接融合机制，则最终输出的通道数为5n。
[0050]
进一步说，步骤二中lpc模块中采用两种信息融合机制，元素相加融合机制和连接融合机制。根据融合机制的不同，可以将pscd模块分为两大类，s-pscd模块和c-pscd模块，如图2，具体操作为：
[0051]
s-pscd模块是直接对提取到的四组特征信息在对应的位置上进行像素点相加，通道数为n，其公式记为：
[0052][0053]
采用元素相加融合机制不改变通道数，这对轻量化模型有很大的帮助。它可以在不增加通道数的情况下对尺度信息进行融合，增加了特征图的特征信息。
[0054]
如图3所示，c-pscd模块是在通道上对提取的特征图直接进行连接，通道数为4n，其公式记为：
[0055]fconcat
＝φ(d1，d2，d3，d6)。
[0056]
采用连接融合机制增加了通道数，特征信息增加。由于连接融合机制的通道数是元素相加融合机制的4倍，所以网络在最后对特征图的通道数进行降维之后lpc模块采用连
接融合机制。由于输入的通道数变少，所以即使pscd模块采用连接融合机制，参数量也不会增加太多，又保证了丰富的多尺度上下文信息。
[0057]
整体的轻量金字塔空洞卷积聚合网络算法一共采用了3个lpc模块，其特征在于：第一、二个lpc模块中的pscd模块采用元素相加融合机制，第三个lpc模块采用连接融合机制。
[0058]
最后，用于人群计数的轻量金字塔空洞卷积聚合网络算法采用转置卷积的方式进行32倍上采样，输出与输入图像一样大小的密度图。
[0059]
本发明需要估计一张图片中的总人数，具体细节如下：
[0060]
一、获取真实密度图
[0061]
已知一张图片的像素值和标签，则通过高斯卷积得到该图片对应的真值密度图，可以表示为：式中xi表示为有人头的像素点，x表示所有的像素点，g
σ
表示为高斯核，δ(
·
)表示狄拉克函数，σ是标准差，n代表图片的总人数。
[0062]
二、通过轻量金字塔空洞卷积聚合网络预测人群密度图
[0063]
通过轻量金字塔空洞卷积聚合网络学习由输入图像到人群估计密度图的复杂非线性映射，具体细节如下：
[0064]
1)将图片输入到以轻量化ghostnet的前13的主干网络中，提取大小为原图像分辨率1/32倍的特征图。
[0065]
2)将提取的特征信息输入到三个lpc模块中，具体实施细节如下：
[0066]
·
首先将特征信息息输入到3x3的卷积层提取主要的特征信息并对通道数进行降维，得到通道数为n的特征图，记为每一个通道上的特征图表示为i表示第i个通道。
[0067]
·
然后采用n个通道数为1、空洞率为d的空洞卷积与对应的第i个通道上的特征图进行卷积，公式如下：
[0068]
其中表示一组空洞率为d的空洞卷积提取出的特征信息。pi表示第i个通道上的特征图，f
id
表示第i个空洞率为d的空洞卷积，它与第i个特征图pi进行卷积，记为pi*f
id
。φ(
·
)表示将n个空洞卷积提取出的特征图在通道上直接进行连接融合。lpc模块一共使用了4组空洞率不同的空洞卷积，将不同组提取的特征图记为
[0069]
·
将提取的4组特征图进行融合，记为f，其中前两个lpc采用元素相加融合机制的s-pscd模块，其公式为：
[0070][0071]
最后一个lpc采用连接融合机制的c-pscd模块，其公式为：
[0072]fconcat
＝φ(d1，d2，d3，d6)
[0073]
·
将提取到的主要特征信息与pscd模块输出的特征信息f在通道上直接进行连接，公式为：
[0074]
y＝φ(p，f)，
[0075]
其中y表示lpc模块的输出。φ(
·
)表示将p和f直接在通道上直接进行连接。如果pscd模块采用的是元素相加融合机制，则最终输出的通道数为2n，如果pscd模块采用的是连接融合机制，则最终输出的通道数为5n。
[0076]
三、生成预测密度图
[0077]
对提取到的特征信息进行上采样，最后通过一个1
×
1的卷积核生成通道数为1的预测密度图。
[0078]
综上所述，本发明公开了一种自适应多尺度上下文聚合的人群计数的算法，用于拥挤场景中的人群密度估计。该方法主要包括以下步骤：输入一张图片，首先经过主干网络提取特征信息，然后将提取的特征图以级联的形式输入到多个多尺度上下文聚合模块。该模块首先用空洞率不同的卷积核提取多尺度信息，然后通过通道注意力机制自适应选择通道上下文特征信息并进行聚合。每通过一个多尺度上下文聚合模块，就通过上采样将特征图转化为分辨率更高的特征图，最后经过一个1*1的卷积核输出估计密度图，并通过积分求和得到预测的人数。本发明提供的方法通过多个空洞率不同的卷积核有效的提取了多尺度信息，解决了人头大小不统一的问题，并通过通道注意力机制自适应选择和聚合有用的上下文信息，避免了信息的冗余，可以在拥挤场景下有更精确的密度估计，具有较高的鲁棒性。
[0079]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。
[0080]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0081]
显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种炼化装置管网完整性大数据管理体系的制作方法

用于人群计数的轻量金字塔空洞卷积聚合网络的训练方法与流程

相关文献

最热文献