一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于视频的行人重识别方法与流程

2022-09-01 10:51:52 来源:中国专利 TAG:


1.本发明涉及智能视频图像分析技术领域,具体为一种基于视频的行人重识别方法。


背景技术:

2.行人重识别(person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。目前研究较多是基于静态图片的行人重识别,即:对于给定的行人图片,在图片库中检索属于给定行人的其他图片。
3.近年来,基于视频的行人重识别因为其较高的实用价值已逐渐成为研究热点。与基于静态图片的行人重识别的区别在于,基于视频的行人重识别是对给定的某个行人视频序列,要求在视频库中找到属于该行人的其他视频序列。
4.给定行人的视频序列带来的变化是,行人不仅在空间域有了更丰富的静态特征,如外形、姿态等,同时也具有了时间域上的动态特征,如步态、步频以及摆动和站立阶段之间的比率等。因此,基于视频的行人重识别算法,不仅可以挖掘视频序列中行人的静态特征,还可以学习其在时间轴上行人的动态特征。如果能有效利用两者的信息,其识别能力将明显优于传统的基于静态图像的行人重识别算法。
5.当前基于视频的行人重识别算法主要有三类:第一类算法是把视频序列帧作为多个单张图片输入,采用注意力模型机制提取每张图片的中行人特征信息并进行融合,生成最终的基于视频级的行人特征。第二类是采用光流算法、3d卷积神经网络(3d cnn)、循环神经网络(rnn)等提取运动信息。第三类是基于步态特征进行重识别,如采用现有的openpose算法提取人体的关节点,利用rnn或者图卷积神经网络(gcn)等学习行人的步态特征,并以此作为行人重识别的依据。
6.第一类算法的缺点是没有有效利用视频帧序列的运动信息,降低了算法的重识别能力;第二类算法中由于视频序列帧受到遮挡、光照等影响,这些算法效果均不理想;第三类算法的缺点在于严重依赖于身体关节的准确检测,它们通常对遮挡更敏感,一旦未识别到关节点或者关节点识别不准确则算法失效。


技术实现要素:

7.本发明的目的在于提供一种基于视频的行人重识别方法,以解决上述背景技术中提出的问题。
8.为了解决上述技术问题,本发明提供如下技术方案:一种基于视频的行人重识别方法,包括以下步骤:
9.s1、输入待查询query行人视频序列帧;
10.s2、用现有网络openpose模型对每一帧的行人进行关键点检测,并根据检测结果对每一帧分别设置权重;
11.s3、用预先训练好的卷积神经网络cnn对视频序列帧提取行人静态特征并进行加
权计算,得出综合静态特征;
12.s4、用预先训练好的卷积神经网络cnn以及循环卷积神经网络rnn对视频序列帧提取行人运动特征并进行加权计算,得出综合运动特征;
13.s5、计算待查询query行人视频序列与候选gallery行人视频序列之间的综合静态特征的欧式距离ds;
14.s6、计算待查询query行人视频序列与候选gallery行人视频序列之间的综合运动特征的余弦距离dm;
15.s7、把ds与dm分别经过变换后再进行加权计算,得出综合距离,以此作为判断行人相似度的依据。
16.进一步的,在步骤s1中,输入待查询query行人视频序列以及一组候选gallery行人视频序列;待查询query行人视频序列为待检测的行人视频序列;候选gallery行人视频序列为已知的行人视频序列;每一个行人视频序列均有四个属性,分别为:视频标识vid,视频拍摄时间vt,行人静态特征向量fs,行人运动特征fm向量。
17.进一步的,在步骤s2中,对每一个视频帧,采用现有网络openpose模型提取18个行人关节点,对于行人静态特征而言,更多的应关注体型、外观等的区分,因此把所有关节点分为三个区域,分别为:头颈、上身躯干、下身,相邻区域有部分重叠,已增加检测鲁棒性,各区域的关节点个数分别为:头颈8个,上身躯干9个,下身8个;对于行人重识别,三个区域的重要性按照上身躯干、下身、头颈依次降低,设置如下权重,wb=0.6,wl=0.3,wh=0.1,其中wb、wl、wh分别表示三个区域上身躯干、下身、头颈的权重;
18.根据关节点的检测结果为各区域打分,设置规则如表1所示:
19.表1:根据关节点检测结果给身体各区域的权重赋值规则
[0020][0021]
根据表1,身体各部分的实际权重为该部分的理想权重与该部分得分的乘积;
[0022]
在权重被应用前对其进行归一化处理,归一化处理见公式(1):
[0023][0024]
公式(1)给出了对于一个共有n帧的视频序列,其第i帧的归一化权重wi为第i帧根据表1计算得到的实际权重。
[0025]
进一步的,在步骤s3中,利用卷积神经网络cnn对视频序列的各帧分别提取行人静态特征;
[0026]
把视频序列的每帧rgb三通道作为输入,采用resnet18神经网络架构对每一帧提取行人特征;残差网络resnet18的搭建基于开源深度学习框架pytorch,网络结构分为三个部分:
[0027]
1)输入部分:是一个尺寸为7x7,步长为2的大卷积核,以及一个尺寸为3x3,步长为2的最大池化组成;
[0028]
2)中间的卷积部分:由4个块block1、block2、block3、block4组成,每个block通过3*3卷积的堆叠2次来实现信息的提取;
[0029]
3)输出部分:通过全局自适应平滑池化,把所有的特征图拉成1*1,然后接全连接层输出;
[0030]
其次,在获取视频序列每帧的行人特征向量后,利用步骤s2中计算所得的归一化权重对它们进行加权计算,见公式(2),形成视频级的行人静态特征向量fs;特征向量fs反映了整个视频序列中行人的外形、外观等总体静态特征;
[0031][0032]
公式(2)中为第i帧的行人静态特征向量,n为该视频序列的总帧数。
[0033]
进一步的,在步骤s4中,利用卷积神经网络cnn以及循环神经网络rnn对视频序列的各帧分别提取行人运动特征;
[0034]
把视频序列的每帧图像以及光流合计五通道的信息作为输入;采用resnet18神经网络架构提取图像特征向量,然后把每帧产生的特征向量输入循环神经网络rnn,通过cnn和rnn模型输出行人运动特征,获得行人运动特征向量;采用rnn的改良版门控循环单元gru网络结构;
[0035]
步骤s2所得到的各帧权重被应用了两次,分别位于cnn和rnn之后,并最终计算得出融合的运动特征向量fm,见公式(3),作为视频级的运动特征向量;
[0036][0037]
公式(3)中为第i帧的行人运动特征向量,n为该视频序列的总帧数。
[0038]
进一步的,所述五通道为:视频标识vid,视频拍摄时间vt,行人静态特征向量fs,行人运动特征fm向量和光流。
[0039]
进一步的,在步骤s5中,把步骤s3获得的query行人视频静态特征向量与gallery行人视频静态特征向量作为输入,计算两者之间的欧式距离。计算公式如(4)所示:
[0040][0041]
公式(4)中,ds为欧式距离,qs(x1,x2…
,xn)为query行人视频静态特征向量,gs(y1,y2…
,yn)为gallery行人视频静态特征向量。
[0042]
进一步的,在步骤s6中,把步骤s4获得的query行人视频运动特征向量与gallery行人视频运动特征向量作为输入,计算两者之间的余弦距离。计算公式如(5)所示:
[0043][0044]
公式(5)中,dm为余弦距离,qm(x1,x2…
,xn)为query行人视频运动特征向量,gm(y1,y2…
,yn)为gallery行人视频运动特征向量。
[0045]
进一步的,在步骤s7中,把反映query和gallery视频静态特征差异的欧式距离ds以及反query和gallery视频运动特征差异的余弦距离dm分别进行变换,把变换后的结果进行加权计算,作为行人重识别的依据;
[0046]
欧式距离ds的变换公式如下:
[0047][0048]
公式(6)中,为变换后的欧式距离,并满足s
l
和su为欧式距离的两个阈值,且s
l
<su;
[0049]
余弦距离dm的变换公式如下:
[0050][0051]
公式(7)中,为变换后的余弦距离,并满足m
l
和mu为余弦距离的两个阈值,且m
l
<mu。
[0052]
进一步的,在步骤s7中,把和进行加权计算得出综合距离df,如公式(8)所示;
[0053][0054]
综合距离df反映了query视频和gallery视频中行人的静态特征和运动特征综合差异,df满足0≤df≤1,df越小则两个视频中的行人相似度越高;
[0055]
公式(8)中引入了权重λ(0≤λ≤1),λ的大小反映了在计算综合距离时更倾向于采纳静态特征还是运动特征;
[0056]
基于如下策略设置λ的大小:
[0057]
比较query视频和gallery视频的拍摄时间,如果两者时间较接近,如小于2天,则设置λ=0.6;反之则设置λ=0.4。
[0058]
与现有技术相比,本发明所达到的有益效果是:
[0059]
1、本发明利用深度卷积神经网络(cnn)提取视频序列中的行人静态特征,同时利用深度卷积神经网络(cnn)和循环神经网络(rnn)相结合提取视频序列中的行人运动特征,基于上述两种特征计算视频序列之间的距离,从而实现基于视频的行人重识别;特别地,算法对克服行人被遮挡或图像受光照、拍摄视角等环境干扰等影响因素有较强的鲁棒性;此外,算法根据待查询视频和候选视频的拍摄时间,对行人静态特征和运动特征选择自适应
权重的加权计算,解决了由于衣着、外观等变化影响行人重识别算法能力的问题;
[0060]
2、本发明采用cnn提取图像序列帧中行人外形、外观等静态特征,采用cnn和rnn相结合学习行人在时间轴上的步态、步频等运动特征,结合比较行人的静态和运动特征,有效提高了算法的识别能力和准确性;通过对行人关节点检测的结果判断图像中行人是否被遮挡或者是否受光照影响干扰,从而对不同的视频帧设置合适的权重,进而提升行人特征提取的鲁棒性;算法根据待查询query视频以及候选gallery视频的拍摄时间,选择合适的权重对行人静态特征和运动特征进行加权综合计算,从而使得重识别算法更鲁棒、准确性更高。
附图说明
[0061]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0062]
图1是本发明中整体的工作原理示意图;
[0063]
图2是本发明中行人关节点的标注示意图;
[0064]
图3是本发明中利用cnn提取行人特征并进行加权计算的示意图;
[0065]
图4是本发明中五通道输入cnn、rnn提取行人运动特征加权计算示意图;
[0066]
图5是本发明中欧式距离变换曲线的示意图;
[0067]
图6是本发明中余弦距离变换曲线的示意图。
具体实施方式
[0068]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0069]
如图1-图6所示的一种基于视频的行人重识别方法,包括以下步骤:
[0070]
s1、输入待查询query行人视频序列帧;输入待查询query行人视频序列以及一组候选gallery行人视频序列;待查询query行人视频序列为待检测的行人视频序列;候选gallery行人视频序列为已知的行人视频序列,例如获得罪犯的行走视频,在未知的视频中判断是否存在罪犯,已获得的罪犯行走视频为候选gallery行人视频序列,未知的视频为待查询query行人视频序列;每一个行人视频序列均有四个属性,分别为:视频标识vid,视频拍摄时间vt,行人静态特征向量fs,行人运动特征fm向量;
[0071]
对于query视频序列,其fs和fm均为空值;而对于每一个gallery视频序列,其fs和fm已利用预先学习好的神经网络结构提取生成;
[0072]
s2、用现有网络openpose模型对每一帧的行人进行关键点检测,并根据检测结果对每一帧分别设置权重;对每一个视频帧,采用现有网络openpose模型提取18个行人关节点,如图2所示;考虑到通常监控摄像头的拍摄高度及视野,头部特征不会太清晰,对于行人静态特征而言,更多的应关注体型、外观等的区分,因此把所有关节点分为三个区域,分别为:头颈、上身躯干、下身,相邻区域有部分重叠,已增加检测鲁棒性,如图2中的虚框标注所示;各区域的关节点个数分别为:头颈8个,上身躯干9个,下身8个;对于行人重识别,三个区
域的重要性按照上身躯干、下身、头颈依次降低,为此,我们设置如下权重,wb=0.6,wl=0.3,wh=0.1,其中wb、wl、wh分别表示三个区域上身躯干、下身、头颈的权重;
[0073]
在实际情况下,由于遮挡、光照、拍摄角度等因素,人体的关节点常常无法被全部检测到,我们可以根据关节点的检测结果为各区域打分,打分的目的用于判断图像中该区域中的行人特征的有效性和可用性;设置规则如表1所示:
[0074]
表1:根据关节点检测结果给身体各区域的权重赋值规则
[0075][0076][0077]
根据表1,身体各部分的实际权重为该部分的理想权重与该部分得分的乘积,例如:对于上身躯干,如果检测到7个或以上个数的关节点,则其实际权重=理想权重0.6*得分1=0.6;显然,对于视频序列中的任一帧,如:第i帧,其实际权重wi满足0≤wi≤1;
[0078]
在权重被应用前还需要对其进行归一化处理,归一化处理见公式(1):
[0079][0080]
公式(1)给出了对于一个共有n帧的视频序列,其第i帧的归一化权重wi为第i帧根据表1计算得到的实际权重;
[0081]
s3、用预先训练好的卷积神经网络cnn对视频序列帧提取行人静态特征并进行加权计算,得出综合静态特征;利用卷积神经网络cnn对视频序列的各帧分别提取行人静态特征;
[0082]
首先,我们把视频序列的每帧rgb三通道作为输入,采用resnet18神经网络架构对每一帧提取行人特征;残差网络resnet18的搭建基于开源深度学习框架pytorch,网络结构分为三个部分:
[0083]
1)输入部分:是一个尺寸为7x7,步长为2的大卷积核,以及一个尺寸为3x3,步长为2的最大池化组成,通过这一步,一个224x224的输入图像就会变56x56大小的特征图,极大减少了存储所需大小;
[0084]
2)中间的卷积部分:由4个块block1、block2、block3、block4组成,每个block通过3*3卷积的堆叠2次来实现信息的提取;
[0085]
3)输出部分:通过全局自适应平滑池化,把所有的特征图拉成1*1,即把1x512x7x7的输入数据拉成1x512x1x1,然后接全连接层输出;
[0086]
其次,在获取视频序列每帧的行人特征向量后,我们利用步骤s2中计算所得的归一化权重对它们进行加权计算,见公式(2),形成视频级的行人静态特征向量fs;特征向量fs反映了整个视频序列中行人的外形、外观等总体静态特征;
[0087][0088]
公式(2)中为第i帧的行人静态特征向量,n为该视频序列的总帧数;利用cnn提取行人特征并进行加权计算的过程如图3所示;
[0089]
s4、用预先训练好的卷积神经网络cnn以及循环卷积神经网络rnn对视频序列帧提取行人运动特征并进行加权计算,发明中的cnn和rnn模型都为现有结构;得出综合运动特征;利用卷积神经网络cnn以及循环神经网络rnn对视频序列的各帧分别提取行人运动特征;
[0090]
如图4所示,我们首先把视频序列的每帧图像以及光流合计五通道的信息作为输入;五通道为:视频标识vid,视频拍摄时间vt,行人静态特征向量fs,行人运动特征fm向量和光流,采用resnet18神经网络架构提取图像特征向量,然后把每帧产生的特征向量输入循环神经网络rnn,通过cnn和rnn模型输出行人运动特征,获得行人运动特征向量;在本方案中,我们采用rnn的改良版门控循环单元gru网络结构;
[0091]
特别地,步骤s2所得到的各帧权重被应用了两次,分别位于cnn和rnn之后,并最终计算得出融合的运动特征向量fm,见公式(3),作为视频级的运动特征向量;
[0092][0093]
公式(3)中为第i帧的行人运动特征向量,n为该视频序列的总帧数;
[0094]
s5、计算待查询query行人视频序列与候选gallery行人视频序列之间的综合静态特征的欧式距离ds;把步骤s3获得的query行人视频静态特征向量与gallery行人视频静态特征向量作为输入,计算两者之间的欧式距离;计算公式如(4)所示:
[0095][0096]
公式(4)中,ds为欧式距离,qs(x1,x2…
,xn)为query行人视频静态特征向量,gs(y1,y2…
,yn)为gallery行人视频静态特征向量;
[0097]
s6、计算待查询query行人视频序列与候选gallery行人视频序列之间的综合运动特征的余弦距离dm;把步骤s4获得的query行人视频运动特征向量与gallery行人视频运动特征向量作为输入,计算两者之间的余弦距离;计算公式如(5)所示:
[0098][0099]
公式(5)中,dm为余弦距离,qm(x1,x2…
,xn)为query行人视频运动特征向量,gm(y1,y2…
,yn)为gallery行人视频运动特征向量;
[0100]
s7、把ds与dm分别经过变换后再进行加权计算,得出综合距离,以此作为判断行人
相似度的依据;把反映query和gallery视频静态特征差异的欧式距离ds以及反query和gallery视频运动特征差异的余弦距离dm分别进行变换,把变换后的结果进行加权计算,作为行人重识别的依据;
[0101]
欧式距离ds的变换公式如下:
[0102][0103]
公式(6)中,为变换后的欧式距离,并满足s
l
和su为欧式距离的两个阈值,且s
l
<su;通过变换公式投放到0-1之间,且通过公式,斜率可变,越靠近1的地方越斜率越大;公式(6)的欧式距离变换如图5的曲线所示;
[0104]
类似地,余弦距离dm的变换公式如下:
[0105][0106]
公式(7)中,为变换后的余弦距离,并满足m
l
和mu为余弦距离的两个阈值,且m
l
<mu;公式(7)的余弦距离变换如图6的曲线所示;
[0107]
把和进行加权计算得出综合距离df,如公式(8)所示;
[0108][0109]
综合距离df反映了query视频和gallery视频中行人的静态特征和运动特征综合差异,df满足0≤df≤1,df越小则两个视频中的行人相似度越高;
[0110]
特别地,公式(8)中引入了权重λ(0≤λ≤1),λ的大小反映了在计算综合距离时更倾向于采纳静态特征还是运动特征;
[0111]
为此,我们基于如下策略设置λ的大小:
[0112]
比较query视频和gallery视频的拍摄时间,如果两者时间较接近,如小于2天,则设置λ=0.6;反之则设置λ=0.4;该策略的原理是,当待查询行人视频与候选人视频的拍摄时间接近时,对于同一个行人,其外观如衣着、携带物品等,可能变化较小,因此算法更倾向于用静态特征进行比较;如果待查询行人视频与候选人视频拍摄时间间隔较远,即便是同一个行人,其外观(如衣着或携带物品等)可能变化也会较大,由此我们更倾向于采纳运动特征作为比较依据。
[0113]
本发明的有益效果是:
[0114]
本发明利用深度卷积神经网络(cnn)提取视频序列中的行人静态特征,同时利用深度卷积神经网络(cnn)和循环神经网络(rnn)相结合提取视频序列中的行人运动特征,基于上述两种特征计算视频序列之间的距离,从而实现基于视频的行人重识别;特别地,算法对克服行人被遮挡或图像受光照、拍摄视角等环境干扰等影响因素有较强的鲁棒性;此外,算法根据待查询视频和候选视频的拍摄时间,对行人静态特征和运动特征选择自适应权重的加权计算,解决了由于衣着、外观等变化影响行人重识别算法能力的问题;采用cnn提取图像序列帧中行人外形、外观等静态特征,采用cnn和rnn相结合学习行人在时间轴上的步态、步频等运动特征,结合比较行人的静态和运动特征,有效提高了算法的识别能力和准确
性;通过对行人关节点检测的结果判断图像中行人是否被遮挡或者是否受光照影响干扰,从而对不同的视频帧设置合适的权重,进而提升行人特征提取的鲁棒性;算法根据待查询query视频以及候选gallery视频的拍摄时间,选择合适的权重对行人静态特征和运动特征进行加权综合计算,从而使得重识别算法更鲁棒、准确性更高。
[0115]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献