一种基于时空通联数据驱动的跨镜目标跟踪方法与流程

2022-12-20 01:22:05 来源：中国专利 TAG：

技术特征：
1.一种基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：包括以下步骤：步骤s1、将跟踪目标模板图片t
i
和当前搜索区域s切割为固定大小的子图片，利用卷积操作对各子图片进行基本编码分别得到对应编码序列t
j
和s
j
；然后对基本编码序列t
j
和s
j
进行分离和重建，最后利用线性投影操作分别得到跟踪目标模板图片和搜索区域对应的查询、键和值向量组<q
t
,k
t
,v
t
>、<q
s
,k
s
,v
s
>；其中，t
i
表示第i个跟踪目标模板图片，i∈{1,2,...,n}，q
t
,k
t
,v
t
为跟踪目标模板图片的查询、键和值，q
s
,k
s
,v
s
为搜索区域的查询、键和值；步骤s2、利用三阶段混合注意力机制对输入的编码序列进行特征提取第一阶段、将目标模板图片与搜索区域的键和值向量分别进行拼接，然后利用基本混合注意力操作得到目标模板图片与搜索区域融合后的混合特征f1；第二阶段、将混合特征f1通过可分离卷积改变尺寸后输入到混合注意力机制中，得到第二阶段的特征序列f2；第三阶段、将特征序列f2通过可分离卷积改变尺寸，并进行多个混合注意力操作得到最终第三阶段的特征序列f3；步骤s3、先将特征序列f3通过分离和重建得到搜索区域的特征序列，并利用基于全卷积操作的预测头来定位跟踪目标的边界框得到检测结果；然后，根据预测置信度进行在线更新，同时将下一帧视频帧作为步骤s1的搜索区域，重新对视频中的跟踪目标进行跟踪，直至搜索区域中的目标消失；步骤s4、利用手机定位获取消失目标的位置并调取最近的三个摄像头的部分视频，同时将消失目标的时空通联讯息和消失目标的图像通过注意力机制进行特征融合，并与调取的视频帧通过残差网络提取各自初始特征，分别得到三个摄像头视频序列的帧级特征以及特征融合后的消失目标初始特征；步骤s5、将包含时间互补信息的视频帧级特征通过卷积映射为特征图，并利用多头注意机制获取该特征图上的显著特征；然后，利用激活和卷积操作获取初始特征中被激活的冗余显著区域，从而挖掘当前视频帧剩余互补区域，捕获剩余互补信息；接着，利用残差网络从互补信息中获取当前帧补充特征，进而得到当前视频帧的强化特征；最后，将消失目标的图像视为一个视频帧序列，并以相同的方式获得其对应的强化特征；步骤s6、将获取的强化特征向量与消失目标的模板图片进行相似度计算，并根据经验设置余弦相似度阈值，若最大相似度低于阈值则表示消失目标已离开重点区域，反之，则获取最大相似度对应行人的边界框以及摄像头编号，并将该摄像头的视频序列与目标模板图片返回到步骤s1中对目标进行持续跟踪。2.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤s1的具体过程为：s1.1、分别获取跟踪目标模板图片t
i
和视频帧内搜索图片s的基本编码序列t
j
和s
j
；采用c个补零层数为1、步长为4且核大小为7的卷积层，对各个子图片进行编码，公式如下：
其中，h
t
和w
t
分别为跟踪目标模板图的高度和宽度，h
s
和w
s
分别表示搜索图片的高度和宽度，t
j
表示目标模板图片的编码，s
j
表示搜索图片的编码，conv7×7表示核大小为7的卷积；进而得到目标子图像的基本编码大小分别为搜索子图像的基本编码大小为c为通道数；然后，将跟踪目标模板图片t
i
的n个目标子图像的基本编码和搜索区域的子图片的基本编码展开，并沿通道方向拼接得到大小为的编码序列；将拼接所得编码序列进行分离和重建得到目标编码序列与搜索序列的二维特征图像和s1.2、分别获取目标模板图片和搜索图片的查询、键和值向量首先，对二维特征图像进行深度分离卷积操作dconv，然后将目标模板和搜索图片的每个特征映射进行矩阵展平操作以及线性投影操作最终得到对应查询query、键key和值value，具体公式如下：。3.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤s2利用混合注意力机制提取特征的详细过程为：步骤s2.1、将目标模板图片的k
t
和搜索区域的k
s
进行拼接得到键向量k
m
＝concat(k
t
,k
s
)，将目标模板图片的v
t
和搜索区域v
s
进行拼接得到值向量v
m
＝concat(v
t
,v
s
)，concat表示拼接操作；步骤s2.2、利用混合注意力机制将目标模板图片与搜索区域进行特征融合，具体公式如下：d表示键key的维度，上标t表示对应向量的转置，表示激活函数，atten
t
和atten
s
分别是目标模板图片和搜索区域的注意力图；步骤s2.3、分三个阶段通过多层感知机制连接目标模板图片和搜索区域的注意力图来提取特征序列，提取公式为：
其中，f表示目标模板图片和搜索区域使用一次混合注意力操作提取到的特征，concat表示拼接操作，表示多层感知机网络；先使用一次混合注意力操作提取得到大小为的第一阶段特征序列f1，c为通道数；然后，将f1进行序列分离与重建得到目标和搜索区域的二维特征图，再利用3c个卷积核大小为3、步长为2、补零层数为1的卷积分别得到大小为和的编码序列，将其展平并拼接后输入到混合注意力机制，进行4次混合注意力操作得到第二阶段的特征序列f2，其大小为最后，将f2进行序列分离与重建得到目标和搜索区域的二维特征图，利用6c个卷积核获取对应编码序列，并将其展平拼接后输入到混合注意力机制进行16次混合注意力操作得到大小为的第三阶段最终特征序列f3。4.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤s3中获取单个摄像头目标检测结果的具体过程为：首先，将特征序列f3拆分得到搜索区域特征序列，并重建大小为的特征图c为通道数；然后，将输入到由l个卷积层、批量标准化层和relu激活函数组成的全卷积网络，得到两个概率图为：其中p
a
(x,y)表示边界框左上方的顶点概率图，p
b
(x,y)表示边界框右下方的顶点概率图，conv表示卷积操作，bn表示批量标准化；接着，通过计算两个顶点概率分布的期望值获得预测边界框坐标和如下式所示：最后，采用在线更新策略来获取跟踪结果。5.根据权利要求4所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：在线更新策略来获取跟踪结果的具体方法为：对于目标模板图片和搜索区域的注意力图，使用多层感知机网络和sigmoid函数得到最终的分数，然后选择分数大于0.5的部分作为最终结果并存入目标模板库中；并将更新后
的目标模板图片以及下一帧视频作为步骤s1内初始目标模板图片和搜索区域，再次对视频中的异常目标进行跟踪，直至搜索区域内目标消失即目标离开该摄像头的搜索区域。6.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤s4的详细过程包括如下：步骤s4.1、获取融合特征：使用γ
loc
,γ
net
,γ
com
分别表示时空通联讯息中的目标的位置信息、上网信息和通讯信息的对应特征，然后利用注意力机制进行特征的融合的计算公式如下：其中，α,β为可调整参数，ω
t
,ω
υ
,ω
θ
为可学习的权重，b
a
,b
θ
为偏置向量，t
j
为向量t
i
的一个元素，θ
j
为权重向量θ的一个元素，表示第i个消失目标的模板图片包含时空通联信息的融合特征；步骤s4.2、利用残差网络提取初始特征：使表示抽取的前帧视频序列，采用残差网络resnet50的前四个残差层来提取视频序列和消失目标的最初特征，视频序列的帧级特征为特征融合后的目标初始特征为具体公式如下：其中，h、w和c是每个特征的高度、宽度和通道大小，κ表示视频序列所属摄像头的序号，表示视频序列的总数量，g是视频帧的索引。7.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤s5获取强化特征的过程为：使表示摄像头序号为κ的第g帧视频初始特征，表示第g-1帧视频的强化特征，其包含第g-1帧的帧级特征以及前g-1帧的时间互补信息；首先，将强化特征投射为特征图并采用多头注意力机制生成对应的注意力图然后，利用softmax函数获取前g-1个视频帧的显著特征与第g个视频帧的初始特征之间的相似度，以获取第g帧视频的剩余互补信息
其中conv1和conv2表示不同的卷积层，bn是批量归一化层，relu是激活函数，是特征重建操作，表示摄像头序号为κ的第g-1个视频帧的显著特征，表示卷积操作，表示摄像头序号为κ的第g帧视频的剩余互补信息；最后，利用残差网络从中获取该摄像头第g帧视频的补充特征并将其与第g-1个的帧级强化特征整合得到第g帧视频的强化特征整合得到第g帧视频的强化特征并利用相同方法计算消失目标模板图片的强化特征8.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤s6中跨镜目标追踪的具体方法为：首先，对帧级强化特征进行全局平均池化得到视频帧中每个行人图像的特征向量进行全局平均池化得到视频帧中每个行人图像的特征向量表示摄像头序号为κ的第g帧视频中检测到的行人数量；然后，对消失目标模板图片的强化特征与视频帧中行人目标的强化特征向量进行通道归一化，并进行相似度计算即：其中表示消失目标与摄像头κ中行人图像的相似度；接着，根据经验设置余弦相似度阈值，通过相似度的大小得到行人图像与消失目标模板图片的相似性排序；最后，选择相似度最大的行人图像所属摄像头继续跟踪消失目标，即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片，并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪；当所有视频帧中行人图像与目标模板图片的相似度均低于阈值时，则表示消失的目标已离开重点区域。

技术总结
本发明公开一种基于时空通联数据驱动的跨镜目标跟踪方法，先分别获取跟踪目标模板图片和搜索区域的编码序列，然后三阶段混合注意力机制融合目标图片与视频帧获得对应特征序列，概率估计得到单摄像头视频的目标跟踪结果；接着通过注意力模块残差网络获得消失目标以及视频帧的强化特征，并计算二者相似度，最后通过相似度判断目标跟踪结果。本发明用于实时监控视频数据，结合追踪目标的通讯信息调用单个摄像头视频，并结合特定区域周围其他摄像头视频对异常目标进行持续追踪直至目标离开该区域，实现了跨镜的目标跟踪，从而达到及时预警，保护重点区域人员人身安全与信息安全的目的。目的。目的。

技术研发人员：陈亮李琦张婧剧立伟
受保护的技术使用者：南京信息技术研究院
技术研发日：2022.08.25
技术公布日：2022/12/16

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种进程链的处理方法及系统、电子设备与流程

一种基于时空通联数据驱动的跨镜目标跟踪方法与流程

相关文献

最热文献