一种目标跟踪定位方法、装置及计算机可读介质与流程

2021-12-14 22:34:00 来源：中国专利 TAG：

1.本发明涉及图形识别领域，特别是涉及一种目标跟踪定位方法、装置及计算机可读介质。

背景技术：

2.随着设备智能化的发展，目标跟踪技术得到广泛应用，例如，相机对焦、车辆跟踪以及人脸识别等都用到了目标跟踪技术，现有技术中，通常使用基于滤波的目标跟踪技术，基于特定场景和目标物体的关系设计一个滤波模板，利用该模板与输入图像计算点积，最后得出的响应图像中，最大输出响应的位置对应当前输入图像中目标物体的位置，但是一个滤波模板只能对应一个特定场景下的一种特定类型的目标物体，不能适用于不同情况下的目标物体，例如，当场景发生变化时，基于滤波的目标跟踪技术对目标物体的跟踪准确度会下降，需要人工对变化后的场景重新设计一个滤波模板，存在工作量大的问题。

技术实现要素：

3.本发明的目的是提供一种一种目标跟踪定位方法、装置及计算机可读介质，能够不需要对不同场景设置不同的滤波模板，根据目标物体的特征来对目标物体的位置进行跟踪定位，减少工作量。
4.为解决上述技术问题，本发明提供了一种目标跟踪定位方法，包括：在获取到视频序列的视频图像时，确定所述视频图像中的模板帧和搜索帧；其中，所述模板帧为所述视频序列中的第一帧的视频图像，所述模板帧中包括待跟踪目标及其位置，所述搜索帧为所述视频序列中第一帧之后任一帧的视频图像；将所述模板帧和所述搜索帧均输入至卷积神经网络模型的孪生网络框架中的模板分支及搜索分支中；在所述模板分支及所述搜索分支中，对所述模板帧和所述搜索帧进行特征提取，并对特征提取后的所述模板帧和所述搜索帧进行卷积操作，得到响应图；利用通道注意力机制处理所述响应图，得到通道注意力特征图；将所述通道注意力特征图和所述响应图做点乘生成第一特征图；利用空间注意力机制处理所述第一特征图，得到空间注意力特征图；将所述空间注意力特征图和所述第一特征图做点乘生成第二特征图；基于所述模板分支得到的所述第二特征图和所述搜索分支得到的所述第二特征图确定所述搜索帧中所述待跟踪目标及其位置。
5.优选的，确定所述视频图像中的模板帧和所述搜索帧，包括：判断所述模板帧的大小是否小于模板尺寸；若所述模板帧的大小小于所述模板尺寸，对所述模板帧进行颜色填充以使填充后的所述模板帧的尺寸达到所述模板尺寸；若所述模板帧的大小不小于所述模板尺寸，以所述模板帧的中心点为基准对所述
模板帧的四周进行裁剪，以使裁剪后的所述模板帧的尺寸达到所述模板尺寸；判断所述搜索帧的大小是否小于搜索尺寸；若所述搜索帧的大小小于所述搜索尺寸，对所述搜索帧进行颜色填充以使填充后的所述搜索帧的尺寸达到所述搜索尺寸；若所述搜索帧的大小不小于所述搜索尺寸，以上一帧的所述视频图像中的所述待跟踪目标的中心点为基准对所述搜索帧的四周进行裁剪，以使裁剪后的所述搜索帧的尺寸达到所述搜索尺寸。
6.优选的，对所述模板帧进行颜色填充以使填充后的所述模板帧的尺寸达到所述模板尺寸，包括：利用所述模板帧的众数rgb值对所述模板帧进行颜色填充；对所述搜索帧进行颜色填充以使填充后的所述搜索帧的尺寸达到所述搜索尺寸，包括：利用所述搜索帧的众数rgb值对所述搜索帧进行颜色填充。
7.优选的，对所述模板帧进行颜色填充以使填充后的所述模板帧的尺寸达到所述模板尺寸，包括：利用所述模板帧的平均rgb值对所述模板帧进行颜色填充；对所述搜索帧进行颜色填充以使填充后的所述搜索帧的尺寸达到所述搜索尺寸，包括：利用所述搜索帧的平均rgb值对所述搜索帧进行颜色填充。
8.优选的，所述卷积神经网络模型为采用mobilenetv2构建的骨架网络。
9.优选的，对所述模板帧和搜索帧进行特征提取，包括：基于所述模板帧和搜索帧的纹理和梯度进行特征提取。
10.本发明还提供了一种目标追踪定位装置，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如上述的目标追踪定位方法的步骤。
11.本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的目标追踪定位方法的步骤。
12.本发明公开了一种目标跟踪定位方法、装置及计算机可读介质，确定视频序列中的第一帧的视频图像为模板帧，模板帧包括待跟踪目标及其位置，模板帧的包括待跟踪目标及其位置可以为用户指定，确定视频序列中第一帧之后任一帧的视频图像都为搜索帧，然后将搜索帧和模板帧输入到卷积神经网络模型的孪生网络框架中的模板分支及搜索分支进行特征提取和卷积操作以得到响应图，利用通道注意力机制处理响应图得到通道注意力特征图，使通道注意力特征图与响应图做点乘后得到第一特征图，再利用空间注意力机制处理第一特征图得到空间注意力特征图，使空间注意力特征图与第一特征图做点乘后得到第二特征图，最后根据模板分支和搜索分支得到的第二特征图确定当前搜索帧中待跟踪目标及其位置，不需要对不同场景设置不同的滤波模板，减少了工作量，此外，还拥有较好的鲁棒性，可以在对vot2016视频序列数据集中达到0.441的eao值，在got
‑
10k视频序列中达到0.467的ao值。
附图说明
13.为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
14.图1为本发明提供的一种目标跟踪定位方法的流程图；图2是本发明提供的一种卷积神经网络的结构示意图；图3为本发明提供的另一种卷积神经网络的结示意图；图4为本发明提供的一种目标跟踪定位装置的结构示意图。
具体实施方式
15.本发明的核心是提供一种目标跟踪定位方法、装置及计算机可读介质，能够不需要对不同场景设置不同的滤波模板，根据目标物体的特征来对目标物体的位置进行跟踪定位，减少工作量。
16.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
17.请参照图1，图1为本发明提供的目标跟踪定位方法的流程图，包括：s11：在获取到视频序列的视频图像时，确定视频图像中的模板帧和搜索帧；其中，模板帧为视频序列中的第一帧的视频图像，模板帧中包括待跟踪目标及其位置，搜索帧为视频序列中第一帧之后任一帧的视频图像；s12：将模板帧和搜索帧均输入至卷积神经网络模型的孪生网络框架中的模板分支及搜索分支中；s13：在模板分支及搜索分支中，对模板帧和搜索帧进行特征提取，并对特征提取后的模板帧和搜索帧进行卷积操作，得到响应图；s14：利用通道注意力机制处理响应图，得到通道注意力特征图；s15：将通道注意力特征图和响应图做点乘生成第一特征图；s16：利用空间注意力机制处理第一特征图，得到空间注意力特征图；s17：将空间注意力特征图和第一特征图做点乘生成第二特征图；s18：基于模板分支得到的第二特征图和搜索分支得到的第二特征图确定搜索帧中待跟踪目标及其位置。
18.考虑到基于滤波对目标物体的目标跟踪技术需要对不同场景都设置一个滤波模板以保证目标跟踪的准确性，为了能够降低工作量，实现对目标物体在不同场景中的目标跟踪，在本实施例中，在获取到视频序列时，确定视频图像中的模拟帧和搜索帧，然后将模板帧和搜索帧输入到卷积神经网络模型的孪生网络框架中的模板分支及搜索分支中进行特征提取，并对特征提取的结果进行卷积操作以得到响应图，然后利用通道注意力机制处理响应图得到通道注意力特征图，用空间注意力机制处理第一特征图，得到空间注意力特征图，将空间注意力特征图和第一特征图做点乘生成第二特征图，基于模板分支得到的第
二特征图和搜索分支得到的第二特征图确定搜索帧中待跟踪目标及其位置。
19.请参照图2，图2是本发明提供的一种卷积神经网络的结构示意图。
20.具体的，在得到视频序列时，首先确定视频序列的第一帧视频图像中用户想要关注的待跟踪目标的大小和位置，通常由一个向量的特征框（x，y，w，h）来表示这个待跟踪目标及其位置，其中（x，y）表示待跟踪目标的位置，（w，h）代表待跟踪目标本身，将包含有这个特征框的第一帧视频图像确定为模板帧，而搜索帧为视频序列中除了第一帧以外的任一帧的视频图像，需要根据模板帧的信息来确定搜索帧中的待跟踪目标及其位置，之后将模板帧和搜索帧都输入至卷积神经网络模型的孪生网络框架中的模板分支及搜索分支中，孪生网络框架本质上是同一个网络使用两遍，一遍提取模板帧特征，一遍提取搜索帧特征，而特征提取指的是对模板帧或搜索帧进行卷积操作，对应为图2中的conv操作，以得到对应的特征，然后将两个特征进行卷积操作得到响应图，其中将模板帧和搜索帧输入到模板分支是为了得出响应图，对应为图2中的带有星号的操作。然后利用通道注意力机制处理响应图得到包含了各个通道对应的权重结果的通道注意力特征图，然后将通道注意力特征图与原本的响应图做点乘得到第一特征图，利用空间注意力特征图处理第一特征图得到空间注意力特征图，然后将空间注意力特征图与原本的第一特征图做点乘得到第二特征图，最后得到模板分支的第二特征图和搜索分支的第二特征图，其中，通道注意力机制对应为图2中的ca操作，空间注意力机制对应为图2中的sa操作。能够基于这两个特征图确定搜索帧中待跟踪目标及其位置，以得出目标物体的类型和类别。此外，本技术中提到的孪生网络框架，可以是siamrpn（siam region proposal network，区域候选孪生网络）。
21.综上所述，确定视频序列中的第一帧的视频图像为模板帧，模板帧包括待跟踪目标及其位置，模板帧的包括待跟踪目标及其位置可以为用户指定，确定视频序列中第一帧之后任一帧的视频图像都为搜索帧，然后将搜索帧和模板帧输入到卷积神经网络模型的孪生网络框架中的模板分支及搜索分支进行特征提取和卷积操作以得到响应图，利用通道注意力机制处理响应图得到通道注意力特征图，使通道注意力特征图与响应图做点乘后得到第一特征图，再利用空间注意力机制处理第一特征图得到空间注意力特征图，使空间注意力特征图与第一特征图做点乘后得到第二特征图，最后根据模板分支和搜索分支得到的第二特征图确定当前搜索帧中待跟踪目标及其位置，不需要对不同场景设置不同的滤波模板，减少了工作量，此外，还拥有较好的鲁棒性，可以在对vot2016视频序列数据集中达到0.441的eao值，在got
‑
10k视频序列中达到0.467的ao值。
22.在上述实施例的基础上：作为一种优选的实施例，确定视频图像中的模板帧和搜索帧，包括：判断模板帧的大小是否小于模板尺寸；若模板帧的大小小于模板尺寸，对模板帧进行颜色填充以使填充后的模板帧的尺寸达到模板尺寸；若模板帧的大小不小于模板尺寸，以模板帧的中心点为基准对模板帧的四周进行裁剪，以使裁剪后的模板帧的尺寸达到模板尺寸；判断搜索帧的大小是否小于搜索尺寸；若搜索帧的大小小于搜索尺寸，对搜索帧进行颜色填充以使填充后的搜索帧的尺寸达到搜索尺寸；
若搜索帧的大小不小于搜索尺寸，以上一帧的视频图像中的待跟踪目标的中心点为基准对搜索帧的四周进行裁剪，以使裁剪后的搜索帧的尺寸达到搜索尺寸。
23.由于拍摄视频序列的设备不同，模板帧和搜索帧对应的视频图像的大小不同，通常和模板帧和搜索帧需要的尺寸不符，为了能够使模板帧和搜索帧的大小符合要求，本实施例中，在获取到模板帧时，首先判断模板帧的大小和模板尺寸之间的关系，当模板帧的大小小于模板尺寸时，则对模板帧进行扩充和颜色填充直到达到模板尺寸，当模板帧的大小达到模板尺寸时，模板帧中被扩充的部分的颜色为被颜色填充的颜色，原本的模板帧中的颜色则保持原本的颜色，当模板帧的大小不小于模板尺寸时，考虑到待跟踪目标处于模板帧的中心，则从模板帧的中心开始裁剪模板帧的四周，直到达到模板尺寸，当模板帧的大小达到模板尺寸时，模板帧为原本的模板帧以中心点为基准的与模板尺寸相同的图像。搜索帧同理，不同的是，当搜索帧的大小不小于搜索尺寸时，会以上一帧的视频图像中的待跟踪目标的中心点为基准裁剪搜索帧的四周。在本技术中，模板尺寸的大小为127*127*3，搜索尺寸的大小为255*225*3。
24.综上所述，在模板帧大小小于模板尺寸时对模板帧进行颜色填充，在模板帧大小不小于模板尺寸时对模板帧以中心点开始裁剪，在搜索帧大小小于搜索帧尺寸时对搜索帧进行颜色填充，在搜索帧大小不小于搜索尺寸时以上一帧视频图像中的待跟踪目标的中心点为准开始裁剪，能够使模板帧和搜索帧的尺寸大小符合要求。
25.作为一种优选的实施例，对模板帧进行颜色填充以使填充后的模板帧的尺寸达到模板尺寸，包括：利用模板帧的众数rgb值对模板帧进行颜色填充；对搜索帧进行颜色填充以使填充后的搜索帧的尺寸达到搜索尺寸，包括：利用搜索帧的众数rgb值对搜索帧进行颜色填充。
26.考虑到在进行颜色填充时，需要一种纯色且非透明的颜色作为填充的颜色，在本实施例中，利用模板帧的众数rgb（red green blue，红绿蓝）值对模板帧进行颜色填充和搜索帧的众数rgb值对搜索帧进行颜色填充。
27.具体的，在模板帧和搜索帧中，各个像素点对应的rgb值不同，众数rgb值为模板帧或搜索帧所有像素点的rgb值中出现次数最多，即相同值个数最多的rgb值，该众数rgb值能够代表模板帧或搜索帧中最多的一种颜色，利用该众数rgb值进行颜色填充，能够使被填充的颜色较为符合模板帧或搜索帧原本的颜色基调。
28.作为一种优选的实施例，对模板帧进行颜色填充以使填充后的模板帧的尺寸达到模板尺寸，包括：利用模板帧的平均rgb值对模板帧进行颜色填充；对搜索帧进行颜色填充以使填充后的搜索帧的尺寸达到搜索尺寸，包括：利用搜索帧的平均rgb值对搜索帧进行颜色填充。
29.考虑到在进行颜色填充时，需要一种纯色且非透明的颜色作为填充的颜色，在本实施例中，利用模板帧的平均rgb值对模板帧进行颜色填充和搜索帧的平均rgb值对搜索帧进行颜色填充。
30.具体的，rgb值代表着一个像素点的在红色、绿色和蓝色这三个颜色通道中的数值，这三个通道的数值范围均为0~256，平均rgb值则是根据模板帧或搜索帧中所有像素点
在这三个颜色通道中的数值，分别得到这三个颜色通道的平均值，再基于这三个平均值得到平均rgb值，利用平均rgb值进行颜色填充能够使得被填充的颜色较为符合模板帧或搜索帧的颜色基调。
31.作为一种优选的实施例，卷积神经网络模型为采用mobilenetv2构建的骨架网络。
32.请参照图3，图3是本发明提供的另一种卷积神经网络的结构示意图。
33.为了能够加快工作效率，本实施例中，卷积申请网络模型为采用mobilenetv2构建的骨架网络。
34.具体的，在mobilenetv2中，在当前的卷积层确定了搜索帧中的待跟踪目标及其位置后，将会把确定结果发到下一个卷积层中，搜索帧和模板帧也会发到下一个卷积层中，以使下一个卷积层再对搜索帧和模板帧进行待跟踪目标及其位置的确认，当到第七层卷积层确定完待跟踪目标及其位置后，将会把这些卷积层得到的搜索帧的第二特征图和模板帧的第二特征图分别放入搜索帧和模板帧各自对应的分类器里，以便后续使用。
35.此外，由于mobilenetv1的结构较为落后，类似于更加落后的vgg的结构，而mobilenetv2在mobilenetv1的基础上修改了结构，使得v2的结构更符合现代化设计的需要，mobilenetv2的特点是推理速度快，在存储介质为ssd（solid state disk，固态硬盘）的情况下，mobilenetv2的速度是vgg的三倍，能够更使骨架网络的速度更快，效率更高。
36.作为一种优选的实施例，对模板帧和搜索帧进行特征提取，包括：基于模板帧和搜索帧的纹理和梯度进行特征提取。
37.考虑到目标跟踪的本质是完成对目标物体的定位和定界，本实施例中，将基于模板帧和搜索帧的纹理和梯度进行特征提取，其中，纹理代表着在模板帧或搜索帧中目标物体的特定纹理，梯度代表着在模板帧或搜索帧中目标物体在视频图像上的变化率，基于纹理和梯度进行特征提取能够得到较为准确的目标物体的特征信息。
38.请参照图4，图4为本发明提供的一种目标追踪定位装置的结构示意图，包括：存储器11，用于存储计算机程序；处理器12，用于执行计算机程序时实现如上述的目标追踪定位方法的步骤。
39.对于本技术提供的一种目标追踪定位装置的详细介绍，请参照上述一种目标追踪定位方法的实施例，本技术在此不再赘述。
40.本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的目标追踪定位方法的步骤。
41.对于本技术提供的一种计算机可读存储介质的详细介绍，请参照上述一种目标追踪定位方法的实施例，本技术在此不再赘述。
42.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
43.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业
技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种目标跟踪定位方法、装置及计算机可读介质与流程

相关文献

最热文献