采用视频编码信息辅助目标检测方法及设备与流程

2021-12-14 22:36:00 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种采用视频编码信息辅助目标检测方法及设备。

背景技术：

2.目标检测和识别是计算机视觉中的常见问题，其在生活中的多个领域中有着广泛的应用。目标检测的目的是降图像或视频中的目标与不感兴趣的部分区分开，判断是否存在目标，若存在目标则确定目标的位置。目前，精度较高的目标检测通常都是使用基于深度学习的方法。通过卷积神经网络来发现目标的位置和种类，其精度可以达到甚至超过人眼的水平。
3.基于深度学习的目标检测其最大的缺点是计算复杂度很高。在视频的每一帧上使用目标检测可能需要大量的计算资源(通常使用gpu)，同时还可能增加延时。因此，目标检测通常和目标跟踪结合在一起使用。即使如此，目标跟踪的计算复杂度也很高。这就很大程度上限制了目标检测的使用领域，也造成很大的运算和能源消耗。
4.另一种常见的方法是利用运动信息的视频目标检测。目前使用比较多的运动信息是光流信息。其衡量空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。一般而言，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。但是提取和使用光流本身的计算量非常大。
5.由于现有的目标检测的计算复杂度很高，然而在视频编解码过程中，几乎所有的协议都需要进行运动估计，有效的利用运动估计来进行目标跟踪，从而可以提高目标检测的效率和性能。

技术实现要素：

6.本发明实施例提供一种采用视频编码信息辅助目标检测方法及设备，用以实现辅助目标检测，提高目标检测的效率。
7.第一方面，本发明实施例提供一种采用视频编码信息辅助目标检测方法，包括：为待检测视频帧确定目标参考帧，所述目标参考帧包括数个子窗口块；为各子窗口块：在所述待检测视频帧中确定该子窗口块的参考位置；确定该参考位置的参考值；基于各子窗口块的参考值确定整体参考值；在目标形变函数的约束范围内，基于所述整体参考值，在所述待检测视频帧中查找目标窗口；基于所述目标窗口执行目标检测。
8.在一些实施例中，为待检测视频帧确定目标参考帧包括：
9.基于预设时间范围和所述待检测视频帧，在所述待检测视频帧之前选取目标参考帧。
10.在一些实施例中，所述预设时间范围是指定的时间间隔确定的，或者，是基于时间
相关函数来确定的，其中距所述待检测视频帧越近，目标参考帧的可信度越高。
11.在一些实施例中，确定该参考位置的参考值包括：
12.基于该参考位置对应的块的大小和该参考位置的可信度来确定该参考位置的参考值，其中参考位置的参考值随着该参考位置对应的块的大小的增大，和/或，该参考位置的可信度增大，而增大。
13.在一些实施例中，在所述待检测视频帧中查找目标窗口包括：
14.在目标形变函数的约束范围内，在所述待检测视频帧中查找目标窗口，以使得目标窗口的整体参考值与所述待检测视频帧的整体参考值超过第一阈值，且，使得目标窗口包含的参考位置的参考值之和以及目标窗口的大小超过第二阈值。
15.在一些实施例中，还包括：预先配置目标检测计数值，在查找到目标窗口的情况下，目标检测计数值减1，在所述目标检测计数值为0的情况下，基于各目标窗口执行目标检测。
16.在一些实施例中，还包括：在无法查找到目标窗口的情况下，直接执行目标检测。
17.在一些实施例中，调整所述第一阈值和/或第二阈值，以稳定查找目标窗口。
18.第二方面，本发明实施例还提供一种用于视频编码的目标检测设备，包括处理器，被配置为执行实现本公开各实施例所述的视频编码的辅助目标检测方法的步骤。
19.第三方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本公开各实施例所述的视频编码的辅助目标检测方法的步骤。
20.本发明实施例通过在目标形变函数的约束范围内，基于确定的整体参考值，在所述待检测视频帧中查找目标窗口，基于所述目标窗口执行目标检测，由此能够有效降低计算量，提高了目标检测的效率。从而在整体上，节约硬件资源和减少功耗和延时。
21.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
22.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
23.图1示出了运动目标向量检测的示意图。
24.图2示出了本公开实施例目标检测方法基本流程图。
具体实施方式
25.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
26.在视频编解码过程中，几乎所有的协议都需要进行运动估计。其基本思想是将图
像序列的每一帧分成许多互不重叠的块，并认为块内所有像素的位移量都相同，然后对每个宏块到参考帧某一特定搜索范围内根据一定的块匹配准则找出与当前块最相似的块，即匹配块，匹配块与当前块的相对位移即为运动矢量。
27.一般来说，时间上相邻的前后两帧之间物体运动的位移量通常不会很大，所以可以从当前宏块位置出发，在历史帧相同位置宏块周围一个小区域内进行搜索，寻找匹配的块。显然搜索区域越大计算的成本就越高，所以实际产品中需要一些技巧来加快搜索速度，减少计算量。例如，h.264协议允许在dpb缓存内的任何一个重建帧中寻找匹配块以找到一个最优的匹配块。显然搜索的成本与引用参考帧的数量是成正比的，比如在2个参考帧中搜素匹配块需要花费的时间(芯片面积)和功耗基本上就是单参考帧情况的2倍。因此从节省成本的角度出发，最简单的方案就是只参考前一帧，这样做即节省参考帧缓存又节省编码器算力，缺点就是会牺牲一些码率性能。
28.找到一个最优匹配块后，运动估计会输出一个运动矢量(motion vector,mv)，即参考块相对当前块的位置坐标。如果没有找到合适的匹配块时，这个宏块采用帧内预测即可。因此，如图1所示，在h.264以及h.265技术中，p帧和b帧都是可以有intra
‑
coded宏块的。
29.如果减少目标检测的频率，在某些应用场景下可以使用。但是对于对视频帧率有要求的场景就不适用。例如在区域增强的应用中，视频编码器需要对特殊的物体通过调整qp来提高图像质量，这就要求对每一帧进行目标识别。即使在停车场进行车牌识别时，由于定时快照的间隔，对有些高速车辆也可能会漏检。
30.而传统利用运动信息的视频目标检测需要使用额外的计算资源估算运动信息，从而造成资源浪费，增加了硬件和能耗的成本。
31.为了利用运动矢量来判定和追踪目标检测，本发明实施例提供一种采用视频编码信息辅助目标检测方法，包括：
32.步骤s201、为待检测视频帧确定目标参考帧，所述目标参考帧包括数个子窗口块。具体的，本实施例中子窗口块可以是通过深度学习或者其他方法发现的目标位置。由于视频的很多情况下具有连续性，因此可以利用在时间维度上先前的视频帧来选取目标参考帧，例如上一帧。在步骤s202中为各子窗口块：在所述待检测视频帧中确定该子窗口块的参考位置；确定该参考位置的参考值。也即对于每个目标参考帧的目标窗口中的块可以在待检测视频帧确定该子窗口块的参考位置，参考位置可以是子窗口块在待检测视频帧中的对应的位置。由此可以根据该参考位置来计算参考值，本公开实施例的参考值可以用来描述该子窗口块的时间可信度。在步骤s203中基于各子窗口块的参考值确定整体参考值。例如可以通过求和或者平均或者加权平均的方式来确定整体参考值，具体在此不做限定。
33.然后在步骤s204中在目标形变函数的约束范围内，基于所述整体参考值，在所述待检测视频帧中查找目标窗口。最后在步骤s205中基于所述目标窗口执行目标检测。在一些实施例中，初始情况下，上一帧的目标检测结果可以通过深度学习来获取，从而确定包含运动目标的各子窗口块的位置。而通过运动矢量，可以找到目标检测结果区域中的子窗口块在待检测前帧中的位置。这些位置可能很聚集，也可能很分散。在分散的情况下，如果需要涵盖所有的位置，其产生的新的目标窗口就会很大。为了控制这一点，本技术提出通过目标形变函数来限制形变的范围，目标窗口满足和上一帧相比比较类似，也允许一定的变化。
34.本公开的方法对于下一帧(待检测视频帧)，能够通过运动估计来寻找其新的位置
而不需要重新使用深度学习。而运动估计是视频编码过程中必须的步骤，因此有效提高了目标检测的效率，并且每个帧的目标检测结果来自于其他帧的运动矢量和目标检测结果，有效节约了运算资源。通过目标形变函数的来查找目标窗口，从而减少搜索的计算量。
35.在一些实施例中，为待检测视频帧确定目标参考帧包括：
36.基于预设时间范围和所述待检测视频帧，在所述待检测视频帧之前选取目标参考帧。在一些实施例中，所述预设时间范围是指定的时间间隔确定的，或者，是基于时间相关函数来确定的，其中距所述待检测视频帧越近，目标参考帧的可信度越高。示例性的，可以选择指定的时间间隔之前的视频帧作为目标参考帧，例如选择在前的一帧作为目标参考帧，也可以选择在前的第二帧作为目标参考帧。也可以时间可信度函数f(t)：其输入为和当前帧的时间间隔，输出为可信度。间隔越短，目标参考帧和当前帧越接近，其可信度越高。其实现可以用一维lut来实现。其输出的最大值为1，最小值为0。例如，如果只希望参考上一帧(前一帧作为目标参考帧)f(t＝
‑
1)＝1，f(t！＝
‑
1)＝0。如果希望参考上两帧f(t＝
‑
1)＝1，f(t＝
‑
2)＝0.8，f(t！＝
‑
1，
‑
2)＝0。
37.在一些实施例中，确定该参考位置的参考值包括：基于该参考位置对应的块的大小和该参考位置的可信度来确定该参考位置的参考值，其中参考位置的参考值随着该参考位置对应的块的大小的增大，和/或，该参考位置的可信度增大，而增大。作为一种示例，可以利用该参考位置对应的块的大小
×
可信度值。步骤s103、基于各子窗口块的参考值确定整体参考值。例如可以通过求和的方式来确定出整体参考值。
38.在一些实施例中，在所述待检测视频帧中查找目标窗口包括：在目标形变函数的约束范围内，在所述待检测视频帧中查找目标窗口，以使得目标窗口的整体参考值与所述待检测视频帧的整体参考值超过第一阈值，且，使得目标窗口包含的参考位置的参考值之和以及目标窗口的大小超过第二阈值。具体的查找方式可以是利用目标变形函数q(x，y)：当前帧中目标窗口允许的变形范围。相比较于上一帧中的目标窗口的大小和形状，对于当前帧对应的目标窗口所允许的形变。例如q(0.1，0.1)可以为允许目标窗口宽和高各有10％的形变(增加或缩小)。也可以为只允许固定大小的目标窗口[1.1w，1.1h]，[1.1w，1.0h]，[1.1w，0.9h]，[1.0w，1.1h]，[1.0w，1.0h]，[1.0w，0.9h]，[0.9w，1.1h]，[0.9w，1.0h]，[0.9w，0.9h]。q(0，0)则表示目标窗口大小和上一帧一致。在一些实施例中，所述目标形变函数可以被配置为容忍小范围的场景形变。本示例中目标变形函数的目的是限制搜索的范围，减少搜索的计算量。同时，可以在一定程度上容忍目标在视频中的形变。考虑到帧和帧之间的时间很短，因此本示例中，在大多数场景上形变容忍度设置在一个较小的范围内。可以预先设置第一阈值pc以及第二阈值pd，由此可以在目标变形函数的允许范围内，在当前帧(待检测帧)中查找新的目标窗口，其可以包含参考位置的可信参考值之和与整体可信参考值的比例需要超过pc。如果发现的匹配的目标窗口，进一步检测对应的参考位置大小之和与目标窗口的大小比例需要超过pd。
[0039]
在一些实施例中，可以调整所述第一阈值和/或第二阈值，以稳定查找目标窗口。本示例中考虑到大的目标窗口比较容易获得较大的参考位置覆盖率，也就容易大于pc。而小的目标窗口比较容易获得较高的覆盖密度。通过调整pc和pd，可以控制最终获得稳定的目标窗口。
[0040]
在一些实施例中，可以在目标变形函数的允许范围内，在当前帧中寻找新的目标
窗口，其可以包含参考位置的可信参考值之和与整体可信参考值的比例需要超过pc。
[0041]
新的窗口必须包含一定比例旧的窗口中的块(移动到新的窗口中)
→
新窗口扩大。发现的新的目标窗口，对应的参考位置大小之和与目标窗口的大小比例需要超过pd，但新的窗口中不能有太多未知的块(其不来自于旧的窗口)
→
新窗口缩小。按照此过程来匹配获得目标窗口。基于pd和pc这两个因素，来控制目标在当前帧中的位置，和目标窗口的大小，从而使得目标窗口贴合于实际的需求。
[0042]
在一些实施例中，还包括：预先配置目标检测计数值，在查找到目标窗口的情况下，目标检测计数值减1，在所述目标检测计数值为0的情况下，基于各目标窗口执行目标检测。在一些实施例中，还包括：在无法查找到目标窗口的情况下，直接执行目标检测。例如可以预先配置目标检测计数值n＝k，目标检测计数值可以配置在强制目标检测计数器，强制目标检测计数器用于执行强制目标检测的计数。
[0043]
若新的帧出现，如果由于该帧为i帧(关键帧)或者其他机制引起的强制帧内预测。其参考帧数目为0，无法判定运动矢量，因此可以通过预设方法来运行目标检测，比如深度学习的方法来对该帧进行目标检测。赋值n＝k。
[0044]
如果查找到符合pc和pd的目标窗口，则输出该目标窗口n＝n
‑
1。
[0045]
如果没有同时符合pc和pd的目标窗口(不符合目标追踪的条件)，直接运行目标检测(例如直接通过深度学习完成该帧的目标定位或者目标检测)。赋值n＝k。
[0046]
如果n＝0，运行目标检测并重置n。n＝k。
[0047]
综上本发明方法，能够使用运动矢量，来实现目标的追踪，从而减少计算资源的使用。每个帧的目标检测结果来自于其他帧的运动矢量和目标检测结果，在此过程中可能产生误差的不断累积。本示例中还采用设定强制目标检测计数器来阻止累积的误差。从而保证目标追踪的情况下，不会遗漏掉新出现的目标。本公开的方法无法发现新的目标，具体实施过程中可以同时配合深度学习来检出需要进行跟踪的目标，然后通过本公开方法进行目标追踪，在对同一目标进行跟踪的情况下的算法复杂度是帧间均使用深度学习来完成目标定位的1/30甚至更低，因此本公开的方法有效节约了计算资源。利用目标变形函数限制搜索的范围，大大减少搜索的计算量。通过调整pc和pd，可以控制最终获得稳定的目标窗口。使用时间可信度函数，调整参考帧的权重，从而得到更准确的结果。在解码的过程中。解码器也可以获得运动矢量的信息。因此，也可以使用本公开的方法来加速目标检测，节约运算量。
[0048]
第二方面，本发明实施例还提供一种用于视频编码的目标检测设备，包括处理器，被配置为执行实现本公开各实施例所述的视频编码的辅助目标检测方法的步骤。
[0049]
第三方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本公开各实施例所述的视频编码的辅助目标检测方法的步骤。
[0050]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0051]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0052]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。
[0053]
上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：视频图像处理方法、装置、系统、电子设备及存储介质与流程

采用视频编码信息辅助目标检测方法及设备与流程

相关文献

最热文献