一种基于显著性检测的帧间图像通用编码方法与系统与流程

2021-11-16 12:44:00 来源：中国专利 TAG：

本发明涉及图像处理技术领域，具体涉及一种基于显著性检测的帧间图像通用编码方法与系统。

背景技术

在传统的视频编码中，每个帧间图像通常使用一个恒定的量化参数（Quantization Parameter，简称QP）进行编码，这取决于用户选择的基本QP。当编码树单元（Coding Tree Units，简称CTU）覆盖非显著性区域时，基于人类视觉系统的逐块QP自适应系统（QP Adaptation,简称QPA）能够提高以人类作为最终观察者时，在该主观编码质量区域能够以较低的视觉质量进行传输。此QPA功能包含在最新的视频编码标准通用视频编码（Versatile Video Coding，简称VVC）及其参考软件VVC测试模型（VVC Test Model，简称VTM）中。

H.266/VVC（Versatile Video Coding，通用视频编码）都是VCEG和MPEG联合开发的标准，当前H.266/VVC是国际上最新一代视频编码标准。当今越来越多的多媒体数据流量并不是被以人类作为主体的观察者消费，而是被计算机视觉算法用以分析数据以解决不同的任务，例如在监控或自动驾驶领域等智能机器应用。因此，MPEG在这个所谓的机器视频编码（Video Coding for Machines，简称VCM）任务上引入了一个特别小组，以优化计算机对机器通信场景的视频编解码器。

由于所需处理的数据量以及时效性需求越来越高，机器对视频压缩的需求也在不断增加，在编码之前选择适当的算法来检测这些显著区域是至关重要的。一方面，它必须精确地找到包含相关对象的重要区域，但另一方面，显著性检测器仍然必须足够快以满足实时应用，而这正是本发明所要研究的方向。

技术实现要素：

为了实现机器在视频编码时对视频帧图像的高时效、高质量处理，本发明提出了一种基于显著性检测的帧间图像通用编码方法，包括步骤：

S1：通过显著性检测器提取当前帧图像参数化后预设范围阈值内的运动目标集；

S2：根据运动目标集中各运动目标与所处编码树单元的重叠关系，从各编码树单元中筛选出覆盖有任一运动目标或者被任一运动目标覆盖的编码树单元集；

S3：获取编码树单元集中各编码树单元与对应运动目标的相对重叠度；

S4：提取相对重叠度大于预设重叠度的对应编码树单元作为显著性区域；

S5：根据提取出的显著性区域利用预设修正值修正预设量化参数，并通过修正后的预设量化参数对当前帧图像编码进行编码。

进一步地，所述显著性检测器为单目标检测网络，单目标检测网络提取出的运动目标含有分类信息、区域信息和边界框。

进一步地，所述S1步骤之后还包括步骤，

S11：将运动目标边界框的宽度缩放至预设大小。

进一步地，所述预设范围阈值包括非最大抑制阈值和交集阈值，运动目标的参数化后的提取范围为：

运动目标识别评分高于非最大抑制阈值，且运动目标重叠部分大于交集阈值的部分。

进一步地，所述S3步骤中，相对重叠度可由第一公式获取，所述第一公式表达式为：

式中，CTU表示编码树单元，det表示运动目标，overlap表示交集，i为运动目标的编号，k为编码树单元的编号，为编号i的运动目标与编号k的编码树单元的相对重叠度，为编号k的编码树单元的区域，为编号i的运动目标的区域，为与之间的交集区域，min（）为最小求解。

进一步地，所述S4步骤中，显著性区域的判定可表示为第二公式，所述第二公式的表达式为：

式中，Sk为编号k的编码树单元区域类型，1为显著性区域，0为非显著性区域，为编号i的运动目标与编号k的编码树单元对应相对重叠度的最大值，为预设重叠度。

进一步地，所述S5步骤中，根据提取出的显著性区域利用预设修正值修正预设量化参数可表示为第三公式，所述第三公式的公式表达式为：

式中，为预设量化参数，为预设修正值，为编号k的编码树单元修正后的预设量化参数。

本发明还提出了一种基于显著性检测的帧间图像通用编码系统，包括：

显著性检测器，用于提取当前帧图像参数化后预设范围阈值内的运动目标集；

编码树筛选单元，用于根据运动目标集中各运动目标与所处编码树单元的重叠关系，从各编码树单元中筛选出覆盖有任一运动目标或者被任一运动目标覆盖的编码树单元集；

重叠度计算单元，用于获取编码树单元集中各编码树单元与对应运动目标的相对重叠度；

区域提取单元，用于提取相对重叠度大于预设重叠度的对应编码树单元作为显著性区域；

编码单元，用于根据提取出的显著性区域利用预设修正值修正预设量化参数，并通过修正后的预设量化参数对当前帧图像编码进行编码。

进一步地，所述显著性检测器为单目标检测网络,单目标检测网络提取出的运动目标含有分类信息、区域信息和边界框，显著性检测器中还包括边框缩放单元，用于将运动目标边界框的宽度缩放至预设大小。

进一步地，所述预设范围阈值包括非最大抑制阈值和交集阈值，运动目标的参数化后的提取范围为：

运动目标识别评分高于非最大抑制阈值，且运动目标重叠部分大于交集阈值的部分。

与现有技术相比，本发明至少含有以下有益效果：

（1）本发明所述的一种基于显著性检测的帧间图像通用编码方法与系统，选用单目标检测网络作为显著性检测器，可以更好适应参数化的数据处理，有利于数据处理过程中降低数据资源的消耗；

（2）通过全覆盖编码树单元的筛选以及对应重叠度的计算，筛选出最能表现出运动目标的编码树单元，对其进行预设调节下的量化参数调整，从而使得显著性区域能够分配到更多的数据资源，而非显著性区域则降低其数据资源的分配，提高了数据资源的利用率；

（3）利用单目标检测网络，有效提高运动目标的检出时效性。

附图说明

图1为一种基于显著性检测的帧间图像通用编码方法的方法步骤图；

图2为一种基于显著性检测的帧间图像通用编码系统的系统结构图；

图3为滑动窗口的窗口提取示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

为了应对现有机器通信场景下对于视频编码日益高涨的时效性以及精准度要求，如图1所示，本发明提出了一种基于显著性检测的帧间图像通用编码方法，包括步骤：

S1：通过显著性检测器提取当前帧图像参数化后预设范围阈值内的运动目标集；

S2：根据运动目标集中各运动目标与所处编码树单元的重叠关系，从各编码树单元中筛选出覆盖有任一运动目标或者被任一运动目标覆盖的编码树单元集；

S3：获取编码树单元集中各编码树单元与对应运动目标的相对重叠度；

S4：提取相对重叠度大于预设重叠度的对应编码树单元作为显著性区域；

S5：根据提取出的显著性区域利用预设修正值修正预设量化参数，并通过修正后的预设量化参数对当前帧图像编码进行编码。

基于最新的视频编码标准“通用视频编码（VVC）”，本发明为机器通信场景下的视频编码提出了上述编码步骤。其中，为了在编码前更有效的获取最初的显著性区域，本发明选用了单目标检测网络（YOLO）进行运动目标的提取。

早先的RCNN、FAST RCNN和FASTER RCNN计算网络大致是将检测结果分为两部分求解，也即是物体类别求解结果和物体位置求解结果（通过回归计算获得），而这两个部分又存在因果关系，需要在完成上一步骤求解的基础上才能进行下一步骤的求解；而单目标检测网络则与这些早先计算网络不同，其是将物体检测直接作为一个回归问题进行求解，在对输入图像进行过一次推理（inference）后，便能得到图像中所有物体的区域信息和其所属类别及相应的置信概率，因此其相交早先的计算网络有着先天的处理速度优势。

同时，本申请是通过参数化后的帧间图像进行的运动目标提取，而YOLO对于参数化数据的处理占优，且由于其属于单步处理方法，实时性更强，在处理过程中能够以更小的数据资源（bit）消耗实现运动目标的提取。

但是，由于通过单目标检测网络进行运动目标提取时，其提取后的运动目标均含有边界框，且这些边界框是有一定宽度的。而如果边界框过宽，就有可能导致后续重叠度计算时，由于边界框占用了部分区域，导致计算结果出现偏差（因为边界框宽度值是一定的，而运动目标的面积不一定，因此不同面积的运动目标，在分别配置了同比例关系的编码树单元时，其相对重叠度计算结果反而不同），从而引起显著性区域的判定错误，因此在步骤S1之后，还包括步骤，

S11：将运动目标边界框的宽度缩放至预设大小（此处所述预设大小是人为根据精度要求设置的，因此不再对其详细参数进行限定）。

通过对提取出的运动目标的边界框进行缩放，使得边界框不再影响后续相对重叠度的计算，从而整体显著性区域提取的整体精度。

而在细化边界框后，本发明根据非最大抑制阈值以及交集阈值选取最有可能是运动目标的对象。其中，非最大抑制阈值（Non-Maxinum Suppression，NMS）顾名思义就是抑制不是最大值的对象，可以理解为局部最大搜索。这个局部代表的是一个领域，领域有两个参数可变，一个是领域的维数，二是领域的大小。例如图3所示的人脸检测中，滑动窗口经特征提取，经分类器识别后，每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其它窗口存在包含或者大部分交叉的情况。这时就是要用到NMS来选取那些领域里分数最高（也即是判定为行人概率最大），并抑制那些分数低的窗口。而重叠度阈值则是在非最大抑制阈值的基础上，从筛选出的窗口中再次提炼。因为滑动窗口过程中，所提取出的窗口会存在重叠的情况，而越是靠近正确的运动目标，其与其它窗口的重叠部分越多，重叠次数频率越高的地方表明该部分为运动目标的几率越大，因此提取出那些重叠度超过重叠度阈值的窗口即可作为最终的运动目标集。

本实施例中，为了更好的提取运动目标，进行多次对比实验，将非最大抑制阈值设置为0.1，而交集阈值则设置为0.5，这样的数字设定能够确保如果窗口相互重叠太多，能够优先将具有更高置信度的窗口视为最终提取结果。与未设置具体参数，采用默认的阈值相比，这两个阈值的设定，可以显著提高编码树单元的召回率。

基于上述所提取出的运动目标集，如何根据运动目标集从当前帧图像的众多编码树单元中提取出合适的编码树单元作为显著性区域至关重要。进一步地，编码树单元与运动目标的重叠区域在当前编码树单元和运动目标重叠下可表示如下公式：

式中，CTU表示编码树单元，det表示运动目标，overlap表示交集，i为运动目标的编号，k为编码树单元的编号，为编号k的编码树单元的区域，为编号i的运动目标的区域，为与之间的交集区域。

为了在将编码树单元定义为显著区域时能够找到合适的阈值，有两种情况可以考虑为显著性。在第一种情况下，单目标检测网络所提取出的运动目标区域小于编码树单元的区域大小，因此重叠区域不能大于运动目标的区域。在第二种情况下，单目标检测网络所提取出的运动目标区域大于编码树单元的区域大小，因此重叠区域不能大于编码树单元的区域。基于此，本发明提出相对重叠度的概念来进行显著性区域的判定，其中相对重叠度可由第一公式表示：

式中，为编号i的运动目标与编号k的编码树单元的相对重叠度，min（）为最小求解。

对于上述两种情况，当检测到运动目标完全位于编码树单元中或编码树单元完全被运动目标覆盖，且大于预设重叠度时（人为设定的，可根据精度要求自行设置），可以认定其为显著性区域，而当运动目标与编码树单元未完全重叠时，本发明认定其为非显著性区域，具体可用第二公式进行表示：

式中，Sk为编号k的编码树单元的区域类型，1为显著性区域，0为非显著性区域，为编号i的运动目标与编号k的编码树单元对应相对重叠度的最大值，为预设重叠度。

而后根据Sk的最终分类结果，对各编码树单元进行预设调控下的量化参数调整，具体可用第三公式表示：

式中，为预设量化参数，为预设修正值，为编号k的编码树单元修正后的预设量化参数。而后就可以根据修正后的预设量化参数对各编码树单元进行编码。

因为本发明的最终目的在于降低分配至非显著性区域的数据资源（bit），通过上述整个过程对于运动目标的筛选，并对最佳编码树单元进行选择的操作，通过一环接一环的数据资源消耗控制，大大节省了帧间图像编码过程中的整体数据资源消耗。

实施例二

为了更好的对本发明的技术内容进行理解，本实施例通过系统结构的方式来对本发明进行阐述，如图2所示，一种基于显著性检测的帧间图像通用编码系统，包括：

显著性检测器，用于提取当前帧图像参数化后预设范围阈值内的运动目标集；

编码树筛选单元，用于根据运动目标集中各运动目标与所处编码树单元的重叠关系，从各编码树单元中筛选出覆盖有任一运动目标或者被任一运动目标覆盖的编码树单元集；

重叠度计算单元，用于获取编码树单元集中各编码树单元与对应运动目标的相对重叠度；

区域提取单元，用于提取相对重叠度大于预设重叠度的对应编码树单元作为显著性区域；

编码单元，用于根据提取出的显著性区域利用预设修正值修正预设量化参数，并通过修正后的预设量化参数对当前帧图像编码进行编码。

其中，显著性检测器选用的是单目标检测网络, 单目标检测网络提取出的运动目标含有分类信息、区域信息和边界框，显著性检测器中还包括边框缩放单元，用于将运动目标边界框的宽度缩放至预设大小。

同时，预设范围阈值包括非最大抑制阈值和交集阈值，运动目标的参数化后的提取范围为：

运动目标识别评分高于非最大抑制阈值，且运动目标重叠部分大于交集阈值的部分。

综上所述，本发明所述的一种基于显著性检测的帧间图像通用编码方法与系统，选用单目标检测网络作为显著性检测器，可以更好的适应参数化的数据处理，有利于数据处理过程中降低数据资源的消耗。

通过全覆盖编码树单元的筛选以及对应重叠度的计算，筛选出最能表现出运动目标的编码树单元，对其进行预设调节下的量化参数调整，从而使得显著性区域能够分配到更多的数据资源，而非显著性区域则降低数据资源的分配，提高数据资源的利用率。同时利用单目标检测网络，也能够有效的提高运动目标的检出时效性。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”、“一”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：抗拜占庭排序的异步共识方法及装置与流程

一种基于显著性检测的帧间图像通用编码方法与系统与流程

相关文献

最热文献