一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的帧级自适应ROI视频压缩方法与流程

2022-08-10 18:34:21 来源:中国专利 TAG:

一种基于深度学习的帧级自适应roi视频压缩方法
技术领域
1.本发明涉及一种基于深度学习的帧级自适应roi视频压缩方法,属于视频压缩处理技术领域。


背景技术:

2.近年来,随着科技的发展和人们安全意识的提高,安防系统已在人们的生产生活中扮演了重要的角色。通常,在安防领域中需要将监控视频保存一定的期限,以便应对后续有视频回看等需求。然而,随着安防需求的增加以及视频大数据的快速发展,视频数据量呈几何级数增长,视频存储与维护成本也越来越高。传统的视频编码技术如h.264/avc、h.265/hevc等已逐渐无法满足现实需求。因此,如何在保证视频关键内容质量的前提下,更加有效地对视频进行压缩编码,获得更高压缩率、降低存储成本,成为了一个亟待解决的问题。
3.监控场景视频具有其特殊性,不同于网络和多媒体通信中的其它视频,大部分监控场景都存在一定的非关键静态区域,比如:监控画面中的天空、路面、墙面、门窗等。监控视频存在大量的冗余信息,如果对整个监控区域进行编码压缩会对视频存储带来极大的压力。
4.目前常用的roi提取算法有背景建模算法和深度学习语义分割算法。背景建模算法通过对视频序列背景建立数学模型,然后将待检测图像和背景模型相减得到运动目标,从而将运动目标和背景区分开。深度学习语义分割算法通过神经网络语义分割模型将视频中感兴趣的区域和背景区分开。
5.然而,上述的roi提取算法依然存在不足。背景建模算法对运动目标敏感,可能会过度地将监控画面中的动物、抖动的树叶等并不关注的运动信息提取出来,而监控视频我们更关注行人、车辆等。深度学习的语义分割算法是基于像素级分割,因此数据集的标注成本极高,模型的预测误差还会引起视频压缩区域的偏差,此外,语义分割模型相比检测、分类模型推理耗时更长,实际应用受限。


技术实现要素:

6.本发明所要解决的技术问题是提供一种基于深度学习的帧级自适应roi视频压缩方法,使用深度学习目标检测模型来对视频场景内容进行动态解析,并根据每一帧中关键目标位置信息动态计算roi编码区域,通过设置差异化编码参数去除roi区域外部内容冗余,同时保证roi区域内部画面质量,从而有效减小视频码流,获得较高的压缩率。
7.本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于深度学习的帧级自适应roi视频压缩方法,用于针对目标视频进行压缩,包括如下步骤:
8.步骤a.获得目标视频所对应的图像帧序列,并进入步骤b;
9.步骤b.分别针对图像帧序列中的各个图像帧,识别获得图像帧中属于预设各移动对象类型的各个目标局部图像区域,然后进入步骤c;
10.步骤c.分别针对图像帧序列中的各个图像帧,获得图像帧中全部目标局部图像区域整体的外接区域,构成该图像帧中的感兴趣区域,即获得各图像帧中的感兴趣区域,然后进入步骤d;
11.步骤d.根据图像帧中感兴趣区域对应第一crf值crf1,结合目标视频所对应的预设调节参数offset,按如下公式:
12.crf2=crf1/(1 offset)
13.offset=(crf
1-crf2)/crf214.获得图像帧中其余区域所对应的第二crf值crf2,然后进入步骤e;
15.步骤e.分别针对图像帧序列中的各个图像帧,按第一crf值crf1,针对图像帧中感兴趣区域进行图像编码,按第二crf值crf2,针对该图像帧中其余区域进行图像编码,更新该图像帧,进而更新各图像帧,并进行封装,获得更新后目标视频。
16.作为本发明的一种优选技术方案:所述步骤a中,若目标视频为已编码视频,则首先对目标视频进行解析,获得目标视频所对应的图像帧序列,然后针对图像帧序列进行解码,更新目标视频所对应的图像帧序列,并进入步骤b。
17.作为本发明的一种优选技术方案:所述步骤b中,分别针对图像帧序列中的各个图像帧,应用以图像帧中各像素分别所对应的特征组为输入,图像帧中各像素分别所对应分类标签为输出的目标识别模型,识别获得图像帧中属于预设各移动对象类型的各个目标局部图像区域,然后进入步骤c。
18.作为本发明的一种优选技术方案:所述步骤b中的目标识别模型,按如下步骤i至步骤iii获得;
19.步骤i.获得预设数量分别包含预设各移动对象类型的各个样本图像帧,并根据预设各移动对象类型、以及图像背景类型的各个预设分类标签,确定各样本图像帧中各像素分别所对应的分类标签,然后进入步骤ii;
20.步骤ii.分别针对各个样本图像帧,获得样本图像帧中各像素分别对应预设各目标类型特征的特征值,构成该各像素分别所对应的特征组,即获得各样本图像帧中各像素分别所对应的特征组,然后进入步骤iii;
21.步骤iii.以样本图像帧中各像素分别所对应的特征组为输入,以样本图像帧中各像素分别所对应的分类标签为输出,针对预设分类网络进行训练,获得目标识别模型。
22.作为本发明的一种优选技术方案:所述步骤ii中的预设各目标类型特征包括rgb三通道的像素值。
23.作为本发明的一种优选技术方案:基于所述步骤b关于各图像帧中各目标局部图像区域的识别,获得各图像帧中各目标局部图像区域分别所对应的最小外接矩形区域,所述步骤c中,分别针对图像帧序列中的各个图像帧,获得图像帧中各目标局部图像区域分别所对应最小外接矩形区域整体的最小外接矩形区域,构成该图像帧中的感兴趣区域,即获得各图像帧中的感兴趣区域。
24.作为本发明的一种优选技术方案:所述预设调节参数offset的取值为[-1,0]。
[0025]
本发明所述一种基于深度学习的帧级自适应roi视频压缩方法,采用以上技术方案与现有技术相比,具有以下技术效果:
[0026]
本发明所设计基于深度学习的帧级自适应roi视频压缩方法,使用深度学习目标
检测模型来对视频场景内容进行动态解析,并根据每一帧中关键目标位置信息动态计算roi编码区域,通过设置差异化编码参数去除roi区域外部内容冗余,同时保证roi区域内部画面质量,从而有效减小视频码流,获得较高的压缩率,大幅降低视频数据的存储要求;并且所设计技术方案适用于各类监控场景,可以是通用监控场景或关注特定对象的监控场景;同时对目标检测结果进行自适应roi计算,对目标检测模型的检测误差具有一定的矫正能力;此外整个技术方案适配于多种视频编解码标准,集成方便,可复用性高。
附图说明
[0027]
图1是本发明所设计基于深度学习的帧级自适应roi视频压缩方法的流程示意图;
[0028]
图2是本发明设计步骤a的实施应用示意图;
[0029]
图3是本发明设计步骤b的实施应用示意图;
[0030]
图4是本发明设计步骤c中对应最小外接矩形区域的实施应用示意图;
[0031]
图5是本发明设计步骤e的实施应用示意图;
具体实施方式
[0032]
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
[0033]
本发明所设计一种基于深度学习的帧级自适应roi视频压缩方法,用于针对目标视频进行压缩,实际应用当中,如图1所示,具体执行如下步骤a至步骤e。
[0034]
步骤a.获得目标视频所对应的图像帧序列,并进入步骤b。
[0035]
如图2所示,上述述步骤a在实际应用当中,若目标视频为已编码视频,则首先对目标视频进行解析,获得目标视频所对应的图像帧序列,然后针对图像帧序列进行解码,更新目标视频所对应的图像帧序列,并进入步骤b。
[0036]
步骤b.分别针对图像帧序列中的各个图像帧,识别获得图像帧中属于预设各移动对象类型的各个目标局部图像区域,然后进入步骤c。这里的预设各移动对象类型诸如包括行人、车辆。
[0037]
上述步骤b在实际应用当中,如图3所示,分别针对图像帧序列中的各个图像帧,具体设计应用以图像帧中各像素分别所对应的特征组为输入,图像帧中各像素分别所对应分类标签为输出的目标识别模型,识别获得图像帧中属于预设各移动对象类型的各个目标局部图像区域;并且关于其中的目标识别模型,实际应用当中,按如下步骤i至步骤iii获得。
[0038]
步骤i.获得预设数量分别包含预设各移动对象类型的各个样本图像帧,并根据预设各移动对象类型、以及图像背景类型的各个预设分类标签,确定各样本图像帧中各像素分别所对应的分类标签,然后进入步骤ii。
[0039]
这里各个样本图像帧的获得,因设计尽可能多的覆盖不同场景、不同时间段、不同光线条件、不同背景信息。
[0040]
步骤ii.分别针对各个样本图像帧,获得样本图像帧中各像素分别对应预设各目标类型特征的特征值,构成该各像素分别所对应的特征组,即获得各样本图像帧中各像素分别所对应的特征组,然后进入步骤iii。这里在具体实施中,所述预设各目标类型特征诸如设计采用rgb三通道的像素值。
[0041]
步骤iii.以样本图像帧中各像素分别所对应的特征组为输入,以样本图像帧中各
像素分别所对应的分类标签为输出,针对预设分类网络进行训练,获得目标识别模型。这里的预设分类网络,实际应用当中,诸如选择fast r-cnn、yolo系列等模型。
[0042]
并且关于步骤b中所涉及图像帧中属于预设各移动对象类型的各个目标局部图像区域的识别获得,应用中,具体获得各图像帧中各目标局部图像区域分别所对应的最小外接矩形区域。
[0043]
步骤c.分别针对图像帧序列中的各个图像帧,获得图像帧中全部目标局部图像区域整体的外接区域,构成该图像帧中的感兴趣区域,即获得各图像帧中的感兴趣区域,然后进入步骤d。
[0044]
基于上述步骤b所设计通过最小外接矩形区域实现各图像帧中各目标局部图像区域的识别获得,则这里步骤c中,分别针对图像帧序列中的各个图像帧,获得图像帧中各目标局部图像区域分别所对应最小外接矩形区域整体的最小外接矩形区域,构成该图像帧中的感兴趣区域,即获得各图像帧中的感兴趣区域。
[0045]
实际执行当中,这里图像帧中感兴趣区域对应的最小外接矩形区域,具体按如下公式获得:
[0046][0047][0048][0049][0050]
公式(1)中的依次为第1个、第2个和第n个关键目标检测框的左上角x坐标,基于公式(1)可以计算所有关键目标检测框x坐标的最小值。公式(2)中的坐标,基于公式(1)可以计算所有关键目标检测框x坐标的最小值。公式(2)中的分别对应第1个、第2个和第n个关键目标检测框的右下角x坐标,基于公式(2)可以计算所有关键目标检测框x坐标的最大值。公式(3)中的依次为第1个、第2个和第n个关键目标检测框的左上角y坐标,基于公式(3)可以计算所有关键目标检测框y坐标的最小值。公式(4)中的分别对应第1个、第2个和第n个关键目标检测框的右下角y坐标,基于公式(4)可以计算所有关键目标检测框y坐标的最大值。
[0051]
则上述步骤c在实际应用当中,如图4所示,获得各图像帧中的感兴趣区域,其中,图4左侧图中的虚线区域为关键目标区域,通过公式(1)、(2)、(3)和(4)计算得到的自适应roi区域,对应图4右侧图中的实线框区域。
[0052]
自适应roi区域计算策略对步骤b场景内容解析中可能产生的误差具有矫正效果。步骤b使用到的目标识别模型在获取关键目标检测框的过程中,或多或少会存在一定的漏检和误检,如果完全以单独的目标检测结果作为roi区域,则可能使得压缩区域出现偏差,导致关键目标区域数据缺损。因此综合考虑每一帧所有检测结果,计算多个关键目标区域的最小外接矩形作为roi区域,可以极大程度地矫正场景内容解析过程产生的误差。
[0053]
传统的视频编码技术如h.264/avc、h.265/hevc均采用混合编码框架,具体包括帧内预测、帧间预测、变换、量化、熵编码等模块。其中,帧内预测主要用于去除图像的空间相关性,这是因为图像空间相邻像素点之间灰度变化极小,图像存在空间冗余。帧间预测主要
用于去除图像的时间相关性,这是因为视频每秒包含多帧图像,前后帧之间对应位置或者附近位置像素点很相似,存在时间冗余。变换编码将图像从时域信号变换至频域,将能量集中在低频区域。量化模块减小图像编码的动态范围。熵编码将编码控制数据、量化变换系数、帧内预测数据以及运动数据等编码为二进制流进行存储。
[0054]
上述视频混合编码框架中唯一的有损过程即是量化。量化是指将信号的连续取值(或大量可能的离散取值)映射为有限多个离散幅值的过程,实现信号取值多对一的映射。在视频编码中,变换到频域的变换系数具有较大的动态范围,对变换系数进行量化可以有效地减小信号取值空间,取得良好的压缩效果。因此,量化参数越大,视频压缩率越高,码率越小,质量越差;相反的,量化参数越小,视频压缩率越低,码率越大,质量越好。
[0055]
在实际的视频编码中,恒定速率因子(constant rate factor,简称crf)是视频质量的一个重要编码参数,crf为了保证整体视频的主观质量感受一致,会动态地调整每一帧的压缩大小,即每一帧使用不同的量化参数。
[0056]
接下来步骤d所设计的差异化编码参数设定,是指对每帧图像中roi内部区域和roi外部区域设定不同的视频编码参数。差异化是通过设置编码参数中的crf来实现,即在编码过程中,对不同roi区域设置不同的crf值,以便保持所需视频质量水平的同时尽可能的降低视频比特率。整体而言,crf越高,视频质量越差,视频所占存储空间越小;反之crf越低,视频质量越好,视频所占存储空间越大。
[0057]
步骤d.根据图像帧中感兴趣区域对应第一crf值crf1,结合目标视频所对应的预设调节参数offset,按如下公式:
[0058]
crf2=crf1/(1 offset)
[0059]
offset=(crf
1-crf2)/crf2[0060]
获得图像帧中其余区域所对应的第二crf值crf2,然后进入步骤e。实际应用当中,这里offset的取值范围为[-1,0]。关于crf1,可参考h.264/avc、h.265/hevc开源编码器的默认参数设定,也可根据画质需要进行设置。
[0061]
步骤e.分别针对图像帧序列中的各个图像帧,按第一crf值crf1,针对图像帧中感兴趣区域进行图像编码,按第二crf值crf2,针对该图像帧中其余区域进行图像编码,更新该图像帧,进而更新各图像帧,并进行封装,获得更新后目标视频。
[0062]
实际应用当中,若offset=0时,图像中roi外部和roi内部crf值一致,当offset《0时,crf2大于crf1,图像roi外部比roi内部的压缩率更大,即roi外部比内部的画面质量更差;当offset》0时,crf2小于crf1,图像roi外部比内部的压缩率更小,roi外部比内部的画面质量更好。
[0063]
上述技术方案所设计基于深度学习的帧级自适应roi视频压缩方法,使用深度学习目标检测模型来对视频场景内容进行动态解析,并根据每一帧中关键目标位置信息动态计算roi编码区域,通过设置差异化编码参数去除roi区域外部内容冗余,同时保证roi区域内部画面质量,从而有效减小视频码流,获得较高的压缩率,大幅降低视频数据的存储要求;并且所设计技术方案适用于各类监控场景,可以是通用监控场景或关注特定对象的监控场景;同时对目标检测结果进行自适应roi计算,对目标检测模型的检测误差(漏检、误检等)具有一定的矫正能力;此外整个技术方案适配于多种视频编解码标准(如h.264/avc、h.265/hevc等),集成方便,可复用性高。
[0064]
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献