一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于抽象特征的固定场景视频超限压缩与解码方法

2022-05-31 23:54:38 来源:中国专利 TAG:


1.本发明涉及计算机视觉的深度学习技术领域,具体为一种基于抽象特征的固定场景视频超限压缩与解码方法。


背景技术:

2.常见的对于视频数据的压缩编码主要是基于纹理、边缘、图像块的移动等底层特征来去除冗余信息,并未充分考虑视频内容所包含的高层抽象特征。深度学习在计算机视觉领域的蓬勃发展为图像和视频的高层抽象理解带来了技术可行性。深度卷积神经网络在大数据和高性能并行计算的支撑下,对图像和视频等高层特征提取带来了革命性的变革。不同于传统基于手工设计的图像特征提取方式,卷积神经网络可以自动在大数据中提取表达能力更强的高层特征。这些高层特征在图像理解和视频结构化中起到了至关重要的作用。借助于深度卷积神经网络模型的高层特征提取能力,在普遍可获取的视频大数据基础上,提取视频中表达性更强的高层抽象特征信息,去除视频中大量存在的抽象冗余,将可以大幅度提升视频压缩性能,减少存储空间和传输带宽,为视频更好的持久化存储和传输带来新的思路。
3.因此,如何提供一种通过从视频中提取高层抽象特征信息,以提高压缩比的的视频压缩方法是本领域技术人员亟需解决的问题。


技术实现要素:

4.(一)解决的技术问题
5.针对现有技术的不足,本发明提供了一种基于抽象特征的固定场景视频超限压缩与解码方法,通过从视频中提取高层抽象特征信息进行存储,大幅减少了存储空间,以解决上述的技术问题。
6.(二)技术方案
7.为实现上述的目的,本发明提供如下技术方案:一种基于抽象特征的固定场景视频超限压缩与解码方法,其中包含了编码器与解码器。本方法包括以下步骤:
8.1.视频压缩。
9.将原视频拆解为图像帧,送入编码器进行处理。编码器包含两个模块:背景建模与前景目标提取。
10.背景建模模块使用基于混合高斯模型的背景建模算法,对每一帧视频进行前景减除,得到背景图像。所有视频帧处理完后,将多帧背景图像求并集得到单张背景图像,然后进行离散余弦变换,量化与熵编码,得到视频背景压缩数据。
11.前景目标提取模块由基于卷积神经网络的实例分割模型与关键点检测模型组成,对图像帧进行物体实例分割与关键点检测,获得前景目标抽象特征。所述前景目标抽象特征包含前景目标的形状特征和关键点特征。
12.处理完全部视频帧后,使用基于目标检测框iou阈值的方法进行帧间目标匹配,得
到帧间前景目标的对应关系,然后对每一个前景目标提取快照。提取快照的算法步骤为:对每一个前景目标的多帧形状特征,只保留实例分割模型输出的置信度最高的一帧形状特征,利用该形状特征从原视频帧中抠出该前景目标的图像,便得到了该前景目标的快照,将快照进行离散余弦变换,量化与熵编码,得到前景目标快照压缩数据。提取快照的目的是保存该前景目标的细节特征,例如颜色纹理等。
13.最后将前景目标抽象特征、快照压缩数据与背景压缩数据进行压缩打包,得到视频压缩数据。视频压缩完成。
14.在编码器中,背景建模模块将原视频的背景编码为单张压缩图像,从而实现背景冗余信息的去除;前景目标提取模块通过提取前景目标抽象特征与快照,对原视频中每个前景目标只保存多帧抽象特征与单帧快照压缩数据,从而实现前景冗余信息的去除。相比传统视频压缩编码,本发明的编码方式大大减少了需要保存的数据容量,从而实现了超限压缩。
15.2.视频预解码
16.当用户需要观看视频时,首先进行视频预解码。将编码器最后压缩打包的视频压缩数据解压,恢复出前景目标抽象特征、前景目标快照与视频背景图像。
17.3.视频解码。
18.本发明的解码器由基于生成对抗网络架构的卷积神经网络模型组成,其中包含了生成器与判别器。生成器的输入为前景目标快照与前景目标抽象特征,输出为前景目标解码图像;判别器负责在生成器训练时辅助生成器提高生成图像的质量,输入为生成器生成的前景目标解码图像与真实视频帧中的前景目标图像,输出为介于0到1的数值,代表判别器判断输入图像可能是生成图像(0)或者真实图像(1)。
19.(1)解码器训练过程
20.训练过程的目标函数为:l=l
gan
l
l1
l
vgg
21.其中:
[0022][0023]
为生成对抗损失,is与i
t
分别为前景目标快照与需要生成的真实前景目标图像,rs与r
t
为根据is图像与i
t
图像的关键点生成的响应图,以便输入到生成器中。为生成器生成的前景目标解码图像,z 为随机噪声。
[0024]
其中:
[0025][0026]
为l1损失,计算生成器生成图像与真实图像的最小绝对误差。
[0027]
其中:
[0028][0029]
为感知损失,通过将生成器生成的前景目标解码图像与真实前景目标图像输入到公开的vgg预训练网络模型,计算两者在深层特征图的最小平方差。
[0030]
训练结束后,解码器只需保留生成器。
[0031]
(2)解码器解码过程
[0032]
读取每个前景目标的多帧抽象特征与快照,送入解码器中的生成器。生成器模型从多帧抽象特征获取目标的姿态、骨架等信息,从快照中获取目标的颜色、纹理等信息,将以上信息融合处理,生成前景目标解码图像。
[0033]
读取视频背景图像,将所有生成的前景目标解码图像与背景图像融合,得到重建视频帧。将所有重建视频帧合并重构,得到解码视频。
[0034]
(三)有益效果
[0035]
与现有技术相比,本发明提供了一种基于抽象特征的固定场景视频超限压缩与解码方法,具备以下有益效果:该基于抽象特征的固定场景视频超限压缩与解码方法,针对固定场景视频具有很高的压缩比,极大节约了存储空间资源。实验证明,针对不同长度、出现目标数量不同的固定场景视频,本方法存储的压缩数据容量仅为使用h264编码视频的1/40至1/3,实现了超越传统视频压缩编码的高压缩比。本发明可以应用于各类智能监控系统,显著延长监控视频的存储时长,并且在压缩过程中提取的目标抽象特征,可以用于异常行为检测、交通流量监测等。
附图说明
[0036]
图1为本发明提出的基于抽象特征的固定场景视频超限压缩与解码方法框架图。
具体实施方式
[0037]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038]
本发明提出的固定场景视频超限压缩与解码方法的整体结构如图1所示,主要由两部分组成,编码器与解码器。压缩时,将原视频输入视频编码器后得到视频压缩数据;解码时首先将视频压缩数据进行预解码,然后输入解码器后生成解码视频。
[0039]
1.视频压缩步骤
[0040]
步骤1)卷积神经网络初始化,将实例分割模型,关键点检测模型加载到gpu中。
[0041]
步骤2)混合高斯背景模型初始化。
[0042]
步骤3)读取原视频的第i帧。
[0043]
步骤4)将视频帧输入到混合高斯背景模型中,进行匹配与模型权值更新,得到高斯背景建模结果bgi。
[0044]
步骤5)使用实例分割模型对当前视频帧进行实例分割,得到m个前景目标的实例分割结果si={boxj,maskj|j=1,2,

,m};其中boxj为视频帧中第j个前景目标的矩形检测框(x_min,y_min,x_max,y_max),maskj为视频帧中第j个前景目标的掩膜,掩膜是一个长宽与视频帧相等的二值图像,对应目标出现的区域为1,其他区域为0。后续步骤中,前景目标检测框等同于本步骤中的boxj,前景目标的形状特征等同于本步骤中的m askj,前景目标时空信息等同于当前帧序号i加上本步骤中的boxj(i,x _min,y_min,x_max,y_max)。
[0045]
步骤6)使用关键点检测模型对每个检出的前景目标进行关键点检测,得到前景目标的关键点坐标(x0,y0,x1,y1...)。
[0046]
步骤7)重复执行步骤3至步骤6,直至处理完所有视频帧。
[0047]
步骤8)读取步骤5)中实例分割模型检出的前景目标时空信息(i,x_min,y_min,x_max,y_max)。使用基于目标检测框iou阈值的方法进行帧间前景目标匹配,得到多个匹配列表,每个列表中包含每个前景目标的多帧时空信息,按照时间顺序排列。例如视频中出现了p个目标,这p个目标分别出现了q1,q2…qp
帧,则得到p个长度分别为为q1,q2…qp
的匹配列表,列表中每一项为该目标的在不同帧中的时空信息。
[0048]
步骤9)对于每一个前景目标取快照,步骤为:根据步骤8)中每一个匹配列表的前景目标时空信息,读取每一个前景目标的多帧形状特征,然后只保留实例分割模型输出的置信度最高的一帧形状特征,使用该形状特征从原视频帧中抠出该前景目标的图像,便得到了该前景目标的快照。将快照进行离散余弦变换,量化与熵编码,得到前景目标快照压缩数据,使用该快照的时空信息作为文件名(is,x_mins,y_mins,x_maxs,y_maxs.jpg) 进行保存。
[0049]
步骤10)将每个前景目标的快照文件名(is,x_mins,y_mins,x_maxs,y_ maxs.jpg)与多帧时空信息(i,x_min,y_min,x_max,y_max)、多帧关键点坐标(x0,y0,x1,y1...)合并,写入csv文件保存,为前景目标抽象特征文件。至此,对于每个前景目标,只保留了单帧快照 多帧目标抽象特征。
[0050]
步骤11)将从步骤4)得到的每一帧的背景图像序列{bgi|i= 1,2,

,n}求并集bg={bg
1 u bg
2 u bg
3 ··· u bgn},得到完整的视频背景图像,然后进行离散余弦变换,量化与熵编码,得到视频背景压缩数据。
[0051]
步骤12)将步骤9)得到的前景目标快照压缩数据,步骤10)得到的前景目标抽象特征文件以及步骤11)的得到的视频背景压缩数据作为整体进行压缩打包,得到视频压缩数据。
[0052]
2.视频解码步骤
[0053]
步骤1)预解码,将视频压缩数据解压,恢复出前景目标抽象特征,前景目标快照与视频背景图像。
[0054]
步骤2)卷积神经网络初始化,将训练好的生成器网络模型加载到gpu 中。
[0055]
步骤3)读取前景目标抽象特征文件,获取前景目标快照文件名和与其对应的多帧抽象特征。
[0056]
步骤4)将前景目标快照、前景目标快照的抽象特征和待生成前景目标解码图像的抽象特征输入到生成器模型中,生成前景目标解码图像。
[0057]
步骤5)重复执行步骤3至步骤4,直到前景目标抽象特征文件读取完毕,所有前景目标全部解码完成。
[0058]
步骤6)读取视频背景图像。
[0059]
步骤7)将每一帧的前景目标解码图像与视频背景图像融合,生成重建视频帧,直到视频所有帧均完成重建,将所有重建视频帧合并,得到解码视频。
[0060]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0061]
尽管已经示出和描述了本发明的实施例,对于本领域普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献