一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于感兴趣区域的视频编码方法和系统与流程

2022-07-13 14:48:18 来源:中国专利 TAG:


1.本发明涉及视频编码技术,尤其涉及根据感兴趣区域对视频编码时的码率控制。


背景技术:

2.视频编码的目的是去除视频中的冗余信息,压缩数据量,目前普遍采用“预测 变换 量化”的混合编码框架进行压缩编码。
3.预测是用已知像素的信息预测当前像素的信息,可以分为两大类:帧内预测和帧间预测。帧内预测是基于同一帧图像中各像素间的空间相关性,预测当前像素的像素值,例如利用当前编码单元邻域块的重建像素,投影预测当前块的像素值(预测值);帧间预测是基于不同帧图像之间在时域的相关性,预测当前像素的像素值,例如对当前编码块与参考图像中对应块的运动轨迹进行跟踪预估,利用时域上邻近的参考块对当前编码单元进行预测,并且通过插值计算等方式提高运动估计精度。
4.将预测值与原始视频图像的像素值逐点相减,对残差进行变化编码,经过余弦变换,将能量进一步集中在低频区域。
5.量化是唯一带来视频质量损失的过程,编码过程需要权衡qp(量化参数)的选择过程,qp越大,会损失更多高频信号,令图像变得模糊、失去纹理细节;qp越小,保留的残差系数过大,可能会超过码率的额定带宽。
6.随着超高清、高动态范围、高色域、高流畅度的视频播放需要以及良好的观看体验对编码性能与质量提出了更高需求。由于终端呈现的视频画面信息量较以往更加庞大,观众会更倾向于人眼更敏感的平坦低频区域,或者是场景中更吸引“眼球”的区域,如电视剧、舞台晚会中的人脸表情、滚动的标识字幕以及电视台台标等元素;而对于时空域尺度内变化剧烈的场景,如高速运动的物体,纹理复杂的装饰,人眼往往都会“忽略”,对图像内容的准确理解以及相应的编码技术将是编码过程中提升质量、均衡码率分配的重要环节。
7.传统的视频编码需要遍历各种编码工具的组合,例如不同尺寸大小的编码单元划分策略以及预测方法,通过比较不同组合的率失真代价函数来度量编码损失,确定最佳编码方式。这一过程是编码过程中耗时最大的环节,但并不能保证得到最佳编码质量。例如利用satd(残差经哈达玛变换后绝对值和)、sad(绝对误差和)等传统的复杂度指标来说明局部区域的重要程度,这往往会更倾向于为人眼不敏感的区域分配更多的比特数,并且耗费较多的计算资源,具有实时性差的问题。
8.鉴于现有技术的问题,本发明的目的在于提供一种基于感兴趣区域的视频编码决策的方法和系统,在为用户提供更好的观看体验的同时,降低编码所需的计算资源,提高实时性。


技术实现要素:

9.为了解决上述问题,第一技术方案为一种基于感兴趣区域的视频编码方法,包括,
10.信息读取步骤,按顺序获取视频各帧的原始图像数据和所述原始图像中感兴趣区
域的像素位置信息,所述原始图像中至少包括一个感兴趣区域;
11.下采样步骤,将原始图像下采样得到低分辨率图像;
12.初选预测步骤,将所述低分辨率图像划分成若干个宏块,对所述感兴趣区域中的宏块进行帧内预测,遍历编码标准中所支持的预测角度,计算投影重建后的帧内预测像素和所述低分辨率图像的像素的失真度satd值,得到帧间最小失真度satd
best
与对应的预测角度dir
best

13.对于i帧的所述原始图像,将所述最小失真度satd
best
与对应的预测角度dir
best
,作为当前宏块的最佳初选预测模式的结果;
14.对于p帧或b帧的所述原始图像,搜索相邻帧中与所述感兴趣区域对应区域的坐标,计算与参考帧之间所述感兴趣区域的重心位置变化对应的运动矢量,将其作为起始向量进行搜索,依次计算不同偏移量下的satd,确定最佳运动矢量预测值mv
best
与帧间预测失真度最小值satd
inter
,比较最小失真度satd
best
和所述帧间预测失真度最小值satd
inter
的大小,选取失真度小的预测结果作为当前宏块的最佳初选预测模式的结果;
15.编码步骤,在所述原始图像中设定编码单元对各个编码单元进行编码,在编码过程中,对于i帧的所述原始图像,根据所述预测角度dir
best
,构建预测参考角度集合,遍历该集合中的角度,比较各个角度对应的rdo值,获得真实编码所需的最佳预测角度dir
best

16.对于p帧或b帧的所述原始图像,根据所述初选预测步骤的选取结果,如果选取的是帧内预测,按照与所述i帧同样的方法,获得真实编码所需的最佳预测角度dir
best
;如果选取的是帧间预测,根据缩放尺度,将所述初选预测步骤得到的运动矢量进行拉伸,在同样的搜索范围内比较不同拉伸后运动矢量的率失真优化rdo值,获得真实编码所需的最佳预测运动矢量及对应的率失真优化rdo值。
17.因此,本发明在编码过程中,能够根据感兴趣区域的像素位置信息,只对感兴趣区域的宏块进行预测,根据得到的最佳预测模式的结果,在对编码单元进行编码时,计算真实编码所需的最佳预测角度dir
best
和对应的率失真优化rdo值或最佳预测运动矢量及对应的率失真优化rdo值,提高编码的实时性。并且,不需要根据感兴趣区域的不同特征选取不同的编码策略,尤其适用于同一帧图像中混合各种特征不同的感兴趣区域的视频编码,为用户提供更好的观看体验的同时,提高了整体效率。
18.优选,所述编码步骤中,为所述原始图像分配一个基准量化参数qp
base
,统计所述原始图像中各个不同感兴趣区域的失真度satd值之和,按照感兴趣区域与所述原始图像的面积比例,为所述感兴趣区域分配一个“局部目标码率”,将satd值之和作为码率控制算法的输入,根据“局部目标码率”,为各个所述感兴趣区域分配一个量化参数qp,其中,clip3(x,min,max)是将x限制在(min,max)之间。
19.由于感兴趣区域相对于整个视频图像的尺寸较小,为感兴趣区域内的编码单元分配比特数时,相对于当前图像的量化参数qp进行一定程度的偏移量,即,码率资源向感兴趣区域做适度倾斜,提高了码率的有效利用,使感兴趣区域的码率分配更加合理。
20.优选,所述原始图像包括y、u、v三个通道的数据,所述下采样步骤中,将原始图像中y分量的数据进行下采样得到低分辨率图像。
21.由于只对y分量的数据进行下采样得到低分辨率图像,节省了计算时间以及运算量。
22.优选,下采样步骤中,将距离所述低分辨率图像边缘最近的像素依次复制后,添加在所述低分辨率图像的四周向外扩展像素。
23.由于将距离所述低分辨率图像边缘最近的像素依次复制后,添加在所述低分辨率图像的四周向外扩展像素,使搜索区域可以包含低分辨率图像的边界。
24.优选,所述编码步骤中,对于i帧的所述原始图像,所述编码单元划分至最小尺寸,对于各个不同划分层次的宏块构建预测参考角度集合,遍历该集合中的角度,比较各个角度对应的rdo值,获得各层的真实编码过程的最佳预测角度。
25.由于i帧为p帧和b帧编码时的参考帧,将编码单元划分至最小尺寸,能够保留图像的细节信息,提高整体视频序列的编码质量。
26.优选,所述感兴趣区域为人脸区域,所述编码步骤中,对于p帧或b帧的所述原始图像,当前编码单元中包含人脸区域时,判断编码单元是否包含人脸区域和背景的边缘或者五官,如果包含,将编码单元划分至最小尺寸;如果不包含,则下划一层,在划分后各子单元的率失真优化rdo值累加和比不划分时的最佳预测方式对应的率失真度rdo值小时,将编码单元下划一层。
27.因此,能够保留人脸区域和背景的边缘或者五官部分的高频细节信息,在提高视频观感体验的同时,使码率的利用更合理。
28.优选,所述感兴趣区域为字幕区域,所述编码步骤中,对于p帧或b帧的原始图像,当前编码单元中包含字幕区域时,判断编码单元是否包含字幕和背景区域的交界位置,如果包含,将编码单元划分至最小尺寸;如果不包含,则不划分编码单元。
29.由于字幕的移动通常为水平或者竖直移动的刚性移动,可以节省粗选过程的计算时间。提高编码的实时性。
30.优选,所述感兴趣区域为固定标识区域,所述编码步骤中,对于p帧或b帧的所述原始图像,当前编码单元中包含固定标识时,判断编码单元是否包含固定标识的边缘,如果包含,将编码单元划分至最小尺寸;如果不包含,则不划分编码单元。
31.由于电视台台标等固定标识通常固定在视频画面的固定位置,在提高视频观感体验的同时,可以节省粗选过程的计算时间。提高编码的实时性。
32.第二技术方案为一种基于感兴趣区域的视频编码系统,包括,
33.信息读取模块100,按顺序获取视频各帧的原始图像数据和所述原始图像中感兴趣区域的像素位置信息,所述原始图像中至少包括一个感兴趣区域;
34.下采样模块200,将原始图像下采样得到低分辨率图像;
35.初选预测模块300,将所述低分辨率图像划分成若干个宏块,对所述感兴趣区域中的宏块进行帧内预测,遍历编码标准中所支持的预测角度,计算投影重建后的帧内预测像素和所述低分辨率图像的像素的失真度satd值,得到帧间最小失真度satd
best
与对应的预测角度dir
best

36.对于i帧的所述原始图像,将所述最小失真度satd
best
与对应的预测角度dir
best
,作为当前宏块的最佳初选预测模式的结果;
37.对于p帧或b帧的所述原始图像,搜索相邻帧中与所述感兴趣区域对应区域的坐
标,计算与参考帧之间所述感兴趣区域的重心位置变化对应的运动矢量,将其作为起始向量进行搜索,依次计算不同偏移量下的satd,确定最佳运动矢量预测值mv
best
与帧间预测失真度最小值satd
inter
,比较最小失真度satd
best
和所述帧间预测失真度最小值satd
inter
的大小,选取失真度小的预测结果作为当前宏块的最佳初选预测模式的结果;
38.编码模块400,在所述原始图像中设定编码单元对各个编码单元进行编码,在编码过程中,对于i帧的所述原始图像,根据所述预测角度dir
best
,构建预测参考角度集合,遍历该集合中的角度,比较各个角度对应的rdo值,获得真实编码所需的最佳预测角度dir
best

39.对于p帧或b帧的所述原始图像,根据所述初选预测步骤的选取结果,如果选取的是帧内预测,按照与所述i帧同样的方法,获得真实编码所需的最佳预测角度dir
best
;如果选取的是帧间预测,根据缩放尺度,将所述初选预测步骤得到的运动矢量进行拉伸,在同样的搜索范围内比较不同拉伸后运动矢量的率失真优化rdo值,获得真实编码所需的最佳预测运动矢量及对应的率失真优化rdo值。
40.具有与第一技术方案相同的技术效果。
41.优选,所述编码模块400为所述原始图像分配一个基准量化参数qp
base
,统计所述原始图像中各个不同感兴趣区域的失真度satd值之和,按照感兴趣区域与所述原始图像的面积比例,为所述感兴趣区域分配一个“局部目标码率”,将satd值之和作为码率控制算法的输入,根据“局部目标码率”,为各个所述感兴趣区域分配一个量化参数qp,其中,clip3(x,min,max)是将x限制在(min,max)之间。
42.具有与第一技术方案相同的技术效果。
附图说明
43.图1为基于感兴趣区域的视频编码系统的实施例说明图;
44.图2为对原始图像进行下采样的说明图;
45.图3为将低分辨率图像划分宏块的说明图;
46.图4为感兴趣区域为人脸区域时设定最佳预测方式的流程图;
47.图5感兴趣区域为字幕区域时设定最佳预测方式的流程图;
48.图6感兴趣区域为台标区域时设定最佳预测方式的流程图。
具体实施方式
49.下面结合附图对本发明的较佳实施例进行详细阐述,参考标号是指本发明中的组件、技术,以便本发明的优点和特征在适合的环境下实现能更易于被理解。下面的描述是对本发明权利要求的具体化,并且与权利要求相关的其它没有明确说明的具体实现也属于权利要求的范围。
50.首先,对基于感兴趣区域的视频编码决策进行说明。
51.第一步骤,将视频的各帧原始图像经1/s倍下采样得到低分辨率图像,例如对原始图像的y分量进行下采样,以节省计算时间。
52.第二步骤,将低分辨率图像的边缘向外扩展s个像素,得到扩展低分辨率图像。通
过扩展像素,搜索时能够搜索到低分辨率图像的边界,提高搜索范围。
53.第三步骤,将扩展低分辨率图像中的低分辨率图像部分划分成若干个宏块。
54.各帧原始图像另外通过神经网络等系统将人脸、字幕、台标等作为感兴趣区域识别出来,得到感兴趣区域的各个像素位置信息。作为感兴趣区域,人脸、字幕、台标的纹理特征以及运动特征各不同相同。
55.第四步骤,对位于感兴趣区域的宏块进行帧内预测,得到最佳粗预选的结果。该最佳粗预选的结果用于编码时计算编码单元率失真优化rdo值以及对应的真实编码过程中的最佳预测角度和最佳运动矢量。
56.第五步骤,将原始图像划分为多个编码单元,例如划分成多个64x64像素的编码单元,进行编码。在编码过程中如果是i帧的原始图像,按最小尺寸划分编码单元,例如8x8像素,以保留图像的细节信息,提高整体视频序列的编码质量。
57.如果p帧或b帧的原始图像,当编码单元属于人脸区域时,判断是否属于p帧或b帧人脸的边缘区域以及五官,包含时,将编码单元再划分到最小尺寸,例如8x8像素。不包含时,则编码单元包含的是人脸的平坦部分,这一部分的高频细节较少,将编码单元只下划一层,如果最大编码单元为64x64像素时,编码单元划分成4个32x32像素的子单元。
58.对于包含字幕区域的编码单元,判断编码单元是否位于字幕与背景区域的交界位置,如果是,则将编码单元划分至最小尺寸8x8像素,以保证边缘区域的清晰度。如果不是,由于字幕在图像中的运动都是规则的竖直或者水平方向的移动,属于刚性运动,不会造成太大的形变,不再进行编码单元的划分。
59.第六步骤,根据初选预测时的最佳粗预选的结果计算编码单元率失真优化rdo值以及对应的真实编码过程中的最佳预测角度和最佳运动矢量。
60.如果初选预测时当前编码单元决策的方式是帧内预测,则按照初选预测中对于i帧图像的预测方向决策过程进行决策,计算最佳率失真优化rdo值;如果是帧间预测,则首先对粗选已经得到的运动矢量进行拉伸,例如在搜索范围为8x4的矩形框进行运动估计,最后确定最佳预测运动矢量和对应的率失真优化rdo值。
61.如果当前视频是p帧或b帧,并且编码单元属于台标区域,同样地,对于边缘位置的编码单元,将其划分至最小尺寸8x8像素;如果不是,则不进行编码单元的划分。对于编码模式的决策,同样地,如果初选预测的最佳预测模式是帧内预测,则使用粗选时的方法,例如构建参考角度集合,遍历后确定最佳投影角度。如果初选预测得到的是帧间预测,则将初选预测时的运动矢量经过拉伸后直接作为当前编码单元的预测矢量,通过比较是否保留残差的率失真优化rdo值,来确定编码方式。
62.第七步骤,在编码时,为原始图像分配一个基准量化参数qp
base
,统计所述原始图像中各个不同感兴趣区域的失真度satd值之和,按照感兴趣区域与原始图像的面积比例,为感兴趣区域分配一个“局部目标码率”,将satd值之和作为码率控制算法的输入,根据“局部目标码率”,为各个感兴趣区域分配一个量化参数qp,其中,clip3(x,min,max)是将x限制在(min,max)之间。
63.由于感兴趣区域(roi)区域相对于视频图像的尺寸较小,为这些区域内的编码单元分配比特数时,采取在当前图像的基准qp上进行一定程度的偏移量的策略,可使码率资
源向感兴趣区域适度倾斜。在不显著增加码率的基础上,进一步提高了整个视频的观看体验。
64.在为感兴趣区域分配偏移量时,需要限制偏移量范围,避免出现极大或者极小值,按照不同编标中压缩率翻倍后对应于量化参数的变化,将偏移量范围定为-3~3。
65.下采样可以根据需要设定例如,按照图像的长宽两个方向上,按照1/2、1/4甚至1/8的比例进行下采样处理。
66.采样比例为1/16时,即,将每帧图像的竖直与水平方向各自进行下采样至原始尺寸的1/4,得到的第一图像是原始分辨率的1/16。本发明采用高斯滤波函数进行下采样,得到低分辨率图像。
67.本发明中,初选预测是在低分辨率图像上进行,可以提高粗选预测的速度,节省时间。
68.在进行粗选预测前,将低分辨率图像上下左右依次向外扩展16个像素值,即将距离图像边缘最近的像素依次复制16次后得到扩展后的低分辨率图像。可以支持预测过程引用下采样图像以外的数据,兼容初选预测速度和初选预测过程的准确性。
69.同时,配合低分辨率图像,将感兴趣区域的坐标进行相应的缩放,即,保证在低分辨率图像中感兴趣区域的各像素位置不发生变化。
70.图1为基于感兴趣区域的视频编码系统的实施例说明图。如图2所示,本实施方式中包括,感兴趣区域识别装置90、信息读取模块100、下采样模块200、初选预测模块300、编码模块400。
71.感兴趣区域识别装置90检测视频图像中的感兴趣区域,获得各帧图像中的感兴趣区域各像素的位置信息。本实施方式中,感兴趣区域识别装置90包括人脸识别模块91、字幕识别模块92、台标识别模块93,各个模块识别出的人脸像素位置、字幕像素位置、台标像素位置信息分别由信息读取模块100与视频图像一起读取。即,信息读取模块100按顺序逐帧读取原始图像信息以及识别出的感兴趣区域的像素位置信息。
72.下采样模块200,将原始图像下采样得到低分辨率图像。本实施方式中,原始图像包括y、u、v三个通道的数据,下采样模块200将原始图像中y分量的数据进行下采样得到低分辨率图像后,将距离低分辨率图像边缘最近的像素依次复制后,添加在所述低分辨率图像的四周向外扩展像素得到扩展低分辨率图像。
73.图2为由原始图像、低分辨率图像以及扩展低分辨率图像的生成过程说明图。随着图像的下采样,感兴趣区域的像素位置也做相应的调整,保证感兴趣区域在原始图像中的位置与在低分辨率图像中的位置一致。其中人脸21、字幕22、台标23分别作为感兴趣区域被感兴趣区域识别装置90识别出。
74.初选预测模块300,将低分辨率图像划分成若干个8x8像素的宏块(参见图3宏块11),对感兴趣区域中的宏块进行帧内预测,遍历编码标准中所支持的预测角度,计算投影重建后的帧内预测像素和低分辨率图像的像素的失真度satd值,得到帧间最小失真度satd
best
与对应的预测角度dir
best
,即,通过遍历预测角度,获得最佳预测方向和失真度(图4至6中步骤s10、s11、s20、s21、s30、s31)。
75.判断当前帧是否是p帧或b帧(参见图4至6中步骤s12、s22、s32),如果不是p帧或b帧,则图像为i帧的原始图像,最佳预测方式为帧内预测(图4至6中步骤13、23、33),通过待
遍历所有可能的预测角度之后确定最小的失真度satd
best
与对应预测角度dir
best
,将最小失真度satd
best
与对应的预测角度dir
best
,作为当前宏块的最佳初选预测模式的结果。
76.如果是p帧或b帧,此时宏块可以进行帧内预测和帧间预测。当前宏块属于人脸区域时,由于人在视频场景中的运动状态并不固定,则当前宏块的最佳粗选预测模式存在帧内预测与帧间预测两种可能,判断各自的最佳预测方法。
77.首先是帧间预测,根据p帧或b帧的人脸区域位置,搜索相邻帧中对应人脸区域的坐标轴,计算这两帧人脸矩形框重心位置变化对应的运动矢量(图4中步骤s14),将其作为起始向量,基于传统的运动估计算法开始运动估计(图4中步骤s15),在一个固定大小为16x8像素的矩形框内进行搜索(s16),依次比较不同运动矢量偏移量下的satd值,确定最佳运动矢量预测值mv
best
与帧间预测失真度最小值satd
inter

78.然后是帧内预测,与i帧中的预测方式相同,待遍历所有可能的预测角度之后确定最小失真度satd
intra
与对应的预测角度dir
intra
后,比较satd
intra
与satd
inter
的大小(图4中步骤s18),选择失真度较小的预测方式作为当前宏块的最优粗选预测模式。
79.如果当前宏块属于字幕区域,按照关于字幕的先验知识,可以预先判断字幕都是符合水平或者竖直移动的刚性运动。此时
80.对于i帧的图像采用与人脸区域相同的预测流程,即遍历所有预测角度,选择帧间最小失真度satd
best
与对应的预测角度dir
best
,作为当前宏块的最佳初选预测模式的结果(图5步骤s23)。
81.对于p帧或b帧的图像,首先判断是否与i帧最近的帧,与i帧最近的帧时,采用与前面人脸区域相同的方法,计算i帧与p帧或b帧中字幕区域的重心运动矢量(图5步骤s26),并将它作为当前宏块的起始运动矢量,选择一个较小的搜索范围8x4像素(图5步骤s27),开始运动估(图5步骤s28)得到并记录最佳运动矢量预测值mv
best
与帧间预测失真度最小值satd
inter
(图5步骤s29)。此时考虑到不同宏块之间的最佳运动矢量因为像素噪点等因素会存在差异,需要当前帧中字幕宏块的mv
best
求平均后再进行存储。
82.如果当前帧不是离i帧最近,则将前面已经计算得到的最佳运动矢量预测值mv
best
作为基础向量,按照距离进行拉伸获取对应的最佳预测向量(图5步骤s25),从而可以节省其粗选过程的计算时间。
83.当前宏块属于台标区域时,则可进一步简化粗选过程。台标一般都是固定在视频画面中的固定位置,可以认为在较长时间的视频序列内它的位置都是保持不变的,此时对i帧还是采用上述人脸和字幕相同的预测方式,得到帧间最小失真度satd
best
与对应的预测角度dir
best

84.对于p帧或b帧,由于台标位置固定,将运动估计的起始失量直接设置为(0,0)(图6步骤s34),然后设定一个2x2像素的搜索范围(图6步骤s35),在一个更小的搜索范围内开始运动估计((图6步骤s36)),最后确定确定最佳运动矢量预测值mv
best
与帧间预测失真度最小值satd
inter
(图6步骤s37)。
85.编码模块400,对各个编码单元进行编码,本实施方式中采用hevc、avs2标准进行编码。
86.在编码过程中,如下设定参数。
87.对于i帧的原始图像,根据预测角度dir
best
,构建预测参考角度集合,遍历该集合
中的角度,比较各个角度对应的率失真优化rdo值,获得真实编码所需的最佳预测角度dir
best

88.对于p帧或b帧的原始图像,根据初选预测步骤的选取结果,如果选取的是帧内预测,按照与i帧同样的方法,获得真实编码所需的最佳预测角度dir
best
;如果选取的是帧间预测,根据缩放尺度,将初选预测步骤得到的运动矢量进行拉伸,在同样的搜索范围内比较不同拉伸后运动矢量的率失真优化rdo值,获得真实编码所需的最佳预测运动矢量及对应的率失真优化rdo值。
89.在编码过程中,编码模块(400)为原始图像分配一个基准量化参数qp
base
,统计原始图像中各个不同感兴趣区域的失真度satd值之和,按照感兴趣区域与原始图像的面积比例,为感兴趣区域分配一个“局部目标码率”,将satd值之和作为码率控制算法的输入,根据“局部目标码率”,为各个感兴趣区域分配一个量化参数qp,其中,clip3(x,min,max)是将x限制在(min,max)之间。
90.本发明中,对视频帧进行下采样做粗选预测,可以提高粗选预测的速度;在针对感兴趣区域为人脸时,只对人脸的边缘以及五官所在的区域进行更小的划分,从而减小了编码过程中的计算量,保证系统的实时性;通过对码率的微调,使感兴趣区域的码率分配更加合理。
91.应该注意的是,上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献