视频编解码的具有不同色度格式的结合帧内帧间预测的方法和装置与流程

2022-07-11 02:33:03 来源：中国专利 TAG：

视频编解码的具有不同色度格式的结合帧内帧间预测的方法和装置
1.交叉引用
2.本发明要求于2019年9月29日提交的序号为62/907,699的美国临时专利申请的优先权。所述美国临时专利申请在此通过引用将其全文并入。
技术领域
3.本发明涉及使用ciip(combined inter/intra prediction，帧间/帧内联合预测)的视频编解码的预测。特别地，本发明公开了针对小尺寸块提高处理吞吐量的技术。

背景技术：

4.高效视频编码(hevc)是由视频编码联合协作团队(jct-vc)开发的新的国际视频编码标准。hevc基于混合的基于块的运动补偿类dct变换编码架构。压缩的基本单位称为编码单位(cu)，是2nx2n的正方形块，每个cu可以递归拆分为四个较小的cu，直到达到预定义的最小大小。每个cu包含一个或多个预测单元(pu)。
5.为了在hevc中实现混合编解码架构的最佳编码效率，每个pu有两种预测模式(即帧内预测和帧间预测)。对于帧内预测模式，空间相邻的重构像素可用于生成方向预测。
6.在开发hevc标准之后，在itu-t sg 16wp 3和iso/iec jtc 1/sc 29/wg 11的联合视频探索小组(jvet)的指导下，正在开发另一种合并的视频编码标准，称为通用视频编码(vvc)。对vvc评估了各种新的编解码工具以及一些现有的编解码工具。
7.在vtm(vvc测试模型)软件中，当cu在合并模式下编码时，并且如果cu包含至少64个亮度采样(即cu宽度xcu高度等于或大于64)，则附加标志(ciip标志)以cu级别发出信号，以指示是否将组合帧间/帧内预测(ciip)模式应用于当前cu。为了形成ciip预测，首先从两个附加语法元素获取或隐式分配帧内预测模式。例如，将平面模式隐式地指定为帧内预测模式。再例如，可以使用多达四个可能的帧内预测模式：dc，平面，水平或垂直。然后，使用常规帧内和帧间解码过程导出帧间预测(现有的预测假设)和帧内预测信号(其他预测假设)。最后，对帧间和帧内预测信号进行加权平均以获得ciip预测。可以在jvet-l0100中找到该算法的更详细说明(m.-s.chiang,et al.,“ce10.1.1:multi-hypothesis prediction for improving amvp mode,skip or merge mode,and intra mode,”itu-t sg16wp 3and iso/iec jtc 1/sc 29/wg 11,12th meeting:macao,cn,oct.2018,document:jvet-l0100)。
8.三角预测
9.对于vtm，在jvet-l0124中(r.-l.liao,et al.,“ce10.3.1.b:triangular prediction unit mode,”itu-t sg 16wp 3and iso/iec jtc1/sc 29/wg 11,12th meeting:macao,cn,oct.2018,document:jvet-l0124)和jvet-l0208(t.poirier,et al.,“ce10 related:multiple prediction unit shapes,”itu-t sg 16wp 3and iso/iec jtc 1/sc29/wg 11,12th meeting:macao,cn,oct.2018,document:jvet-l0208)中，提出了三角预测单元模式(tpm)的方案。概念是引入用于运动补偿预测的新三角形分区。如图1所示，将
cu沿对角线或对角线反方向分为两个三角形预测单元pu1与pu2，每个cu中的三角形预测单元使用其自己的单预测运动矢量和参考帧进行帧间预测。在预测三角形预测单元之后，对角线边缘执行自适应加权处理。然后，将变换和量化过程应用于整个cu。注意，该模式仅应用于跳过和合并模式。用信号通知一个附加标志以指示是否应用了tpm。
10.自适应加权处理
11.在预测每个三角形预测单元之后，将自适应加权处理应用于两个三角形预测单元之间的对角边缘，以得出整个cu的最终预测。列出了两个加权因子组，如下所示：
12..第一加权因子组：{7/8、6/8、4/8、2/8、1/8}和{7/8、4/8、1/8}分别用于亮度和色度样本；
13..第二加权因子组：使用{7/8、6/8、5/8、4/8、3/8、2/8、1/8}和{6/8、4/8、2/8}分别用于亮度和色度样本。
14.基于两个三角形预测单元的运动矢量的比较，选择一个加权因子组。当两个三角形预测单元的参考图片彼此不同或者它们的运动矢量差大于16个像素时，使用第二加权因子组。否则，将使用第一个加权因子组。在图2中示出了一个示例，其中示出了针对亮度块的加权因子210，并且示出了针对色度块的加权因子220。可以在jvet-l0124和jvet-l0208中找到对该算法的更详细说明。
15.几何合并模式(geo)
16.jvet-p0068(h.gao,et al.,“ce4:ce4-1.1,ce4-1.2and ce4-1.14:geometric merge mode(geo)”,itu-t sg 16wp 3and iso/iec jtc1/sc 29/wg 11,16th meeting:geneva,ch,1
–
11october 2019,document:p0068)提出了几何合并模式(也称为几何划分模式，geometric partitioning mode，gpm)，使用了与tpm相同的预测因子混合概念并扩展了混合多达32种角度和5种距离偏移的140种不同模式。
17.在p0068中，将140种模式定义为ce4-1.1。为了进一步降低复杂性，在ce4-1.2中，以108种模式和80模式测试了geo。在ce4-1.14中，测试了类似tpm的简化运动存储。
18.图3a示出了在vtm-6.0中用于tpm的分区形状(311-312)，图3b示出了为非矩形帧间块提出的附加形状(313-319)。
19.与tpm相似，对于不小于8
×
8的单预测块允许针对帧间预测提出的geo分区，以便在解码器侧具有与双预测块相同的储存带宽使用率。用于geo分区的运动矢量预测与tpm对齐。同样，两个预测之间的tpm混合应用于内部边界。
20.几何合并模式的分割边界由角度和距离偏移描述，如图4所示。角度表示0到360度之间的量化角度，距离偏移表示最大距离的量化偏移。另外，排除与二叉树分割和tpm分割重迭的分割方向。
21.geo角度和距离量化
22.角度用固定步长在0到360度之间量化。在ce4-1.1、具有108种模式的ce4-1.2、和ce4-1.14中，以步长11.25度从0到360度之间量化角度这导致总共32个角度，如图5a所示。
23.在具有80个模式的ce4-1.2中，角度仍以11.25度的步长进行量化；但是，由于在自然值中，目标对象和运动大多是水平的，因此去除了接近垂直方向的角度(例如，接近水
平分割边界)。图5b示出了具有24个值的减少的角度。从最大可能距离以固定步长量化距离的值可以通过等式(1)在几何上得出，其中w或h等于8并用log2缩放的短边长度进行缩放。对于等于0度的情况，等于w/2，对于等于90度的情况，等于h/2。向后移的“1.0”样本是为了避免分割边界太靠近拐角。
[0024][0025]
在ce4-1.1和ce4-1.14中，距离用5步量化。结合32个角度，共有140种分割模式，其中不包括二叉树和tpm分割。在ce4-1.2-中，距离用4步量化。结合32个角度，总共有108种分割模式，其中不包括二叉树和tpm分割。在ce4-1.2中，距离用4步量化。结合24个角度，一共有80种分割模式，不包括二叉树和tpm分割。
[0026]
模式信令
[0027]
根据建议的方法，geo模式与tpm模式一起作为附加的合并模式发送信号，如表1所示。
[0028]
表1所提出的语法元素
[0029][0030]
merge_geo_flag[][]用4个cabac上下文模型发信号，其中前三个是根据上方和左侧相邻块的模式得出的，第四个是根据当前块的纵横比得出的。merge_geo_flag[][]指示当前块是使用geo模式还是tpm模式，类似于“most probable mode”标志。
[0031]
geo_partition_idx[][]用作查找表的索引，该表存储角度和距离对。geo_partition_idx使用截断的二进制编码，并使用旁路进行二进制化。

技术实现要素：

[0032]
公开了一种用于视频编解码的方法和设备。根据该方法，在编码器侧接收当前块，或者在解码器侧接收包括当前块的压缩数据，其中，当前块包括一个亮度块和一个或多个色度块，该当前块是通过分割而生成的。使用单个分区树将图像区域划分为一个或多个包
括当前块的分区块，并且为当前块允许一个或多个包括多假设预测模式的编解码工具。单个分区树是用于亮度和色度的单个树。确定当前块的目标编解码模式。然后，根据目标编解码模式对当前块进行编码或解码，其中，如果目标编解码模式对应于多假设预测模式，并且目标的宽度，高度或面积小于阈值，则禁用针对所述一个或多个色度块的预测的附加假设。
[0033]
在一个实施例中，如果所述一个或多个色度块的宽度小于阈值并且阈值等于4，则禁用针对所述一个或多个色度块的预测的附加假设。
[0034]
在一个实施例中，多假设预测模式对应于组合帧间/帧内预测(ciip)模式。在另一个实施例中，多假设预测模式对应于三角预测模式(tpm)。在又一个实施例中，多假设预测模式对应于几何合并模式(geo)。
[0035]
在一个实施例中，当前块为色度格式4：4：4、4：2：2或4：2：0。
[0036]
在一个实施例中，阈值在标准中隐式地预定义或在视频位元流的变换单元(tu)或变换块(tb)、编码单元(cu)或编码块(cb)、编码树单元(ctu)或编码树块(ctb)、切片(tile)、图块、图块组、序列参数集(sps)、图片参数集(pps)或图片级别以信号通知。
[0037]
在一个实施例中，图像区域对应于编码树单元(ctu)。
附图说明
[0038]
图1示出了tpm(三角预测模式)的示例，其中cu在对角线方向或对角线反方向上被分成两个三角预测单元。使用其自身的单方向预测运动矢量和参考帧索引对cu中的每个三角形预测单元进行帧间预测，以根据单预测候选项生成预测。
[0039]
图2示出了自适应加权过程的示例，其中示出了亮度块(左)和色度块(右)的加权。
[0040]
图3a说明了vtm-6.0中公开的三角预测模式(tpm)的分区形状
[0041]
图3b示出了正在讨论的用于几何合并模式的其他形状。
[0042]
图4示出了由角度和距离偏移描述的几何合并模式的分割边界。
[0043]
图5a示出了其中以步长11.25度从0到360度之间量化角度的示例，这导致总共32个角度。
[0044]
图5b示出了一个示例，其中以步长11.25度从0度到360度之间对角度进行量化，并且去除了一些接近垂直方向的角度，这导致总共24个角度。
[0045]
图6示出了根据本发明实施例的用于视频编码的示例性预测的流程图，其中针对小的色度块禁用了预测的附加假设。
[0046]
图7示出了根据本发明实施例的用于视频解码的示例性预测的流程图，其中针对小的色度块禁用了预测的附加假设。
具体实施方式
[0047]
以下描述是实施本发明的最佳构想模式。进行该描述是为了说明本发明的一般原理，而不应被认为是限制性的。本发明的范围最好通过参考所附的请求保护范围来确定。
[0048]
为了提高编解码效率，公开了多重假设(multiple hypothesis，mh)预测模式。当当前块使用mh预测模式时，通过加权平均处理将附加的预测假设与现有的预测假设组合，并且组合的预测是当前块的最终预测。为了克服与小区块相关的处理效率问题，公开了一种多假设(mh)预测模式的简化方法，其中根据本发明，mh预测模式在某些条件下不应用于
色度块。当mh预测模式未应用于色度块时，这意味着预测的附加假设不会与色度块的现有预测假设结合在一起，并且将现有的预测假设用作当前色度块的最终预测。将mh预测模式应用于色度块时，这意味着将附加的预测假设与现有的预测假设相结合，并且将组合的预测用作当前色度块的最终预测。当使能所提出的方法并且满足预定条件时，应用所提出的方法。
[0049]
在一个实施例中，mh预测模式可以是ciip，tpm或geo。
[0050]
在另一个实施例中，即使在cu级的mh模式的原始标志(例如，ciip，tpm或geo)为真，也可以应用所提出的方法。例如，即使cu级ciip标志为真，mh模式也不应用于色度块。这意味着亮度块的最终预测是组合预测，它由现有的预测假设和附加的预测假设形成；对于色度块，最终预测是现有预测。
[0051]
当前的vvc支持包括qt，bt和tt在内的灵活分区机制。在这种分隔结构中，对于亮度分量，块大小可以在128至4的范围内，对于色度分量可以在64至2的范围内。小块大小(即2xn)的引入导致低效的硬件实现。这会导致流水线延迟，并且在硬体体系结构中需要2xn像素的处理。在大多数硬体实现中，每1个cpu(或gpu)时钟4x1像素用于亮度和色度。但是，可以断言，对于2xn的块，每1个时钟处理需要一个额外的2x2像素。另外，2xn的内存访问(读取和写入)效率低下，其是因为在每次访问中仅提取2x1像素。帧内块比帧间块具有更多的依赖性。最担心的是2xn的帧内块。在双树情况下，亮度的最小大小被设置为4x4.2xn的限制已被废除。但是，在单树情况下仍然存在一些2xn帧内色度块(例如，用于ciip的2xn帧内色度块)。为了解决该问题，在另一个实施例中，“mh模式不应用于色度块”表示预测的其他假设未与色度块的原始(现有)预测假设结合在一起。在ciip的情况下，“mh模式不应用于色度块”意味着对于色度块，帧内预测不与帧间预测结合，从而直接使用帧间预测。
[0052]
在另一个实施例中，针对色度格式4：4：4启用了所提出的方法。
[0053]
在另一个实施例中，针对色度格式4：2：0启用所提出的方法。
[0054]
在另一个实施例中，针对色度格式4：2：2启用了所提出的方法。
[0055]
在另一个实施例中，针对色度格式4：2：1启用了所提出的方法。
[0056]
在另一个实施例中，针对色度格式4：1：1启用了所提出的方法。
[0057]
在另一个实施例中，所提出的方法针对色度格式4：0：0(即，单色度)启用。
[0058]
在另一个实施例中，预定义条件是根据块的宽度，高度或面积。
[0059]
在一个子实施例中，“块”在该实施例中可以是亮度块或色度块。当该块表示色度块时，相应的块宽度或高度取决于所使用的色度格式。例如，如果使用的色度格式为4：2：0，则将相应的块宽度配置为并置亮度块的宽度的一半。
[0060]
在一个子实施例中，预定条件是块宽度小于阈值1和/或块高度小于阈值2。例如，当启用ciip标志并且相应的色度块的块宽度小于4时，使用所提出的方法(mh预测模式不应用于色度块)。色度块可以是cb成分或cr成分的色度块。
[0061]
在另一个子实施例中，预定义条件是块宽度大于阈值1和/或块高度大于阈值2。
[0062]
在另一个子实施例中，预定义条件是块面积小于阈值3。
[0063]
在另一个子实施例中，预定义条件是块面积大于阈值3。
[0064]
在另一个实施例中，阈值1可以是正整数，例如1、2、4、8、16、32、64、128、256、512或1024。
[0065]
在另一个实施例中，阈值1可以是在tu(或tb)，cu(或cb)，ctu(或ctb)，切片，图块，图块组，sps，pps或图片级别中定义的变量。变量为1、2、4、8、16、32、64、128、256、512或1024。
[0066]
在另一个实施例中，阈值2可以是正整数，例如1、2、4、8、16、32、64、128、256、512或1024。
[0067]
在另一个实施例中，阈值2可以是在tu(或tb)，cu(或cb)，ctu(或ctb)，切片，图块，图块组，sps，pps或图片级别中定义的变量。变量为1、2、4、8、16、32、64、128、256、512或1024。
[0068]
在另一个实施例中，阈值3可以是正整数，例如1、2、4、8、16、32、64、128、256、512或1024。
[0069]
在另一个实施例中，阈值3可以是在tu(或tb)，cu(或cb)，ctu(或ctb)，切片，图块，图块组，sps，pps或图片级别中定义的变量。变量可以是1、2、4、8、16、32、64、128、256、512或1024。
[0070]
在另一个子实施例中，阈值1和阈值2可以相同。
[0071]
在另一个子实施例中，阈值1，阈值2和/或阈值3对于不同的色度格式可以不同。
[0072]
在另一实施例中，本发明中的“块”可以是cu，cb，tu或tb。
[0073]
在另一个实施例中，取决于tu(或tb)，cu(或cb)，ctu(或ctb)，条带，图块，图块组，sps，pps或图片级别的显式标志来使能所提出的方法。
[0074]
在另一个实施例中，所提出的方法可以用于亮度块，即，在某些条件下多重假设(mh)预测模式不应用于亮度块。当所提出的方法被使能并且满足预定条件时，所提出的方法被应用。
[0075]
可以应用以上方法的任何组合。例如，当使用色度格式4：4：4且色度块宽度或高度小于4时，mh模式不会应用于色度。又例如，当使用色度格式4：2：0且色度块宽度(取决于所使用的色度格式)小于4时，mh模式不应用于色度。换句话说，当满足mh模式的其他使能条件时(例如，假设mh模式为ciip，则启用ciip标志)，并且色度块宽度(取决于所使用的色度格式)大于或等于4，则mh模式为不仅适用于亮度块，而且适用于色度块。
[0076]
可以在编码器和/或解码器中实现任何上述提议的方法。例如，可以在编码器的帧内/帧间编码模块，运动补偿模块，解码器的合并候选导出模块中实现任何所提出的方法。可替代地，任何所提出的方法可以被实现为耦合到编码器的帧内/帧间编码模块和/或运动补偿模块，解码器的合并候选导出模块的电路。
[0077]
图6示出了根据本发明实施例的用于视频编码的示例性预测的流程图，其中对于小的色度块禁用了预测的附加假设(现有的预测被用作针对小的色度块的最终预测)。流程图中所示的步骤以及本公开中的其他后续流程图可被实现为可在编码器侧和/或解码器侧的一个或多个处理器(例如，一个或多个cpu)上执行的程序代码。流程图中所示的步骤也可以基于硬件来实现，例如被布置为执行流程图中的步骤的一个或多个电子设备或处理器。根据该方法，在步骤610中接收包括一个亮度块和一个或多个色度块的当前块，其中通过使用单个分区树将图像区域划分成一个或多个包括当前块的分区块来生成当前块。并允许当前块使用一个或多个包含多假设预测模式的编解码工具。单个分区树是用于亮度和色度的单个树。在步骤620中确定当前块的目标编解码模式。在步骤630中，根据目标编解码模式对
当前块进行编码，其中如果目标编解码模式对应多假设预测模式，并且所述一个或多个色度块的宽度，高度或面积小于阈值，则针对所述一个或多个色度块的预测的附加假设被禁用。
[0078]
图7示出了根据本发明实施例的用于视频解码的示例性预测的流程图，其中对于小的色度块禁用了预测的附加假设(现有的预测被用作针对小的色度块的最终预测)。根据该方法，在步骤710中接收包括当前块的压缩数据，其中当前块包括一个亮度块和一个或多个色度块，通过使用单个分区树将图像区域划分成一个或多个来生成包括当前块的更多分区块。包括多假设预测模式的一个或多个编码工具被允许用于当前块。单个分区树是用于亮度和色度的单个树。在步骤720中确定当前块的目标编解码模式。在步骤730中，根据目标编解码模式对当前块进行解码，其中如果目标编解码模式对应多假设预测模式，并且所述一个或多个色度块的宽度，高度或面积小于阈值，则针对所述一个或多个色度块的预测的附加假设被禁用。
[0079]
所示的流程图旨在说明根据本发明的视频编解码的示例。本领域技术人员可以修改每个步骤，重新布置步骤，拆分步骤或组合步骤以实践本发明，而不背离本发明的精神。在本公开中，已经使用特定的语法和语义来说明用于实现本发明的实施例的示例。技术人员可以通过用等效的语法和语义替换语法和语义来实践本发明，而不脱离本发明的精神。
[0080]
呈现以上描述是为了使本领域具有通常技艺者能够实践在特定应用及其要求的上下文中提供的本发明。对所描述的实施例的各种修改对于本领域技术人员将是显而易见的，并且本文中定义的一般原理可以应用于其他实施例。因此，本发明并不旨在限于所示出和描述的特定实施例，而是与与本文所公开的原理和新颖特征相一致的最广范围相一致。在以上详细描述中，示出了各种具体细节以便提供对本发明的透彻理解。然而，本领域技术人员将理解可以实施本发明。
[0081]
如上所述的本发明的实施例可以以各种硬件，软件代码或两者的组合来实现。例如，本发明的实施例可以是集成到视频压缩芯片中的一个或多个电路电路，或者是集成到视频压缩软件中以执行本文所述处理的程序代码。本发明的实施例还可以是要在数字信号处理器(dsp)上执行以执行本文描述的处理的程序代码。本发明还可以包括由计算机处理器，数字信号处理器，微处理器或现场可编程门阵列(fpga)执行的许多功能。这些处理器可以被配置为通过执行定义本发明所体现的特定方法的机器可读软件代码或固件代码来执行根据本发明的特定任务。可以以不同的编程语言和不同的格式或样式来开发软件代码或固件代码。也可以为不同的目标平台编译软件代码。然而，不同的代码格式，软件代码的样式和语言以及配置代码以执行根据本发明的任务的其他手段将不脱离本发明的精神和范围。
[0082]
在不脱离本发明的精神或基本特征的情况下，本发明可以以其他特定形式实施。所描述的示例在所有方面仅应被认为是说明性的而非限制性的。因此，本发明的范围由所附请求保护范围而不是前述描述来指示。落在请求保护范围的等同含义和范围内的所有改变均应包含在其范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：残差和系数编解码的方法和装置与流程

视频编解码的具有不同色度格式的结合帧内帧间预测的方法和装置与流程

相关文献

最热文献