用于快速视频编码器的二次变换的制作方法

2022-07-29 23:33:06 来源：中国专利 TAG：

1.本实施方案中的至少一个实施方案一般涉及视频压缩领域。至少一个实施方案尤其旨在用于视频编码的二次变换的编码和使用。

背景技术：

2.为了实现高压缩效率，图像和视频编码方案通常采用预测和变换来利用视频内容中的空间和时间冗余。一般来讲，帧内或帧间预测用于利用帧内或帧间相关，然后对在原始块与预测块之间的差异(通常表示为预测误差或预测残差)进行变换、量化和熵编码。为了重构视频，通过对应于熵编码、量化、变换和预测的逆过程对压缩数据进行解码。

技术实现要素：

3.本实施方案中的一个或多个实施方案提供信令和编码低频不可分离变换(lfnst)，使得支持快速编码器方法以及传统率失真(rd)搜索。
4.根据至少一个实施方案的第一方面，一种视频编码方法包括：对从初级变换发出的至少一个变换系数应用低频不可分离变换。
5.根据至少一个实施方案的第二方面，一种视频编码设备包括用于对从初级变换发出的至少一个变换系数应用低频不可分离变换的装置。
6.根据至少一个实施方案的第三方面，呈现了一种包括可由处理器执行的程序代码指令的计算机程序，该计算机程序实施根据至少第一方面或第二方面的方法的步骤。
7.根据至少一个实施方案的第四方面，呈现了一种存储在非暂态计算机可读介质上并且包括可由处理器执行的程序代码指令的计算机程序产品，该计算机程序产品实施根据至少第一方面或第二方面的方法的步骤。
附图说明
8.图1示出了视频编码器100的示例的框图，诸如高效视频编码(hevc)编码器。
9.图2示出了视频解码器200的示例的框图，诸如hevc解码器。
10.图3示出了在其中实现各种方面和实施方案的系统的示例的框图。
11.图4示出了对应于第一实施方案的规格变化。
12.图5示出了根据第二实施方案的用于对mip权重矩阵进行配对的算法的示例。
13.图6示出了对应于第三实施方案的规格变化。
14.图7示出了根据第三实施方案的示例性编码方法。
15.图8示出了对应于第四实施方案的规格变化。
具体实施方式
16.本技术中描述的各种方法基于信令和编码低频不可分离变换(lfnst)，使得支持快速编码器方法以及传统率失真(rd)搜索。这允许编码器更灵活地使其编码搜索适应其计
算能力。
17.此外，尽管描述了与vvc(多功能视频编码)或hevc(高效视频编码)规格的特定草案相关的原理，但本发明方面不限于vvc或hevc，并且可应用于例如其他标准和推荐(无论是预先存在的还是未来开发的)以及任何此类标准和推荐的扩展(包括vvc和hevc)。除非另外指明或技术上排除在外，否则本技术中所述的方面可单独或组合使用。
18.图1示出了视频编码器100的示例的框图，诸如hevc编码器。图1还可以示出其中对hevc标准进行改进的编码器或采用类似于hevc的技术的编码器，诸如jvet(联合视频探索团队)正在为vvc开发的jem(联合探索模型)编码器。
19.在被编码之前，视频序列可经历预编码处理(101)。例如通过以下方式来执行此操作：将颜色变换应用于输入彩色图片(例如，从rgb 4:4:4到ycbcr 4:2:0的转换)，或执行输入图片分量的重新映射，以便获得对压缩更具弹性的信号分布(例如，使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附接到比特流。
20.在hevc中，为了对具有一个或多个图片的视频序列进行编码，将图片分割(102)成一个或多个切片，其中每个切片可包括一个或多个切片片段。将切片片段分组为编码单元、预测单元和变换单元。hevc规格区分“块”和“单元”，其中“块”处理样本阵列中的特定区域(例如，亮度、y)，并且“单元”包括与块相关联的所有编码的颜色分量(y、cb、cr或单色)、语法元素和预测数据的并置块(例如，运动向量)。
21.对于hevc中的编码，将图片分割成具有可配置大小的正方形形状的编码树块(ctb)，并且将连续的一组编码树块分组为切片。编码树单元(ctu)包含编码的颜色分量的ctb。ctb是分区为编码块(cb)的四叉树的根，并且编码块可被分区为一个或多个预测块(pb)并且形成分区为变换块(tb)的四叉树的根。对应于编码块、预测块和变换框，编码单元(cu)包括预测单元(pu)和树形结构集合的变换单元(tu)，pu包括所有颜色分量的预测信息，并且tu包括每个颜色分量的残差编码语法结构。亮度分量的cb、pb和tb的大小适用于对应的cu、pu和tu。在本技术中，术语“块”可用于指代例如ctu、cu、pu、tu、cb、pb和tb中的任一者。另外，“块”还可以用于指代h.264/avc或其他视频编码标准中所指定的宏块和分区，并且更一般地指代各种大小的数据阵列。
22.在编码器100的示例中，图片由编码器元件进行编码，如下所述。以cu为单位处理待编码的图片。使用帧内模式或帧间模式对每个cu进行编码。当cu以帧内模式编码时，其执行帧内预测(160)。在帧间模式中，执行运动估计(175)和补偿(170)。编码器决定(105)帧内模式或帧间模式中的哪一者用于对cu进行编码，并且通过预测模式标志来指示帧内/帧间决定。通过从原始图像块减去(110)预测块来计算预测残差。
23.根据同一切片内的重构相邻样本预测处于帧内模式的cu。在hevc中可用35个帧内预测模式的集合，包括dc、平面和33个角度预测模式。根据与当前块相邻的行和列来重构帧内预测参考。参考使用来自先前重构的块的可用样本在水平和垂直方向上扩展超过块大小的两倍。当使用角度预测模式进行帧内预测时，可沿着由角度预测模式指示的方向复制参考样本。
24.用于当前块的适用亮度帧内预测模式可使用两个不同的选项来编码。如果适用模式包含在六个最可能模式(mpm)的构建列表中，则该模式通过mpm列表中的索引来用信号通知。否则，该模式通过模式索引的固定长度二值化来用信号通知。六个最可能模式源自顶部
和左侧相邻块的帧内预测模式(参见下表1)。
[0025][0026]
表1
[0027]
对于帧间cu，可以多种方法用信号通知运动信息(例如，运动向量和参考图片索引)，例如“合并模式”或“高级运动向量预测(amvp)”。
[0028]
在合并模式中，视频编码器或解码器基于已经编码的块组装候选列表，并且视频编码器针对候选列表中的候选中的一个候选用信号通知索引。在解码器端，基于用信号通知的候选来重构运动向量(mv)和参考图片索引。
[0029]
在amvp中，视频编码器或解码器基于根据已经编码的块确定的运动向量来组装候选列表。然后，视频编码器用信号通知候选列表中的索引以标识运动向量预测因子(mvp)并用信号通知运动向量差(mvd)。在解码器端，运动向量(mv)被重构为mvp mvd。适用的参考图片索引也在用于amvp的cu语法中被显式编码。
[0030]
然后对预测残差进行变换(125)和量化(130)，包括用于调整下述色度量化参数的至少一个实施方案。变换通常基于可分离的变换，并且被称为“初级”变换。例如，首先在水平方向上应用dct变换，然后在垂直方向上应用dct变换。在诸如jem的最近的编解码器中，在两个方向上使用的变换可以不同(例如，一个方向上的dct、另一个方向上的dst)，这导致各种2d变换，而在先前的编解码器中，通常限制给定块大小的各种2d变换。
[0031]
对经量化的变换系数以及运动向量和其他语法元素进行熵编码(145)，以输出比特流。编码器也可跳过变换，并基于4x4 tu对未变换的残余信号直接应用量化。编码器也可绕过变换和量化两者，即，在不应用变换或量化过程的情况下直接对残差进行编码。在直接pcm编码中，不应用预测并且将编码单元样本直接编码到比特流中。
[0032]
编码器对编码块进行解码以提供用于进一步预测的参考。对量化的变换系数进行去量化(140)和逆变换(150)以解码预测残差。组合(155)经解码的预测残差和预测块，重构图像块。向重构图片应用环路滤波器(165)以执行例如解块/sao(取样自适应偏移)滤波以减少编码伪影。经滤波的图像存储在参考图片缓冲器(180)中。
[0033]
图2示出了视频解码器200的示例的框图，诸如hevc解码器。在解码器200的示例中，比特流由解码器元件进行解码，如下所述。视频解码器200通常执行与如图1所描述的编码道次互逆的解码道次，解码道次执行视频解码作为编码视频数据的一部分。图2还可以示
出其中对hevc标准进行改进的解码器或采用类似于hevc的技术的解码器，诸如jem解码器。
[0034]
具体地，解码器的输入包括视频比特流，该视频比特流可由视频编码器100生成。首先对比特流进行熵解码(230)以获得变换系数、运动向量、图片分区信息和其他经编码的信息。图片分区信息指示ctu的大小、和ctu被分成cu的方式、以及在适用时可能被分成pu的方式。因此，解码器可根据经解码的图片分区信息来将图片划分(235)成ctu，并将每个ctu划分成cu。对变换系数进行去量化(240)，包括用于调整下述色度量化参数的至少一个实施方案，并进行逆变换(250)以解码预测残差。
[0035]
组合(255)经解码的预测残差和预测块，重构图像块。可从帧内预测(260)或运动补偿预测(即帧间预测)(275)获得(270)预测块。如上所述，amvp和合并模式技术可用于导出运动补偿的运动向量，该运动向量可使用内插滤波器来计算参考块的子整数样本的内插值。向重构图像应用环路滤波器(265)。经滤波的图像存储在参考图片缓冲器(280)中。
[0036]
经解码的图片还可经历解码后处理(285)，例如，逆颜色变换(例如，从ycbcr 4:2:0到rgb 4:4:4的变换)或执行在预编码处理(101)中执行的重新映射过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中发信号通知的元数据。
[0037]
图3示出了在其中实现各种方面和实施方案的系统的示例的框图。系统300可体现为包括下文所述的各个部件的设备，并且被配置为执行本专利申请中所述的一个或多个方面。此类设备的示例包括但不限于各种电子设备，诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器、编码器、转码器和服务器。系统300的元件可单独地或组合地体现在单个集成电路(ic)、多个ic和/或分立部件中。例如，在至少一个实施方案中，系统300的处理元件和编码器/解码器元件分布在多个ic和/或分立部件上。在各种实施方案中，系统300的元件通过内部总线310通信地耦接。在各种实施方案中，系统300经由例如通信总线或通过专用输入和/或输出端口通信地耦接到其他类似系统或其他电子设备。在各种实施方案中，系统300被配置成实施本文档中描述的方面中的一个或多个方面，诸如上述视频编码器100和视频解码器200并且如下所述进行修改。
[0038]
系统300包括至少一个处理器301，该处理器被配置为执行加载到其中的指令，以用于实现例如本文档中所述的各个方面。处理器301可包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统300包括至少一个存储器302(例如，易失性存储器设备和/或非易失性存储器设备)。系统300包括存储设备304，该存储设备可以包括非易失性存储器和/或易失性存储器，包括但不限于eeprom、rom、prom、ram、dram、sram、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例，存储设备304可包括内部存储设备、附接存储设备和/或网络可访问的存储设备。
[0039]
系统300包括编码器/解码器模块303，该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频，并且编码器/解码器模块303可包括其自身的处理器和存储器。编码器/解码器模块303表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知，设备可包括编码模块和解码模块中的一者或两者。此外，编码器/解码器模块303可实现为系统300的独立元件，或者可结合在处理器301内作为本领域技术人员已知的硬件和软件的组合。
[0040]
要加载到处理器301或编码器/解码器303上以执行本文档中所述的各个方面的程
序代码可存储在存储设备304中，并且随后被加载到存储器302上以供处理器301执行。根据各种实施方案，处理器301、存储器302、存储设备304和编码器/解码器模块303中的一者或多者可在本文档中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
[0041]
在若干实施方案中，处理器301和/或编码器/解码器模块303内部的存储器用于存储指令和提供工作存储器以用于在编码或解码期间需要的处理。然而，在其他实施方案中，处理设备外部的存储器(例如，处理设备可以是处理器301或编码器/解码器模块303)用于这些功能中的一个或多个功能。外部存储器可以是存储器302和/或存储设备304，例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中，外部非易失性闪存存储器用于存储电视机的操作系统。在至少一个实施方案中，诸如ram的快速外部动态易失性存储器被用作用于视频编码和解码操作的工作存储器，诸如用于mpeg-2、hevc或vvc。
[0042]
对系统300的元件的输入可通过如框309中所示的各种输入设备提供。此类输入设备包括但不限于：(i)接收例如由广播器通过空中发射的rf信号的rf部分，(ii)复合输入端子，(iii)usb输入端子，和/或(iv)hdmi输入端子。
[0043]
在各种实施方案中，框309的输入设备具有如本领域已知的相关联的相应输入处理元件。例如，rf部分可与以下所需的元件相关联：(i)选择所需的频率(也称为选择信号，或将信号频带限制到一个频带)，(ii)下变频选择的信号，(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带，(iv)解调下变频和频带限制的信号，(v)执行纠错，以及(vi)解复用以选择所需的数据包流。各种实施方案的rf部分包括用于执行这些功能的一个或多个元件，例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。rf部分可包括执行这些功能中的各种功能的调谐器，这些功能包括例如下变频接收信号至更低频率(例如，中频或近基带频率)或至基带。在一个机顶盒实施方案中，rf部分及其相关联的输入处理元件接收通过有线(例如，电缆)介质发射的rf信号，并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序，移除这些元件中的一些元件，和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件，例如，插入放大器和模数变换器。在各种实施方案中，rf部分包括天线。
[0044]
此外，usb和/或hdmi端子可包括用于跨usb和/或hdmi连接将系统300连接到其他电子设备的相应接口处理器。应当理解，输入处理(例如reed-solomon纠错)的各个方面可根据需要例如在单独的输入处理ic内或在处理器301内实现。类似地，usb或hdmi接口处理的方面可根据需要在单独的接口ic内或在处理器301内实现。将解调流、纠错流和解复用流提供给各种处理元件，包括例如处理器301以及编码器/解码器303，该处理元件与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上。
[0045]
系统300的各种元件可设置在集成外壳内。在集成外壳内，各种元件可使用合适的连接布置(例如，如本领域已知的内部总线，包括ic间(i2c)总线、布线和印刷电路板)互连并且在其间发射数据。
[0046]
系统300包括能够经由通信信道320与其他设备通信的通信接口305。通信接口305可包括但不限于被配置为通过通信信道320发射和接收数据的收发器。通信接口305可包括
但不限于调制解调器或网卡，并且通信信道320可例如在有线和/或无线介质内实现。
[0047]
在各种实施方案中，使用诸如ieee 802.11等wi-fi网络将数据流式传输到系统300。通过适用于wi-fi通信的通信信道320和通信接口305接收这些实施方案的wi-fi信号。这些实施方案的通信信道320通常连接到接入点或路由器，该接入点或路由器提供对包括互联网的外部网络的访问，以用于允许流式应用和其他云上通信。其他实施方案使用机顶盒向系统300提供流式数据，该机顶盒通过输入块309的hdmi连接递送数据。还有其他实施方案使用输入块309的rf连接向系统300提供流式数据。
[0048]
系统300可将输出信号提供到各种输出设备，包括显示器330、扬声器340和其他外围设备350。在实施方案的各个示例中，其他外围设备350包括独立dvr、磁盘播放器、立体系统、照明系统和基于系统300的输出提供功能的其他设备中的一者或多者。在各种实施方案中，控制信号使用诸如av.link、cec或其他通信协议的信令在系统300与显示器330、扬声器340或其他外围设备350之间传送，该其他通信协议使得能够在有或没有用户干预的情况下进行设备到设备控制。输出设备可通过相应接口306、307和308经由专用连接通信地耦接到系统300。另选地，输出设备可使用通信信道320经由通信接口305连接到系统300。显示器330和扬声器340可与电子设备(诸如例如，电视机)中的系统300的其他部件集成在单个单元中。在各种实施方案中，显示接口306包括显示驱动器，诸如例如定时控制器(t con)芯片。
[0049]
另选地，如果输入309的rf部分是单独机顶盒的一部分，则显示器330和扬声器340可选地与其他部件中的一个或多个部件分开。在显示器330和扬声器340为外部部件的各种实施方案中，输出信号可经由专用输出连接(包括例如hdmi端口、usb端口或comp输出)提供。本文所述的具体实施可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法讨论)，讨论的特征的具体实施也可以其他形式(例如，装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如，例如处理器)中实施，该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机、手机、便携式/个人数字助理(“pda”)以及便于最终用户之间信息通信的其他设备。
[0050]
除了前面介绍的初级变换之外，所谓的低频不可分离变换(lfnst)可在一些情况下应用于从初级变换发出的变换系数的子集。lfnst增加了视频编解码器的编码效率。lfnst是在编码器端的核心dct2变换之后以及在量化操作之前执行的不可分离变换。诸如vvc的常规视频编解码器例如可使用此类二次变换。它是帧内编码工具，其中对变换核的选择取决于帧内预测模式。也就是说，对于每个预测模式，定义两个核，并且对索引(在vvc中命名为“lfnst_idx”)进行编码以指示选择两个核中的哪一个核。
[0051]
lfnst_idx可以这样解释：lfnst_idx[x0][y0]指定是否使用以及使用所选变换集合中的两个低频不可分离变换核中的哪一个。lfnst_idx[x0][y0]等于0指定不使用低频不可分离变换。
[0052]
因此，编码器对于rd搜索具有三个选项：
[0053]
1-没有lfnst(lfnst_idx＝0)
[0054]
2-第一lfnst核(lfnst_idx＝1)
[0055]
3-第二lfnst核(lfnst_idx＝2)
[0056]
lfnst_idx在cu级标志处编码。其由两位构成，并且如表2所示进行二值化。
[0057]
lfnst_idx代码00110211
[0058]
表2
[0059]
指示是否使用lfnst的第一位是cabac编码的。然而，指示使用哪个核的第二位是绕过编码的。cabac编码和绕过编码之间的区别在于，绕过编码适合编码位有相同的概率为一或零的概率分布，而cabac编码可以根据编码过程自行适应概率分布。尽管对第二位进行绕过编码可能适合当前的vvc设计，但当通过一直选择第一核或第二核来执行快速编码器时，它表现出编码损失。例如，快速编码器可能始终选择第一核来减少rd检查，这意味着第二位lfnst_idx一直为零。此类编码器必须始终编码一位(零)。相比之下，如果该位是cabac编码的，则cabac引擎将收敛到以更小的成本对该位进行编码。
[0060]
尽管它带来高编码增益，但lfnst导致编码时间显著增加。这是因为编码器执行rd搜索以在两个变换核之间选择最佳一个变换核。在第一改进中，可通过仅使用lfnst的第一核来获得更快的编码器。除了节省编码器时间之外，这也减少了编码器的存储器要求，因为一半的核被去除。然而，这种改进导致了不可接受的编码损失。在第二改进中，变换核可在相邻的帧内预测模式之间交替。在这种情况下，每个帧内预测模式允许使用一个核，使得编码器执行较少的rd检查，并且所有两个变换核仍然被使用，因为它们在帧内预测模式之间共享。在这些方法中，lfnst索引用一位编码，其中零指示没有lfnst，并且一意指使用lfnst。对于lfnst核选择，应用以下规则：
[0061]
lfnst_idx＝predmodeintra％2
[0062]
这意指如果lfnst为一(使用lfnst索引)，则对于偶数预测模式lfnst_idx被设置为零(使用第一lfnst核)，并且对于奇数预测模式被设置为一(使用第二lfnst)。因此，允许每个帧内模式使用一个核以便在编码器端实现更快的rd搜索。核分布在帧内预测模式之间，使得损失随着使用所有核而减少。然而，尽管第二选项优于第一选项，但两种解决方案都存在其限制编码器的灵活性并导致无法补偿的rd损失的问题。
[0063]
本文档中呈现的方法有两个方面：首先，它通过基于矩阵帧内预测(mip)模式的适当二值化完成上文介绍的第二改进方法，并且其次，它提出了另一种允许更快rd搜索的lfnst索引编码机制。
[0064]
在第一实施方案中，第一lfnst核用于偶数mip模式，并且第二lfnst核用于奇数mip模式。
[0065]
为此目的，不能再使用以前改进中使用的解决方案。实际上，当使用mip时，predmodeintra被设置为平面模式(predmodeintra＝intra_planar＝0)。因此，当应用上文介绍的规则来选择核(predmodeintra％2)时，编码器将在使用mip时一直选择第一核。这当然不符合在预测模式之间分布核背后的动机。因此，在本发明中提出执行以下操作：如果使用mip，则predmodeintra＝predmodeintra％2。利用这一改进，第一lfnst核用于偶数mip模式，并且第二lfnst核用于奇数mip模式。
[0066]
图4示出了对应于第一实施方案的规格变化。对vvc规格的更改如下所示，其中更
改使用下划线文本标识。
[0067]
可用规则lfnst_idx＝(intrapredmode 1)％2) 1重复相同的方法。换句话讲，奇数模式使用第一核，并且偶数模式使用第二核。利用这种方法，lfnst核也根据mip模式交替，因此与使用单个lfnst核相比减少了rd损失。
[0068]
在第一实施方案中，在常规帧内预测模式的情况下，以及在用于lfnst核选择的mip模式的情况下应用相同的原理。然而，常规帧内预测模式与mip预测模式之间存在关键区别。考虑到索引在范围[[2，66]]内的方向模式，具有连续索引的两个常规帧内预测模式具有接近的传播方向。这在mip模式的情况下并不成立。
[0069]
因此，在第二实施方案中，对mip模式进行配对，使得每对中的两个mip模式具有接近的传播方向：第一lfnst核用于每对中的第一mip模式，并且第二lfnst核用于每对中的第二mip模式。
[0070]
为了执行此配对，可以认为具有类似权重矩阵的两个mip模式具有接近的传播方向。首先，下述算法确定mip权重矩阵对，其中矩阵差的所有弗罗贝尼乌斯范数对的总和最小。然后，根据mip权重矩阵对确定mip模式对。
[0071]
选择此配对，使得具有接近权重矩阵的两个mip模式被映射到不同的lnfst核。
[0072]
图5示出了根据第二实施方案的用于对mip模式进行配对的算法的示例。下面的相同算法在用于预测4
×
4tb的18个mip权重矩阵，用于预测4
×
8、8
×
4和8
×
8tb的10个mip权重矩阵和用于预测其他tb的6个mip权重矩阵上运行。
[0073]
在步骤510中，例如如下对mip权重矩阵进行偏移和缩放：
[0074][0075]a(k)
[i][j]表示索引k的mip权重矩阵a中的位置[i，j]处的系数。o
(k)
和s
(k)
是mip权重矩阵a
(k)
的偏移和移位。例如，用于预测4
×
4tb，k∈[[0，17]]。
[0076]
在步骤520中，例如如下计算每个可能的mip权重矩阵对的弗罗贝尼乌斯范数：
[0077]nkl
＝||w
(k)-w
(l)
||2[0078]nkl
是索引k的经偏移和缩放的mip权重矩阵(表示为w
(k)
)与索引1的经偏移和缩放的mip权重矩阵(表示为w
(l)
)之间的差值的弗罗贝尼乌斯范数。例如，用于预测4
×
4tb，(k，l)∈([[0，17]])2。
[0079]
在步骤530中，构建图表，其中索引i的顶点对应于索引i的mip权重矩阵，并且索引i的顶点与索引j的顶点之间的边是索引i的mip权重矩阵与索引j的mip权重矩阵之间的差值的弗罗贝尼乌斯范数。
[0080]
在步骤540中，将最小成本完美匹配算法应用于该图表，诸如由以下文献描述的算法：例如[5]a.m.h.gerards.matching.m.o.ball，t.magnanti，c.monma和g.nemhauser编，network models，handbooks in operations research and management science第7卷，第3章，第135-224页，elsevier，1995。
[0081]
由于这些步骤，mip权重矩阵是配对的。在下面的图3至图5中，每个表的列包含不同的mip权重矩阵索引对，而每行包含映射到相同lfnst核的所有mip权重矩阵索引。
[0082]
表3示出了在要预测4
×
4tb的情况下，每个mip权重矩阵索引与lfnst核之间的映射的示例。
[0083]
第1lfnst核0123467915第2lfnst核1311581014161217
[0084]
表3
[0085]
表4示出了在要预测4
×
8、8
×
4和8
×
8tb的情况下，每个mip权重矩阵索引与lfnst核之间的映射的示例。
[0086]
第1lfnst核01245第2lfnst核93687
[0087]
表4
[0088]
表5示出了在预测剩余tb的情况下，每个mip权重矩阵索引与lfnst核之间的映射的示例。
[0089]
第1lfnst核012第2lfnst核435
[0090]
表5
[0091]
在步骤550中，通过将mip权重矩阵映射到mip模式对来确定mip模式对。每个mip矩阵由两种不同的mip模式使用，不包括索引0的mip矩阵，其仅由索引0的mip模式使用。详细地，mip模式idxmode与其mip权重矩阵索引k之间的映射由以下给出：
[0092]
k＝idxmode(如果idxmode≤nbmodes/2
[0093]
否则，k＝idxmode-nbmodes/2
ꢀꢀꢀ
(公式1)
[0094]
nbmodes表示mip模式的数量。例如，在4
×
4tb的情况下，nbmodes＝35。对于预测4
×
8、8
×
4和8
×
8tb，nbmodes＝19。对于预测其他tb.nbmodes＝11。
[0095]
根据上述映射和表3、4和5，可确定mip模式对。
[0096]
在下面的表6至8中，每个表的列包含不同的mip模式索引对，而每行包含映射到相同lfnst核的所有mip模式索引。与相对于mip权重索引的表3至5相比，表6至8涉及mip模式索引。
[0097]
表6示出了在要预测4
×
4tb的情况下，每个mip模式索引与lfnst核之间的映射的示例。
[0098]
第1lfnst核0123467915第2lfnst核1311581014161217
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
第1lfnst核 1819202123242632第2lfnst核302822252731332934
[0099]
表6
[0100]
表7示出了在要预测4
×
8、8
×
4和8
×
8tb的情况下，每个mip模式索引与lfnst核之间的映射的示例。
[0101]
第1lfnst核0124510111314第2lfnst核9368712151716
[0102]
表7
[0103]
表8示出了在预测剩余tb的情况下，每个mip模式索引与lfnst核之间的映射的示
例。
[0104]
第1lfnst核01267第2lfnst核435810
[0105]
表8
[0106]
在公式1中给出的式中，我们可以看到，除了mip模式索引0之外，2个mip模式索引共享同一mip权重矩阵。因此，在每个表6、7、8中，对于每一对，当我们使用公式1确定对应对时，对于mip模式索引0没有可能的映射。实际上，公式1的第二行并未导致k＝0并且因此不匹配第二mip模式索引。例如，在4
×
4tb(表6)的情况下，索引0和13的mip矩阵是接近的。因此，索引的mip模式应该映射到两个不同的lnfst核。现在，索引13和30的mip模式共享同一权重矩阵。因此，索引30的mip模式应该映射到与用于索引13的mip模式的lnfst核相同lnfst核。索引0的mip模式不与其他模式共享其权重矩阵。因此，涉及索引30的mip模式的对是不完整的。在这种情况下，当选择索引30的mip模式时，我们选择第一lnfst核。
[0107]
在一个变型中，表6、7和8中的映射在第1lnfst核与第2lnfst核之间反转。
[0108]
在另一个变型中，未成对的mip模式索引(例如，最后一种情况下的索引9的mip模式)可使用其他lfnst核(在这种情况下为第1lfnst核)。
[0109]
在第三实施方案中，编码器被限制为不使用第二lfnst核，并且因此针对没有lfnst将lfnst索引编码为0或针对第一核编码为1。就二进制代码而言，lfnst被编码为0或10(参见表1)。这在编码时间方面产生与第一实施方案相同的节省，因为从不使用第二核。然而，与第一实施方案相比，由于额外位的编码，位率增加。为了补偿这一点，本文提出从熵编码而不是绕过过滤受益。也就是说，lfnst_idx第二位始终用0编码，当熵编码与适当的初始化一起使用时，这花费很少的位。该方法的主要优点在于，它既允许快速低复杂度编码器也允许高复杂度编码器，前者一直选择第一核，后者执行rd搜索以找到要选择的最佳核。
[0110]
图6示出了对应于第三实施方案的规格变化。表600显示了各个二进制的编码类型。在该表中，lfnst索引的第二二进制是用一个索引(0)编码的cabac。对vvc规格的更改在单元格610中进行，现在包括值“0”而不是“绕过”。
[0111]
图7示出了根据第三实施方案的示例性编码方法。在该过程700中，编码器在步骤710中根据如前所述的rd计算来决定是否应该应用lnfst。如果是这种情况，则在步骤720中，如前所述应用lnfst。然后在步骤730中，如前所述用适当的信令执行编码。
[0112]
为了进一步允许编码器的灵活性，可通过添加更多上下文来改进熵编码。编码器可能对小块执行与大块不同的策略。也就是说，其针对小块测试一个核并针对大块测试两个核，因为小块更频繁地出现并且需要大量的rd检查。因此，索引编码可取决于当前区域、块尺寸等。然而，最简单的方式是与lfnst计算内联。例如，在规格文本中，计算以下项：
[0113]
nlfnstoutsize＝(ntbw》＝8&&ntbh》＝8)？48:16(8-966)
[0114]
log2lfnstsize＝(ntbw》＝8&&ntbh》＝8)？3:2
ꢀꢀꢀ
(8-967)
[0115]
nlfnstsize＝1《《log2lfnstsize
ꢀꢀꢀ
(8-968)
[0116]
nonzerosize＝((ntbw＝＝4&&ntbh＝＝4)||(ntbw＝＝8&&ntbh＝＝8))？8:16
ꢀꢀꢀ
(8-969)
[0117]
其中ntbw和ntbh是当前变换块的宽度和高度。这意味着检查以下两个条件：
[0118]
1)ntbw》＝8&&ntbh》＝8
[0119]
2)(ntbw＝＝4&&ntbh＝＝4)||(ntbw＝＝8&&ntbh＝＝8)
[0120]
这两个条件可用作块尺寸的指标。
[0121]
在第一变型实施方案中，如下选择上下文：
[0122]
ntbw》＝8&&ntbh》＝8？0:1
[0123]
因此，该值取代表5的单元格510的“0”值。这样做的效果是为尺寸大于8
×
8像素的块选择不同的cabac编码引擎上下文，并为较小的块选择第二种。
[0124]
在第二变型实施方案中，如下选择上下文：
[0125]
(ntbw＝＝4&&ntbh＝＝4)||(ntbw＝＝8&&ntbh＝＝8)？0:1
[0126]
因此，该值取代表5的单元格510的“0”值。这样做的效果是为大小为4
×
4或8
×
8的正方形块选择不同的cabac编码引擎上下文。
[0127]
其他变型使用这两种变型的其他组合。
[0128]
在第四实施方案中，编码器交替选择lnfst核，使得当使用快速编码器时，核分布在帧内预测模式之间，同时仍然使用lfnst索引的cabac编码。这通过另一解析步骤来完成。详细地，快速低复杂度编码器始终将lfnst编码为0或10，如表3所示，并且避免像第三实施方案中那样使用编码“11”以减少rd搜索。
[0129]
然而，随着索引的解析完成，可以改变对核的选择，如下所示：
[0130]
lfnst_idx映射值001predmodeintra％2？1:22predmodeintra％2？2:1
[0131]
表9
[0132]
这意味着对于奇数帧内预测模式，lfnst_idx被交换。这是为了使快速编码器仅允许第一lfnst索引在预测模式中分布。
[0133]
图8示出了对应于第四实施方案的规格变化。对vvc规格的更改如下所示，其中更改使用下划线文本标识。可使用来自第三实施方案的上下文选择表。
[0134]
作为进一步的示例，在一个实施方案中，“解码”仅是指熵解码，在另一个实施方案中，“解码”仅是指差分解码，并且在又一个实施方案中，“解码”是指熵解码和差分解码的组合。短语“解码过程”是具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的，并且据信将被本领域的技术人员很好地理解。
[0135]
各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式，如在本技术中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。在各种实施方案中，此类过程包括通常由编码器执行的一个或多个过程，例如，分区、差分编码、变换、量化和熵编码。在各种实施方案中，此类过程还包括或另选地包括由本应用中所述的各种具体实施的编码器执行的过程。
[0136]
作为进一步的示例，在一个实施方案中，“编码”仅是指熵编码，在另一个实施方案中，“编码”仅是指差分编码，并且在又一个实施方案中，“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的，并且据信将被本领域的技术人员很好地理解。
[0137]
注意，本文所用的语法元素是描述性术语。因此，它们不排除使用其他语法元素名称。
[0138]
本技术描述了各个方面，包括工具、特征、实施方案、模型、方法等。具体描述了这些方面中的许多方面，并且至少示出个体特性，通常以可能听起来有限的方式描述。然而，这是为了描述清楚，并不限制这些方面的应用或范围。实际上，所有不同的方面可组合和互换以提供进一步的方面。此外，这些方面也可与先前提交中描述的方面组合和互换。本专利申请中描述和设想的方面可以许多不同的形式实现。上面的图1、图2和图3提供了一些实施方案，但是考虑了其他实施方案，并且图的讨论不限制具体实施的广度。
[0139]
在本技术中，术语“重构”和“解码”可以互换使用，术语“像素”和“样本”可以互换使用，术语“图像”、“图片”和“帧”可以互换使用，术语“索引”和“idx”可以互换使用。通常，但不一定，术语“重构”在编码端使用，而“解码”在解码端使用。
[0140]
本文描述了各种方法，并且每种方法包括用于实现所述方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作，否则可修改或组合特定步骤和/或动作的顺序和/或用途。
[0141]
本技术中使用了各种数值，例如关于块大小。具体值是为了示例目的，并且所述方面不限于这些具体值。
[0142]
提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型，意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此，短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本说明书通篇的各个地方的任何其他变型不一定都是指相同的实施方案。
[0143]
另外，本技术或其权利要求书可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。
[0144]
此外，本技术或其权利要求书可涉及“访问”各种信息。访问信息可包括例如接收信息、(例如，从存储器)检索信息、存储信息、移动信息、复制信息、计算信息、预测信息或估计信息中的一者或多者。
[0145]
另外，本技术或其权利要求书可涉及“接收”各种信息。与“访问”一样，接收旨在为广义的术语。接收信息可包括例如(例如，从存储器或光学介质存储装置)访问信息或检索信息中的一者或多者。此外，在诸如例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间，“接收”通常以一种方式或另一种方式参与。
[0146]
应当理解，例如，在“a/b”、“a和/或b”以及“a和b中的至少一者”的情况下，使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(a)，或仅选择第二列出的选项(b)，或选择两个选项(a和b)。作为进一步的示例，在“a、b和/或c”和“a、b和c中的至少一者”的情况下，此类短语旨在涵盖仅选择第一列出的选项(a)，或仅选择第二列出的选项(b)，或仅选择第三列出的选项(c)，或仅选择第一列出的选项和第二列出的选项(a和b)，或仅选择第一列出的选项和第三列出的选项(a和c)，或仅选择第二列出的选项和第三列出的选项(b和c)，或选择所有三个选项(a和b和c)。如对于本领域和相关领域的普通技术人员显而易见的是，这可扩展到所列出的尽可能多的项目。
[0147]
对于本领域的技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中
的一个具体实施产生的数据。例如，可格式化信号以携带所述实施方案的比特流。此类信号可格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的，信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种具备倒相管的蓝牙扩音器的制作方法

用于快速视频编码器的二次变换的制作方法

相关文献

最热文献