一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于帧内预测的神经网络的迭代训练的制作方法

2022-07-11 11:41:57 来源:中国专利 TAG:


1.本实施方案中的至少一个实施方案通常涉及用于视频编码或解码、压缩或解压缩的一种方法或一种装置。


背景技术:

2.为了实现高压缩效率,图像和视频编码方案通常采用包括运动维度预测在内的预测以及转化来利用视频内容中的空间和时间冗余。一般来讲,帧内或帧间预测用于利用帧内或帧间相关性,然后对在原始图像与预测图像之间的差值(通常表示为预测错误或预测残差)进行转化、量化和熵编码。为了重建视频,通过对应于熵编码、量化、转化和预测的逆过程对压缩数据进行解码。


技术实现要素:

3.本实施方案中的至少一个实施方案一般涉及一种用于视频编码或解码的方法或装置,并且更具体地涉及一种基于相邻样本依赖的参数模型来简化编码模式的方法或装置。
4.根据第一方面,提供了一种方法。该方法包括用于使用视频块和周围区域的分区部分的对来训练用于该视频块的帧内预测的神经网络集合的步骤;通过迭代地使用该神经网络集合作为用于编解码器的附加帧内编码模式来提取该视频块和周围区域的另外的对;以及使用该提取的另外的对来重新训练该神经网络集合,以生成用于帧内预测的神经网络集合。
5.根据第一方面,提供了一种方法。该方法包括针对用于帧内预测的神经网络集合的前述训练的步骤,并且进一步包括使用所生成的神经网络集合执行对视频块的编码或解码。
6.根据另一方面,提供了一种装置。该装置包括处理器。该处理器可以被配置为通过执行前述方法中的任一种来对视频块进行编码或对比特流进行解码。
7.根据至少一个实施方案的另一一般方面,提供了一种设备,该设备包括:根据解码实施方案中的任一实施方案的装置;以及以下项中的至少一者:(i)天线,该天线被配置为接收信号,该信号包括视频块;(ii)频带限制器,该频带限制器被配置为将所接收的信号限制为包括该视频块的频带;以及(iii)显示器,该显示器被配置为显示表示视频块的输出。
8.根据至少一个实施方案的另一一般方面,提供了一种非暂态计算机可读介质,该非暂态计算机可读介质包含根据所描述的编码实施方案或变体中的任一实施方案或变体生成的数据内容。
9.根据至少一个实施方案的另一一般方面,提供了一种信号,该信号包括根据所描述的编码实施方案或变体中的任一实施方案或变体生成的视频数据。
10.根据至少一个实施方案的另一一般方面,比特流被格式化以包括根据所描述的编码实施方案或变体中的任一实施方案或变体生成的数据内容。
11.根据至少一个实施方案的另一一般方面,提供了一种计算机程序产品,该计算机程序产品包括指令,该指令在由计算机执行时使该计算机执行所描述的编码实施方案或变体中的任一实施方案或变体。
12.通过将结合附图阅读的示例性实施方案的以下详细描述,一般方面的这些和其它方面、特征和优点将变得显而易见。
附图说明
13.图1示出了在正方形当前块的情况下,在h.266中用于帧内预测的参考样本。
14.图2示出了在h.266中正方形块的帧内预测的方向。
15.图3示出了用于对不同块形状导出mpm列表的上方和左侧cu位置。
16.图4示出了说明vtm-6.0中用于亮度的帧内预测信令的决策树。
17.图5示出了说明vtm-6.0中用于色度的帧内预测信令的示例决策树。
18.图6示出了待预测的当前正方形块周围的上下文的示例。
19.图7示出了通过完全连接的神经网络从其上下文对正方形块进行帧内预测的示例。
20.图8示出了通过卷积神经网络从其上下文对方形块进行帧内预测的示例。
21.图9示出了通过h.265从原始图像i中提取w
×
w块y以及从i的重建中提取其上下文x。
22.图10示出了通过h.265从原始图像i中另外提取w
×
w块y以及从i的重建中另外提取其上下文x。
23.图11示出了通过h.265经由来自原始图像i的w
×
w块y和来自i的重建的其上下文x的“extract_pair”进行提取的示例。
24.图12示出了通过h.266经由来自原始图像i的h
×
w块y和来自i的重建的其上下文x的“extract_pair”进行提取的示例。
25.图13示出了在由图像分区给出的空间位置x,y处经由来自原始图像i的h
×
w块y及其上下文x进行提取的示例,使用了h.266。
26.图14示出了标准的通用视频压缩方案。
27.图15示出了标准的通用视频解压缩方案。
28.图16示出了根据一般描述的方面的用于编码/解码的基于处理器的系统。
29.图17示出了根据一般描述的方面的方法的一个实施方案。
30.图18示出了根据一般描述的方面的方法的另一个实施方案。
31.图19示出了根据描述的方面的示例性装置。
具体实施方式
32.帧内预测是所有视频压缩标准(如h.264/avc、hevc和vvc)中的核心编码工具。基本思想是通过基于已经解码的因果相邻像素预测像素的块来利用图像帧序列中的空间相关性。随后用块变换转换编码器处的预测残差,将变换系数量化,然后进行二进制编码。在解码器处,通过将预测添加到经解码的残差来重建块,这是由二进制解码的逆过程、去量化和逆变换产生的。
33.出于预测目的,标准定义了被称为预测模式的若干模型。例如,hevc定义了35个预测模式,其中一个是平面(planar)模式,一个是dc模式,其余33个是角度模式。平面模式和dc模式旨在对缓慢且逐渐变化的强度区域建模,而角度模式旨在对不同对象方向性建模。另一方面,vvc定义67个常规帧内预测模式,其包括来自hevc的35个预测模式和附加的32个角度模式。vvc还定义了与矩形编码块一起使用的28个宽角度模式。编码器预测工具在速率失真性能的意义上选择最佳预测模式并且使用模式编码方案将其发信号通知给解码器。解码器预测工具对预测模式进行解码并且使用来自相邻像素的解码像素以此模式预测当前块。
34.本文所描述的一般方面解决了在诸如h.265/hevc和h.266/vvc等视频编解码器中训练用于帧内预测的神经网络的问题。术语“上下文”用于指馈送到神经网络中的块的相邻区域,包括在块上方的若干行经解码的像素和块左侧的若干列像素。相比之下,在h.265/h.266中,术语“参考样本”始终用于指馈送到帧内预测模式的此块的相邻区域,包括在块上方的一行经解码的像素和块的左侧的一列经解码的像素。
35.用于帧内预测的神经网络从包围待预测的当前块的上下文或相邻区域推断对此块的预测。经训练的神经网络集合在感兴趣的视频编解码器中形成单个附加帧内预测模式。在此另外的单个模式中,每个神经网络预测不同大小的块。
36.在该集合中存在训练神经网络的两种方式。第一种方式包括通过随机空间位置处的块和其上下文的编解码器对从ycbcr图像及其重建进行提取,然后在这些对上训练神经网络。更精确地,在随机空间位置处从ycbcr图像提取块,并且通过编解码器在相同空间位置处从该图像的重建中提取其上下文。但是经训练的神经网络倾向于提供模糊预测,因为它们在块及其上下文的不受限的多个对上训练。经训练的神经网络被称为过于“泛化”。在第二种方式中,通过感兴趣的编解码器从ycbcr图像的分区中提取块及其上下文的对,然后在这些对上训练神经网络。更精确地,收集由ycbcr图像的分区通过编解码器返回的每个块,并且从该图像的重建中提取其上下文。然而,经训练的神经网络主要学习编解码器的帧内预测,因为分区机制确保每个返回的块由编解码器中的帧内预测模式从其重建参考样本集合相对良好地预测。这时,被训练的神经网络被称为对于视频编解码器而言过于“专门化”。
37.为了找到极端泛型与经训练的神经网络的编解码器的极端专门化之间的权衡,提出了用于帧内预测的神经网络的迭代训练。在第一次迭代时,按照上述第二种方式训练神经网络集合。然后,对于若干次迭代,(i)将神经网络集合插入到编解码器中,并且通过具有基于神经网络的单个附加模式的编解码器从ycbcr图像的分区中提取块和其上下文的对,(ii)在这些对上重新训练神经网络。这样,神经网络从第二次迭代开始学习与编解码器中的帧内预测偏离的帧内预测,同时在速率失真性能方面对于编解码器仍然有价值。
38.该章节引入视频编解码器的帧内预测分量。它聚焦于视频编解码器h.266,因为其在压缩性能方面当前被视为最佳视频编解码器,并且它是h.265的延伸。然后,呈现基于神经网络的帧内预测以及来自文献的用于训练神经网络的两种方法。
39.h.266中的帧内预测过程由以下内容组成:收集参考样本,处理这些样本,导出当前块的样本的实际预测,最后对预测的样本进行后处理。
40.参考样本生成过程在图1中示出。2w个样本的“上方”行由位于当前块上方的先前重建的像素形成,w表示块宽度。类似地,2h个样本的“左侧”列由位于当前块左侧的重建像
素形成,h表示块高度。拐角像素也用于填充“上方”行和“左侧”列参考之间的间隙。如果当前块上方和/或其左侧的一些样本不可用,由于对应的编码块(cb)不在相同的切片中,或者当前cb处于帧边界处,则执行称为参考样本取代的方法,其中缺失的样本按顺时针方向从可用样本复制。然后,根据当前cu大小和预测模式,使用指定的滤波器对参考样本进行滤波。
41.h.266包括源自h.265中的模型的一系列预测模型。平面和dc预测模式用于预测平滑且逐渐变化的区域,而角度预测模式用于捕获不同的定向结构。对于每个矩形块形状,存在以不同方式组织的65个方向预测模式。这些预测模式对应于如图2所示的不同预测方向。
42.进一步使用诸如利用多个参考线(mrl)的帧内预测、利用子划分的帧内预测(isp)和矩阵帧内预测(mip)等工具来扩展帧内预测。mip是帧内预测模式集合,每个帧内预测模式通过仿射变换[4]从重建像素推测当前块的预测。对于4
×
4块,存在35个模式。对于4
×
8块、8
×
4块和8
×
8块,存在19个模式。对于其它块,使用11个模式。
[0043]
用于亮度的帧内预测信令
[0044]
以下段落聚焦于平面模式、dc模式和65个定向模式的信令,省略了mrl的信令、isp的信令和mip的信令。这最后三个将在后续段落中详细描述。
[0045]
平面模式、dc模式和65个定向模式的信令
[0046]
在编码器侧,选择根据速率失真标准的最佳帧内预测模式,并且将其索引从编码器传输到解码器。为了通过熵编码执行所选模式索引的信令,建立最大可能模式(mpm)的列表。
[0047]
在vtm-6.0中,mpm列表包含6个帧内预测模式,用于发信号通知当前块的帧内预测模式。mpm列表由位于当前cu的上方和左侧的帧内编码的cu的预测模式和一些默认模式创建。上方和左侧cu位于当前块的右侧边缘和底部边缘,如图3所示。
[0048]
[0049][0050]
在范围[2-66]上使用圆形邻接,可等效地编写
[0051]
((l offset)%mod) 2≡l
–1[0052]
((l offset-1)%mod) 2≡l
–2[0053]
((l

1)%mod) 2≡l 1
[0054]
((l

0)%mod) 2≡l 2
[0055]
使用上述关系,mpm列表推导是表1中所示。
[0056]
表1:vtm-6.0中的mpm推导。a和l分别表示上方和左侧cu的预测模式。
[0057][0058]
如果用于预测当前块的所选帧内预测模式对应于六个mpm模式中的一个mpm模式,则这通过以下来发信号通知:通过具有值1的mpmflag,并且随后通过使用表2中所示的可变长度编码方案来发信号通知来自mpm列表中的候选模式。否则,mpmflag等于0,并且剩余61个模式的集合中的候选索引用5位或6位进行截断二进制编码。
[0059]
表2:vtm-6.0中的mpm信令。
[0060]
候选索引代码mpm[0]0mpm[1]10mpm[2]110mpm[3]1110mpm[4]11110mpm[5]11111
[0061]
多个参考线(mrl)的信令
[0062]
对于利用mrl的帧内预测,用标记multirefidx发信号通知用于预测的参考行。multirefidx的有效值为0、1和3,其分别发信号通知第一参考行、第二参考行和第四参考行。当multirefidx为非零时(意味着使用第二参考行或第四参考行),预测模式始终属于mpm列表。因此,没有发信号通知mpmflag。此外,从列表中排除平面。这意味着当multirefidx为非零时,只有五个预测模式可用作可能的候选模式。当multirefidx为非零时,如表3所示发信号通知预测模式。
[0063]
表3:当在vtm-6.0中multirefidx》0时,发信号通知mpm信令。
[0064]
候选索引代码mpm[1]0mpm[2]10mpm[3]110mpm[4]1110mpm[5]1111
[0065]
利用子分区的帧内预测(isp)的信令
[0066]
对于isp,用称为ispmode的标记发信号通知用于cu的分区类型。仅当multirefidx等于0时,对ispmode进行编码。ispmode的有效值为0、1和2,分别发信号通知没有分区、水平分区和垂直分区。
[0067]
矩阵帧内预测(mip)的信令
[0068]
首先用称为mipflag的标记发信号通知mip模式,值1意味着mip模式用于预测当前块,并且0意味着使用67个帧内预测模式中的一个模式。当mipflag等于1时,multirefidx必然等于0,意味着使用第一参考线,并且ispmode等于0,即不存在目标cu分区。因此,当mipflag等于1时,multirefidx和ispmode不写入比特流。如果mipflag等于1,则自vtm-6.0之后对所选择的mip模式的索引进行截断二进制编码。
[0069]
为了处理用于预测当前块的帧内预测模式是67个帧内预测模式中的一个模式并且用于预测上方cu的所选模式或者用于预测左侧cu的所选模式是mip模式的情况,每个mip模式和常规模式中的一个模式之间的映射使得能够用其映射的常规模式来替换此mip模式。自vtm-6.0之后,任何mip模式都被映射到平面。
[0070]
用于亮度的帧内预测信令的总结
[0071]
通过图4中的决策树总结用于亮度的帧内预测信令。在图4中,浅灰色的标记指示标记的值从写入到编码器侧的比特流中的先前标记的值进行推导并从解码器侧的比特流读取。这意味着浅灰色中的标记不写入编码器侧的比特流;不从解码器侧的比特流读取这些标记。
[0072]
用于色度的帧内预测信令
[0073]
对于两个色度通道,既不使用mrl、isp,也不使用mip。然而,使用两种特定工具:直接模式和分量间线性模型(cclm)。直接模式对应于将用于预测并置的亮度块的所选模式应用于当前色度块的预测。如果directflag等于1,选择直接模式用于预测当前色度块。否则,directflag等于0,选择列表l=[平面,垂直,水平,dc]中的一个模式。如果l中的一个模式等于直接模式,该模式由索引66的模式替换。在cclm中,线性模型从包围并置的亮度块的重建亮度参考样本来预测当前色度块。线性模型的参数源自重建参考样本。存在三个cclm模式,每个模式与参数的不同推导相关联。如果cclmflag等于1,选择三个cclm模式中的一个cclm模式。在这种情况下,directflag不写入比特流。否则,cclmflag等于0,并且选择直接模式或l中的模式中的一个模式。在图5中表示用于色度的帧内预测信令。
[0074]
基于神经网络的帧内预测
[0075]
用于帧内预测的神经网络从包围待预测的当前块的上下文中推断此块的预测。上下文xc由位于当前块y上方及其左侧的重建像素构成,类似于用于h.266中的帧内预测的重建参考样本集合。但是,与它不同,上下文xc朝左侧和顶部延伸,参见图6。由于此延伸,神经网络可以学习其输入上下文中的空间相关性与其给出的预测之间的关系。注意,xc中的下标“c”指示上下文中的重建像素已经被预处理,如在章节“在视频编解码器内部发信号通知基于神经网络的帧内预测模式”中所详细描述。
[0076]
如果神经网络是完全连接的,则上下文通常被平坦化为向量,并且将所得向量馈送到神经网络中。然后,由神经网络提供的向量被重新成形为当前块的形状,从而产生预测参见图7。注意,中的下标“c”指示预测的像素尚未被后处理,这在章节“在视频编解码
器内部发信号通知基于神经网络的帧内预测模式”中解释。
[0077]
如果神经网络是卷积的,则上下文可被分成两个部分。然后,将每个部分馈送到卷积层的堆叠中。在两个卷积层堆叠的输出处的特征图的两个堆叠通过完全连接性合并。最后,将合并的结果插入到转置卷积层的堆叠中,从而产生预测参见图8。
[0078]
在视频编解码器内部创建基于神经网络的帧内预测模式
[0079]
在h.265和h.266中,图像被分成编码树单元(ctu)。ctu包含亮度编码树块(ctb)、两个色度ctb和语法元素。现在,焦点放在亮度ctb上以便简化。以光栅扫描顺序一次处理一个ctb。每个ctb可以分层分成编码块(cb)。ctb中的cb以z扫描顺序处理。例如,在h.265中,待预测的块的大小可以是64
×
64、32
×
32、16
×
16、8
×
8或4
×
4。这意味着需要5个神经网络,一个神经网络针对每个待预测的块的大小。因此,基于神经网络的帧内预测模式由5个神经网络组成。在h.266中,当分层分割更复杂时,待预测的块可具有如下大小:128
×
128、64
×
64、32
×
32、16
×
16、8
×
8或4
×
4。此外,其也可以是例如大小为4
×
8的矩形。在这种情况下,解决方案是每个块大小分配一个神经网络以建立基于神经网络的模式。
[0080]
在视频编解码器内部发信号通知基于神经网络的帧内预测模式
[0081]
在将基于神经网络的帧内预测模式集成到视频编解码器[1、2、3](通常是h.265)中的不同运行中,基于神经网络的模式与现有模式系统性地竞争。对于待预测的当前块,将标记在用于帧内预测的所有其它标记之前写入比特流。值1指示选择基于神经网络的帧内预测模式以用于预测当前块。在这种情况下,用于帧内预测的其它标记不写入比特流。值0意味着选择常规帧内预测中的一个帧内预测。在这种情况下,然后将用于帧内预测的常规标记写入比特流。
[0082]
注意,上文提到的信令已在h.265中实现。在h.266中尚未提出方法。值得注意的是,当选择基于神经网络的模式时,尚不清楚如何处理标记mipflag、multirefidx和ispmode。
[0083]
训练用于帧内预测的神经网络
[0084]
在文献中,存在训练用于帧内预测的神经网络的两个主要方式。在以下两个章节中描述了被称为通过“随机”数据提取进行训练和通过“分区”数据提取进行训练的两种方式。
[0085]
通过“随机”数据提取进行训练
[0086]
在训练用于帧内预测的神经网络的第一种方式中,通过感兴趣的编解码器在随机空间位置处从ycbcr图像中及其重建中提取块和其上下文的对,然后在这些对上训练神经网络。更具体地,我们以用于预测w
×
w块的神经网络的训练为例。对于ycbcr图像的集合中的每个图像i,该图像经由感兴趣的编解码器编码,并且若干次,(i)在随机空间位置(x,y)处从i提取w
×
w块y,参见图9;(ii)在(x,y)处从i的重建中提取其上下文x;(iii)对块及其上下文进行预处理并且添加到用于预测w
×
w块的神经网络的训练集合中。图9示出了在相同随机空间位置x,y处通过h.265使用为37的量化参数(qp)从原始图像i提取w
×
w块y和从i的重建i提取其上下文x。这里,图像处于4:2:0,w=8、x=8和y=16。注意,对x,y对应于i中的y左上方的像素的位置。
[0087]
然而,使用通过“随机”数据提取进行训练,经训练的神经网络通常提供模糊预测,
因为它们在块和其上下文的不受限制的多个对上被训练,通常在给定其上下文的情况下,块的许多预测是可能的。
[0088]
通过“分区”数据提取进行训练
[0089]
在训练用于帧内预测的神经网络的第二种方式中,通过编解码器从ycbcr图像的分区中提取块及其上下文的对,然后在这些对上训练神经网络。同样,我们将聚焦于用于预测w
×
w块的神经网络的训练的示例。对于图像的集合中的每个图像i,该图像经由感兴趣的编解码器编码,并且对于由图像分区返回的每个w
×
w块y,(i)在由图像分区给出的空间位置(xy,yy)处从i提取y,参见图10,(ii)在(xy,yy)处从i的重建中提取其上下文x;(iii)对块及其上下文进行预处理并且添加到用于预测w
×
w块的神经网络的训练集合中。图10示出了在由图像分区给出的空间位置xy,yy处通过h.265用为37的qp从原始图像i中提取w
×
w块y和从i的重建中提取其上下文x。这里,图像处于4:2:0,w=8、xy=8、yy=24。注意,对xy,yy对应于i中的y左上方的像素的位置。
[0090]
但是,使用通过“分区”数据提取进行的训练,经训练的神经网络主要学习感兴趣的编解码器的帧内预测。
[0091]
所描述的方面旨在训练用于帧内预测的神经网络,使得其学习与感兴趣的编解码器中的帧内预测偏离的帧内预测,同时在速率失真性能方面对于编解码器仍然有价值。在编码器和解码器外部训练神经网络集合。可存在唯一的神经网络集合,并且在实际编码和解码之前训练该组神经网络。然后将相同经训练的神经网络集合放入编码器和解码器两者中。解码器不需要信息来告知其选择神经网络集合。然后,实际编码和解码可以开始。
[0092]
用于帧内预测的神经网络的迭代训练
[0093]
所描述的方面的第一推力是避免经学习的模型给出模糊预测的情况,因为该模型在块及其上下文的不受限制的多个对上被训练。这就是为什么通过编解码器编码ycbcr图像的集合γ以产生训练集合的原因,其中s
h,w
包含由γ中图像的分区提供的大小为h
×
w的块的对及其上下文。然后,在s
h,w
上训练由θ
h,w
进行参数化的每个神经网络f
h,w
(.;θ
h,w
),参见方法1。rh是编解码器中的所有可能的块高度的集合,其中rw是编解码器中的所有可能的块宽度的集合。
[0094]
必须注意的是,感兴趣的编解码器中的图像分区返回变换块(tb)。在编解码器内,可能存在不是tb大小的编码块(cb)大小,因为此大小的cb被迫被分割。编解码器中的基于神经网络的单个附加帧内预测模式具有专用于预测该大小的cb的神经网络。因此,必须训练用于预测此大小的cb的神经网络,但是其训练集合无法通过先前段落中描述的方法生成。相反,在章节“通过“随机”数据提取进行训练”中解释的通过“随机”数据提取进行训练可用于训练此神经网络。作为示例,在h.265中,h=w,因为块是正方形,并且w∈rw={4,8,16,32}。实际上,最大cb大小64
×
64不是tb大小,因为在图像分区期间,64
×
64cb被迫分割。
[0095]
方法1:感兴趣的编解码器中用于帧内预测的神经网络的迭代训练。
[0096][0097][0098]
在训练的此阶段,学习模型倾向于在感兴趣的编解码器中再现帧内预测。这是由于生成训练块的图像分区确保了每个训练块由该编解码器中的帧内预测模式从其重建参考样本集合中相对良好地预测。为了允许神经网络学习从编解码器中的预测逐渐偏离的帧内预测,同时对于编解码器仍然有价值,对于l-1次迭代,(i)如最后一段中所述建立训练集合,但是用具有基于神经网络的单个附加模式的编解码器来替换编解码器,(ii)在这些训练集合上重新训练神经网络,参见方法1。
[0099]
以下功能取决于编解码器的特异性:通过编解码器编码γ中的每个图像,然后提取由此图像的分区提供的大小为h
×
w的块及其上下文的对,h∈rh,w∈rw,在方法1中称为“extract_from_partitioning”。类似地,以下功能取决于编解码器的架构:通过具有基于神经网络的单个附加帧内预测模式的编解码器编码γ中的每个图像,然后提取由此图像的分区提供的大小为h
×
w的块及其上下文的对,h∈rh,w∈rw,在方法1中称为“extract_from_partitioning_nn”。这就是为什么在以下两个章节中,当将迭代训练应用于特定编解码器时提出“extract_from_partitioning”和“extract_from_partitioning_nn”的原因。在方法1中,l
h,w
是通过神经网络f
h,w
(.;θ
h,w
)的参数θ
h,w
最小化的目标函数。
[0100]
h.265中用于帧内预测的神经网络的迭代训练
[0101]
当感兴趣的编解码器是h.265时,可精确地描述“extract_from_partitioning”,参见方法2。γ中的图像i经由h.265编码,表示为“h265”,通过h.265产生i的重建和来自i的分区的块的特性集合b。块的特性集合了i中的块左上方像素的位置(x,y)、块宽度w、尚未重建的块左下方的行的数量n0和尚未重建的块右上方的列的数量n1。注意,n0和n1对于在尚未重建的块的上下文中填充像素是有用的。然后,对于每个块,其特性用于从i提取块y以及
从i提取其上下文x,参见图11。图11示出了在由图像分区给出的空间位置x,y处,通过h.265用为37的qp经由来自原始图像i的w
×
w块y和来自i的重建的其上下文x的“extract_pair”进行提取的示例。图像处于4:2:0,w=8、x=8、y=16。这里,尚未重建块左下方的n0=8个行,但已经重建了块右上方的所有行。
[0102]
最后,x和y通过功能“预处理”进行预处理,产生要添加到训练集合sw中的训练对(xc,yc)。
[0103]
方法2:h.265情况下的“extract_from_partitioning”[0104][0105]“extract_from_partitioning_nn”遵循与“extract_from_partitioning”相同的描述,但是通过具有基于神经网络的单个附加帧内预测模式的h.265替换h.265,在方法3中表示为“h265_nn”。
[0106]
方法3:h.265情况下的“extract_from_partitioning_nn”[0107]
[0116][0117]
所提议的迭代训练的变体
[0118]
从中抽取量化参数的任何分布
[0119]
默认情况下,在方法2、方法3、方法4和方法5中,对于要通过感兴趣的编解码器编码的γ中给定的ycbcr图像i,从集合{22,27,32,37}中统一地抽取用于编码的量化参数(qp)。但是,可以从任何集合抽取qp,不一定是统一的。
[0120]
在训练的每次迭代时神经网络的随机初始化
[0121]
在方法1中,在具有指数的迭代时,在最小化开始时,用在具有索引i-1的迭代结束时获得的神经网络参数来初始化每个神经网络的参数。另选地,在具有指数i的迭代时,在最小化开始时,可以随机初始化每个神经网络的参数。
[0122]
从原始图像中提取给定块的上下文
[0123]
在先前的章节中,对于通过感兴趣的编解码器编码的γ中给定的ycbcr图像i,产生其重建从i提取块y,而从提取其上下文x。可替代地,上下文也可以从i提取。例如,在感兴趣的编解码器是h.266的情况下,当前变体将图12转变为图13。图13示出了在由图像分区给出的空间位置x,y处经由来自原始图像i的h
×
w块y和其上下文x的“extract_pair”进行提取,h.266用于利用为37的qp对i进行编码。图像处于4:2:0,h=8、w=4、x=8、y=16。这里,尚未重建块左下方的n0=8个行,但已经重建了块右上方的所有行。
[0124]
在训练的第一次迭代时用“分区”数据提取替代“随机”数据提取
[0125]
在方法1中,第一步骤对应于“分区”数据提取,其原理在先前解释过。相反,第一步骤可以对应于“随机”数据提取,其过程在先前的章节中详细描述。注意,在后一种情况下,在迭代训练的第一次迭代结束时,经训练的神经网络是极其“泛化”的帧内预测器。然后,从
[0142][0143][0144]
从每个ycbcr图像中提取等量的训练对
[0145]
从方法2到方法8,如果γ的某些图像大于其它图像,用从相对较大的图像中提取的预处理的块和其预处理的上下文的更多个对来填充训练集合。这意味着在训练对中发现的各种纹理与相对较大图像中存在的那些纹理是不平衡的。为了绕过这一点,从方法2到方法8的每个方法可以用如下标准来补充:该标准将从γ中的每个图像提取的训练对的数量限制为s∈n
*
。通常,当γ含有超过1百万个ycbcr图像时,运行良好。若要避免
仅提取位于ycbcr图像左上角周围的块,对于每个图像,在从该图像提取的所有训练对中统一地抽取s个训练对。例如,方法9用上述标准补充方法5。方法10用上述标准补充方法6。
[0146]
方法9:h.266情况下的“extract_from_partitioning_nn”,标准在前面章节中详细描述
[0147][0148][0149]
方法10:h.266和章节“通过神经网络从训练集合中消除单独从其上下文中“不可预测”的块”中第一条件情况下的“extract_from_partitioning_nn”,标准在前面段落中详细描述
[0150]
[0151][0152]
在方法9和方法10中,功能“shuffle”将其输入集合的元素”置乱。b的元素集合了由图像分区返回的块的特性。此外,“break”语句断开了最内层的“for”循环,如在c中。
[0153]
图17中示出了根据本文所述的方面的方法1700的一个实施方案。该方法在开始框1701开始,并且开始于框1710,以使用视频块和周围区域的分区部分的对来训练用于视频块的帧内预测的神经网络集合。该方法从框1710进行到框1720,以通过迭代地使用神经网络集合作为用于编解码器的单个附加帧内编码模式来提取视频块和周围区域的另外的对。控制从框1720进行到框1730,以使用提取的另外的对来重新训练神经网络集合,以生成用于帧内预测的神经网络集合。
[0154]
图18中示出了根据所述方面的方法1800的另一个实施方案。该方法在开始框1801开始,并且开始于框1810,以使用视频块和周围区域的分区部分的对来训练用于视频块的帧内预测的神经网络集合。该方法从框1810进行到框1820,以通过迭代地使用神经网络集合作为用于编解码器的单个附加帧内编码模式来提取视频块和周围区域的另外的对。控制从框1820进行到框1830,以使用提取的另外的对来重新训练神经网络集合,以生成用于帧内预测的神经网络集合。控制从框1830进行到框1840,以使用所生成的用于帧内预测的神经网络集合对视频块进行编码/解码。
[0155]
图19示出了用于使用基于相邻样本依赖参数模型的编码模式的简化来对视频数据进行编码、解码、压缩或解压缩的装置1900的一个实施方案。该装置包括处理器1910并且可以通过至少一个端口互连到存储器1920。处理器1910和存储器1920两者还可以具有与外部连接的一个或多个附加互连。
[0156]
处理器1910还被配置为在比特流中插入或接收信息,并且使用所述方面中的任一方面来进行压缩、编码或解码。
[0157]
本文档描述了多个方面,包括工具、特征、实施方案、模型、方法等。这些方面中的许多方面被具体地描述,并且至少为了示出个体特性,通常以可能听起来有限的方式进行描述。然而,这是为了描述清楚,并不限制这些方面的应用或范围。实际上,所有不同的方面可以组合和互换以提供进一步的方面。此外,这些方面也可与先前提交中描述的方面组合和互换。
[0158]
本文档中描述和设想的方面可以许多不同的形式实现。下文的图12、图13和图14提供了一些实施方案,但是设想了其他实施方案,并且图12、图13和图14的讨论不限制具体实施的广度。这些方面中的至少一个方面通常涉及视频编码和解码,并且至少一个其他方面通常涉及发射生成或编码的比特流。这些和其他方面可实现为方法、装置、其上存储有用于根据所述方法中任一种对视频数据编码或解码的指令的计算机可读存储介质,和/或其上存储有根据所述方法中任一种生成的比特流的计算机可读存储介质。
[0159]
在本技术中,术语“重建”和“解码”可以互换使用,术语“像素”和“样本”可以互换使用,术语“图像”、“图片”和“帧”可以互换使用。通常,但不一定,术语“重构”在编码端使用,而“解码”在解码端使用。
[0160]
本文描述了各种方法,并且每种方法包括用于实现方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或用途。
[0161]
本文献中所描述的各种方法和其他方面可用于修改视频编码器100和解码器200的模块(例如,帧内预测、熵编码和/或解码模块(160,360,145,330)),如图12和图13所示。此外,本发明方面不限于vvc或hevc,并且可应用于例如其他标准和推荐(无论是预先存在的还是未来开发的)以及任何此类标准和推荐的扩展(包括vvc和hevc)。除非另外指明或技术上排除在外,否则本文献中所述的方面可单独或组合使用。
[0162]
本文献中使用各种数值,例如,{{1,0},{3,1},{1,1}}。具体值是为了示例目的,并且所述方面不限于这些具体值。
[0163]
图12例示了编码器100。设想了这一编码器100的变型,但是为了清楚起见,下文描述了编码器100而不描述所有预期的变型。
[0164]
在编码之前,视频序列可经过预编码处理(101),例如,将颜色变换应用于输入彩色图片(例如,从rgb 4:4:4到ycbcr 4:2:0的转换),或执行输入图片分量的重新映射,以便获得对压缩更具弹性的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附接到比特流。
[0165]
在编码器100中,图片由编码器元件进行编码,如下所述。以例如cu为单位对要编码的图片进行分区(102)和处理。例如,使用帧内模式或帧间模式对每个单元进行编码。当单元以帧内模式进行编码时,其执行帧内预测(160)。在帧间模式中,执行运动估计(175)和
补偿(170)。编码器决定(105)帧内模式或帧间模式中的哪一者用于对单元进行编码,并且通过例如预测模式标记来指示帧内/帧间决策。例如通过从原始图像块减去(110)预测块来计算预测残差。
[0166]
然后对预测残差进行变换(125)和量化(130)。对经量化的变换系数以及运动向量和其他语法元素进行熵编码(145),以输出比特流。编码器可跳过变换,并对未变换的残余信号直接应用量化。编码器可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行编码。
[0167]
编码器对编码块进行解码以提供用于进一步预测的参考。对量化的变换系数进行解量化(140)和逆变换(150)以对预测残差进行解码。组合(155)经解码的预测残差和预测块,重建图像块。将环路滤波器(165)应用到重建的图像,以执行例如去块效应/sao(样本自适应偏移)滤波,从而减少编码伪影。经滤波的图像存储在参考图片缓冲器(180)中。
[0168]
图13例示了视频解码器200的框图。在解码器200中,比特流由解码器元件进行解码,如下所述。视频解码器200通常执行与如图12所述的编码程相反的解码程。编码器100通常还执行视频解码作为对视频数据编码的一部分。
[0169]
解码器的输入包括视频比特流,该视频比特流可由视频编码器100生成。首先对比特流进行熵解码(230)以获得变换系数、运动向量和其他经编码的信息。图片分区信息指示如何对图片进行分区。因此,解码器可以根据解码图片分区信息划分(235)图片。对变换系数进行解量化(240)和逆变换(250)以对预测残差进行解码。组合(255)经解码的预测残差和预测块,重建图像块。可从帧内预测(260)或运动补偿预测(即帧间预测)(275)获得(270)预测块。向重建图像应用环路滤波器(265)。经滤波的图像存储在参考图片缓冲器(280)中。
[0170]
经解码的图片还可经过解码后处理(285),例如,逆颜色变换(例如,从ycbcr 4:2:0到rgb 4:4:4的变换)或执行在预编码处理(101)中执行的重新映射过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中发信号通知的元数据。
[0171]
图14例示了在其中实现各种方面和实施方案的系统的示例的框图。系统1000可体现为包括下文所述的各个部件的设备,并且被配置为执行本文档中所述的一个或多个方面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器和服务器。系统1000的元件可单独地或组合地体现在单个集成电路(ic)、多个ic和/或分立部件中。例如,在至少一个实施方案中,系统1000的处理元件和编码器/解码器元件分布在多个ic和/或分立部件上。在各种实施方案中,系统1000经由例如通信总线或通过专用输入和/或输出端口通信地耦接到其他类似系统或其他电子设备。在各种实施方案中,系统1000被配置为实现本文档中所述的一个或多个方面。
[0172]
系统1000包括至少一个处理器1010,该处理器被配置为执行加载到其中的指令,以用于实现例如本文档中所述的各个方面。处理器1010可包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统1000包括至少一个存储器1020(例如,易失性存储器设备和/或非易失性存储器设备)。系统1000包括存储设备1040,该存储设备可以包括非易失性存储器和/或易失性存储器,包括但不限于eeprom、rom、prom、ram、dram、sram、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备1040可包括内部存储设备、附接存储设备和/或网络可访问的存储设备。
[0173]
系统1000包括编码器/解码器模块1030,该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频,并且编码器/解码器模块1030可包括其自身的处理器和存储器。编码器/解码器模块1030表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。此外,编码器/解码器模块1030可实现为系统1000的独立元件,或者可结合在处理器1010内作为本领域技术人员已知的硬件和软件的组合。
[0174]
要加载到处理器1010或编码器/解码器1030上以执行本文档中所述的各个方面的程序代码可存储在存储设备1040中,并且随后被加载到存储器1020上以供处理器1010执行。根据各种实施方案,处理器1010、存储器1020、存储设备1040和编码器/解码器模块1030中的一者或多者可在本文档中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
[0175]
在若干实施方案中,处理器1010和/或编码器/解码器模块1030内部的存储器用于存储指令和提供工作存储器以用于在编码或解码期间需要的处理。然而,在其他实施方案中,处理设备外部的存储器(例如,处理设备可以是处理器1010或编码器/解码器模块1030)用于这些功能中的一个或多个功能。外部存储器可以是存储器1020和/或存储设备1040,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储电视机的操作系统。在至少一个实施方案中,诸如ram的快速外部动态易失性存储器被用作用于视频编码和解码操作的工作存储器,诸如用于mpeg-2、hevc或vvc(通用视频编码)。
[0176]
对系统1000的元件的输入可通过如框1130中所示的各种输入设备提供。此类输入设备包括但不限于:(i)接收例如由广播器通过无线电发射的rf信号的rf部分,(ii)复合输入端子,(iii)usb输入端子,和/或(iv)hdmi输入端子。
[0177]
在各种实施方案中,框1130的输入设备具有如本领域已知的相关联的相应输入处理元件。例如,rf部分可与以下所必需的元件相关联:(i)选择所需的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频选择的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据分组流。各种实施方案的rf部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。rf部分可包括执行这些功能中的各种功能的调谐器,这些功能包括例如下变频接收信号至更低频率(例如,中频或近基带频率)或至基带。在一个机顶盒实施方案中,rf部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质发射的rf信号,并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数变换器。在各种实施方案中,rf部分包括天线。
[0178]
此外,usb和/或hdmi端子可包括用于跨usb和/或hdmi连接将系统1000连接到其他电子设备的相应接口处理器。应当理解,输入处理(例如reed-solomon纠错)的各个方面可根据需要例如在单独的输入处理ic内或在处理器1010内实现。类似地,usb或hdmi接口处理
的方面可根据需要在单独的接口ic内或在处理器1010内实现。将解调流、纠错流和解复用流提供给各种处理元件,包括例如处理器1010以及编码器/解码器1030,该处理元件与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上。
[0179]
系统1000的各种元件可设置在集成外壳内。在集成外壳内,各种元件可使用合适的连接布置1140(例如,如本领域已知的内部总线,包括ic间(i2c)总线、布线和印刷电路板)互连并且在其间发射数据。
[0180]
系统1000包括能够经由通信信道1060与其他设备通信的通信接口1050。通信接口1050可包括但不限于被配置为通过通信信道1060发射和接收数据的收发器。通信接口1050可包括但不限于调制解调器或网卡,并且通信信道1060可例如在有线和/或无线介质内实现。
[0181]
在各种实施方案中,使用诸如ieee 802.11的无线网络将数据流式传输到系统1000。例如,这些实施方案的无线信号通过适用于wi-fi通信的通信信道1060和通信接口1050接收。这些实施方案的通信信道1060通常连接到接入点或路由器,该接入点或路由器提供对包括互联网的外部网络的访问,以用于允许流式应用和其他云上通信。其他实施方案使用机顶盒向系统1000提供流式数据,该机顶盒通过输入块1130的hdmi连接递送数据。还有其他实施方案使用输入块1130的rf连接向系统1000提供流式数据。
[0182]
系统1000可将输出信号提供到各种输出设备,包括显示器1100、扬声器1110和其他外围设备1120。在实施方案的各个示例中,其他外围设备1120包括以下中的一者或多者:独立dvr、磁盘播放器、立体系统、照明系统和基于系统1000的输出提供功能的其他设备。在各种实施方案中,控制信号使用信令(诸如av.link、cec或其他通信协议)在系统1000与显示器1100、扬声器1110或其他外围设备1120之间传送,该其他通信协议使得能够在有或没有用户干预的情况下进行设备到设备控制。输出设备可通过相应接口1070、1080和1090经由专用连接通信地耦接到系统1000。另选地,输出设备可使用通信信道1060经由通信接口1050连接到系统1000。显示器1100和扬声器1110可与电子设备(例如,电视机)中的系统1000的其他部件集成在单个单元中。在各种实施方案中,显示接口1070包括显示驱动器,例如,定时控制器(t con)芯片。
[0183]
另选地,如果输入1130的rf部分是单独机顶盒的一部分,则显示器1100和扬声器1110可选地与其他部件中的一个或多个部件分开。在显示器1100和扬声器1110为外部部件的各种实施方案中,输出信号可经由专用输出连接(包括例如hdmi端口、usb端口或comp输出)提供。
[0184]
这些实施方案可由处理器1010或由硬件或由硬件和软件的组合实现的计算机软件执行。作为非限制性示例,这些实施方案可由一个或多个集成电路实现。作为非限制性示例,存储器1020可以是适合于技术环境的任意类型,并且可使用任何适当的数据存储技术来实现,诸如光学存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。作为非限制性示例,处理器1010可以是适合于技术环境的任意类型,并且可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。
[0185]
各种具体实施参与解码。如本技术中所用,“解码”可包括例如对所接收的编码序列执行以产生适于显示的最终输出的过程的全部或部分。在各种实施方案中,此类过程包括通常由解码器执行的一个或多个过程,例如熵解码、逆量化、逆变换和差分解码。在各种
实施方案中,此类过程还或另选地包括由本技术中描述的各种实施方式的解码器执行的过程,例如,提取待用于各种帧内预测参考阵列的权重索引。
[0186]
作为进一步的示例,在一个实施方案中,“解码”仅是指熵解码,在另一个实施方案中,“解码”仅是指差分解码,并且在又一个实施方案中,“解码”是指熵解码和差分解码的组合。短语“解码过程”是具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。
[0187]
各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式,如在本技术中使用的“编码”可涵盖例如对输入视频序列执行以产生编码比特流的过程的全部或部分。在各种实施方案中,此类过程包括通常由编码器执行的一个或多个过程,例如,分区、差分编码、变换、量化和熵编码。在各种实施方案中,此类过程还或另选地包括由本技术中描述的各种实施方式的编码器执行的过程,例如,对帧内预测参考阵列进行加权。
[0188]
作为进一步的示例,在一个实施方案中,“编码”仅是指熵编码,在另一个实施方案中,“编码”仅是指差分编码,并且在又一个实施方案中,“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。
[0189]
注意,本文所用的语法元素是描述性术语。因此,它们不排除使用其他语法元素名称。
[0190]
当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。
[0191]
各种实施方案是指速率失真计算或速率失真优化。在编码过程期间,通常考虑速率和失真之间的平衡或权衡,这常常考虑到计算复杂性的约束。速率失真优化通常表述为最小化速率失真函数,该速率失真函数是速率和失真的加权和。存在不同的方法解决速率失真优化问题。例如,这些方法可基于对所有编码选项(包括所有考虑的模式或编码参数值)的广泛测试,并且完整评估其编码成本以及重建信号在编码和解码之后的相关失真。更快的方法还可用于降低编码复杂性,特别是对基于预测或预测残差信号而不是重建的残差信号的近似失真的计算。也可使用这两种方法的混合,诸如通过针对可能的编码选项中的仅一些编码选项使用近似失真,而针对其他编码选项使用完全失真。其他方法仅评估可能的编码选项的子集。更一般地,许多方法采用各种技术中任一种来执行优化,但是优化不一定是对编码成本和相关失真两者的完整评估。
[0192]
本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的处理器中实施,该处理设备包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“pda”)以及便于最终用户之间信息通信的其他设备。
[0193]
提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本文献通篇的各个地方的任何其他变型不一定都是指相同的实施
方案。
[0194]
此外,本文档可提及“确定”各条信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。
[0195]
此外,本文献可指“访问”各条信息。访问信息可包括例如接收信息、检索信息(例如,从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。
[0196]
此外,本文献可指“接收”各条信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如,从存储器)中的一者或多者。此外,在诸如例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
[0197]
应当理解,例如,在“a/b”、“a和/或b”以及“a和b中的至少一者”的情况下,使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(a),或仅选择第二列出的选项(b),或选择两个选项(a和b)。作为进一步的示例,在“a、b和/或c”和“a、b和c中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(a),或仅选择第二列出的选项(b),或仅选择第三列出的选项(c),或仅选择第一列出的选项和第二列出的选项(a和b),或仅选择第一列出的选项和第三列出的选项(a和c),或仅选择第二列出的选项和第三列出的选项(b和c),或选择所有三个选项(a和b和c)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
[0198]
而且,如本文所用,词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。例如,在某些实施方案中,编码器发信号通知多个权重中要用于帧内预测参考阵列的特定权重。这样,在一个实施方案中,在编码器侧和解码器侧两者均使用相同的参数。因此,例如,编码器可将特定参数发射(显式信令)到解码器,使得解码器可使用相同的特定参数。相反,如果解码器已具有特定参数以及其他,则可在不发射(隐式信令)的情况下使用信令,以简单允许解码器知道和选择特定参数。通过避免发射任何实际功能,在各种实施方案中实现了位节省。应当理解,信令可以各种方式实现。例如,在各种实施方案中,使用一个或多个语法元素、标记等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式,但是词语“signal(信号)”在本文也可用作名词。
[0199]
对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带所述实施方案的比特流。可格式化此类信号例如为电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流编码并且用编码的数据流调制载体。信号携带的信息可以是例如模拟或数字信息。已知的是,信号可通过各种不同的有线或无线链路发射。信号可存储在处理器可读介质上。
[0200]
实施方案可包括跨各种不同的权利要求类别和类型单独的或组合的以下特征或实体中的一个或多个:
[0201]
·
在编解码器中使用神经网络集合作为附加预测模式,该模式可以是帧内预测模式,并且神经网络可以是各种大小。
[0202]
·
使用包括不同大小的神经网络的单个附加帧内预测模式。
[0203]
·
使用包括不同大小的神经网络的单个附加帧内预测模式,其中使用具有单个附加帧内预测模式的编解码器来构建神经网络集合的初始训练集合,并且用初始训练集合重新训练包括该集合的神经网络。
[0204]
·
上述单个帧内预测模式,其中通过随机数据提取来训练对应于大小中的一个大小的神经网络。
[0205]
·
在h.265编解码器中使用神经网络集合作为附加帧内预测模式,这些模式可以是帧内预测模式,并且神经网络可以是各种大小。
[0206]
·
在h.265编解码器中训练上述神经网络集合作为附加帧内预测模式,其中对于每个块,使用来自分区块的特性集合从图像中提取块及其上下文,并且对特性及其上下文进行预处理以产生待添加到训练集合中的训练对。
[0207]
·
训练用于帧内预测的至少一个神经网络,其中神经网络学习与编解码器中的帧内预测偏离的帧内预测,同时在速率失真性能方面对于编解码器仍然有价值。
[0208]
·
使用编解码器对图像集合进行编码/解码以产生包含块和其上下文的对的训练集合,块的大小由图像中的至少一个图像的分区提供,并且使用训练集合来训练对应的神经网络。
[0209]
·
上述编码/解码,其中块是矩形的。
[0210]
·
包括所描述的语法元素中的一个或多个语法元素或其变型的比特流或信号。
[0211]
·
对包括所描述的语法元素中的一个或多个语法元素或其变型的比特流或信号进行创建和/或传输和/或接收和/或解码。
[0212]
·
根据所描述的实施方案中的任一实施方案执行环路滤波的电视机、机顶盒、移动电话、平板电脑或其他电子设备。
[0213]
·
根据所描述的实施方案中的任一实施方案执行环路滤波并(例如,使用监视器、屏幕或其他类型的显示器)显示所得图像的电视机、机顶盒、移动电话、平板电脑或其他电子设备。
[0214]
·
调谐(例如,使用调谐器)信道以接收包括编码图像的信号并根据所描述的实施方案中任一实施方案执行环路滤波的电视机、机顶盒、移动电话、平板电脑或其他电子设备。
[0215]
·
通过无线电(例如,使用天线)接收包括编码图像的信号并根据所描述的实施方案中任一实施方案执行环路滤波的电视机、机顶盒、移动电话、平板电脑或其他电子设备。
[0216]
在整个本说明书中还支持和设想各种其它广义以及特殊发明和权利要求。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献