图像编码方法、图像编码方法、装置以及计算机存储介质与流程

2022-11-19 07:50:58 来源：中国专利 TAG：

1.本技术涉及特征编码技术领域，特别是涉及一种图像编码方法、图像编码方法、装置以及计算机存储介质。

背景技术：

2.传统的图像编码技术是针对人类视觉特性设计的，而随着深度神经网络在各项机器视觉任务中展现出的优越性能，例如图像分类、目标检测、语义分割等，涌现出大量基于机器视觉的人工智能应用。为了保证机器视觉任务的性能不因图像编码过程而受损，采取先分析后编码的模式应对机器视觉需求，即在图像获取端直接将无损的图像通过神经网络进行特征提取，然后对所提取的特征进行编码传输，解码端直接利用解码后的特征输入到后续网络结构中完成不同的机器视觉任务。因此，为了节省传输带宽资源，需要研究针对机器视觉的图像编码方法。
3.目前的特征编码算法主要有两大类：基于传统的编码方法和基于学习的方案。其中基于传统的编码方法主要有以下几种，一是通过使用低精度的数据类型来替代高精度的数据类型，从而减少原始特征数据所占用的空间，但是其本质上并不是真正的对特征数据的编码，而是从计算机存储的角度来实现的；二是通过降维的方式，例如pca(主成分分析法)，来提取原始特征数据的主要数据成分信息，从而可以使用低维度的数据来大体上表示原始数据的信息，属于有损编码。三是混合编码器方案，即先将深度特征进行量化，然后使用例如高效率视频编码(hevc)、h.266/vvc等编码器对量化后的特征进行有损编码。该方案的缺点在于，混合编码器的有损编码降质与特征在进行视觉分析任务时性能的降质不一致，会导致特征无法提供视觉分析需要的重要信息。

技术实现要素：

4.本技术提供一种图像编码方法、图像编码方法、装置以及计算机存储介质。
5.本技术采用的一个技术方案是提供一种图像编码方法，所述图像编码方法包括：
6.输入待编码图像，并提取所述待编码图像的待编码特征；
7.将所述待编码特征输入主编码网络进行特征变换，得到第一编码特征；
8.将所述第一编码特征输入熵模型网络进行特征分析，得到所述第一编码特征的上下文参数和概率估计参数；
9.根据所述上下文参数和所述概率估计参数，获取所述第一编码特征的分布信息；
10.采用所述主编码网络根据所述分布信息对所述第一编码特征进行编码，得到所述待编码特征的特征码流。
11.其中，所述将所述第一编码特征输入熵模型网络进行特征分析，得到所述第一编码特征的上下文参数和概率估计参数，包括：
12.对所述第一编码特征进行量化处理，得到第二编码特征；
13.将所述第二编码特征依次进行熵编码和熵解码，得到第三编码特征；
14.基于所述第三编码特征进行概率估计，得到所述第一编码特征的概率估计参数；
15.获取所述第二编码特征与相邻编码特征的上下文相关性，并基于所述上下文相关性得到所述第一编码特征的上下文参数。
16.其中，所述对所述第一编码特征进行量化处理，得到第二编码特征之前，所述图像编码方法还包括：
17.对所述第一编码特征进行特征变换，得到所述熵模型网络的待编码特征，其中，所述待编码特征的特征维度小于所述第一编码特征的特征维度。
18.其中，所述根据所述上下文参数和所述概率估计参数，获取所述第一编码特征的分布信息，包括：
19.将所述上下文参数和所述概率估计参数沿通道维度进行拼接；
20.将拼接结果进行特征变换，得到所述第一编码特征的分布信息。
21.其中，所述采用所述主编码网络根据所述分布信息对所述第一编码特征进行编码，得到所述待编码特征的特征码流之后，所述图像编码方法还包括：
22.对所述特征码流进行解码，得到重建图像；
23.获取所述重建图像和所述待编码图像的多个维度的评价指标；
24.利用所述评价指标对所述主编码网络和所述熵模型网络进行网络训练。
25.其中，所述评价指标包括感知相似度方式和感知距离方式中的至少一种。
26.其中，所述将所述待编码特征输入主编码网络进行特征变换，得到第一编码特征，包括：
27.将所述待编码特征输入所述主编码网络，依次经过以下子网络进行处理：预处理子网络、特征增强子网络以及特征裁剪子网络中的一个或多个，得到所述第一编码特征。
28.其中，所述预处理子网络通过采用若干卷积层，和/或若干残差块实现预处理功能，通过所述预处理功能增加输入的所述待编码特征的非线性化程度，输出预处理后的待编码特征。
29.其中，所述特征增强子网络包括空间注意力子网络、可逆子网络、通道注意力子网络、多尺度残差子网络中的一个或多种；
30.所述特征增强子网络用于输入所述待编码特征，或者所述预处理子网络输出的预处理后的待编码特征，并将所述待编码特征或者预处理后的待编码特征依次输入空间注意力子网络、可逆子网络、通道注意力子网络、多尺度残差子网络中的一个或多种，以对所述待编码特征或者预处理后的待编码特征进行特征增强，并输出特征增强后的待编码特征。
31.其中，所述可逆子网络由至少一个可逆单元组成，其中，所述可逆单元包括特征重排层和特征耦合层；所述特征重排层，用于改变所述待编码特征的特征形状，所述特征耦合层，用于将上一层的特征与本层特征相结合。
32.其中，所述特征裁剪子网络用于将输入的待编码特征，或者所述预处理子网络输出的预处理后的待编码特征，或者所述特征增强子网络输出的特征增强后的待编码特征进行特征重排，得到重排特征，并利用预设裁剪系数计算所述重排特征的特征通道维度平均值，以按照所述特征通道维度平均值获取所述重排特征的裁剪特征，实现特征裁剪功能，并输出所述第一编码特征。
33.本技术采用的另一个技术方案是提供一种图像解码方法，所述图像解码方法包
括：
34.输入特征码流；
35.采用所述主编码网络根据预设分布信息对所述特征码流进行解码，得到所述特征码流的第一解码特征，其中，所述预设分布信息由熵模型网络在编码过程中确定；
36.将所述第一解码特征输入所述主编码网络进行特征重建，得到第二解码特征；
37.按照所述第二解码特征进行重建，得到解码图像。
38.本技术采用的另一个技术方案是提供一种图像编码装置，所述图像编码装置包括存储器以及与所述存储器耦接的处理器；
39.其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如上述的图像编码方法。
40.本技术采用的另一个技术方案是提供一种图像解码装置，所述图像解码装置包括存储器以及与所述存储器耦接的处理器；
41.其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如上述的图像解码方法。
42.本技术采用的另一个技术方案是提供一种计算机存储介质，所述计算机存储介质用于存储程序数据，所述程序数据在被计算机执行时，用以实现如上述的图像编码方法和/或图像解码方法。
43.本技术的有益效果是：图像编码装置输入待编码图像，并提取所述待编码图像的待编码特征；将所述待编码特征输入主编码网络进行特征变换，得到第一编码特征；将所述第一编码特征输入熵模型网络进行特征分析，得到所述第一编码特征的上下文参数和概率估计参数；根据所述上下文参数和所述概率估计参数，获取所述第一编码特征的分布信息；采用所述主编码网络根据所述分布信息对所述第一编码特征进行编码，得到所述待编码特征的特征码流。本技术的图像编码方法通过结合特征的上下文参数和概率估计参数能够更加准确的估计主编码网络的待编码特征的分布。
附图说明
44.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1是本技术提供的图像编码方法一实施例的流程示意图；
46.图2是本技术提供的端对端图像编解码方法的网络结构的示意图；
47.图3是本技术提供的稠密块结构一实施例的结构示意图；
48.图4是本技术提供的leakyrelu激活函数的示意图；
49.图5是本技术提供的包含稠密块的预处理与后处理单元的结构示意图；
50.图6是本技术提供的多注意力机制的可逆增强子网络的结构示意图；
51.图7是本技术提供的空间注意力子网络的结构示意图；
52.图8是本技术提供的形状为n*h*w的特征的示意图；
53.图9是本技术提供的可逆子网络的结构示意图；
54.图10是本技术提供的通道注意力子网络的结构示意图；
55.图11是本技术提供的多尺度残差子网络的结构示意图；
56.图12是本技术提供的空间注意力层的结构示意图；
57.图13是本技术提供的可逆子网络单元的结构示意图；
58.图14是本技术提供的通道注意力与多尺度残差层的结构示意图；
59.图15是本技术提供的不同自由度的标准t分布的概率密度曲线的示意图；
60.图16是本技术提供的熵模型网络的结构示意图；
61.图17是本技术提供的熵模型网络的特征变换模块的结构示意图；
62.图18是本技术提供的熵模型网络的概率估计模块的结构示意图；
63.图19是本技术提供的熵模型网络的上下文模块的结构示意图；
64.图20是本技术提供的获取特征y的最终分布参数的结构示意图；
65.图21是本技术提供的ms-ssim的计算流程示意图；
66.图22是本技术提供的图像解码方法一实施例的流程示意图；
67.图23是本技术提供的图像编码装置一实施例的结构示意图；
68.图24是本技术提供的图像解码装置一实施例的结构示意图；
69.图25是本技术提供的计算机存储介质一实施例的结构示意图。
具体实施方式
70.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
71.具体请参阅图1和图2，图1是本技术提供的图像编码方法一实施例的流程示意图，图2是本技术提供的端对端图像编解码方法的网络结构的示意图。
72.如图2所示，图2表示的是本技术提出的图像编码方法以及图像解编码方法的整体网络框架。其中，图2中的量化方式采用四舍五入的方式对浮点型数据量化到整形，熵编码采用传统的熵编码方法，例如霍夫曼编码，算数编码等。
73.在图2所示的整体网络框架的基础上，本技术的主要改进点在于：
74.1)在主编码网络的特征变换以及特征重建过程，采用预处理/后处理、特征增强、特征裁剪/拷贝三部分进行更高效的特征变换与重建。
75.2)在熵模型网络中，提出多t分布的混合概率模型，提高概率估计的准确度。
76.3)在训练过程中，在损失函数中综合考虑图像的主观失真和客观失真。
77.下面结合后续的图像编码方法实施例，对上述主要改进点进行详细阐述：
78.如图1所示，本技术实施例的图像编码方法包括以下步骤：
79.步骤s11：输入待编码图像，并提取待编码图像的待编码特征。
80.在本技术实施例中，图像编码装置获取需要编码的图像，然后提取图像的待编码特征。其中，特征提取可以由主编码网络中的特征提取层执行，也可以通过其他特征提取网络执行，在此不做限制。
81.步骤s12：将待编码特征输入主编码网络进行特征变换，得到第一编码特征。
82.在本技术实施例中，图像编码装置将待编码特征输入主编码网络进行特征变换，以减少待编码特征的数据量，便于后续的编码工作。
83.具体地，主编码网络可以包括预处理子网络、特征增强子网络以及特征裁剪子网络中的一个或多个，并将待编码特征依次输入预处理子网络、特征增强子网络以及特征裁剪子网络中的一个或多个，进行特征变换，从而得到第一编码特征。其中，预处理子网络用于实现特征预处理功能，特征增强子网络用于实现特征增强功能，特征裁剪子网络用于实现特征裁剪功能。下面具体介绍特征预处理功能、特征增强功能、特征裁剪功能的具体实现过程：
84.如图2所示，主编码网络的特征变换阶段(编码)与特征重建阶段(解码)的主要过程包括预处理/后处理、特征增强、特征裁剪/特征拷贝。下面通过特征变换阶段为例，具体介绍以上特征处理过程：
85.在本技术的端到端图像编码在特征变换与重建阶段，采用预处理或后处理的方式增加数据的非线性化程度，预处理与后处理的输入输出具有相同的尺寸，包含但不限于以下方法：
86.(1)堆叠多个卷积层增加数据的非线性化程度。
87.(2)使用多层残差块增加数据的非线性化程度。
88.(3)使用预训练好的神经网络增加数据的非线性化程度。
89.因此，本技术实施例的预处理子网络可以设置若干卷积层，和/或残差块实现预处理功能，通过所述预处理功能增加输入的所述待编码特征的非线性化程度，输出预处理后的待编码特征。
90.在一种具体实施例中，图像编码装置可以采用以上方法的任意一种方式或者多种方式的组合实现预处理功能或者后处理功能。
91.例如，请参阅图3，图3是本技术提供的稠密块结构一实施例的结构示意图。本实施例使用dense block(稠密块)增加特征的非线性化程度，dense block具有残差块的结构和属性。
92.其中，图3中的
⊕
代表沿着通道维度拼接，激活函数使用leakyrelu激活函数，如图4所示，图4是本技术提供的leakyrelu激活函数的示意图。
93.又例如，对于n*h*w的输入特征x，预处理过程与后处理过程如下：
94.a.使用如图5所示的包含有dense block的单元的网络对输入特征进行处理，其中，图5是本技术提供的包含稠密块的预处理与后处理单元的结构示意图。
95.b.将a过程的输出乘上0.2。
96.c.将b过程的结果与原始输入特征直接相加得到最终的特征。
97.进一步地，基于神经网络的端到端图像编码通过提取图像特征，对特征编码以达到编码目的，故提取出来的特征的优劣直接影响编码效率以及重建效果。
98.人眼对图像的关注往往只集中在某个区域而非整张图像的所有区域，此外，编码过程中为了合理的分配比特，将比特更多的分配在人眼关注的区域是更合理的，对于人眼不太关注的图像的区域，可以分配更少的比特。
99.编码阶段需要对输入的图像特征进行宽、高的“下采样”，在解码阶段需要“上采样”，降低数据量，方便编码，但是常规的池化方式的下采样必会导致信息不可逆的损失，故
降低在编码阶段的信息损失可以提升重建图像的质量。
100.基于以上原因，本技术提出多注意力机制的可逆子网络用于特征增强，经过该模块之后，对宽、高下采样，且数据损失最小。多注意力机制的可逆增强子网络的结构如图6所示，图6是本技术提供的多注意力机制的可逆增强子网络的结构示意图。如图6所示，可逆增强子网络将待编码特征依次输入空间注意力子网络、可逆子网络、通道注意力子网络、多尺度残差子网络，以对待编码特征进行特征增强。
101.具体地，图6中的空间注意力子网络的结构具体请参阅图7，图7是本技术提供的空间注意力子网络的结构示意图。如图7所示，空间注意力结构由特征提取层以及若干特征变换层组成，通过将输入特征与特征变换层的特征变化结果融合，提高对关键区域特征的注意力。其中，
⊙
代表哈达码积，即元素对应点乘运算方式。
102.空间注意力子网络首先需要沿着通道维度提取空间特征，形状为n*h*w的特征的示意图如图8所示。
103.假设输入特征的形状为n*h*w，其中，n代表通道数，h代表高，w代表宽，对特征沿着通道维度计算均值，则输出特征的形状为1*h*w，其中第行列的值代表第h行w列的所有通道的元素的均值，即图8中深灰色元素的均值。
104.其中，沿着通道维度提取的特征包括但不限于以下特征：(1)均值；(2)最大值；(3)最小值。特征变换包括但不限于以下方法：使用1层或者多层卷积神经网络。
105.具体地，图6中的可逆子网络的结构具体请参阅图9，图9是本技术提供的可逆子网络的结构示意图。如图9所示，可逆单元是可逆子网络的基本单元，可以堆叠多个可逆单元，经过可逆单元之后，输出特征和输入特征具有相同的数据量，只是形状发生了改变。
106.可逆单元由特征重排层和特征耦合层组成，特征重排是将形状为n*h*w的特征变为形状为n`*h`*w`的特征，其中n*h*w＝n`*h`*w`。特征耦合是将上一层的特征与本层特征相结合。
107.特征重排的方式可以包含但不限于以下方法：(1)先沿着某个维度对特征分组，然后重排；(2)对整个特征展开成1维，然后重排。特征耦合的方式可以包含但不限于以下方法：采用仿射变换(y＝a*x b)的方式特征耦合。
108.具体地，图6中的通道注意力子网络的结构具体请参阅图10，图10是本技术提供的通道注意力子网络的结构示意图。其中，代表通道间相乘。
109.通道注意力子网络首先需要沿着宽、高维度获取通道特征，方式类似于图8所示。假设输入特征的形状为n*h*w，n代表通道数，h代表高，w代表宽，对特征沿着宽、高维度计算均值，首先沿着宽维度计算均值，输出的形状为n*h*1，接着对形状为n*h*1的特征沿着高维度计算均值，最终输出特征的形状为n*1*1的特征。
110.沿着宽、高维度提取的特征包括但不限于以下特征：(1)均值；(2)最小值；(3)最大值。特征变换包括但不限于以下方法：使用1层或者多层卷积神经网络。
111.具体地，图6中的多尺度残差子网络的结构具体请参阅图11，图11是本技术提供的多尺度残差子网络的结构示意图。其中，
⊕
代表沿着通道维度拼接。
112.多尺度残差子网络具有残差网络的结构，即最终的输出特征＝输入特征多尺度模块的输出特征，此外还具有多尺度特征的特性，因为在多尺度模块中对输入特征进行不同尺度的特征变换，然后拼接成一个特征。多尺度残差网络的多尺度方法包括但不限于以
下方法：特征变换模块使用不同的卷积核进行不同尺度的特征变换，然后拼接得到多尺度的特征。
113.下面通过一个具体实施例继续介绍图6的多注意力机制的可逆增强子网络：
114.记输入的特征的形状为n*h*w，则多注意力机制的可逆增强子网络的过程如下：
115.a.对输入特征经过空间注意力层，得到具有空间注意力特性的特征。其中，本技术实施例的空间注意力层的结构如图12所示。
116.b.使用可逆网络层进行特征的增强，以及减少宽、高，增加特征通道数；
117.可逆子网络由4组可逆子网络(inn，invertible neural networks)单元级联组成，每组可逆子网络单元只有卷积核的大小不同，对于inn_1、inn_2、inn_3和inn_4，卷积核大小分别设置为5、5、3、3。其中，本技术实施例的可逆子网络单元的结构如图13所示。
118.具体地，可逆子网络单元由与1个特征重排层和3个特征耦合层构成，3个耦合层使用的卷积核大小相同。假设可逆子网络单元的输入特征形状为n*h*w，则经过可逆子网络单元之后的输出特征形状为该过程如下：
119.a)特征重排
120.将输入特征的宽、高变为原来的1/2，但是通道数变成原来的4倍，之后进行1x1的卷积，输出特征记为u，u的形状为
121.b)特征耦合
122.1.对特征沿通道维度分割成2部分u1和u2。
123.其中u1是u的前1/4通道，u2是u的后3/4通道，即u1的形状为u2的形状为
124.2.根据u1和u2进行仿射耦合，分别得到v1和v2。
125.仿射耦合方式为：
[0126][0127]
其中，g2对、h2、g1和h1代表多次卷积操作，g2、h2卷积之后的形状为g1、h1卷积之后的形状为σc表示中心sigmoid函数。exp(
·
)代表指数函数。
⊙
代表哈达码积(元素对应点乘)。
[0128]
经过仿射耦合之后，v1和v2形状为别为和
[0129]
3.将特征v1和v2沿着通道维度拼接，得到新特征，记为u。
[0130]
4.重复3次以上过程。
[0131]
inn单元经过以上a)和b)过程，将原本形状为n*h*w的特征变成了形状为
的新特征，故经过4次inn单元之后，特征的形状变成了即数据量未发生改变，宽、高进行了4次“下采样”，通道数增加了256倍。
[0132]
c.通道注意力与多尺度残差层将不同尺度下的多通道特征结合在一起。其中，通道注意力与多尺度残差层的结构如下图14所示。
[0133]
通道注意力与多尺度残差的过程如下：
[0134]
a)获取通道注意力权重
[0135]
通道注意力权重是形状为n
·44
*1*1，代表每个通道的重要程度。
[0136]
b)根据各个通道的重要性权重得到通道注意力新特征将通道注意力与多尺度残差层的输入特征与通道注意力权重相乘，得到具有通道注意力的新特征，其形状为
[0137]
c)多尺度残差块将不同尺度下的通道注意力特征结合在一起将形状为的具有通道注意力的特征送入多尺度残差块即可得到结合了不同尺度的通道注意力特征。
[0138]
d)卷积恢复通道数
[0139]
经过多尺度残差块之后的特征的形状为此时再经过一次3x3的卷积将输出特征的形状变为
[0140]
进一步地，在编码过程中为了更利于特征的编码，特征裁剪/特征拷贝过程在编码过程和解码过程中分别对通道数进行裁剪/拷贝。假设不同质量等级代表不同码率下的端到端图像编码，则不同质量等级下经过特征裁剪之后的特征通道数不同，即特征的裁剪系数不同，记为α，对于输入此模块的特征x，其形状为n*h*w，经过裁剪之后的特征记为y，则形状为
[0141]
编码过程的特征裁剪模块主要包括2个步骤：
[0142]
a.对输入特征重排，改变输入特征的形状。
[0143]
b.对重排之后的特征进行通道间平均。
[0144]
类似的，在解码过程中使用特征增加模块对特征进行恢复。解码过程的特征恢复模块主要包括2个步骤：
[0145]
a.对输入特征的拷贝。
[0146]
b.对拷贝之后的特征重排，恢复成原始的形状。
[0147]
在编码端对通道数进行裁剪，以及解码端对通道数进行增加的例子详见以下实施例：
[0148]
a.编码过程的特征裁剪
[0149]
假设某质量等级下特征裁剪系数为α＝6，则对输入形状为n*h*w的特征裁剪成形状为的特征的过程如下：
[0150]
a)对输入特征的重排
[0151]
对输入特征进行重排成即沿着通道维度分成α组，得到特征x`。
[0152]
b)对重排之后的特征进行通道间平均
[0153]
对特征x`的沿着组的维度计算平均值，得到特征y，此时特征y的形状为即完成了特征的裁剪。
[0154]
b.解码过程的特征恢复
[0155]
假设某质量等级下特征裁剪系数为α＝6，则对输入形状为m*h*w的特征x恢复成形状为α
·
m*h*w的特征y的过程如下：
[0156]
a)对输入特征的拷贝
[0157]
对输入特征x直接拷贝成形状为α
·
m*h*w的特征x`。
[0158]
b)对拷贝之后的特征重排
[0159]
对特征x`的进行重排，得到特征y，特征y的形状为α
·
n*h*w，即完成了特征的增加。
[0160]
步骤s13：将第一编码特征输入熵模型网络进行特征分析，得到第一编码特征的上下文参数和概率估计参数。
[0161]
步骤s14：根据上下文参数和概率估计参数，获取第一编码特征的分布信息。
[0162]
在本技术实施例中，如图2所示，待编码特征经过特征变换后，图像编码装置将得到的第一编码特征输入熵模型网络进行后续的特征分析，以得到第一编码特征的上下文参数和概率估计参数，用以对特征分布进行预测和估计，有利用提高特征编码的准确性。
[0163]
具体地，本技术在熵模型网络中提出一种多t分布的混合概率模型(tmm)。标准t分布的概率密度函数如下：
[0164][0165]
其中，标准t分布是期望为0，方差为的分布，不同自由度n下的概率密度曲线如图15所示。
[0166]
对标准t分布而言，自由度n越大，标准t分布越接近标准正态分布，当自由度的时候，标准t分布退化为标准正态分布(当自由度n＝1的时候，标准t分布退化为柯西分布)。
[0167]
由于高斯分布是t分布的特殊形式，高斯混合模型(gmm)的公式如下：
[0168][0169]
因此，t分布混合模型(tmm)同样也能近似其他分布，tmm的形式如下：
[0170]
[0171]
故使用tmm估计主编码网络的待编码特征的分布如下：
[0172][0173]
其中z表示熵模型网络中待编码的特征。
[0174]
进一步地，熵模型网络的具体结构如图16所示。其中，代表沿通道维度拼接。
[0175]
上下文模块和概率估计模块估计出主编码网络的待编码特征的分布，估计的模型便是tmm模型，tmm模型相较于gmm(高斯混合模型)模型具有更多的参数，故估计的效果会更加准确。
[0176]
本技术中使用tmm模型相较于gmm模型的优点在于：
[0177]
(1)tmm模型在样本数量较少时候对样本的实际分布的估计比gmm更加准确。
[0178]
(2)tmm模型比gmm模型参数更多，更有泛化能力，且高斯分布本身就是t分布的特殊形式。
[0179]
如图16所示，熵模型网络估计主编码网络的待编码特征的分布的过程如下：
[0180]
a.在熵模型网络中对特征进行特征变换(变换过程进行降维)，得到熵模型网络的待编码特征z。
[0181]
b.对特征z进行量化和熵编码。
[0182]
由于对特征z的熵编码同样需要知道特征的分布，然而没有其他的熵模型网络对特征z的分布进行估计，故需要先验假设特征的分布，故先验假设的特征z的分布包括但不限于以下分布：(1)高斯分布；(2)均匀分布；(3)t分布。
[0183]
对特征的量化方式包括但不限于以下方法：(1)使用传统方式量化，例如四舍五入的均匀量化；(2)使用基于神经网络的方式量化。
[0184]
对特征的熵编码方式包括但不限于以下方法：(1)算数编码及其变种；(2)霍夫曼编码。
[0185]
c.对特征z的码流熵解码以及解码之后的概率估计。
[0186]
熵解码之后的特征为特征z`，经过概率估计模块之后得到tmm模型的参数：
[0187]
θ1＝[ω
(k)
，n
(k)
,μ
(k)
,σ
2(k)
],k＝1,2,3,
…
,k
[0188]
其中k代表第k个t分布，n
(k)
,μ
(k)
,σ
2(k)
代表第k个t分布的参数，tmm模型一共有k个t分布，ω
(k)
代表每个t分布对应的权重。
[0189]
d.上下文模块对经过量化之后的特征求上下文参数。
[0190]
由于在编码特征z的时候，特征z的每个元素的分布直接使用预定义好的分布(即特征z的先验分布，例如高斯分布、均匀分布、t分布等)，故c过程估计到的特征y的分布仍然不具有特征y的元素之间的上下文相关性(即特征y的上下文参数θ2，代表特征y中的元素与周围元素之间的相关性，包括每个通道内的空域相关性以及通道之间的相关性)。
[0191]
上下文模块的目的是获取特征的上下文相关性，即上下文参数θ2，根据上下文参数θ2可以对过程c得到的参数进行微调，得到特征y更好的分布参数，更利于对特征y进行编码。
[0192]
e.将c过程的结果与d过程的结果沿着通道维度拼接，之后特征变换得到最终的特征y的分布参数。
[0193]
从c过程的结果(参数θ1)与d过程的结果(参数θ2)计算特征最终的分布(参数θ)的公式如下：
[0194][0195]
其中f(
·
)代表特征变换，k代表第k个t分布，代表第个t分布的参数，tmm模型一共有k个t分布，代表每个t分布对应的权重。
[0196]
因此特征的分布可以表示成如下形式：
[0197][0198]
熵模型网络使用多t分布的混合概率模型对主编码网络的待编码特征的分布的估计以及对特征的编码的例子详见以下实施示例：
[0199]
假设主编码网络的待编码特征y的形状为n*h*w，混合t分布模型的t分布数量为k，则通过熵模型网络的混合t分布模型对主编码网络的待编码特征y的分布估计过程如下：
[0200]
a.熵模型网络的特征变换模块对特征y进一步降维，得到特征z。其中，熵模型网络的特征变换模块的结构如下图17所示，图17中convs3x3_1和convs3x3_1分别代表3x3的卷积，步长分别为1和3。reakyrelu为激活函数。特征z的形状为
[0201]
b.对特征z进行量化和熵编码。
[0202]
量化方式采用四舍五入的方式量化，熵编码使用算数编码的变种：rans(range asymmetric numeral systems)编码，得到特征的码流。
[0203]
c.对特征z的码流熵解码与概率估计得到参数θ1。
[0204]
熵解码之后的特征为特征z`，其形状为熵模型网络的概率估计模块的结构如下图18所示。其中，convs3x3代表3x3的步长为1的卷积，leakyrelu代表激活函数，pixelshuffle代表上采样。
[0205]
输入特征z`，输出特征即为参数θ1，其形状为4
·k·
n*h*w。
[0206]
d.上下文模块对经过量化之后的特征求上下文参数。
[0207]
上下文模块的网络结构如下图19所示，如图19所示，使用掩膜卷积获取特征y的上下文参数θ2，输入量化(量化方式为四舍五入)之后的特征y，输出特征即为参数θ2，其形状为4
·k·
n*h*w。
[0208]
e.特征拼接与变换，经过特征变换之后得到最终的特征y的分布参数θ。
[0209]
该过程的网络结构如下图20所示，其中，convs1x1代表1x1的卷积，leakyrelu代表激活函数。输入特征1和输入特征2分别是过程c和过程d得到的参数θ1和θ2，网络的输出特征便是最终的特征y的分布参数θ，其形状为4
·k·
n*h*w。
[0210]
f.根据分布参数θ对量化之后的特征熵编码。
[0211]
所求的分布参数θ形状为4
·k·
n*h*w，包含了tmm模型的参数，将参数θ沿通道维度拆成n组，每一组对应形状为4
·
*h*w，k为tmm模型的t分布数量，因此，对于待编码特征y的概率估计如下：
[0212][0213]
其中，y
c,i,j
分别代表特征y第个c通道、第i行、第j列的元素，θ
4*c 0,i,j
代表第4*c 0个通道，第i行、第j列的元素。
[0214]
接下来使用rans编码器对特征编码，得到特征的码流。
[0215]
步骤s15：采用主编码网络根据分布信息对第一编码特征进行编码，得到待编码特征的特征码流。
[0216]
在本技术实施例中，主编码网络利用熵模型网络输出的分布信息对第一编码特征进行编码，能够按照特征的分布情况提高编码准确性和编码效率。
[0217]
进一步地，一般的端到端图像编码网络使用单一维度的评价指标评价重建图像的失真，且通常为客观评价指标，客观评价指标包括但不限于以下方法：
[0218]
(1)mse(mean square error)，均方误差。
[0219][0220]
(2)ms-ssim(multi-scale structural similarity index metric)多尺度结构相似性。其中，ms-ssim的计算流程具体如图21所示。
[0221]
本技术对重建图像的质量评价可以使用多个维度的评价指标，例如以下两种评价指标，客观评价指标和主观评价指标。主观评价指标是根据一套完备的规则来设计实验，并组建实验测试人员团体来对视频质量进行打分，而客观评价指标往往是通过数学公式计算来得到视频质量效果的量化评价。
[0222]
主观评价指标包括但不限于以下方法：
[0223]
(1)lpips(learned perceptual image patch similarity)，感知相似度，即将重建图像与原始图像送入预训练好的lpips评价指标网络进行质量评价。
[0224]
(2)fid(fr
é
chet inception distance)，感知距离：
[0225][0226]
其中μ
x
和σ
x
表示真实图像集合在inception v3网络输出的n维特征的均值和协方差矩阵，tr(
·
)表示矩阵的秩。
[0227]
主观评价指标和客观评价指标两种评价指标之间通过权重a进行平衡，如下公式所示：
[0228][0229]
其中metica(
·
)代表客观评价指标，meticb(
·
)代表主观评价指标。
[0230]
基于图2所示的端到端图像编码网络，在训练时候具体的loss(损失值)设计详见以下实施例：
[0231]
如图2所示的网络，在训练过程中，将lpips失真和mse失真作为衡量重建图像的失真，此时的loss如下所示：
[0232][0233]
其中，代表主编码网络和熵模型网络对特征编码的码率，度量重建图像与原始图像的失真，包含两种失真，mse失真和lpips失真，通过超参数平衡mse失真和lpips失真，使得训练好的神经网络模型对重建图像既能减少mse失真，也能降低感知失真。
[0234]
本技术提出多注意力机制的可逆增强子网络，编码过程中减少了信息的损失，且编码的特征具有多注意力、多尺度特性；提出多t分布混合模型(tmm)，该模型理论上能够更加准确的估计主编码网络的待编码特征的分布；在训练的loss中增加lpips失真度量，结合了客观失真与主观失真，提升重建图像的质量。
[0235]
相对地，请继续参阅图22，图22是本技术提供的图像解码方法一实施例的流程示意图。
[0236]
如图22所示，本技术实施例的图像解码方法包括以下步骤：
[0237]
步骤s21：输入特征码流。
[0238]
步骤s22：采用主编码网络根据预设分布信息对特征码流进行解码，得到特征码流的第一解码特征，其中，预设分布信息由熵模型网络在编码过程中确定。
[0239]
步骤s23：将第一解码特征输入主编码网络进行特征重建，得到第二解码特征。
[0240]
步骤s24：按照第二解码特征进行重建，得到解码图像。
[0241]
需要说明的是，本技术实施例的图像解码方法实质上为上述实施例的图像编码方法的逆过程，因此，可以毫无疑义地将图像编码方法的所有技术方案应用到本实施例的图像解码方法中，可以通过简单的逆工程推导出相关的技术方案，在此不再赘述。
[0242]
以上实施例，仅是对本技术的其中一种常见案例而已，并非对本技术的技术范围做任何限制，故凡是依据本技术方案的实质对以上内容所做的任何细微修改、等同变化或者修饰，均仍属于本技术技术方案的范围内。
[0243]
请继续参见图23，图23是本技术提供的图像编码装置一实施例的结构示意图。本技术实施例的图像编码装置500包括处理器51、存储器52、输入输出设备53以及总线54。
[0244]
该处理器51、存储器52、输入输出设备53分别与总线54相连，该存储器52中存储有程序数据，处理器51用于执行程序数据以实现上述实施例所述的图像编码方法。
[0245]
在本技术实施例中，处理器51还可以称为cpu(central processing unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(dsp，digital signal process)、专用集成电路(asic，application specific integrated circuit)、现场可编程门阵列(fpga，field programmable gate array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。
[0246]
请继续参见图24，图24是本技术提供的图像解码装置一实施例的结构示意图。本技术实施例的图像编码装置600包括处理器61、存储器62、输入输出设备63以及总线64。
[0247]
该处理器61、存储器62、输入输出设备63分别与总线64相连，该存储器62中存储有程序数据，处理器61用于执行程序数据以实现上述实施例所述的图像解码方法。
[0248]
本技术还提供一种计算机存储介质，请继续参阅图25，图25是本技术提供的计算机存储介质一实施例的结构示意图，该计算机存储介质700中存储有程序数据71，该程序数据71在被处理器执行时，用以实现上述实施例的图像编码方法和/或图像解码方法。
[0249]
本技术的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0250]
以上所述仅为本技术的实施方式，并非因此限制本技术的专利范围，方式利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：配置比对方法、装置、电子设备及存储介质与流程

图像编码方法、图像编码方法、装置以及计算机存储介质与流程

相关文献

最热文献