一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多尺度空间和上下文信息融合的图像压缩方法

2022-07-27 22:17:10 来源:中国专利 TAG:


1.本发明涉及图像压缩技术领域,尤其是涉及一种基于多尺度空间和上下文信息融合的图像压缩方法。


背景技术:

2.在第三次信息革命之后,大量的数字信息在各个终端之间相互传输。但限于当时的数字信息获取方式,大多数的信息还是停留在文字信息上,但是随着各种电子数码产品的诞生和普及,尤其是移动互联网时代的到来,每一个人都可以成为摄影师,可以方便使用的电子设备使得大量的图片与视频信息在互联网上大量传输,大量的数据也导致了对于数据速度的要求和对于存储空间的要求飞速增加。因此对于数据压缩的必要性也由此体现出来,其中如何压缩占据互联网数据相当部分的图片数据成为了一个热点研究课题。
3.在基于深度学习的图像编码方法出现之前,有着大量的传统方法,包括jpeg、jpeg2000、bpg等,这些方法直到现在依然被广泛使用,但是传统方法被有很多手工设计的组件,一般而言包括分块,线性变换,量化以及熵编码。由于深度学习的迅速发展以及在众多计算机视觉领域的广泛运用,大量基于深度学习的端到端的图像压缩方法被提出。现有的方法大多基于比较成熟的深度学习模型,比如基于卷积神经网络的图像压缩,基于生成对抗网络的图像压缩和基于图卷积神经网络的图像压缩。其中基于生成对抗网络的图像压缩算法利用生成器和判别器之间的对抗训练,提高了低码率下图像重构的人眼感官,但是恢复的图片在峰值信噪比(psnr)和多层级结构相似性(ms-ssim)的指标上表现不佳。因为卷积神经网络对于图像特征提取的优势,大部分基于深度学习的图像压缩一般使用卷积神经网络的结构。现有的基于卷积神经网络的方法,首先,通过主编码器从图像中提取隐藏特征,再利用超先验自动编码机,提取隐藏特征中的边缘信息作为超先验特征。之后,通过超先验特征结合由上下文模型得到的上下文特征来估计隐藏特征的概率分布,以此来对隐藏特征进行算数编码。最后,利用主编码器将隐藏特征恢复成为图像。但是已有的方法依然存在很多不足。首先,主编码器在去除隐藏特征中的空间冗余的,同时也丢失了一部分有效的空间信息,尤其是具有复杂纹理的区域的信息在向前传播中被损失了,这限制了图像重构的质量。另一方面,由于压缩图像的内容尺度是不确定的,上下文模型中大小固定的掩码卷积核无法有效的从隐藏特征中获得有效的相关性信息,这使得现有方法的熵模型的准确性依然不够。


技术实现要素:

4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多尺度空间和上下文信息融合的图像压缩方法。
5.本发明的目的可以通过以下技术方案来实现:
6.一种基于多尺度空间和上下文信息融合的图像压缩方法,该方法包括以下步骤:
7.1)构建基于多尺度空间和上下文信息融合的图像压缩模型,通过主编码器从原始
图像中提取隐藏特征,并采用多尺度信息融合模块减少向前传播有效信息的损失;
8.2)超先验模块将超先验信息和多尺度上下文信息结合,获取三个高斯函数的参数及权重,以权重相加后得到高斯混合模型得到隐藏特征的概率分布;
9.3)基于隐藏特征的概率分布,算数编码器对隐藏特征进行编码和解码;
10.4)主解码器将隐藏特征重构成为图片,完成图像压缩。
11.所述的步骤1)具体包括以下步骤:
12.11)原始图片经由残差块、注意力模块以及多尺度信息融合模块进行特征提取以及降采样之后得到隐藏特征y,为对y进行熵编码,对其进行步长为1的量化得到量化后的隐藏特征则有:
[0013][0014][0015]
其中,x为原始图片,为主编码器的参数,q(
·
)表示量化处理,ga(
·
)表示主编码器;
[0016]
12)通过主编码器中的多尺度信息融合模块将降采样i次的特征y(i)和降采样i 2次的特征y
(i 2)
通过注意力机制的形式融合在一起,为减少计算资源消耗,主编码器仅采用两个多尺度信息模块,则有:
[0017]y(i 2)
=y
(i 2)
y
(i 2)
*sigmoid(res(y(i))).
[0018]
其中,res(
·
)表示残差块。
[0019]
所述的步骤2)具体包括以下步骤:
[0020]
21)超先验编码器从隐藏特征y中计算得到超先验特征z,再经由量化得到量化后的超先验特征用以辅助提取隐藏特征中的空间冗余以及提高隐藏特征概率分布估计的准确性,则有:
[0021][0022][0023]
其中,ha(
·
)表示超先验编码器,为超先验编码器的参数;
[0024]
22)利用多尺度三维上下文模块从量化后的隐藏特征中得到的多尺度上下文特征则有:
[0025][0026]
其中,downsample表示下采样,表示卷积核大小为5
×5×
5的三维上下文模型,表示卷积核大小为7
×7×
7的三维上下文模型,表示卷积核大小为9
×9×
9的三维上下文模型;
[0027]
23)将多尺度上下文特征和超先验特征结合之后,利用超先验解码器解算得到高斯混合模型的模型参数以及权重,则有:
[0028][0029]
其中,ωi,μi,分别表示高斯混合模型中第i个高斯模型的权重,均值以及方差,表示第i个超先验解码器;
[0030]
24)根据权重将三个高斯函数组合成为高斯混合模型作为熵模型,计算得到隐藏特征概率分布的估计,则有:
[0031][0032]
其中,为基于超先验特征的隐藏特征的条件概率分布,为基于参数ωi,μi的高斯概率分布,为范围从到的均匀分布噪声。
[0033]
所述的步骤3)具体包括以下步骤:
[0034]
31)为防止模型训练时出现梯度消失现象,在训练图像压缩模型阶段,量化过程被替换为添加独立同分布的均匀噪声;
[0035]
32)在图像压缩模型的使用过程中,隐藏特征被量化,并且基于超先验编码器得到的熵模型计算出特征的概率分布,并且采用熵编码中的算数编码对量化的特征进行编码。
[0036]
所述的步骤4)具体包括以下步骤:
[0037]
41)将隐藏特征经过主解码器中的残差块和升采样重新变为图片,则有:
[0038][0039]
其中,gs(
·
)表示主解码器,为主解码器的参数,为重构的图片;
[0040]
42)将重构的图片和原始图片x进行客观和主观指标上的对比,从而评估模型的压缩效果和重构效果。
[0041]
所述的步骤42)中,客观和主观指标包括psnr和ms-ssim。
[0042]
所述的步骤1)中,基于多尺度空间和上下文信息融合的图像压缩模型由主编码器、超先验编码器、超先验解码器、主解码器以及多尺度三维上下文模块。
[0043]
图像压缩模型在训练时,为平衡码率和图像重构质量之间的关系,训练的目标函数被设置为:
[0044][0045]
其中,λ为平衡码率和图像重构质量的超参数,和分别为量化后的隐藏特征和量化后的超先验特征的码率,d(
·
)表示原始图片和重构图片之间的差别,采用mse和ms-ssim作为衡量标准,当采用mse优化模型时,则模型的评价标准为psnr,当采用ms-ssim优化模型时,则模型的评价标准为ms-ssm。
[0046]
为加快模型收敛的速度,首先在高码率下进行预训练,之后修改λ的取值,将模型的码率调整到其他值。
[0047]
在训练预训练模型时,学习率随迭代次数下降,在训练其他码率的模型时,学习率
初始值增大且随迭代次数下降。
[0048]
与现有技术相比,本发明具有以下优点:
[0049]
一、在主编码器中采用的多尺度信息融合模块,利用注意力机制将不同尺度的图像特征融合在了一起,该方法在保留了复杂区域的空间信息的同时,避免在隐藏特征中添加额外的空间冗余。
[0050]
二、在上下文模型中采用的多尺度三维上下文模块,通过并行地使用不同尺寸的掩码三维卷积核,将隐藏特征中不同尺度空间内的相关性信息融合在一起,从而提高熵模型的准确率,提高模型压缩效率。
附图说明
[0051]
图1为基于多尺度的空间与上下文信息融合的图像压缩方法示意图。
[0052]
图2为多尺度信息融合模块示意图。
[0053]
图3为多尺度三维上下文模块示意图。
[0054]
图4为本发明和几种其他方法效果对比图。
[0055]
图5为本发明和另几种其他方法效果对比图。
具体实施方式
[0056]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0057]
实施例
[0058]
本发明提供一种基于多尺度的空间与上下文信息融合的图像压缩方法,如图1所示,包括以下步骤:
[0059]
11)本发明训练阶段采用coco2014的训练集,所有训练的图片被随机剪裁为256x256的大小,训练时的批大小被设置为16,采用kodak24作为模型训练的测试集;
[0060]
12)为了能够平衡码率和图像重构质量之间的关系,模型训练的目标函数被设置为:
[0061][0062]
其中,λ是平衡码率和图像重构质量的超参数,和分别表示和的码率,d(
·
)表示原始图片和重构图片之间的差别,可以用mse和ms-ssim作为衡量标准。当用mse优化模型时,模型的评价标准为psnr,此时λ的取值根据码率的不同分别是{0.0035,0.0067,0.0130,0.0250,0.0483}。如果使用ms-ssim优化模型,则模型的评价标准为ms-ssm,λ的取值根据码率的不同分别为{4.58,8.73,16.64,31.73,60.50}。为了加快模型收敛的速度,该模型首先在高码率下进行预训练,之后修改λ的取值,将模型的码率调整到其他值。在训练预训练模型时,学习率初始被设置为10-5
,之后每迭代100000次,学习率下降为原来的1/2。在那之后,训练其他码率的模型时,学习率初始被设置为5
×
10-5
,之后每迭代100000次,学习率下降为原来的1/2。
[0063]
13)原始图片经由残差块,注意力模块以及多尺度信息融合模块进行特征提取以
及降采样之后得到隐藏特征y,为了对y进行熵编码,对其进行步长为1的量化得到以上操作可以用下述公示表示:
[0064][0065][0066]
14)主编码器中多尺度信息融合模块将降采样i次的特征y(i)和降采样i 2次的特征y
(i 2)
通过注意力机制的形式融合在一起,具体如图2所示。为了减少计算资源的消耗,主编码器只采用两个多尺度信息模块。此操作可以用下述公式表示:
[0067]y(i 2)
=y
(i 2)
y
(i 2)
*sigmoid(res(y(i)))
[0068]
其中res(
·
)表示残差块。
[0069]
21)超先验编码器从隐藏特征中计算出超先验特征z,再经由量化得到用以帮助提取隐藏特征中的空间冗余和提高隐藏特征概率分布估计的准确性。以上步骤可以用下述公式表示:
[0070][0071][0072]
22)利用多尺度三维上下文模型从量化后的隐藏特征中计算得到的多尺度上下文特征,具体如图3所示。以上步骤可以用公式表示:
[0073][0074]
23)将上下文特征和超先验特征结合之后,利用超先验解码器结算出高斯混合模型的模型参数以及权重,可以表示为:
[0075][0076]
24)根据权重将三个高斯函数组合成为高斯混合模型作为熵模型,计算得到隐藏特征概率分布的估计,可以表示为:
[0077][0078]
31)由于经过量化之后的隐藏特征是离散的,离散函数的导数处处为0,这将导致模型训练是出现梯度消失,为了训练图像压缩模型,在训练阶段,量化过程将被替换成添加独立同分布的均匀噪声。
[0079]
32)模型的使用过程中,隐藏特征会被量化,并且基于超先验自动编码机得到的熵模型可以计算出特征的概率分布,并且利用熵编码对量化的特征进行编码,一般使用熵编码中的算数编码。
[0080]
41)将隐藏特征经过主解码器中的残差块和升采样重新变为图片,以上步骤可以表示为:
[0081][0082]
42)将重构的图片和原始图片进行客观和主观指标上的对比,从而评估模型的压
缩效果和重构效果。
[0083]
为了验证该方法的有效性,本方法和jpeg,jpeg2000,bpg,vcc等传统方法和部分端到端的图像压缩方法作对比。kodak24公开测试集作为测试的数据,将原始图片和算法压缩后重构的图片做对比,计算两者之间的psnr和ms-ssim两个指标上的差距,分别得到两个曲线图如图4和5所示。
[0084]
本发明在主编码器中使用了多尺度信息融合模块可以在保留有效的空间信息的同时,避免在隐藏特征中添加空间冗余,在上下文模型中采用的多尺度三维上下文模块可以融合不同尺度空间下的上下文信息使得熵模型更加准确,本发明在kodak24公开测试集的测试结果表明,在psnr指标上,该方法的效果要比最新的传统图像压缩标准vvc高0.15db。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献