一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

人脸图像超分辨率重建方法及计算机可读取的存储介质

2022-12-07 20:05:10 来源:中国专利 TAG:


1.本发明属于人脸图像处理技术领域,具体地说,涉及一种人脸图像超分辨率重建方法及计算机可读取的存储介质。


背景技术:

2.在实际的成像环境中,受多种因素影响,拍摄获得的图像可能存在分辨率较低的情况。为了解决该问题,一个方向是从硬件角度考虑,采用性能更好的硬件设备来提高成像效果,但是存在成本高和难以大规模普及应用等缺陷。相比之下,利用算法对低分辨率图像进行增强来提高图像分辨率是一个相对更实用的途径,由此产生了单图像超分辨率重建(single image super-resolution, sisr)技术。到目前为止,相关研究人员已经从多种角度提出了大量的图像超分辨率重建算法,但是这些算法都没有针对低分辨率人脸图像的特点进行优化,直接将其应用于人脸图像分辨率提升任务时,重建效果有待进一步提高。


技术实现要素:

3.针对上述现象,本发明提供一种人脸图像超分辨率重建方法及计算机可读取的存储介质,以针对性地提高对低分辨率人脸图像的超分辨率重建效果。
4.为了达到上述目的,本发明采用的解决方案是:一种人脸图像超分辨率重建方法,包括以下步骤:s100、获取低分辨率人脸图像和训练完成的深度学习网络;所述深度学习网络中设有双通道特征提取机构和图像重置机构,多个所述双通道特征提取机构在所述深度学习网络中串联设置,所述双通道特征提取机构用于提取所述低分辨率人脸图像的特征信息;s200、将所述低分辨率人脸图像输入所述深度学习网络,所述低分辨率人脸图像信息沿着网络的深度方向传递,直到最后一个所述双通道特征提取机构生成并输出第一精制特征图和第二精制特征图;s300、将所述第一精制特征图与所述第二精制特征图融合,生成复合特征图;s400、所述图像重置机构以所述复合特征图作为输入,重建并输出高分辨率人脸图像;高分辨率人脸图像的分辨率大于低分辨率人脸图像的分辨率。
5.其中,所述双通道特征提取机构提取特征的操作过程表示为如下数学模型:
其中,表示从所述双通道特征提取机构的第一入口输入其中的特征图,表示从所述双通道特征提取机构的第二入口输入其中的特征图,、、、和均表示步长为1的卷积运算,、、、和均表示第一型激活函数,表示第二型激活函数,表示元素对应乘积运算,表示将其中的特征图拼接起来,表示双头注意力单元,表示所述双头注意力单元输出的双头注意力图,表示函数激活后生成的特征图,表示函数激活后生成的特征图,表示函数激活后生成的特征图,表示函数激活后生成的特征图,表示特征图、特征图和特征图相加后生成的特征图,表示特征图、特征图和特征图做元素对应乘积后生成的特征图,表示函数激活后生成的特征图,表示所述双头注意力图与特征图做元素对应乘积后生成的特征图,表示从所述双通道特征提取机构的第一出口输出的特征图,表示从所述双通道特征提取机构的第二出口输出的特征图。
6.进一步地,、和的卷积核尺寸均为1*1,的卷积核尺寸为3*3,的卷积核尺寸为5*5。
7.进一步地,所述第一型激活函数为relu函数。
8.进一步地,所述第二型激活函数为tanh函数。
9.进一步地,所述双头注意力单元生成双头注意力图的过程表示为如下数学模型:其中,特征图、、和共同作为所述双头注意力单元的输入,表示所述双头注意力单元输出的双头注意力图,表示对特征图做拼接操作,表示对特征图在通道方向做第一全局池化操作,表示对特征图在空间方向做第二全局池化操作,表示全连接层,和均表示第三型激活函数,表示元素对应乘积运算,表示分别对特征图、特征图、特征图在通道方向做第一全局池化操作并拼接后生成的特征图,表示函数激活后生成的特征图。
10.进一步地,所述第一全局池化操作为全局方差池化操作,所述第二全局池化操作为全局最大池化操作。
11.进一步地,所述第三型激活函数为sigmoid函数。
12.本发明还提供了一种计算机可读取的存储介质,所述计算机可读取的存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的人脸图像超分辨率重建方法。
13.本发明的有益效果是:(1)现有图像超分辨率重建网络中,不同的特征提取模块之间都是通过单一的通道进行信息传递,多种特征信息(包括不同频率的有用信息、无效信息和干扰信息)掺杂在一起,网络对信息的过滤能力很有限,同时也影响了对有效特征的学习和提取效果,本发明的相邻两个双通道特征提取机构之间通过两个信道传递信息,不同种类的特征信息分布更加分散,信息过滤效果更好,反过来也促进了网络对有效特征的学习效果,这点对于提升人脸图像超分辨率重建效果尤其重要,因为在人脸图像中,分为人脸区域和背景区域,如果不能很好地对信息进行过滤分散,背景区域的特征信息和人脸区域的特征信息会互相干扰;(2)在双通道特征提取机构内部同样采用了多通道的结构设计,多个卷积操作层(卷积核尺寸分别为1*1、3*3和5*5)并行设置,这样不仅能够充分提取特征图中的多种信息,而且提取后获得的信息分散在特征图、和中,使得特征图、、与特征图融合后生成特征图过程中,对特征信息同样具有很好的选择性;(3)发明人根据自己长期的工作经验,设计了本发明的双头注意力单元内部结构,结合特征图、、和的特点,采用了全局最大池化操作和全局方差池化操作来生成双头注意力图,这样在网络提取特征信息量有限的情况下,经过注意力单元的调制,网络能够选择性地加强提取部分重要区域(比如眼睛、嘴、鼻子等)的高频信息,双头注意力单元本身十分轻量,对模型的计算量影响很小,但能对最终的重建效果带来比较大的提升。
附图说明
14.图1为实施例1的深度学习网络整体结构示意图;图2为实施例1的双通道特征提取机构内部结构示意图;图3为图2中a处内部结构示意图;图4为实施例1的双头注意力单元内部结构示意图;图5为实施例1的特征溶融模块内部结构示意图;图6为实施例1的图像重置机构内部结构示意图;图7为对比例的双通道特征提取机构内部结构示意图;附图中:1-低分辨率人脸图像,2-高分辨率人脸图像,3-前置卷积层,4-双通道特征提取机构,5-双头注意力单元,6-特征溶融模块,7-图像重置机构。
具体实施方式
15.以下结合附图对本发明作进一步描述:实施例1:基于python编程语言,结合tensorflow框架,按照图1所示的网络架构搭建深度学习网络。其中,网络的头部为前置卷积层3,其步长为1,卷积核尺寸为3*3。作为示例,设输入网络的低分辨率人脸图像1的尺寸为y
×b×
d(长度
×
宽度
×
通道数量,下同),经过前置卷
积层3卷积操作后,前置卷积层3输出通道为64的前置特征图(长宽尺寸分别为y和b)。然后前置特征图同时从第一个双通道特征提取机构4的第一入口和第二入口输入。
16.本实施例中,五个双通道特征提取机构4串联设置,图像信息在网络中传递时,上一个双通道特征提取机构4第一出口输出的特征图输入到下一个双通道特征提取机构4的第一入口,上一个双通道特征提取机构4第二出口输出的特征图输入到下一个双通道特征提取机构4的第二入口,最后一个双通道特征提取机构4第一出口输出的第一精制特征图、第二出口输出的第二精制特征图同时输入特征溶融模块6。
17.如图2所示,在双通道特征提取机构4内部,从第一入口和第二入口输入的特征图尺寸均为y
×b×
64,、、卷积运算后,得到的特征图、、尺寸与前置特征图的尺寸完全一致。由特征图、、和生成特征图的运算过程如图3所示,特征图、、、、以及从第一出口和第二出口输出的特征图尺寸均为y
×b×
64。
18.如图4所示,对于双头注意力单元5内部,分别对特征图、、在通道方向做全局方差池化后,均生成一个尺寸为y
×b×
1的矩阵,拼接操作后,的尺寸为y
×b×
3。对特征图在空间方向上做全局最大池化后,生成长度为64的向量,然后经过全连接层(其输入节点数为64,输出节点数为3)和函数,得到长度为3的向量。接下来各个图层乘以中对应的元素,再次在通道方向做全局方差池化,并经过函数后,得到尺寸为y
×b×
1的双头注意力图。通过双头注意力图分别为特征图和不同空间位置分配不同大小的权重参数,实现对特征图和的调制。特征图调制后还经过tanh函数激活(特征图尺寸仍然为y
×b×
64),其与特征图相加的结果,作为双通道特征提取机构4第一出口的输出。这样能够实现所在信道对所在信道进行信息反馈,强化网络感知学习的效果。
19.具体地,在本实施例中,如图5所示,特征溶融模块6包括串联设置的拼接层、1*1卷积层和relu函数。第一精制特征图和第二精制特征图经过特征溶融模块6融合后,生成的复合特征图尺寸为y
×b×
64。如图6所示,图像重置机构7采用目前常用的结构设计,包括两个3*3卷积层和一个亚像素卷积层,亚像素卷积层设置在两个3*3卷积层之间。当图像尺寸放大倍数为n时,前一个3*3卷积层输出特征图尺寸为y
×b×
64n2,后一个3*3卷积层输出尺寸为ny
×
nb
×
3的高分辨率人脸图像2,亚像素卷积层输出特征图尺寸为ny
×
nb
×
64。
20.对常用的数据集div2k和人脸数据集feret分别进行2倍和4倍下采样,获得其对应的低分辨率图像,然后将这两个数据集2倍下采样后的图像组合起来,构成一号训练集,将这两个数据集4倍下采样后的图像组合起来,构成二号训练集。使用一号训练集和二号训练集训练本实施例所提供的深度学习网络和现有模型rcan。训练两个模型过程中,损失函数均为l2损失函数,epoch数量均为1500,学习率均固定设置为0.0001,训练完成时,损失函数均已经很好地收敛。
21.对lfw数据集分别进行2倍和4倍下采样,作为测试集。下表为两个模型训练完成后在测试集上的超分辨率重建效果,从中可以看出,本发明提供的深度学习网络取得了明显更好的图像重建效果。
22.表1 实施例1和rcan模型在测试集上超分辨率重建结果
本实施例还对上述两个模型重建得到的图像进行人脸识别测试,从另一个角度来证明两个模型重建后图像的质量。所采用的图像识别模型为预先训练完成的resnet56,识别结果如下表所示:表2实施例1和rcan模型重建人脸图像的识别正确率从上表可以看出,本发明提供的深度学习网络重建后图像的识别精度明显高于模型rcan重建输出的图像,说明本发明输出的人脸图像质量更高,更具辨识度。
23.消融实验:本实验将实施例1的所有双通道特征提取机构4中双头注意力单元5去掉(去掉双头注意力单元5后的双通道特征提取机构4如图7所示),深度学习网络的其他部分不变,作为对比例。训练和测试过程所有的细节均保持与实施例1相同,对比例测试结果如下:表3 对比例人脸图像重建结果及识别正确率从消融实验测得的数据可以看出,设置双头注意力单元5后,在psnr和ssim两个指标上测得的人脸图像重建效果均比没有双头注意力单元5时好,设置双头注意力单元5后,重建人脸图像在resnet56上的识别正确率也有所提高,充分说明了双头注意力单元5对提升深度学习网络性能具有重要促进作用。
24.以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献