一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于显著性感知和自注意力机制的图像美学评价方法

2022-07-10 05:47:18 来源:中国专利 TAG:


1.本发明涉及深度学习图像处理技术领域,具体涉及了一种基于显著性感知和自注意力机制的图像美学评价方法。


背景技术:

2.随着互联网时代的不断深入发展,我们的信息获取来源逐渐由一维文字转向了多维的视觉图片,从而推动了互联网图片数量以井喷式增长。但与此同时,图片质量良莠不齐,给图片展示、推荐、检索等后续应用带来了许多困扰。面对日益激增的海量图片,如何从中选取更符合人眼美学的优质图片成为重大挑战。
3.图像美学评价任务是许多图像应用的关键性前置处理过程。对于图像搜索,图像美学评价可以帮助用户过滤质量不佳的搜索结果,提高用户体验;对于图像增强任务,图像美学评价可以提供导向性编辑方案,也可以融合用户个性化美学习惯,提供更加精准的增强技术;对于图像推荐任务,图像美学评价可以作为排序指标之一,以获取更加高效的排序结果。
4.图像美学评价问题既关乎个人审美,也有一定的大众评价标准可循。传统美学评价方式大多利用诸如黄金分割等摄影原理手工设计美学特征,并以此进行图片匹配及评价。然而事先预设的特征显然无法尽善尽美地涵盖图片的各种表达形式,存在主观性,同时更多的特征匹配也意味着更多的计算过程。在人工智能研究愈加成熟的今日,利用神经网络的方式进行图像美学评价成为解决该问题的一种可能。而大量的实验实验已经证明,在图像美学评价任务中,相比于原图输入的方式,将图像裁剪为多张局部小图像再输入神经网络提取特征,基于多个特征融合的结果进行模型评价,可以获得更高的检测效果。在此背景下,对于使用何种策略进行图像裁剪,对于多个特征如何进行融合的探讨仍远未达到理想状态。


技术实现要素:

5.针对上述不足,本发明提出了一种基于显著性感知和自注意力机制的图像美学评价方法,该方法利用稀有色域显著性与亮度显著性两个角度进行图像区域显著性检测,基于显著性结果进行原始图像的裁剪,并分别提取裁剪局部的美学特征,利用自注意力机制融合多个特征向量,以实现对图像的美学质量分类。
6.本发明采用的技术方案为:
7.s1、图像输入输入并进行显著性检测,其中显著性检测包含稀有色域显著性检测与亮度显著性检测;
8.s2、基于显著性检测结果进行图像裁剪,基于人眼视觉的注意力不均匀性,裁剪出将能够产生最大视觉刺激即显著性最强的区域;
9.s3、裁剪区域去冗余,对于存在交叠的原始裁剪区域,基于减少重叠率的目的进行去冗余操作;
10.s4、提取区域图像美学特征,将所得的多个裁剪局部图像输入预训练的resnet50神经网络,不同的裁剪局部所用网络特征共享,获得多个图像美学特征向量;
11.s5、特征融合,采用自注意力机制进行空间注意力权重分配,获得融合的美学特征向量;
12.s6、得出美学评价结果,利用全连接层对所得的融合美学特征向量实现分类任务;
13.进一步地,,步骤s1中,图像数据的获取来源为aesthetic visualanalysis(ava)美学评价任务公开数据集,该数据集包含万张带评分标签的图像,评分范围为0-10分,以评分在5 分以上图像为高质量美学图像,评分在5分及5分以下图像为低质量美学图像;
14.进一步地,步骤s1中,稀缺色域显著性值计算公式为:
[0015][0016]
其中f(n)为图像灰度特征图,通过将图片转为灰度图并统计每一灰度值n出现的次数可得,d(p,n)为像素点p的灰度值与灰度值n的颜色距离,该颜色距离即灰度值差;
[0017]
进一步地,步骤s1中,亮度显著性值计算公式为:
[0018]
sal(p)=f'(g(p))*g(p)
[0019]
其中g(p)为像素点p的灰度值,f

(n)是经过归一化处理的灰度特征图;
[0020]
进一步地,步骤s1中,两种显著性检测的应用方式为:基于luminance contrast算法理论,稀有色域往往能够获取最大的视觉注意力,因此首先计算图像的稀有色域显著性,并基于该显著性进行区域裁剪;当稀有色域显著性结果无法满足可区分的裁剪要求时,认为该图像在全局范围具有相似色域,此时亮度最高区域获得最大视觉注意力。进行亮度显著性计算,并基于亮度显著性结果进行区域裁剪;
[0021]
进一步地,步骤s3中,去冗余过程为:将所有初始裁剪框按照面积从大到小进行排列,依据排列顺序两两计算交并比,设定阈值参数,对于交并比大于该阈值的两个裁剪框进行合并,对合并后的裁剪框重复进行上述检测过程,直到所有裁剪框通过检测;
[0022]
进一步地,步骤s3中,交并比的计算公式为:
[0023][0024]
即区域a与区域b的相交面积和合并面积的比值。
[0025]
进一步,步骤s5中,自注意力机制的具体实施方法为:计算所得的多个裁剪局部图像美学特征向量在同一维度上的最大值、最小值和平均值,获得最大值美学特征向量、最小值美学特征向量与平均值美学特征向量,通过在新维度上拼接的方法获得三者的融合美学特征向量。将融合特征向量经过全局池化降维,并通过全连接层的变化获得空间通道的注意力权重。将该权重作用于原始融合美学特征向量,可获得具有空间通道注意力的融合特征。
[0026]
综上所述,本发明公开了一种基于显著性感知和自注意力机制的图像美学评价方法。其有益效果为:提出了一种新颖的图像裁剪策略,该策略基于图像的显著性感知,可以为图像美学评价任务提供更加科学的前置操作。同时对因多局部图像输入的产生的多个特征使用自注意力机制融合,进一步提高了模型效益。
附图说明
[0027]
图1为一种基于显著性感知和自注意力机制的图像美学评价方法的方法流程图
[0028]
图2为一种基于显著性感知和自注意力机制的图像美学评价方法中裁剪框去冗余的流程图
[0029]
图3为一种基于显著性感知和自注意力机制的图像美学评价方法中自注意力机制的示意图
具体实施方式
[0030]
下面将结合附图和具体实施例对本发明进行进一步的详细说明,显然,所描述的实施例仅为部分实施例,而非全部实施例。
[0031]
在图像美学评价领域,研究人员已经证实,使用原始图像的多个裁剪局部作为神经网络的输入,可以比直接输入原始图像获得更高的网络准确率。然而关于裁剪策略的优化及多个特征的融合方法仍有需要研究空间。本发明公开了一种基于显著性感知和自注意力机制的图像美学评价方法,提出了一个新颖的裁剪策略,并使用自注意力机制解决了多特征融合问题。
[0032]
本实施例基于pytorch框架和pycharm开发环境:pytorch是一个开源的python机器学习库,包含各种适用于深度学习算法的工具包,可高效灵活地搭建神经网络模型,是目前主流的编程框架之一。
[0033]
本实施例公开了一种基于显著性感知和自注意力机制的图像美学评价方法,如图1所示,其主要的方法流程为:
[0034]
s1、图像数据输入及显著性检测,需要说明的是,图像数据的尺寸不需要固定,其来源为大型美学评价数据集aesthetic visual analysis(ava),该数据集包含了25万张带评分的图像数据,每张图像包含78至549位受试者的评分,评分范围为0-10分。本实施例中取每张图像的平均分数作为最终评分,并将评分高于5分的图像标记为高质量美学图像,评分低于 5分的图像标记为低质量美学图像;
[0035]
s2、基于显著性检测结果进行图像裁剪,以固定的尺寸裁剪出显著性较强的区域。需要说明的是,本实施例中裁剪尺寸为128*128,裁剪方法可使cv2数据工具包中所封装的 cv2.findcontours()函数完成;
[0036]
s3、裁剪区域去冗余,所得的初始裁剪框存在相互重叠的问题,利用计算交并比的方法合并交叠率过高的裁剪区域;
[0037]
s4、提取图像美学特征,将多个裁剪局部图像输入权值共享的图像特征提取神经网络,获取局部图像的美学特征向量。需要说明的是,本实施例中所使用的图像特征提取网络为预训练的resnet50网络,并在网络最末层接入全连接层,以提取更高级的抽象特征表征;
[0038]
s5、特征融合,利用自注意力机制融合所得的多个图像美学特征,获得融合特征向量;
[0039]
s6、得出美学评价结果;利用分类器由融合特征向量得出美学评价结果。需要说明的是,本实施例中,美学评价结果为二分类结果,即将输入图像分为高质量美学图像与低质量美学图像。
[0040]
具体的,本图像美学评价方法流程s1中显著性检测的步骤为:
[0041]
步骤一,稀有色域显著性检测,根据luminance contrast算法理论,人眼在获取视觉信息的过程中并没有为每一像素分配均匀的注意力,在视觉区域内的稀有颜色区域更容易获取观察者的注意,而获得高注意力的区域对于信息处理结果将产生更大的影响。依据稀有色域进行显著性计算的公式为:
[0042][0043]
其中f(n)为图像灰度特征图,通过将图片转为灰度图并统计每一灰度值n出现的次数可得,d(p,n)为像素点p的灰度值与灰度值n的颜色距离,该颜色距离即灰度值差;
[0044]
步骤二,亮度显著性检测,当稀有色域显著性的检测无法获得满足裁剪需要的区分度结果时,可以认为该图像在全局范围内具有相似的色域,此时亮度更高的区域将对人眼产生更大的刺激,从而获得更高的注意力。依据亮度进行显著性计算的公式为:
[0045]
sal(p)=f'(g(p))*g(p)
[0046]
其中g(p)为像素点p的灰度值,f

(n)是经过归一化处理的灰度特征图。
[0047]
具体的,如图2所示,本图像美学评价方法流程s3中裁剪框去冗余的步骤为:
[0048]
步骤一,将所有裁剪框按照面积从大到小进行排列,获得待检测序列,并取第一个裁剪框为当前检测框;
[0049]
步骤二、将当前检测框分别与余下裁剪框计算交并比,其计算公式为:
[0050][0051]
即裁剪区域a与裁剪区域b的相交面积和合并面积的比值;
[0052]
步骤三、设定合并阈值,对于超过设定阈值的裁剪框进行合并;
[0053]
步骤四、以合并后的新裁剪框为当前裁剪框,继续重复步骤二至四,直至与所有裁剪框均完成交并比计算检测;
[0054]
步骤五、将通过步骤四的裁剪空从检测序列中移除,并以移除后新的检测序列中的第一个裁剪框作为当前裁剪框,重复步骤二至步骤五,直至所有裁剪框均从检测序列中移除,完成去冗余操作。
[0055]
具体的,如图3所示,本图像美学评价方法流程s5中,自注意力机制的作用过程如下:
[0056]
步骤一,将所得的多个图像美学特征在同一维度上分别取最大值,最小值和平均值,得到最大值特征向量、最小值特征向量和平均值特征向量,在本实施例中,三者的维度均为 [n,128],其中n为输入图像张数;
[0057]
步骤二,将最大值特征向量、最小值特征向量和平均值特征向量在扩展的新维度上进行拼接,得到综合特征向量,该向量的维度为[n,3,128];
[0058]
步骤三,将综合特征向量经过全局池化进行降维,降维后的向量维度为[n,3,1];
[0059]
步骤四,利用参数可训练的全连接层与softmax层进行特征变化,获得具有空间注意力的权重向量;
[0060]
步骤五,将注意力权重向量与综合特征向量相乘,获得具有空间注意力的融合特征向量。
[0061]
需要说明的是,该图像美学评价方法中采用的预训练resnet50网络参数可以从torchvision 工具包中的models模块导入,并在ava数据集上进行本地微调;
[0062]
需要说明的是,该图像美学评价方法中,预训练的resnet50网络参数与自注意力机制中所用全连接层参数及美学分类器网络参数均为可训练参数,本实施例对aesthetic visualanalysis(ava)数据集以9:1的比例进行训练集和测试集的划分,并以7:3的比例均衡正负样本比。训练轮次为30轮,最终可得的模型准确率为84.2%。
[0063]
对所公开的实施例的上述说明,使得本领域的专业人员可以使用本发明并实现本发明的功能。对本实施例的多种修改对本领域的专业技术人员是显而易见的,本发明所定义的一般原理可以在不脱离本发明精神的前提下,在其他实例中实施。因此,本发明不局限于本文中提及的实施例,在没有做出创造性劳动前提下所获得的其他具体实施例都属于本发明保护的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献