一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像裁剪方法、装置、计算机设备及存储介质与流程

2021-10-20 00:02:00 来源:中国专利 TAG:计算机 裁剪 装置 可读 图像


1.本技术涉及计算机技术领域,具体涉及一种图像裁剪方法、装置、设备及计算机可读存储介质。


背景技术:

2.随着计算机技术的不断发展,网络中涌现出海量的图片。在所需图像尺寸与原图像尺寸不一致的情况下(如显示图像时会出现待原图像与显示区域的尺寸不匹配的情况),需要对原图像进行裁剪处理。常用的裁剪处理方式包括:根据当前用户指示的区域对原图像进行裁剪,得到所需图像;或者,通过静态裁剪(即确定一个固定的裁剪位置进行裁剪)的方式对原图像进行裁剪,得到所需图像。实践发现,人为指定裁剪区域的方式效率低,且人工成本较高;而静态裁剪的方式会使得裁剪位置固定,灵活性较差。基于此,如何更好地实现图像裁剪成为了研究热点。


技术实现要素:

3.本发明实施例提供了一种视频处理方法、装置、设备及存储介质,能够实现对目标图像进行灵活裁剪,使得裁剪后的图像能够较好地吸引用户的注意力,提升用户粘度。
4.一方面,本技术实施例提供了一种图像裁剪方法,该方法包括:
5.获取待处理的目标图像,并确定用于对所述目标图像进行裁剪的裁剪框;
6.对所述目标图像进行视觉显著性预测,得到所述目标图像的显著性信息,所述显著性信息用于指示所述目标图像中的显著性区域的分布情况,所述显著性区域是指所述目标图像中能够吸引用户注意力的区域;
7.根据所述显著性信息确定所述裁剪框在所述目标图像中所处的目标位置,所述目标位置是指:当所述裁剪框内包括的显著性区域的属性满足属性条件时,所述裁剪框在所述目标图像中所处的位置;
8.在所述目标位置处采用所述裁剪框对所述目标图像进行裁剪处理,得到裁剪后的图像。
9.另一方面,本技术提供了一种图像裁剪装置,该图像裁剪装置包括:
10.获取单元,用于获取待处理的目标图像,并确定用于对所述目标图像进行裁剪的裁剪框;
11.处理单元,用于对所述目标图像进行视觉显著性预测,得到所述目标图像的显著性信息,所述显著性信息用于指示所述目标图像中的显著性区域的分布情况,所述显著性区域是指所述目标图像中能够吸引用户注意力的区域;
12.所述处理单元,还用于根据所述显著性信息确定所述裁剪框在所述目标图像中所处的目标位置,所述目标位置是指:当所述裁剪框内包括的显著性区域的属性满足属性条件时,所述裁剪框在所述目标图像中所处的位置;
13.所述处理单元,还用于在所述目标位置处采用所述裁剪框对所述目标图像进行裁
剪处理,得到裁剪后的图像。
14.在一种实施方式中,所述处理单元用于,根据所述显著性信息确定所述裁剪框在所述目标图像中所处的目标位置,具体用于:
15.确定所述裁剪框在所述目标图像中的滑动方向;
16.按照所述滑动方向将所述裁剪框在所述目标图像中进行滑动,以确定所述裁剪框在目标图像中的多个候选位置,每个候选位置是指所述裁剪框每次滑动后在所述目标图像中所处的位置;
17.根据所述显著性信息,计算所述裁剪框在各个候选位置时所包括的显著性区域的属性;
18.从所述多个候选位置中选取满足属性条件的目标属性所对应的候选位置,作为所述裁剪框在所述目标图像中所处的目标位置。
19.在一种实施方式中,所述处理单元用于,确定所述裁剪框在所述目标图像中的滑动方向,具体用于:
20.获取所述目标图像的宽高比例和所述裁剪框的宽高比例;
21.若所述目标图像的宽高比例大于所述裁剪框的宽高比例,则将所述裁剪框在所述目标图像中的滑动方向确定为水平滑动方向;
22.若所述目标图像的宽高比例小于所述裁剪框的宽高比例,则将所述裁剪框在所述目标图像中的滑动方向确定为竖直滑动方向。
23.在一种实施方式中,所述显著性信息包括所述目标图像中的各个像素点的显著性概率值;所述裁剪框在任一候选位置时所包括的显著性区域的属性包括:根据所述裁剪框在所述任一候选位置时所包括的各个像素点的显著性概率值,所计算得到的显著度;
24.所述属性条件包括:显著度大于显著阈值的条件,或者显著度最大的条件。
25.在一种实施方式中,所述处理单元用于,计算所述裁剪框在各个候选位置时所包括的显著性区域的属性,具体用于:
26.按照所述滑动方向,将所述目标图像各个像素点的显著性概率值投影至所述目标图像中,得到投影曲线;
27.针对任一候选位置,从所述投影曲线中确定所述裁剪框在所述任一候选位置时所包括的曲线段;并对所述曲线段进行积分处理,得到所述裁剪框在任一候选位置时所包括的显著性区域的显著度。
28.在一种实施方式中,所述目标图像包括p行
×
q列个像素点,所述p和所述q的取值均为正整数;所述滑动方向包括水平滑动方向或者竖直滑动方向;所述处理单元用于,按照所述滑动方向,将所述目标图像各个像素点对应的显著性概率值投影至所述目标图像中,得到投影曲线,具体用于:
29.若所述滑动方向为所述水平滑动方向,则依次求取所述目标图像中的第q列中的各个像素点的显著性概率值的总和,作为所述第q列的投影点,所述q属于[1,q];采用所述目标图像中的各列的投影点进行曲线绘制,得到投影曲线;
[0030]
若所述滑动方向为所述竖直滑动方向,则依次求取所述目标图像中的第p行中的各个像素点的显著性概率值的总和,作为所述第p行的投影点,所述p属于[1,p];采用所述目标图像中的各行的投影点进行曲线绘制,得到投影曲线。
[0031]
在一种实施方式中,在得到裁剪后的图像之后,所述处理单元,还用于:
[0032]
根据所述目标图像中的各个像素点的显著性概率值,计算所述目标图像的显著度;
[0033]
根据所述目标图像的显著度以及所述裁剪后的图像的显著度,对所述裁剪后的图像进行完整性评分,输出评分结果;
[0034]
其中,所述裁剪后的图像的显著度等于所述裁剪框在所述目标位置时所包括的显著性区域的显著度。
[0035]
在一种实施方式中,所述目标图像是目标视频片段中的任一帧图像;所述处理单元用于,在所述目标位置处采用所述裁剪框对所述目标图像进行裁剪处理,得到裁剪后的图像,具体用于:
[0036]
确定所述目标位置的目标位置坐标,以及确定所述裁剪框在各个参考图像中的参考位置的参考位置坐标;所述参考图像是指所述目标视频片段中除所述目标图像以外的图像;
[0037]
根据各个参考位置坐标对所述目标位置坐标进行校准处理,得到校准后的位置坐标;
[0038]
在所述校准后的位置坐标所指示的位置处,采用所述裁剪框对所述目标图像进行裁剪处理,得到裁剪后的图像。
[0039]
在一种实施方式中,所述处理单元用于,根据各个参考位置坐标对所述目标位置坐标进行校准处理,得到校准后的位置坐标,具体用于:
[0040]
若所述目标视频片段中的图像的数量小于数量阈值,则对各个参考位置坐标和所述目标位置坐标进行均值运算,得到校准后的位置坐标;
[0041]
若所述目标视频片段中的图像的数量大于所述数量阈值,则对各个参考位置坐标和所述目标位置坐标进行一维高斯平滑处理,并根据平滑处理结果确定校准后的位置坐标。
[0042]
在一种实施方式中,所述平滑处理结果包括:各个参考位置经过平滑后的平滑坐标,以及所述目标位置坐标经过平滑后的平滑坐标;所述处理单元用于,根据平滑处理结果确定校准后的位置坐标,具体用于:
[0043]
根据所述平滑处理结果检测所述目标视频片段是否存在目标图像组,所述目标图像组包括所述目标图像,且所述裁剪框在所述目标图像组中的任一图像中的平滑坐标,与所述裁剪框在所述目标图像组中的首帧图像中的平滑坐标之间的坐标差值均小于或差值阈值;
[0044]
若存在,则对所述裁剪框在所述目标图像组中的各个图像中的平滑位置坐标进行均值运算,得到校准后的位置坐标;
[0045]
若不存在,则将所述目标位置坐标经过平滑后的平滑坐标作为校准后的位置坐标。
[0046]
在一种实施方式中,所述处理单元用于,获取待处理的目标图像,具体用于:
[0047]
获取初始图像;
[0048]
对所述初始图像进行无效边检测,所述无效边是指对图像进行像素点填充所形成的边;
[0049]
若所述初始图像存在一个或多个所述无效边,则在所述初始图像中删除所述一个或多个无效边,得到目标图像;
[0050]
若所述初始图像存在一个或多个所述无效边,则在所述初始图像中删除所述一个或多个无效边,得到目标图像。
[0051]
在一种实施方式中,所述处理单元用于,对所述初始图像进行无效边检测,具体用于:
[0052]
确定所述初始图像的m个检测方向,并获取第m个检测方向对应的参考值;其中,m为正整数,m∈[1,m];
[0053]
按照所述第m个检测方向依次扫描所述初始图像中的各个像素组,一个像素组是由所述初始图像中位于同一行或者同一列的所有像素点组成的;
[0054]
根据所述参考值统计当前扫描的像素组中的目标像素点的数量,所述目标像素点是指:像素值和所述参考值之间的差异值大于差异阈值的像素点;
[0055]
若所述目标像素点的数量满足数量条件,则继续扫描并对第m个检测方向对应的无效计数执行加一处理;否则,将当前扫描的像素组确定为标记像素组,在所述第m个检测方向上终止扫描,并获取在所述第m个检测方向上终止扫描时的所述无效计数的数值;
[0056]
若所述数值大于第一阈值,则判定所述初始图像在所述第m个检测方向上存在无效边,且所述无效边包括:所述初始图像在所述第m个检测方向上位于所述标记像素组之前的各个像素组;否则,则判定所述初始图像在所述第m个检测方向上不存在无效边。
[0057]
在一种实施方式中,所述处理单元用于,若数值大于所述第一阈值,则判定所述初始图像在所述第m个检测方向上存在无效边,具体用于:
[0058]
若数值大于所述第一阈值,则判断所述数值是否大于第二阈值,所述第二阈值大于所述第一阈值;
[0059]
若所述数值大于或等于所述第二阈值,则判定所述初始图像在所述第m个检测方向上不存在无效边;
[0060]
若所述数值小于所述第二阈值,则判定所述初始图像在所述第m个检测方向上存在无效边。
[0061]
在一种实施方式中,所述目标图像是目标视频中的图像,所述目标视频包括n帧图像,n为正整数;所述处理单元用于,对所述目标图像进行视觉显著性预测,得到所述目标图像的显著性信息,具体用于:
[0062]
获取显著性预测模型,所述显著性预测模型包括时间流网络和空间流网络;
[0063]
获取所述目标图像的一帧或多帧关联图像,所述各帧关联图像和所述目标图像构成连续的图像序列;
[0064]
调用所述时间流网络根据各帧关联图像和所述目标图像之间的关联性,对所述目标图像进行显著性预测,得到所述目标图像的时序显著性结果;
[0065]
调用所述空间流网络对所述目标图像进行显著性预测,得到所述目标图像的空间显著性结果;
[0066]
融合所述时序显著性结果和所述空间显著性结果,得到所述目标图像的显著性信息。
[0067]
在一种实施方式中,所述显著性预测模型还包括卷积高斯层,所述卷积高斯层是
基于多个不同方差大小的高斯核训练得到的;所述处理单元用于,融合所述时序显著性结果和所述空间显著性结果,得到所述目标图像的显著性信息,具体用于:
[0068]
融合所述时序显著性结果和所述空间显著性结果,得到融合结果;
[0069]
调用所述卷积高斯层对融合结果进行校准处理,得到所述目标图像的显著性信息。
[0070]
相应地,本技术提供了一种计算机设备,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的图像裁剪方法。
[0071]
相应地,本技术提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,上述的图像裁剪方法被实现。
[0072]
相应地,本技术提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像裁剪方法。
[0073]
本技术实施例在获取到待处理的目标图像后,可通过对目标图像进行视觉显著性预测,得到用于指示目标图像中的显著性区域的分布情况的显著性信息,并根据该显著性信息灵活地确定出裁剪框在目标图像中所处的目标位置。然后,可在目标位置处采用裁剪框对目标图像进行裁剪处理,使得裁剪后的图像能够尽可能多地包括预测出的显著性区域,进而使得裁剪后的图像能够较好地吸引用户的注意力,提升用户粘度。
附图说明
[0074]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0075]
图1a为本技术实施例提供的一种横屏转竖屏的裁剪示意图;
[0076]
图1b为本技术实施例提供的一种竖屏转横屏的裁剪示意图;
[0077]
图2为本技术实施例提供的一种图像裁剪方法的流程图;
[0078]
图3为本技术实施例提供的另一种图像裁剪方法的流程图;
[0079]
图4a为本技术实施例提供的一种存在无效边的图像示意图;
[0080]
图4b为本技术实施例提供的一种删除图像中无效边的示意图;
[0081]
图4c为本技术实施例提供的一种显著性预测模型的模型架构图;
[0082]
图4d为本技术实施例提供的一种根据显著性信息计算显著性区域的显著度的示意图;
[0083]
图4e为本技术实施例提供的一种计算机设备可输出的多种结果的示意图;
[0084]
图4f为本技术实施例提供的一种原始图像的裁剪过程示意图;
[0085]
图4g为本技术实施例提供的一种裁剪步骤示意图;
[0086]
图5为本技术实施例提供的一种图像裁剪装置的结构示意图;
[0087]
图6为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0088]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0089]
随着互联网技术的不断发展,人工智能(artificial intelligence,ai)技术也随之得到较好的发展。所谓的人工智能技术是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术;其主要通过了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,使得智能机器具有感知、推理与决策等多种功能。相应的,ai技术是一门综合学科,其主要包括计算机视觉技术(computer vision,cv)、语音处理技术、自然语言处理技术以及机器学习(machine learning,ml)/深度学习等几大方向。
[0090]
其中,计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统;其通常包括图像处理、视频处理、视频语义理解、视频内容/行为识别等技术。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是ai的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0091]
基于ai技术中的计算机视觉技术和机器学习技术,本技术实施例提供了一种图像裁剪方案,以更好地对独立的一幅图像或者视频中的各帧图像进行裁剪。该图像裁剪方案可由计算机设备执行,此处的计算机设备可以是具有图像处理能力的终端或者服务器。其中,终端可以包括但不限于:智能手机(如android手机、ios手机等)、平板电脑、便携式个人计算机、移动互联网设备(mobileinternetdevices,简称mid)等设备,本技术实施例对此不做限定。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,本技术实施例对此不做限定。
[0092]
在具体实现中,该图像裁剪方案的大致原理如下:首先,可基于机器学习技术训练得到一个显著性预测模型,该显著性预测模型是一种具有视觉显著性预测能力的模型;所谓的视觉显著性预测是指:通过算法模拟人的视觉特点,提取图像/视频中的显著性区域(即人类感兴趣的区域)的处理。当存在对某一图像进行图像裁剪的需求时,便可通过该显著性预测模型预测目标图像中的显著性区域,从而根据预测结果灵活地确定裁剪框在目标图像中的位置;并在确定的位置处采用裁剪框对目标图像进行裁剪,使得裁剪后的图像能够尽可能多地包括模型预测出的显著性区域,进而使得裁剪后的图像能够较好地吸引用户
的注意力,提升用户粘度。
[0093]
在实际应用中,可根据实际需求将上述的图像裁剪方案运用在各种图像裁剪场景中,如横屏转竖屏的裁剪场景,竖屏转横屏的裁剪场景,等等。其中,横屏是指宽高比例大于1的屏幕(如16:9的屏幕),竖屏是指宽高比例小于1的屏幕(如9:16的屏幕);此处的宽高比例是指宽度和高度之间的比值,而宽度是指水平方向上的长度,高度是指竖直方向上的长度。相应的,横屏转竖屏是指:将在横屏上显示的横屏图像(或横屏视频)通过图像裁剪转换成在竖屏上显示的竖屏图像(或竖屏视频);竖屏转横屏则是指:将在竖屏上显示的竖屏图像(或竖屏视频)通过图像裁剪转换成在横屏上显示的横屏图像(或横屏视频)。并且,针对任一图像裁剪场景,计算机设备均可调用该图像裁剪方案基于不同宽高比例对目标图像进行裁剪。例如,在横屏转竖屏的裁剪场景中:针对宽高比例为16:9的目标图像而言,计算机设备可采用该图像裁剪方案将目标图像裁剪为宽高比例为9:16、1:1、4:3的裁剪图像;且每个裁剪图像均较为准确、完整的保留了目标图像中用户关注的内容,如图1a所示。又如,在竖屏转横屏的裁剪场景中:针对宽高比例为9:16的目标图像而言,计算机设备可采用该图像裁剪方案将目标图像裁剪为宽高比例为16:9,如图1b所示。
[0094]
由此可见,本技术实施例所提出的图像裁剪方案可以通过多种形式应用于图像或视频的宽高转换以及视频素材编辑。一方面,本方案可以针对不同设备(根据显示设备显示屏的尺寸)对于已经存在的新闻、舞蹈综艺、影视电视剧、在线教育视频、广告、体育、表演、动画等视频资源,进行图像或视频的宽高比例转换。例如,旧的电视访谈等影视作品通常采用4:3,可以根据不同设备进行裁剪,如对于平板设备裁剪为3:2,手机裁剪为9:16(竖屏)或16:9(横屏)。另一方面,本方案可以针对不同应用/需求进行视频编辑。具体地,对于直播用户、vlog用户、社交媒体工作者、广告视频编辑等,本技术实施例所提出的图像裁剪方案可以根据不同平台图像或视频长宽比例格式要求,自动裁剪原始图像或视频素材得到不同宽高比例的图像或视频,如xxx平台的图像或视频长宽比例格式要求为16:9,yyy空间的图像或视频长宽比例格式要求为9:16,zzz网页的图像或视频长宽比例格式要求为1:1等。
[0095]
基于上述图像裁剪方案的相关描述,本发明实施例提出了一种图像裁剪方法,该图像裁剪方法可由上述所提及的计算机设备执行;参见图2所示,该图像裁剪方法可包括如下步骤s201

s204:
[0096]
s201、获取待处理的目标图像,并确定用于对目标图像进行裁剪的裁剪框。
[0097]
其中,目标图像可以是单独的一张图像(如一张照片),也可以是目标视频片段中的任一帧图像,待处理的目标图像还可以是对原始图像进行预处理(如分辨率转换处理、无效边检测处理等)后的图像,对此不作限制。计算机设备在确定用于对目标图像进行裁剪的裁剪框时,获取用户指定的裁剪比例,并将该裁剪比例确定为裁剪框的宽高比例。若裁剪框的宽高比例小于目标图像的宽高比例,则根据目标图像的高度确定裁剪框的高度,使得裁剪框内图像的高度与目标图像的高度一致,并根据裁剪框高度和宽高比例计算得到裁剪框的宽度,从而确定出裁剪框。同理,若裁剪框的宽高比例大于目标图像的宽高比例,则根据目标图像的宽度确定裁剪框的宽度,使得裁剪框内图像的宽度与目标图像的宽度一致,并根据裁剪框宽度和宽高比例计算得到裁剪框的高度,从而确定出裁剪框。
[0098]
s202、对目标图像进行视觉显著性预测,得到目标图像的显著性信息。
[0099]
其中,显著性信息用于指示目标图像中的显著性区域的分布情况,显著性区域是
指目标图像中能够吸引用户注意力的区域。例如,在一张图像a中,相对于图像四周的内容来说,用户通常更加关注图像中心区域的内容;那么,该图像a中的显著性区域可以是图像中心区域。又例如,在一张关于物品展示的图像b中,相对于展示物品的展示者来说,用户通常更加关注图像b中展示的物品;那么,该图像b中的显著性区域可以是物品的显示区域,等等。
[0100]
在具体实现中,目标图像的显著性信息可包括目标图像中各个像素点的显著性概率值;任一个像素点的显著性概率值用于指示用户在观看目标图像时,关注该像素点的概率(即该像素点能够吸引用户注意力的概率)。可以理解的是,用户对该像素点的关注度与该像素点的显著性概率值成正比;并且,目标图像中可以包括一个或多个显著性区域。在一种实施方式中,在通过显著性信息指示目标图像中的显著性区域的分布情况时,计算机设备还可根据该显著性信息生成关于目标图像的热力图,从而通过该热力图来直观地反映目标图像中的显著性区域的分布情况。所谓的热力图是指:根据各个像素点的显著性概率值在目标图像中采用不同的显示颜色对各个像素点进行突出显示所得到的图像;其中,任一像素点在热力图中的显示颜色的深度与该任一像素点的显著性概率值成正比。具体的,计算机设备可依次遍历目标图像中的每个像素点,根据当前遍历的像素点的显著性概率值确定用于突出显示该当前遍历的像素点的显示颜色,并根据该显示颜色在目标图像中对当前遍历的像素点进行突出显示;在筛选出的各个像素点均被遍历后,便可得到目标图像的热力图。输出目标图像的热力图后,用户便可将热力图像中颜色较深的区域视为显著性区域。
[0101]
可选的,目标图像中的一个显著性区域可以是由目标图像中显著性概率值大于显著性阈值的连续多个像素点所构成的区域。再一种实施方式中,计算机设备也可先将目标图像划分成多个区域,并分别计算各个区域内的所有像素点的显著性概率值的均值,将计算得到的均值大于区域判定阈值的区域作为显著性区域;也就是说,此实施方式下,目标图像中的一个显著性区域是指:各个像素点的显著性概率值的均值大于区域判定阈值时,该各个像素点所属的区域。
[0102]
s203、根据显著性信息确定裁剪框在目标图像中所处的目标位置。
[0103]
其中,目标位置是指:当裁剪框内包括的显著性区域的属性满足属性条件时,裁剪框在目标图像中所处的位置。裁剪框内包括的显著性区域的属性可包括以下任一种:裁剪框内包括的显著性区域的数量、裁剪框内包括的显著性区域的面积、裁剪框内包括的显著性区域的显著度,等等。其中,裁剪框内包括的显著性区域的显著度,是根据裁剪框内包括的各个像素点的显著性概率值计算得到的。相应的,当裁剪框内包括的显著性区域的属性包括:裁剪框内包括的显著性区域的数量时,属性条件可以包括:数量最大的条件,或者数量大于预设阈值的条件;当裁剪框内包括的显著性区域的属性包括:裁剪框内包括的显著性区域的面积时,属性条件可以包括:面积最大的条件,或者面积大于面积阈值的条件;当裁剪框内包括的显著性区域的属性包括:裁剪框内包括的显著性区域的显著度时,属性条件可以包括:显著度最大的条件,或者显著度大于显著阈值的条件。
[0104]
在步骤s203的具体实施过程中,计算机设备可按照裁剪框的滑动方向,基于滑动步长将裁剪框在目标图像中进行滑动,将每次滑动后裁剪框所在的位置确定为目标图像的一个候选位置,直至遍历完整个目标图像,得到裁剪框在目标图像中的候选位置集合。其次,计算机设备可分别根据显著性信息,计算裁剪框在各个候选位置时所包括的显著性区
域的属性;然后,从多个候选位置中选取满足属性条件的目标属性所对应的候选位置,作为裁剪框在目标图像中所处的目标位置。其中,裁剪框的滑动方向包括水平滑动方向或者竖直滑动方向中;裁剪框的滑动步长用于指示每次滑动后的位置相较于上一位置的滑动距离,其具体的取值可根据经验值设置,且滑动步长可以像素点为单位,当滑动步长为5时,则裁剪框滑动后的位置相较于上一位置的滑动距离为5个像素点。可以理解的是,每次滑动的距离越小(即滑动步长越短),则在目标图像中包括的裁剪框的候选位置就越多,因此滑动步长也可以是根据影响因素(如目标图像的尺寸,计算机设备的性能等)确定的。还需说明的是,在其他实施例中,计算机设备也可不通过裁剪框滑动的方式来确定候选位置,而是根据经验值或者通过模型识别目标图像的图像内容来直接从目标图像中确定出裁剪框在目标图像中的候选位置。
[0105]
s204、在目标位置处采用裁剪框对目标图像进行裁剪处理,得到裁剪后的图像。
[0106]
在一种实施方式中,计算机设备在确定裁剪框的目标位置后,可直接根据目标位置的目标位置坐标将裁剪框移至目标图像中的目标位置处,将位于目标位置处的裁剪框中所包括的图像内容从目标图像中截取出来,得到裁剪后的图像。再一种实施方式中,若目标图像是目标视频片段中的任一帧图像,则计算机设备还可根据裁剪框在目标视频片段中的其他图像中位置坐标对目标位置的位置坐标进行校准处理,从而将裁剪框移至校准后的位置坐标所指示的位置处,并将此时的裁剪框中所包括的图像内容进行截取处理(即从目标图像中截取裁剪框中所包括的图像内容),得到裁剪后的图像。在得到裁剪后的图像后,计算机设备可根据显示屏的大小对裁剪后的图像进行缩放,从而输出缩放后的图像(如计算机设备直接显示缩放后的图像,或者将缩放后的图像发送给显示设备进行显示)。
[0107]
本技术实施例在获取到待处理的目标图像后,可通过对目标图像进行视觉显著性预测,得到用于指示目标图像中的显著性区域的分布情况的显著性信息,并根据该显著性信息灵活地确定出裁剪框在目标图像中所处的目标位置。然后,可在目标位置处采用裁剪框对目标图像进行裁剪处理,使得裁剪后的图像能够尽可能多地包括预测出的显著性区域,进而使得裁剪后的图像能够较好地吸引用户的注意力,提升用户粘度。
[0108]
基于上述图像裁剪方案的相关描述,本发明实施例提出了另一种图像裁剪方法,该图像裁剪方法可由上述所提及的计算机设备执行;参见图3所示,该图像裁剪方法可包括如下步骤s301

s310:
[0109]
s301、获取初始图像,并对初始图像进行无效边检测。
[0110]
初始图像可以是单独的一张图像,也可以是初始视频中的任一帧图像。无效边是指对图像进行像素点填充所形成的边,通常用于填充的像素点的颜色为同一种颜色(如黑色、白色);当用于填充的像素点的颜色为黑色时,无效边又可称为黑边,当用于填充的像素点的颜色为白色时,无效边又可称为白边,以此类推。其中,初始图像的制作过程如下:首先,可通过图像采集制作的操作生成原图像;其次,可检测原图像的尺寸与预设尺寸或者设备显示窗口的尺寸是否相同。若相同,则直接将原图像作为初始图像;若不同,则对原图像的尺寸进行调整,得到初始图像。其中,对原图像的尺寸进行调整包括:对原图像的高度和/或宽度进行调整;参见图4a所示,当通过图像采集制作所得到的原图像的高度小于预设的高度,或者小于设备显示窗口的高度时,通常会在原图像的上方和/或下方进行像素点填充来增加原图像的高度,以使填充后的图像(即初始图像)的高度与预设高度一致或者与设备
显示窗口的高度一致。同理,若原图像的宽度小于预设宽度,或者小于设备显示窗口的宽度,则可在原图像的左侧和/或右侧进行像素点填充来增加原图像的宽度,以使填充后的图像(即初始图像)的宽度与预设宽度一致或者与设备显示窗口的宽度一致。其中,除原图像外的像素点填充区域即为无效边所在区域。
[0111]
由上述描述可知,在制作初始图像的过程中,可能会由于图像调整(即像素点填充)而导致初始图像存在无效边(如黑边或白边);在此情况下,若直接对初始图像进行图像裁剪,可能导致裁剪后的图像存在无效边,影响裁剪效果。因此,计算机设备在获取到初始图像后,可对初始图像进行无效边检测,以在初始图像存在无效边时,可删除该无效边后再执行图像裁剪,从而提升图像裁剪效果。在具体实施过程中,计算机设备对初始图像进行无效边检测的具体实施方式可以包括以下步骤s11

s14:
[0112]
s11:确定初始图像的m个检测方向,并获取当前遍历的第m个检测方向对应的参考值。
[0113]
其中,m为正整数;m个检测方向可包括以下至少一个:从上至下的检测方向、从下至上的检测方向、从左至右的检测方向以及从右至左的检测方向。计算机设备在确定m个检测方向后,便可分别检测初始图像是否在每个检测方向上存在无效边;需要说明的是,计算机设备可同时并发地在各个检测方向对初始图像进行无效边的检测,也可以依次逐一在各个检测方向上对初始图像进行无效边的检测,本发明实施例对此不作限定。
[0114]
其中,m∈[1,m];第m个检测方向对应的参考值是指:用于判断初始图像在第m个检测方向上是否存在无效边的衡量值。第m个检测方向对应的参考值可以是通过计算初始图像在第m个检测方向上前i个像素组中所有像素点的均值得到的,i的取值可根据经验值设置。其中,一个像素组是由初始图像中位于同一行或者同一列的所有像素点组成的;具体地,若当前遍历的检测方向为从下至上的检测方向或者从上至下的检测方向,则一个像素组是由初始图像中位于同一行的所有像素点组成的;相应地,若当前遍历的检测方向为从左至右的检测方向或者从右至左的检测方向,则一个像素组是由初始图像中位于同一列的所有像素点组成的。可选的,第m个检测方向对应的参考值也可以是预先根据经验值设置的;例如,若需要检测初始图像中的黑边,则将参考值直接设为[0,0,0]。
[0115]
需要说明的是,若用于衡量初始图像在不同检测方向上是否存在无效边的衡量值均相同,即不同检测方向对应的参考值相同,则计算机设备在获取第一个检测方向对应的参考值后,在遍历除第一个检测方向外的其他检测方向时可使用该参考值作为无效边的判断依据,无需再次执行获取其他检测方向的参考值的步骤。若用于衡量初始图像在不同方向上是否存在无效边的衡量值不同,即不同检测方向对应的参考值相同,则计算机设备每遍历一个检测方向前,均需要确定当前遍历的检测方向对应的参考值。
[0116]
s12:按照第m个检测方向依次扫描初始图像中的各个像素组,并根据参考值统计当前扫描的像素组中的目标像素点的数量。
[0117]
其中,目标像素点是指像素值和参考值之间的差异值大于差异阈值的像素点;例如,假设差异阈值为3,参考值为[0,0,0],像素点1的像素值为[0,1,0],像素点2的像素值为[3,7,5],由于像素点2和参考值之间的差异值大于差异阈值,将像素点2确定为目标像素点。
[0118]
各个像素组的排列顺序是根据第m个检测方向确定的;若第m个检测方向为从上至
下的检测方向,则将初始图像中第r行的像素点对应的像素组确定为第r个待扫描的像素组,r为正整数;同理,设初始图像包括n行像素点,若第m个检测方向为从下至上的检测方向,则初始图像中第n

r行的像素点对应的第r 1个扫描的像素组,n为正整数。当检测方向为从左至右的检测方向或者从右至左的检测方向时,确定各个像素组的排列顺序的方式与检测方向为从上至下的检测方向或者从下至上的检测方向时,确定各个像素组的排列顺序的方式类似,在此不再赘述。
[0119]
s13:若当前扫描的像素组中的目标像素点的数量满足数量条件,则继续扫描并对第m个检测方向对应的无效计数执行加一处理;否则,将当前扫描的像素组确定为标记像素组,在第m个检测方向上终止扫描,并获取在第m个检测方向上终止扫描时的无效计数的数值。
[0120]
其中,目标像素点的数量满足数量条件包括:当前扫描的像素组中目标像素点的数量小于数量阈值,或者当前扫描的像素组中目标像素点的数量与当前扫描的像素组中所有像素点的数量的比值小于比值阈值。其中,数量阈值和比值阈值均可根据经验值或者业务需求设置。
[0121]
s14、若无效计数的数值大于第一阈值,则判定初始图像在第m个检测方向上存在无效边;否则(即无效计数的数值小于或等于第一阈值),则判定初始图像在第m个检测方向上不存在无效边。
[0122]
其中,无效边包括:初始图像在第m个检测方向上位于标记像素组之前的各个像素组中的像素点,标记像素组是在第m个检测方向上从初始图像中扫描到的第一个组内所包括的目标像素点的数量不满足数量条件的像素组。例如,假设第m个检测方向为从上至下的检测方向;第一阈值为5,若在从上至下的检测方向终止扫描时的无效计数的数值为10,则判定初始图像在从上至下的检测方向上存在无效边,且无效边包括初始图像的前10行像素点;若在从上至下的检测方向终止扫描时的无效计数的数值为3,则判定初始图像在从上至下的检测方向上不存在无效边。
[0123]
经研究表明,当初始图像在某个方向上的无效像素组的数量较多时,其可能存在两种情况:一种是初始图像本身存在填充像素,另一种是初始图像是纯色图像,所谓纯色图像是指由相同像素值的多个像素点所构成的图像。当初始图像是纯色图像时,可认为该初始图像中不存在无效边。基于此,可进一步通过第二阈值检测第m个检测方向对应的无效像素组的数量(即无效计数)大于第一阈值这一现象,是由于初始图像是纯色图像而导致的,还是由于初始图像中存在无效边导致的,从而提升无效边检测的准确性。具体地,在确定无效计数的数值大于第一阈值后,进一步判断无效计数的数值是否大于第二阈值(第二阈值大于第一阈值),第二阈值可以是由初始图像在第m个检测方向上包括的像素组的总数和预设比例(如30%)计算得到的。若无效计数的数值大于或等于第二阈值,则可认为初始图像为纯色图像,此时可判定初始图像在第m个检测方向上不存在无效边;若无效计数的数值小于第二阈值,则认为初始图像不是纯色图像,此时可判定初始图像在第m个检测方向上存在无效边。
[0124]
下面以检测方向为从上至下的检测方向为例,对本技术提供的无效边检测的方案进行详细说明:
[0125]
计算初始图像前i(如i=1)行像素点的颜色平均值,i为正整数,并将该颜色平均
值确定为参考值;从第一行开始,依次计算每一行中各个像素点的像素值(rgb像素值)与参考值之间的差异值,并判断差异值超过差异阈值的目标像素点的数量是否满足数量条件(如判断当前行中目标像素点的数量是否小于数量阈值,或者判断当前行中目标像素点的数量与当前行中所有像素点的数量的比值是否小于比例阈值);若当前行中差异值超过差异阈值的目标像素点的数量满足数量条件(即当前行中目标像素点的数量小于数量阈值,或者当前行中目标像素点的数量与当前扫描的像素组中所有像素点的数量的比值小于比例阈值),则将无效计数执行加一处理,并继续检测下一行中差异值超过差异阈值的目标像素点的数量是否满足数量条件,直至检测到当前行中差异值超过差异阈值的目标像素点的数量不满足数量条件。获取无效计数的数值m,若无效计数的数值m小于或等于第一阈值(即初始图像上方无效边较少,可以忽略),或者m大于或等于第二阈值(即初始图像可能为纯色(如黑色)图像),则判定初始图像的上方不存在无效边;若无效计数的数值m大于第一阈值且小于第二阈值,则判定初始图像的上方存在无效边。无效边包括初始图像的前m行像素点。按照类似的处理方式从其他三个方向(从下至上,从左至右,从右至左)对初始图像进行无效边检测,得到初始图像的无效边检测结果。
[0126]
s302、若初始图像存在一个或多个无效边,则在初始图像中删除一个或多个无效边,得到目标图像。
[0127]
例如,初始图像在从上至下的检测方向上以及从小至上的检测方向上均存在无效边,则可分别删除初始图像上方的无效边和下方的无效边,得到目标图像,如图4b所示。可选的,计算机设备在获取初始图像后,也可以不对初始图像进行无效边检测,直接将初始图像作为待处理的目标图像。
[0128]
s303、对目标图像进行视觉显著性预测,得到目标图像的显著性信息。
[0129]
在一种实施方式中,若目标图像是目标视频中的图像,目标视频包括n帧图像,n为正整数,则步骤s303的具体实施方式可以是:
[0130]
首先,获取显著性预测模型,该显著性预测模型包括时间流网络和空间流网络。显著性预测模型可以是采用训练数据集(包括输入数据和标注数据)对卷积神经网络进行优化训练后得到的。卷积神经网络包括:视觉集合组(visual geometry group,vgg)网络、残留网络(residual network,resnet)、可移动网络(mobilenet)等。具体地,采用卷积神经网络对训练数据集中的输入数据进行显著性预测,得到预测数据。通过损失函数对预测数据与标注数据进行差异运算,并根据差异运算的结果调整卷积神经网络中的参数,得到显著性预测模型。其中,模型损失函数是基于以下三种显著性预测评价指标中的至少一种构造的:光流(lucas

kanade,lk)距离;皮尔逊相关系数(pearsons linear correlation coefficient),又称为线性相关系数cc;以及标准化扫视路径显著性指标(normalized scanpath saliency,nss)。
[0131]
在一个实施例中,显著性预测模型中的时间流网络和空间流网络中特征提取模块的参数可以是相同的,将时间流网络和空间流网络中特征提取模块的参数设置为相同参数可以压缩显著性预测模型的体积。需要说明的是,时间流网络与空间流网络的不同之处在于时间流网络的卷积层的维度与空间流网络的卷积层的维度不同(空间流网络不包括时间维度)。
[0132]
其次,可获取目标图像的一帧或多帧关联图像,各帧关联图像和目标图像构成连
续的图像序列,目标图像可以是该图像序列中任一位置处的图像(如目标图像可以该图像序列中的第一张图像,也可以是该图像序列中的最后一张图像,或者是第一张图像和最后一张图像之间的图像);调用时间流网络根据各帧关联图像和目标图像之间的关联性(如时序性),对目标图像进行显著性预测,得到目标图像的时序显著性结果,该时序显著性结果用于指示目标图像中各个像素点的第一概率值,目标图像的时序显著性结果具体可以是目标图像在时序上的特征向量或者在时序上的热力图。例如,假设目标图像中有宠物a和宠物b,且目标图像属于目标视频,若单独基于目标图像进行预测,难以确定宠物a和宠物b的运动状态,但基于目标图像的特征,每帧关联图像的特征以及目标图像与各帧关联图像的关联性可以确定宠物a和宠物b的运动状态;再假设运动的物体更加吸引用户的注意力,且宠物a为运动状态,宠物b为静止状态,则将目标图像中宠物a所在区域确定为显著性区域。可选的,在调用时间流网络根据各帧关联图像和目标图像之间的关联性(如时序性),对所述目标图像进行显著性预测,得到目标图像的时序显著性结果之前,计算机设备还可根据当前情况(如处理设备的性能)调整目标图像和目标图像的一帧或多帧关联图像的分辨率(如将目标图像和目标图像的一帧或多帧关联图像的分辨率调整为360*640像素)。可以理解的是,分辨率越高则目标图像包含的特征越多,分辨率越低则显著性预测模型的处理速度越快。
[0133]
另外,还可调用空间流网络对目标图像进行显著性预测,得到目标图像的空间显著性结果;具体地,空间流网络基于目标图像的特征预测得到目标图像的空间显著性结果;该空间显著性结果用于指示目标图像中各个像素点的第二概率值,目标图像的空间显著性结果具体可以是目标图像在空间上的特征向量或者在空间上的热力图。最后,可融合时序显著性结果和空间显著性结果,得到目标图像的显著性信息;具体的,可直接对时序显著性结果和空间显著性结果进行融合处理(如采用卷积网络对时序显著性结果和空间显著性结果进行卷积处理,或者直接对目标图像中每个像素点的第一概率值和第二概率值进行均值运算),得到目标图像的显著性信息。该目标图像的显著性信息包括目标图像中的各个像素点的显著性概率值,每个像素点的显著性概率值是根据第一概率值和第二概率值计算得到的。
[0134]
进一步地,显著性预测模型还包括卷积高斯层,卷积高斯层是基于多个不同方差大小的高斯核训练得到的,卷积高斯层用于对目标图像中目标区域的显著性信息进行校正,目标区域是根据不同方差大小的高斯核确定的。相应的,融合时序显著性结果和空间显著性结果,得到目标图像的显著性信息的具体实施方式可以包括以下任一种:
[0135]
实施方式一:可先融合时序显著性结果和空间显著性结果(如可采用卷积网络对时序显著性结果和空间显著性结果进行卷积处理),得到融合结果;其中,融合结果用于指示目标图像中的各个像素点的融合概率值,每个像素点的融合概率值是根据第一概率值和第二概率值计算得到的。再调用卷积高斯层对融合结果进行校准处理(如可通过卷积高斯层对融合结果再次进行卷积处理),得到目标图像的显著性信息。
[0136]
实施方式二:可先通过卷积高斯层对目标图像的空间显著性结果和目标图像的时序显著性结果分别进行校准处理;其中,校准后的时序显著性结果用于指示目标图像中的每个像素点的校准后的第一概率值;校准后的空间显著性结果用于指示目标图像中的每个像素点的校准后的第二概率值。再融合校准后的空间显著性结果和校准后的时序显著性结
果(如采用卷积网络对校准后的空间显著性结果和校准后的时序显著性结果进行卷积处理),得到目标图像的显著性信息。
[0137]
实施方式三:还可在融合目标图像的时序显著性结果和目标图像的空间显著性结果的过程中,通过卷积高斯层对融合过程中的融合特征进行校准处理,得到目标图像的显著性信息。
[0138]
需要说明的是,通过不同类型的高斯核对卷积高斯层进行训练,可以得到不同作用的卷积高斯层;例如,采用第一类型的高斯核对卷积高斯层进行训练后得到的卷积高斯层1用于增强目标图像中心区域的显著度,抑制目标图像边缘区域的显著度;用第二类型的高斯核对卷积高斯层进行训练后得到的卷积高斯层2用于增强目标图像左侧区域的显著度,抑制目标图像右侧区域的显著度。
[0139]
基于上述描述,图4c示例性地示出了一种显著性预测模型的模型架构。如图4c所示,显著性预测模块主要包括时间流网络,空间流网络和融合模块。其中,时间流网络包括特征提取模块和3d卷积层,特征提取模块用于提取连续的图像序列(包括至少2帧图像)中的各帧图像的特征,3d卷积层用于基于各帧图像的特征及关联关系(如时序关系)预测连续的图像序列中的当前处理图像的时序显著性结果;空间流网络包括特征提取模块和2d卷积层,特征提取模块用于提取当前处理图像的特征,2d卷积层用于基于当前处理图像的特征预测当前图像的空间显著性结果;融合模块用于对时间流网络输出的时序显著性结果和空间流网络输出的空间流网络进行融合,得到当前处理图像的显著性信息,该融合模块是包括高斯卷积层,该高斯卷积层是基于多个不同方差大小的高斯核对2d卷积层进行训练得到的。
[0140]
在另一种实施方式中,若目标图像为单独的一张图像,则步骤s303的具体实施方式可以是:获取图像预测模型,并调用图像预测模型对目标图像进行视觉显著性预测处理,得到目标图像的显著性信息。该图像预测模型是基于空间流网络构建的;具体地,空间流网络基于目标图像的特征预测得到目标图像的空间显著性结果,并将该空间显著性结果确定为目标图像的显著性信息。
[0141]
类似地,图像预测模型还包括卷积高斯层,在空间流网络基于目标图像的特征预测得到目标图像的空间显著性结果后,通过卷积高斯层对目标图像的空间显著性结果进行校准处理,得到目标图像的显著性信息;例如,目标图像的空间显著性结果指示目标图像的显著性区域位于目标图像的右上方区域,通过卷积高斯层对目标图像的空间显著性结果进行校准处理后,得到的目标图像的显著性信息指示目标图像的显著性区域位置目标图像的中心区域。
[0142]
s304、确定裁剪框在目标图像中的滑动方向。
[0143]
根据目标图像的宽高比例和裁剪框的宽高比例确定裁剪框在目标图像中的滑动方向。在一种实施方式中,目标图像的宽高比例大于裁剪框的宽高比例。计算机设备根据目标图像的高度确定裁剪框的高度,使得裁剪框内图像的高度与目标图像的高度一致,并将裁剪框的滑动方向确定为水平滑动方向(即左右滑动)。
[0144]
在另一种实施方式中,目标图像的宽高比例小于裁剪框的宽高比例。计算机设备根据目标图像的宽度确定裁剪框的宽度,使得裁剪框内图像的宽度与目标图像的宽度一致,并将裁剪框的滑动方向确定为竖直滑动方向(即上下滑动)。
[0145]
可以理解的是,若目标图像的宽高比例与裁剪框的宽高比例一致,则对目标图像进行缩放处理,使得目标图像的尺寸与当前显示设备的尺寸一致即可。需要说明的是,当计算机设备为终端时,该当前显示设备和计算机设备可以是同一个设备,也可以是不同的设备,对此不作限制。
[0146]
可选的,若目标图像的尺寸和裁剪框的尺寸均为固定尺寸,且裁剪框的宽度小于目标图像的宽度,裁剪框的高度小于目标图像的高度;则裁剪框在目标图像中既可以在水平方向滑动,也可以在竖直方向上滑动,还可以按照用户指定的方向,或预设方向进行滑动。
[0147]
s305、按照滑动方向将裁剪框在目标图像中进行滑动,以确定裁剪框在目标图像中的多个候选位置。
[0148]
每个候选位置是根据裁剪框每次滑动后在目标图像中所处的位置确定的。裁剪框每次滑动后的位置相较于上一位置的滑动距离可以是预设距离(如以像素点为单位,裁剪框滑动后的位置相较于上一位置的滑动距离为n个像素点,n为正整数)。可以理解的是,每次滑动的距离越小,则在同一尺度的目标图像中包括的裁剪框的候选位置就越多,因此滑动距离也可以是根据影响因素(如目标图像的尺寸,服务器的性能等)确定的。
[0149]
s306、根据显著性信息,计算裁剪框在各个候选位置时所包括的显著性区域的属性。
[0150]
显著性信息包括目标图像中各个像素点的显著性概率值。显著性区域的属性包括:根据裁剪框在任一候选位置时所包括的各个像素点的显著性概率值,所计算得到的显著度。
[0151]
在一种实施方式中,按照滑动方向将目标图像各个像素点的显著性概率值投影至目标图像中,得到投影曲线。具体地,设目标图像包括p行
×
q列个像素点,p,q均为正整数;若滑动方向为水平滑动方向,则依次求取目标图像中的第q列中的各个像素点的显著性概率值的总和,作为第q列的投影点,q属于[1,q];采用目标图像中的各列的投影点进行曲线绘制,得到投影曲线。若滑动方向为竖直滑动方向,则依次求取目标图像中的第p行中的各个像素点的显著性概率值的总和,作为所述第p行的投影点,p属于[1,p];采用目标图像中的各行的投影点进行曲线绘制,得到投影曲线。
[0152]
在得到投影曲线后,根据投影曲线,确定裁剪框在各个候选位置时所包括的曲线段(即投影曲线中的一部分),并根据裁剪框在第u个候选位置时所包括的曲线段,计算裁剪框在第u个候选位置时所包括的显著性区域的显著度,第u个候选位置为裁剪框的任一个候选位置,u为正整数。具体地,对裁剪框在第u个候选位置时所包括的曲线段进行积分处理,得到裁剪框在第u个候选位置时所包括的显著性区域的显著度。
[0153]
图4d为本技术实施例提供的一种根据显著性信息计算显著性区域的显著度的示意图。如图4d所示,目标图像中裁剪框的滑动方向为水平滑动方向,以目标图像的右下角为原点建立坐标系,投影曲线上任一点(x,y)用于表示目标图像中第x列像素点的显著性概率值的总和为y。裁剪框当前所在位置的显著性区域的关注度是对裁剪框中的曲线段进行积分处理的到的(即s1的面积)。
[0154]
可选的,裁剪框在各个候选位置时所包括的显著性区域的属性还可以包括:显著性区域的面积,或者裁剪框在各个候选位置时所包括的像素点的显著性概率值的总和。
[0155]
s307、从多个候选位置中选取满足属性条件的候选位置,作为裁剪框在目标图像中所处的目标位置。
[0156]
在一种实施方式中,若裁剪框在任一候选位置时所包括的显著性区域的属性包括:根据裁剪框在任一候选位置时所包括的各个像素点的显著性概率值,所计算得到的显著度;则属性条件包括:显著度大于显著阈值的条件,或者显著度最大的条件。相应的,步骤s307的具体实施方式可以是:遍历多个候选位置,若裁剪框在当前候选位置处所包括的显著性区域的显著度大于显著阈值,或者裁剪框在当前候选位置处所包括的显著性区域的显著度,大于裁剪框在其他候选位置处所包括的显著性区域的显著度,则将当前候选位置确定为裁剪框在目标图像中所处的目标位置。
[0157]
另一种实施方式中,若裁剪框在任一候选位置时所包括的显著性区域的属性包括:裁剪框在任一候选位置时所包括的显著性区域的面积;则属性条件包括:面积最大的条件,或者面积大于面积阈值的条件。相应的,步骤s307的具体实施方式可以是:遍历多个候选位置,若裁剪框在当前候选位置处所包括的显著性区域的面积大于面积阈值,或者裁剪框在当前候选位置处所包括的显著性区域的面积,大于裁剪框在其他候选位置处所包括的显著性区域的面积,则将当前候选位置确定为裁剪框在目标图像中所处的目标位置。
[0158]
再一种实施方式中,若裁剪框在任一候选位置时所包括的显著性区域的属性包括:裁剪框在任一候选位置时所包括的像素点的显著性概率值的总和。相应的,步骤s307的具体实施方式可以是:遍历多个候选位置,若裁剪框在当前候选位置处所包括的所有像素点的显著性概率值的总和大于合计阈值,或者裁剪框在当前候选位置处所包括的所有像素点的显著性概率值的总和,大于裁剪框在其他候选位置处所包括的所有像素点的显著性概率值的总和,则将当前候选位置确定为裁剪框在目标图像中所处的目标位置。
[0159]
下面通过一个完整的例子对步骤s304

步骤s307进行详细说明:
[0160]
假设目标图像宽高比例为16:9(横屏),裁剪框宽高比例为9:16(竖屏),则根据目标图像的高度确定裁剪框的高度,使得裁剪框内图像的高度与目标图像的高度一致,并根据裁剪框高度和宽高比例计算得到裁剪框的宽度,并将裁剪框移动的方向确定为水平方向(即将裁剪框在水平方向上移动,以寻找最佳裁剪位置,即目标位置)。在确定裁剪框的移动方向后,根据裁剪框的移动方向将显著性预测结果在目标图像上进行水平投影,得到投影曲线,投影曲线上任一点的值是对该点所属像素列上各个像素点的显著性概率值进行累加得到的。将裁剪框在水平方向上滑动,根据当前裁剪框中的曲线段计算裁剪框当前所处位置对应的显著度,直至裁剪框遍历完整个目标图像,得到裁剪框在不同(候选)位置时对应的显著度。将各个候选位置中,对应的显著度最高的候选位置确定为裁剪位置(即目标位置)。
[0161]
需要说明的是,若目标图像为单独的一张图像,则在确定裁剪框在目标图像中所处的目标位置后,可直接在目标位置处采用裁剪框对目标图像进行裁剪处理,得到裁剪后的图像。若目标图像是目标视频片段中的任一帧图像,则继续执行步骤s308;此处的目标视频片段可以是前述所提及的目标视频,也可以是在前述所提及的目标视频包含的图像帧数超过帧数阈值时,对目标视频进行拆分后所得到的任一子视频片段。
[0162]
s308、确定目标位置的目标位置坐标,以及确定裁剪框在各个参考图像中的参考位置的参考位置坐标。
[0163]
目标图像属于目标视频,参考图像是目标视频片段中除目标图像以外的其他图像,参考位置是裁剪框对参考图像进行裁剪时,该裁剪框在参考图像中所处的位置,参考位置坐标为裁剪框对参考图像进行裁剪时,该裁剪框在参考图像中所处的位置的坐标。
[0164]
在一种实施方式中,按照步骤s304

步骤s307中的实施方式逐一确定目标视频每一帧图像的裁剪位置,并基于目标图像建立坐标系(如以目标图像的左上角为原点建立坐标系),根据裁剪框的位置,确定对应的坐标(如将通过确定裁剪框左上角所在的位置坐标和裁剪框右下角所在的位置坐标来表示裁剪框在目标图像中的位置);并根据相邻帧之间裁剪框位置的差异确定裁剪框的移动方向。表1为本技术实施例提供的一种目标视频中各帧图像的裁剪框的坐标表:
[0165]
表1
[0166]
图像帧序号x1y1x2y2完整性评分19450194521340.851729450194521340.8802
……0…
2134

n14370243721340.8517
[0167]
其中,x1,y1用于指示裁剪框的左上角的坐标;x2,y2用于指示裁剪框的右下角的坐标。图像帧序号依次与目标是视频中的n帧图像对应,即目标视频中第a帧图像与图像序号a对应,a,n为正整数,且a≤n。图像帧序号还具有检索功能,通过图像帧序号能唯一确定该图像帧中裁剪框的坐标,及裁剪框中包含的图像的完整性评分。完整性评分用于指示裁剪后的图像相对于裁剪前的图像的信息完整度(即用于评价裁剪后的图像是否能够完整的表达目标图像的主要内容),完整性评分越高,则裁剪后的图像的信息完整度越高。可选的,裁剪框的坐标表中还可以包括各个图像帧中裁剪框包括的显著区域的显著度(也即是裁剪后的图像的显著度)。
[0168]
s309、根据各个参考位置坐标对目标位置坐标进行校准处理,得到校准后的位置坐标。
[0169]
由前述可知,目标图像是目标视频片段中的任一帧图像;随着目标视频片段中的图像的数量不同,可采用不同的校准方式对目标位置坐标进行校准处理,具体参见下述描述:
[0170]
若目标视频片段中的图像的数量小于数量阈值,则对各个参考位置坐标和目标位置坐标进行均值运算,得到校准后的位置坐标;例如,假设数量阈值为5,目标视频片段中的图像的数量为3,目标位置坐标包括:裁剪框左上角坐标(973,0)和裁剪框右下角坐标(1973,2153);参考位置坐标1包括:裁剪框左上角坐标(971,0)和裁剪框右下角坐标(1971,2153);参考位置坐标2包括:裁剪框左上角坐标(978,0)和裁剪框右下角坐标(1978,2153);则对目标位置坐标,参考位置坐标1和参考位置坐标2进行均值运算,得到校准后的位置坐标为:裁剪框左上角坐标(974,0),裁剪框右下角坐标(1974,2153)。
[0171]
若目标视频片段中的图像的数量大于数量阈值,则对各个参考位置坐标和所述目标位置坐标进行一维高斯平滑处理,并根据平滑处理结果确定校准后的位置坐标。在一种实施方式中,根据平滑结果检测目标视频片段是否存在目标图像组,该目标图像组包括目标图像,且裁剪框在目标图像组中的任一图像中的平滑坐标,与裁剪框在目标图像组中的
首帧图像中的平滑坐标之间的坐标差值均小于或差值阈值。若目标视频片段中存在目标图像组,则对裁剪框在目标图像组中的各个图像中的平滑位置坐标进行均值运算,得到校准后的位置坐标;若目标视频片段中不存在目标图像组,则将目标位置坐标经过平滑后的平滑坐标作为校准后的位置坐标。
[0172]
s310、在校准后的位置坐标所指示的位置处,采用裁剪框对目标图像进行裁剪处理,得到裁剪后的图像。
[0173]
步骤s310的具体实施方式可参考图2中步骤s204的实施方式,在此不再赘述。图4e为本技术实施例提供的一种计算机设备可输出的多种结果的示意图。如图4e所示,除了输出裁剪后的目标图像外,计算机设备还可以输出指示有显著性区域的目标图像(也即是目标图像的热力图),裁剪框位于目标位置时的目标图像,以及表1所示裁剪后的图像的坐标,裁剪后的图像的完整性评分等,上述输出结果中的一种或多种可以更加详细的向用户展示目标视频的裁剪过程,还可以为开发人员优化显著性预测模型提供参考。
[0174]
在一种实施方式中,计算机设备根据目标图像中的各个像素点的显著性概率值,计算目标图像的显著度;再根据目标图像的显著度以及裁剪后的图像的显著度,对裁剪后的图像进行完整性评分(如计算裁剪后的图像的显著度与目标图像的显著度的比值,得到裁剪后图像的完整性评分),并输出评分结果。其中,裁剪后的图像的显著度等于裁剪框在目标位置时所包括的显著性区域的显著度。
[0175]
本技术实施例在图2实施例的基础上,通过对初始图像进行无效边检测,并删除初始图像帧中的无效边,能够尽可能多地包括模型预测出的显著性区域,进而使得裁剪后的图像能够较好地吸引用户的注意力,提升用户粘度;通过对裁剪框在目标位置时的坐标进行平滑处理,能够改善裁剪后视频中图像抖动(镜头在小范围内来回移动)的问题,进一步提升用户体验。此外,本技术实施例提供的方案能够对不同的图像进行自适应裁剪,并且对裁剪结果进行内容完整性评分,可以大规模应用于视频编辑和辅助编辑,可节省大量时间和人力成本,具有较高的实用价值。
[0176]
本技术实施例所提出图2或图3所示的图像裁剪方法可以通过软件开发工具包(sdk)封装在一个软件或者一个插件中,也可以搭载在网络服务器中,并向用户提供网络服务接口以供用户使用。用户上传或读取一段视频(也可以指定视频的地址),并且指定裁剪后视频的宽高比例,然后选择输出结果的类型(如热力图、裁剪框在裁剪时的坐标、裁剪后的图像的完整性评分等)。服务接口在被触发后,根据指定参数(即裁剪后视频的宽高比例等)对进行用户上传或读取的目标视频进行裁剪,并返回指定类型的输出结果。其中,根据指定参数(即裁剪后视频的宽高比例等)对进行用户上传或读取的目标视频进行裁剪的具体流程如下:
[0177]
如图4f和图4g所示,从目标视频中获取原始图像401,以原始图像401和给定裁剪宽高例比作为输入,首先对原始图像401进行无效边处理(即对原始图像401从上下左右四个方向进行无效边检测,若原始图像401中存在无效边,则删除原始图像401中的无效边),得到目标图像402;若原始图像401中不存在无效边,则直接将原始图像401确定为目标图像402。然后对目标图像402进行视觉显著性分析处理(如调用显著性预测模型对目标图像402进行显著性预测),得到预测结果图像403(即目标图像的显著性信息),预测结果图像403(即目标图像402的热力图)中包括显著性区域4031。接着根据裁剪框的宽高比例以及预测
结果图像403(图像中的显著性区域分布)确定裁剪框在目标图像402中的裁剪位置404(即目标位置),再根据目标视频中参考图像中裁剪框的位置坐标,对目标图像中裁剪框的位置坐标进行平滑处理,具体地:
[0178]
(1)假设目标视频中包括的图像数量为n,判断n是否超过阈值s1(如s1=1024)。若n>s1,则执行步骤(2);若n<s2,且s2<s1,则执行步骤(3);若s2≤n≤s1,则执行步骤(4)。
[0179]
(2)判定目标视频为长视频,将其分为若干个长度不超过s1的视频片段(视频片段中包括目标视频片段,即目标图像所属的视频片段),并按照步骤(4)和步骤(5)分别对各个视频片段进行处理。
[0180]
(3)判定目标视频较短,对目标视频中目标图像的目标位置坐标和参考图像的参考位置坐标进行均值运算得到校准后的位置坐标,在校准后的位置坐标所指示的位置处,对目标图像和参考图像进行裁剪,得到裁剪后的目标视频,并结束本次处理流程。
[0181]
(4)对目标视频中目标图像的目标位置坐标和参考图像的参考位置坐标进行一维高斯平滑处理,得到初始平滑结果,并继续执行步骤(5)。
[0182]
(5)计算目标视频中第f_n2帧中的裁剪框相对于第f_n1帧中的裁剪框的移动位置(即计算第f_n2帧的目标位置坐标与第f_n1帧的目标位置坐标的差值),若移动位置超过阈值t_s3(如30个像素点),则认为运动剧烈,继续执行步骤(6);若移动位置小于阈值t_s3,则认为运动相对平稳,依次计算第f_n2帧的后续帧中的裁剪框相对于第f_n1帧中的裁剪框的移动位置,直到目标视频的第f_nx帧中的裁剪框相对于第f_n1帧中的裁剪框的移动位置超出阈值t_s3,对目标视频中第f_n1帧至第f_nx

1帧中行一维高斯平滑处理后的目标位置坐标进行均值运算得到目标视频中第f_n1帧至第f_nx

1帧校准后的位置坐标,并继续执行步骤(6)。
[0183]
(6)将f_n1更新为f_nx,若目标视频中还存在未经过步骤(5)处理的视频帧,则继续执行步骤(5),若目标视频中不存在未经过步骤(5)处理的视频帧,则在校准后的位置坐标所指示的位置处,对目标图像和参考图像进行裁剪,得到裁剪后的目标视频,并结束本次处理流程。
[0184]
通过上述步骤(1)

步骤(6)对目标图像中裁剪框的位置坐标进行平滑处理,可以使得目标位置的坐标在时序上更加平滑,并根据平滑处理的结果对目标图像402进行裁剪,得到裁剪后的图像405;并按照相同的方式对目标视频中包括的除目标图像外的其他图像进行裁剪,得到裁剪后的视频。需要说明的是,对目标图像中裁剪框的位置坐标进行平滑处理,是在确定目标图像中裁剪框的位置坐标,以及确定各个参考图像中裁剪框的位置坐标后执行的。
[0185]
进一步地,可根据用户需求计算裁剪后视频内容完整性评分并输出。可见,用户可以通过服务接口进行批量化视频或者图像裁剪(横屏转竖屏等),并且根据输出结果(如完整性评分)判断裁剪后的图像或视频是否需要人工调整。
[0186]
上述详细阐述了本技术实施例的方法,为了便于更好地实施本技术实施例的上述方案,相应地,下面提供了本技术实施例的装置。
[0187]
请参见图5,图5为本技术实施例提供的一种图像裁剪装置的结构示意图,该装置可以搭载在上述方法实施例中的计算机设备上,该计算机设备具体可以是具有图像处理能力的终端或者服务器。图5所示的图像裁剪装置可以用于执行上述图2和图3所描述的方法
实施例中的部分或全部功能。其中,各个单元的详细描述如下:
[0188]
获取单元501,用于获取待处理的目标图像,并确定用于对所述目标图像进行裁剪的裁剪框;
[0189]
处理单元502,用于对所述目标图像进行视觉显著性预测,得到所述目标图像的显著性信息,所述显著性信息用于指示所述目标图像中的显著性区域的分布情况,所述显著性区域是指所述目标图像中能够吸引用户注意力的区域;
[0190]
所述处理单元502,还用于根据所述显著性信息确定所述裁剪框在所述目标图像中所处的目标位置,所述目标位置是指:当所述裁剪框内包括的显著性区域的属性满足属性条件时,所述裁剪框在所述目标图像中所处的位置;
[0191]
所述处理单元502,还用于在所述目标位置处采用所述裁剪框对所述目标图像进行裁剪处理,得到裁剪后的图像。
[0192]
在一种实施方式中,所述处理单元502用于,根据所述显著性信息确定所述裁剪框在所述目标图像中所处的目标位置,具体用于:
[0193]
确定所述裁剪框在所述目标图像中的滑动方向;
[0194]
按照所述滑动方向将所述裁剪框在所述目标图像中进行滑动,以确定所述裁剪框在目标图像中的多个候选位置,每个候选位置是指所述裁剪框每次滑动后在所述目标图像中所处的位置;
[0195]
根据所述显著性信息,计算所述裁剪框在各个候选位置时所包括的显著性区域的属性;
[0196]
从所述多个候选位置中选取满足属性条件的目标属性所对应的候选位置,作为所述裁剪框在所述目标图像中所处的目标位置。
[0197]
在一种实施方式中,所述处理单元502用于,确定所述裁剪框在所述目标图像中的滑动方向,具体用于:
[0198]
获取所述目标图像的宽高比例和所述裁剪框的宽高比例;
[0199]
若所述目标图像的宽高比例大于所述裁剪框的宽高比例,则将所述裁剪框在所述目标图像中的滑动方向确定为水平滑动方向;
[0200]
若所述目标图像的宽高比例小于所述裁剪框的宽高比例,则将所述裁剪框在所述目标图像中的滑动方向确定为竖直滑动方向。
[0201]
在一种实施方式中,所述显著性信息包括所述目标图像中的各个像素点的显著性概率值;所述裁剪框在任一候选位置时所包括的显著性区域的属性包括:根据所述裁剪框在所述任一候选位置时所包括的各个像素点的显著性概率值,所计算得到的显著度;
[0202]
所述属性条件包括:显著度大于显著阈值的条件,或者显著度最大的条件。
[0203]
在一种实施方式中,所述处理单元502用于,计算所述裁剪框在各个候选位置时所包括的显著性区域的属性,具体用于:
[0204]
按照所述滑动方向,将所述目标图像各个像素点的显著性概率值投影至所述目标图像中,得到投影曲线;
[0205]
针对任一候选位置,从所述投影曲线中确定所述裁剪框在所述任一候选位置时所包括的曲线段;并对所述曲线段进行积分处理,得到所述裁剪框在任一候选位置时所包括的显著性区域的显著度。
[0206]
在一种实施方式中,所述目标图像包括p行
×
q列个像素点,所述p和所述q的取值均为正整数;所述滑动方向包括水平滑动方向或者竖直滑动方向;所述处理单元502用于,按照所述滑动方向,将所述目标图像各个像素点对应的显著性概率值投影至所述目标图像中,得到投影曲线,具体用于:
[0207]
若所述滑动方向为所述水平滑动方向,则依次求取所述目标图像中的第q列中的各个像素点的显著性概率值的总和,作为所述第q列的投影点,所述q属于[1,q];采用所述目标图像中的各列的投影点进行曲线绘制,得到投影曲线;
[0208]
若所述滑动方向为所述竖直滑动方向,则依次求取所述目标图像中的第p行中的各个像素点的显著性概率值的总和,作为所述第p行的投影点,所述p属于[1,p];采用所述目标图像中的各行的投影点进行曲线绘制,得到投影曲线。
[0209]
在一种实施方式中,在得到裁剪后的图像之后,所述处理单元502,还用于:
[0210]
根据所述目标图像中的各个像素点的显著性概率值,计算所述目标图像的显著度;
[0211]
根据所述目标图像的显著度以及所述裁剪后的图像的显著度,对所述裁剪后的图像进行完整性评分,输出评分结果;
[0212]
其中,所述裁剪后的图像的显著度等于所述裁剪框在所述目标位置时所包括的显著性区域的显著度。
[0213]
在一种实施方式中,所述目标图像是目标视频片段中的任一帧图像;所述处理单元502用于,在所述目标位置处采用所述裁剪框对所述目标图像进行裁剪处理,得到裁剪后的图像,具体用于:
[0214]
确定所述目标位置的目标位置坐标,以及确定所述裁剪框在各个参考图像中的参考位置的参考位置坐标;所述参考图像是指所述目标视频片段中除所述目标图像以外的图像;
[0215]
根据各个参考位置坐标对所述目标位置坐标进行校准处理,得到校准后的位置坐标;
[0216]
在所述校准后的位置坐标所指示的位置处,采用所述裁剪框对所述目标图像进行裁剪处理,得到裁剪后的图像。
[0217]
在一种实施方式中,所述处理单元502用于,根据各个参考位置坐标对所述目标位置坐标进行校准处理,得到校准后的位置坐标,具体用于:
[0218]
若所述目标视频片段中的图像的数量小于数量阈值,则对各个参考位置坐标和所述目标位置坐标进行均值运算,得到校准后的位置坐标;
[0219]
若所述目标视频片段中的图像的数量大于所述数量阈值,则对各个参考位置坐标和所述目标位置坐标进行一维高斯平滑处理,并根据平滑处理结果确定校准后的位置坐标。
[0220]
在一种实施方式中,所述平滑处理结果包括:各个参考位置经过平滑后的平滑坐标,以及所述目标位置坐标经过平滑后的平滑坐标;所述处理单元502用于,根据平滑处理结果确定校准后的位置坐标,具体用于:
[0221]
根据所述平滑处理结果检测所述目标视频片段是否存在目标图像组,所述目标图像组包括所述目标图像,且所述裁剪框在所述目标图像组中的任一图像中的平滑坐标,与
所述裁剪框在所述目标图像组中的首帧图像中的平滑坐标之间的坐标差值均小于或差值阈值;
[0222]
若存在,则对所述裁剪框在所述目标图像组中的各个图像中的平滑位置坐标进行均值运算,得到校准后的位置坐标;
[0223]
若不存在,则将所述目标位置坐标经过平滑后的平滑坐标作为校准后的位置坐标。
[0224]
在一种实施方式中,所述处理单元502用于,获取待处理的目标图像,具体用于:
[0225]
获取初始图像;
[0226]
对所述初始图像进行无效边检测,所述无效边是指对图像进行像素点填充所形成的边;
[0227]
若所述初始图像存在一个或多个所述无效边,则在所述初始图像中删除所述一个或多个无效边,得到目标图像;
[0228]
若所述初始图像存在一个或多个所述无效边,则在所述初始图像中删除所述一个或多个无效边,得到目标图像。
[0229]
在一种实施方式中,所述处理单元502用于,对所述初始图像进行无效边检测,具体用于:
[0230]
确定所述初始图像的m个检测方向,并获取第m个检测方向对应的参考值;其中,m为正整数,m∈[1,m];
[0231]
按照所述第m个检测方向依次扫描所述初始图像中的各个像素组,一个像素组是由所述初始图像中位于同一行或者同一列的所有像素点组成的;
[0232]
根据所述参考值统计当前扫描的像素组中的目标像素点的数量,所述目标像素点是指:像素值和所述参考值之间的差异值大于差异阈值的像素点;
[0233]
若所述目标像素点的数量满足数量条件,则继续扫描并对第m个检测方向对应的无效计数执行加一处理;否则,将当前扫描的像素组确定为标记像素组,在所述第m个检测方向上终止扫描,并获取在所述第m个检测方向上终止扫描时的所述无效计数的数值;
[0234]
若所述数值大于第一阈值,则判定所述初始图像在所述第m个检测方向上存在无效边,且所述无效边包括:所述初始图像在所述第m个检测方向上位于所述标记像素组之前的各个像素组;否则,则判定所述初始图像在所述第m个检测方向上不存在无效边。
[0235]
在一种实施方式中,所述处理单元502用于,若数值大于所述第一阈值,则判定所述初始图像在所述第m个检测方向上存在无效边,具体用于:
[0236]
若数值大于所述第一阈值,则判断所述数值是否大于第二阈值,所述第二阈值大于所述第一阈值;
[0237]
若所述数值大于或等于所述第二阈值,则判定所述初始图像在所述第m个检测方向上不存在无效边;
[0238]
若所述数值小于所述第二阈值,则判定所述初始图像在所述第m个检测方向上存在无效边。
[0239]
在一种实施方式中,所述目标图像是目标视频中的图像,所述目标视频包括n帧图像,n为正整数;所述处理单元502用于,对所述目标图像进行视觉显著性预测,得到所述目标图像的显著性信息,具体用于:
[0240]
获取显著性预测模型,所述显著性预测模型包括时间流网络和空间流网络;
[0241]
获取所述目标图像的一帧或多帧关联图像,所述各帧关联图像和所述目标图像构成连续的图像序列;
[0242]
调用所述时间流网络根据各帧关联图像和所述目标图像之间的关联性,对所述目标图像进行显著性预测,得到所述目标图像的时序显著性结果;
[0243]
调用所述空间流网络对所述目标图像进行显著性预测,得到所述目标图像的空间显著性结果;
[0244]
融合所述时序显著性结果和所述空间显著性结果,得到所述目标图像的显著性信息。
[0245]
在一种实施方式中,所述显著性预测模型还包括卷积高斯层,所述卷积高斯层是基于多个不同方差大小的高斯核训练得到的;所述处理单元502用于,融合所述时序显著性结果和所述空间显著性结果,得到所述目标图像的显著性信息,具体用于:
[0246]
融合所述时序显著性结果和所述空间显著性结果,得到融合结果;
[0247]
调用所述卷积高斯层对融合结果进行校准处理,得到所述目标图像的显著性信息。
[0248]
根据本技术的一个实施例,图2和图3所示的图像裁剪方法所涉及的部分步骤可由图5所示的图像裁剪装置中的各个单元来执行。例如,图2中所示的步骤s201可由图5所示的获取单元501执行,步骤s202

步骤s204可由图5所示的处理单元502执行。图3中所示的步骤s301可由图5所示的获取单元501执行,步骤s302

步骤s309可由图5所示的处理单元502执行。图5所示的图像裁剪装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本技术的其它实施例中,图像裁剪装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
[0249]
根据本技术的另一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行如图2和图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5中所示的图像裁剪装置,以及来实现本技术实施例的图像裁剪方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算装置中,并在其中运行。
[0250]
基于同一发明构思,本技术实施例中提供的图像裁剪装置解决问题的原理与有益效果与本技术方法实施例中图像裁剪装置解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
[0251]
请参阅图6,图6为本技术实施例提供的一种计算机设备的结构示意图,所述计算机设备至少包括处理器601、通信接口602和存储器603。其中,处理器601、通信接口602和存储器603可通过总线或其他方式连接。其中,处理器601(或称中央处理器(central processing unit,cpu))是终端的计算核心以及控制核心,其可以解析终端内的各类指令以及处理终端的各类数据,例如:cpu可以用于解析用户向终端所发送的开关机指令,并控
制终端进行开关机操作;再如:cpu可以在终端内部结构之间传输各类交互数据,等等。通信接口602可选的可以包括标准的有线接口、无线接口(如wi

fi、移动通信接口等),受处理器601的控制可以用于收发数据;通信接口602还可以用于终端内部数据的传输以及交互。存储器603(memory)是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器603既可以包括终端的内置存储器,当然也可以包括终端所支持的扩展存储器。存储器603提供存储空间,该存储空间存储了终端的操作系统,可包括但不限于:android系统、ios系统、windows phone系统等等,本技术对此并不作限定。
[0252]
在本技术实施例中,处理器601通过运行存储器603中的可执行程序代码,用于执行如下操作:
[0253]
通过通信接口602获取待处理的目标图像,并确定用于对所述目标图像进行裁剪的裁剪框;
[0254]
对所述目标图像进行视觉显著性预测,得到所述目标图像的显著性信息,所述显著性信息用于指示所述目标图像中的显著性区域的分布情况,所述显著性区域是指所述目标图像中能够吸引用户注意力的区域;
[0255]
根据所述显著性信息确定所述裁剪框在所述目标图像中所处的目标位置,所述目标位置是指:当所述裁剪框内包括的显著性区域的属性满足属性条件时,所述裁剪框在所述目标图像中所处的位置;
[0256]
在所述目标位置处采用所述裁剪框对所述目标图像进行裁剪处理,得到裁剪后的图像。
[0257]
作为一种可选的实施例,处理器601根据所述显著性信息确定所述裁剪框在所述目标图像中所处的目标位置的具体实施方式为:
[0258]
确定所述裁剪框在所述目标图像中的滑动方向;
[0259]
按照所述滑动方向将所述裁剪框在所述目标图像中进行滑动,以确定所述裁剪框在目标图像中的多个候选位置,每个候选位置是指所述裁剪框每次滑动后在所述目标图像中所处的位置;
[0260]
根据所述显著性信息,计算所述裁剪框在各个候选位置时所包括的显著性区域的属性;
[0261]
从所述多个候选位置中选取满足属性条件的目标属性所对应的候选位置,作为所述裁剪框在所述目标图像中所处的目标位置。
[0262]
作为一种可选的实施例,处理器601确定所述裁剪框在所述目标图像中的滑动方向的具体实施方式为:
[0263]
获取所述目标图像的宽高比例和所述裁剪框的宽高比例;
[0264]
若所述目标图像的宽高比例大于所述裁剪框的宽高比例,则将所述裁剪框在所述目标图像中的滑动方向确定为水平滑动方向;
[0265]
若所述目标图像的宽高比例小于所述裁剪框的宽高比例,则将所述裁剪框在所述目标图像中的滑动方向确定为竖直滑动方向。
[0266]
作为一种可选的实施例,所述显著性信息包括所述目标图像中的各个像素点的显著性概率值;所述裁剪框在任一候选位置时所包括的显著性区域的属性包括:根据所述裁剪框在所述任一候选位置时所包括的各个像素点的显著性概率值,所计算得到的显著度;
[0267]
所述属性条件包括:显著度大于显著阈值的条件,或者显著度最大的条件。
[0268]
作为一种可选的实施例,处理器601计算所述裁剪框在各个候选位置时所包括的显著性区域的属性的具体实施方式为:
[0269]
按照所述滑动方向,将所述目标图像各个像素点的显著性概率值投影至所述目标图像中,得到投影曲线;
[0270]
针对任一候选位置,从所述投影曲线中确定所述裁剪框在所述任一候选位置时所包括的曲线段;并对所述曲线段进行积分处理,得到所述裁剪框在任一候选位置时所包括的显著性区域的显著度。
[0271]
作为一种可选的实施例,所述目标图像包括p行
×
q列个像素点,所述p和所述q的取值均为正整数;所述滑动方向包括水平滑动方向或者竖直滑动方向;处理器601按照所述滑动方向,将所述目标图像各个像素点对应的显著性概率值投影至所述目标图像中,得到投影曲线的具体实施方式为:
[0272]
若所述滑动方向为所述水平滑动方向,则依次求取所述目标图像中的第q列中的各个像素点的显著性概率值的总和,作为所述第q列的投影点,所述q属于[1,q];采用所述目标图像中的各列的投影点进行曲线绘制,得到投影曲线;
[0273]
若所述滑动方向为所述竖直滑动方向,则依次求取所述目标图像中的第p行中的各个像素点的显著性概率值的总和,作为所述第p行的投影点,所述p属于[1,p];采用所述目标图像中的各行的投影点进行曲线绘制,得到投影曲线。作为一种可选的实施例,在得到裁剪后的图像之后,处理器601还用于:
[0274]
根据所述目标图像中的各个像素点的显著性概率值,计算所述目标图像的显著度;
[0275]
根据所述目标图像的显著度以及所述裁剪后的图像的显著度,对所述裁剪后的图像进行完整性评分,输出评分结果;
[0276]
其中,所述裁剪后的图像的显著度等于所述裁剪框在所述目标位置时所包括的显著性区域的显著度。
[0277]
作为一种可选的实施例,所述目标图像是目标视频片段中的任一帧图像;处理器601在所述目标位置处采用所述裁剪框对所述目标图像进行裁剪处理,得到裁剪后的图像的具体实施方式为:
[0278]
确定所述目标位置的目标位置坐标,以及确定所述裁剪框在各个参考图像中的参考位置的参考位置坐标;所述参考图像是指所述目标视频片段中除所述目标图像以外的图像;
[0279]
根据各个参考位置坐标对所述目标位置坐标进行校准处理,得到校准后的位置坐标;
[0280]
在所述校准后的位置坐标所指示的位置处,采用所述裁剪框对所述目标图像进行裁剪处理,得到裁剪后的图像。
[0281]
作为一种可选的实施例,处理器601根据各个参考位置坐标对所述目标位置坐标进行校准处理,得到校准后的位置坐标的具体实施方式为:
[0282]
若所述目标视频片段中的图像的数量小于数量阈值,则对各个参考位置坐标和所述目标位置坐标进行均值运算,得到校准后的位置坐标;
[0283]
若所述目标视频片段中的图像的数量大于所述数量阈值,则对各个参考位置坐标和所述目标位置坐标进行一维高斯平滑处理,并根据平滑处理结果确定校准后的位置坐标。
[0284]
作为一种可选的实施例,所述平滑处理结果包括:各个参考位置经过平滑后的平滑坐标,以及所述目标位置坐标经过平滑后的平滑坐标;处理器601根据平滑处理结果确定校准后的位置坐标的具体实施方式为:
[0285]
根据所述平滑处理结果检测所述目标视频片段是否存在目标图像组,所述目标图像组包括所述目标图像,且所述裁剪框在所述目标图像组中的任一图像中的平滑坐标,与所述裁剪框在所述目标图像组中的首帧图像中的平滑坐标之间的坐标差值均小于或差值阈值;
[0286]
若存在,则对所述裁剪框在所述目标图像组中的各个图像中的平滑位置坐标进行均值运算,得到校准后的位置坐标;
[0287]
若不存在,则将所述目标位置坐标经过平滑后的平滑坐标作为校准后的位置坐标。
[0288]
作为一种可选的实施例,处理器601获取待处理的目标图像的具体实施方式为:
[0289]
获取初始图像;
[0290]
对所述初始图像进行无效边检测,所述无效边是指对图像进行像素点填充所形成的边;
[0291]
若所述初始图像存在一个或多个所述无效边,则在所述初始图像中删除所述一个或多个无效边,得到目标图像;
[0292]
若所述初始图像存在一个或多个所述无效边,则在所述初始图像中删除所述一个或多个无效边,得到目标图像。
[0293]
作为一种可选的实施例,处理器601对所述初始图像进行无效边检测的具体实施方式为:
[0294]
确定所述初始图像的m个检测方向,并获取第m个检测方向对应的参考值;其中,m为正整数,m∈[1,m];
[0295]
按照所述第m个检测方向依次扫描所述初始图像中的各个像素组,一个像素组是由所述初始图像中位于同一行或者同一列的所有像素点组成的;
[0296]
根据所述参考值统计当前扫描的像素组中的目标像素点的数量,所述目标像素点是指:像素值和所述参考值之间的差异值大于差异阈值的像素点;
[0297]
若所述目标像素点的数量满足数量条件,则继续扫描并对第m个检测方向对应的无效计数执行加一处理;否则,将当前扫描的像素组确定为标记像素组,在所述第m个检测方向上终止扫描,并获取在所述第m个检测方向上终止扫描时的所述无效计数的数值;
[0298]
若所述数值大于第一阈值,则判定所述初始图像在所述第m个检测方向上存在无效边,且所述无效边包括:所述初始图像在所述第m个检测方向上位于所述标记像素组之前的各个像素组;否则,则判定所述初始图像在所述第m个检测方向上不存在无效边。
[0299]
作为一种可选的实施例,若数值大于所述第一阈值,处理器601判定所述初始图像在所述第m个检测方向上存在无效边的具体实施方式为:
[0300]
若数值大于所述第一阈值,则判断所述数值是否大于第二阈值,所述第二阈值大
于所述第一阈值;
[0301]
若所述数值大于或等于所述第二阈值,则判定所述初始图像在所述第m个检测方向上不存在无效边;
[0302]
若所述数值小于所述第二阈值,则判定所述初始图像在所述第m个检测方向上存在无效边。
[0303]
作为一种可选的实施例,所述目标图像是目标视频中的图像,所述目标视频包括n帧图像,n为正整数;处理器601对所述目标图像进行视觉显著性预测,得到所述目标图像的显著性信息的具体实施方式为:
[0304]
获取显著性预测模型,所述显著性预测模型包括时间流网络和空间流网络;
[0305]
获取所述目标图像的一帧或多帧关联图像,所述各帧关联图像和所述目标图像构成连续的图像序列;
[0306]
调用所述时间流网络根据各帧关联图像和所述目标图像之间的关联性,对所述目标图像进行显著性预测,得到所述目标图像的时序显著性结果;
[0307]
调用所述空间流网络对所述目标图像进行显著性预测,得到所述目标图像的空间显著性结果;
[0308]
融合所述时序显著性结果和所述空间显著性结果,得到所述目标图像的显著性信息。
[0309]
作为一种可选的实施例,所述显著性预测模型还包括卷积高斯层,所述卷积高斯层是基于多个不同方差大小的高斯核训练得到的;处理器601融合所述时序显著性结果和所述空间显著性结果,得到所述目标图像的显著性信息的具体实施方式为:
[0310]
融合所述时序显著性结果和所述空间显著性结果,得到融合结果;
[0311]
调用所述卷积高斯层对融合结果进行校准处理,得到所述目标图像的显著性信息。
[0312]
基于同一发明构思,本技术实施例中提供的计算机设备解决问题的原理与有益效果与本技术方法实施例中图像裁剪方法解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
[0313]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述方法实施例所述的图像裁剪方法。
[0314]
本技术实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例所述的图像裁剪方法。
[0315]
本技术实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像裁剪的方法。
[0316]
本技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
[0317]
本技术实施例装置中的模块可以根据实际需要进行合并、划分和删减。
[0318]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,可读
存储介质可以包括:闪存盘、只读存储器(read

only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0319]
以上所揭露的仅为本技术一种较佳实施例而已,当然不能以此来限定本技术之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本技术权利要求所作的等同变化,仍属于发明所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜