一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的端到端智能平面设计方法

2022-06-02 13:31:41 来源:中国专利 TAG:


1.本发明属于计算机视觉技术领域,具体涉及一种基于深度学习的端到端智能平面设计方法。


背景技术:

2.平面设计,以海报设计为例,作为视觉交流的重要媒介广泛应用于我们的日常生活中。为了产生和谐美观的图形设计,设计师往往需要投入大量的时间和精力,并且对于没有专业基础的普通人门槛较高,需要具备较高的审美要求及专业设计知识。随着计算机视觉技术的快速进步发展,人们对计算机智能设计的兴趣日益浓厚。
3.目前已有多种帮助进行平面设计的方法,可以显著减轻基础设计工作所耗费的时间和人力,主要可以分为传统方法、基于规则的方法和数据驱动的方法。
4.自动平面设计的传统方法通常采取了设计规则或结构化数据的方式,在创建图形设计时,设计师经常遵守设计规则,例如布局的美学原理以及和谐的色彩模型,但是传统方法智能性较低,适用也范围较为局限。基于规则的方法使用一些设计规则来协助特定的设计任务,这些任务包括布局合成、颜色生成和图像缩略图等,然而美学规则复杂,难以被特定的规则定义并约束。ali等人在文献《learning deconvolution network for semantic segmentation》中提出了基于约束的推荐系统,该系统可以根据用户的喜好生成杂志封面的设计,但是该方法仅适用于特定的杂志封面模板。
5.随着深度学习的发展,数据驱动的方法从训练图像中获取特定的设计属性用来被解决平面设计问题。yang等人在文献《recommendation system for automatic design of magazine covers n》中揭示了采用美学设计原则的优化方法的有效性,借助大型数据库,提出了基于学习的方法生成杂志封面,然而规则约束较多,存在模版化问题。
6.zheng等人在文献《content-aware generative modeling of graphic design layouts》中提出了首个用于图形设计布局的内容感知深度生成模型,该模型能够基于视觉和文本特征来合成图形设计布局,但是主要应用于杂志的排版布局,并不适合用更为广泛的图文海报生成。
7.yang等人在文献《asimple framework for contrastive learning of visual representation》中设计了一个系统,通过总结一组与主题相关的模板并引入计算公式来自动生成数字杂志封面,包含布局设计关键元素的框架,但上述方法是基于规则的系统,智能性较低。
8.feng等人在文献《adataset and a baseline model for salient object detection》中提出一个交互式系统designscape,可以在一组用户输入的图像和文本上生成布局建议,为了增强自动布局生成过程的交互性,但其主要是基于显著性检测,对于不同的平面设计具有局限性。
9.虽然上述的技术在生成合适的文本图像布局方面有一定贡献,但源自这些技术的布局规则并不适用于生成平面设计作品,并且忽略了除布局之外的设计元素属性对平面设
计的关键影响。同时,主流的智能解决方案过度依赖显著性检测,很大程度上限制了智能平面设计的发挥空间。


技术实现要素:

10.针对目前智能平面设计领域的四大问题:一是过度依赖使用显著性图像检测以至于使智能平面设计过于局限,二是对平面设计中的设计元素样式缺乏考虑和解决方案,三是多使用流水线式模型结构导致传播错误误差积累,四是海报结构化数据不足;本发明提供了一种基于深度学习的端到端智能平面设计方法,综合考虑给定的图像和设计元素,自动生成和谐美观的平面设计。
11.一种基于深度学习的端到端智能平面设计方法,包括如下步骤:
12.(1)采集半结构化的海报数据并进行清洗筛选后,分别存储海报的构图文本属性和背景图像,为智能平面设计模型提供所需的训练数据;
13.(2)对智能平面设计模型中的布局设计和属性确认两个子任务进行联合训练,使模型能够从海报数据的多模态(视觉和文本)视图中提取特征;
14.(3)利用模型中的图像模块和文本模块融合图像文本特征,解码后获得布局密度推理图;
15.(4)根据布局密度推理图,使用近似推理算法确定布局设计;
16.(5)融合图像整体特征和局部特征,根据分类器的输出确定构图文本的属性类别。
17.进一步地,所述步骤(1)的具体实现方式为:首先从网页的公开信息上采集半结构化的海报数据并进行筛选,将采集得到的海报数据集中的海报背景图像、标题文本序列、文本框的相对坐标、文本字号信息以及其他相应的构图文本属性进行记录存储,作为训练数据的注释信息和自监督信号,以标题文本序列和海报背景图像作为输入,以渲染海报为目标,为智能平面设计网络框架中的神经网络提供所需的训练数据。利用半结构化海报中的自监督信号进行训练,可以克服获取注释的困难。
18.进一步地,所述步骤(2)的具体实现方式为:首先将平面海报设计的关键即视觉表示和文本表示两个主要部分聚合在一起,不仅考虑图像的特征,还考虑输入文本的语义;然后将聚合后的多模态特征作为解码器的输入,解码器输出与原始图像大小相同的密度图,密度图中每个元素值即对应于原图像素的分数,代表选择出现在文本区域中像素的权重;进而设计训练过程中的目标函数,总体目标为最小化布局预测损失和属性识别损失的总和,通过二阶梯度优化来进行模型的参数学习。
19.进一步地,所述目标函数的表达式如下:
[0020][0021][0022][0023]
其中:为目标函数,为布局预测损失函数,为属性识别损失
函数,m
i,j
为密度图中像素点(i,j)的元素值,g
i,j
为像素点(i,j)是否位于文本区域的二进制指示符,为属性α属于适合类别ya的概率,σ()是sigmoid函数,attributes表示属性集合。
[0024]
进一步地,所述智能平面设计模型整体采用编码器-解码器架构,在图像模块,使用卷积神经网络提取海报的图像特征,随着网络的深入,它在更多通道中对图形特征进行编码,并在更广的感受野上使用特征图进行编码;在文本模块,使用预训练语言模型提取上下文感知的文本特征,即采用分布式向量表示被期望携带输入文本的语义信息,之后使用平均池化获得整个输入序列的固定维度分布式表示,通过一个多层感知器将文本表示转换为图形表示的相似向量空间,最终的文本表示为一个向量;图像特征和文本特征进行信道级别的特征融合,通过解码器解码,获得布局密度推理图。
[0025]
进一步地,所述步骤(4)中采用基于搜索的布局设计,即通过在特征融合后的布局密度推理图上进行搜索,预测构图文本的位置和大小,对每个像素的分数进行建模以指示构图文本的适当区域,布局设计通过解决密度推理图上的优化问题来预测构图文本区域的位置和大小;从布局密度推理图的局部最大值开始,以启发式搜索的方式逐步扩大矩形的面积来确定文本对象的区域,假设构图文本输入的正确位置近似以局部最大值为中心,并且候选区域的分数在从边缘到局部最大值的距离方面几乎是凸的,利用密度图的局部性,使用近似推理算法确定布局设计。
[0026]
进一步地,在确定海报布局设计后,所述步骤(5)将构图文本属性(包括文本字体、颜色、字号等)中的连续属性离散化为几个类别进行分别设计,进而利用构图文本属性设计模型从两个来源来收集特征:一方面收集海报图像文本特征隐藏的图像特征,用于整体输入的全局汇总;另一方面从原始图像的带权局部视图中收集局部特征;由于文本信息的颜色一般受局部文本区域的色调限制,所以构图文本属性设计模型使用类似的卷积编码器来提取局部视图图像特征,融合图像整体特征和局部特征,使用多层感知机分类器进行打分输出,共同决定构图文本属性的类别。
[0027]
本发明使用了统一联合训练框架防止了训练过程中的数据分布差异,减轻流水线式模型中的错误传播,发挥端到端训练的优点;同时,本发明不需要人为定义平面设计的美学规则,而是从数据中学习美学规则,并且也不依赖图像显着图检测,从而可以更好地泛化到各种平面设计任务。
[0028]
与现有技术相比,本发明具有以下特点及有益技术效果:
[0029]
1.本发明初次提出了智能平面设计的端到端框架,避免了多步流水线生成的误差传播弱点和保持审美约束的困难。
[0030]
2.本发明设计了端到端网络,联合学习布局设计和属性确定,利用从半结构化海报中提取的自监督信号来训练网络,克服了获取标注的困难。
[0031]
3.对爬取数据的实验结果证明了本发明框架的有效性,对结果的广泛实验与分析证明,基于深度学习的端到端智能平面设计方法与以前基于显著性的方法相比,具有突出的优越性。
附图说明
[0032]
图1为本发明智能平面设计方法的整体流程示意图。
[0033]
图2为平面设计数据自监督信号示意图。
[0034]
图3为图像与文本特征融合模型示意图。
[0035]
图4为基于搜索的布局设计示意图。
[0036]
图5为基于融合特征的属性确定流程示意图。
具体实施方式
[0037]
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
[0038]
本实例使用采集到的海报数据集,首先筛选并划分原始海报数据集,进行布局设计和属性确认两个子任务的共同学习,在训练集上进行训练调参,使模型性能达到最优状态;根据输入图像和文本信息,通过调用训练完成的模型,智能平面设计框架提取图像和文本的特征信息,搜索合适的设计图布局并确认构图文本属性,自动生成和谐的平面设计。如图1所示,本实施方式的具体步骤流程如下:
[0039]
(1)自监督平面设计数据的采集和预处理。
[0040]
我们从网页的公开信息上采集半结构化海报数据并筛选,将采集完成的海报数据集中的海报背景图像、基本构图单元、标题文本序列、文本框的相对坐标、文本字号信息以及其他相应的设计元素属性进行记录,作为训练数据的注释信息和自监督信号。以文本序列和背景图像为输入,以渲染海报为目标,我们为智能海报设计网络框架中的神经网络提供所需的训练信号;利用半结构化海报中的自监督信号进行训练,克服了获取注释的困难。本实例使用的数据是海报数据,基础数据主要包括:海报背景图、基本构图单元、文字标题内容及文本序列,文字字体、字体颜色、字号、字体位置等,具体如图2所示。
[0041]
(2)智能平面设计框架联合训练。
[0042]
智能平面设计框架使用统一的神经网络进行布局设计和属性确认,因此可以享受两个子任务联合训练的好处。将平面海报设计的关键,视觉表示和文本表示两个主要部分聚合在一起如下式所示,不仅考虑图像的特征,还考虑输入文本的语义:
[0043]
f=concat(hv,rep(u),rep(l))
[0044]
其中:表示编码器提取的隐藏图像特征图,cv、h和w分别代表特征图的通道数、高度和宽度;文本表示在高度和宽度维度上复制以与视觉表示对齐(由rep表示重复操作),并额外添加了一个标量特征作为输入序列表示重复操作),并额外添加了一个标量特征作为输入序列的长度。
[0045]
m=decoder(f)
[0046]
使用聚合的多模态特征f作为解码器的输入,解码器输出与原始图像大小相同的密度图每个元素m
i,j
是对应于像素i
i,j
的分数,代表选择出现在文本区域中的像素的权重。
[0047]
布局设计的目标布局和构图文本属性确认属性分别如下式所示:
[0048]
[0049][0050][0051]
其中:g
i,j
是像素(i,j)是否位于文本区域的二进制指示符,是属性a属于适合类别ya的概率。总体目标是最小化布局设计损失和属性确认损失的总和,通过二阶梯度优化来进行模型的参数学习,联合训练帮助智能平面设计网络从数据的多模态(视觉和文本)视图中提取更好的特征。
[0052]
(3)图像文本特征融合与布局密度推理。
[0053]
智能平面设计模型在采集的海报数据训练集上进行训练,整体结构采用编码器-解码器架构,如图3所示;在图像模块,使用卷积神经网络提取海报的图像特征;随着网络的深入,它在更多通道中对图形特征进行编码,并在更广的感受野上使用特征图进行编码:
[0054]
hv=encoder
ꢀꢀ(i)[0055]
在文本模块,使用预训练语言模型提取上下文感知的文本特征:
[0056]
u=mlp(avg({e1,e2,

,en,}))
[0057]
其中:每个标记ti的标记嵌入表示为分布式向量表示被期望携带输入文本的语义信息,之后使用平均池化(用avg表示)获得整个输入序列的固定维度分布式表示,通过一个多层感知器(用mlp表示)将文本表示转换为图形表示的相似向量空间。最终的文本表示是一个向量图像特征和文本特征进行信道级别的特征融合,通过解码器m解码,获得布局密度推理图。
[0058]
(4)基于搜索的布局设计。
[0059]
布局设计模块通过基于特征融合后的布局密度图上的搜索,预测构图文本的位置和大小,对每个像素的分数进行建模以指示构图文本的适当区域。
[0060]
布局设计通过解决密度图上的优化问题来预测构图文本区域的位置和大小;基于解码器m的输出,假设σ(m
i,j
)表示i
i,j
位于给定文本序列的边界框中的概率,σ表示如下所示的sigmoid函数:
[0061][0062]
给定密度图m和相应的概率矩阵σ(m),确定文本框的角坐标:左下角(x1,y1)和右上角(x2,y2),并且规定x1《x2,y1《y2,将相应的预测任务转化为约束优化问题。从布局密度图的局部最大值开始,以启发式搜索的方式逐步扩大矩形的面积来确定文本对象的区域。假设构图文本输入的正确位置近似以局部最大值为中心,并且候选区域的分数在从边缘到局部最大值的距离方面几乎是凸的,利用密度图的局部性,使用近似推理算法确定布局设计,如图4所示。
[0063]
(5)基于融合特征的构图文本属性确定。
[0064]
通过步骤(2)中的数据驱动的联合学习,融合特征f不仅包含布局设计的关键信息,还包含构图文本属性的关键信息。在确定海报布局设计后,将构图文本的属性(包括文本字体、颜色、字号等)的连续属性离散化为几个类别进行分别设计。构图文本属性设计模
型主要从两个来源收集特征:一方面,收集海报图像文本特征隐藏的图像特征,用于整体输入的全局汇总;另一方面,从原始图像的带权局部视图中收集局部特征。特别地,由于文本信息的颜色一般受局部文本区域的色调限制,所以模型可以使用类似的卷积编码器来提取局部视图图像特征,如图5所示,融合图像整体特征和局部特征,使用多层感知机分类器进行打分输出,共同决定构图文本属性的类别。
[0065]
来自多模态特征提取网络的特征f描述了输入的全局视图,同时图像的局部视图对属性确定也有关键影响,例如文本输入的颜色一般受局部文本区域的色调限制。加权原始图像应用概率密度图作为原始图像每个像素的注意力权重,表示对位乘积,使用类似的卷积编码器来提取局部视图图像特征
[0066][0067]
连接全局特征和局部特征,并使用mlp分类器进行logits输出,对数通过softmax函数归一化为概率分布,pi表示属性属于第i个类的概率:
[0068]
logiti=mlp(f,f
l
)
[0069][0070]
我们研究了端到端智能平面设计框架在各类主流模型上的性能,使用test loss(越低越好)、jaccard相似性(越高越好)和acc(越高越好)指标,用于分别评估总体质量、布局生成质量和属性设计质量。
[0071]
随着主干结构的功能越来越强大,端到端智能平面设计框架可以在整体质量方面获得更好的设计作品,整体性能以及每个组件的有效性都会变得更好。如表1所示,本发明端到端智能平面设计网络在布局预测子任务上的性能优于基于显著性检测的方法,与除aupod-fcn32之外的所有aupod系列网络相比,基于显著性的方法在测试期间获得更低的jaccard相似性。结果表明,端到端智能平面设计框架可以受益于更好的显著性检测诱导偏差。
[0072]
表1
[0073][0074]
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明,熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献