基于分辨率递进生成对抗网络的文本生成图像方法与流程

2022-02-24 11:02:18 来源：中国专利 TAG：

1.本发明设计了基于分辨率递进生成对抗网络的文本生成图像方法，涉及深度学习、计算机视觉技术领域。

背景技术：

2.文本生成图像(text-to-image synthesis,text2image)是计算机视觉领域一个比较前沿的方向。文本生成图像旨在通过输入一句描述语句生成与之相对应的自然图像，属于计算机视觉和自然语言处理的交叉应用领域，有助于挖掘文本和图像之间的潜在关系，形成计算机的视觉语义机制。
3.文本生成图像这一任务最早提出于2016年，其主要任务是要求对每一句输入的文本描述自动生成与之对应的图像，由此，reed等基于条件对抗生成网络搭建了gan-int-cls等网络来解决这一问题。其网络虽然能够基本生成与描述相关且具有一定清晰度的图像，但是生成的图像质量分辨率较低，且基本没有考虑文本和生成图像的语义一致性问题。
4.文本生成图像是一个极具挑战性的问题，其有两个主要的目标：(1)能够生成逼真的图像；(2)生成的图像与输入的文本描述相匹配。目前大多文本生成图像基础框架采用的条件生成对抗网络(condition-gan，cgan)的方式，采用预训练的文本编码器将输入的描述性语句编码成对应的语义向量，连接服从正态分布的噪声向量，作为cgan的条件输入由此生成自然图像。在生成高分辨率的清晰图片方面，采用的是生成器多尺度输出和多尺度鉴别器的方法，提升生成图片的质量。在语义一致性方面，往往采用注意力机制等在高分辨率图谱上进行微调。
5.由于生成对抗网络的不稳定性，大多数文本生成图像的网络容易出现很多语义不合理的图片。以鸟类图片为例，对生成目标结构没有一定的约束，往往有一部分生成图片会出现双头鸟，部分缺失，目标区域不连通，前景和背景的虚化导致边界模糊等不真实情况，从而使得生成结果差强人意。目前基于文本生成图片的研究关注点大多是在高分辨生成器中做改进，通过注意力机制等方式进行生成图片的校正和微调。在生成网络中，为了生成清晰的高分辨率自然图片，常常采用了级联多个生成器的方式，从而达到从低分辨率到高分辨率图片的逐步细化。同时，研究表明，低分辨率生成器关注点在于结构和布局，高分辨率生成器关注点在于细节和随机变化，如果在图片的空间结构上生成失败，那么进行多少细节修正都是徒劳。
6.因此，低分辨率生成器初始生成图片对生成结果的空间语义结构影响更大。更好的低分辨率生成器能够保证低分辨率生成图片的语义合理性，在一定程度上提升生成网络生成图片的稳定性。

技术实现要素：

7.本发明为解决上述问题提供了基于分辨率递进生成对抗网络的文本生成图像方法，其主要目的是为了促进图片生成的稳定性。在低分辨率层采用语义分离-融合生成模
块，文本特征在自注意力机制引导下分离为三个特征向量，通过生成器生成对应特征图谱并融合为低分辨率图谱，并采用mask图片作为语义约束提高低分辨率生成器的稳定性。同时，在高分辨率层采用分辨率递进残差结构，结合词注意力机制和像素混洗，进一步改善生成图片质量。分辨率递进生成对抗网络的文本生成图像方法在一定程度上减少生成目标的结构错误，进一步提升生成图片的质量。
8.本发明通过以下技术方案来实现上述目的：
9.步骤一：通过text-encoder将输入的描述语句编码为文本语义特征向量c，和一个服从正态分布的噪声z进行得到一个新的特征向量s；
10.步骤二：采用语义分离模块，将编码端输出的特征向量经过自注意力模块计算对应的注意力权重，再将注意力权重和原本的语义特征向量相乘得到分离后的前景特征向量s
fore
、背景特征向量s
back
和mask特征向量s
mask
；
11.步骤三：通过第一级三个不同的生成器g
fore
,g
back
,g
mask
分别生成大小为64
×
64的特征图谱r
fore
,r
back
,r
mask
，通过r
mask
计算得到生成的二值掩膜图像i
mask
，第一级生成器输出特征图谱r0以及第一级生成图片i0；
12.步骤四：将第一级特征图谱经过第二、三级生成器g1,g2，结合分辨率递进残差结构，最终分别得到128
×
128、256
×
256的生成图片i1，i2；
13.步骤五：对于每个生成阶段，都有一个与之对应的判别器，分别为d0,d1,d2，同时第一阶段生成的mask图片也有对应的判别器d
mask
对其生成结果进行约束；
14.步骤六：用最后一个生成器所生成的256
×
256尺寸的图像计算damsm损失。
15.需要说明的是：
16.步骤二中的语义注意力提取模块是在语义注意力分离模块中，第i个语义特征向量计算方法如下：
[0017][0018]
α
i,j
＝exp(wis
t
s)/∑jexp(wis
t
s)
[0019]
其中，wi为线性变换的权重；
[0020]
步骤三中的通过r
mask
计算得到生成的二值掩膜图像i
mask
，第一级生成器输出特征图谱r0以及第一级生成图片i0步骤如下：
[0021]
(1)将r
mask
通过卷积层和激活层，得到单通道的二值掩膜图像i
mask
；
[0022]
(2)通过公式：
[0023][0024]
计算得到第一级特征图谱r0；
[0025]
(3)将r0通过卷积层和激活层最终得到第一级生成器生成图片i0。
[0026]
本发明的主要内容在于提出了基于分辨率递进生成对抗网络的文本生成图像方法。在低分辨率生成层采用语义特征分离-融合模块提高图像结构生成稳定性，在高分辨率生成层采用分辨率递进残差结构提升图片生成质量，在公开数据集cub，oxford-102上也验证了所提出网络的有效性。
附图说明
[0027]
图1是本发明网络结构图。
[0028]
图2是本发明自注意力机制分离结构图。
[0029]
图3是本发明高分辨率残差网络结构。
具体实施方式
[0030]
下面结合附图对本发明作进一步说明：
[0031]
图1是基于分辨率递进生成对抗网络的文本生成图像方法的网络结构图。
[0032]
文本编码端：生成器的文本编码端由一个预训练的文本编码器text-encoder组成，输入的描述语句通过text-encoder编码为文本语义特征向量c，将其与服从正态分布的噪声z连接成一个新的特征向量，作为生成器的图像解码端的输入。text-encoder还负责将文本描述中的单词计算为注意图谱，作为图像解码端的后两阶段(64
×
64到128
×
128、128
×
128到256
×
256)的输入之一。
[0033]
图像编码端：将编码后的语义特征向量，经过条件增强模块得到条件向量。特征向量在低分辨率层中，通过自注意力分离模块得到三个不同注意力权重的语义特征向量。采用三个不同的生成器，生成三个不同的语义特征图谱，通过特征融合方法，得到生成低分辨率图谱。在高分辨率层中，结合注意力机制采用残差结构对高分辨率图谱进行微调，从而实现从低分辨率到高分辨率的生成，最终得到高质量图片。
[0034]
图像解码端：对于每个生成阶段，都有一个与之对应的判别器，分别为d0、d1、d2。在最后一个生成阶段，所生成的256
×
256尺寸的图像还会被用于计算damsm损失。
[0035]
图2是本发明自注意力机制分离结构图。语义分离模块采用自注意力机制，编码端输出的特征向量经过自注意力模块计算对应的注意力权重，再将注意力权重和原本的语义特征向量相乘得到分离后的前景特征向量、背景特征向量和mask特征向量。
[0036]
图3是本发明高分辨率残差网络结构。在残差网络中，首先经过词向量引导得到注意力图谱，将注意力图谱和前一级生成图谱连接，将前一级特征图谱和词向量计算注意力权重，注意力权重乘以特征图谱得到注意力图谱，将注意力图谱和前一级特征图谱拼接后作为生成器的输入，同时将前一级特征图谱两倍上采样，将生成器的输出和上采样后的结果相加，通过激活层得到该阶段对应尺度的图片。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：具有基于用户属性的推荐的并发浏览界面的制作方法

基于分辨率递进生成对抗网络的文本生成图像方法与流程

相关文献

最热文献