基于短语驱动生成对抗网络的文本生成图像的方法及网络

2022-04-14 00:49:27 来源：中国专利 TAG：

技术特征：
1.一种基于短语驱动生成对抗网络的文本生成图像的方法，其特征在于：步骤1，输入描述场景的文字信息，对输入文字编码为单词特征矩阵；步骤2，根据上一步得到的单词特征矩阵计算句子特征向量，并将得到的句子特征向量串联一个从正态分布中采样的噪声向量，输入到对抗生成网络的生成器中生成初步场景图片；步骤3，对单词之间的相关性进行分析，并根据步骤1得到的单词向量矩阵计算短语特征矩阵，短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督，以生成更加清晰的场景图片；步骤4，对输入文字进行依存关系分析，检测并提取当前生成图片中的物体特征；步骤5，利用步骤4的结果，为输入文本中的短语建立语义关系图，为检测到的物体建立空间关系图；步骤6，将语义关系图和空间关系图分别进行编码，得到文字上下文特征和视觉上下文特征；步骤7，计算基于注意力的文字上下文特征和视觉上下文特征的文字生成图片相似度，作为损失训练文字编码器和生成器；步骤8，检测当前生成图片中包含的物体并提取物体特征；步骤9，用注意力机制，计算每个物体的短语上下文向量，然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中，得到对抗损失用来更新生成器。2.根据权利要求1所述的基于短语驱动生成对抗网络的文本生成图像的方法，其特征在于：步骤2的具体过程为：基于上一步得到的单词特征矩阵e，首先计算每个单词的权重:中代表第i个单词的特征向量，exp()是对数函数，是第i个单词的权重，所有单词的权重组成权重向量w，t单词个数，根据权重向量和单词矩阵，得到句子特征向量：其中t表示矩阵的转置。3.根据权利要求1所述的基于短语驱动生成对抗网络的文本生成图像的方法，其特征在于：步骤3中相关性分析包括邻接性分析和相似性分析，邻接性分析是决定哪些词属于相同的短语，相似性分析是衡量不同单词之间的相似程度。4.根据权利要求1所述的基于短语驱动生成对抗网络的文本生成图像的方法，其特征在于：步骤5的具体过程为：语义关系图g
u
表示输入文本中的不同短语之间的语义相对位置关系，g
u
是一个有向图，图中的节点为每一个短语向量，图中的边为输入文本中提到的位置关系，边的权值是表示位置关系的单词向量；
空间关系图g
v
表示生成图片中检测到物体之间的空间位置关系，g
v
同样是一个有向图，图中的节点为提取的每个区域的特征，图中的边也是文本中提到的位置关系，边的权值用相对极坐标计算，包括相对距离和相对方向；相对距离是检测到的物体的包围盒中心之间的欧几里得距离，相对方向表示空间关系的类别。5.一种用于实现权利要求1-4任一所述的基于短语驱动生成对抗网络的文本生成图像的方法的网络，其特征在于：包括基于transformer的文字编码模块，基于gcn的文字生成图片相似度模块和短语物体判别器模块；所述基于transformer的文字编码模块处理过程如下：输入描述场景的文字信息，用transformer的编码器模块对输入文字编码为单词特征矩阵；根据得到的单词特征矩阵计算句子特征向量，并将得到的句子特征向量串联一个从正态分布中采样的噪声向量，输入到对抗生成网络的生成器中生成初步场景图片；利用自然语言处理工具对单词之间的相关性进行分析，并根据所述单词向量矩阵计算短语特征矩阵，短语特征矩阵和单词特征矩阵共同对生成的初步场景图片进行注意力监督，以生成更加清晰的场景图片；所述基于gcn的文字生成图片相似度模块局图处理过程如下：首先使用自然语言处理工具stanford core nlp对输入文字进行依存关系分析，并使用物体检测器yolov4检测当前生成图片中的物体并提取物体特征；利用提取的物体特征，为输入文本中的短语建立语义关系图，为检测到的物体建立空间关系图；将语义关系图和空间关系图分别输入到两个图卷积网络中进行编码，得到文字上下文特征和视觉上下文特征；上一步得到的两种上下文特征，用注意力多模态相似度模型计算基于注意力的文字生成图片相似度，作为损失训练文字编码器和生成器；短语物体判别器模块的判别过程主要包含以下步骤：用物体检测器yolov4检测当前生成图片中包含的物体并提取物体特征；用注意力机制，计算每个物体的短语上下文向量，然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中，得到对抗损失用来更新生成器。6.根据权利要求5所述的网络，其特征在于：基于gcn的文字生成图片相似度模块的相似度计算过程中，将语义关系图g
u
和短语特征矩阵，以及空间关系图g
v
和物体特征矩阵分别输入两个图卷积网络中，用来计算包含空间位置关系的文本-图片相似度：
其中是第i个短语特征的邻域节点集合，是第i个物体特征的邻域节点集合，是第j个短语特征向量，是第j个物体特征向量，是需要学习的缩放和平移参数，是relu激活函数，k是gcn卷积核函数的个数；通过以上两个公式，我们得到短语上下文特征和物体上下文特征。7.根据权利要求6所述的网络，其特征在于：用注意力机制，计算每个物体的短语上下文向量，然后将短语上下文向量、物体特征和句子特征串联的特征输入到条件判别器中，得到对抗损失用来更新生成器，具体如下：首先通过下面的公式计算第i个短语特征向量与第j个物体区域特征之间的归一化文本-图像相似度：其中是检测到的物体的数量，然后计算对于第j个区域来讲，第i个短语的权重：其中n是短语的数量，下一步通过计算所有短语的加权和，得到第j个物体的短语上下文特征：最后，将物体特征，物体的短语上下文特征和句子编码s串联成同一个特征，输入到判别器中，判断物体是否与相应的短语一致。

技术总结
本发明公开了一种基于短语驱动生成对抗网络的文本生成图像的方法及网络。利用一种基于Transformer的文本编码器将输入文本编码成单词特征矩阵和句子特征向量，并得到一种基于文本相关性分析的短语特征矩阵。同时，建立了一个基于图卷积网络的文本生成图像相似度模型。该模型可以评估文本与生成的场景图像之间的细粒度短语物体相似度，并建模不同物体之间的相对位置约束。此外，通过设计的短语物体判别器来判断生成的物体的真实性，并检查短语和物体之间的一致性。实验结果表明我们所提出的方法能够比目前最先进的方法生成更好的场景图像。图像。图像。

技术研发人员：肖春霞方菲罗飞
受保护的技术使用者：武汉大学
技术研发日：2022.03.15
技术公布日：2022/4/12

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：内镜图像处理方法、装置、存储介质及电子设备

基于短语驱动生成对抗网络的文本生成图像的方法及网络

相关文献

最热文献