一种基于图神经网络的图像生成方法

2023-01-06 02:40:37 来源：中国专利 TAG：

1.本发明属于图像处理技术领域，具体涉及一种基于图神经网络的图像生成方法。

背景技术：

2.近年来，生成对抗神经网络(gan，generative adversarial networks )在生成逼真图像领域取得了巨大的进展，其从像素级别图像中创造人类出无法分辨出真假的、内容丰富的高质量图像。此外，带有条件的图像生成方法能够使得生成的结果更加可控、更加满足用户的需求，例如：基于文字描述生成图像、基于骨骼关键点生成人体图像等。
3.基于场景拓扑图生成图像的方法中，场景拓扑图内的每个节点都被赋予一种特定的语义，节点之间用边的连接代表语义之间的关系，从而可以描述出一张图像的语义内容和布局规划，其与人类的思维导图形式相似。因此，场景拓扑图生成图像的技术在人和人工智能合作绘画创作领域有着重要应用。
4.现有的基于场景拓扑图生成图像的方法涉及两个阶段。在第一阶段，物体的语义特征由图神经网络学习得到，语义特征被用来确定物体的语义分割图，其中包括物体的坐标边界以及物体大致的形状。在第二阶段，现有方法利用基于语义分割图生成图像的方法来生成最终的图像。基于两阶段的方法的关键挑战是需要通过图神经网络学习到包含物体之间相互作用的语义特征。
5.当图神经网络模型未能捕捉到物体的相互作用或未将相互作用的信息纳入到语义特征中时，那得到的语义特征将只包含语义的类别信息。在这种情况下，各个物体是独立生成的，最后的图像是不真实的。
6.另一方面，现有的图像生成方法忽略了物体在图像生成阶段的相互作用，即物体在这一阶段是独立和平行生成的，没有进一步的消息传递，这样会导致生成的图像中物体失真。因此基于两阶段的方法，其对物体间的相互作用信息的学习只存在于语义特征的学习阶段，给语义特征的学习带来了严重负担。
7.为了更加精准捕捉物体之间的交互，需要在语义特征学习阶段和图像生成阶段均考虑物体之间的关系。因此亟需设计一种图像生成方法能够准确获得物体之间的关系高效生成具有较高视觉质量的图像。

技术实现要素：

8.本发明提供了一种基于图神经网络的图像生成方法，该方法能够高效的生成具有较高视觉质量和较为正确物体之间关系的图像。
9.一种基于图神经网络的图像生成方法，包括：（1）获得多张真实图像，基于所述真实图像中的物体构建场景拓扑图，将真实图像输入vqgan系统得到真实图像编码和图像特征节点集合，通过图像特征节点集合和对应的场景拓扑图构建超图，多个超图构建训练样本集；（2）构建训练网络模型，所述训练网络模型包括消息传递函数、注意力机制单元、
全连接层和归一化指数函数，其中：场景拓扑图上的语义特征消息传递方式：在场景拓扑图中，通过消息传递函数将场景拓扑图节点的每个邻居节点的语义特征和连边特征进行融合得到第一邻居节点消息，将每个第一邻居节点消息通过注意力机制单元进行聚合，将聚合结果作为更新的场景拓扑图节点语义特征；全局消息传递方式：当图像特征节点的邻居节点为场景拓扑图节点时，采用回归网络方法基于场景拓扑图的每个节点构建矩形框，矩形框内为物体的图像特征节点，场景拓扑图的每个节点指向对应矩形框，通过消息传递函数将更新的场景拓扑图节点语义特征与对应的矩形框连接的全局连边特征进行融合，将融合结果通过注意力机制得到的聚合特征作为采用全局消息传递方式更新的图像特征；局部消息传递方式：当图像特征节点的邻居节点在当前矩形框内或其他矩形框内时，通过消息传递函数将矩形框内图像特征节点的邻居节点的图像特征和相应连边特征进行融合得到第二邻居节点信息，将每个第二邻居节点信息通过注意力机制单元进行聚合，将聚合结果作为采用局部消息传递方式更新的图像特征；将基于全局消息传递方式和局部消息传递方式更新得到的图像特征集合依次输入全连接层和归一化指数函数得到生成图像编码；（3）基于训练样本集对训练网络模型进行训练，通过生成图像编码和真实图像编码采用损失函数训练训练网络模型得到图神经网络模型；（4）应用时，将场景拓扑图输入至图神经网络模型中得到生成图像编码，将生成图像编码输入至vqgan系统的解码器生成图像。
10.将真实图像输入vqgan系统得到真实图像编码，包括：先将真实图像通过vqgan系统的编码器得到初始潜在向量组合，基于距离最近原理将初始潜在向量组合中的初始潜在向量与向量字典进行比对得到潜在向量组合，潜在向量组合的下标为真实图像编码，其中：所述潜在向量为：其中，为初始潜在向量组合， q（﹒）为距离最近函数， zk为向量字典中的第k个向量，n为向量的维度，h和w分别为潜在向量的高度和宽度。
11.所述基于所述真实图像中的物体构建的场景拓扑图，场景拓扑图节点表示真实图像中的物体，连边表示物体之间的关系，场景拓扑图由元祖组成，其中：场景拓扑图节点的集合o为：其中， oi为第i个场景拓扑图节点，n为场景拓扑图节点的个数，为一组物体类别；场景拓扑图连边的集合，为一组关系类别，每条边表示为，为的第个邻居节点，，为由第i个场景拓扑图节点指向第
ꢀꢀ
个场景拓扑图节点的连边。
12.将场景拓扑图输入嵌入层网络中得到场景拓扑图节点的语义特征和连边特征。
13.通过消息传递函数将场景拓扑图节点的每个邻居节点语义特征和连边特征进行融合得到第一邻居节点消息
ꢀꢀ
为：其中，为第个邻居节点语义特征，为连边特征，为场景拓扑图内信息传递参数矩阵，，d1为邻居节点的语义特征的维度，d2为连边特征的维度。
14.通过融合结果更新图像特征节点对应的图像特征
ꢀꢀ
为：其中，为节点特征vi的邻居节点集合，为归一化后的节点到节点的注意力系数，w1和w2分别为参数矩阵，gelu为激活函数。
15.基于全局消息传递方式更新得到的图像特征
ꢀꢀ
为：为：其中，为第i已更新的语义节点特征传递给第j个图像节点特征的消息， rg为第g个全局连边类型，为全局连边类型的参数矩阵，为全局连边特征，为第i个已更新的语义节点特征到图像节点特征
ꢀꢀ
的注意力系数，w1和w2分别为参数矩阵，为图像节点特征的语义特征邻居节点集合。
16.将基于全局消息传递方式和局部消息传递方式更新得到的图像特征依次进行前馈神经网络和规范化操作得到最终的图像特征；将基于场景拓扑图上的语义特征消息传递方式更新得到的场景拓扑图节点语义特征依次进行前馈神经网络和规范化操作得到最终的语义特征消息。
17.当图像特征节点的邻居节点在当前矩形框内时，矩形框内的每个图像特征节点指向其他图像特征节点，这些节点之间通过特定的局部边r
l
进行连接，l表示局部边的索引，为第一局部连边特征，为图像特征节点的在同一矩形框内的邻居节点集合，通过其消息传递函数、注意力机制得到更新的图像特征节点为：
其中，为j个图像特征节点到第
ꢀꢀ
个邻居节点特征
ꢀꢀ
的注意力系数，w1和w2分别为参数矩阵，为第一局部连边类型的参数矩阵。
18.当图像特征节点的邻居节点在其他矩形框内时，在场景拓扑图中，表示物体节点通过边与物体节点进行连接，物体节点
ꢀꢀ
和物体节点
ꢀꢀ
分别对应了位置矩形框
ꢀꢀ
和，在矩形框
ꢀꢀ
中的图像特征节点将会与矩形框
ꢀꢀ
中的图像特征节点同样以边
ꢀꢀ
进行连接以实现图像层面的关系消息传递，定义
ꢀꢀ
为和中所有图像特征节点有边连接的其他矩形框中的图像特征节点，通过其消息传递函数、注意力机制得到更新的图像特征节点为：其中，为j个图像特征节点到第
ꢀꢀ
个邻居节点特征
ꢀꢀ
的注意力系数，w1和w2分别为参数矩阵，为第二局部连边类型的参数矩阵，为第j个图像特征节点
ꢀꢀ
到第
ꢀꢀ
个邻居节点特征
ꢀꢀ
的连边特征。
19.与现有技术相比，本发明的有益效果为：（1）本发明基于输入的场景拓扑图构建超图。考虑语义特征学习和图像生成两个阶段的物体交互，在超图上构建一个图神经网络来同时学习场景拓扑图中的语义特征以及图像的潜在特征，以达到同时学习语义特征和图像特征并考虑生成物体在这两个阶段的相互作用，不同于现有技术需要两阶段的学习方法，从而提高了学习效率。
20.（2）本发明提供了四种在图神经网络上的消息传递方式来模拟真实场景中的物体交互，场景拓扑图上的消息传递用来学习语义特征，场景拓扑图上的语义特征和图像特征之间的消息传递用来控制图像的全局生成，图像特征之间有两种消息传递方式，一种用来控制图像局部特征的学习，另一种用来控制图像不同区域之间的关系学习，并使得图像特征之间的关系与场景拓扑图定义的关系所对应，最后提升了基于场景拓扑图生成图像的质
量包括物体的视觉质量以及物体之间关系在图像层面的正确性。
附图说明
21.图1为本发明具体实施方式提供的基于图神经网络的图像生成模型方法的流程图；图2为本发明具体实施方式提供的基于图神经网络的图像生成模型方法的示意图；图3为本发明具体实施方式提供的四种消息传递方式的示意图。
具体实施方式
22.为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。
23.本技术提供了一种基于图神经网络的图像生成方法，如图1，图2所示，包括：s1：获得图像生成预训练数据集以及可控图像生成数据集：预训练数据集的样本均由真实图像构成；可控图像生成数据集包括真实图像和真实图像对应的场景拓扑图构成。
24.s2：基于图像生成预训练数据集通过生成式对抗网络构建预训练系统vqgan：vqgan以序列的形式表达了图像的构成。任何图像都可以被表示为潜在向量的组合，，其中n是潜在向量的维度，h和w为图像的高度和宽度，h和w为潜在向量的高度和宽度。vqgan学习两个卷积模型分别是编码器和解码器，获得已经过学习的离散的潜在向量字典来表示图像， k代表字典的大小，zk为向量字典中的第k个向量。
25.vqgan训练时先利用编码器得到初始在向量组合，通过距离最近原理计算的每个位置上潜在向量字典中离潜在特征距离最近的潜在向量，并用该潜在向量作为当前位置的潜在向量z为：用该潜在向量作为当前位置的潜在向量z为：为初始潜在向量组合， q（﹒）为距离最近函数， zk为向量字典中的第k个向量，n为向量的维度，h和w分别为潜在向量的高度和宽度，。训练时，使得通过潜在向量组合重构的图像与原始图像基本一致：，即：本技术将预训练数据集中的真实图像输入至预训练系统vqgan，编码器将图像编码成，即
ꢀꢀ
的离散向量，解码器将离散向量还原成原始图像。将离散向量的组合z，即，记，作为初始的图像特征节点，为潜在向量个数，用以基于图神经网络的场景拓扑图图像生成训练系统的学习。
26.本技术通过图像特征节点集合和对应的场景拓扑图构建超图，多个超图构建训练样本集。场景拓扑图的语义特征节点代表物体，边代表物体之间的关系。给定一组物体
类别和一组关系类别，场景拓扑图的语义节点由元组
ꢀꢀ
组成，其中是物体节点的集合且每个物体，是边的集合，每条边可表示为，，为由第i个场景拓扑图节点指向第个场景拓扑图节点的连边，为的第个邻居节点。
27.本技术将场景拓扑图输入嵌入网络得到场景拓扑图每个节点的语义特征，以及节点之间连边的边特征，其中表示边类型。
28.s3：构建训练网络模型，在图神经网络上定义四种消息传递模型来模拟场景中物体的交互，包括：s31：场景拓扑图上的语义特征消息传递方式：如图3的（a）所示，在场景拓扑图中，通过消息传递函数将场景拓扑图节点的每个邻居节点的语义特征和连边特征进行融合得到第一邻居节点消息，将每个第一邻居节点消息通过注意力机制单元进行聚合，通过聚合结果更新场景拓扑图节点语义特征。在消息传递完成后，利用前馈神经网络和规范化操作对每个场景拓扑图节点语义特征进一步更新得到最终的语义特征，从而提升特征转化的能力并减缓过平滑的现象。
29.本技术提供的第一邻居节点消息为：其中，为第个邻居节点语义特征，为连边特征，为场景拓扑图内信息传递参数矩阵，，d1为邻居节点的语义特征的维度，d2为连边特征的维度。
30.本技术提供的通过融合结果更新图像特征节点对应的图像特征为：其中，为节点特征vi的邻居节点集合，为归一化后的节点到节点的注意力系数，w1和w2分别为参数矩阵，gelu为激活函数。
31.本技术提供的利用前馈神经网络和规范化操作对每个场景拓扑图节点语义特征进一步更新得到最终的语义特征为：其中，layernorm是归一化函数，和
ꢀꢀ
是前馈神经网络的参数矩阵，是激活函数。
32.s32：全局消息传递方式：如图3的（b）所示，全局消息传递考虑输入场景拓扑图中的节点语义特征信息和图像特征信息之间的信息交互。当图像特征节点的邻居节点为场景拓扑图节点时，采用回归网络方法基于场景拓扑图的每个节点构建真实图像的矩形框。现
有技术采用节点的语义特征来预测物体的位置矩形框和物体形状，然后将语义特征填充到具体的位置和形状区域中。本发明沿用类似的物体到区域的准则，首先定义一个物体位置矩形框的回归网络来预测每个物体
ꢀꢀ
的矩形位置，其中
ꢀꢀ
表示矩形框的左上角坐标，和
ꢀꢀ
分别表示矩形框的宽和高。
33.矩形框内为物体的图像特征节点，场景拓扑图的每个节点指向对应矩形框，通过消息传递函数将更新的场景拓扑图节点语义特征与对应的矩形框连接的全局连边特征进行融合，通过融合结果基于注意力机制更新图像特征节点对应的图像特征，利用前馈神经网络和规范化操作对每个已更新的图像特征节点对应的图像特征进一步更新得到最终的图像特征
ꢀꢀ
为：其中，为第i已更新的语义节点特征传递给第j个图像节点特征的消息， rg为第g个全局连边类型，为全局连边类型的参数矩阵，为全局连边特征，为第i个已更新的语义节点特征到图像节点特征
ꢀꢀ
的注意力系数，w1和w2分别为参数矩阵，为图像节点特征的语义特征邻居节点集合。
34.s32：局部消息传递方式：当图像特征节点的邻居节点在当前矩形框内或其他矩形框内时，通过消息传递函数将矩形框内图像特征节点的邻居节点的图像特征和相应连边特征进行融合得到第二邻居节点信息，将每个第二邻居节点信息通过注意力机制单元进行聚合，通过聚合结果更新图像特征节点对应的图像特征；当图像特征节点的邻居节点在当前矩形框内时，消息传递方式定义为第一局部消息传递方式，当图像特征节点的邻居节点在其他矩形框内时，消息传递方式定义为第二局部消息传递方式。
35.第一局部消息传递方式：如图3的（c）所示，局部消息传递目的是为了学习图像的局部视觉细节从而使得生成图像具有更细粒度的细节。每个图像特征节点对它周围的图像特征节点敏感，具体地，在一个矩形框内的所有图像特征节点构成一个完全图，即矩形框内的每个图像特征节点指向其他图像特征节点，这些节点之间通过特定的局部边 r
l
进行连接，l表示局部边的索引，为局部连边特征。定义为图像特征节点的在同一矩形框内的邻居节点，通过其消息传递函数、注意力机制、前馈神经网络和规范化操作得到第一局消息传递方式更新的最终图像特征节点为：
其中，为j个图像特征节点到第
ꢀꢀ
个邻居节点特征
ꢀꢀ
的注意力系数，w1和w2分别为参数矩阵，为第一局部连边类型的参数矩阵。
36.第二局部消息传递方式：如图3的（d）所示，第二局部消息传递方式是为了在图像层面建模物体间的相互关系。根据所述场景拓扑图上的语义特征消息传递方式，消息在图像层面根据定义好的物体和物体之间的关系进行传递。当图像特征节点的邻居节点在其他矩形框内时，在场景拓扑图中，表示物体节点通过边与物体节点进行连接，物体节点
ꢀꢀ
和物体节点
ꢀꢀ
分别对应了位置矩形框
ꢀꢀ
和，在矩形框
ꢀꢀ
中的图像特征节点将会与矩形框
ꢀꢀ
中的图像特征节点同样以边
ꢀꢀ
进行连接以实现图像层面的关系消息传递，定义
ꢀꢀ
为和中所有图像特征节点有边连接的其他矩形框中的图像特征节点，考虑到不同矩形框之间具有庞大的连接边数量，本发明采用随机采样策略来减少边的映射数量。通过其消息传递函数、注意力机制、前馈神经网络和规范化操作得到第二局消息传递方式更新的最终图像特征节点
ꢀꢀ
为：为：其中，为j个图像特征节点到第
ꢀꢀ
个邻居节点特征
ꢀꢀ
的注意力系数，w1和w2分别为参数矩阵，为第二局部连边类型的参数矩阵，为第j个图像特征节点
ꢀꢀ
到第
ꢀꢀ
个邻居节点特征
ꢀꢀ
的连边特征。
37.最后通过后三种图像特征相关的消息传递方式，得到最后的图像节点特征
ꢀꢀ
为：多个最后的图像节点特征得到最后的图像节点特征集合，将最后的图像节点特征
集合依次输入一层全连接的预测网络和归一化指数函数（softmax）来生成图像编码，：其中，
ꢀꢀ
为预测网络的参数。
38.s4：基于训练样本集对训练网络模型进行训练，通过生成图像编码和真实图像编码采用交叉熵损失函数训练训练网络模型得到图神经网络模型。定义与自回归预测方式相结合损失函数，用真实图像编码预测生成图像编码。
39.训练阶段，输入真实图像作为输入，vqgan的编码器将图像编码并转换成
ꢀꢀ
的图像潜在向量z，找到潜在向量在向量字典中的下标，向量字典
ꢀꢀ
中的多个下标构建真实图像编码，将真实图像编码作为训练标签，b为真实图像编码的数量。
40.其中，是前b-1个真实的图像字典下标，即前b-1个真实图像编码，训练使得第b个生成图像编码
ꢀꢀ
与第b个真实图像编码
ꢀꢀ
接近的概率最大，是图神经网络参数。
41.s5：对s4中训练好的模型进行测试。
42.测试，输入任意场景拓扑图，在不需要真实图像字典下标的情况下以自回归的方式通过s4训练完成的图神经网络模型逐个生成新的图像字典下标，生成图像编码，与训练不同的是，利用已经生成的下标而不是真实字典下标去预测生成新的字典下标，即真实图像编码，在得到所有图像潜在向量后，利用vqgan的解码器
ꢀꢀ
将下标对应的图像潜在向量转化为生成图像。利用多项式重采样方法来获取不同地图像潜在向量用以增加生成图像的多样性。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种数据处理方法、装置和计算机设备与流程

一种基于图神经网络的图像生成方法

相关文献

最热文献