一种场景图文生成方法和系统

2022-04-16 13:39:32 来源：中国专利 TAG：

with styletransfer》将二值化的文本图像经过渲染，作为风格迁移网络的输入。他们提出synthtext-transfer框架用于生成具有相同纹理但文本内容不同的合成文本图像，但由于需要很多人工操作，限制了生成图像的多样性。wu等人在《editing text in the wild》提出了一个端到端可训练的风格保留网络(srnet)，用于编辑自然场景图片中的文本，并在英文转中文的跨语种情况下做出了一些尝试。他们的方法能够处理大多数输入图像，但在文本结构复杂或背景复杂的情形下就会失败。
9.基于wu等人的工作，yang等人在《swaptext:image based texts transferin scenes》提出了用于场景文本转换的统一框架swaptext，改善了编辑弯曲文本图像的效果。roy等人[scene text editor using font adaptive neuralnetwork]设计了一个生成网络，该网络根据单个字符的字体特征生成具有相同字体特征的其他字符。上述提到的此类方法均在有监督的条件下，但对于资源相对较少的小语种来说，尤其是对于跨语种模型的训练，只能使用合成数据训练，使其真实场景生成效果较差。

技术实现要素：

[0010]
本发明为解决现有技术中存在的技术问题，提供一种场景图文生成方法，包括以下步骤：
[0011]
s1:文本行提取，即从给定的场景图像中提取出文本所在的区域，作为文本行风格图像；s2:文本行风格迁移，即将给定的文本图像和风格图像进行融合，得到融合图像；s3:场景文本融合，即将融合图像嵌入到输入图像中，并进行渲染得到输出图像。本发明采取的技术方案，根据文本位置信息，将输入场景图片中的文字内容替换为其他语种文字内容，同时保留输入图片的文字的风格和背景，并提升了替换效果。
[0012]
进一步地，步骤s2利用神经网络将给定的文本图像和风格图像进行融合，得到融合图像，具体包括：
[0013]
提取文本行风格图像的背景特征，得到背景图像；
[0014]
提取文本图像的内容特征和风格图像的风格特征并进行融合，得到前景图像；
[0015]
将背景图像与前景图像进行融合，得到融合图像。
[0016]
进一步地，所述神经网络为文本行风格迁移网络，包括三个子网：文字迁移子网、背景生成子网、融合子网，其中：
[0017]
在文字迁移子网用以分离出文本行风格图像中文本的风格特征和内容图像中文本的内容特征，并将他们级联在一起用于生成前景图像；
[0018]
背景生成子网用以提取风格图像的背景特征，得到背景图像；
[0019]
融合子网用以将背景图像与前景图像进行融合，得到融合图像。
[0020]
4.如权利要求3所述的场景图文生成方法，其特征是，文本行风格迁移网络为多层卷积神经网络。
[0021]
进一步地，所述神经网络的训练方法包括：
[0022]
准备合成数据集，所述合成数据集包含文本行风格图像、内容图像、以及对应的结果图像，其中，结果图像同时具有内容图像的内容和风格图像的文字风格及背景风格；
[0023]
将文本行风格图像和内容图像输入文本行风格迁移网络，得到风格迁移后的融合图像。
[0024]
计算风格迁移的融合图像与结果图像之间像素级别的损失，结合该像素级别的损失与对抗生成网络的优化目标函数，构建目标损失函数；
[0025]
使用梯度下降算法进行优化。
[0026]
进一步地，所述神经网络的训练方法包括：
[0027]
准备真实场景数据集，所述真实场景数据集包含文本图像、文本位置和文本内容的标注信息；
[0028]
将真实场景中的文本行区域作为文字迁移子网的输入，即文本行风格图像。根据已有的对文本内容的标注，生成与该文本内容相同的文本图像作为文字迁移子网的内容输入，即内容图像；
[0029]
计算文字迁移子网生成的前景图像与输入的风格图像计算像素级别的损失，结合该像素级别的损失与对抗生成网络的优化目标函数，构建目标损失函数；
[0030]
在神经网络中输入语料库中的其他文本行作为内容图像，输入真实场景的图像作为风格图像，经过文本行风格迁移网络得到的融合图像，替换为给定的内容风格；
[0031]
计算融合图像和内容图像在内容特征空间的一致性损失，融合图像和风格图像在风格特征空间的一致性损失以及融合图像的逼真性损失；
[0032]
使用梯度下降算法进行优化。
[0033]
进一步地，所述神经网络的训练方法采用权利要求5与权利要求6所述的方法进行交替训练。
[0034]
进一步地，所述合成数据集产生的方法包括：
[0035]
从背景图库中随机选择图像作为背景图；
[0036]
背景图的深度信息和分割信息，将经过透视、弯曲等形变的文本，嵌入背景图像中，获得风格图像。
[0037]
从语料库中随机选择词语，并选择字体、颜色将其渲染为内容图像；
[0038]
根据背景图的深度信息和分割信息，选择内容图像的文本，将其透视、弯曲等形变，嵌入背景图像中，作为对应的结果图像。
[0039]
本发明还公开一种场景图文生成系统，包括特征提取模块、特征融合模块以及输出模块，其中：
[0040]
特征提取模块用以从输入的输入图像中提取出文本所在的区域，得到风格图像；
[0041]
特征融合模块用以将给定的文本图像和风格图像进行融合，得到融合图像；
[0042]
输出模块用以将融合图像嵌入到输入图像中，并进行渲染得到输出图像。
[0043]
本发明还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述任一所述的场景图文生成方法。
[0044]
本发明公开的方法和系统中所述模块，在实际应用中，即可以在一台目标服务器上部署多个模块，也可以每一模块独立部署在不同的目标服务器上，特别的，根据需要，为了提供更强大的计算处理能力，也可以根据需要将模块部署到集群目标服务器上。
[0045]
由此可见，本发明采取的技术方案，能够根据文本位置信息，将输入图片中的文字内容替换为其他语种文字内容，同时保留输入图片的文字的风格和背景，并提升了替换效
果。
[0046]
为了对本发明有更清楚全面的了解，下面结合附图，对本发明的具体实施方式进行详细描述。
附图说明
[0047]
为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0048]
图1为本技术实施例的一种场景图文生成方法的流程示意图。
[0049]
图2为本技术实施例神经网络的训练流程示意图。
[0050]
图3为本技术实施例各个步骤的可视化结果示意图。
[0051]
图4为本技术实施例在合成数据集上的对比效果示意图。
[0052]
图5为本技术实施例在真实世界数据集上的对比效果示意图。
具体实施方式
[0053]
本技术根据文本位置信息，将输入图片中的文字内容替换为其他语种文字内容，同时保留输入图片的文字的风格和背景。包括步骤：
[0054]
s1:文本行提取，即从输入的输入图像中提取出文本所在的区域，得到风格图像；
[0055]
s2:文本行风格迁移，即将给定的文本图像和风格图像进行融合，得到融合图像，即完成风格迁移后的文本行图像；
[0056]
s3:场景文本融合，即将融合图像嵌入到输入图像中，并进行渲染得到输出图像。
[0057]
实施例一
[0058]
请参阅图1并结合图3的可视化结果实例，图1为本技术实施例的一种场景图文生成方法的实施流程示意图，图中，“步骤一”即s1，“文本行”即指文本所在的区域，通常选择一个矩形，该矩形包含文本行，“文本行风格图像”即为风格图像，具体如下：
[0059]
s1:从输入的输入图像中提取出文本所在的区域，得到风格图像。
[0060]
本实施例中，原来场景图像包含的文字为“skylight”，而且字体是具有一定的设计风格的，提取出该“skylight”文本行所在的矩形图像，作为风格图像。
[0061]
s2:将给定的文本图像和风格图像进行融合，得到融合图像；
[0062]
使用风格迁移网络学习风格图像的文本风格和背景风格，并把它们迁移到给定文本内容的文本图像(即图一种的内容图像)上，得到同时具有风格图像风格和文本图像中的文本内容的融合图像，作为具体包括s21-s23步骤：
[0063]
s21:背景生成子网提取风格图像的背景特征，得到背景图像，比如可以通过多层卷积神经网络来实现特征抽取。
[0064]
s22:文字迁移子网提取文本图像的内容特征和风格图像的风格特征并将风格特征与内容特征具有相同像素的特征层相加，以达到融合的目的，经解码得到前景图像，提取文本图像的内容特征和风格图像的风格特征可以通过多层卷积神经网络来实现特征抽取。
[0065]
s23:融合子网将背景图像与前景图像进行融合，得到融合图像。
[0066]
本技术可以实现跨语种场景文字风格的迁移，利用现有的已标注大语种 (如中文、英文)公开数据集，根据标注的文本位置信息，将输入图片中的文字内容替换为小语种文字内容，同时保留输入图片的文字的风格和背景，并提升了替换效果。
[0067]
为了更好地实现上述跨语种的风格迁移，作为一种优选的实施方式，基于上述的实施方法应用的神经网络，包括：文字迁移子网、背景生成子网、融合子网，其中：
[0068]
在文字迁移子网用以分离出文本行风格图像中文本的风格特征和内容图像中文本的内容特征，并将他们级联在一起用于产生前景图像；
[0069]
背景生成子网用以提取风格图像的背景特征，得到背景图像；
[0070]
融合子网用以将背景图像与前景图像进行融合，得到融合图像。
[0071]
请参阅图2，图2为本技术实施例神经网络的训练流程示意图。为了更好地发挥神经网络的性能，基于本技术的发明目的和特点，本技术提出了针对本技术实例神经网络的二种训练方法，其损失函数计算步骤包括：
[0072]
准备合成数据集，所述合成数据集包含风格图像、内容图像、以及对应的结果图像，其中，结果图像同时具有内容图像的内容和风格图像的文字风格及背景风格；
[0073]
计算风格迁移的融合图像与结果图像之间像素级别的损失，结合该像素级别的损失与对抗生成网络的优化目标函数，构建目标损失函数；
[0074]
使用梯度下降算法进行优化。
[0075]
另外一种训练方法包括：
[0076]
准备真实场景数据集，所述真实场景数据集包含文本图像以及文本位置和内容的标注信息；
[0077]
将真实场景中的文本行区域作为文字迁移子网的输入，并根据已有的对文本内容的标注，生成与该文本内容相同的文本图像作为文字迁移子网的内容输入；
[0078]
计算文字迁移子网生成的前景图像与输入的风格图像计算像素级别的损失，结合该像素级别的损失与对抗生成网络的优化目标函数，构建目标损失函数；
[0079]
在神经网络中输入语料库中的其他文本行作为内容图像，输入真实场景的图像作为风格图像，经过文本行风格迁移网络的输出结果(即风格迁移后的融合图像)要求在保持原真实场景的背景和风格的同时替换为给定的内容风格。然后，计算输出的风格迁移的融合图像和内容图像在内容特征空间的一致性损失，和风格图像在风格特征空间的一致性损失以及融合图像的逼真性损失。
[0080]
使用梯度下降算法进行优化。
[0081]
此外，为了更好地得到训练结果，本技术的神经网络还可以采用上述二种训练方法进行交替训练，取得更好的训练效果。
[0082]
在训练的过程中，数据集也是影响训练的重要因素。本技术要解决的跨语种，其特点是如中文、英文这种数据，有非常丰富的已经标注的数据集可供使用，而小语种由于使用的人非常少，数据资源非常匮乏。
[0083]
由于跨语种数据集资源的稀缺，很难获得大量的成对的图像用于模型训练，因此，在模型的训练中，需要创建合成数据集。针对本技术在实现的过程中出现的数据资源稀缺的现状，本技术对数据集的准备提出了一种优选的实施方式，即本技术的数据集包括真实数据集和合成数据集。该优选方式包含同时具有输入图像和对应结果图像的合成数据集，
以及只需输入图像及其文本位置和内容信息的真实场景数据集，解决了真实场景数据集无对应风格迁移结果的问题。
[0084]
合成数据集是通过随机选择文本的字体、颜色、几何形变，选择图像作为背景，并将两者结合得到风格图像。同时，随机选择小语种文本用于生成二值内容图像。相对应字体、颜色、几何形变、背景用于生成真值图像。为了使得输出图像更接近于真实场景图像，还需要使用真实世界而数据集。
[0085]
所述合成数据集产生的具体的步骤包括：
[0086]
从背景图库中随机选择背景图；
[0087]
背景图的深度信息和分割信息，将经过透视、弯曲等形变的文本，嵌入背景图像中，获得风格图像。
[0088]
从语料库中随机选择词语，并选择字体、颜色将其渲染为内容图像；
[0089]
根据背景图的深度信息和分割信息，选择内容图像的文本，将其透视、弯曲等形变，嵌入背景图像中，作为对应的结果图像。
[0090]
基于本技术提出的技术方案，经过测试，在小语种阿拉伯语、泰语和越南语上进行实验。选择了超过100中字体和8000张背景图用于训练模型，在每一种字体中，都包含有小语种字符(本文以阿拉伯语、泰语和越南语为例)和英文字符。
[0091]
为了体现本发明的进步性，本发明与srnet、pix2pix两种方法进行了定量与定性的比较。在定量比较上本发明采用了mse、psnr和ssim用于衡量不同方法之间的生成效果。mse越小，psnr和ssim越大证明生成图片的效果越好。
[0092]
通过对三种方法在测试集上进行测试，并将评价的结果比较如下：
[0093][0094]
同时，如图4和图5所示，本方法生成的结果在视觉上优于srnet生成结果。
[0095]
由此可见，本技术取得的技术效果如下：
[0096]
实施例二
[0097]
基于上述实施例，本技术提出的一种场景图文生成系统，包括：特征提取模块、特征融合模块以及输出模块，其中：
[0098]
特征提取模块用以从输入的输入图像中提取出文本所在的区域，得到风格图像；
[0099]
特征融合模块用以将给定的文本图像和风格图像进行融合，得到融合图像；
[0100]
输出模块用以将融合图像嵌入到输入图像中，并进行渲染得到输出图像。
[0101]
本技术实施例还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述任一所述的场景图文生成方法。
[0102]
需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(rom，read only memory)、随机存取存储器(ram， random access memory)、磁盘或光盘等。
[0103]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据库查询优化方法、装置、设备及计算机可读存储介质与流程

一种场景图文生成方法和系统

相关文献

最热文献