文字生成方法、网络训练方法、装置、设备及存储介质与流程

2022-06-16 00:24:10 来源：中国专利 TAG：

1.本技术属于计算机技术领域，具体涉及一种文字生成方法、网络训练方法、装置、设备及存储介质。

背景技术：

2.相关技术中，通常从某一种字体的文字子集中，学习到这种字体的风格表示，进而生成新字体对应的整套文字。
3.然而，相关技术需要预先设置这种新字体下的部分文字，然后将这些文字输入到文字生成模型中学习风格特征，之后从模型中得到其他文字结果，最终得到新字体对应的整套文字，文字生成的过程会消较多的系统资源，导致文字生成的成本较高。且相关技术中的文字生成模型容易出现笔画缺失或笔画粘连问题，导致文字生成的质量较低。

技术实现要素：

4.为了解决上述技术问题，本技术提供一种文字生成方法、网络训练方法、装置、设备及存储介质。
5.一方面，本技术提出了一种文字生成方法，所述方法包括：
6.从待处理文字集中获取字体风格信息不同的至少两种候选文字；
7.基于字体风格编码网络生成所述至少两种候选文字各自对应的字体风格信息；
8.基于文字生成网络，生成所述字体风格信息和文字内容信息对应的目标文字；所述文字内容信息表征所述待处理文字集中的文字的内容；
9.其中，所述字体风格编码网络和所述文字生成网络为对预设神经网络进行文字生成训练得到，所述文字生成训练过程中所使用到的样本字体风格信息的隐空间被约束为正态分布。
10.另一方面，本技术提供了一种文字生成的网络训练方法，所述方法包括：
11.从样本文字集中提取第一样本文字和第二样本文字；
12.基于所述第一样本文字的样本字体风格信息和所述第二样本文字的样本文字内容信息，对预设神经网络进行文字生成训练，在所述文字生成训练过程中，将所述样本字体风格信息的隐空间约束为正态分布，得到字体风格编码网络和文字生成网络。
13.另一方面，本技术实施例提供了一种文字生成装置，所述装置包括：
14.文字获取模块，用于从待处理文字集中获取字体风格信息不同的至少两种候选文字；
15.字体风格信息生成模块，用于基于字体风格编码网络生成所述至少两种候选文字各自对应的字体风格信息；
16.目标文字生成模块，用于基于文字生成网络，生成所述字体风格信息和文字内容信息对应的目标文字；所述文字内容信息表征所述待处理文字集中的文字的内容；
17.其中，所述字体风格编码网络和所述文字生成网络为对预设神经网络进行文字生
成训练得到，所述文字生成训练过程中所使用到的样本字体风格信息的隐空间被约束为正态分布。
18.另一方面，本技术提供了一种文字生成的网络训练装置，所述装置包括：
19.样本文字获取模块，用于从样本文字集中提取第一样本文字和第二样本文字；
20.训练模块，用于基于所述第一样本文字的样本字体风格信息和所述第二样本文字的样本文字内容信息，对预设神经网络进行文字生成训练，在所述文字生成训练过程中，将所述样本字体风格信息的隐空间约束为正态分布，得到字体风格编码网络和文字生成网络。
21.另一方面，本技术提出了一种电子设备，所述电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的文字生成方法或文字生成的网络训练方法。
22.另一方面，本技术提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的文字生成方法或文字生成的网络训练方法。
23.另一方面，本技术提出了一种计算机程序产品，包括计算机程序，所述计算机程被处理器执行时实现如上述所述的文字生成方法或文字生成的网络训练方法。
24.本技术实施例提出的文字生成方法、网络训练方法、装置、设备及存储介质，使用训练好的字体风格编码网络生成该至少两种候选文字各自对应的字体风格信息，以及使用训练好的文字生成网络，生成该字体风格信息和文字内容信息对应的目标文字，由于样本字体风格信息的隐空间在训练过程中被约束为正态分布，从而压缩了字体风格信息，拉近了不同字体风格信息之间的间距，使得风格隐空间的变化更加平滑，避免网络遭遇间断点，从而提高了目标文字的生成质量；此外，使用训练好的字体风格编码网络和文字生成网络，还可以减少目标文字生成过程对系统资源的消耗，从而降低目标文字的生成成本。
附图说明
25.为了更清楚地说明本技术实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。
26.图1是根据一示例性实施例示出的一种文字生成方法的实施环境示意图。
27.图2是根据一示例性实施例示出的一种文字生成方法的流程示意图。
28.图3是根据一示例性实施例示出的一种对风格和内容进行标准化处理的流程图。
29.图4是根据一示例性实施例示出的一种文字生成的网络训练方法的流程图。
30.图5是根据一示例性实施例示出的一种预设神经网络示意图。
31.图6是根据一示例性实施例示出的一种训练得到的格编码网络和文字生成网络的流程图。
32.图7是根据一示例性实施例示出的一种得到样本字体风格信息的示意图。
33.图8是根据一示例性实施例示出的一种对样本字体风格信息和样本文字内容信息进行标准化处理的示意图。
34.图9是根据一示例性实施例示出的采用本技术实施例的文字生成方法生成的目标文字的示意图。
35.图10是根据一示例性实施例示出的融合效果对比图。
36.图11是根据一示例性实施例示出的通过字体相似度检测模型对目标文字的字体进行检测，所得到的相似字体的示意图。
37.图12是根据一示例性实施例示出的一种文字生成装置。
38.图13是根据一示例性实施例示出的一种文字生成的网络训练装置。
39.图14是本技术实施例提供的一种文字生成或文字生成的网络训练的服务器的硬件结构框图。
具体实施方式
40.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
41.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
42.具体地，本技术实施例涉及深度学习中的人工神经网络技术。
43.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
44.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
45.图1是根据一示例性实施例示出的一种文字生成方法的实施环境示意图。如图1所示，该实施环境至少可以包括终端01和服务器02，该终端01和服务器02之间可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
46.具体地，该终端可以用于采集待处理文字集和样本文字集。可选地，该终端01可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本技术实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
47.具体地，该服务器02可以用于训练字体风格编码网络和文字生成网络，并基于该字体风格编码网络和文字生成网络生成目标文字。可选地，该服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
48.需要说明的是，图1仅仅是一种示例。在其他场景中，还可以包括其他实施环境，例如，该实施环境可以包括终端，通过终端训练得到字体风格编码网络和文字生成网络，并基于该字体风格编码网络和文字生成网络生成目标文字。
49.图2是根据一示例性实施例示出的一种文字生成方法的流程示意图。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，该方法可以包括：
50.s101.从待处理文字集中获取字体风格信息不同的至少两种候选文字。
51.具体地，该字体风格信息可以包括但不限于：楷体、宋体、方正卡通、黑体、华文行楷、方正桃体等。可选地，该待处理文字集中可以包括各种字体风格信息的所有文字。例如包含了楷体的所有文字、宋体的所有文字、方正卡通的所有文字等。
52.本技术实施例中，可以采用多种方式从待处理文字集中获取字体风格信息不同的至少两种候选文字，在此不做具体限定。
53.在一种方式中，可以将该处理文字集中的文字按照字体风格信息进行分类，得到多个字体风格信息类别，每个字体风格信息类别均对应多个文字。可以从多个字体风格信息类别中确定出至少两个候选字体风格信息类别，并从该至少两个候选字体风格信息类别对应的文字中，分别抽取出一个文字，得到至少两种候选文字。例如，可以从多个字体风格信息类别中确定出楷体类别和宋体类别，楷体类别对应多个文字，宋体类别对应多个文字，从楷体类别对应的多个文字中抽取一个文字，并从宋体类别对应的多个文字抽取一个文字，得到至少两种候选文字。
54.在另一种方式中，还可以从该至少两个候选字体风格信息类别对应的文字中，分别抽取出预设数量个文字，得到至少两种候选文字。例如，可以从多个字体风格信息类别中确定出楷体类别和宋体类别，楷体类别对应多个文字，宋体类别对应多个文字，从楷体类别对应的多个文字抽取预设数量个文字，并从楷体类别对应的多个文字抽取预设数量个文字，得到至少两种候选文字。
55.s103.基于字体风格编码网络生成上述至少两种候选文字各自对应的字体风格信息。
56.s105.基于文字生成网络，生成上述字体风格信息和文字内容信息对应的目标文字；上述文字内容信息表征上述待处理文字集中的文字的内容。
57.其中，上述字体风格编码网络和上述文字生成网络为对预设神经网络进行文字生成训练得到，上述文字生成训练过程中所使用到的样本字体风格信息的隐空间被约束为正态分布。
58.示例性地，该文字内容信息可以是文字内容的空间信息，例如，文字的笔画结构。
59.示例性地，该隐空间(latent space)可以指的是隐变量(例如，噪声z)所在的空间，隐空间约束可以理解为对隐空间的隐向量进行约束，通过在训练过程中对样本字体风格信息的隐空间进行约束，使得在文字生成过程中，能够生成质量和效果较好的文字。
60.在一个具体的实施例中，在上述步骤s103中，可以将至少两种候选文字，输入预先训练好的字体风格编码网络中，通过该字体风格编码网络分别对至少两种候选文字进行特征提取，得到至少两种候选文字各自对应的字体风格信息。例如，通过预先训练好的编码网络，提取出的至少两种候选文字各自对应的字体风格信息分别为楷体和宋体。
61.可选地，本技术实施例可以采用多种方式生成上述至少两种候选文字各自对应的字体风格信息，在此不做具体限定。
62.在一种方式中，在上述步骤s103中，上述基于字体风格编码网络生成上述至少两种候选文字各自对应的字体风格信息，可以包括：基于上述字体风格编码网络将上述至少两种候选文字映射到上述正态分布中，得到上述至少两种候选文字各自对应的字体风格信息。
63.由于样本字体风格信息的隐空间在上述文字生成训练过程中被约束为正态分布，因此，在将至少两种候选文字输入到字体风格编码网络之后，可以由字体风格编码网络将该至少两种候选文字映射到该正态分布中，从该正态分布中提取出该至少两个候选文字各自对应的风格特征向量，实现至少两种候选文字各自对应的风格特征向量的提取，得到该至少两种候选文字各自对应的字体风格信息。由于样本字体风格信息的隐空间被约束为正态分布，从而在字体风格信息提取过程中，压缩了字体风格信息，拉近了至少两种候选文字各自对应的不同字体风格信息之间的间距，使得风格隐空间的变化更加平滑，避免网络遭遇间断点，从而提高了字体风格信息的生成质量，进而提高了目标文字的生成质量。
64.在一个具体的实施例中，在上述步骤s105中，可以从待处理文字集中提取出文字的内容，作为文字内容信息，并将该文字内容信息和字体风格信息输入到预先训练好的文字生成网络，生成目标文字。其中，文字生成网络可以包含两个分支：风格分支和内容分支，风格分支输入是字体风格编码网络得到的字体风格信息，而内容分支输入的是文字内容信息。
65.在一种方式中，可以从待处理文字集中依次提取出每个文字的文字内容信息，并依次遍历每个文字的文字内容信息，得到每个文字的文字内容信息和字体风格信息对应的目标文字。
66.在另一种方式中，还可以从待处理文字集中提取出所有文字的文字内容信息，并行遍历所有文字的文字内容信息，得到所有文字的文字内容信息和字体风格信息对应的目标文字。
67.在一个可选的实施例中，上述方法还可以包括：基于上述字体风格编码网络，计算上述字体风格信息的平均值，得到目标字体风格信息。
68.相应地，在上述步骤s105中，上述基于文字生成网络，生成上述字体风格信息和文字内容信息对应的目标文字，可以包括：基于上述文字生成网络，生成上述目标字体风格信息和上述文字内容信息对应的上述目标文字。
69.具体地，由于输入到字体风格编码网络中的是至少两种候选文字，对于每个候选
文字，字体风格编码网络均会输出一个字体风格信息，因此，可以求得至少两种候选文字对应的字体风格信息的均值，得到目标字体风格信息，该目标字体风格信息可以理解为新的风格特征，即该目标文字风格特征与待处理文字集中的文字所对应的字体风格信息均不相同。示例性地，由于文字可以当做图像来处理，且图像的风格信息通常由均值和方差表示，上述求至少两种候选文字对应的字体风格信息的均值，可以理解为求至少两种候选文字对应的图像的均值。
70.相应地，在得到该目标字体风格信息之后，可以将该目标字体风格信息和该文字内容信息输入到该文字生成网络，得到该文字内容信息和该目标字体风格信息对应的目标文字。本技术实施例中，通过计算至少两种候选文字各自对应的字体风格信息的平均值，可以得到新的风格特征(即目标字体风格信息)，目标字体风格信息生成的准确率较高。将该准确率较高的目标字体风格信息和文字内容信息输入到文字生成网络，能够提高目标文字的生成质量；此外，通过文字生成网络即可生成该目标字体风格信息对应的整套新文字(即目标文字)，无需预先设置某种新字体下的部分文字，可以降低目标文字生成过程对系统资源的消耗，从而降低目标文字的生成成本。
71.图3是根据一示例性实施例示出的一种对风格和内容进行标准化处理的流程图。如图3所示，在一个可选的实施例中，上述方法还可以包括：
72.s201.解耦上述字体风格信息。
73.s203.对解耦后的字体风格信息进行标准化处理，得到标准字体风格信息。
74.s205.对上述文字内容信息进行标准化处理，得到标准文字内容信息。
75.相应地，在上述步骤s105中，上述基于文字生成网络，生成上述字体风格信息和文字内容信息对应的目标文字，可以包括：
76.基于上述文字生成网络，生成上述标准字体风格信息和上述标准文字内容信息对应的上述目标文字。
77.在一个可选的实施例中，文字生成网络的结构可以为spade adain结构。其中，spade是一种将分割图转换为实景图的生成模型，其作为主干网络，可以更好地保留文字的结构信息。adain为adaptive instance normalization的缩写，中文名称为自适应实例归一化。
78.示例性地，在上述步骤s201-s203中，可以将字体风格信息输入到多层感知器(multi-layerperceptron，mlp)中进行解耦，并将解耦后的字体风格信息通过adain的方式进行标准化处理，得到标准化处理后的标准字体风格信息，即将解耦后的风格以adain的方式输入到网络的各层中，通过控制特征统计信息的方式控制生成图像的风格。其中，mlp是一种前向结构的人工神经网络。示例地，解耦可以指的是：对风格本身的解耦，比如说笔画粗细，笔锋等等。
79.本技术实施例中的字体风格信息在多层全连接层后被解耦，之后被送入网络的各层中，通过这种方式，文字生成网络可以从多种语义层级提取字体风格信息。
80.在文字生成中，内容分支保留了文字的笔画结构。文字的笔画结构(即文字内容信息)是一个关键因素。示例性地，在上述步骤s205中，可以将文字的笔画结构以空间自适应实例归一化(spatialadaptivenormalization，spatialadain)的形式进行标准化处理，得到标准文字内容信息，即将文字的笔画结构以spatialadain的形式插入到文字生成网络
中，通过该方式更好地保留了文字的笔画结构，即保留了原始分割的空间信息)，提高了目标文字的生成质量。
81.图4是根据一示例性实施例示出的一种文字生成的网络训练方法的流程图。如图4所示，该方法可以包括：
82.s301.从样本文字集中提取第一样本文字和第二样本文字。
83.可选地，该第一样本文字可以为样本文字集或单个文字，该第二样本文字也可以为样本文字集或单个文字。
84.示例性地，对于样本文字集中的任意文字x
ij
，其包含风格属性si∈s和内容属性cj∈c。为了表示一种风格，可以从样本文字集中风格为si的字体中，取出k个文字，构成此风格的参考集合即第一样本文字。其中，即第一样本文字。其中，ds是风格嵌入的维度，k为大于或等于1的正整数。
85.示例性地，为了表示内容属性cj，可以从样本文字集中取出一些文字构成内容参考集合即第二样本文字。
86.如果选取不同风格、同一内容的文字作为内容参考集合，会增大网络学习内容的难度，这是因为不同风格的文字在位置和笔画形态上有很大的差异，网络很难从中抽象出正确的笔画结构。因此，在一个示例性的实施方式中，为了降低网络学习内容的难度，可以从样本文字集中选取字体风格信息为宋体的样本文字作为第二样本文字，由于宋体是一种标准字体，有利于模型学习字体结构。更进一步地，为了进一步降低网络学习内容的难度，还可以从样本文字集中选取单个宋体，即中的文字，作为第二样本文字。
87.s303.基于上述第一样本文字的样本字体风格信息和上述第二样本文字的样本文字内容信息，对预设神经网络进行文字生成训练，在上述文字生成训练过程中，将上述样本字体风格信息的隐空间约束为正态分布，得到字体风格编码网络和文字生成网络。
88.本技术实施例中，可以将第一样本文字的样本字体风格信息和上述第二样本文字的样本文字内容信息输入预设神经网络进行文字生成训练，并在上述文字生成训练过程中，将上述样本字体风格信息的隐空间约束为正态分布，从而得到字体风格编码网络和文字生成网络。由于在训练过程中，样本字体风格信息的隐空间被约束为正态分布，从而压缩了字体风格信息，拉近了不同字体风格信息之间的间距，使得风格隐空间的变化更加平滑，避免网络遭遇间断点，提高字体风格编码网络和文字生成网络的训练精度；此外，基于第一样本文字的样本字体风格信息和第二样本文字的样本文字内容信息，对预设神经网络进行文字生成训练，即可得到字体风格编码网络和文字生成网络，训练过程中对系统资源的消耗较少，从而降低网络的训练难度和成本。
89.图5是根据一示例性实施例示出的一种预设神经网络示意图。如图5所示，该预设神经网络可以包括预设字体风格编码网络、预设文字生成网络和预设判别网络，该预设神经网络整体上是一个生成对抗网络(generative adversarial nets，gan)的结构。此外，预设神经网络使用spatialadain和adain的方式，分别向生成器的各层输入样本文字内容信息的空间信息和不同层次的样本字体风格信息。
90.以下，对使用图5中的预设神经网络训练字体风格编码网络和文字生成网络的过程进行说明：
91.假设，第一样本文字为“方正卡通”的“公，
…
，们，政”，其用于表示“方正卡通”这种字体风格信息，第二样本文字为宋体“的”，其用于表示“的”这种文字内容，将第一样本文字输入预设风格编码网络，得到样本字体风格信息，将样本字体风格信息以adain的方式输入预设文字生成网络，并将第二样本文字的样本文字内容信息以spatialadain的形式插入预设文字生成网络，由预设文字生成网络输出“方正卡通”下的文字“的”(即参考文字)，通过预设判别器网络判别该训练输出的参考文字与样本文字集中的“方正卡通”下的文字“的”(即参考文字)，得到损失信息，在训练过程中不断调整网络的参数，直至损失信息满足预设条件时停止训练过程，得到训练好的字体风格编码网络和文字生成网络。
92.图6是根据一示例性实施例示出的一种训练得到的格编码网络和文字生成网络的流程图。如图6所示，在上述s303中，上述基于上述第一样本文字的样本字体风格信息和上述第二样本文字的样本文字内容信息，对预设神经网络进行文字生成训练，在上述文字生成训练过程中，将上述样本字体风格信息的隐空间约束为正态分布，得到字体风格编码网络和文字生成网络，可以包括：
93.s3031.基于上述预设字体风格编码网络将上述第一样本文字映射到最新正太分布中，得到当前样本字体风格信息。
94.可选地，在上述步骤s3031中，该预设字体风格编码网络可以为前向传播网络，即前向传播网络将第一样本文字(即风格参考集合rs)作为输入，输出当前样本字体风格信息(即风格嵌入向量)。
95.示例性地，该风格嵌入向量zs可以是随机采样得到的。该前向传播网络，可以将风格参考集合rs映射到最新正太分布中，输出两个向量和上述两个向量表示多元正态分布n(μs,σs)的参数μs和σs。
96.s3033.基于上述预设字体风格编码网络对标准正态分布和上述当前样本字体风格信息进行处理，得到上述样本字体风格信息。
97.本技术实施例中，在上述步骤s3033中，预设字体风格编码网络可以使得当前样本字体风格信息向多元标准正态分布看齐，从而得到该样本字体风格信息。
98.图7是根据一示例性实施例示出的一种得到样本字体风格信息的示意图。如图7所示，在上述步骤s3033中，上述基于上述预设字体风格编码网络对标准正态分布和上述当前样本字体风格信息进行处理，得到上述样本字体风格信息，可以包括：
99.s30331.基于上述预设字体风格编码网络，从上述标准正态分布中随机获取与上述当前样本字体风格信息对应的特征向量。
100.s30333.基于上述预设字体风格编码网络，通过上述特征向量和上述当前样本字体风格信息之间的差异信息，对上述最新正太分布进行更新，将更新后的最新正太分布重新作为上述最新正太分布。
101.s30335.基于上述预设字体风格编码网络，在上述将上述第一样本文字映射到最新正太分布中，得到当前样本字体风格信息，和上述将更新后的最新正太分布重新作为上述最新正太分布之间重复，直至上述差异信息满足预设条件时停止。
102.s30337.基于上述预设字体风格编码网络将上述差异信息满足预设条件时的当前样本字体风格信息，作为上述样本字体风格信息。
103.示例性地，在上述步骤s30331中，在训练时，为了使得当前样本字体风格信息(即风格嵌入向量)向多元标准正态分布看齐，预设字体风格编码网络可以从标准正态分布中随机确定一个与该当前样本字体风格信息对应的特征向量。在上述步骤s20333-s20337中，该预设编码网络可以计算该特征向量和上述当前样本字体风格信息之间的差异信息，并将该差异信息作为分布损失值，基于该分布损失值可以对预设字体风格编码网络中的最新正太分布进行调整更新，以使最新正太分布被不断调整为能够用于得到质量较高的样本字体风格信息，即最新正太分布被不断调整使得差异信息满足预设条件，并将差异信息满足预设条件时的当前样本字体风格信息，作为该样本字体风格信息。
104.在一种方式中，可以对预设风格编码器施加如下约束：
[0105][0106]
其中，n表示多元正态分布，kl指kl散度，kl散度是一种衡量两个概率分布的匹配程度的指标，两个分布差异越大，kl散度越大。
[0107]
相应地，在上述步骤s30333中，可以计算特征向量和上述当前样本字体风格信息之间的kl散度，并基于该kl散度对预设字体风格编码网络中的最新正太分布进行调整更新，以使最新正太分布被不断调整为能够用于得到质量较高的样本字体风格信息，即最新正太分布被不断调整使得kl散度小于预设散度阈值，并将kl散度小于预设散度阈值时的当前样本字体风格信息，作为该样本字体风格信息。
[0108]
在另一种方式中，在上述步骤s30333中，还可以利用最大平均差异算法，计算特征向量和上述当前样本字体风格信息之间的差异信息。其中，最大平均差异算法用于衡量两个分布之间的差异。
[0109]
本技术实施例中，通过对预设字体风格编码网络施加约束，使得当前样本字体风格信息(风格嵌入向量zs)从多元标准正态分布中采样，因此风格嵌入向量zs的各个维度都在0均值附近，而不会在这个空间里任意选取，从而压缩了风格嵌入zs的空间，拉近了不同风格之间的间距，使得风格隐空间的变化更加平滑，避免网络遭遇间断点，从而提高了字体风格编码网络的训练精度。
[0110]
s3035.基于上述预设文字生成网络，生成上述样本字体风格信息和上述样本文字内容信息对应的当前文字。
[0111]
本技术实施例中，给定样本字体风格信息(风格si)和样本文字内容(内容cj)，预设文字生成网络的目标是生成对应风格和内容的文字x
ij
。预设文字生成网络的输入包括两个分支：内容分支和风格分支，风格分支的输入是预设字体风格编码网络得到的样本字体风格信息(即风格嵌入)，而内容分支输入的是内容文字图像，因而预设文字生成网络生成的当前文字
[0112]
s3037.基于上述预设判别网络，对上述当前文字、参考文字、上述样本字体风格信息和上述样本文字内容信息进行判别处理，得到损失信息。
[0113]
s3039.基于上述损失信息训练上述预设字体风格编码网络和上述预设文字生成网络，得到上述字体风格编码网络和上述文字生成网络；上述参考文字表征上述样本文字内容信息在上述样本字体风格信息下的文字。
[0114]
预设判别网络是gan的一个重要组成部分，它的目标是判别给定的当前文字是不是足够真实，如果是真实的，则预设判别网络要为当前文字打高分，否则打低分。在训练时，预设判别网络通常认为预设文字生成网络生成的当前文字不够真实，而只有样本文字集中的参考字体是真实的。这样，预设文字生成网络为了骗过预设判别网络，只能生成更加真实的图像。预设文字生成网络和预设判别网络在这样的零和博弈中不断提高自己的能力，最终，预设文字生成网络生成的当前文字接近参考文字，这样就可以训练得到一个质量较高的文字生成网络。
[0115]
预设文字生成网络的目的是骗过预设判别网络，即预设文字生成网络没有直接的监督信息，而是依靠预设判别网络提供监督信息。在一个可选的实施例中，预设判别网络可以使用2个结构相同的预设判别网络d1,d2，判别不同尺寸的图像，小尺寸的图像可以使得预设判别网络拥有更大的感受野，而大尺寸的图像使得预设判别网络更关注细节，也能在一定程度上避免过拟合的问题。
[0116]
在一个具体的实施例中，对于每一个判别网络，可以使用铰链损失函数(hinge loss)作为gan的损失函数：
[0117][0118]
其中，g、d、e分别指的是预设文字生成网络、预设判别网络和预设字体风格编码网络，k指的是预设判别网络的数量。
[0119]
在一个示例性的实施例中，为了让预设判别网络能够区分字体的内容和风格，挺高网络质量，在s3037中，除了当前文字和参考文字之外，预设判别网络的输入还可以包括样本字体风格信息和样本文字内容信息。
[0120]
在另一个示例性的实施例中，为了稳定训练过程，还可以使用特征匹配损失(feature matching loss，)，对齐当前文字和参考文字在预设判别网络各层中的特征(feature)，令表示输入文字x在第k个判别器，第i层的feature，则feature matching loss可表示为：
[0121][0122]
其中，t表示预设判别网络的卷积层数量，n
t
表示预设判别网络第t层feature的元素数量。
[0123]
综上所述，在构建好预设神经网络的各个部分后，整个预设神经网络总的优化目标为：
[0124][0125]
其中，超参数λ
fm
＝10,λ
vae
＝0.05，g、d、e分别指的是预设文字生成网络、预设判别网络和预设字体风格编码网络。
[0126]
本技术实施例的预设神经网络可以包括预设字体风格编码网络、预设文字生成网络和预设判别网络，通过该预设字体风格编码网络将样本字体风格信息的隐空间约束为正态分布，从而压缩了字体风格信息，拉近了不同字体风格信息之间的间距，使得风格隐空间的变化更加平滑，避免网络遭遇间断点，从而提高了字体风格编码网络和文字生成网络的训练精度，降低了训练成本和难度；此外，通过预设文字生成网络，生成样本字体风格信息和样本文字内容信息对应的当前文字，并通过预设判别网络，对当前文字、参考文字、样本字体风格信息和样本文字内容信息进行判别处理，得到损失信息，并以该损失信息为基础，训练得到字体风格编码网络和文字生成网络，进一步提高了字体风格编码网络和文字生成网络的训练精度，降低了训练成本。
[0127]
图8是根据一示例性实施例示出的一种对样本字体风格信息和样本文字内容信息进行标准化处理的示意图。如图8所示，在一个可选的实施例中，上述方法还可以包括：
[0128]
s401.解耦上述样本字体风格信息。
[0129]
s403.对解耦后的样本字体风格信息进行标准化处理，得到标准样本字体风格信息。
[0130]
s405.对上述样本文字内容信息进行标准化处理，得到标准样本文字内容信息。
[0131]
相应地，在上述步骤s3035中，上述基于上述预设文字生成网络，生成上述样本字体风格信息和上述样本文字内容信息对应的当前文字，包括：
[0132]
基于上述预设文字生成网络，生成上述标准样本文字内容信息和上述标准样本字体风格信息对应的上述当前文字。
[0133]
在一个可选的实施例中，继续如图5所示，预设文字生成网络的结构可以为spade adain结构。其中，spade一种将分割图转换为实景图的生成模型，其作为主干网络，可以更好地保留文字的结构信息。
[0134]
示例性地，在上述步骤s401-s403中，可以将样本字体风格信息输入到ml中进行解耦，并将解耦后的样本字体风格信息通过adain的方式进行标准化处理，得到标准化处理后的标准样本字体风格信息，并将解耦后的风格以adain的方式输入到网络的各层中，通过控制特征统计信息的方式控制生成图像的风格。字体风格信息在多层全连接层后被解耦，之后被送入网络的各层中，通过这种方式，预设文字生成网络可以从多种语义层级提取字体风格信息。此外，spade使用adain作为标准化方法，可以很好地保留原始分割的空间信息。即通过spade adain的生成器的结构，能够提升字体融合的质量。
[0135]
在文字生成过程中，内容分支保留了文字的笔画结构。文字的笔画结构(即文字内容信息)是一个关键因素。示例性地，在上述步骤s405中，可以将样本文字内容信息以spatialadain的形式插入到网络中，以对样本文字内容信息进行标准化处理，得到标准样本文字内容信息，从而保留了文字的笔画结构(即原始分割的空间信息)，提高了当前文字的生成质量。
[0136]
在一个具体的实施例中，通过adain的方式进行标准化处理的具体过程可以如下：
[0137]
adain接收一个内容输入x和一个风格输入s，通过将x的通道级(c)均值和标准差对齐匹配到s上以实现标准化。adain无需学习的仿射参数，其能够自适应地从style输入中计算仿射参数，计算公式如下：
[0138]
adain(x,s)＝σ(s)(σ(x)x-μ(x)) μ(s)，
[0139]
其中，adain中的in指的是：对每一个样本(n)的每一个特征通道(c)，在空间(h,w)计算均值和标准差。
[0140]
在一个具体的实施例中，通过spatial adain的方式进行标准化处理的具体过程可以如下：
[0141]
spatialadain与adain类似，均没有需要学习的放射参数，是一种自适应的标准化方法。特别地，spatialadain统计的均值和标准差是像素级别的，而不是通道级别的。像素级别的统计量可以提高模型的复杂度，也可以更好地保留图像的空间信息，从而更好地保持文字的笔画结构。
[0142]
在一个可行的实施例中，还可以将低分辨率的样本文字内容信息作为预设文字生成网络的输入。从低分辨率的文字出发，预设文字生成网络只需要根据风格略微调整各个笔画的位置、粗细等细节，就可以生成对应风格的文字，大大降低了文字生成的难度。
[0143]
在一个可行的实施例中，本技术实施例还提供了一种字体质量检测模型和字体相似度检测模型，用来衡量生成的目标文字的字体质量和创新程度。
[0144]
示例性地，字体质量检测模型主要用于评价字体是否完整、是否出现难以辨识等问题，该字体质量检测模型可以为一个二分类的文字质量评价模型，数据集的正样本是模型生成的高质量文字和真实文字，负样本是模型生成的低质量文字，测试显示该模型的分类正确率为93％，具有较强的质量分辨能力。进一步地，为了避免生成文字与训练文字过于相似，还可以训练一个字体相似度检测模型，用于评价生成文字的字体与训练文字的字体的相似度，评价指标可以为余弦相似度(cosine similarity)。
[0145]
在一个具体的实施例中，可以选取预设数量个字体风格，每种字体包含预设数量个常用字符(内容)，作为样本文字集。并按照上述训练过程对该样本文字集进行训练。图9是根据一示例性实施例示出的采用本技术实施例的文字生成方法生成的目标文字的示意图。如图9所示，采用本技术实施例提供的字体风格编码网络和文字生成网络可以生成风格各异的文字，包括方正平直的文字、笔画抽象具有艺术效果的文字以及粗细程度各不相同的文字，并且同一种文字能保持自身的风格。在保证了风格多样性的前提下，生成的文字完整性好，质量较高，基本不会出现笔画缺失和合并的问题。
[0146]
在一个可行的实施例中，还可以训练一个经验模态分解模型(empirical mode decomposition，emd)，并通过该emd来生成文字。表1是采用emd生成的文字与采用本技术实施例中的方法生成的目标文字之间的融合效果对比表。图10是根据一示例性实施例示出的融合效果对比图。
[0147]
如表1所示，采用本技术实施例中的方法生成的目标文字的融合效果更好。其中，fid是frechet inception distance score的缩写，中文名称为距离得分。良品率指的是生成的质量较好的文字，与生成的总文字之间的比值。
[0148]
表1融合效果对比
[0149]
模型fid
↓
良品率
↑
emd32.6663.30％本技术28.1091.49％
[0150]
如图10所示，emd融合的文字容易出现笔画缺失、笔画合并等字体不完整的问题，例如第一行的“真”字缺少了一横，而“练”和“解”字出现了笔画合并进而导致生成了错别
字。而采用本技术实施例生成的目标子图，很少出现笔画缺少和合并的问题，能很好地保留文字的结构，极少出现错字，大大提升了字体的质量。
[0151]
图11是根据一示例性实施例示出的通过字体相似度检测模型对目标文字的字体进行检测，所得到的相似字体的示意图。如图11所示，从前三行可以看到，生成的目标文字的字体与训练集中的文字的字体(即图11中的最相近字体和次相近字体)有明显的风格差异。然而，第四行展示的文字的字体与字库中的文字的字体高度相似，可以自动地过滤掉该文字，以筛除不合适的文字，进一步提高了目标文字生成的质量。
[0152]
在一个可行的实施例中，如本技术所公开的文字生成方法、文字生成的网络训练方法，其中字体风格信息、文字内容信息等可保存于区块链上。
[0153]
图12是根据一示例性实施例示出的一种文字生成装置。如图12所示，该装置可以至少包括：
[0154]
文字获取模块501，可以用于从待处理文字集中获取字体风格信息不同的至少两种候选文字。
[0155]
字体风格信息生成模块503，可以用于基于字体风格编码网络生成上述至少两种候选文字各自对应的字体风格信息。
[0156]
目标文字生成模块505，可以用于基于文字生成网络，生成上述字体风格信息和文字内容信息对应的目标文字；上述文字内容信息表征上述待处理文字集中的文字的内容。
[0157]
其中，上述字体风格编码网络和文字生成网络为对预设神经网络进行文字生成训练得到，文字生成训练过程中所使用到的样本字体风格信息的隐空间被约束为正态分布。
[0158]
在一示例性的实施方式中，上述字体风格信息生成模块503，可以用于基于上述字体风格编码网络将上述至少两种候选文字映射到上述正态分布中，得到上述至少两种候选文字各自对应的字体风格信息。
[0159]
在一示例性的实施方式中，上述装置还可以包括：
[0160]
目标字体风格信息确定模块，可以用于基于上述字体风格编码网络，计算上述字体风格信息的平均值，得到目标字体风格信息。
[0161]
相应地，上述目标文字生成模块505，可以用于基于上述文字生成网络，生成上述目标字体风格信息和上述文字内容信息对应的上述目标文字。
[0162]
在一示例性的实施方式中，上述装置还可以包括：
[0163]
第一解耦模块，可以用于解耦上述字体风格信息。
[0164]
第一标准化处理模块，可以用于对解耦后的字体风格信息进行标准化处理，得到标准字体风格信息。
[0165]
第二标准化处理模块，可以用于对上述文字内容信息进行标准化处理，得到标准文字内容信息。
[0166]
相应地，上述目标文字生成模块505，可以用于基于上述文字生成网络，生成上述标准字体风格信息和上述标准文字内容信息对应的上述目标文字。
[0167]
图13是根据一示例性实施例示出的一种文字生成的网络训练装置。如图13所示，该装置还可以包括：
[0168]
样本文字获取模块601，用于从样本文字集中提取第一样本文字和第二样本文字。
[0169]
训练模块603，用于基于上述第一样本文字的样本字体风格信息和上述第二样本
文字的样本文字内容信息，对预设神经网络进行文字生成训练，在上述文字生成训练过程中，将上述样本字体风格信息的隐空间约束为正态分布，得到字体风格编码网络和文字生成网络。
[0170]
在一示例性的实施方式中，上述预设神经网络包括预设字体风格编码网络、预设文字生成网络和预设判别网络，上述训练模块603，可以包括：
[0171]
映射单元，可以用于基于上述预设字体风格编码网络将上述第一样本文字映射到最新正太分布中，得到当前样本字体风格信息。
[0172]
样本字体风格信息生成单元，可以用于基于上述预设字体风格编码网络对标准正态分布和上述当前样本字体风格信息进行处理，得到上述样本字体风格信息。
[0173]
当前文字生成单元，可以用于基于上述预设文字生成网络，生成上述样本字体风格信息和上述样本文字内容信息对应的当前文字。
[0174]
损失信息确定单元，可以用于基于上述预设判别网络，对上述当前文字、参考文字、上述样本字体风格信息和上述样本文字内容信息进行判别处理，得到损失信息。
[0175]
网络生成单元，可以用于基于上述损失信息训练上述预设字体风格编码网络和上述预设文字生成网络，得到上述字体风格编码网络和上述文字生成网络；上述参考文字表征上述样本文字内容信息在上述样本字体风格信息下的文字。
[0176]
在一示例性的实施方式中，上述样本字体风格信息生成单元，可以包括：
[0177]
特征向量获取子单元，可以用于基于上述预设字体风格编码网络，从上述标准正态分布中随机获取与上述当前样本字体风格信息对应的特征向量。
[0178]
更新子单元，可以用于基于上述预设字体风格编码网络，确定上述特征向量和上述当前样本字体风格信息之间的差异信息，基于上述差异信息对上述最新正太分布进行更新，将更新后的最新正太分布重新作为上述最新正太分布。
[0179]
重复子单元，可以用于基于上述预设字体风格编码网络，在上述将上述第一样本文字映射到最新正太分布中，得到当前样本字体风格信息，和上述将更新后的最新正太分布重新作为上述最新正太分布之间重复，直至上述差异信息满足预设条件时停止。
[0180]
样本字体风格信息确定子单元，可以用于基于上述预设字体风格编码网络将上述差异信息满足预设条件时的当前样本字体风格信息，作为上述样本字体风格信息。
[0181]
在一示例性的实施方式中，上述装置还可以包括：
[0182]
第二解耦模块，可以用于解耦上述样本字体风格信息。
[0183]
第三标准化处理模块，可以用于对解耦后的样本字体风格信息进行标准化处理，得到标准样本字体风格信息。
[0184]
第四标准化处理模块，可以用于对上述样本文字内容信息进行标准化处理，得到标准样本文字内容信息。
[0185]
相应地，上述当前文字生成单元，可以用于基于上述预设文字生成网络，生成上述标准样本文字内容信息和上述标准样本字体风格信息对应的上述当前文字。
[0186]
需要说明的是，本技术实施例提供的装置实施例与上述方法实施例基于相同的发明构思。
[0187]
本技术实施例还提供了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执
行以实现如上述任一实施例提供的文字生成方法或文字生成的网络训练方法。
[0188]
本技术的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种文字生成方法或文字生成的网络训练方法相关的至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的文字生成方法或文字生成的网络训练方法。
[0189]
可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0190]
本说明书实施例存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。
[0191]
本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的文字生成方法或文字生成的网络训练方法。
[0192]
本技术实施例所提供的文字生成方法或文字生成的网络训练方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图14是本技术实施例提供的一种文字生成或文字生成的网络训练的服务器的硬件结构框图。如图14所示，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)710(中央处理器710可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器730，一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中，存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器710可以设置为与存储介质720通信，在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口740，和/或，一个或一个以上操作系统721，例如windows servertm，macos xtm，unixtm，linuxtm，freebsdtm等等。
[0193]
输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中，输入输出接口740包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口740可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
[0194]
本领域普通技术人员可以理解，图14所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器700还可包括比图14中所示更多或者更少的组件，或者具
有与图14所示不同的配置。
[0195]
需要说明的是：上述本技术实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0196]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0197]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0198]
以上仅为本技术的较佳实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种面向随机需求的铁路货运空车调配的模型及方法

文字生成方法、网络训练方法、装置、设备及存储介质与流程

相关文献

最热文献