一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本生成方法、装置、计算机设备及存储介质

2022-07-31 04:53:24 来源:中国专利 TAG:


1.本公开实施例涉及自然语言处理技术领域,尤其涉及一种文本生成方法、装置、计算机设备及存储介质。


背景技术:

2.文本生成技术是自然语言处理领域的一个重要技术。通过文本生成技术可以利用既定信息与文本生成模型生成满足特定目标的文本序列。其中,所使用的文本生成模型基于在不同应用场景(生成式阅读理解、人机对话、智能写作以及机器翻译等)下的样本数据进行训练后,就可以实现不同应用场景下的文字生成。
3.目前,文本生成实现中所采用的文本生成模型,所存在的一个问题是在文本生成过程中会有较高的输出延迟(输出延迟指模型接收输入到模型完全生成文本输出所需的时间延迟)。且该输出延迟与所生成文本的句子长度成线性关系。或者,在解决输出延迟问题时,又会引入新的问题,如所生产的文本可能会出现存在连续重复词,或上下文不连贯的情况。


技术实现要素:

4.本公开实施例提供了一种文本生成方法、装置、计算机设备及存储介质,降低了所生成文本上下文不连贯性以及连续重复词,提高了所生成文本的质量。
5.第一方面,本公开实施例提供了一种文本生成方法,该方法包括:
6.将获取的原始文本输入训练后的文本编码模型,获得文本特征信息;
7.基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本;
8.其中,所述文本解码模型中包括文本预测图层,所述文本预测图层中所包括设定数量结点的结点信息通过对所述文本特征信息确定,且所述目标文本中包含的目标词以及各目标词的组合顺序,通过各所述结点的结点信息及结点间拓扑结构确定。
9.第二方面,本公开实施例还提供了一种文本生成装置,该装置包括:
10.编码执行模块,用于将获取的原始文本输入训练后的文本编码模型,获得文本特征信息;
11.解码执行模块,用于基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本;
12.其中,所述文本解码模型中包括文本预测图层,所述文本预测图层中所包括设定数量结点的结点信息通过对所述文本特征信息确定,且所述目标文本中包含的目标词以及各目标词的组合顺序,通过各所述结点的结点信息及结点间拓扑结构确定。。
13.第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
14.一个或多个处理器;
15.存储装置,用于存储一个或多个程序,
16.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本公开任意实施例所提供的文本生成方法。
17.第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本公开任意实施例所提供的文本生成方法。
18.本公开实施例的技术方案,具体公开了一种文本生成方法、装置、计算机设备及存储介质,该文本生成方法包括:将获取的原始文本输入训练后的文本编码模型,获得文本特征信息;基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本;其中,所述文本解码模型中包括文本预测图层,所述文本预测图层中所包括设定数量结点的结点信息通过对所述文本特征信息确定,且所述目标文本通过各所述结点的结点信息确定。上述技术方案,实现了所增设文本预测图层中各结点的结点信息并行确定以及所生成文本内各目标词的并行确定,降低了文本生成延迟;同时,通过所增设文本预测图层中各结点的结点信息,能够实现所生成文本中各词与所匹配结点的一一对应,从而更好规避了所述生成文本中连续重复词的出现;此外,通过各结点的结点间拓扑结构,能够限定所生成文本中各词的组合顺序,进而保证了所生成本文中上下文的关联性,由此提高了所生成文本的生成质量,保证文本准确度。
附图说明
19.为了更加清楚地说明本公开示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
20.图1为本公开实施例一所提供的一种文本生成方法的流程示意图;
21.图1a给出了现有文本生成模型在机器翻译场景中的应用效果图;
22.图1b给出了本实施例提供的文本生成方法中所采用文本解码模型的结构展示图;
23.图1c给出了本实施例所涉及文本生成模型在机器翻译场景中的应用效果图;
24.图2给出了本公开实施例提供的一种文本生成方法的流程示意图;
25.图2a给出了本实施例所提供文本生成方法中所采用文本解码模型中部分网络结构的示意图;
26.图2b给出了本实施例所提供文本生成方法中计算结点转移矩阵的其中一种示例图;
27.图2c给出了本实施例提供的文本生成方法中所涉及文本预测图层内全连接结构的示例图;
28.图3为本公开实施例三提供的一种文本生成装置的结构示意图;
29.图4为本公开实施例四所提供的一种电子设备的结构示意图。
具体实施方式
30.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的
是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
31.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
32.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
33.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
34.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
35.实施例一
36.图1为本公开实施例一所提供的一种文本生成方法的流程示意图,本实施例可适用于文本生成的情况,该方法可以由文本生成装置来执行,该装置可以通过软件和/或硬件来实现,可配置于终端和/或服务器中来实现本公开实施例中的文本生成方法。
37.需要说明的是,传统的文本生成模型中,通常采用一个输入文本与多个输出文本构成的样本数据进行训练学习,采用这种训练形式对常规文本生成模型训练后,在实际应用中,所生成的目标文本存在预测词混合输出的问题,主要因无法区分预测词来自训练阶段所使用的哪一个输出文本,而把多个输出文本所包含预测词的可能输出混在一起,由此无法保证文本的生成质量。
38.示例性的,图1a给出了现有文本生成模型在机器翻译场景中的应用效果图。如图1a所示,所输入的文本可以是中文的“我去电影院了”,在机器翻译的应用场景中,现有文本生成模型11的目的是生成上述中文句子的英文文本。在对现有文本生成模型11进行训练时,所采用的英文输出样本可以有多个如:“i went to the movie theater”及“ijust went to the cinema”。在完成训练后,实际对“我去电影院了”进行英文的机器翻译时,就有可能将上述输出样本中的单词混合输出,生成的预测文本为“i went wentthe the theater”的错误文本。
39.本实施例提供的一种文本生成方法,对传统的文本生成模型进行了改进,增设了文本预测图层,通过所增长文本预测图层中所包含各结点,能够获得高质量的生成文本。
40.具体的,如图1所示,本实施例一提供的一种文本生成方法可包括下述步骤:
41.s101、将获取的原始文本输入训练后的文本编码模型,获得文本特征信息。
42.需要知道的是,本实施例所提供文本生成方法并不局限于某个应用场景,如果某个应用场景下需要进行文本生成,就可以在该应用场景下采集训练样本进行文本生成模型的训练。其中,文本生成模型在结构上可以包括两部分,一部分为文本编码模型,一部分为文本解码模型。
43.在本实施例中,所述原始文本相当于文本生成前的输入文本,不同的应用场景中
原始文本的内容可能不同。如在机器翻译场景中,假设进行中英翻译,原始文本就可以是待翻译的中文文本;若是进行英中翻译,原始文本就可以是待翻译的英文文本。
44.在本实施例中,所述文本编码模型可以用于对原始文本进行编码处理,从而获得原始文本的文本特征信息,其中,该文本编码模型的模型结构可以直接复用传统文本生成模型中的文本编码模型,且可以通过不同应用场景下所提供的样本数据进行训练学习,以使所输出的文本特征信息能够满足应用场景的文本生成需求。示例性的,在机器翻译的应用场景中,所输出的文本特征信息主要用于后续的获得与原始文本对应的翻译文本。
45.在本实施例中,所述文本特征信息用于表征最初所输入原始文本中各词的特征信息,该文本特征信息可以由文本特征矩阵表示,一般的,该文本特征矩阵中所包括文本特征向量的个数与原始文本中所包含词的个数相同。
46.s102、基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本。
47.在本实施例中,通过上述步骤获得文本编码模型输出的文本特征信息后,可以进一步将该文本特征信息作为输入数据输入值文本解码模型。在本实施例中,所述文本解码模型中包括文本预测图层,所述文本预测图层中所包括设定数量结点的结点信息通过对所述文本特征信息确定,且所述目标文本中包含的目标词以及各目标词的组合顺序,通过各所述结点的结点信息及结点间拓扑结构确定。
48.具体的,相比于传统文本生成模型中的文本解码模型,本步骤所采用的文本解码模型中包含了文本预测图层,且文本预测图层中包含了一定数量的结点,其中,通过各结点的结点信息以及结点间拓扑结构可以有效的确定原始文本的目标文本。可以知道的是,本实施例中文本解码模型同样通过不同应用场景下所提供的样本数据进行训练学习,以使所输出的目标文本能够满足应用场景的文本生成需求。
49.接上述描述,文本预测图层中包含了设定数量的结点,所有的结点可用来构建文本生成所需的图,每个结点的结点信息可以通过文本特征信息确定。在本实施例中,所述设定数量的具体值大于原始文本所包含词的数量,可作为文本预测图层中进行图构建时所需的图大小,也可以作为待生成文本可能的预测长度,即相当于待生成文本中所包含词的数量不会大于该设定数量。文本预测图层中所包含各结点的结点信息可以通过文本特征信息确定,示例性的,可以将文本特征信息与某些参数信息相结合进行全连接处理,最终将原始文本中各词的相关特征信息分别映射到结点上,作为结点的结点信息。
50.在本实施例中,对于目标文本的生成逻辑,其需要考虑文本预测图层中结点的结点信息以及结点间拓扑结构。分析可知,目标文本中同样由单个词构成,且目标文本中的词应该与原始文本中的词存在某种关联。其中,通过本实施例上述文本编码模型,可以获得表征原始文本中各词的文本特征信息,之后,通过本实施例的文本解码模型,可以将文本特征信息通过基础的解码处理,转换为文本预测图层中所包括各结点的结点信息,相当于将原始文本中各词与文本预测图层中各结点建立了关联。
51.具体的,本实施例所提供文本解码模型通过文本预测图层中各结点的结点信息,可以将各结点与词典中的词建立对应关系,使得结点能够对应一个最匹配的词。
52.此外,本实施例所提供文本编码模型还可以将文本预测图层中各结点按照一定的连接条件进行连接,形成结点间拓扑结构。基于所形成的结点间拓扑结构,可以清楚各结点
之间的连接关系。根据文本预测图层中训练好的学习参数,结合结点间拓扑结构,就可以确定一个结点到另一所连接结点的转移概率,最终基于各结点对应的词,以及到结点到其他所连接结点的转移概率就可以从各结点中选中目标结点,由于结点与词一一对应,在选中目标结点时也相应确定了生成目标文本所需的各目标词;此外,所生成目标文本中各目标词的组合顺序也可以通过结点间拓扑结构所表征的结点间连接关系来确定。通过上述逻辑,就可以相对原始文本确定出规避了连续重复词,且上下文关系明确的目标文本。
53.在本实施例的基础上,进一步地对文本解码模型进行了优化,优选该文本解码模型具体可以包括:位置信息输入层、基础解码子模型及文本预测图层;
54.其中,所述位置信息输入层中包括设定数量个结点位置参数,所述设定数量用于决定所述文本预测图层中所包含结点的结点数量;所述文本预测图层中所包括设定数量结点的结点信息通过各所述结点位置参数与所述文本特征信息,结合所述基础解码子模型确定。
55.在上述优化实施例中,文本解码模型除了包括文本预测图层,还包括了位置信息输入层和基础解码子模型,且在结构连接上,位置信息输入层的输出的信息传递给基础解码子模型,基础解码子模型输出的信息分别传递给文本预测图层中的各结点。
56.在本实施例中,所述位置信息输入层具体可理解为文本生成实现中对文本预测图层中待生成有向无环图所需的图大小进行预测的信息输入层,该位置信息输入层中所预测的图大小实际为构建图所需结点的结点数量,该图大小的值可优选设定为原始文本中所包含词个数的倍数。可以知道的是,该结点数量决定了文本预测图层中所包含结点的结点数量,即,文本预测图层中表征结点数量的设定数量相当于在该位置信息输入层预先设定;在设定图大小为n时,相当于确定了文本预测图层中所包含结点的数量为n。
57.接上述描述,在位置信息输入层中,除了预设文本预测图层中所包含结点的数量,还需要预设各结点的位置信息,本实施例中采用结点位置参数来表征各结点的位置信息,结点位置参数可理解为给构建图所需结点所赋予的位置参数,每个结点位置参数表征文本预测图层中存在相对应的一个结点;同时,该结点位置参数也相当于文本解码模型中训练所得的其中一项学习参数,通过训练迭代,且结点位置参数可以进行相应调整,直至训练结束后获得稳定的参数信息。
58.在文本生成的具体实现中,可以将文本编码模型输入的文本特征信息以及各结点位置参数分别作为文本解码模型中基础解码子模型的输入,而基础解码子模型则可以输出与文本预测图层中所包含结点数量相同的向量信息,分别作为相应结点的结点信息。其中,基础解码子模型可以包括:自注意力机制self
‑ꢀ
attention网络结构以及跨越注意力机制cross-attention网络结构,相当于复用了传统文本生成模型中的文本解码模型。
59.示例性的,图1b给出了本实施例提供的文本生成方法中所采用文本解码模型的结构展示图。如图1b所示,文本解码模型12包括了输入层,输入层中具体包括两个不同输入分支,其中一个输入分支为进行图大小及结点位置信息输入的位置信息输入层121,位置信息输入层121包括n个确定的结点位置参数g;另一输入分支中用于输入文本编码模型输出的文本特征信息;文本解码模型12 还包括了基础解码子模型122以及文本预测图层123,基础解码子模型122中可以包括由自注意力机制和跨越注意力机制构成的m层网络结构;文本预测图层123中包括与结点位置参数个数相同的n个结点;最终,通过文本解码模型 12的输出
层124输出原始文本的目标文本。
60.本发明实施例一提供的一种文本生成方法,实现了所增设文本预测图层中各结点的结点信息并行确定以及所生成文本内各目标词的并行确定,降低了文本生成延迟;同时,通过所增设文本预测图层中各结点的结点信息,能够实现所生成文本中各词与所匹配结点的一一对应,从而更好规避了所述生成文本中连续重复词的出现;此外,通过各结点的结点间拓扑结构,能够限定所生成文本中各词的组合顺序,进而保证了所生成本文中上下文的关联性,由此提高了所生成文本的生成质量,保证文本准确度。
61.作为本实施例的一个可选实施例,在本可选实施例中,该方法还优化增加了:
62.基于设定的损失函数生成策略,对所构建的文本解码模型进行学习参数训练,获得训练后的文本解码模型;
63.其中,所述学习参数包括:所述文本解码模型所包括位置信息输入层中涉及的结点位置参数、所包括基础解码子模型中涉及的基础模型参数、以及所包括文本预测图层中所具备各结点涉及的结点相关参数。
64.对于如图1a所示的传统文本生成模型,其在训练阶段还存在的一个问题是,参与训练的样本数据中,包含一个输入文本和多个输出文本,由此在训练阶段会存在标签不一致问题。具体的,面对同一个输入文本,存在多种可能的不同输出文本,在模型训练阶段,对同一位置上学习参数的学习时,其所对应的预测词可能来自不同的输出文本,从而造成了训练困难。
65.基于此,本实施例一方面对文本解码模型的网络结构进行了改进,如增设了文本预测图层,采用多于文本所包含词的数值作为结点数量,使得每个结点都可以与输出文本中的一个词对应。另一方面在训练阶段进行了样本数据改进以及损失函数改进。
66.对于样本数据改进,本实施例可以采用单样本数据,即一个输入文本就只与一个输出文本对应,构成一条样本数据;对于损失函数改进,给出了损失函数生成策略,该策略主要从文本解码模型中所增设文本预测图层中的结点考虑。示例性的,该策略首先可以考虑结点间可能构成的路径,并考虑通过所构成路径生成输出文本的生成概率,然后结合各路径的生成概率来生成损失函数。
67.在本可选实施例中,通过所确定的损失函数,及改进后设定形式的样本数据,就可以对所创建的文本解码模型中的学习参数通过反向传播进行调整,最终获得准确度较高的文本解码模型。
68.可以知道的是,对于文本解码模型的训练相当于对于模型中所具备各学习参数的调整。在该文本解码模型中所具备的学习参数可以包括位置信息输入层中的结点位置参数;还可以包括基础解码子模型中涉及的各权重参数;也可以包括文本预测图层中相对各结点所设定的结点相关参数,结点相关参数中可以用于所生成文本相关的预测结点确定以及结点到词典中预测词的匹配。
69.在本可选实施例中,可以进一步将基于设定的损失函数生成策略,对所构建的文本解码模型进行学习参数训练,获得训练后的文本解码模型具体化为:
70.a0、获得至少一组样本数据,所述一组样本数据中包括一个原始样本文本及对应的单个目标样本文本。
71.在本实施例中,可以获得多组样本数据,以在每次训练迭代中输入不同的样本数
据。相比于现有的样本数据,本实施例优选一组样本数据中包括一个原始样本文本和一个目标样本文本。
72.b0、在当前迭代下,将一组样本数据中的原始样本文本使用文本编码模型编码后,输入至当前文本解码模型。
73.在本实施例中,当前迭代可理解为可能是第一次迭代,也可能是迭代循环中的待执行的训练迭代,每次迭代下所执行的训练逻辑相同。当前文本解码模型可理解为当前迭代下待训练的文本解码模型,本步骤可以先将原始样本文本输入训练后的文本编码模型进行编码处理,之后输入至该当前文本解码模型。
74.c0、基于所述当前文本解码模型,确定将所述原始样本文本通过各文本预测路径生成所述目标样本文本时所对应的概率值。
75.在本实施例中,通过当前文本解码模型所包括的网络结构,及网络结构中学习参数当前的参数值,可以对原始样本文本进行处理,其中,基于当前文本解码模型中文本预测图层内的各结点可以构成各种文本预测路径,通过各文本预测路径能够生成一条预测文本,本步骤就可以确定出该预测文本为目标样本文本的概率值,作为基于文本预测路径生成目标样本文本时所对应的概率值。本步骤相当于损失函数生成策略中的其中一个执行逻辑,其确定的各概率值具体用于当前迭代所采用损失函数值的确定。
76.其中,各文本预测路径基于所述文本预测图层中的结点结合设定算法形成。示例性的,本步骤在执行中,可以将各结点间连接所形成的全部路径分别作为文本预测路径,如果直接选定全部路径作为文本预测路径,在路径计算过程中将会占用较多的计算资源来实现模型训练,本实施例考虑在全部路径计算中使用动态规划算法来避免相同逻辑的重复运算,由此来节省计算资源,提升训练时间;同时,本实施例也可以考虑采用一定的算法从结点连接所形成的全部路径中选择一部分路径作为文本预测路径。
77.d0、基于各所述概率值结合损失函数生成公式,确定当前损失函数值,并基于所述当前损失函数值通过反向传播调整所述当前文本解码模型中的学习参数,得到用于下一迭代的文本解码模型。
78.在本实施例中,上述确定概率值可以代入预先设定的损失函数生成公式,就可以确定出当前迭代下的当前损失函数值。其中,所述损失函数生成公式表述为对各所述概率值之和求对数,并将对数运算结果取负。
79.e0、将下一迭代作为新的当前迭代,返回继续执行步骤b0,直至满足迭代结束条件,获得训练后的文本解码模型。
80.在本可选实施例中,迭代接收条件可以是迭代逻辑中所确定的当前损失函数值处于设定阈值范围,或者迭代次数达到了设定次数阈值。
81.通过本可选实施例给出的模型训练逻辑,可以更好的规避模型训练阶段出现的训练样本中标签不一致的问题,使得文本编码模型中每个结点都可以与待生成文本中出现的词一一对应。
82.示例性的,图1c给出了本实施例所涉及文本生成模型在机器翻译场景中的应用效果图。如图1c所示,所输入的文本同样可以是中文的“我去电影院了”,在机器翻译的应用场景中,本实施例所采用的文本生成模型13(模型中包含了文本预测图层)可以生成上述中文句子的英文文本。在对本实施例所采用文本生成模型13进行训练时,所采用的英文文本样
本可以有只有“i wentto the movietheater”或者只有“ijust went to the cinema”。在完成训练后,英文文本样本中的各单词在文本生成模型13中分别对应一个处理结点(在图1c中,可以通过预测文本中呈现出的各单词来表征一个处理节点);相当于本实施例所采用文本生成模型13可以为各处理节点确定最匹配的单词,且根据处理结点之间连接关系,可以从处理节点所形成各连接路径中确定出一条最符合上下文关系的组合路径。
83.在采用本实施例所训练的文本生成模型际对“我去电影院了”进行英文的机器翻译时,就可以只选择组合路径内处理结点对应的单词进行组合,由此组合形成可输出的目标文本,如,基于所确定的其中一条组合路径,对应的输出文本可以表示为:“i went to the movie theater”。相比于图1a中输出的错误文本“i went went the the theater”。本实施例所输出文本中规避了单词的连线重复,且保证了上下文连贯。
84.实施例二
85.图2给出了本公开实施例提供的一种文本生成方法的流程示意图,本实施例为上述实施例的进一步优化,在本实施例中,进一步将基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本具体化为:将所述文本特征信息及所述位置信息输入层中各所述结点位置参数,输入所述基础解码子模型;获得所述基础解码子模型输出的所述设定数量的初始文本预测向量,将各所述初始文本预测向量分别作为所述文本预测图层中各结点的结点信息;基于各所述结点构建有向无环图,确定结点间拓扑结构,并结合各结点信息确定所述原始文本的目标文本。
86.如图2所示,本实施例二提供的一种文本生成方法,具体包括如下步骤:
87.s201、将获取的原始文本输入训练后的文本编码模型,获得文本特征信息。
88.示例性的,文本特征信息可以是包含了原始文本中各词所对应特征向量的特征矩阵。
89.s202、将所述文本特征信息及所述位置信息输入层中各所述结点位置参数,输入所述基础解码子模型。
90.在本实施例中,文本解码模型中包含了位置信息输入层,位置信息输入层中包含了文本解码模型中表征待构建图中结点的位置信息(结点位置参数)以及待构建图所具备的图大小(主要通过所包含结点位置参数的数量表征)。
91.本步骤可以将文本特征信息以及各结点位置参数均作为输入信息,输入文本解码模型中的基础解码子模型。
92.图2a给出了本实施例所提供文本生成方法中所采用文本解码模型中部分网络结构的示意图。如图2a所示,给出了文本解码模型中的位置信息输入层,基础解码子模型20;其中,位置信息输入层中包含9个(图大小)结点位置参数 21。各结点位置参数21以及文本编码模型输出的文本特征信息22,可以输入至基础解码子模型20。
93.s203、获得所述基础解码子模型输出的所述设定数量的初始文本预测向量,将各所述初始文本预测向量分别作为所述文本预测图层中各结点的结点信息。
94.本步骤可以获得基础解码子模型输出的处理信息,处理信息具体可以包括设定数量的初始文本预测向量。其中设定数量与位置信息输入层中结点位置参数的个数相同。本步骤还可以将上述获得各初始文本预测向量与文本预测图层中各结点相对应,作为结点的结点信息
95.接上述图2a,可以看出图2a中还给出了文本预测图层中的结点集合,结点集合中同样包含9个结点23;基础解码子模型20输出的各初始文本预测向量可以与结点23一一对应,以作为各结点23的结点信息。
96.s204、基于各所述结点构建有向无环图,确定结点间拓扑结构,并结合各结点信息确定所述原始文本的目标文本。
97.上述步骤相当于为文本预测图层中各结点赋值了结点信息,使得文本预测图层中各结点与实际的原始文本建立关联。
98.本步骤相当于将文本预测图层作为执行主体,其主要基于各结点的结点信息进行文本生成的后续处理,从而生成原始文本的目标文本。
99.本步骤执行逻辑的分析可以描述为:各结点赋予结点信息后,仍然是单个的结点,各结点间还不存在关联;考虑到待生成的文本中各词之间存在上下文关联,而各词与文本预测图层中的结点存在联系,由此,本步骤需要建立各结点之间的关联,而各结点间的关联可以通过构建图来实现,有考虑到待生成的文本为有向的且无环的,由此本步骤可以基于各结点来构建有向无环图。
100.接上述分析,待生成文本中词之间需要存在上下文关联,在确定结点可以表征一个词之后,想要确定词之间的上下文关联,可以转换为结点间的关联,而结点间的关联可以通过有向无环图中结点连接后所形成边的权重来体现,本实施例考虑通过结点到另一结点的转移概率来表征两结点所形成边的权重。确定结点间的转移概率后,两结点间的转移概率越高,就可以认为两结点之间的关联越大。
101.基于上述分析,本步骤中基于结点信息生成原始文本所对应目标文本的执行逻辑可以描述为:1)建立各结点之间的有向连接,构成有向无环图,确定相连接两结点中,源结点到目标结点的转移概率,其中源结点为两结点有向连接中的出端结点,目标结点为两结点有向连接中的入端结点;2)确定每个结点对应的预测词;3)根据结点间的转移概率及结点对应的预测词,挑选出目标词,通过获得目标词之间的组合顺序,最终组合目标词形成目标文本。
102.进一步地,本实施例给出基于各所述结点构建有向无环图,确定结点间拓扑结构,并结合各结点信息确定所述原始文本的目标文本的其中一种实现方式,实现步骤包括下述步骤a1~c1,具体的:
103.a1、根据所述文本预测图层中各结点的结点标号,构建有向无环图,获得结点间拓扑结构。
104.示例性的,有向无环图的构建用于确定结点间的连接关系。考虑到所构建图的有向性,本实施例基于结点的结点标号进行有向连接,如假设存在9个结点,基于结点标号的由小到大,结点v1将与结点v2~v9分别建立有向连接,而结点v2则只能与v3~v9建立有向连接,依次类推,最后一个结点v9将不再进行有向连接。确定出有向无环图之后,也相当于确定了结点间拓扑结构。
105.b1、根据结点间拓扑结构及各所述结点的结点信息,确定所述文本预测图层对应的结点转移矩阵。
106.在本实施例中,结点间拓扑结构中包含了结点与其他结点的连接关系,基于结点间的连接关系,可以知道每个结点都与哪些结点存在连接,且存在的连接为有向连接。在本
实施例中,结点转移矩阵的行列值分别为文本预测图层中包括的结点个数。且考虑到结点连接的有向性,该结点转移矩阵可优选为一个上三角矩阵。对于结点转移矩阵中的一个有效元素值,其表征了相应行所对应结点与相应列对应结点存在有向连接,且主要为通过相应计算逻辑确定出的两结点的转移概率。
107.在本实施例中,对于结点间转移概率的确定,其中一种实现逻辑可以描述为:对于建立连接的两结点,其可以获取两结点的结点信息,其中结点信息可以通过特征向量来表征,之后可以将表征两结点所具备结点信息的特征向量相乘,所获得的乘积向量进行归一化处理后就可以作为两结点的转移概率。
108.对于结点间转移概率的确定,另一种实现逻辑还可以描述为:首先获取各结点在文本预测图层中设定的结点相关参数,如第一学习参数和第二学习参数,主要用于转移概率的确定;其中,各结点的结点相关参数存在于文本解码模型中,在完成文本解码模型训练后,可以具备固定的参数值;之后,对于建立连接的两结点,可以根据结点信息与结点相关参数相乘后的乘积向量进一步进行转移概率的确定。
109.其中,对于上述基于结点信息结合结点相关参数进行两结点间转移概率确定的实现,给出了下述示例性的描述:以结点vi和结点vj为例,结点vi连接至结点vj,结点vi与结点vj的转移概率计算可以描述为:确定结点vi的初始文本预测向量(结点信息)与第一学习参数的乘积(记为第一乘积);确定结点vj的初始文本预测向量(结点信息)与第二学习参数的乘积(记为第二乘积);对第一乘积与第二乘积的乘积结果进行归一化,归一化后结果就可以看做结点 vi与结点vj的转移概率。
110.基于上述描述,可以知道在确定相连接两结点间的转移概率后,基于各转移概率就可以形成文本预测图层的结点转移矩阵。
111.进一步地,本实施例可以将根据结点间拓扑结构及各所述结点的结点信息,确定所述文本预测图层对应的结点转移矩阵具体化为:
112.b11、针对每个结点,从结点间拓扑结构中确定所述结点有向连接的邻接结点。
113.其中,通过上述构建的有向无环图,在获得结点间拓扑结构后,可以很容易确定与结点存在有向连接的其他结点,这些结点就可以看做该结点的邻接结点。
114.b12、根据所述结点及各所述邻接结点的结点信息,确定所述结点到各邻接结点的转移概率。
115.示例性的,在其中一种实现方式中,结点vi到结点vj的转移概率p
vi-》vj
的计算可以描述为:其中,softmax表示归一化,表示该文本预测图层的规模大小(d在构建阶段确定),vi和vj分别表示结点 vi和结点vj的结点信息向量。
116.在另一种示例性的实现方式中,其实现逻辑可以概括为:针对每个结点,根据所述结点及所对应各邻接结点的结点信息、第一学习参数及第二学习参数,结合概率转移公式,确定所述结点到各邻接结点的转移概率,其中,第一学习参数及第二学习参数均为与结点对应的结点相关参数。参考上述描述,概率转移公式可以表述为:
[0117][0118]
点vi和结点vj的结点信息向量;另外,该公式中w1表示结点相关的第一学习参数;
w2表示结点相关的第二学习参数;p
vi-》vj
表示结点vi到结点vj的转移概率。
[0119]
b13、基于各所述转移概率形成所述文本预测图层对应的结点转移矩阵。
[0120]
可以知道,基于上述步骤b12和b13可以计算出各结点与其各邻接结点的转移概率,基于各转移概率就可以形成结点转移矩阵。
[0121]
示例性的,图2b给出了本实施例所提供文本生成方法中计算结点转移矩阵的其中一种示例图。如图2b所示,为文本预测图层中所包括各结点进行了转移概率的计算,图2b中的e表征了计算所得的结点转移矩阵。需要说明的是,图 2b中给出了各结点的部分连接,及相应连接所对应的转移概率。如v1到v2的转移概率0.3;v1到v3的转移概率0.7等。可以知道的是,在结点转移矩阵e 中,每一行的转移概率之和为1。
[0122]
c1、根据各所述结点的结点信息,及所述结点转移矩阵,确定所述原始文本的目标文本。
[0123]
在本实施例中,确定出结点转移矩阵后,相当于确定了有向无环图中连接所形成各边的权重,本实施例可以通过预测路径的选定策略选定一条预测路径;示例性的,对于预测路径的选定,其中一种实现方式可以描述为:沿结点连线放向,在出端结点固定的前提下,选定与出端结点具备最高转移概率的入端结点,将两结点的边作为预测路径中的其中一边;之后在选定新的出端结点重复执行上述逻辑,最终选定预测路径中的所有边,进而也确定出构成预测路径各目标点。
[0124]
如图2b所示,通过上述逻辑描述,可以确定出预测路径为v1-》v3-》v4-》v5-》 v6-》v9;所包含的目标点为a={v1,v3,v4,v5,v6,v9}。
[0125]
同时,本步骤根据各结点信息,结合文本预测图层中存在的全连接层,可以确定各结点与词典中所包括各词的概率信息,其中,词典可以是预先创建的词表信息,包含了文本生成所需的各种词,且每个词可以通过向量的形式表征。基于文本预测图层中存在的全连接层,全连接的前一层结点可以是本实施例中图的各结点,后一层结点可以是词典中的各词。全连接处理可以是计算图中各结点到词典中各词结点的匹配概率,计算形式可以基于结点的结点信息与词结点的词向量通过全连接来实现。
[0126]
在上述确定了预测路径及结点到词的匹配向量后,就可以确定出预测路径中各结点对应的目标词,最终基于各目标词组合形成目标文本。需要说明的是,本实施例中并不对进行预测路径确定和匹配概率的执行顺序进行确定,其也可以在确定匹配概率后,再确定预测路径。只要能完成目标文本的生成即可。
[0127]
在上述实施例的基础上,本实施例还可以对上述步骤c1“根据各所述结点的结点信息,及所述结点转移矩阵,确定所述原始文本的目标文本”进行具体化描述。
[0128]
示例性的,在获得文本预测图层所对应结点转移矩阵以及各结点的结点信息后,可以通过本实施例中所提供步骤c11~c13执行逻辑来实现。
[0129]
需要说明的是,文本预测图层中除了包括构建有向无环图所需的结点,还包括了全连接结构,全连接结构可以将有向无环图中各结点的结点信息看做输入信息,全连接结构中的下一层则可认为是词典中各词形成的词结点,全连接结构中可以通过连接线将图中的结点与词典中的词结点进行连接。全连接结构中每条连接线的连接权重,可以是对文本解码模型训练后相对各结点与词的连接确定的第三学习参数。
[0130]
图2c给出了本实施例提供的文本生成方法中所涉及文本预测图层内全连接结构
的示例图。如图2c所示,在有向无环图所展示的各结点之上,包括了确定结点所关联预测词的全连接结构24。需要说明的是,图2c中还包括的结果输出层,在结果输出层上,仅展示了有向无环图中结点相匹配的预测词,如,与结点v1相匹配的单词为“i”;与结点v2相匹配的单词为“just”;与结点v3相匹配的单词为“went”等。
[0131]
c11、根据各所述结点的结点信息,通过所述文本预测图层中全连接层,确定各所述结点到预设词表中各词的匹配概率。
[0132]
本步骤的具体实现,执行逻辑可以描述为每个结点与词典中各词存在连接,本步骤中,结点和词也都可以通过向量来表征相应的信息。由此,对于结点与词的匹配概率,如果全连接结构中的连接权重在文本解码模型训练阶段重新确定,就可以先获取训练所得第三学习参数,再确定相应第三学习参数与相应结点信息及词信息的向量乘积;如果文本解码模型训练阶段不再重确连接权重,而是直接共享文本编码模型所使用的词语特征,就可直接确定相应结点信息及词信息的向量乘积;之后还可以确定该结点相对所有词的向量乘积,进行归一化后可作为结点到词的匹配概率。
[0133]
其中,全连接层构建于文本预测图层内,其包含了进行匹配概率处理的全连接结构,全连接结构中可以相对每个结点进行全连接处理。
[0134]
c12、根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词。
[0135]
在本实施例中,预测结点可认为是在文本预测图层的结点中选定的目标文本生成所依赖的关键结点。基于各预测结点对应的匹配概率,可以确定出该预测结点相匹配的预测词,预测词就可以看做目标文本中所包含的目标词。
[0136]
在本实施例中,可以通过在文本预测图层中基于结点转移矩阵确定预测路径来获得预测点,之后通过结点到词的匹配概率来确定预测点的目标词;也可以基于结点转移矩阵及结点到词的匹配概率来确定预测结点和目标词,进一步基于各预测结点确定出预测路径,以用来组合目标词形成目标文本;还可以先基于结点到词的匹配概率先确定出各结点对应的预测词,然后通过搜索算法在有向无环图中确定预测路径,最终选定文本生成所需的目标词。
[0137]
c13、基于各所述目标词,组合形成所述原始文本的目标文本。
[0138]
本步骤对上述确定的目标词按照文本预测图层中所对应结点之间的连接方向进行组合,其中,各目标词仅能确定出一种组合顺序,最终按照该组合顺序就可以获得最终的目标文本。该目标文本就相当于与原始文本进行文本生成处理后所得的结果。
[0139]
在上述优化的基础上,本实施例给出了上述步骤c13的进一步优化,示例性的,对于根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词,本实施例提供了一种优选实施方式,具体可以描述为:
[0140]
根据所述结点转移矩阵中各结点对应的最大转移概率,确定至少一个预测结点。
[0141]
其中,各结点最大转移概率的确定存在顺序性,其首先从起始结点标号对应的结点开始,可以将该结点作为首个预测结点,在该预测结点与各邻接结点连接对应的转移概率中,可以确定出该预测结点的最大转移概率,该最大转移概率对应的邻接结点就可看做一个新的预测结点;之后,可以对新的预测结点再次进行最大转移概率的确定,并由此再确定出新的预测结点;通过上述逻辑可以循环确定出预测结点,直至达到最后一个结点,最后
一个结点也可以作为最后一个预测结点。由此本步骤至少可以获得一个预测结点(一个的情况就是起始结点也是结束结点)。
[0142]
针对每个预测结点,从所述预测结点到各词的匹配概率中确定最大匹配概率,并将该最大匹配概率对应的词确定目标词。
[0143]
其中,对于上述确定出各预测结点,在已知各预测结点到各词的匹配概率后,也可以从各匹配概率中确定出最大匹配概率,进而可以获得该最大匹配概率对应的预测词,该预测词就相当于该预测结点对应的目标词。可以知道的是,通过预测结点的确定顺序,就可以确定出一条用于目标词组合的组合路径,该组合路径就可以用作最后的目标文本生成。
[0144]
示例性的,对于上述步骤c13的进一步优化,本实施例也提供了另一种优选实现方式,需要说明的是,区别于上述实现逻辑,本方式的实现逻辑在于同时考虑结点转移矩阵中转移概率及结点与词所对应匹配概率对预测结点的影响,其可以将转移概率及匹配概率相乘,基于乘积结果来确定预测结点。
[0145]
其中,本实现方式的具体步骤可描述为:
[0146]
1)将起始结点标号对应的结点作为当前结点。
[0147]
其中,该当前结点可记为首个预测结点。
[0148]
2)从所述结点转移矩阵中获取所述当前结点到各邻接结点的当前转移概率。
[0149]
3)确定各所述当前转移概率分别与所述当前结点与各词所对应匹配概率的乘积值。
[0150]
4)从各所述乘积值中选定最大乘积值,并将所述最大乘积值关联的邻接结点及词分别作为预测结点和目标词,并将所述预测结点及目标词关联添加至缓存表。
[0151]
其中,可以知道最大乘积值对应的匹配概率及转移概率,以当前结点为参照,可以知道上述匹配概率相对当前结点对应的词,该词就记为一个目标词,还可以知道上述转移概率相对当前结点对应的邻接结点,该邻接结点就可以记为另一个预测结点。
[0152]
5)将所述预测结点作为新的当前结点,重新执行所述当前结点所对应当前邻接点的选定操作,直至达到循环结束条件。
[0153]
可以看出,本执行逻辑中同样按照结点的有向连接顺序进行循环处理,由此可以确定出满足条件的各预测结点以及目标词。
[0154]
同样的,上述在确定预测结点的过程中,相当于也确定出了目标词组合是所采用的组合顺序。
[0155]
示例性的,对于上述步骤c13的进一步优化,本实施例还提供了又一种优选实现方式,区别于上述两种实现方式,该实施方式主要考虑了存在不同结点可能对应了同一词的情况,本实施例方式相当于在该种情况的基础上提出了一种目标词的确定方式。
[0156]
其中,本实现方式的具体步骤可描述为:
[0157]
1)基于各结点到各词的匹配概率,确定相应的最大匹配概率,将各所述最大匹配概率对应的词,确定为相应结点的预测词。
[0158]
首先通过本步骤先为文本预测图层中各结点确定相应的预测词。其中,预测词的确定同样采用最大匹配概率的逻辑实现。
[0159]
2)根据预先设定路径搜索算法,结合所述结点转移矩阵及各所述结点的预测词,确定权重最高的预测路径。
[0160]
本步骤的目的主要在于对文本预测图层中各结点基于结点标号顺序确定各候选文本生成路径,并基于结点转移矩阵,确定出各候选文本生成路径中两结点间边的转移概率;然后通过路径搜索算法结合预测词,从各候选文本生成路径中确定出不同结点表征同一预测词的各候选预测路径;并从候选预测路径中获得权重最高的预测路径。
[0161]
3)将所述预测路径中各预测结点对应的预测词确定为相应的目标词。
[0162]
对于上述给出的三种确定预测结点和目标词的实现方式,第一种的执行速度最快,但所生成文本的生成质量相对较低;第二种在执行速度和文本生成质量上处于适中状态;第三种的执行速度相对较慢,但所生成文本的生成质量相对较高。本实施例可以采用上述几种方式但并不局限于上述方式,在应用场景中,可以根据实际情况考虑合适的预测结点及目标词的实现方式来生成目标文本。
[0163]
本实施例二提供的一种文本生成方法,具体化了文本解码模型生成目标文本的实现过程,通过增设文本预测图层,来考虑通过有向无环图的形式采用图结点进行目标词以及预测结点的有效确定,保证了上下文的关联性,也避免了所生成文本中重复词的连续出现。相比于现有技术,提高所生成文本的生成质量,保证文本准确度。
[0164]
实施例三
[0165]
图3为本公开实施例三提供的一种文本生成装置的结构示意图,本实施例可适用于文本生成的情况,该装置可以通过软件和/或硬件来实现,可配置于终端和/或服务器中来实现本公开实施例中的文本生成方法。该装置具体可包括:编码执行模块31和解码执行模块32。
[0166]
其中,编码执行模块31,用于将获取的原始文本输入训练后的文本编码模型,获得文本特征信息;
[0167]
解码执行模块32,用于基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本;
[0168]
其中,所述文本解码模型中包括文本预测图层,所述文本预测图层中所包括设定数量结点的结点信息通过对所述文本特征信息确定,且所述目标文本中包含的目标词以及各目标词的组合顺序,通过各所述结点的结点信息及结点间拓扑结构确定。
[0169]
本实施例三提供的一种文本生成装置,实现了所增设文本预测图层中各结点的结点信息并行确定以及所生成文本内各目标词的并行确定,降低了文本生成延迟;同时,通过所增设文本预测图层中各结点的结点信息,能够实现所生成文本中各词与所匹配结点的一一对应,从而更好规避了所述生成文本中连续重复词的出现;此外,通过各结点的结点间拓扑结构,能够限定所生成文本中各词的组合顺序,进而保证了所生成本文中上下文的关联性,由此提高了所生成文本的生成质量,保证文本准确度。
[0170]
在本公开实施例中任一可选技术方案的基础上,可选地,所述文本解码模型包括:位置信息输入层、基础解码子模型及文本预测图层;
[0171]
所述位置信息输入层中包括设定数量个结点位置参数,所述设定数量用于决定所述文本预测图层中所包含结点的结点数量;
[0172]
所述文本预测图层中所包括设定数量结点的结点信息通过各所述结点位置参数与所述文本特征信息,结合所述基础解码子模型确定。
[0173]
在本公开实施例中任一可选技术方案的基础上,可选地,解码执行模块32 包括:
[0174]
信息输入单元,用于将所述文本特征信息及所述位置信息输入层中各所述结点位置参数,输入所述基础解码子模型;
[0175]
初始向量输出单元,用于获得所述基础解码子模型输出的所述设定数量的初始文本预测向量,将各所述初始文本预测向量分别作为所述文本预测图层中各结点的结点信息;
[0176]
文本生成单元,用于基于各所述结点构建有向无环图,确定结点间拓扑结构,并结合各结点信息确定所述原始文本的目标文本。
[0177]
在本公开实施例中任一可选技术方案的基础上,可选地,文本生成单元具体包括:
[0178]
第一执行单元,用于根据所述文本预测图层中各结点的结点标号,构建有向无环图,获得结点间拓扑结构;
[0179]
第二执行单元,用于根据结点间拓扑结构及各所述结点的结点信息,确定所述文本预测图层对应的结点转移矩阵;
[0180]
第三执行单元,用于根据各所述结点的结点信息,及所述结点转移矩阵,确定所述原始文本的目标文本。
[0181]
在本公开实施例中任一可选技术方案的基础上,可选地,第二执行单元具体用于:
[0182]
针对每个结点,从结点间拓扑结构中确定所述结点有向连接的邻接结点;
[0183]
根据所述结点及各所述邻接结点的结点信息,确定所述结点到各邻接结点的转移概率;
[0184]
基于各所述转移概率形成所述文本预测图层对应的结点转移矩阵。
[0185]
在本公开实施例中任一可选技术方案的基础上,可选地,第三执行单元具体用于:
[0186]
根据各所述结点的结点信息,通过所述文本预测图层中全连接层,确定各所述结点到预设词表中各词的匹配概率;
[0187]
根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词;
[0188]
基于各所述目标词,组合形成所述原始文本的目标文本。
[0189]
在本公开实施例中任一可选技术方案的基础上,可选地,第三执行单元执行根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词的具体步骤可以是:
[0190]
根据所述结点转移矩阵中各结点对应的最大转移概率,确定至少一个预测结点;
[0191]
针对每个预测结点,从所述预测结点到各词的匹配概率中确定最大匹配概率,并将该最大匹配概率对应的词确定目标词。
[0192]
在本公开实施例中任一可选技术方案的基础上,可选地,第四执行单元执行根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词的具体步骤还可以是:
[0193]
将起始结点标号对应的结点作为当前结点;
[0194]
从所述结点转移矩阵中获取所述当前结点到各邻接结点的当前转移概率;
[0195]
确定各所述当前转移概率分别与所述当前结点与各词所对应匹配概率的乘积值;
[0196]
从各所述乘积值中选定最大乘积值,并将所述最大乘积值关联的邻接结点及词分别作为预测结点和目标词,并将所述预测结点及目标词关联添加至缓存表;
[0197]
将所述预测结点作为新的当前结点,重新执行所述当前结点所对应当前邻接点的选定操作,直至达到循环结束条件。
[0198]
在本公开实施例中任一可选技术方案的基础上,可选地,第四执行单元执行根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词的具体步骤也可以是:
[0199]
基于各结点到各词的匹配概率,确定相应的最大匹配概率,将各所述最大匹配概率对应的词,确定为相应结点的预测词;
[0200]
根据预先设定路径搜索算法,结合所述结点转移矩阵及各所述结点的预测词,确定权重最高的预测路径;
[0201]
将所述预测路径中各预测结点对应的预测词确定为相应的目标词
[0202]
在本公开实施例中任一可选技术方案的基础上,可选地,该装置还可以包括:模型训练模块,用于基于设定的损失函数生成策略,对所构建的文本解码模型进行学习参数训练,获得训练后的文本解码模型;
[0203]
其中,所述学习参数包括:所述文本解码模型所包括位置信息输入层中涉及的结点位置参数、所包括基础解码子模型中涉及的基础模型参数、以及所包括文本预测图层中所具备各结点涉及的结点相关参数。
[0204]
在本公开实施例中任一可选技术方案的基础上,可选地,模型训练模块,具体可以用于:
[0205]
获得至少一组样本数据,所述一组样本数据中包括一个原始样本文本及对应的单个目标样本文本;
[0206]
在当前迭代下,将一组样本数据中的原始样本文本使用文本编码模型编码后,输入至当前文本解码模型;
[0207]
基于所述当前文本解码模型,确定将所述原始样本文本通过各文本预测路径生成所述目标样本文本时所对应的概率值,其中,各文本预测路径基于所述文本预测图层中的结点结合设定算法形成;
[0208]
基于各所述概率值结合损失函数生成公式,确定当前损失函数值,并基于所述当前损失函数值通过反向传播调整所述当前文本解码模型中的学习参数,得到用于下一迭代的文本解码模型;
[0209]
将下一迭代作为新的当前迭代,继续进行学习参数训练,直至满足迭代结束条件,获得训练后的文本解码模型。
[0210]
进一步地,所述损失函数生成公式表述为:对各所述概率值之和求对数,并将对数运算结果取负。
[0211]
上述装置可执行本公开任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
[0212]
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
[0213]
实施例四
[0214]
图4为本公开实施例四所提供的一种电子设备的结构示意图。下面参考图 4,其示
出了适于用来实现本公开实施例的电子设备(例如图4中的终端设备或服务器)40的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0215]
如图4所示,电子设备40可以包括处理装置(例如中央处理器、图形处理器等)41,其可以根据存储在只读存储器(rom)42中的程序或者从存储装置 48加载到随机访问存储器(ram)43中的程序而执行各种适当的动作和处理。在ram 43中,还存储有电子设备40操作所需的各种程序和数据。处理装置 41、rom 42以及ram 43通过总线45彼此相连。编辑/输出(i/o)接口44也连接至总线45。
[0216]
通常,以下装置可以连接至i/o接口44:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置46;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置47;包括例如磁带、硬盘等的存储装置48;以及通信装置49。通信装置49可以允许电子设备40与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备40,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0217]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置49从网络上被下载和安装,或者从存储装置48被安装,或者从rom 42被安装。在该计算机程序被处理装置41执行时,执行本公开实施例的方法中限定的上述功能。
[0218]
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0219]
本公开实施例提供的电子设备与上述实施例提供的文本生成方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
[0220]
实施例五
[0221]
本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的文本生成方法。
[0222]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom 或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0223]
在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读
信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0224]
在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transferprotocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
[0225]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
[0226]
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
[0227]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0228]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0229]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
[0230]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0231]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器 (eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0232]
根据本公开的一个或多个实施例,【示例一】提供了一种文本生成方法,该方法包括:将获取的原始文本输入训练后的文本编码模型,获得文本特征信息;基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本;其中,所述文本解码模型中包括文本预测图层,所述文本预测图层中所包括设定数量结点的结点信息通过对所述文本特征信息确定,且所述目标文本中包含的目标词以及各目标词的组合顺序,通过各所述结点的结点信息及结点间拓扑结构确定。
[0233]
根据本公开的一个或多个实施例,【示例二】提供了一种文本生成方法,该方法优选所述文本解码模型包括:位置信息输入层、基础解码子模型及文本预测图层;所述位置信息输入层中包括设定数量个结点位置参数,所述设定数量用于决定所述文本预测图层中所包含结点的结点数量;所述文本预测图层中所包括设定数量结点的结点信息通过各所述结点位置参数与所述文本特征信息,结合所述基础解码子模型确定。
[0234]
根据本公开的一个或多个实施例,【示例三】提供了一种文本生成方法,该方法中的步骤:基于所述文本特征信息,结合训练后的文本解码模型,生成所述原始文本对应的目标文本,可优选包括:将所述文本特征信息及所述位置信息输入层中各所述结点位置参数,输入所述基础解码子模型;获得所述基础解码子模型输出的所述设定数量的初始文本预测向量,将各所述初始文本预测向量分别作为所述文本预测图层中各结点的结点信息;基于各所述结点构建有向无环图,确定结点间拓扑结构,并结合各结点信息确定所述原始文本的目标文本。
[0235]
根据本公开的一个或多个实施例,【示例四】提供了一种文本生成方法,该方法中的步骤:根据所述文本预测图层中各结点的结点标号,构建有向无环图,获得结点间拓扑结构;根据结点间拓扑结构及各所述结点的结点信息,确定所述文本预测图层对应的结点转移矩阵;根据各所述结点的结点信息,及所述结点转移矩阵,确定所述原始文本的目标文本。
[0236]
根据本公开的一个或多个实施例,【示例五】提供了一种文本生成方法,该方法中的步骤:根据结点间拓扑结构及各所述结点的结点信息,确定所述文本预测图层对应的结点转移矩阵,可优选包括:针对每个结点,从结点间拓扑结构中确定所述结点有向连接的邻接结点;根据所述结点及各所述邻接结点的结点信息,确定所述结点到各邻接结点的转移概率;基于各所述转移概率形成所述文本预测图层对应的结点转移矩阵。
[0237]
根据本公开的一个或多个实施例,【示例六】提供了一种文本生成方法,该方法中的步骤:根据各所述结点的结点信息,及所述结点转移矩阵,确定所述原始文本的目标文本,可优选包括:根据各所述结点的结点信息,通过所述文本预测图层中全连接层,确定各
所述结点到预设词表中各词的匹配概率;根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词;基于各所述目标词,组合形成所述原始文本的目标文本。
[0238]
根据本公开的一个或多个实施例,【示例七】提供了一种文本生成方法,该方法中的步骤:根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词,具体可优化为:根据所述结点转移矩阵中各结点对应的最大转移概率,确定至少一个预测结点;针对每个预测结点,从所述预测结点到各词的匹配概率中确定最大匹配概率,并将该最大匹配概率对应的词确定目标词。
[0239]
根据本公开的一个或多个实施例,【示例八】提供了一种文本生成方法,该方法中的步骤:根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词,具体可优化为:将起始结点标号对应的结点作为当前结点;从所述结点转移矩阵中获取所述当前结点到各邻接结点的当前转移概率;确定各所述当前转移概率分别与所述当前结点与各词所对应匹配概率的乘积值;从各所述乘积值中选定最大乘积值,并将所述最大乘积值关联的邻接结点及词分别作为预测结点和目标词,并将所述预测结点及目标词关联添加至缓存表;将所述预测结点作为新的当前结点,重新执行所述当前结点所对应当前邻接点的选定操作,直至达到循环结束条件。
[0240]
根据本公开的一个或多个实施例,【示例九】提供了一种文本生成方法,该方法中的步骤:根据所述结点转移矩阵及各结点到各词的匹配概率,确定预测结点及相应的目标词,具体可优化为:基于各结点到各词的匹配概率,确定相应的最大匹配概率,将各所述最大匹配概率对应的词,确定为相应结点的预测词;根据预先设定路径搜索算法,结合所述结点转移矩阵及各所述结点的预测词,确定权重最高的预测路径;将所述预测路径中各预测结点对应的预测词确定为相应的目标词。
[0241]
根据本公开的一个或多个实施例,【示例十】提供了一种文本生成方法,该方法还优化包括:基于设定的损失函数生成策略,对所构建的文本解码模型进行学习参数训练,获得训练后的文本解码模型;其中,所述学习参数包括:所述文本解码模型所包括位置信息输入层中涉及的结点位置参数、所包括基础解码子模型中涉及的基础模型参数、以及所包括文本预测图层中所具备各结点涉及的结点相关参数。
[0242]
根据本公开的一个或多个实施例,【示例十一】提供了一种文本生成方法,该方法中的步骤:基于设定的损失函数生成策略,对所构建的文本解码模型进行学习参数训练,获得训练后的文本解码模型,可以优化为:获得至少一组样本数据,所述一组样本数据中包括一个原始样本文本及对应的单个目标样本文本;在当前迭代下,将一组样本数据中的原始样本文本使用文本编码模型编码后,输入至当前文本解码模型;基于所述当前文本解码模型,确定将所述原始样本文本通过各文本预测路径生成所述目标样本文本时所对应的概率值,其中,各文本预测路径基于所述文本预测图层中的结点结合设定算法形成;基于各所述概率值结合损失函数生成公式,确定当前损失函数值,并基于所述当前损失函数值通过反向传播调整所述当前文本解码模型中的学习参数,得到用于下一迭代的文本解码模型;将下一迭代作为新的当前迭代,继续进行学习参数训练,直至满足迭代结束条件,获得训练后的文本解码模型。
[0243]
根据本公开的一个或多个实施例,【示例十二】提供了一种文本生成方法,所述损
失函数生成公式表述为:对各所述概率值之和求对数,并将对数运算结果取负。
[0244]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0245]
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了如果干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0246]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献