一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本生成方法、模型的训练方法、设备及存储介质与流程

2022-04-14 03:18:58 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种文本生成方法、模型的训练方法、设备及存储介质。


背景技术:

2.根据关键词生成通顺、有意思表示的句子,是构建智能系统的一项重要能力,其能够被应用在电商描述生成、语料构建、智能翻译等业务场景中。以电商场景为例,通过用户输入的物品关键词,构建用于描述该物品的句子。目前,智能系统在给定词语场景下生成的句子,存在不符合语言描述常识的问题,制约了智能系统在实际场景中的应用。


技术实现要素:

3.本技术实施例提供一种文本生成方法、模型的训练方法、设备及存储介质,实现基于用户输入的给定词构建高质量描述性语句,提升智能系统文本生成质量。
4.本技术实施例的第一方面提供一种文本生成方法,包括:获取用户输入的多个关键词,以及包含所述多个关键词的多个标准句子;根据所述多个关键词以及所述多个标准句子生成多个候选句子,每个候选句子为与所述多个关键词相关的描述性句子;将所述多个候选句子中与所述多个关键词的相关程度最高的候选句子作为目标候选句子,输出所述目标候选句子。
5.本技术第一方面的一个可选实施例中,所述根据所述多个关键词以及所述多个标准句子生成多个候选句子,包括:基于文本生成模型、所述多个关键词以及所述多个标准句子,生成所述多个候选句子;所述文本生成模型是采用bart模型通过至少两轮训练过程得到的、用于生成与所述多个关键词相关的描述语句的模型。
6.本技术第一方面的一个可选实施例中,若所述多个标准句子的数量等于预设数量n,n为大于1的正整数;所述根据所述多个关键词以及所述多个标准句子生成多个候选句子,包括:将所述多个关键词以及n个标准句子输入所述文本生成模型,获取第一候选句子,所述第一候选句子为所述多个候选句子的其中一个;调整所述文本生成模型中损失函数的第一参数,将所述多个关键词以及所述n个标准句子再次输入所述文本生成模型,获取第二候选句子,所述第二候选句子与所述第一候选句子不同;重复调整所述第一参数,获取所述多个候选句子。
7.本技术第一方面的一个可选实施例中,若所述多个标准句子的数量大于预设数量n,n为大于1的正整数;所述方法还包括:通过句子打分器从所述多个标准句子中选取与所述多个关键词的相关程度从高
到低排序的前n个标准句子。
8.本技术第一方面的一个可选实施例中,获取包含所述多个关键词的多个标准句子,包括:从语料库中获取包含所述多个关键词的多个标准句子,所述语料库包括目标领域相关的标准句子。
9.本技术第一方面的一个可选实施例中,所述方法还包括:通过句子打分器从所述多个标准句子中筛选出与所述多个关键词的相关程度大于阈值的标准句子。
10.本技术第一方面的一个可选实施例中,所述将所述多个候选句子中与所述多个关键词的相关程度最高的候选句子作为目标候选句子,包括:通过句子打分器获取每个候选句子与所述多个关键词的相关程度;将所述多个候选句子中与所述多个关键词的相关程度最高的候选句子作为所述目标候选句子。
11.本技术实施例的第二方面提供一种文本生成方法,包括:获取用户输入的与物品相关的多个关键词,以及包含所述多个关键词的多个标准句子;根据所述多个关键词以及所述多个标准句子生成多个候选句子,每个候选句子为与所述多个关键词相关的用于描述所述物品的句子;将所述多个候选句子中与所述多个关键词的相关程度最高的候选句子作为目标候选句子,输出所述目标候选句子。
12.本技术实施例的第三方面提供一种文本生成模型的训练方法,包括:获取第一文本训练集和第二文本训练集,所述第一文本训练集和所述第二文本训练集均包括多个关键词样本、语料库中包含所述多个关键词样本的预设数量的标准句子样本以及包含所述多个关键词样本的原始句子样本;根据第一文本训练集对初始的文本生成模型进行训练,生成第一文本生成模型,所述初始的文本生成模型为bart模型;根据第二文本训练集对所述第一文本生成模型进行训练,生成最终的文本生成模型。
13.本技术第三方面的一个可选实施例中,获取所述第一文本训练集,包括:从所述语料库中随机选取第一标准句子,所述第一标准句子为所述语料库中的任意一个;从所述第一标准句子中获取多个关键词样本;根据所述多个关键词样本从所述语料库中获取包含所述多个关键词样本的预设数量的标准句子样本;将所述多个关键词样本、包含所述多个关键词样本的预设数量的标准句子样本以及所述第一标准句子作为所述第一文本训练集的一组训练数据。
14.本技术第三方面的一个可选实施例中,所述第二文本训练集包括第三文本训练集,获取所述第三文本训练集,包括:获取用户输入的多个关键词;
从所述语料库中获取包含所述多个关键词的第二标准句子;从所述第二标准句子中获取多个关键词样本;根据所述多个关键词样本从所述语料库中获取包含所述多个关键词样本的预设数量的标准句子样本;将所述多个关键词样本、包含所述多个关键词样本的预设数量的标准句子样本以及所述第二标准句子作为所述第三文本训练集的一组训练数据。
15.本技术第三方面的一个可选实施例中,所述第二文本训练集还包括第四文本训练集;所述第四文本训练集是根据所述第三文本训练集确定的。
16.本技术第三方面的一个可选实施例中,获取所述第四文本训练集,包括:使用所述第二标准句子替换所述多个关键词样本的预设数量的标准句子样本中的任意一个,得到替换后的预设数量的标准句子样本;将所述多个关键词样本、所述替换后的预设数量的标准句子样本以及所述第二标准句子作为所述第四文本训练集的一组训练数据。
17.本技术第三方面的一个可选实施例中,所述根据第二文本训练集对所述第一文本生成模型进行训练,生成最终的文本生成模型,包括:根据所述第三文本训练集以及第四文本训练集,对所述第一文本生成模型进行训练,在确定模型的总损失函数收敛时,生成最终的文本生成模型;其中,模型的总损失函数是根据第一损失函数、第二损失函数以及第一参数确定的,所述第一损失函数是根据所述第三文本训练集的训练过程确定的,所述第二损失函数是根据所述第四文本训练集的训练过程确定的。
18.本技术实施例的第四方面提供一种文本生成装置,包括:获取模块,用于获取用户输入的多个关键词,以及包含所述多个关键词的多个标准句子;处理模块,用于根据所述多个关键词以及所述多个标准句子生成多个候选句子,每个候选句子为与所述多个关键词相关的描述性句子;将所述多个候选句子中与所述多个关键词的相关程度最高的候选句子作为目标候选句子;发送模块,用于输出所述目标候选句子。
19.本技术实施例的第五方面提供一种文本生成装置,包括:获取模块,用于获取用户输入的与物品相关的多个关键词,以及包含所述多个关键词的多个标准句子;处理模块,用于根据所述多个关键词以及所述多个标准句子生成多个候选句子,每个候选句子为与所述多个关键词相关的用于描述所述物品的句子;将所述多个候选句子中与所述多个关键词的相关程度最高的候选句子作为目标候选句子,输出所述目标候选句子。
20.本技术实施例的第六方面提供一种文本生成模型的训练装置,包括:获取模块,用于获取第一文本训练集和第二文本训练集,所述第一文本训练集和所述第二文本训练集均包括多个关键词样本、语料库中包含所述多个关键词样本的预设数
量的标准句子样本以及包含所述多个关键词样本的原始句子样本;处理模块,用于根据第一文本训练集对初始的文本生成模型进行训练,生成第一文本生成模型,所述初始的文本生成模型为bart模型;根据第二文本训练集对所述第一文本生成模型进行训练,生成最终的文本生成模型。
21.本技术实施例的第七方面提供一种电子设备,包括:存储器,处理器以及计算机程序;所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面中任一项所述的方法,或者,如第二方面所述的方法,或者,如第三方面中任一项所述的方法。
22.本技术实施例的第八方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面中任一项所述的方法,或者,如第二方面所述的方法,或者,如第三方面中任一项所述的方法。
23.本技术实施例的第九方面提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法,或者,如第二方面所述的方法,或者,如第三方面中任一项所述的方法。
24.本技术实施例提供一种文本生成方法、模型的训练方法、设备及存储介质。其中文本生成方法包括:获取用户输入的多个关键词以及包含多个关键词的多个标准句子,根据多个关键词以及多个标准句子生成多个候选句子,其中标准句子用于辅助构建包含多个关键词的描述语句,即辅助构建候选句子。从多个候选句子中选取与多个关键词的相关程度最高的目标候选句子,将其作为最终的句子输出,从而实现基于用户输入的给定词构建高质量的描述性语句,提升智能系统文本生成的质量以及用户体验。上述方案可基于训练好的文本生成模型构建候选句子,通过构建丰富的文本训练集,使得文本生成模型能够充分学习如何使用给定词与标准句子生成候选句子,提高模型输出候选句子的质量。
附图说明
25.图1为本技术实施例提供的文本生成系统的结构示意图;图2为本技术实施例提供的文本生成方法的流程示意图;图3为本技术实施例提供的文本生成模型的训练方法的流程示意图;图4为本技术实施例提供的文本生成模型的文本训练集的示意图一;图5为本技术实施例提供的文本生成模型的文本训练集的示意图二;图6为本技术实施例提供的文本生成模型的文本训练集的示意图三;图7为本技术实施例提供的文本生成模型的文本训练集的示意图四;图8为本技术实施例提供的文本生成模型的文本训练集的示意图五;图9为本技术实施例提供的文本生成装置的结构示意图;图10为本技术实施例提供的文本生成模型的训练装置的结构示意图;图11为本技术实施例提供的电子设备的硬件结构图。
具体实施方式
26.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例
中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.本技术实施例的说明书、权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述之外的顺序实施。
28.应当理解,本文中使用的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.在本技术实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。
30.针对现有智能系统在给定词语场景下生成的句子质量低的问题,本技术实施例提供一种文本生成方法,用于提高智能系统的服务质量以及用户体验。其主要发明思路是:通过语料库获取包含用户输入的多个关键词(即给定词语)的多个标准句子,根据多个关键词以及多个标准句子生成多个可供选择的候选句子,最后从多个可供选择的候选句子中选择与多个关键词的相关程度最高的候选句子作为智能系统的最终输出。与相关技术不同的是,通过参照语料库的标准句子生成多个可供选择的候选句子,综合分析候选句子的质量,筛选并输出与多个关键词的相关程度最高的候选句子。上述处理过程降低了智能系统输出句子的错误率,提升了智能系统文本生成的质量以及用户体验。
31.本技术实施例提供的文本生成方法,可采用文本生成模型获取多个可供选择的候选句子,其中文本生成模型可采用bart(bidirectional and auto-regressive transformers,双向自回归变压器)模型,通过预训练、回顾增广训练、回顾微调训练过程得到。对此,本技术实施例还提供一种文本生成模型的训练方法,通过构建预训练的文本数据集、回顾增广训练的文本数据集、回顾微调训练的文本数据集,基于预训练的文本数据集,对初始的文本生成模型进行训练,获得第一文本生成模型,再基于回顾增广训练、回顾微调训练的至少一项,对第一文本生成模型进行训练,获得最终的文本生成模型。由于构建的用于训练的文本数据丰富,使得文本生成模型能够充分学习如何使用给定关键词与标准句子生成候选句子,提高文本生成模型输出候选句子的质量。
32.图1为本技术实施例提供的文本生成系统的结构示意图。如图1所示,该文本生成系统10包括:客户端11以及文本生成装置12,客户端11与文本生成装置12通信连接。
33.作为一种示例,客户端11获取用户输入的多个关键词,客户端11向文本生成装置12发送多个关键词。文本生成装置12接收来自客户端11的多个关键词后,通过语料库获取包含多个关键词的标准句子;通过预置的文本生成模型,将多个关键词以及包含多个关键词的标准句子作为文本生成模型的输入,通过调整文本生成模型的损失函数,获取多个候选句子;从多个候选句子中筛选出与多个关键词的相关程度最高的目标候选句子;向客户端11返回目标候选句子。
34.本技术实施例提供的文本生成装置可配置在各领域数据平台或智能系统中,例如电商、搜索、翻译等领域,为不同领域数据平台或系统提供文本生成服务,对此本技术实施例不做具体限定。
35.作为一种示例,将文本生成装置配置于电商平台,用户可通过电商平台的文本生成装置获取电商描述语句,文本生成装置使用的语料库包括电商领域的标准句子。例如,用户输入与物品相关的多个关键词,文本生成装置根据多个关键词获取用于描述物品的句子。
36.作为一种示例,将文本生成装置配置于搜索平台,如用户输入其感兴趣的多个搜索词,文本生成装置根据多个搜索词获取用于描述多个搜索词的翻译句子,翻译句子之时用户真实的搜索意图。文本生成装置使用的语料库包括用户历史搜索记录的句子信息。例如,用户输入的搜索词有“小米”,根据该用户历史搜索记录,可学习到该用户输入的搜索词“小米”并不是食物,而是电子品牌。基于文本生成装置的输出结果,辅助搜索平台向用户推荐相关信息。
37.下面通过具体实施例对本技术实施例提供的技术方案进行详细说明。需要说明的是,本技术实施例提供的技术方案可以包括以下内容中的部分或全部,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
38.图2为本技术实施例提供的文本生成方法的流程示意图。本实施例提供的文本生成方法可应用于图1所示的文本生成装置12。如图2所示,该方法包括如下步骤:步骤101、从客户端获取用户输入的多个关键词。
39.步骤102、获取包含多个关键词的多个标准句子。
40.本技术实施例中,用户输入的关键词的词性包括动词、名词、形容词等。示例性的,用户输入的多个关键词可以是多个名词,也可以是名词和动词的组合,还可以是名词和形容词的组合等,对此本技术实施例不做具体限定。
41.一种可选的实施方式中,获取包含多个关键词的多个标准句子,包括:从语料库中获取包含多个关键词的多个标准句子。其中,语料库包括目标领域相关的标准句子。以电商场景为例,语料库包括电商领域相关的标准句子,例如包括用于描述某类物品的多个模板句子。本实施方式通过语料库获取可供参考的多个标准句子,进而辅助生成候选句子。
42.可选的,在一些实施例中,标准句子也称为辅助句子。
43.一种可选的实施方式中,在获取包含多个关键词的多个标准句子后,还可以执行:通过句子打分器从多个标准句子中筛选出与多个关键词的相关程度大于阈值的标准句子。本实施方式首先通过语料库获取可供参考的多个标准句子,再通过句子打分器进一步筛选优质的标准句子,进而辅助生成更通顺和流利的候选句子。
44.可选的,句子打分器可采用分类器模型roberta训练得到,分类器模型的输入是句子和候选词语,分类器模型的输出衡量句子和候选词语的相关程度,相关程度可通过概率值或置信度表征。
45.例如,分类器模型的输出结果包括0和1,即句子打分器的打分结果包括0和1,0表示句子和候选词语相关,1表示句子和候选词语不相关,若分类器的输出结果0的概率值为0.8,1的概率值为0.2,概率阈值设置为0.7,可以确定句子和候选词语相关。
46.在分类器模型的训练阶段,可将已有数据中的候选词语和句子作为满分样本(正
样本),而随机从语料库中选取的句子作为零分样本(负样本),由分类器模型学习。应理解,随机从语料库中选取的句子与候选词语的相关度为0。
47.步骤103、根据多个关键词以及多个标准句子生成多个候选句子。
48.本技术实施例中,根据多个关键词以及多个标准句子生成的候选句子为与多个关键词相关的描述性句子。示例性的,以电商场景为例,关键词包括产品名称、产品属性特征、适用人群等,根据多个关键词以及语料库中与这些关键词相关的多个标准句子,可生成针对该产品的描述性句子。
49.一个可选实施例中,可基于文本生成模型、多个关键词以及多个标准句子,生成多个候选句子。其中,文本生成模型用于生成与多个关键词相关的描述语句。
50.可选的,文本生成模型可采用bart模型进行训练。具体的,文本生成模型可采用bart模型通过至少两轮训练过程得到,每轮训练使用的文本训练集不同,文本生成模型的具体训练过程参见后文实施例,此处不具体展开。
51.需要指出的是,文本生成模型的输入句子的预设数量记为n,n为大于1的正整数,例如n取3。文本生成模型的损失函数包括和两部分,可表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式一式中,和分别对应的文本生成模型采用的文本训练集不同,为权重参数。
52.可选的,文本生成模型还可采用其他模型,例如gpt,t5,bert-gen,ernie-gen等自然语言处理nlp模型,对此本技术实施例不做具体限定。
53.一种可能的情况下,若多个标准句子的数量大于文本生成模型的输入句子的预设数量n,从多个标准句子中选取n个标准句子,将多个关键词以及n个标准句子输入文本生成模型,获取相应的一个候选句子。进一步的,可通过调整文本生成模型中损失函数的第一参数,获取更多的候选句子。第一参数即公式一的。
54.可选的,从多个标准句子中选取n个标准句子,包括:通过句子打分器从多个标准句子中选取与多个关键词的相关程度从高到底排序的前n个标准句子。即通过句子打分器筛选出优质的n个标准句子。
55.一种可能的情况下,多个标准句子的数量等于文本生成模型的输入句子的预设数量n,则将多个关键词以及n个标准句子输入文本生成模型,可获得对应的一个候选句子。进一步的,可通过调整文本生成模型中损失函数的第一参数,获得更多的候选句子。
56.具体的,首先将多个关键词以及n个标准句子输入文本生成模型,获取第一候选句子,第一候选句子为多个候选句子的其中一个。随后调整文本生成模型中损失函数的第一参数,将多个关键词以及n个标准句子再次输入文本生成模型,获取第二候选句子,第二候选句子与第一候选句子不同。重复调整上述第一参数,获取更多的候选句子。
57.步骤104、将多个候选句子中与多个关键词的相关程度最高的候选句子作为目标候选句子。
58.一种可选的实施方式中,通过句子打分器获取每个候选句子与多个关键词的相关程度,将多个候选句子中与多个关键词的相关程度最高的候选句子作为目标候选句子。本实施方式通过句子打分器从多个候选句子中筛选出质量最佳的候选句子。
59.步骤105、输出目标候选句子。具体的,向客户端输出目标候选句子。
60.本技术实施例提供的文本生成方法,首先获取用户输入的多个关键词以及包含多个关键词的多个标准句子,根据多个关键词以及多个标准句子生成多个候选句子,其中标准句子用于辅助构建包含多个关键词的描述语句,即辅助构建候选句子。随后从多个候选句子中选取与多个关键词的相关程度最高的目标候选句子,将其作为最终的句子输出。上述方案实现了基于用户输入的给定词构建高质量的描述性语句的方案,可提升智能系统文本生成的质量以及用户体验。
61.作为一种示例,将上述方案应用于电商场景,可辅助用户构建相关物品语料。具体来说,获取来自客户端的用户输入的与物品相关的多个关键词,从语料库获取包含多个关键词的多个标准句子;根据多个关键词以及多个标准句子生成多个候选句子,每个候选句子为与多个关键词相关的用于描述物品的句子;随后将多个候选句子中与多个关键词的相关程度最高的候选句子作为目标候选句子,输出目标候选句子。可选的,基于文本生成模型、多个关键词以及多个标准句子生成多个候选句子,具体实现可参照上文实施例。
62.可选的,在一些实施例中,在将多个候选句子中与多个关键词的相关程度最高的候选句子作为目标候选句子之前,还可以执行:通过句子处理器对每个候选句子的描述进行修正。在完成句子修正后,从多个修正后的候选句子中选取与多个关键词的相关程度最高的句子,将其作为目标候选句子输出。
63.本实施例的句子处理器也称为句子润色器,用于修正句子中的明显错误,例如修正错别字、标点符号、增加连接词、剔除错误的重复词等。可选的,句子处理器可采用bart模型进行训练得到。句子处理器的训练过程包括:将标准句子中的部分字符随机删除,并且随机重复部分词语或片段,获得逻辑用词被破坏的句子;将逻辑用词被破坏的句子作为bart模型的输入,将原始的标准句子作为bart模型的输出,进行模型训练,在模型的损失函数收敛时,结束上述训练过程。其中模型的损失函数可表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式二式中,表示bart模型输出的句子,表示bart模型输入的句子,表示模型输入,输出的概率值。t表示句子中文本或词语的编号,例如t=1表示句子中的第1个文本或词语。
64.本技术实施例提供的文本生成方法,可采用文本生成模型来获取与多个给定词语相关的描述性语句,其中文本生成模型可采用bart模型训练得到,下面通过一个具体实施例对文本生成模型的训练过程进行详细说明。
65.图3为本技术实施例提供的文本生成模型的训练方法的流程示意图。如图3所示,该训练方法包括如下步骤:步骤201、获取第一文本训练集和第二文本训练集。
66.本技术实施例中,第一文本训练集和第二文本训练集均包括多个关键词样本、语料库中包含多个关键词样本的预设数量的标准句子样本以及包含多个关键词样本的原始句子样本。
67.第一文本训练集也称为预训练的文本训练集。作为一种示例,可通过如下步骤获取第一文本训练集的一组训练数据:从语料库中随机选取第一标准句子,第一标准句子为
语料库中的任意一个;从第一标准句子中获取多个关键词样本;根据多个关键词样本从语料库中获取包含多个关键词样本的预设数量的标准句子样本;将多个关键词样本、包含多个关键词样本的预设数量的标准句子样本以及第一标准句子作为第一文本训练集的一组训练数据。
68.示例性的,图4为本技术实施例提供的文本生成模型的文本训练集的示意图一。如图4所示,首先从语料库随机选取一个标准句子,从标准句子中提取关键词,例如标准句子中的动名词。随后基于关键词从语料库中获取(检索)与关键词最相关的预设数量的标准句子,例如预设数量为3,与关键词最相关的3个标准句子分别记为,,。将关键词以及标准句子,,作为文本生成模型的输入,将标准句子作为文本生成模型的输出,训练文本生成模型使用给定的关键词与标准句子还原原始的标准句子。本实施例中的关键词、标准句子,,以及可看作是第一文本训练集的一组训练数据。基于上述过程可构建第一文本训练集的更多训练数据。
69.第二文本训练集包括回顾增广训练的文本训练集,和/或,回顾微调训练的文本训练集。为了方便描述,回顾增广训练的文本训练集在后文中称为第三文本训练集,回顾微调训练的文本训练集在后文中称为第四文本训练集。
70.下面分别对第三文本训练集和第四文本训练集的构建进行说明。
71.作为一种示例,可通过如下步骤获取第三文本训练集的一组训练数据:获取用户输入的多个关键词;从语料库中获取包含多个关键词的第二标准句子;从第二标准句子中获取多个关键词样本;根据多个关键词样本从语料库中获取包含多个关键词样本的预设数量的标准句子样本;将多个关键词样本、包含多个关键词样本的预设数量的标准句子样本以及第二标准句子,作为第三文本训练集的一组训练数据。
72.示例性的,图5为本技术实施例提供的文本生成模型的文本训练集的示意图二。如图5所示,首先基于目标用户输入的关键词x,从语料库中获取与关键词x最相关的预设数量的标准句子,例如预设数量为3,与关键词x相关的3个标准句子分别记为p1,p2,p3。随后从3个标准句子中随机选取其中一个,例如选取标准句子p3,从标准句子p3中重新提取关键词,该关键词记为,基于关键词从语料库中获取与关键词最相关的3个标准句子,分别记为p4,p5,p6。将关键词以及标准句子p4,p5,p6作为文本生成模型的输入,将标准句子p3作为文本生成模型的输出,训练文本生成模型使用与目标用户查询或搜索相关的关键词与标准句子还原原始的标准句子,该训练过程可看作是针对目标用户的历史查询或搜索记录进行的训练。本实施例中的关键词、标准句子p4,p5,p6以及p3可看作是第三文本训练集的一组训练数据。基于上述过程可构建第三文本训练集的更多训练数据。
73.本技术实施例中,第四文本训练集是根据第三文本训练集确定的,即基于第三文本训练集的训练数据来构建第四文本训练集的训练数据。
74.作为一种示例,可通过如下步骤获取第四文本训练集的一组训练数据:使用第二标准句子替换多个关键词样本的预设数量的标准句子样本中的任意一个,得到替换后的预设数量的标准句子样本;将多个关键词样本、替换后的预设数量的标准句子样本以及第二标准句子作为第四文本训练集的一组训练数据。
75.示例性的,图6为本技术实施例提供的文本生成模型的文本训练集的示意图三。基于图5所示的一组训练数据,如图6所示,从标准句子p4,p5,p6中随机选取一个标准句子,例如选取标准句子p6,将标准句子p6替换为原始的标准句子p3,标准句子p3即为最终模型输出的句子。将关键词以及标准句子p4,p5,p3作为文本生成模型的输入,将标准句子p3作为文本生成模型的输出,训练文本生成模型使用与目标用户查询或搜索相关的关键词与标准句子还原原始的标准句子,该训练过程可看作是针对目标用户的历史查询或搜索记录进行的扩展训练。本实施例中的关键词、标准句子p4,p5,p3可看作是第四文本训练集的一组训练数据。基于上述过程可构建第四文本训练集的更多训练数据。
76.综上可知,第一文本训练集的训练数据用于文本生成模型学习目标领域语料库的描述语句,第二文本训练集的训练数据用于文本生成模型学习与用户相关的目标领域的描述语句。
77.步骤202、根据第一文本训练集对初始的文本生成模型进行训练,生成第一文本生成模型。可选的,初始的文本生成模型为bart模型。
78.具体的,根据第一文本训练集对初始的文本生成模型进行训练,在确定模型的损失函数收敛时,生成第一文本生成模型。结合图4所示的文本训练集示例,本实施例中,模型的损失函数可表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式三本步骤的训练过程可称为预训练过程,根据第一文本训练集对初始的文本生成模型进行训练,学习目标领域语料库的描述语句,使得第一文本生成模型基于目标领域的文本关键词,生成与目标领域的文本关键词相关的描述语句。
79.步骤203、根据第二文本训练集对第一文本生成模型进行训练,生成最终的文本生成模型。
80.本技术实施例中,第二文本训练集包括第三文本训练集,和/或,第四文本训练集。
81.作为一种示例,根据第二文本训练集对第一文本生成模型进行训练,生成最终的文本生成模型,包括:根据第二文本训练集中的第三文本训练集,对第一文本生成模型进行训练,在确定模型的第一损失函数收敛时,生成最终的文本生成模型。
82.基于图5所示的文本训练集示例,为了与预训练过程中模型的损失函数(即公式三)进行对比,将图5中的用代替表示,将p4,p5,p6分别用p1,p2,p3代替表示,将p3用y代替表示,将、p1,p2,p3以及y可看作是第三文本训练集的一组训练数据,参见图7。那么,本示例中,模型的第一损失函数可表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式四作为一种示例,根据第二文本训练集对第一文本生成模型进行训练,生成最终的文本生成模型,包括:根据第二文本训练集中的第四文本训练集,对第一文本生成模型进行训练,在确定模型的第二损失函数收敛时,生成最终的文本生成模型。
83.基于图7所示的文本训练集示例,将图7中的p3替换为y,将、p1,p2以及y可看作是第四文本训练集的一组训练数据,参见图8。那么,本示例中,模型的第二损失函数可表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式五作为一种示例,根据第二文本训练集对第一文本生成模型进行训练,生成最终的文本生成模型,包括:根据第三文本训练集以及第四文本训练集,对第一文本生成模型进行训练,在确定模型的总损失函数收敛时,生成最终的文本生成模型。其中,模型的总损失函数是根据第一损失函数、第二损失函数以及第一参数确定的,第一损失函数是根据第三文本训练集的训练过程确定的,第二损失函数是根据第四文本训练集的训练过程确定的。模型的总损失函数可基于公式一、公式四以及公式五确定。
84.本技术实施例示出的文本生成模型的训练方法,通过语料库构建第一文本训练集,根据第一文本训练集对初始的文本生成模型进行预训练,得到第一文本生成模型;再通过用户输入的给定词和语料库构建第二文本训练集,在第一文本生成模型的基础上,根据第二文本训练集进行再次训练,得到最终的文本生成模型。由于本实施例构建的文本训练数据丰富,使得文本生成模型能够充分学习如何使用给定词与标准句子生成候选句子,提高文本生成模型输出候选句子的质量。
85.上文描述了本技术实施例提供的文本生成方法以及文本生成模型的训练方法,下面将描述本技术实施例提供的文本生成装置以及文本生成模型的训练装置。本技术实施例可以根据上述方法实施例对文本生成装置以及文本生成模型的训练装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现,也可以使用软件功能模块的形式实现。需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。
86.图9为本技术实施例提供的文本生成装置的结构示意图。如图9所示,本实施例提供的文本生成装置300,包括:获取模块301,处理模块302以及发送模块302。
87.获取模块301,用于获取用户输入的多个关键词,以及包含所述多个关键词的多个标准句子;处理模块302,用于根据所述多个关键词以及所述多个标准句子生成多个候选句子,每个候选句子为与所述多个关键词相关的描述性句子;将所述多个候选句子中与所述多个关键词的相关程度最高的候选句子作为目标候选句子;发送模块302,用于输出所述目标候选句子。
88.本实施例的一个可选实施例中,所述处理模块302,用于:基于文本生成模型、所述多个关键词以及所述多个标准句子,生成所述多个候选句子;所述文本生成模型是采用bart模型通过至少两轮训练过程得到的、用于生成与所述多个关键词相关的描述语句的模型。
89.本实施例的一个可选实施例中,若所述多个标准句子的数量等于预设数量n,n为大于1的正整数;所述处理模块302,用于:将所述多个关键词以及n个标准句子输入所述文本生成模型,获取第一候选句子,所述第一候选句子为所述多个候选句子的其中一个;
调整所述文本生成模型中损失函数的第一参数,将所述多个关键词以及所述n个标准句子再次输入所述文本生成模型,获取第二候选句子,所述第二候选句子与所述第一候选句子不同;重复调整所述第一参数,获取所述多个候选句子。
90.本实施例的一个可选实施例中,若所述多个标准句子的数量大于预设数量n,n为大于1的正整数;所述处理模块302,用于:通过句子打分器从所述多个标准句子中选取与所述多个关键词的相关程度从高到低排序的前n个标准句子。
91.本实施例的一个可选实施例中,所述获取模块301,用于:从语料库中获取包含所述多个关键词的多个标准句子,所述语料库包括目标领域相关的标准句子。
92.本实施例的一个可选实施例中,所述处理模块302,用于:通过句子打分器从所述多个标准句子中筛选出与所述多个关键词的相关程度大于阈值的标准句子。
93.本实施例的一个可选实施例中,所述处理模块302,用于:通过句子打分器获取每个候选句子与所述多个关键词的相关程度;将所述多个候选句子中与所述多个关键词的相关程度最高的候选句子作为所述目标候选句子。
94.本实施例的一个可选实施例中,获取模块301,用于获取用户输入的与物品相关的多个关键词,以及包含所述多个关键词的多个标准句子;处理模块302,用于根据所述多个关键词以及所述多个标准句子生成多个候选句子,每个候选句子为与所述多个关键词相关的用于描述所述物品的句子;将所述多个候选句子中与所述多个关键词的相关程度最高的候选句子作为目标候选句子;发送模块303,用于输出所述目标候选句子。
95.本实施例提供的文本生成装置,可以执行前述图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
96.图10为本技术实施例提供的文本生成模型的训练装置的结构示意图。如图10所示,本实施例提供的文本生成模型的训练装置400,包括:获取模块401以及处理模块402。
97.获取模块401,用于获取第一文本训练集和第二文本训练集,所述第一文本训练集和所述第二文本训练集均包括多个关键词样本、语料库中包含所述多个关键词样本的预设数量的标准句子样本以及包含所述多个关键词样本的原始句子样本;处理模块402,用于根据第一文本训练集对初始的文本生成模型进行训练,生成第一文本生成模型,所述初始的文本生成模型为bart模型;根据第二文本训练集对所述第一文本生成模型进行训练,生成最终的文本生成模型。
98.本实施例的一个可选实施例中,获取模块401,用于:从所述语料库中随机选取第一标准句子,所述第一标准句子为所述语料库中的任意一个;从所述第一标准句子中获取多个关键词样本;
根据所述多个关键词样本从所述语料库中获取包含所述多个关键词样本的预设数量的标准句子样本;将所述多个关键词样本、包含所述多个关键词样本的预设数量的标准句子样本以及所述第一标准句子作为所述第一文本训练集的一组训练数据。
99.本实施例的一个可选实施例中,所述第二文本训练集包括第三文本训练集,所述获取模块401,用于:获取用户输入的多个关键词;从所述语料库中获取包含所述多个关键词的第二标准句子;从所述第二标准句子中获取多个关键词样本;根据所述多个关键词样本从所述语料库中获取包含所述多个关键词样本的预设数量的标准句子样本;将所述多个关键词样本、包含所述多个关键词样本的预设数量的标准句子样本以及所述第二标准句子作为所述第三文本训练集的一组训练数据。
100.本实施例的一个可选实施例中,所述第二文本训练集还包括第四文本训练集;所述第四文本训练集是根据所述第三文本训练集确定的。
101.本实施例的一个可选实施例中,所述获取模块401,用于:使用所述第二标准句子替换所述多个关键词样本的预设数量的标准句子样本中的任意一个,得到替换后的预设数量的标准句子样本;将所述多个关键词样本、所述替换后的预设数量的标准句子样本以及所述第二标准句子作为所述第四文本训练集的一组训练数据。
102.本实施例的一个可选实施例中,所述处理模块402,用于:根据所述第三文本训练集以及第四文本训练集,对所述第一文本生成模型进行训练,在确定模型的总损失函数收敛时,生成最终的文本生成模型;其中,模型的总损失函数是根据第一损失函数、第二损失函数以及第一参数确定的,所述第一损失函数是根据所述第三文本训练集的训练过程确定的,所述第二损失函数是根据所述第四文本训练集的训练过程确定的。
103.本实施例提供的文本生成模型的训练装置,可以执行前述图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
104.图11为本技术实施例提供的电子设备的硬件结构图。如图11所示,本实施例提供的电子设备500,包括:存储器501,处理器502以及计算机程序;其中,计算机程序存储在存储器501中,并被配置为由处理器502执行以实现前述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
105.可选的,存储器501既可以是独立的,也可以跟处理器502集成在一起。当存储器501是独立于处理器502之外的器件时,电子设备500还包括:总线503,用于连接存储器501和处理器502。
106.本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器502执行以实现如前述任一方法实施例的技术方案。
107.本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前述任一方法实施例的技术方案。
108.本技术实施例还提供了一种芯片,包括:处理模块与通信接口,该处理模块能执行前述任一方法实施例的技术方案。进一步地,该芯片还包括存储模块(如,存储器),存储模块用于存储指令,处理模块用于执行存储模块存储的指令,并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例的技术方案。
109.应理解,上述处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
110.存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。
111.总线可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(peripheral component,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
112.上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
113.一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits,简称:asic)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备中。
114.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例的技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献