对话模型训练、对话生成方法、系统、计算机和存储介质与流程

2022-02-25 23:26:26 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别是涉及一种基于生成式对抗网络的对话模型训练、对话生成方法、系统、计算机设备和计算机可读存储介质。

背景技术：

2.对话系统或对话代理(dialogue system)是旨在与人对话的计算机系统。对话系统采用文本，语音，图形，触觉，手势和其他模式中的一种或多种在输入和输出通道上进行通信。对话生成(dialogue generation)是对话系统中的一个核心算法和功能模块。
3.目前生成式对话主要包括两种实现方案：基于pipeline的方法和基于深度学习网络的方法。其中，基于pipeline的对话生成方法主要包括：自然语言理解、对话状态管理、自然语言生成三个部分，由于基于pipeline模型的整体表现受制于所有的部分，所以模型的泛化能力较差。而基于深度学习网络的多轮对话生成方式主要受限于对往轮对话信息的存储和利用，随着对话轮数的增加背景信息也随之增加，而且对话的方式和序列长度等基本信息都不受控制，对对话系统存储能力的需求较高。

技术实现要素：

4.本技术实施例提供了一种基于生成式对抗网络的对话模型训练、对话生成方法、系统、计算机设备和计算机可读存储介质，提高对话模型的鲁棒性和准确率，提高对话生成的准确率。
5.第一方面，本技术实施例提供了一种对话模型训练方法，所述对话模型包括生成器和判别器，所述方法包括：
6.数据集获取步骤，获取训练数据集，所述训练数据集包括若干由样本语句及其真实回复语句组成的真实语句对；
7.判别器训练步骤，通过一样本选择器将所述样本语句输入所述生成器生成伪造回复语句，基于所述伪造回复语句及真实回复语句构造判别器训练集后，输入所述判别器判别是否真实；
8.生成器训练优化步骤，获取所述判别器训练步骤的判别结果，基于所述判别器的判别结果抑制或放大所述判别结果对应样本的损失数值，直至所述生成器的损失函数不再下降；
9.交替训练步骤，以所述判别器的损失函数或所述生成器的损失函数不在下降作为交替条件，交替执行所述生成器训练优化步骤或所述判别器训练步骤，直至所述判别器及生成器的损失函数均不再下降。
10.通过上述步骤，本技术使用生成式对抗网络的方式训练对话生成模型，从自然语言理解的角度增加该对话模型的鲁棒性和准确率，相比于普通的单一模型训练方式提高了模型训练的难度，使得模型进一步去拟合真实回复的语言特征，进一步使模型生成的对话具有真实性。
11.在其中一些实施例中，所述判别器训练步骤进一步包括：
12.伪造回复获取步骤，通过所述样本选择器抽取所述样本语句输入至所述生成器，通过所述生成器生成伪造回复语句；需要说明的是，此时的所述生成器是初始阶段使用、未经优化训练的。
13.判别器训练集获取步骤，抽取一设定比例的所述真实回复语句，利用所述真实回复语句和所述伪造回复语句构建判别器训练集；
14.判别器训练步骤，输入所述判别器训练集至所述判别器，所述判别器判别所述判别器训练集中语句为真实或伪造；也即判别是否为来自训练数据集的真实回复语句或生成器输出的伪造回复语句；
15.判别器训练优化步骤，重复执行所述伪造回复获取步骤、判别器训练集获取步骤及判别器训练步骤，直至所述判别器的损失函数不再下降。
16.通过上述步骤，本技术实施例的目的在于通过检测伪造回复语句和真实回复语句的差别，有助于对话模型学习真实回复语句的特征。
17.在其中一些实施例中，所述生成器训练优化步骤中，抑制或放大所述判别结果对应样本的损失数值进一步包括：
18.若所述伪造回复语句的判别结果为伪造，则将该伪造回复语句对应样本的损失数值乘一放大参数α；
19.若所述伪造回复语句的判别结果为真实，则将该伪造回复语句对应样本的损失数值乘一抑制参数β，其中，α＞1，β＜1。
20.通过上述步骤，本技术实施例基于判别器的判别结果进行损失数值的抑制或放大，从而给予生成器奖励或惩罚，使得优化生成器的伪造回复语句更接近真实回复语句；利用判别器模型从语义的角度对生成的伪造回复语句质量进行评定，避免了固定的指标对语言文本挖掘深度不够的情况，提高对话生成准确率。
21.在其中一些实施例中，所述生成器训练优化步骤中，抑制或放大所述判别结果对应样本的损失数值还包括：
22.若所述伪造回复语句的判别结果为伪造的次数为n次，则将该伪造回复语句对应样本的损失数值乘一放大参数αn；
23.若所述伪造回复语句的判别结果为真实的次数为n次，则将该伪造回复语句对应样本的损失数值乘一抑制参数βn，其中，α＞1，β＜1，n》1。
24.第二方面，本技术实施例提供了一种对话生成方法，包括：
25.用户查询获取步骤，获取用户输入的查询语句；
26.回复语句生成步骤，使用生成器作为对话生成模型，将所述查询语句输入所述生成器，得到与所述查询语句对应的回复语句；
27.其中，所述生成器是采用如上述第一方面所述的对话模型训练方法训练得到。
28.第三方面，本技术实施例提供了一种对话模型训练系统，所述对话模型包括生成器和判别器，所述系统包括：
29.数据集获取模块，用于获取训练数据集，所述训练数据集包括若干由样本语句及其真实回复语句组成的真实语句对；
30.判别器训练模块，用于通过一样本选择器将所述样本语句输入所述生成器生成伪
造回复语句，基于所述伪造回复语句及真实回复语句构造判别器训练集后，输入所述判别器判别是否真实；
31.生成器训练优化模块，用于获取所述判别器训练模块的判别结果，基于所述判别器的判别结果抑制或放大所述判别结果对应样本的损失数值，直至所述生成器的损失函数不再下降。
32.交替训练模块，用于以所述判别器的损失函数或所述生成器的损失函数不在下降作为交替条件，交替执行所述生成器训练优化模块或所述判别器训练模块，直至所述判别器及生成器的损失函数均不再下降。
33.通过上述模块，本技术使用生成式对抗网络的方式训练对话生成模型，从自然语言理解的角度增加该对话生成模型的鲁棒性和准确率，相比于普通的单一模型训练方式提高了模型训练的难度，使得模型进一步去拟合标注回复的语言特征。
34.在其中一些实施例中，所述判别器训练模块进一步包括：
35.伪造回复获取模块，用于通过所述样本选择器抽取所述样本语句输入至所述生成器，通过所述生成器生成伪造回复语句；需要说明的是，此时的所述生成器是初始阶段使用、未经优化训练的。
36.判别器训练集获取模块，用于抽取一设定比例的所述真实回复语句，利用所述真实回复语句和所述伪造回复语句构建判别器训练集；
37.判别器训练模块，用于输入所述判别器训练集至所述判别器，所述判别器判别所述判别器训练集中语句为真实或伪造；也即判别是否为来自训练数据集的真实回复语句或生成器输出的伪造回复语句。
38.判别器训练优化模块，用于重复执行所述伪造回复获取模块、判别器训练集获取模块及判别器训练模块，直至所述判别器的损失函数不再下降。
39.通过上述模块，本技术实施例的目的在于通过检测伪造回复语句和真实回复语句的差别，有助于对话模型学习真实回复语句的特征。
40.在其中一些实施例中，所述生成器训练优化模块中，抑制或放大所述判别结果对应样本的损失数值的具体原理为：
41.若所述伪造回复语句的判别结果为伪造，则将该伪造回复语句对应样本的损失数值乘一放大参数α；
42.若所述伪造回复语句的判别结果为真实，则将该伪造回复语句对应样本的损失数值乘一抑制参数β，其中，α＞1，β＜1。
43.通过上述步骤，本技术实施例基于判别器的判别结果进行损失数值的抑制或放大，从而给予生成器奖励或惩罚，使得优化生成器的伪造回复语句更接近真实回复语句；利用判别器模型从语义的角度对生成的伪造回复语句质量进行评定，避免了固定的指标对语言文本挖掘深度不够的情况，提高对话生成准确率。
44.在其中一些实施例中，考虑到某一样本可能多次被抽取进所述生成器，针对这一情况，所述生成器训练优化模块中，抑制或放大所述判别结果对应样本的损失数值的具体原理还包括：
45.若所述伪造回复语句的判别结果为伪造的次数为n次，则将该伪造回复语句对应样本的损失数值乘一放大参数αn；
46.若所述伪造回复语句的判别结果为真实的次数为n次，则将该伪造回复语句对应样本的损失数值乘一抑制参数βn，其中，α＞1，β＜1，n》1。
47.第四方面，本技术实施例提供了一种对话生成系统，包括：
48.用户查询获取模块，用于获取用户输入的查询语句；
49.回复语句生成模块，用于使用生成器作为对话生成模型，将所述查询语句输入所述生成器，得到与所述查询语句对应的回复语句；其中，所述生成器是采用如上述第一方面所述的对话模型训练方法训练得到。
50.第五方面，本技术实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的对话模型训练方法和/或实现如上述第二方面所述的对话生成方法。
51.第六方面，本技术实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的对话模型训练方法和/或实现如上述第二方面所述的对话生成方法。
52.相比于相关技术，本技术实施例提供的基于生成式对抗网络的对话模型训练、对话生成方法、系统、计算机设备和计算机可读存储介质，具体涉及一种知识图谱技术，使用生成式对抗网络的方式训练对话生成模型，从自然语言理解的角度增加该对话模型的鲁棒性和准确率，相比于普通的单一模型训练方式提高了模型训练的难度，通过生成器和判别器的对抗训练，使生成器输出的伪造回复语句与真实回复语句近似甚至相同，相比于普通的单一模型训练方式提高了模型训练的难度，使得模型进一步去拟合真实回复的语言特征，进一步使模型生成的对话具有真实性。另外，本技术不需要维护一个很海量的聊天语料库，对存储能力具有较好的包容性，而且应用环境灵活。
53.本技术的一个或多个实施例的细节在以下附图和描述中提出，以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
54.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
55.图1是根据本技术实施例的对话模型训练方法的流程图；
56.图2是根据本技术实施例的对话模型训练方法的分步骤流程图；
57.图3是根据本技术优选实施例的对话模型训练方法的流程图；
58.图4是根据本技术优选实施例的对话模型训练方法的原理示意图；
59.图5是根据本技术实施例的对话生成方法的流程图；
60.图6是根据本技术实施例的对话模型训练系统的结构框图；
61.图7是根据本技术实施例的对话生成系统的结构框图；
62.图8为根据本技术实施例的计算机设备的硬件结构示意图。
63.其中：
64.1、数据集获取模块；2、判别器训练模块；3、生成器训练优化模块；
65.4、交替训练模块；201、伪造回复获取模块；202、判别器训练集获取模块；
66.203、判别器训练模块；204、判别器训练优化模块；
67.501、用户查询获取模块；502、回复语句生成模块。
具体实施方式
68.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。基于本技术提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
69.显而易见地，下面描述中的附图仅仅是本技术的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本技术应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本技术公开的内容相关的本领域的普通技术人员而言，在本技术揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本技术公开的内容不充分。
70.在本技术中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本技术所描述的实施例在不冲突的情况下，可以与其它实施例相结合。
71.除非另作定义，本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本技术所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。
72.本实施例提供了一种对话模型训练方法，对话模型包括生成器和判别器，可选的但不限于，本技术的生成器基于gpt(generative pre-training)构建、判别器基于bert模型构建，生成器也可以是基于roberta模型或其他分类模型构建，判别器也可以是基于gpt-2和gpt-large等一系列语言模型。图1-2是根据本技术实施例的对话生成方法的流程图，如图1-2所示，该流程包括如下步骤：
73.数据集获取步骤s1，获取训练数据集data set，训练数据集包括若干由样本语句及其真实回复语句组成的真实语句对《query，response》；
74.判别器训练步骤s2，通过一样本选择器将样本语句输入生成器生成伪造回复语
句，基于伪造回复语句及真实回复语句构造判别器训练集后，输入判别器判别是否真实；
75.生成器训练优化步骤s3，获取判别器训练步骤的判别结果，基于判别器的判别结果抑制或放大判别结果对应样本的损失数值，直至生成器gpt_loss的损失函数不再下降。
76.交替训练步骤s4，以判别器的损失函数或生成器的损失函数不在下降作为交替条件，交替执行生成器训练优化步骤s3或判别器训练步骤s2，直至判别器及生成器的损失函数均不再下降。
77.通过上述步骤，本技术使用生成式对抗网络的方式训练对话生成模型，从自然语言理解的角度增加该对话模型的鲁棒性和准确率，相比于普通的单一模型训练方式提高了模型训练的难度，使得模型进一步去拟合真实回复的语言特征，进一步使模型生成的对话具有真实性。
78.在其中一些实施例中，判别器训练步骤s2进一步包括：
79.伪造回复获取步骤s201，通过样本选择器抽取样本语句query输入至生成器，通过生成器生成伪造回复语句fake response；需要说明的是，此时的生成器是初始阶段使用、未经优化训练的。可选的，该样本选择器是基于bert模型构建的预训练的语义相似度模型。基于此，每次样本选择器抽取的样本语句均是语义相似度较高的样本，可以理解为对样本进行了聚类选择，使生成器和判别器训练过程中的样本更有针对性，提高生成器和判别器的训练效率。具体语义相似度的阈值可根据实际需求灵活设置，在此不做赘述。
80.判别器训练集获取步骤s202，抽取一设定比例的真实回复语句response，利用真实回复语句response和伪造回复语句fake response构建判别器训练集；
81.判别器训练步骤s203，输入判别器训练集至判别器，判别器判别判别器训练集中语句为真实或伪造；也即判别是否为来自训练数据集的真实回复语句或生成器输出的伪造回复语句。
82.判别器训练优化步骤s204，重复执行伪造回复获取步骤s201、判别器训练集获取步骤s202及判别器训练步骤s203，直至判别器的损失函数bert_loss不再下降；
83.需要说明的是，伪造回复获取步骤s201第一次执行时，随机在训练数据集中抽取一样本语句并输入生成器和样本选择器中，样本选择器基于该样本语句对训练数据集中的所有样本评分，并选择评分最高的作为下一样本语句参与伪造回复获取步骤s201。
84.通过上述步骤，本技术实施例的目的在于通过检测伪造回复语句和真实回复语句的差别，有助于对话模型学习真实回复语句的特征。
85.在其中一些实施例中，生成器训练优化步骤s3中，抑制或放大判别结果对应样本的损失数值进一步包括：
86.若伪造回复语句fake response的判别结果为伪造，则将该伪造回复语句fake response对应样本的损失数值乘一放大参数α；
87.若伪造回复语句fake response的判别结果为真实，则将该伪造回复语句fake response对应样本的损失数值乘一抑制参数β，其中，α＞1，β＜1。
88.通过上述步骤，本技术实施例基于判别器的判别结果进行损失数值的抑制或放大，从而给予生成器奖励或惩罚，使得优化生成器的伪造回复语句更接近真实回复语句；利用判别器模型从语义的角度对生成的伪造回复语句质量进行评定，避免了固定的指标对语言文本挖掘深度不够的情况，提高对话生成准确率。
89.在其中一些实施例中，生成器训练优化步骤s3中，抑制或放大判别结果对应样本的损失数值还包括：
90.若伪造回复语句fake response的判别结果为伪造的次数为n次，则将该伪造回复语句fake response对应样本的损失数值乘一放大参数αn；
91.若伪造回复语句fake response的判别结果为真实的次数为n次，则将该伪造回复语句fake response对应样本的损失数值乘一抑制参数βn，其中，α＞1，β＜1，n》1。
92.下面通过优选实施例对本技术实施例进行描述和说明。
93.图3是根据本技术优选实施例的对话生成方法的流程图，图4是根据本技术优选实施例的对话模型训练方法的原理示意图。如图3-4所示，该对话生成方法包括如下步骤：
94.步骤s301，构建或者获取数据集data set，数据集data set有多个真实语句对《query，response》组成。
95.步骤s302，通过样本选择器在数据集中取出若干个query输入给生成器gpt，生成器gpt生成相应的伪造回复，其中，此时生成器gpt为初始阶段使用未经优化训练的，该样本选择器通过bert模型来实现，是一个已经训练好的语义相似度模型。
96.步骤s303，在数据集中取出一定比例的真实语句对的response，和步骤s302中生成的伪造回复组合为一个训练集，利用该训练集训练判别器bert，判别语句对是来自数据集还是生成器gpt生成的，若来自数据集标记为true，否则为fake。
97.步骤s304，重复步骤s302、步骤s303，训练判别器bert，直至判别器bert的损失函数loss数值不再下降。
98.步骤s305，训练生成器gpt，当生成器gpt伪造回复被判别器bert判定为fake，将该样本的损失数值乘以α,(α》1)；反之被判定为true，将该样本的损失数值乘以β,(β＜1)。反复训练生成器gpt，直至生成器的损失函数loss数值不再下降。若该条样本对应的伪造回复被判别器发现的次数为n，该样本的损失数值乘以αn；反之，该样本的损失数值乘以βn。
99.步骤s306，生成器gpt和判别器bert交替训练优化，直至二者的损失函数loss数值都不再下降，停止训练优化。
100.步骤s307，训练停止之后，使用生成器gpt作为对话生成模型。
101.需要说明的是，在第一次训练时候在数据集data set中随机取出一个样本，这个样本同时输入到生成器gpt和样本选择器中，样本选择器基于该样本对数据集中除它之外的所有样本打分，得分最高的样本作为下一次的训练样本。直至生成器gpt的loss不再下降。
102.另外，本实施例还提供了一种对话生成方法。图5是根据本技术实施例的对话生成方法的流程图，如图5所示，该流程包括如下步骤：
103.用户查询获取步骤s501，获取用户输入的查询语句；
104.回复语句生成步骤s502，使用生成器作为对话生成模型，将查询语句输入生成器，得到与查询语句对应的回复语句；其中，生成器是采用如上述实施例的对话模型训练方法训练得到。
105.通过上述步骤提供鲁棒性强且准确性高的对话生成方法，可应用于客服系统或其他对话模型中，做出符合真实情景的回复。
106.需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计
算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
107.本实施例还提供了一种对话模型训练系统，该对话模型包括生成器和判别器，可选的但不限于，本技术的生成器基于gpt(generative pre-training)构建、判别器基于bert模型构建，生成器也可以是基于roberta模型或其他分类模型构建，判别器也可以是基于gpt-2和gpt-large等一系列语言模型，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
108.图6是根据本技术实施例的对话模型训练系统的结构框图，如图6所示，该系统包括数据集获取模块1、判别器训练模块2、生成器训练优化模块3及交替训练模块4，其中：
109.数据集获取模块1，用于获取训练数据集data set，训练数据集包括若干由样本语句及其真实回复语句组成的真实语句对《query，response》；
110.判别器训练模块2，用于通过一样本选择器将样本语句输入生成器生成伪造回复语句，基于伪造回复语句及真实回复语句构造判别器训练集后，输入判别器判别是否真实；其中，判别器训练模块2进一步包括：伪造回复获取模块201、判别器训练集获取模块202、判别器训练模块203及判别器训练优化模块204。
111.具体的，伪造回复获取模块201，用于通过样本选择器抽取样本语句query输入至生成器，通过生成器生成伪造回复语句fake response；需要说明的是，此时的生成器是初始阶段使用、未经优化训练的。可选的，该样本选择器是基于bert模型构建的预训练的语义相似度模型。基于此，每次样本选择器抽取的样本语句均是语义相似度较高的样本，可以理解为对样本进行了聚类选择，使生成器和判别器训练过程中的样本更有针对性，提高生成器和判别器的训练效率。具体语义相似度的阈值可根据实际需求灵活设置，在此不做赘述。判别器训练集获取模块202，用于抽取一设定比例的真实回复语句，利用真实回复语句response和伪造回复语句fake response构建判别器训练集；判别器训练模块203，用于输入判别器训练集至判别器，判别器判别判别器训练集中语句为真实或伪造；也即判别是否为来自训练数据集的真实回复语句或生成器输出的伪造回复语句。判别器训练优化模块204，用于重复执行伪造回复获取模块201、判别器训练集获取模块202及判别器训练模块203，直至判别器的损失函数bert_loss不再下降。基于上述模块，本技术实施例的目的在于通过检测伪造回复语句和真实回复语句的差别，有助于对话模型学习真实回复语句的特征。
112.需要说明的是，伪造回复获取模块第一次执行时，随机在训练数据集中抽取一样本语句并输入生成器和样本选择器中，样本选择器基于该样本语句对训练数据集中的所有样本评分，并选择评分最高的作为下一样本语句参与伪造回复获取模块。
113.生成器训练优化模块3，用于获取判别器训练模块203的判别结果，基于判别器的判别结果抑制或放大判别结果对应样本的损失数值，直至生成器gpt_loss的损失函数不再下降。其中，抑制或放大判别结果对应样本的损失数值的具体原理为：若伪造回复语句的判别结果为伪造，则将该伪造回复语句对应样本的损失数值乘一放大参数α；若伪造回复语句的判别结果为真实，则将该伪造回复语句对应样本的损失数值乘一抑制参数β，其中，α＞1，
β＜1。通过上述步骤，本技术实施例基于判别器的判别结果进行损失数值的抑制或放大，从而给予生成器奖励或惩罚，使得优化生成器的伪造回复语句更接近真实回复语句；利用判别器模型从语义的角度对生成的伪造回复语句质量进行评定，避免了固定的指标对语言文本挖掘深度不够的情况，提高对话生成准确率。
114.另外，考虑到某一样本可能多次被抽取进生成器生成伪造回复，针对这一情况，生成器训练优化模块3中，抑制或放大判别结果对应样本的损失数值的具体原理还包括：若伪造回复语句的判别结果为伪造的次数为n次，则将该伪造回复语句对应样本的损失数值乘一放大参数αn；若伪造回复语句的判别结果为真实的次数为n次，则将该伪造回复语句对应样本的损失数值乘一抑制参数βn，其中，α＞1，β＜1，n》1。
115.交替训练模块4，用于以判别器的损失函数或生成器的损失函数不在下降作为交替条件，交替执行生成器训练优化模块3或判别器训练模块2，直至判别器及生成器的损失函数均不再下降。
116.通过上述模块，本技术使用生成式对抗网络的方式训练对话生成模型，从自然语言理解的角度增加该对话生成模型的鲁棒性和准确率，相比于普通的单一模型训练方式提高了模型训练的难度，使得模型进一步去拟合标注回复的语言特征。
117.另外，本实施例还提供了一种对话生成系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
118.图7是根据本技术实施例的对话生成系统的结构框图，如图7所示，该系统包括：用户查询获取模块501及回复语句生成模块502；用户查询获取模块501用于获取用户输入的查询语句；回复语句生成模块502用于使用生成器作为对话生成模型，将查询语句输入生成器，得到与查询语句对应的回复语句；其中，生成器是采用如上述实施例的对话模型训练方法训练得到。
119.需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
120.另外，结合图1-2描述的本技术实施例的对话模型训练方法和/或图5描述的本技术实施例的对话生成方法可以由计算机设备来实现。图8为根据本技术实施例的计算机设备的硬件结构示意图。
121.计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
122.具体地，上述处理器81可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，简称为asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
123.其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(hard disk drive，简称为hdd)、软盘驱动器、固态驱动器(solid state drive，简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可
包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(non-volatile)存储器。在特定实施例中，存储器82包括只读存储器(read-only memory，简称为rom)和随机存取存储器(random access memory，简称为ram)。在合适的情况下，该rom可以是掩模编程的rom、可编程rom(programmableread-only memory，简称为prom)、可擦除prom(erasable programmable read-only memory，简称为eprom)、电可擦除prom(electrically erasable programmable read-only memory，简称为eeprom)、电可改写rom(electrically alterable read-only memory，简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下，该ram可以是静态随机存取存储器(static random-access memory，简称为sram)或动态随机存取存储器(dynamic random access memory，简称为dram)，其中，dram可以是快速页模式动态随机存取存储器(fast page mode dynamic random access memory，简称为fpmdram)、扩展数据输出动态随机存取存储器(extended date out dynamic random access memory，简称为edodram)、同步动态随机存取内存(synchronous dynamic random-access memory，简称sdram)等。
124.存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。
125.处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种方法。
126.在其中一些实施例中，计算机设备还可包括通信接口83和总线80。其中，如图8所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
127.通信接口83用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
128.总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(data bus)、地址总线(address bus)、控制总线(control bus)、扩展总线(expansion bus)、局部总线(local bus)。举例来说而非限制，总线80可包括图形加速接口(accelerated graphics port，简称为agp)或其他图形总线、增强工业标准架构(extended industry standard architecture，简称为eisa)总线、前端总线(front side bus，简称为fsb)、超传输(hyper transport，简称为ht)互连、工业标准架构(industry standard architecture，简称为isa)总线、无线带宽(infiniband)互连、低引脚数(low pin count，简称为lpc)总线、存储器总线、微信道架构(micro channel architecture，简称为mca)总线、外围组件互连(peripheral component interconnect，简称为pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advanced technology attachment，简称为sata)总线、视频电子标准协会局部(video electronics standards association local bus，简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
129.另外，结合上述实施例中的对话模型训练方法和/或对话生成方法，本技术实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指
令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种对话生成方法。
130.以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
131.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：版图中调整path角度的方法、计算机存储介质、电子设备与流程

对话模型训练、对话生成方法、系统、计算机和存储介质与流程

相关文献

最热文献