机器客服训练系统及其方法、语音回复方法和电子设备与流程

2022-07-02 08:02:48 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种机器客服训练系统及其方法、语音回复方法和电子设备。

背景技术：

2.在语音对话中，机器客服会与用户进行语音对话，并且针对用户输入的语音进行关键文本的提取，例如，询问用户的姓名、电话号码、地址等文本。为了使机器客服能够高效的收集到关键文本，需要对机器客服进行模型训练。
3.目前，在机器客服的训练过程，通常是给机器客服提供一个规则的用户模拟器，该规则的用户模拟器和机器客服进行对话，来达到训练机器客服的目的，但是规则的用户模拟器与机器客服存在对话模式固定，进而会降低机器客服的策略多样性，使训练得到的机器客服无法满足各种各样的用户，降低了机器客服的服务质量以及用户体验。

技术实现要素：

4.本技术的多个方面提供一种机器客服训练系统及其方法、语音回复方法和电子设备，以提高机器客服的服务质量。
5.本技术实施例第一方面提供一种机器客服训练系统，包括：机器客服模型、用户模型、回报参数配置组件和终止组件，其中：
6.用户模型，用于获取机器客服模型输出的第一文本以及第一文本的历史沟通文本，并根据第一文本和历史沟通文本生成多个第一预测文本，多个第一预测文本是对第一文本的回复，多个第一预测文本是用户模型模拟多个用户输出的；
7.机器客服模型，用于随机确定多个第一预测文本中的其中一个第一预测文本为目标预测文本，根据目标预测文本和历史沟通文本生成第二预测文本，第二预测文本是对目标预测文本的回复；
8.回报参数配置组件，用于在第二预测文本表示用户模型和机器客服模型的本次对话结束且成功时，向机器客服模型配置第一正回报参数，第一正回报参数用于调整机器客服模型的模型参数；
9.终止组件，用于确定机器客服模型的训练次数，并在训练次数大于次数阈值时，终止机器客服模型的训练，得到训练完成的机器客服模型。
10.本技术实施例第二方面提供一种机器客服训练方法，应用于第一方面的机器客服训练系统，该机器客服训练方法包括：用户模型获取机器客服模型输出的第一文本以及第一文本的历史沟通文本，并根据第一文本和历史沟通文本生成多个第一预测文本，多个第一预测文本是对第一文本的回复，多个第一预测文本是用户模型模拟多个用户输出的；机器客服模型随机确定多个第一预测文本中的一个第一预测文本为目标预测文本，根据目标预测文本和历史沟通文本生成第二预测文本，第二预测文本是对目标预测文本的回复；回报参数配置组件在第二预测文本表示用户模型和机器客服模型的本次对话结束且成功时，
向机器客服模型配置第一正回报参数，第一正回报参数用于调整机器客服模型的模型参数；终止组件在确定机器客服模型的训练次数，并在训练次数大于次数阈值时，终止机器客服模型的训练，得到训练完成的机器客服模型。
11.本技术实施例第三方面提供一种语音回复方法，包括：获取用户文本信息，用户文本信息是针对用户语音信息进行语音识别的结果；将用户文本信息输入第二方面训练得到的机器客服模型进行文本处理，得到回复文本信息；将回复文本信息转换成回复语音信息并输出，以回复用户语音信息。
12.本技术实施例第四方面提供一种电子设备，包括：处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现第二方面的机器客服训练方法或第三方面的语音回复方法。
13.本技术实施例应用于语音对话场景中，提供的机器客服训练系统包括：机器客服模型、用户模型、回报参数配置组件和终止组件，其中用户模型通过模拟多个用户，针对机器客服输出的第一文本，输出多个第一预测文本，进而实现给机器客服模型提供多样化的输入文本进行机器客服模型的训练，进而使训练得到的机器客服模型能够服务于多种多样的用户，提高了机器客服的服务质量以及用户体验。
附图说明
14.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
15.图1为本技术示例性实施例提供的一种机器客服训练系统的结构框意图；
16.图2为本技术示例性实施例提供的另一种机器客服训练系统的结构框意图；
17.图3为本技术示例性实施例提供的一种机器客服训练方法的步骤流程图；
18.图4为本技术示例性实施例提供的另一种机器客服训练方法的步骤流程图；
19.图5为本技术示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
20.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
21.针对现有语音对话场景中，机器客服服务质量低的问题，在本技术实施例提供的机器客服训练系统包括：机器客服模型、用户模型、回报参数配置组件和终止组件，其中用户模型通过模拟多个用户，针对机器客服输出的第一文本，输出多个第一预测文本，进而实现给机器客服模型提供多样化的输入文本进行机器客服模型的训练，进而使训练得到的机器客服模型能够服务于多种多样的用户，提高了机器客服的服务质量以及用户体验。
22.以下结合附图，详细说明本技术各实施例提供的技术方案。
23.图1为本技术示例性实施例提供的一种机器客服训练系统10的结构示意图。如图1所示，该机器客服训练系统10包括：用户模型11、机器客服模型12、回报参数配置组件13和终止组件14。进一步可选地，如图 1所示，该机器客服训练系统10还包括：存储组件15。
24.在本实施例中，并不限定用户模型11、机器客服模型12、回报参数配置组件13、终止组件14和存储组件15的部署实现方式。可选地，这些组件实现为分布式部署，并且借助云计算系统实现整体系统功能。例如，用户模型11、机器客服模型12、回报参数配置组件13、终止组件14和存储组件15可以均部署在云端，例如部署在数据中心或中心云系统中，实现为云服务器。相对于云端部署，机器客服训练系统也可以部署在常规服务器、云服务器或服务器阵列等服务端设备。
25.本技术实施例提供的机器客服训练系统可应用于各种语音对话行业，例如，车载导航、智能家电以及机器客服等领域。此外，训练得到的机器客服也可以实现与用户的智能问答、开放领域聊天以及任务型对话。采用本技术实施例提供的机器客服训练系统训练得到的机器客服模型，能够满足各种用户的个性化对话需求，提高了用户的体验。
26.例如，在本技术实施例提供的机器客服训练系统应用于电商行业的客服系统时，训练得到的机器客服能够满足多种多样的用户的客服咨询。又例如，在本技术实施例提供的机器客服训练系统应用于智能电器时，训练得到的机器客服能够与多种多样的用户进行有效的问答游戏、聊天等。
27.无论语音对话行业是哪种行业，语音对话行业的对话任务是多种多样的，和机器客服对话的用户也是多种多样的。在本技术实施例中，并不限定对话任务的划分。在本实施例中，机器客服训练系统可以模拟不同用户和机器客服模型进行对话，实现机器客服模型的训练，进而使训练得到的机器客服能够服务多种多样的用户，提高用户的体验。
28.在本实施例的机器客服训练系统中，用户模型11用于获取机器客服模型12输出的第一文本以及第一文本的历史沟通文本，并根据第一文本和历史沟通文本生成多个第一预测文本，多个第一预测文本是对第一文本的回复，多个第一预测文本是用户模型模拟多个用户输出的；机器客服模型12用于随机确定多个第一预测文本中的其中一个第一预测文本为目标预测文本，根据目标预测文本和历史沟通文本生成第二预测文本，第二预测文本是对目标预测文本的回复；回报参数配置组件13用于在第二预测文本表示用户模型11和机器客服模型12的本次对话结束且成功时，向机器客服模型配置第一正回报参数，第一正回报参数用于调整机器客服模型的模型参数；终止组件14用于确定机器客服模型的训练次数，并在训练次数大于次数阈值时，终止机器客服模型的训练，得到训练完成的机器客服模型。
29.在本技术实施例中，用户模型11和机器客服模型12均为强化学习模型，其中，强化学习模型是“智能体”通过与其“外部环境”进行交互，并优化智能体内部决策的学习过程，使得智能体在给定问题下，能够采用合理的决策来完成具体目标。强化学习的本质在于，“智能体”学习如何决策(即将给定状态映射到合理的动作)，以此来最大化的获取奖励信号 (正回报参数)，此外，强化学习没有如监督学习中标注好的训练数据，其状态到动作的映射是由智能体和外部环境交互优化得到。优化过程中，智能体通过所得的回报信号(正回报参数或者负回报参数)不断调整状态到动作的映射，直到学习到期望决策，因此强化学习的特点在于交互，并通过反复试错的方式学习得到期望策略。
30.例如，若用户模型11为“智能体”，则机器客服模型12为用户模型 11的“外部环境”，可以对用户模型11进行训练。若机器客服模型12 为“智能体”，则用户模型11为机器客服模型12的“外部环境”，可以对机器客服模型12进行训练。本技术实施例中是对用户模型11和机器客服模型12进行联合训练，以训练得到高质量的机器客服模型12。
31.此外，第一文本可以是机器客服模型12在本次训练时，首先发出的第一个提问文本，也可以是机器客服模型12在本次训练的上一轮对话输出的对话文本。这里，一次训练是机器客服模型12与用户模型11完成一个对话任务进行的一次训练。一轮对话是指一次训练过程的机器客服模型 12与用户模型11的一问一回复属于一轮对话。
32.例如，参照表1为一次训练，进行了6轮对话，在本技术实施例中，第一个文本是指一次训练中的第一个文本，可以是用户模型发出的，也可以是机器客服模型发出的。在表1中第一个文本是用户模型发出的，机器客服模型回复用户模型的第一个文本为第一文本，完成第1轮对话，然后将第一文本输入用户模型进入第2轮对话，用户模型输出多个第一预测文本，将其中一个第一预测文本作为目标预测文本输入机器客服模型，机器客服模型输出第二预测文本，完成第2轮对话。然后将第二预测文本作为第一文本输入用户模型进行第3轮对话，如此表1中本次训练共完成6轮对话，完成了对话任务。并且，最后一轮(第6轮)机器客服模型输出第二预测文本“谢谢”表示本次对话结束，并且机器客服模型收集到了用户模型提供的电话号码“1881069532”，表示本次对话成功，可以给机器客服模型配置第一正回报参数，用于调整机器客服模型的模型参数，鼓励机器客服模型按照表1的方式回复用户模型。
33.表1
34.35.例如，参照表2为另一次训练，进行了5轮对话，表2对应并未完成了对话任务。并且，最后一轮(第5轮)机器客服模型输出第二预测文本“我是机器人，再见”表示本次对话结束，并且机器客服模型未收集到了用户模型提供的电话号码，表示本次对话失败，可以给机器客服模型配置负回报参数，用于调整机器客服模型的模型，使机器客服模型避免采用表 2的方式回复用户模型。
36.表2
[0037][0038]
再例如，参照表3为又一次训练，进行了5轮对话，表3完成了对话任务并且对话成功，可以给机器客服模型配置第一正回报参数，用于调整机器客服模型的模型参数，以鼓励机器客服模型采用表3的方式回复用户模型。
[0039]
表3
[0040]
[0041][0042]
在本技术实施例中，存储组件15和用户模型11以及机器客服模型12 连接，用户模型11和机器客服模型12产生的数据可以存储在存储组件15 中。用户模型11和机器客服模型12也可以在训练过程中从存储组件15 中获取数据。
[0043]
在本实施例中，参照图2，用户模型11包括：第一理解模块111，用于获取机器客服模型12输出的第一文本，并根据第一文本生成第一客服动作和第一客服槽值，第一客服动作为初始客服动作的预测动作，初始客服动作为机器客服模型生成第一文本采用的动作，第一客服槽值为初始客服槽值的预测槽值，初始客服槽值为机器客服模型生成第一文本采用的槽值；多个第一策略模块(a1至an)，用于获取历史对话文本，并根据第一客服动作、第一客服槽值和历史对话文本，分别模拟不同用户以生成第一用户动作和第一用户槽值；第一自然文本生成模块112，用于根据第一用户动作和第一用户槽值生成对应的第一预测文本，第一策略模块与第一预测文本一一对应，第一预测文本是对第一用户槽值的自然语言化。
[0044]
参照表4，示例性地，提供多种客服动作和多种用户动作，可以预先给用户模型11配置多种用户动作，给机器客服模型12预先配置多种客服动作。则在训练过程中机器客服模型12是根据初始客服动作和初始客服槽值生成第一文本，第一理解模块111根据第一文本生成第一客服动作和第一客服槽值，第一客服动作是对初始客服动作的预测，第一客服槽值是对初始客服槽值的预测。其中，训练的目的需要第一理解模块111输出的第一客服动作趋近于初始客服动作，第一客服槽值趋近于初始客服槽值，训练好的用户模型11的第一理解模块111根据第一文本生成的第一客服动作与初始客服动作的损失值小于预设第一损失值阈值，生成的第一客服槽值与初始客服槽值的损失值小于预设第二损失值阈值。
[0045]
表4
[0046][0047]
此外，参照图2，多个第一策略模块(a1至an)，每个第一策略模块模拟其中一个用户，针对输入的相同的第一客服槽值、第一客服文本以及历史对话文本，不同的第一策略模块会生成不同的第一用户动作和第一用户槽值。第一自然文本生成模块112获取到第一用户动作和第一用户槽值后，会根据第一用户动作对第一用户槽值自然语言化，然后得到各个第一策略模块对应得第一预测文本(如图2中的b1至bn)。在本技术实施例中，设置多个第一策略模块模拟不同用户能够使训练得到的机器客服模型和不同多样的用户成功的完成对话。并且将多个第一策略模块设置在同一用户模型不仅能够模拟不同用户提供训练机器客服模型的多样性，还能够使多个第一策略模块共用一个第一理解模块111和第一自然文本生成模块112，进而能够降低用户模型11和机器客服模型12联合训练时，模型的参数量，提高机器客服模型12的训练效率。
[0048]
其中，历史沟通文本包括：历史对话文本。历史对话文本是指在本次训练中，本轮对话之前的用户模型11输出的文本(第一个文本，以及目标预测文本)和机器客服模型12输出的文本。参照表1，若第一文本是第 1轮对话中的“请问你的手机号码是多少”，则不存在历史对话文本。若第一文本是第3轮对话中的“是188106吗”，则历史对话文本为第1轮和第2轮对话的文本“针对这个问题，回复我电话，请问你的手机号码是多少，您记一下我的电话号码，请问你的手机号码是多少”。
[0049]
在一可选实施例中，参照图2，第一自然文本生成模块112，包括：更改单元，用于更改第一用户槽值，得到第二用户槽值；第一自然文本生成单元，用于根据第一用户动作和第二用户槽值生成对应得第一预测文本，第一预测文本是对第二用户槽值的自然语言化。
[0050]
其中，更改单元是模拟自动语言识别技术(asr)在用户对话过程中，语音识别用户
语音信息出现错误的情况。更改单元具体处理是将第一用户槽值中的至少一个字符采用其他字符替换、删除或者增加字符，进而达到更改第一用户槽值的目的。例如，增加一位手机号码、删除一位手机号码、改变其中的手机号码。更改单元的设置能够提高机器客服模型的容错能力，加强了机器客服模型的训练。
[0051]
第一自然文本生成单元是采用模板的方式，基于第二用户槽值或者第三用户槽值，输出第一预测文本。其中，第一用户动作用于确定模板，例如，若第一用户动作表4中的“inform_update”，则确定模板是“是～～，不对，是～～”。若第三用户槽值是“178 18”第三用户槽值替换模板中的占位符“～～”，则输出的第一预测文本为“是178，不对，是18”。在本技术实施例中，可以预先给每个用户动作配置多个模板，则在预测的时候根据第一自然文本生成单元的参数选取一个模板。在机器客服模型训练完成后，实际使用过程中可以根据用户动作确定对应的模板。
[0052]
参照图2，机器客服模型12包括：第二理解模块121用于根据历史对话文本和目标预测文本，生成第二用户动作和第三用户槽值，第二用户动作是对第一用户动作的预测，第三用户槽值是对第二用户槽值的预测；状态追踪模块122用于根据第二用户动作、第三用户槽值和历史客服槽值，确定第二客服槽值，第二客服槽值是对第三用户槽值的回复；第二策略模块123，用于根据第二用户动作和第二客服槽值，确定第二客服动作，第二客服动作是对第二用户动作的回复动作；第二自然文本生成模块124，用于根据第二客服动作和第二客服槽值生成对应的第二预测文本，第二预测文本是对第二客服槽值的自然语言化。
[0053]
其中，历史沟通文本还包括：历史客服槽值。历史客服槽值是机器客服模型历史生成预测文本采用的客服槽值。例如，参照表1，若机器客服模型历史生成的预测文本包括“请问你的手机号码是多少，请问你的手机号码是多少”。则历史客服槽值为机器客服模型生成“请问你的手机号码是多少”时对应的槽值。此外，历史客服槽值可以只是上一轮对话时，机器客服生成的客服槽值。
[0054]
再者，在训练过程中第二理解模块121生成的第二用户动作是对第一用户动作的预测，生成的第三用户槽值是对第二用户槽值的预测。其中，机器客服模型的训练目的是使第二理解模块121生成的第二用户动作趋近于第一用户动作，生成的第三用户槽值趋近于第二用户槽值，最终训练好的机器客服模型得第二理解模块121生成的第二用户动作与第一用户动作的损失值小于预设第三损失值阈值，生成的第三用户槽值与第二用户槽值的损失值小于预设第四损失值阈值。
[0055]
此外，状态追踪模块122生成的第二客服槽值根据第二用户动作、第三用户槽值和历史客服槽值得到的一个预测槽值，以回复第三用户槽值。第二策略模块123能够根据第二用户动作和第二客服槽值，确定第二客服动作，以使第二自然文本生成模块根据第二客服动作和第二客服槽值生成第二预测文本。
[0056]
参照图2，在构建机器客服训练系统13过程中，构建用户模型11(包括：第一理解模块111、多个第一策略模块a1至an、第一自然文本生成模块112)、机器客服模型12(包括：第二理解模块121、状态追踪模块122、第二策略模块123和第二自然文本生成模块124)、回报参数配置组件13、终止组件14和存储组件15。然后，给用户模型11配置初始的模型参数，给机器客服模型配置初始的模型参数，其中，用户模型11的初始的模型参数包括各个模块各自具有的初始参数，机器客服模型初始的模型参数也包括：各个模块各自具有的初始参数。
在训练过程中，通过回报参数配置组件14的监督会给用户模型11和机器客服模型12配置回报参数(正回报参数或负回报参数)，使用户模型11和机器客服模型12根据回报参数调整各自的模型参数，达到强化的效果。最终训练好的用户模型 11能够实现模拟多种多样的用户，机器客服模型12能够服务于多种多样的用户。终止组件14能够对机器客服模型的训练次数进行计数，在训练次数大于次数阈值时，进行机器客服模型的训练的终止。其中，次数阈值可以根据需要设定。此外，终止组件14也可以根据其他条件终止机器客服模型的训练，例如，机器客服模型连续多次训练过程中均对话成功和/ 或、机器客服模型连续多次训练过程中任意两个第一预测文本的损失值均大于损失值阈值、和/或机器客服训练模型输出的第二预测文本均和历史预测文本不同等。
[0057]
接续于上述可选实施例，参照图2、表1和表4，举例说明如下：
[0058]
第1轮对话：用户模型11输出文本c1(针对这个问题，回复我电话)，机器客服模型12的第二理解模块121根据文本c1(无历史对话文本)生成用户动作d1(requirement，要求)和用户槽值e1(回复电话)，状态追踪模块122根据用户动作d1和用户槽值e1(无历史客服槽值)确定客服槽值f1(电话号码)。第二策略模块123，根据用户动作d1和客服槽值 f1，确定客服动作g1(request)；第二自然文本生成模块124，根据客服动作g1和客服槽值f1确定文本c2(是表1的第一文本，如请问你的手机号码是多少)。完成的表1中的第1轮对话。
[0059]
第2轮对话：第一理解模块111根据文本c2生成客服动作g2(request)、客服槽值f2(电话号码)。第一策略模块a1根据客服动作g2和客服槽值 f2、历史对话文本h1(文本c1和文本c2)生成用户动作d21(offer)，用户槽值e21(号码)。第一策略模块a2根据客服动作g2和客服槽值f2、历史对话文本h1(文本c1和文本c2)生成用户动作d22(inform_normal)，用户槽值e22(1881069532)。第一策略模块an根据客服动作g2和客服槽值f2、历史对话文本h1(文本c1和文本c2)生成用户动作d2n (inform_update)，用户槽值e2n(178，188)。更改单元对用户槽值e21 不进行处理，经过第一自然文本生成单元根据用户动作d21和用户槽值e21 得到文本c31(您记一下我的电话号码)。更改单元对用户槽值e22进行更改得到用户槽值e32(1881079532)，经过第一自然文本生成单元根据用户动作d22和用户槽值e32得到文本c32(号码是1881079532)。更改单元对用户槽值e23进行更改得到用户槽值e33(178，18)，经过第一自然文本生成单元根据用户动作d23和用户槽值e33得到文本c33(号码是 178，不对是18)。第二理解模块121随机确定了文本c31作为目标预测文本，根据文本c31和历史对话文(文本c1和文本c2)生成用户动作d3 (requirement，要求)和用户槽值e4(号码)，状态追踪模块122根据用户动作d3、用户槽值e4和历史客服槽值(客服槽值f1)确定客服槽值f2 (电话号码)。第二策略模块123，根据用户动作d3和客服槽值f2，确定客服动作g3(request)；第二自然文本生成模块124，根据客服动作g3 和客服槽值f2确定文本c4(是表1的第2轮对话机器客服模型输出的第二预测文本：请问你的手机号码是多少)。完成的表1中的第2轮对话。
[0060]
此外，第3轮至第6轮的对话过程可以参照上述第2轮，在此不再赘述。
[0061]
进一步地，参照图2，回报参数配置组件13还用于：根据预设损失函数，确定多个第一预测文本中任意两个第一预测文本的损失值；若损失值小于损失值阈值，则向用户模型配置第一负回报参数，第一负回报参数用于调整用户模型的模型参数。
[0062]
具体地，预测损失函数可以是l2loss(均方误差损失函数)。其中，根据损失值调整
用户模型的模型参数为，当损失值小于损失值阈值时，给用户模型配置负回报参数，当损失值大于损失值阈值时，给用户模型配置正回报参数，以鼓励用户模型输出的多个第一预测文本不同，进而提高了用户模型输出的第一预测文本的多样性。
[0063]
在一可选的实施例中，回报参数配置组件13还用于：在第二预测文本表示用户模型和机器客服模型的本次对话结束且失败时，向机器客服模型配置第二负回报参数，向用户模型配置第二正回报参数，第二负回报参数用于调整机器客服模型的模型参数，第二正回报参数用于调整用户模型的模型参数。
[0064]
具体地，在机器客服模型的本次对话失败时，如机器客服模型未收集到预设的信息或者没有给用户模型提供有用的信息，向机器客服模型配置第二负回报参数以调整机器客服模型的模型参数，使机器客服模型在和用户模型对话时，可以更有效的完成对话，是对话成功。向用户模型配置第二正回报参数，可以鼓励用户模型采用这种对话方式和机器客服模型对话，提高机器客服模型的服务能力。
[0065]
在一可选的实施例中，在本技术实施例中，回报参数配置组件13还用于：获取第二预测文本的至少一个历史预测文本，若第二预测文本和历史预测文本相同，向机器客服模型配置第三负回报参数，第三负回报参数用于调整机器客服模型的模型参数，历史预测文本为机器客服模型历史输出的预测文本。
[0066]
具体地，历史预测文本与第二预测文本为同一次对话文本。例如，参照表1，机器客服模型第2轮对话输出的第二预测文本“请问你的手机号码是多少”和第1轮对话机器客服模型输出的预测文本“请问你的手机号码是多少”相同，则机器客服模型配置第三负回报参数调整机器客服模型的模型参数，进而使机器客服模型在一次对话中避免出现同样的回复，提高机器客服模型输出文本的多样性，并且使训练好的机器客服模型在和用户的一次对话中，可以给用户输出不一样的信息，提高用户的体验。
[0067]
进一步的，在机器客服模型训练完成后，可以对机器客服模型的质量进行测试，具体的测试方法为，使用机器客服模型与用户模型进行交互进行多次对话，每次对话都交互固定的轮数。统计每次对话的对话路径，其中对话路径是按照用户动作和客服动作按照时间序列拼接得到的(如，用户动作
→
客服动作
→
用户动作
→
客服动作)，该测试过程中的用户动作是第一策略模块输出的，客服动作是第二策略模块输出的。然后统计对话路径的总数，和各对话路径种类以及每种对话路径的第一数量，计算第一数量占总数的比例。其中，对话路径的种类能够对话路径的种类能够直观的反映对话多样性，对话路径种类越多，对话越丰富，相应的对话多样性越高。也可以计算各种对话路径占总数的比例的方差，通过方差确定对话多样性，方差越小，每种对话路径占比越均衡，系统的策略多样性也就越好。其中，若训练得到的机器客服模型在测试后的对话多样性满足要求，则可以将该机器客服模型配置在产品中服务于真实用户，若不满足要求，则可以继续进行训练直到满足要求。
[0068]
本技术实施例训练得到的机器客服模型能够正确的引导对话，以最短的轮数得到较高的对话成功率。再者，机器客服模型具体容错能够，能够与不同多样的童话成功的完成对话。此外，还可以对于相同的用户文本，机器客服模型能够给出不同的回复，以提升用户的体验。最后，本技术通过能够模拟各种各样用户的用户模型，并且多方面的回报设置，实现一个机器客服模型可以和多个模拟用户交互来训练机器客服模型，使训练得到的机器客服模型具有鲁棒性，并且能够应用到多种对话产品中。
[0069]
本技术实施例应用于语音对话场景中，提供的机器客服训练系统包括：机器客服模型、用户模型、回报参数配置组件和终止组件，其中用户模型通过模拟多个用户，针对机器客服输出的第一文本，输出多个第一预测文本，进而实现给机器客服模型提供多样化的输入文本进行机器客服模型的训练，进而使训练得到的机器客服模型能够服务于多种多样的用户，提高了机器客服的服务质量以及用户体验。
[0070]
在本技术实施例中，除了提供一种机器客服训练系统之外，还提供一种机器客服训练方法，应用于上述任一项机器客服训练系统，可为针对各种语音任务训练得到机器客服模型，如图3所示，该方法包括：
[0071]
s301，用户模型获取机器客服模型输出的第一文本以及第一文本的历史沟通文本，并根据第一文本和历史沟通文本生成多个第一预测文本。
[0072]
其中，多个第一预测文本是对第一文本的回复，多个第一预测文本是用户模型模拟多个用户输出的。s301包括：获取机器客服模型输出的第一文本，并根据第一文本生成第一客服动作和第一客服槽值，第一客服动作为初始客服动作的预测动作，初始客服动作为机器客服模型生成第一文本采用的动作，第一客服槽值为初始客服槽值的预测槽值，初始客服槽值为机器客服模型生成第一文本采用的槽值；获取历史对话文本，并根据第一客服动作、第一客服槽值和历史对话文本，分别模拟不同用户以生成第一用户动作和第一用户槽值；根据第一用户动作和第一用户槽值生成对应的第一预测文本，第一策略模块与第一预测文本一一对应，第一预测文本是对第一用户槽值的自然语言化。
[0073]
进一步地，根据第一用户动作和第一用户槽值生成对应的第一预测文本，包括：更改第一用户槽值，得到第二用户槽值；根据第一用户动作和第二用户槽值生成对应得第一预测文本，第一预测文本是对第二用户槽值的自然语言化。
[0074]
s302，机器客服模型随机确定多个第一预测文本中的一个第一预测文本为目标预测文本，根据目标预测文本和历史沟通文本生成第二预测文本。
[0075]
其中，第二预测文本是对目标预测文本的回复。s302包括：根据历史对话文本和目标预测文本，生成第二用户动作和第三用户槽值，第二用户动作是对第一用户动作的预测，第三用户槽值是对第二用户槽值的预测；根据第二用户动作、第三用户槽值和历史客服槽值，确定第二客服槽值，第二客服槽值是对第三用户槽值的回复；根据第二用户动作和第二客服槽值，确定第二客服动作，第二客服动作是对第二用户动作的回复动作；根据第二客服动作和第二客服槽值生成对应的第二预测文本，第二预测文本是对第二客服槽值的自然语言化。
[0076]
s303，回报参数配置组件在第二预测文本表示用户模型和机器客服模型的本次对话结束且成功时，向机器客服模型配置第一正回报参数。
[0077]
其中，第一正回报参数用于调整机器客服模型的模型参数。
[0078]
s304，终止组件确定机器客服模型的训练次数，并在训练次数大于次数阈值时，终止机器客服模型的训练，得到训练完成的机器客服模型。
[0079]
在一可选实施例中，机器客服训练方法还包括：回报参数配置组件根据预设损失函数，确定多个第一预测文本中任意两个第一预测文本的损失值；若损失值小于损失值阈值，则向用户模型配置第一负回报参数，第一负回报参数用于调整用户模型的模型参数。
[0080]
在一可选实施例中，机器客服训练方法还包括：回报参数配置组件在第二预测文
本表示用户模型和机器客服模型的本次对话结束且失败时，向机器客服模型配置第二负回报参数，向用户模型配置第二正回报参数，第二负回报参数用于调整机器客服模型的模型参数，第二正回报参数用于调整用户模型的模型参数。
[0081]
在一可选实施例中，机器客服训练方法还包括：回报参数配置组件获取第二预测文本的至少一个历史预测文本，若第二预测文本和历史预测文本相同，向机器客服模型配置第三负回报参数，第三负回报参数用于调整机器客服模型的模型参数，历史预测文本为机器客服模型历史输出的预测文本。
[0082]
本技术实施例提供的机器客服训练方法，在语音对话场景中，提供的机器客服训练系统包括：机器客服模型、用户模型和回报参数配置组件，其中用户模型通过模拟多个用户，针对机器客服输出的第一文本，输出多个第一预测文本，进而实现给机器客服模型提供多样化的输入文本进行机器客服模型的训练，进而使训练得到的机器客服模型能够服务于多种多样的用户，提高了机器客服的服务质量以及用户体验。
[0083]
在本技术实施例中，还提供一种语音回复方法，应用于上述任一项机器客服训练方法得到的机器客服模型，可为服务于多种多样的用户，如图 4所示，该方法包括：
[0084]
s401，获取用户文本信息。
[0085]
其中，用户文本信息是针对用户语音信息进行语音识别的结果。
[0086]
s402，将用户文本信息输入机器客服模型进行文本处理，得到回复文本信息。
[0087]
其中，该机器客服模型是采用前述机器客服训练方法训练得到的。
[0088]
s403，将回复文本信息转换成回复语音信息并输出，以回复用户语音信息。
[0089]
本技术实施例提供的语音回复方法，能够基于各种各样的用户文本信息，给予用户期望的回复语音信息，提高用户体验。
[0090]
另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。
[0091]
图5为本技术示例性实施例提供的一种电子设备的结构示意图。该电子设备用于运行上身语音回复方法。如图5所示，该电子设备包括：存储器54和处理器55。
[0092]
存储器54，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。该存储器54可以是对象存储(object storageservice，oss)。
[0093]
存储器54可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0094]
处理器55，与存储器54耦合，用于执行存储器54中的计算机程序，以用于：用户模型获取机器客服模型输出的第一文本以及第一文本的历史沟通文本，并根据第一文本和历史沟通文本生成多个第一预测文本，多个第一预测文本是对第一文本的回复，多个第一预测文本是用户模型模拟多个用户输出的；机器客服模型随机确定多个第一预测文本中的一
个第一预测文本为目标预测文本，根据目标预测文本和历史沟通文本生成第二预测文本，第二预测文本是对目标预测文本的回复；回报参数配置组件在第二预测文本表示用户模型和机器客服模型的本次对话结束且成功时，向机器客服模型配置第一正回报参数，第一正回报参数用于调整机器客服模型的模型参数；终止组件在确定机器客服模型的训练次数，并在训练次数大于次数阈值时，终止机器客服模型的训练，得到训练完成的机器客服模型。
[0095]
进一步可选地，处理器55在用户模型获取机器客服模型输出的第一文本以及第一文本的历史沟通文本，并根据第一文本和历史沟通文本生成多个第一预测文本时，具体用于：获取机器客服模型输出的第一文本，并根据第一文本生成第一客服动作和第一客服槽值，第一客服动作为初始客服动作的预测动作，初始客服动作为机器客服模型生成第一文本采用的动作，第一客服槽值为初始客服槽值的预测槽值，初始客服槽值为机器客服模型生成第一文本采用的槽值；获取历史对话文本，并根据第一客服动作、第一客服槽值和历史对话文本，分别模拟不同用户以生成第一用户动作和第一用户槽值；根据第一用户动作和第一用户槽值生成对应的第一预测文本，第一策略模块与第一预测文本一一对应，第一预测文本是对第一用户槽值的自然语言化。
[0096]
进一步可选地，处理器55在根据第一用户动作和第一用户槽值生成对应的第一预测文本时，具体用于：更改第一用户槽值，得到第二用户槽值；根据第一用户动作和第二用户槽值生成对应得第一预测文本，第一预测文本是对第二用户槽值的自然语言化。
[0097]
进一步可选地，处理器55在机器客服模型随机确定多个第一预测文本中的一个第一预测文本为目标预测文本，根据目标预测文本和历史沟通文本生成第二预测文本时，具体用于：根据历史对话文本和目标预测文本，生成第二用户动作和第三用户槽值，第二用户动作是对第一用户动作的预测，第三用户槽值是对第二用户槽值的预测；根据第二用户动作、第三用户槽值和历史客服槽值，确定第二客服槽值，第二客服槽值是对第三用户槽值的回复；根据第二用户动作和第二客服槽值，确定第二客服动作，第二客服动作是对第二用户动作的回复动作；根据第二客服动作和第二客服槽值生成对应的第二预测文本，第二预测文本是对第二客服槽值的自然语言化。
[0098]
在一可选实施例中，处理器55还用于，使回报参数配置组件在第二预测文本表示用户模型和机器客服模型的本次对话结束且成功时，向机器客服模型配置第一正回报参数，直到机器客服模型的训练次数大于次数阈值，得到训练完成的机器客服模型。
[0099]
在一可选实施例中，处理器55还用于，使回报参数配置组件根据预设损失函数，确定多个第一预测文本中任意两个第一预测文本的损失值；若损失值小于损失值阈值，则向用户模型配置第一负回报参数，第一负回报参数用于调整用户模型的模型参数。
[0100]
在一可选实施例中，处理器55还用于使回报参数配置组件在第二预测文本表示用户模型和机器客服模型的本次对话结束且失败时，向机器客服模型配置第二负回报参数，向用户模型配置第二正回报参数，第二负回报参数用于调整机器客服模型的模型参数，第二正回报参数用于调整用户模型的模型参数。
[0101]
在另一可选实施例中，处理器55还用于获取用户文本信息，用户文本信息是针对用户语音信息进行语音识别的结果；将用户文本信息上述训练得到的机器客服模型进行文本处理，得到回复文本信息；输出回复文本信息，以回复用户语音信息。
[0102]
进一步，如图5所示，该电子设备还包括：防火墙51、负载均衡器 52、通信组件56、
电源组件58等其它组件。图5中仅示意性给出部分组件，并不意味着电子设备只包括图5所示组件。
[0103]
本技术实施例提供的电子设备，在语音对话场景中，提供的机器客服训练系统包括：机器客服模型、用户模型、回报参数配置组件和终止组件，其中，用户模型通过模拟多个用户，针对机器客服输出的第一文本，输出多个第一预测文本，进而实现给机器客服模型提供多样化的输入文本进行机器客服模型的训练，进而使训练得到的机器客服模型能够服务于多种多样的用户，提高了机器客服的服务质量以及用户体验。
[0104]
相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，致使处理器实现图3或图4 所示方法中的步骤。
[0105]
相应地，本技术实施例还提供一种计算机程序产品，包括计算机程序 /指令，当计算机程序/指令被处理器执行时，致使处理器实现图3或图4 所示方法中的步骤。
[0106]
上述图5中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如wifi，2g、3g、4g/lte、5g等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关文本。在一个示例性实施例中，通信组件还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb) 技术，蓝牙(bt)技术和其他技术来实现。
[0107]
上述图5中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0108]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0109]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0110]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0111]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0112]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入 /输出接口、网络接口和内存。
[0113]
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。
[0114]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现文本存储。文本可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的文本。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0115]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0116]
以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于多物理场仿真的锂电池组热滥用安全风险评估方法

机器客服训练系统及其方法、语音回复方法和电子设备与流程

相关文献

最热文献