对话处理、信息处理、模型训练方法、设备及存储介质与流程

2021-12-07 20:17:00 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，尤其涉及一种对话处理、信息处理、模型训练方法、设备及存储介质。

背景技术：

2.人工智能时代的交互特色用一个词来概括就是“对话”，用人类最自然的交互方式，或者是语音或者是文字，给机器发送指令，与机器进行交互。
3.目前，使用较少训练数据训练出的对话模型的对话准确率较低。

技术实现要素：

4.本技术的多个方面提供一种对话处理、信息处理、模型训练方法、设备及存储介质，用以提供人机协作对话模型的准确率。
5.本技术实施例提供一种模型训练方法，包括：
6.获得针对当前会话的系统回复内容样本和对话历史内容样本；
7.获得所述系统回复内容的系统回复向量，以及，所述对话历史内容的对话状态向量；
8.根据所述系统回复向量和所述对话状态向量，获得所述对话模型的增强学习损失函数和交叉熵损失函数；
9.根据所述增强学习损失函数和所述交叉熵损失函数，得到联合损失函数；
10.根据所述联合损失函数，对模型的网络参数进行训练，得到对话模型。
11.本技术实施例还提供一种对话处理方法，利用上述的对话模型进行对话处理，包括：
12.接收当前对话的问题；
13.根据所述当前对话的问题，获得针对当前对话的系统回复内容和对话历史内容；
14.生成所述系统回复内容的系统回复向量，以及，所述对话历史内容的对话状态向量；
15.根据所述系统回复向量和所述对话状态向量生成当前对话的问题的回复内容。
16.本技术实施例还提供一种信息处理方法，包括：
17.获取用于对话回复的系统回复候选集和当前对话历史，其中，当前对话历史包括用户当前轮次的问题和历史轮次的对话；
18.将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式；以及
19.接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复；
20.其中，人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。
21.本技术实施例还提供一种模型训练方法，包括：
22.获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；
23.根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
24.本技术实施例还一种信息处理设备，包括：一个或多个处理器以及一个或多个存储计算机程序的存储器；
25.所述一个或多个处理器，用于执行所述计算机程序，以用于：
26.获取用于对话回复的系统回复候选集和当前对话历史，其中，当前对话历史包括用户当前轮次的问题和历史轮次的对话；
27.将系统回复候选集和对话历史，输入预先训练出的人机协作对话模型，以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式；以及
28.接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复；
29.其中，人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。
30.本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：
31.获取用于对话回复的系统回复候选集和当前对话历史，其中，当前对话历史包括用户当前轮次的问题和历史轮次的对话；
32.将系统回复候选集和对话历史，输入预先训练出的人机协作对话模型，以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式；以及
33.接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复；
34.其中，人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。
35.本技术实施例还提供一种模型训练设备，包括：一个或多个处理器以及一个或多个存储计算机程序的存储器；
36.所述一个或多个处理器，用于执行所述计算机程序，以用于：
37.获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；
38.根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
39.本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：
40.获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；
41.根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
42.本技术实施例还提供一种信息处理装置，包括：
43.获取模块，用于获取用于对话回复的系统回复候选集和当前对话历史，其中，当前对话历史包括用户当前轮次的问题和历史轮次的对话；
44.输入模块，用于将系统回复候选集和对话历史，输入预先训练出的人机协作对话模型，以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式；
45.接收模块，用于接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复；
46.其中，人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。
47.本技术实施例还提供一种模型训练装置，包括：
48.获取模块，获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；
49.训练模块，根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
50.在本技术的一些示例性实施例中，信息处理设备获取包括当前轮次的问题和历史轮次的对话当前对话历史，以及系统回复候选集；将系统回复候选集和对话历史，输入预先采用元学习训练方法训练出的人机协作对话模型；人机协作对话模型确定是否采用人工模式，在人机协作对话模型确定采用系统回复模式的情况下，信息处理设备接收人机协作对话模型从系统回复候选集中选择并输出的针对当前轮次的问题的回复；采用元学习的训练方法训练出的人机协作对话模型，对话的准确较高。
附图说明
51.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
52.图1a为本技术示例性实施例提供的一种人机协作对话系统10的结构示意图；
53.图1b为本技术示例性实施例提供的一种人机协作对话模型20的模型结构示意图；
54.图1c为本技术示例性实施例提供的一种模型训练框架的示意图；
55.图1d为本技术示例性实施例提供的另一种人机协作对话系统40的结构示意图；
56.图2本技术示例性实施例提供的一种信息处理方法的方法流程图；
57.图3为本技术实施例还提供一种信息处理方法的流程示意图；
58.图4为本技术示例性实施例提供的一种模型训练方法的流程示意图；
59.图5为本技术示例性实施例提供的一种对话模型的训练方法的流程示意图；
60.图6为本技术示例性实施例提供的一种对话处理方法的流程示意图；
61.图7为本技术示例性实施例提供的一种信息处理装置的结构示意图；
62.图8为本技术示例性实施例提供的一种模型训练装置的结构示意图；
63.图9为本技术示例性实施例提供的一种信息处理设备的结构示意图；
64.图10为本技术一示例性实施例提供的一种模型处理设备的结构示意图；
65.图11为本技术一示例性实施例提供的一种模型处理设备的结构示意图；
66.图12为本技术示例性实施例提供的一种信息处理设备的结构示意图。
具体实施方式
67.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
68.目前，为了保持对话系统稳健的线上表现，在对话系统中引入人机协作的方式。但由于采用较少的训练数据，对话系统的对话准确率较低。
69.针对上述存在的对话模型的对话准确率低的技术问题，在本技术的一些示例性实施例中，信息处理设备获取包括当前轮次的问题和历史轮次的对话当前对话历史，以及系统回复候选集；将系统回复候选集和对话历史，输入预先采用元学习训练方法训练出的人机协作对话模型；人机协作对话模型确定是否采用人工模式，在人机协作对话模型确定采用系统回复模式的情况下，信息处理设备接收人机协作对话模型从系统回复候选集中选择并输出的针对当前轮次的问题的回复；采用元学习的训练方法训练出的人机协作对话模型，对话的准确较高。
70.以下结合附图，详细说明本技术各实施例提供的技术方案。
71.图1a为本技术示例性实施例提供的一种人机协作对话系统10的结构示意图。如图1a所示，该人机协作对话系统10包括对话设备10a，服务器10b和协作提供方设备10c。
72.在本实施例中，对话设备10a除了具有基础服务功能之外，还可以具有计算、通信、上网等功能，本技术实施例并不对对话设备10a的类型作出限定。对话设备10a可以为个人电脑，手机，机器人，智能电视，智能音箱等。
73.在本实施例中，服务器10b中部署有人机协作对话模型。本技术实施例并不限定服务器10b的实现形态，例如，服务器10b可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中，服务器设备的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类型。服务器10b可以包含一台网站服务器，也可以包含多台网站服务器。
74.在本实施例中，协作提供方设备10c为人工协作用户的终端设备，在服务器10b确定当前轮次的问题的回复模式为人工回复模式后，协作提供方设备10c响应用户的针对当前轮次的问题的回复的输入操作，获取当前轮次的问题的回复。例如，协作提供方设备10c包括一电子显示屏，用户可以通过电子显示屏与协作提供方设备10c进行交互，用户通过与电子显示屏交互输入当前轮次的回复；或者，协作提供方设备10c包括一麦克风，协作提供方设备10c响应用户以语音方式输入当前轮次的问题的回复的操作，获取当前轮次的问题的回复。
75.在本实施例中，服务器10b与对话设备10a和协作提供方设备10c之间可以是无线或有线连接。可选地，服务器10b与对话设备10a和协作提供方设备10c之间可采用wifi、蓝牙、红外等通信方式建立通信连接。或者，服务器10b与对话设备10a和协作提供方设备10c之间也可以通过移动网络建立通信连接。其中，移动网络的网络制式可以为2g(gsm)、2.5g(gprs)、3g(wcdma、td-scdma、cdma2000、utms)、4g(lte)、4g (lte )、wimax等中的任意一种。
76.在本实施例中，服务器10b获取系统回复候选集和当前对话历史，对系统回复候选集和当前对话历史进行处理；确定针对当前轮次的问题进行回复使用的回复模式，以及从
系统回复候选集中选择出当前轮次的问题的回复。一种可选实施例为，服务器10b获取系统回复候选集和当前对话历史，将系统回复候选集和当前对话历史输入人机协作对话模型；确定针对当前轮次的问题进行回复使用的回复模式，以及从系统回复候选集中选择出当前轮次的问题的回复。
77.在上述实施例中，对话设备10a响应用户输入当前轮次的问题的操作，获取当前轮次的问题。包括但不限于以下几种获取方式：
78.获取方式一，对话设备10a的电子显示屏上展示一界面，界面中包括问题输入项，对话设备10a响应用户在问题输入项中输入当前轮次的问题的操作，获取当前轮次的问题。
79.获取方式二，对话设备10a上设置的麦克风采集用户以语音方式发出的当前轮次的问题。
80.对话设备10a在获取到当前轮次的问题后，将当前轮次的问题发送至服务器10b，服务器10b查找出历史轮次的对话和用于对话回复的系统回复候选集，服务器10b将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式；若人机协作对话模型确定采用系统回复模式时，从系统回复候选集中选择并输出针对当前轮次的问题的回复；服务器10b将采用系统回复模式时从系统回复候选集中选择并输出的针对当前轮次的问题的回复发送至对话设备10a；若人机协作对话模型确定采用人工回复模式时，向协作提供方设备10c发送人工回复请求，协作提供方设备10c获取人工输入的当前轮次的问题的回复后发送至对话设备10a。
81.图1b为本技术示例性实施例提供的一种人机协作对话模型20的模型结构示意图。如图1b所示，该人机协作对话模型20包括回复编码器201、历史编码器202、判决器203和预测器204。在人机协作对话模型20内部，将系统回复候选集输入回复编码器201中，回复编码器对系统回复候选集进行向量化处理，得到系统回复向量；将当前对话历史输入历史编码器202，利用历史编码器202对当前对话历史进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量输入判决器203中，以供判决器203确定是否采用人工回复模式；若确定采用系统回复模式，则将系统回复向量和对话状态向量输入预测器204中，预测器204从系统回复候选集中选择出针对当前轮次的问题的回复；若确定采用人工回复模式，服务器10b向协作提供方设备10c发送人工回复请求，协作提供方设备10c接收到人工回复请求后，获取人工输入的当前轮次的问题的回复并将当前轮次的问题的回复发送至对话设备10a中。
82.在一些示例性实施例中，当前对话历史，例如：“用户端：我想要听泰勒的歌；系统端：你想听什么类型的？；用户端：乡村音乐。”。系统回复候选集，例如：“1，api查找(泰勒，乡村音乐)；2，你想听哪位明星的歌；3，你想听什么类型的；4，有什么我可以帮你的”。将上述当前对话历史和系统回复候选集输入人机协作对话模型20中，在人机协作对话模型20内部，系统回复候选集输入回复编码器201中，回复编码器对系统回复候选集进行向量化处理，得到系统回复向量；将当前对话历史输入历史编码器202，利用历史编码器202对当前对话历史进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量输入判决器203中，以供判决器203确定是否采用人工回复模式。判决器203确定采用系统回复模式，则将系统回复向量和对话状态向量输入预测器204中，预测器204从系统回复候选集中选择出
针对当前轮次的问题的回复为“1，api查找(泰勒，乡村音乐)”。
83.在本技术实施例中，将系统回复候选集和当前对话历史进行编码，得到同维度的系统回复向量和对话状态向量，增加人机协作对话模型处理速度，同时输入判决器进行判断是否采用人工回复模式，若判决器选择人工回复模式，则请求人工给出当前轮次的问题的回复；若判决器选择系统回复模式，则利用预测器从系统回复候选集中选择当前轮次的问题的回复。本技术对话系统采用人机协作对话模型，对话处理的速度快，对话的准确率高。
84.在一些示例性实施例中，可预先根据大量回复候选集样本和对话历史样本和从系统回复候选集样本中选择出的目标回复样本，训练得到人工协作对话模型。一种可选实施例为，获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
85.在上述实施例中，获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本。一种可选实施例为，构建多个元学习任务，每个元学习任务包括相应领域的数据集；从多个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为训练样本。例如，每个元学习任务包含一个领域的数据集；从训练数据集中采样出k个领域，每个领域采样m个训练数据作为支撑集，采样m个训练数据作为问询集，构成k个元学习任务，从k个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本选择出的目标回复样本，共计2*m*k个训练样本。支撑集和问询集包含的数据都是从训练数据中随机采样得到的，数据是类似的。
86.在上述实施例中，根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。一种可实现的方式为，将系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为输入参数；以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型。本技术实施例利用maml算法在元学习任务上进行联合训练，找到最合适的为一组模型初始化参数，使得该参数平均意义上在所有元学习任务上都具有最快优化效果。
87.可选地，以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型。一种可选实施例为，将系统回复候选集样本进行向量化处理，得到系统回复向量；将对话历史样本进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量作为输入参数，以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数同时进行二分类训练和多分类训练，得到训练完成的回复编码器、历史编码器、判决器和预测器。本技术利用判决器和预测器的损失函数加在一起得到联合损失函数，再利用maml算法对其进行优化，找到人机协作对话模型的优选参数，采用较少的训练数据，利用元学习的训练方法，使得人机协作对话模型具备快速学习的能力。
88.图1c为本技术示例性实施例提供的一种模型训练框架的示意图。如图1c所示，从
训练数据集中采样出k个领域，每个领域采样m个训练数据作为支撑集，采样m个训练数据作为问询集，构成k个元学习任务，每个元学习任务包含一个领域的数据集。从k个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本选择出的目标回复样本，共计2*m*k个训练样本。将系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为输入参数；以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器301、历史编码器302、判决器303和模型预测器304，得到人机协作对话模型。
89.图1d为本技术示例性实施例提供的另一种人机协作对话系统40的结构示意图。如图1d所示，该人机协作对话系统40包括对话设备40a和协作提供方设备40b。
90.在本实施例中，对话设备40a除了具有基础服务功能之外，还可以具有计算、通信、上网等功能，本技术实施例并不对对话设备40a的类型作出限定。对话设备40a可以为个人电脑，手机，机器人，智能电视，智能音箱等。对话设备40a中部署有人机协作对话模型。
91.在本实施例中，协作提供方设备40b为人工协作用户的终端设备，在对话设备40a中的人机协作对话模型确定当前轮次的问题的回复模式为人工回复模式后，协作提供方设备40b响应用户的针对当前轮次的问题的回复的输入操作，获取当前轮次的问题的回复。例如，协作提供方设备40b包括一电子显示屏，用户可以通过电子显示屏与协作提供方设备40b进行交互，用户通过与电子显示屏交互输入当前轮次的回复；或者，协作提供方设备40b包括一麦克风，协作提供方设备40b响应用户以语音方式输入当前轮次的问题的回复的操作，获取当前轮次的问题的回复。
92.在本实施例中，对话设备40a和协作提供方设备40b之间可以是无线或有线连接。可选地，对话设备40a和协作提供方设备40b之间可采用wifi、蓝牙、红外等通信方式建立通信连接。或者，对话设备40a和协作提供方设备40b之间也可以通过移动网络建立通信连接。其中，移动网络的网络制式可以为2g(gsm)、2.5g(gprs)、3g(wcdma、td-scdma、cdma2000、utms)、4g(lte)、4g (lte )、wimax等中的任意一种。
93.在本实施例中，对话设备10a获取系统回复候选集和当前对话历史，对系统回复候选集和当前对话历史进行处理；确定针对当前轮次的问题进行回复使用的回复模式，以及从系统回复候选集中选择出当前轮次的问题的回复。一种可选实施例为，对话设备10a获取系统回复候选集和当前对话历史，将系统回复候选集和当前对话历史输入人机协作对话模型；确定针对当前轮次的问题进行回复使用的回复模式，以及从系统回复候选集中选择出当前轮次的问题的回复。
94.在上述实施例中，对话设备40a响应用户输入当前轮次的问题的操作，获取当前轮次的问题。包括但不限于以下几种获取方式：
95.获取方式一，对话设备40a的电子显示屏上展示一界面，界面中包括问题输入项，对话设备40a响应用户在问题输入项中输入当前轮次的问题的操作，获取当前轮次的问题。
96.获取方式二，对话设备40a上设置的麦克风采集用户以语音方式发出的当前轮次的问题。
97.对话设备40a在获取到当前轮次的问题后，查找出历史轮次的对话和用于对话回复的系统回复候选集，对话设备40a将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模
式；若人机协作对话模型确定采用系统回复模式时，从系统回复候选集中选择并输出针对当前轮次的问题的回复；若人机协作对话模型确定采用人工回复模式时，向协作提供方设备40b发送人工回复请求，协作提供方设备40b获取人工输入的当前轮次的问题的回复后发送至对话设备40a。
98.在本技术实施例中，将系统回复候选集和当前对话历史进行编码，得到同维度的系统回复向量和对话状态向量，增加人机协作对话模型处理速度，同时输入判决器进行判断是否采用人工回复模式，若判决器选择人工回复模式，则请求人工给出当前轮次的问题的回复；若判决器选择系统回复模式，则利用预测器从系统回复候选集中选择当前轮次的问题的回复。本技术对话系统采用人机协作对话模型，对话处理的速度快，对话的准确率高。
99.在一些示例性实施例中，可预先根据大量回复候选集样本和对话历史样本和从系统回复候选集样本中选择出的目标回复样本，训练得到人工协作对话模型。一种可选实施例为，获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
100.在上述实施例中，获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本。一种可选实施例为，构建多个元学习任务，每个元学习任务包括相应领域的数据集；从多个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为训练样本。例如，每个元学习任务包含一个领域的数据集；从训练数据集中采样出k个领域，每个领域采样m个训练数据作为支撑集，采样m个训练数据作为问询集，构成k个元学习任务，从k个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本选择出的目标回复样本，共计2*m*k个训练样本。支撑集和问询集包含的数据都是从训练数据中随机采样得到的，数据是类似的。
101.在上述实施例中，根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。一种可实现的方式为，将系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为输入参数；以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型。本技术实施例利用maml算法在元学习任务上进行联合训练，找到最合适的为一组模型初始化参数，使得该参数平均意义上在所有元学习任务上都具有最快优化效果。
102.可选地，以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型。一种可选实施例为，将系统回复候选集样本进行向量化处理，得到系统回复向量；将对话历史样本进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量作为输入参数，以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数同时进行二分类训练和多分类训练，得到训练完成的回复编码器、历史编码器、判决器和预测器。本技术利用判决器和预测器的损失函数加在一起得到联合损失函数，
再利用maml算法对其进行优化，找到人机协作对话模型的优选参数，采用较少的训练数据，利用元学习的训练方法，使得人机协作对话模型具备快速学习的能力。
103.在本技术上述系统实施例中，信息处理设备获取包括当前轮次的问题和历史轮次的对话当前对话历史，以及系统回复候选集；将系统回复候选集和对话历史，输入预先采用元学习训练方法训练出的人机协作对话模型；人机协作对话模型确定是否采用人工模式，在人机协作对话模型确定采用系统回复模式的情况下，信息处理设备接收人机协作对话模型从系统回复候选集中选择并输出的针对当前轮次的问题的回复；采用元学习的训练方法训练出的人机协作对话模型，对话的准确较高。
104.除上述提供的人机协作对话系统之外，本技术一些实施例还提供一种信息处理方法，本技术所提供的信息处理方法可应用于上述人机协作对话系统中，但不限于上述实施例提供的人机协作对话系统。
105.图2本技术示例性实施例提供的一种信息处理方法的方法流程图，如图2所示，该方法包括以下步骤：
106.s201：获取用于对话回复的系统回复候选集和当前对话历史，其中，当前对话历史包括用户当前轮次的问题和历史轮次的对话；
107.s202：将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式；
108.s203：接收人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对当前轮次的问题的回复；其中，人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。
109.在本实施例中，上述方法的执行主体信息处理设备，除了具有基础服务功能之外，还可以具有计算、通信、上网等功能，本技术实施例并不对信息处理设备的类型作出限定。信息处理设备可以为个人电脑，手机，机器人，智能电视，智能音箱以及服务器等。其中，服务器设备的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类型。服务器可以包含一台网站服务器，也可以包含多台网站服务器。
110.在本实施例中，协作提供方设备为人工协作用户的终端设备，在信息处理设备确定当前轮次的问题的回复模式为人工回复模式后，协作提供方设备响应用户的针对当前轮次的问题的回复的输入操作，获取当前轮次的问题的回复。例如，协作提供方设备包括一电子显示屏，用户可以通过电子显示屏与协作提供方设备进行交互，用户通过与电子显示屏交互输入当前轮次的回复；或者，协作提供方设备包括一麦克风，协作提供方设备响应用户以语音方式输入当前轮次的问题的回复的操作，获取当前轮次的问题的回复。
111.在本实施例中，信息处理设备获取系统回复候选集和当前对话历史，对系统回复候选集和当前对话历史进行处理；确定针对当前轮次的问题进行回复使用的回复模式，以及从系统回复候选集中选择出当前轮次的问题的回复。一种可选实施例为，信息处理设备获取系统回复候选集和当前对话历史，将系统回复候选集和当前对话历史输入人机协作对话模型；确定针对当前轮次的问题进行回复使用的回复模式，以及从系统回复候选集中选择出当前轮次的问题的回复。
112.在上述实施例中，信息处理设备响应用户输入当前轮次的问题的操作，获取当前轮次的问题。包括但不限于以下几种获取方式：
113.获取方式一，信息处理设备的电子显示屏上展示一界面，界面中包括问题输入项，信息处理设备响应用户在问题输入项中输入当前轮次的问题的操作，获取当前轮次的问题。
114.获取方式二，信息处理设备上设置的麦克风采集用户以语音方式发出的当前轮次的问题。
115.信息处理设备在获取到当前轮次的问题后，将查找出历史轮次的对话和用于对话回复的系统回复候选集，信息处理设备将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式；若人机协作对话模型确定采用系统回复模式时，从系统回复候选集中选择并输出针对当前轮次的问题的回复；若人机协作对话模型确定采用人工回复模式时，向协作提供方设备发送人工回复请求，协作提供方设备获取人工输入的当前轮次的问题的回复后发送至信息处理设备。
116.图1b为本技术示例性实施例提供的一种人机协作对话模型20的模型结构示意图。如图1b所示，该人机协作对话模型20包括回复编码器201、历史编码器202、判决器203和预测器204。在人机协作对话模型20内部，将系统回复候选集输入回复编码器201中，回复编码器对系统回复候选集进行向量化处理，得到系统回复向量；将当前对话历史输入历史编码器202，利用历史编码器202对当前对话历史进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量输入判决器203中，以供判决器203确定是否采用人工回复模式；若确定采用系统回复模式，则将系统回复向量和对话状态向量输入预测器204中，预测器204从系统回复候选集中选择出针对当前轮次的问题的回复；若确定采用人工回复模式，服务器10b向协作提供方设备10c发送人工回复请求，协作提供方设备10c接收到人工回复请求后，获取人工输入的当前轮次的问题的回复并将当前轮次的问题的回复发送至对话设备10a中。
117.在一些示例性实施例中，当前对话历史，例如：“用户端：我想要听泰勒的歌；系统端：你想听什么类型的？；用户端：乡村音乐。”。系统回复候选集，例如：“1，api查找(泰勒，乡村音乐)；2，你想听哪位明星的歌；3，你想听什么类型的；4，有什么我可以帮你的”。将上述当前对话历史和系统回复候选集输入人机协作对话模型20中，在人机协作对话模型20内部，系统回复候选集输入回复编码器201中，回复编码器对系统回复候选集进行向量化处理，得到系统回复向量；将当前对话历史输入历史编码器202，利用历史编码器202对当前对话历史进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量输入判决器203中，以供判决器203确定是否采用人工回复模式。判决器203确定采用系统回复模式，则将系统回复向量和对话状态向量输入预测器204中，预测器204从系统回复候选集中选择出针对当前轮次的问题的回复为“1，api查找(泰勒，乡村音乐)”。
118.在本技术实施例中，将系统回复候选集和当前对话历史进行编码，得到同维度的系统回复向量和对话状态向量，增加人机协作对话模型处理速度，同时输入判决器进行判断是否采用人工回复模式，若判决器选择人工回复模式，则请求人工给出当前轮次的问题的回复；若判决器选择系统回复模式，则利用预测器从系统回复候选集中选择当前轮次的问题的回复。本技术对话系统采用人机协作对话模型，对话处理的速度快，对话的准确率高。
119.基于上述实施例各信息处理方法的方法实施例的描述，图3为本技术实施例还提供一种信息处理方法的流程示意图。如图3所示，该方法包括：
120.s301：获取用于对话回复的系统回复候选集和当前对话历史，其中，当前对话历史包括用户当前轮次的问题和历史轮次的对话；
121.s302：将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，人机协作对话模型利用判决器确定针对当前轮次的问题是否采用人工回复模式；若是，则执行步骤s303，若否，则执行步骤s305；
122.s303：向协作提供方设备发送人工回复请求；
123.s304：接收协作提供方设备发送的当前轮次的问题的回复；
124.s305：人工协作对话模型利用预测器从系统回复候选集中选择并输出的针对当前轮次的问题的回复；其中，人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。
125.图4为本技术示例性实施例提供的一种模型训练方法的流程示意图。如图4所示，该方法包括：
126.s401：获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；
127.s402：根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
128.在本实施例中，训练人机协作对话模型的模型训练设备为人机协作对话模型的拥有者，可以为用户自身的设备，例如，某个企业用户存在对话需要，可以利用企业用户的服务器进行训练人机协作对话模型，显然，训练人机协作对话模型的设备也可以为服务提供商的服务设备，服务设备训练模型需要使用用户设备提供的训练数据，可以将训练数据经过加密后发送给服务设备以进行模型训练。在本实施例中，并不限定模型训练设备的实现形态，例如，模型训练设备可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中，服务器设备的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类型。
129.在一些示例性实施例中，可预先根据大量回复候选集样本和对话历史样本和从系统回复候选集样本中选择出的目标回复样本，训练得到人工协作对话模型。一种可选实施例为，获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
130.在上述实施例中，获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本。一种可选实施例为，构建多个元学习任务，每个元学习任务包括相应领域的数据集；从多个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为训练样本。例如，每个元学习任务包含一个领域的数据集；从训练数据集中采样出k个领域，每个领域采样m个训练数据作为支撑集，采样m个训练数据作为问询集，构成k个元学习任务，从k个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本选择出的目标回复样本，共计2*m*k个训练样本。支撑集和问询集包含的数据都是从训练数据中随机采样得到
的，数据是类似的。
131.在上述实施例中，根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。一种可实现的方式为，将系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为输入参数；以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型。本技术实施例利用maml算法在元学习任务上进行联合训练，找到最合适的为一组模型初始化参数，使得该参数平均意义上在所有元学习任务上都具有最快优化效果。
132.可选地，以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型。一种可选实施例为，将系统回复候选集样本进行向量化处理，得到系统回复向量；将对话历史样本进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量作为输入参数，以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数同时进行二分类训练和多分类训练，得到训练完成的回复编码器、历史编码器、判决器和预测器。本技术利用判决器和预测器的损失函数加在一起得到联合损失函数，再利用maml算法对其进行优化，找到人机协作对话模型的优选参数，采用较少的训练数据，利用元学习的训练方法，使得人机协作对话模型具备快速学习的能力。
133.图1c为本技术示例性实施例提供的一种模型训练框架的示意图。如图1c所示，从训练数据集中采样出k个领域，每个领域采样m个训练数据作为支撑集，采样m个训练数据作为问询集，构成k个元学习任务，每个元学习任务包含一个领域的数据集。从k个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本选择出的目标回复样本，共计2*m*k个训练样本。将系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为输入参数；以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器301、历史编码器302、判决器303和模型预测器304，得到人机协作对话模型。
134.需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤301至步骤303的执行主体可以为设备a；又比如，步骤301和302的执行主体可以为设备a，步骤303的执行主体可以为设备b；等等。
135.另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如301、302等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。
136.在本技术上述方法实施例中，信息处理设备获取包括当前轮次的问题和历史轮次的对话当前对话历史，以及系统回复候选集；将系统回复候选集和对话历史，输入预先采用元学习训练方法训练出的人机协作对话模型；人机协作对话模型确定是否采用人工模式，在人机协作对话模型确定采用系统回复模式的情况下，信息处理设备接收人机协作对话模
型从系统回复候选集中选择并输出的针对当前轮次的问题的回复；采用元学习的训练方法训练出的人机协作对话模型，对话的准确较高。
137.图5为本技术示例性实施例提供的一种对话模型的训练方法的流程示意图。如图5所示，该方法包括：
138.s501：获得针对当前会话的系统回复内容样本和对话历史内容样本；
139.s502：获得系统回复内容的系统回复向量，以及，对话历史内容的对话状态向量；
140.s503：根据系统回复向量和对话状态向量，获得模型的增强学习损失函数和交叉熵损失函数；
141.s504：根据增强学习损失函数和交叉熵损失函数，得到联合损失函数；
142.s505：根据联合损失函数，对神经网络模型的网络参数进行训练，得到对话模型。
143.在本实施例中，训练对话模型的模型训练设备为对话模型的拥有者，可以为用户自身的设备，例如，某个企业用户存在对话需要，可以利用企业用户的服务器进行训练对话模型，显然，训练对话模型的设备也可以为服务提供商的服务设备，服务设备训练模型需要使用用户设备提供的训练数据，可以将训练数据经过加密后发送给服务设备以进行模型训练。在本实施例中，并不限定模型训练设备的实现形态，例如，模型训练设备可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中，服务器设备的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类型。
144.在本实施例中，根据系统回复向量和对话状态向量，获得模型的增强学习损失函数和交叉熵损失函数；根据增强学习损失函数和交叉熵损失函数，得到联合损失函数。
145.在本实施例中，根据联合损失函数，对模型的网络参数进行训练，得到对话模型。一种可选实施例为，利用元学习方法中的maml算法对联合损失函数进行优化，训练模型的网络参数，得到对话模型。联合损失函数的值最小时，固化模型的网络参数，得到对话模型。
146.在上述实施例中，获得针对当前会话的系统回复内容样本和对话历史内容样本。一种可选实施例为，获得元学习方法的训练数据；根据训练数据构造多个元学习任务，每个元学习任务包含支撑集和问询集。例如，每个元学习任务包含一个领域的数据集；从训练数据集中采样出k个领域，每个领域采样m个训练数据作为支撑集，采样m个训练数据作为问询集，构成k个元学习任务，从k个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本选择出的目标回复样本，共计2*m*k个训练样本。支撑集和问询集包含的数据都是从训练数据中随机采样得到的，数据是类似的。
147.在上述实施例中，利用一个或多个元学习任务的支撑集和问询集训练系统回复候选集和对话历史内容；系统回复候选集用于根据当前会话的输入生成系统回复内容；对话历史内容用于提供当前会话的对话历史。
148.本技术利用判决器和预测器的损失函数加在一起得到联合损失函数，再利用maml算法对其进行优化，找到对话模型的优选参数，采用较少的训练数据，利用元学习的训练方法，使得对话模型具备快速学习的能力。
149.图6为本技术示例性实施例提供的一种对话处理方法的流程示意图。如图6所示，该方法包括：
150.s601：接收当前对话的问题；
151.s602：根据当前对话的问题，获得针对当前对话的系统回复内容和对话历史内容；
152.s603：生成系统回复内容的系统回复向量，以及，对话历史内容的对话状态向量；
153.s604：根据系统回复向量和对话状态向量生成当前对话的问题的回复内容。
154.在本实施例中，上述方法的执行主体信息处理设备，除了具有基础服务功能之外，还可以具有计算、通信、上网等功能，本技术实施例并不对信息处理设备的类型作出限定。信息处理设备可以为个人电脑，手机，机器人，智能电视，智能音箱以及服务器等。其中，服务器设备的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类型。服务器可以包含一台网站服务器，也可以包含多台网站服务器。
155.在本实施例中，信息处理设备获取系统回复候选集和当前对话历史，对系统回复候选集和当前对话历史进行处理；确定针对当前对话的问题进行回复使用的回复模式，以及从系统回复候选集中选择出当前对话的问题的回复。一种可选实施例为，信息处理设备获取系统回复候选集和当前对话历史，将系统回复候选集和当前对话历史输入对话模型；确定针对当前对话的问题进行回复使用的回复模式，以及从系统回复候选集中选择出当前对话的问题的回复。
156.在上述实施例中，信息处理设备响应用户输入当前对话的问题的操作，获取当前对话的问题。包括但不限于以下几种获取方式：
157.获取方式一，信息处理设备的电子显示屏上展示一界面，界面中包括问题输入项，信息处理设备响应用户在问题输入项中输入当前对话的问题的操作，获取当前对话的问题。
158.获取方式二，信息处理设备上设置的麦克风采集用户以语音方式发出的当前对话的问题。
159.信息处理设备在获取到当前对话的问题后，将查找出历史轮次的对话和用于对话回复的系统回复候选集，信息处理设备将系统回复候选集和当前对话历史，输入预先训练出的对话模型，对话模型确定针对当前对话的问题进行回复使用的回复模式；若对话模型确定采用系统回复模式时，从系统回复候选集中选择并输出针对当前对话的问题的回复；若对话模型确定采用人工回复模式时，向协作提供方设备发送人工回复请求，协作提供方设备获取人工输入的当前对话的问题的回复后发送至信息处理设备。
160.在对话模型内部，将系统回复候选集输入回复编码器中，回复编码器对系统回复候选集进行向量化处理，得到系统回复向量；将当前对话历史输入历史编码器，利用历史编码器对当前对话历史进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量输入判决器中，以供判决器确定是否采用人工回复模式；若确定采用系统回复模式，则将系统回复向量和对话状态向量输入预测器中，预测器从系统回复候选集中选择出针对当前对话的问题的回复；若确定采用人工回复模式，服务器向协作提供方设备发送人工回复请求，协作提供方设备接收到人工回复请求后，获取人工输入的当前对话的问题的回复并将当前对话的问题的回复发送至对话设备中。
161.在一些示例性实施例中，当前对话历史，例如：“用户端：我想要听泰勒的歌；系统端：你想听什么类型的？；用户端：乡村音乐。”。系统回复候选集，例如：“1，api查找(泰勒，乡村音乐)；2，你想听哪位明星的歌；3，你想听什么类型的；4，有什么我可以帮你的”。将上述当前对话历史和系统回复候选集输入对话模型20中，在对话模型20内部，系统回复候选集输入回复编码器201中，回复编码器对系统回复候选集进行向量化处理，得到系统回复向
量；将当前对话历史输入历史编码器202，利用历史编码器202对当前对话历史进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量输入判决器203中，以供判决器203确定是否采用人工回复模式。判决器203确定采用系统回复模式，则将系统回复向量和对话状态向量输入预测器204中，预测器204从系统回复候选集中选择出针对当前对话的问题的回复为“1，api查找(泰勒，乡村音乐)”。
162.在本技术实施例中，将系统回复候选集和当前对话历史进行编码，得到同维度的系统回复向量和对话状态向量，增加对话模型处理速度，同时输入判决器进行判断是否采用人工回复模式，若判决器选择人工回复模式，则请求人工给出当前对话的问题的回复；若判决器选择系统回复模式，则利用预测器从系统回复候选集中选择当前对话的问题的回复。本技术对话系统采用对话模型，对话处理的速度快，对话的准确率高。
163.图7为本技术示例性实施例提供的一种信息处理装置的结构示意图，如图7所示，该信息处理装置包括获取模块71，输入模块72和接收模块73。
164.其中，获取模块71，用于获取用于对话回复的系统回复候选集和当前对话历史，其中，当前对话历史包括用户当前轮次的问题和历史轮次的对话；
165.输入模块72，用于将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式；
166.接收模块73，用于接收人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对当前轮次的问题的回复；其中，人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。
167.可选地，接收模块73，用于接收人机协作对话模型在确定采用人工回复模式时协作提供方设备返回的针对当前轮次的问题的回复。
168.可选地，输入模块72，在将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式，以及接收人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对当前轮次的问题的回复时，具体用于：在人机协作对话模型内部，利用判决器确定是否采用人工回复模式；若确定采用系统回复模式，则利用预测器从系统回复候选集中选择出针对当前轮次的问题的回复输出当前轮次的问题的回复。
169.可选地，输入模块72，利用判决器确定是否采用人工回复模式，具体用于：将系统回复候选集输入回复编码器，利用回复编码器对系统回复候选集进行向量化处理，得到系统回复向量；将当前对话历史输入历史编码器，利用历史编码器对当前对话历史进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量输入判决器中，以供判决器确定是否采用人工回复模式。
170.可选地，接收模块73，用于若确定采用人工回复模式，则向协作提供方设备发送人工回复请求，以供协作提供方设备获取人工输入的当前轮次的问题的回复；接收协作提供方设备发送的当前轮次的问题的回复。
171.图8为本技术示例性实施例提供的一种模型训练装置的结构示意图。如图8所示，该模型训练装置包括获取模块81和训练模块82。
172.其中，获取模块81，用于获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；
173.训练模块82，用于根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
174.可选地，获取模块81，具体用于，构建多个元学习任务，每个元学习任务包括相应领域的数据集；从多个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为训练样本。
175.可选地，训练模块82在根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型时，具体用于，将系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为输入参数；以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型。
176.可选地，训练模块82在以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型时，具体用于：将系统回复候选集样本进行向量化处理，得到系统回复向量；将对话历史样本进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量作为输入参数，以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数同时进行二分类训练和多分类训练，得到训练完成的回复编码器、历史编码器、判决器和预测器。
177.在本技术上述装置实施例中，信息处理设备获取包括当前轮次的问题和历史轮次的对话当前对话历史，以及系统回复候选集；将系统回复候选集和对话历史，输入预先采用元学习训练方法训练出的人机协作对话模型；人机协作对话模型确定是否采用人工模式，在人机协作对话模型确定采用系统回复模式的情况下，信息处理设备接收人机协作对话模型从系统回复候选集中选择并输出的针对当前轮次的问题的回复；采用元学习的训练方法训练出的人机协作对话模型，对话的准确较高。
178.图9为本技术示例性实施例提供的一种信息处理设备的结构示意图。如图9所示，该信息处理设备包括存储器901和处理器902。另外，该信息处理设备还包括电源组件903和通信组件904等必要组件。
179.存储器901，用于存储计算机程序，并可被配置为存储其它各种数据以支持在信息处理设备上的操作。这些数据的示例包括用于在信息处理设备上操作的任何应用程序或方法的指令。
180.存储器901，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
181.通信组件904，用于与其他设备进行数据传输。
182.处理器902，可执行存储器901中存储的计算机指令，以用于：获取用于对话回复的系统回复候选集和当前对话历史，其中，当前对话历史包括用户当前轮次的问题和历史轮次的对话；将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，以供
人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式；以及接收人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对当前轮次的问题的回复；其中，人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。
183.可选地，处理器902，还可用于：接收人机协作对话模型在确定采用人工回复模式时协作提供方设备返回的针对当前轮次的问题的回复。
184.可选地，处理器902在将系统回复候选集和当前对话历史，输入预先训练出的人机协作对话模型，以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式，以及接收人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对当前轮次的问题的回复时，具体用于：在人机协作对话模型内部，利用判决器确定是否采用人工回复模式；若确定采用系统回复模式，则利用预测器从系统回复候选集中选择出针对当前轮次的问题的回复；输出当前轮次的问题的回复。
185.可选地，处理器902在利用判决器确定是否采用人工回复模式时，具体用于：将系统回复候选集输入回复编码器，利用回复编码器对系统回复候选集进行向量化处理，得到系统回复向量；将当前对话历史输入历史编码器，利用历史编码器对当前对话历史进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量输入判决器中，以供判决器确定是否采用人工回复模式。
186.可选地，处理器902，还可用于：若确定采用人工回复模式，则向协作提供方设备发送人工回复请求，以供协作提供方设备获取人工输入的当前轮次的问题的回复；接收协作提供方设备发送的当前轮次的问题的回复。
187.相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图2方法实施例中的各步骤。
188.图10为本技术一示例性实施例提供的一种模型处理设备的结构示意图。如图10所示，该模型处理设备包括：存储器1001和处理器1002。另外，该模型处理设备还包括电源组件1003和通信组件1004等必要组件。
189.存储器1001，用于存储计算机程序，并可被配置为存储其它各种数据以支持在模型处理设备上的操作。这些数据的示例包括用于在模型处理设备上操作的任何应用程序或方法的指令。
190.存储器1001，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
191.通信组件1004，用于与其他设备进行数据传输。
192.处理器1002，可执行存储器1001中存储的计算机指令，以用于：获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本；根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型。
193.可选地，处理器1002在获取系统回复候选集样本、对话历史样本以及从系统回复
候选集样本中选择出的目标回复样本时，具体用于：构建多个元学习任务，每个元学习任务包括相应领域的数据集；从多个元学习任务中，选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为训练样本。
194.可选地，处理器1002在根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，采用元学习的方法进行分类训练，得到人机协作对话模型时，具体用于：将系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本，作为输入参数；以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型。
195.可选地，处理器1002在以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数，同时训练回复编码器、历史编码器、判决器和模型预测器，得到人机协作对话模型时，具体用于：将系统回复候选集样本进行向量化处理，得到系统回复向量；将对话历史样本进行向量化处理，得到对话状态向量；将系统回复向量和对话状态向量作为输入参数，以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数同时进行二分类训练和多分类训练，得到训练完成的回复编码器、历史编码器、判决器和预测器。
196.相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图4方法实施例中的各步骤。
197.图11为本技术一示例性实施例提供的一种模型处理设备的结构示意图。如图11所示，该模型处理设备包括：存储器1101和处理器1102。另外，该模型处理设备还包括电源组件1103和通信组件1104等必要组件。
198.存储器1101，用于存储计算机程序，并可被配置为存储其它各种数据以支持在模型处理设备上的操作。这些数据的示例包括用于在模型处理设备上操作的任何应用程序或方法的指令。
199.存储器1101，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
200.通信组件1104，用于与其他设备进行数据传输。
201.处理器1102，可执行存储器1101中存储的计算机指令，以用于：获得针对当前会话的系统回复内容样本和对话历史内容样本；获得系统回复内容的系统回复向量，以及，对话历史内容的对话状态向量；根据系统回复向量和对话状态向量，获得模型的增强学习损失函数和交叉熵损失函数；根据增强学习损失函数和交叉熵损失函数，得到联合损失函数；根据联合损失函数，对模型的网络参数进行训练，得到对话模型。
202.可选地，处理器1102在根据联合损失函数，对模型的网络参数进行训练，得到对话模型时，具体用于：利用元学习方法中的maml算法对联合损失函数进行优化，训练模型的网络参数，得到对话模型。
203.可选地，处理器1102，还可用于：获得元学习方法的训练数据；根据训练数据构造
多个元学习任务，每个元学习任务包含支撑集和问询集。
204.可选地，处理器1102，还可用于：利用一个或多个元学习任务的支撑集和问询集训练系统回复候选集和对话历史内容；系统回复候选集用于根据当前会话的输入生成系统回复内容；对话历史内容用于提供当前会话的对话历史。
205.相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图5方法实施例中的各步骤。
206.图12为本技术示例性实施例提供的一种信息处理设备的结构示意图。如图12所示，该信息处理设备包括存储器1201和处理器1202。另外，该信息处理设备还包括电源组件1203和通信组件1204等必要组件。
207.存储器1201，用于存储计算机程序，并可被配置为存储其它各种数据以支持在信息处理设备上的操作。这些数据的示例包括用于在信息处理设备上操作的任何应用程序或方法的指令。
208.存储器1201，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
209.通信组件1204，用于与其他设备进行数据传输。
210.处理器1202，可执行存储器1201中存储的计算机指令，以用于：接收当前对话的问题；根据当前对话的问题，获得针对当前对话的系统回复内容和对话历史内容；生成系统回复内容的系统回复向量，以及，对话历史内容的对话状态向量；根据系统回复向量和对话状态向量生成当前对话的问题的回复内容。
211.相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图6方法实施例中的各步骤。
212.上述图9至图12中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如wifi，2g、3g、4g/lte、5g等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
213.上述图9至图12中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
214.在本技术上述设备和存储介质实施例中，信息处理设备获取包括当前轮次的问题和历史轮次的对话当前对话历史，以及系统回复候选集；将系统回复候选集和对话历史，输入预先采用元学习训练方法训练出的人机协作对话模型；人机协作对话模型确定是否采用人工模式，在人机协作对话模型确定采用系统回复模式的情况下，信息处理设备接收人机
协作对话模型从系统回复候选集中选择并输出的针对当前轮次的问题的回复；采用元学习的训练方法训练出的人机协作对话模型，对话的准确较高。
215.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
216.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
217.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
218.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
219.在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
220.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
221.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
222.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
223.以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：展示数据发送方法、装置、电子设备和计算机可读介质与流程

对话处理、信息处理、模型训练方法、设备及存储介质与流程

相关文献

最热文献