一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

对话处理、信息处理、模型训练方法、设备及存储介质与流程

2021-12-07 20:17:00 来源:中国专利 TAG:

技术特征:
1.一种模型训练方法,其特征在于,包括:获得针对当前会话的系统回复内容样本和对话历史内容样本;获得所述系统回复内容的系统回复向量,以及,所述对话历史内容的对话状态向量;根据所述系统回复向量和所述对话状态向量,获得模型的增强学习损失函数和交叉熵损失函数;根据所述增强学习损失函数和所述交叉熵损失函数,得到联合损失函数;根据所述联合损失函数,对模型的网络参数进行训练,得到对话模型。2.根据权利要求1所述的方法,其特征在于,根据所述联合损失函数,对模型的网络参数进行训练,得到对话模型,包括:利用元学习方法中的maml算法对所述联合损失函数进行优化,训练模型的网络参数,得到对话模型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获得所述元学习方法的训练数据;根据所述训练数据构造多个元学习任务,每个元学习任务包含支撑集和问询集。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:利用所述一个或多个元学习任务的支撑集和问询集训练系统回复候选集和对话历史内容;所述系统回复候选集用于根据当前会话的输入生成系统回复内容;所述对话历史内容用于提供当前会话的对话历史。5.一种对话处理方法,其特征在于,利用所述权利要求1至4中任一项所述的对话模型进行对话处理,包括:接收当前对话的问题;根据所述当前对话的问题,获得针对当前对话的系统回复内容和对话历史内容;生成所述系统回复内容的系统回复向量,以及,所述对话历史内容的对话状态向量;根据所述系统回复向量和所述对话状态向量生成当前对话的问题的回复内容。6.一种对话处理方法,其特征在于,包括:获取用于对话回复的系统回复候选集和当前对话历史,其中,当前对话历史包括用户当前轮次的问题和历史轮次的对话;将系统回复候选集和当前对话历史,输入预先训练出的人机协作对话模型,以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式;以及接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复;其中,人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:接收所述人机协作对话模型在确定采用人工回复模式时协作提供方设备返回的针对所述当前轮次的问题的回复。8.根据权利要求6所述的方法,其特征在于,将系统回复候选集和当前对话历史,输入预先训练出的人机协作对话模型,以供人机协作对话模型确定针对当前轮次的问题进行回
复使用的回复模式,以及接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复,包括:在人机协作对话模型内部,利用判决器确定是否采用人工回复模式;若确定采用系统回复模式,则利用预测器从系统回复候选集中选择出针对所述当前轮次的问题的回复;输出所述当前轮次的问题的回复。9.根据权利要求8所述的方法,其特征在于,利用判决器确定是否采用人工回复模式,包括:将所述系统回复候选集输入回复编码器,利用回复编码器对系统回复候选集进行向量化处理,得到系统回复向量;将所述当前对话历史输入历史编码器,利用历史编码器对当前对话历史进行向量化处理,得到对话状态向量;将所述系统回复向量和对话状态向量输入判决器中,以供判决器确定是否采用人工回复模式。10.根据权利要求8所述的方法,其特征在于,所述方法还包括:若确定采用人工回复模式,则向协作提供方设备发送人工回复请求,以供协作提供方设备获取人工输入的所述当前轮次的问题的回复;接收协作提供方设备发送的当前轮次的问题的回复。11.一种模型训练方法,其特征在于,包括:获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本;根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本,采用元学习的方法进行分类训练,得到人机协作对话模型。12.根据权利要求11所述的方法,其特征在于,获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本,包括:构建多个元学习任务,每个元学习任务包括相应领域的数据集;从所述多个元学习任务中,选择出系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本,作为训练样本。13.根据权利要求11所述的方法,其特征在于,根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本,采用元学习的方法进行分类训练,得到人机协作对话模型,包括:将所述系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本,作为输入参数;以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数,同时训练回复编码器、历史编码器、判决器和模型预测器,得到人机协作对话模型。14.根据权利要求13所述的方法,其特征在于,以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数,同时训练回复编码器、历史编码器、判决器和模型预测器,得到人机协作对话模型,包括:将系统回复候选集样本进行向量化处理,得到系统回复向量;
将对话历史样本进行向量化处理,得到对话状态向量;将系统回复向量和对话状态向量作为输入参数,以从回复候选集选择出正确的回复的误差和是否采用人工回复的联合损失作为目标函数同时进行二分类训练和多分类训练,得到训练完成的回复编码器、历史编码器、判决器和预测器。15.一种信息处理设备,其特征在于,包括:一个或多个处理器以及一个或多个存储计算机程序的存储器;所述一个或多个处理器,用于执行所述计算机程序,以用于:获取用于对话回复的系统回复候选集和当前对话历史,其中,当前对话历史包括用户当前轮次的问题和历史轮次的对话;将系统回复候选集和对话历史,输入预先训练出的人机协作对话模型,以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式;以及接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复;其中,人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。16.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行包括以下的动作:获取用于对话回复的系统回复候选集和当前对话历史,其中,当前对话历史包括用户当前轮次的问题和历史轮次的对话;将系统回复候选集和对话历史,输入预先训练出的人机协作对话模型,以供人机协作对话模型确定针对当前轮次的问题进行回复使用的回复模式;以及接收所述人机协作对话模型在确定采用系统回复模式时从系统回复候选集中选择并输出的针对所述当前轮次的问题的回复;其中,人机协作对话模型是采用元学习训练方法对系统回复候选集样本和对话历史样本进行训练得到的。17.一种模型训练设备,其特征在于,包括:一个或多个处理器以及一个或多个存储计算机程序的存储器;所述一个或多个处理器,用于执行所述计算机程序,以用于:获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本;根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本,采用元学习的方法进行分类训练,得到人机协作对话模型。18.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行包括以下的动作:获取系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本;根据系统回复候选集样本、对话历史样本以及从系统回复候选集样本中选择出的目标回复样本,采用元学习的方法进行分类训练,得到人机协作对话模型。

技术总结
本申请实施例提供一种对话处理、信息处理、模型训练方法、设备及存储介质。在本申请的一些实施例中,信息处理设备获取包括当前轮次的问题和历史轮次的对话当前对话历史,以及系统回复候选集;将系统回复候选集和对话历史,输入预先采用元学习训练方法训练出的人机协作对话模型;人机协作对话模型确定是否采用人工模式,在人机协作对话模型确定采用系统回复模式的情况下,信息处理设备接收人机协作对话模型从系统回复候选集中选择并输出的针对当前轮次的问题的回复;采用元学习的训练方法训练出的人机协作对话模型,对话的准确较高。对话的准确较高。对话的准确较高。


技术研发人员:戴音培 孙健 唐呈光 黎航宇 李永彬
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2020.06.02
技术公布日:2021/12/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献