对话检测模型训练方法及装置与流程

2023-03-19 02:33:36 来源：中国专利 TAG：

技术特征：
1.一种对话检测模型训练方法，其特征在于，包括：对多个历史对话序列进行调整处理，获得历史对话样本，并基于所述历史对话样本对初始对话检测模型进行预训练，获得中间对话检测模型；将所述历史对话样本中包含关键词的对话样本作为正对话样本，并存储至正对话样本集合，以及在所述历史对话样本中筛选负对话样本，并存储至负对话样本集合；在所述负对话样本集合和所述正对话样本集合中提取待处理对话样本，并对所述待处理对话样本进行标注处理，获得标注对话样本；基于所述标注对话样本对所述中间对话检测模型进行训练，直至获得满足训练停止条件的目标对话检测模型。2.根据权利要求1所述的方法，其特征在于，对多个历史对话序列进行调整处理，获得历史对话样本，包括：分别对每个历史对话序列包含的噪声数据进行删除或修改，获得每个历史对话序列的第一历史对话序列；对每个第一历史对话序列进行整合处理，获得历史对话样本。3.根据权利要求1所述的方法，其特征在于，所述基于所述历史对话样本对初始对话检测模型进行预训练，获得中间对话检测模型，包括：基于预设掩码比例在所述历史对话样本中确定待处理字单元；按照预设掩码概率对所述历史对话样本中的待处理字单元进行掩码处理，获得待训练对话样本；基于所述待训练对话样本对所述初始对话检测模型进行预训练，获得中间对话检测模型。4.根据权利要求1所述的方法，其特征在于，所述将所述历史对话样本中包含关键词的对话样本作为正对话样本，并存储至正对话样本集合，以及在所述历史对话样本中筛选负对话样本，并存储至负对话样本集合，包括：将所述历史对话样本中包含关键词的至少两个对话样本作为初始对话样本；根据至少两个初始对话样本的属性信息，将至少两个初始对话样本划分为正对话样本和第一负对话子样本；对所述历史对话样本随机采样处理，获得第二负对话子样本，将所述第一负对话子样本和所述第二负对话子样本作为负对话样本，并将所述负对话样本存储至负对话样本集合，以及将所述正对话样本存储至正对话样本集合。5.根据权利要求4所述的方法，其特征在于，所述将所述历史对话样本中包含关键词的至少两个对话样本作为初始对话样本，包括：在所述历史对话样本中确定包含关键词的中心对话语句；基于所述历史对话样本生成包含所述中心对话语句的初始对话样本。6.根据权利要求5所述的方法，其特征在于，所述基于所述历史对话样本生成包含所述中心对话语句的初始对话样本，包括：在所述历史对话样本中选择与所述中心对话语句对应的前序对话文本和后续对话文本；将所述前序对话文本、所述后续对话文本与所述中心对话语句进行组合，获得初始对
话样本。7.根据权利要求1所述的方法，其特征在于，所述对所述待处理对话样本进行标注处理，获得标注对话样本，包括：在所述待处理对话样本中确定包含关键词的中心对话语句，以及不包含关键词的关联对话语句；为所述中心对话语句分配第一标识，以及为所述关联对话语句分配第二标识，获得标注对话样本。8.根据权利要求1所述的方法，其特征在于，所述基于所述标注对话样本对所述中间对话检测模型进行训练，直至获得满足训练停止条件的目标对话检测模型，包括：根据所述标注对话样本的样本类型确定所述标注对话样本的样本标签；将所述标注对话样本输入至所述中间对话检测模型进行检测，获得所述标注对话样本的检测概率；基于所述样本标签、所述检测概率和损失函数对所述中间对话检测模型进行训练，直至获得满足训练停止条件的目标对话检测模型。9.一种对话序列检测方法，其特征在于，包括：获取待检测对话序列；对所述待检测对话序列进行调整处理，获得待检测对话文本；将所述待检测对话文本输入至权利要求1-8任意一项所述方法中的目标对话检测模型进行检测，获得所述待检测对话序列的检测信息。10.一种对话检测模型训练装置，其特征在于，包括：预训练模块，被配置为对多个历史对话序列进行调整处理，获得历史对话样本，并基于所述历史对话样本对初始对话检测模型进行预训练，获得中间对话检测模型；存储模块，被配置为将所述历史对话样本中包含关键词的对话样本作为正对话样本，并存储至正对话样本集合，以及在所述历史对话样本中筛选负对话样本，并存储至负对话样本集合；提取模块，被配置为在所述负对话样本集合和所述正对话样本集合中提取待处理对话样本，并对所述待处理对话样本进行标注处理，获得标注对话样本；训练模块，被配置为基于所述标注对话样本对所述中间对话检测模型进行训练，直至获得满足训练停止条件的目标对话检测模型。11.一种计算设备，其特征在于，包括存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现权利要求1至8或9任意一项所述方法的步骤。12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至8或9任意一项所述方法的步骤。

技术总结
本说明书提供对话检测模型训练方法及装置，其中所述对话检测模型训练方法包括：对多个历史对话序列进行调整处理，获得历史对话样本，并基于所述历史对话样本对初始对话检测模型进行预训练，获得中间对话检测模型；将所述历史对话样本中包含关键词的对话样本作为正对话样本，并存储至正对话样本集合，以及在所述历史对话样本中筛选负对话样本，并存储至负对话样本集合；在所述负对话样本集合和所述正对话样本集合中提取待处理对话样本，并对所述待处理对话样本进行标注处理，获得标注对话样本；基于所述标注对话样本对所述中间对话检测模型进行训练，直至获得满足训练停止条件的目标对话检测模型。标对话检测模型。标对话检测模型。

技术研发人员：阎覃孙子钧张天宇赵薇柳景明
受保护的技术使用者：北京猿力教育科技有限公司
技术研发日：2022.11.22
技术公布日：2023/3/3

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于组态软件的时序数据可视化方法及装置与流程

对话检测模型训练方法及装置与流程

相关文献

最热文献