一种基于伪标签自训练和源域再训练的新对话意图识别方法与流程

2022-02-19 14:27:20 来源：中国专利 TAG：

技术特征：
1.一种基于伪标签自训练和源域再训练的新对话意图识别方法，其特征在于，包括以下步骤：1)使用模型net1和模型net2对输入进行特征提取，分别得到第i个输入的向量表示和对和进行加权组合得到第i个输入的最终表示所述模型net1和模型net2为结构相同的bert模型；2)使用聚类模型kmeans对输入的最终向量表示进行聚类操作，得到每个样本所属类别的伪标签使用softmax分类器对输入的向量表示和分别进行分类操作，得到每个样本所属类别的另外两组伪标签和对和进行线性变换，得到模型对第i个输入的预测概率分布向量和采用自训练的方法，通过交叉熵损失计算预测概率分布向量与伪标签的差异，预测概率分布向量与伪标签的差异以及预测概率分布向量与伪标签的差异，对所有输入样本的损失进行求和，得到损失值对损失值进行加权组合得到伪标签自训练的最终损失值3)使用有标注数据对模型net1和模型net2进行再训练，通过交叉熵损失函数计算模型预测值和与真实标签之间的差异，得到有标注训练的损失值4)对和进行加权组合，得到最终的损失值通过反向传播不断更新模型参数，使得模型的预测与真实值的之差在预设范围内；5)将待分类对话文本分别输入到模型kmeans、模型net1和模型net2进行标签预测，对得到的预测标签进行加权组合，最后使用softmax分类器对组合结果进行分类。2.根据权利要求1所述的基于伪标签自训练和源域再训练的新对话意图识别方法，其特征在于，步骤1)中的特征提取的具体操作为：针对第i个输入文本s
i
，使用模型net1和模型net2分别进行特征提取，得到向量表示和和和和和其中，meanpooling表示对bert模型最终的输出做平均池化，和为输入的隐藏层表示，σ表示relu激活函数，w
a
,b
a
为可学习参数。
3.根据权利要求2所述的基于伪标签自训练和源域再训练的新对话意图识别方法，其特征在于，步骤1)中求最终表示的操作为：对s
i
的两个向量表示进行加权组合，得到s
i
的最终向量表示的最终向量表示其中，λ
f
为超参数，为预设值，用于平衡两个向量表示所占的权重。4.根据权利要求1所述的基于伪标签自训练和源域再训练的新对话意图识别方法，其特征在于，步骤2)的伪标签生成的具体操作为：将s
i
的最终向量表示输入到聚类模型kmeans中，得到其对应类别的伪标签输入到聚类模型kmeans中，得到其对应类别的伪标签输入到聚类模型kmeans中，得到其对应类别的伪标签其中，μ
j
为聚类过程中第j簇中心的向量表示，为指示函数，||.||2为欧式距离；利用softmax分类器对模型net1和模型net2提取到的输入向量和进行分类操作，从而得到每个样本所属类别的另外两组伪标签和和和通过一层线性层对输入向量和进行线性变换，得到模型net1和模型net2对于输入文本s
i
类别的预测向量及及及其中，w
c
,b
c
,w
m
,b
m
均为可学习参数。5.根据权利要求4所述的基于伪标签自训练和源域再训练的新对话意图识别方法，其特征在于，步骤2)的自训练得到损失值的具体操作为：通过自训练的方法，利用交叉熵损失函数分别计算预测概率分布向量与伪标签的差异，预测概率分布向量与伪标签的差异以及预测概率分布向量与伪标签的差异，对所有输入样本的损失进行求和，得到损失值的差异，对所有输入样本的损失进行求和，得到损失值
其中，n为样本数量，exp()为指数函数；对损失值进行加权组合得到伪标签自训练的最终损失值进行加权组合得到伪标签自训练的最终损失值其中，λ
s1
和λ
s2
均为超参数，为预设值。6.根据权利要求1所述的基于伪标签自训练和源域再训练的新对话意图识别方法，其特征在于，步骤3)中，得到有标注训练的损失值的具体操作为：通过交叉熵损失函数计算模型net1预测值与真实标签之间的差异，并对所有输入样本进行求和，得到损失值入样本进行求和，得到损失值通过交叉熵损失函数计算模型net2预测概率分布向量与真实标签之间的差异，并对所有输入样本进行求和，得到损失值并对所有输入样本进行求和，得到损失值其中，m为有标注数据的数量；通过对模型net1和模型net2在有标注数据上再训练得到的损失和进行加权组合，得到有标注再训练的整体损失值合，得到有标注再训练的整体损失值其中，λ
l1
为超参数，为预设值。7.根据权利要求1所述的基于伪标签自训练和源域再训练的新对话意图识别方法，其特征在于，步骤4)中，使用反向传播更新模型参数的具体操作为：对伪标签自训练损失值和有标注训练损失值进行加权组合得到模型的整体损失体损失
其中，λ
t
为超参数，为预设值，用于平衡损失和所占的权重；得到整体损失后，利用反向传播算法，不断更新模型net1和模型net2的参数，使得模型的预测与真实值的之差在预设范围内。8.根据权利要求1所述的基于伪标签自训练和源域再训练的新对话意图识别方法，其特征在于，步骤5)的模型使用时预测输入类别的具体操作为：针对第i个训练数据，将其输入到训练好的模型net1、模型net2以及聚类模型kmeans中，分别得到预测标签及对得到的三个预测标签进行加权组合，得到最终的预测标签预测标签使用softmax分类器对预测标签进行分类，取分类最大值y
i
作为最终的预测类别：

技术总结
本发明公开了一种基于伪标签自训练和源域再训练的新对话意图识别方法，属于语言处理的技术领域。本发明的基于伪标签自训练和源域再训练的新对话意图识别方法，为包含新对话意图的未标注数据产生伪标签，并利用自训练的方法迭代更新模型参数，使得识别准确率不断提高；同时提出了一种再训练策略，使得知识可以更好地在源域和目标域间进行迁移，从而提高模型的表达能力；最后，本发明融合了三个模型的输出进行集成学习，提高了模型的鲁棒性。提高了模型的鲁棒性。提高了模型的鲁棒性。

技术研发人员：田锋安文斌郑庆华
受保护的技术使用者：西安交通大学
技术研发日：2021.10.12
技术公布日：2022/1/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：同产状斜条分岩质边坡三维稳定性预测方法与流程

一种基于伪标签自训练和源域再训练的新对话意图识别方法与流程

相关文献

最热文献