一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本多标签分类方法及装置与流程

2023-02-15 18:10:12 来源:中国专利 TAG:

技术特征:
1.一种文本多标签分类方法,其特征在于,包括:接收文本多分类请求;所述多分类请求中携带有目标文本数据;将所述目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;所述自适应提示模板是基于对比学习通过迭代训练构建的;将所述提示模板矩阵与所述目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将所述目标语句向量表征输入至编码模型中,得到所述目标文本数据对应的目标语句表示;利用线性分类器对所述目标语句表示进行映射分类,得到所述目标文本数据对应的标签集合。2.根据权利要求1所述的文本多标签分类方法,其特征在于,在接收多分类请求之前,还包括:随机初始化提示模板以生成初始化提示模板矩阵;获取标注数据集;所述标注数据集包括多个语句以及所述多个语句中各语句对应的至少一个标签;基于所述标注数据集构建第一标注集合和第二标注集合;所述第一标注集合中的语句对应的标签包括第一标签;所述第二标注集合中的语句对应的标签不包括所述第一标签;基于所述第一标注集合、所述第二标注集合和所述初始化提示模板矩阵进行对比学习,微调所述初始化提示模板的参数,得到自适应提示模板。3.根据权利要求2所述的文本多标签分类方法,其特征在于,获取标注数据集,包括:获取原始标注数据集;所述原始标注数据集中包括多个语句以及所述多个语句中各语句对应的至少一个标签;对所述原始标注数据集进行数据增强,得到增强后的标注数据集。4.根据权利要求2所述的文本多标签分类方法,其特征在于,基于所述第一标注集合、所述第二标注集合和所述初始化提示模板矩阵进行对比学习,微调所述初始化提示模板的参数,得到自适应提示模板,包括:将所述第一标注集合中的语句输入所述预训练模型中,得到第一预训练词向量矩阵集合;将所述第二标注集合中的语句输入所述预训练模型中,得到第二预训练词向量矩阵集合;将所述初始化提示模板与所述第一预训练词向量矩阵集合中的第一预训练词向量矩阵进行拼接,得到第一语句向量表征集合;将所述初始化提示模板与所述第二预训练词向量矩阵集合中的第二预训练词向量矩阵进行拼接,得到第二语句词向量表征集合;将所述第一语句向量表征集合中的第一语句向量表征输入至所述编码模型中,得到第一输出集合;将所述第二语句向量表征集合中的第二语句向量表征输入至所述编码模型中,得到第二输出集合;基于所述第一输出集合和所述第二输出集合构造对比学习损失函数;基于所述对比学习损失函数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板。5.根据权利要求4所述的文本多标签分类方法,其特征在于,基于所述对比学习损失函
数,采用梯度下降算法对所述初始化提示模板进行多轮迭代训练,得到自适应提示模板,包括:构建所述线性分类器对应的分类器损失函数;基于所述对比学习损失函数和所述分类器损失函数,构造整体损失函数;基于所述整体损失函数,采用梯度下降算法对所述分类器和所述初始化提示模板进行联合训练,得到训练好的线性分类器和自适应提示模板。6.根据权利要求4所述的文本多标签分类方法,其特征在于,所述对比学习损失函数为:其中,l
cl
为所述对比学习损失函数,k代表对于所述第二标注集合中的语句的个数,s(x,y)代表x,y余弦相似度,c为所述第一输出集合中与所述第一标注集合中的一语句对应的第一输出,c

为所述第一输出集合中与所述第一标注集合中的另一语句对应的第一输出,为所述第二输出集合中与所述第二标注集合中的第i个语句对应的第二输出,常数τ是调节系数。7.根据权利要求5所述的文本多标签分类方法,其特征在于,所述整体损失函数为:l=al
bce
bl
cl
其中,l为所述损失函数,l
bce
为分类器损失函数,l
cl
为对比学习损失函数,a和b为常数。8.一种文本多标签分类装置,其特征在于,包括:接收模块,用于接收文本多分类请求;所述多分类请求中携带有目标文本数据;生成模块,用于将所述目标文本数据输入预训练模型中,得到所述目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;所述自适应提示模板是基于对比学习通过迭代训练构建的;拼接模块,用于将所述提示模板矩阵与所述目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将所述目标语句向量表征输入至编码模型中,得到所述目标文本数据对应的目标语句表示;分类模块,用于利用线性分类器对所述目标语句表示进行映射分类,得到所述目标文本数据对应的标签集合。9.一种计算机设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

技术总结
本说明书涉及自然语言处理和人工智能技术领域,具体地公开了一种文本多标签分类方法及装置,其中,该方法包括:接收文本多分类请求;多分类请求中携带有目标文本数据;将目标文本数据输入预训练模型中,得到目标文本数据对应的目标预训练词向量矩阵;基于预先构建的自适应提示模板,生成提示模板矩阵;自适应提示模板是基于对比学习通过迭代训练构建的;将提示模板矩阵与目标预训练词向量矩阵进行拼接,得到拼接后的目标语句向量表征;将目标语句向量表征输入至编码模型中,得到目标文本数据对应的目标语句表示;利用线性分类器对目标语句表示进行映射分类,得到目标文本数据对应的标签集合。上述方法可以提高多标签分类的准确性和效率。确性和效率。确性和效率。


技术研发人员:李琦 梁莉娜 石忠德 杨念梓
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2022.10.27
技术公布日:2023/2/6
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献