一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信息分类方法、装置、电子设备及存储介质与流程

2022-06-12 01:46:38 来源:中国专利 TAG:

技术特征:
1.一种信息分类方法,其特征在于,所述分类方法包括:获取具有描述信息的信息文本;将所述信息文本输入预先训练好的bert模型中,得到id数字标签;其中,所述bert分类模型是通过对比学习进行训练得到的;将所述id数字标签通过预建的标签字典转化为分类结果。2.根据权利要求1所述的分类方法,其特征在于,所述bert分类模型的对比学习训练方法包括:获取具有描述信息的训练样本,并将按预设格式拼接成学习文本;对所述学习文本进行预处理;将预处理过的学习文本转化为可输入模型的特征向量样本;将所述特征向量样本重复两次输入到预设的带dropout的bert模型,使用预设的损失函数进行监督训练;迭代所述bert模型得到所述bert分类模型。3.根据权利要求2所述的分类方法,其特征在于,对所述学习文本进行预处理包括:将所述学习文本截断为预设字节长度,并建立标签字典,将文字标签转换为数字标签;将每条文本开头插入第一标注符号,结尾插入第二标注符号,使得每条文本序列以第一标注符号开头,以第二标注符号结尾。4.根据权利要求1所述的分类方法,其特征在于,所述预先训练好的bert模型包括:bert预训练模型和分类器,bert预训练模型包括12层transformer,其中,所述transformer包括用于获取序列特征的多头注意力层、用于非线性变换的前馈网络层和两个残差连接及标准化层;每一层transformer网络的输出直接作为下一层transformer网络的输入;在最后一层transformer网络接所述分类器。5.根据权利要求4所述的分类方法,其特征在于,在所述多头注意力层和前馈网络层后各接一个标准化层,并使用残差连接,所述前馈网络层位于多头注意力层之后。6.根据权利要求2所述的分类方法,其特征在于,预设的损失函数为交叉熵损失函数及模型之间的对称kl散度损失函数的加权和。7.根据权利要求6所述的分类方法,其特征在于,所述交叉熵损失函数为:其中,p
θ
(y|x)表示带dropout的分类模型;模型之间的对称kl散度损失函数为:其中,p
θ
(y|x)表示带dropout的分类模型,kl散度;最终损失函数为两个损失函数的加权和;8.一种信息分类装置,其特征在于,所述分类装置包括:获取模块,用于获取具有描述信息的信息文本;
标签转化模块,用于将所述信息文本输入预先训练好的bert模型中,得到id数字标签;其中,所述bert分类模型是通过对比学习进行训练得到的;分类模块,用于将所述id数字标签通过预建的标签字典转化为分类结果。9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

技术总结
本发明提供了一种信息分类方法、装置、电子设备及存储介质,所述分类方法通过获取具有描述信息的信息文本;将所述信息文本输入预先训练好的bert模型中,得到ID数字标签;其中,所述bert分类模型是通过对比学习进行训练得到的;将所述ID数字标签通过预建的标签字典转化为分类结果;本发明通过对比学习利用少量类别标签的样本文本作为输入对初始分类模型进行训练,大大减轻了对大量的、具有准确标注的数据的依赖,减轻了人力标注的重复劳作,可以在少量具有标注的数据下实现快速学习,数据成本低,分类结果准确。分类结果准确。分类结果准确。


技术研发人员:蔡青山 王永强
受保护的技术使用者:企知道网络技术有限公司
技术研发日:2022.01.22
技术公布日:2022/6/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献