一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本信息抽取方法、模型训练方法、装置及存储介质与流程

2021-11-05 18:22:00 来源:中国专利 TAG:

技术特征:
1.一种文本信息抽取方法,其特征在于,包括以下步骤:获取待处理文本;获取所述待处理文本的多个文本属性信息;将所述待处理文本输入至第一机器学习模型,对所述待处理文本进行特征提取得到多个第一文本特征信息;将多个所述文本属性信息输入至第二机器学习模型,对输入至所述第二机器学习模型的各个所述文本属性信息进行交叉组合,得到多个文本交互属性信息,所述第二机器学习模型将多个所述文本属性信息和多个所述文本交互属性信息进行组合,得到组合属性信息;将所述组合属性信息分别与各个所述第一文本特征信息进行拼接,得到多个第二文本特征信息;将多个所述第二文本特征信息输入至分类模型进行分类处理,得到分类预测结果,以确定所述待处理文本的目标文本信息。2.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述对输入至所述第二机器学习模型的各个所述文本属性信息进行交叉组合,得到多个文本交互属性信息,包括:对输入至所述第二机器学习模型的各个所述文本属性信息两两交叉组合,得到多个所述文本交互属性信息。3.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述第二机器学习模型将多个所述文本属性信息和多个所述文本交互属性信息进行组合,得到组合属性信息,包括:所述第二机器学习模型将多个所述文本属性信息与多个所述文本交互属性信息进行加权,得到组合属性信息。4.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述获取所述待处理文本的多个文本属性信息,包括:将所述待处理文本输入至第三机器学习模型进行文本属性信息提取,得到所述待处理文本的多个文本属性信息。5.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述多个文本属性信息,包括文本属性类型为文本类目的第一文本属性信息,以及文本属性类型为候选词类目的第二文本属性信息。6.根据权利要求2至5任意一项所述的一种文本信息抽取方法,其特征在于,所述文本属性信息的文本属性类型为预先设定。7.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述将所述待处理文本输入至第一机器学习模型,对所述待处理文本进行特征提取得到多个第一文本特征信息,包括:对所述待处理文本进行字符处理得到多个词组;将多个所述词组输入至第一机器学习模型,对多个所述词组进行语义识别,得到多个第一文本特征信息,其中,所述第一文本特征信息为候选词特征向量。8.根据权利要求1所述的一种文本信息抽取方法,其特征在于,所述将多个所述第二文本特征信息输入至分类模型进行分类处理,得到分类预测结果,以确定所述待处理文本的
目标文本信息,包括:将各个所述第二文本特征信息输入归一化指数分类器进行分类,得到多个分类预测结果;从所述分类预测结果中确定符合阈值条件的目标分类,根据所述目标分类确定所述待处理文本的目标文本信息。9.一种模型训练方法,其特征在于,包括以下步骤:获取训练数据,所述训练数据包括训练文本和标注信息,所述标注信息用于标注所述训练文本的目标文本信息;获取所述训练文本的多个文本属性信息;将所述训练文本输入至第一机器学习模型,对所述训练文本进行特征提取得到多个第一训练文本特征信息;将多个所述文本属性信息输入至第二机器学习模型,对输入至所述第二机器学习模型的各个所述文本属性信息进行交叉组合,得到多个文本交互属性信息,所述第二机器学习模型将多个所述文本属性信息和多个所述文本交互属性信息进行组合,得到训练文本组合属性信息;将所述训练文本组合属性信息分别与各个所述第一训练文本特征信息进行拼接,得到多个第二训练文本特征信息;将多个所述第二训练文本特征信息输入至分类模型进行分类处理,确定所述训练文本的预测文本抽取结果;根据所述预测文本抽取结果和所述标注信息,对所述第一机器学习模型、所述第二机器学习模型、所述分类模型中至少一个模型的参数进行修正。10.根据权利要求9所述的一种模型训练方法,其特征在于,所述对输入至所述第二机器学习模型的各个所述文本属性信息进行交叉组合,得到多个文本交互属性信息,包括:对输入至所述第二机器学习模型的各个所述文本属性信息两两交叉组合,得到多个文本交互属性信息;所述第二机器学习模型将多个所述文本属性信息和多个所述文本交互属性信息进行组合,得到训练文本组合属性信息,包括:所述第二机器学习模型将多个所述文本属性信息与多个所述文本交互属性信息进行加权,得到训练文本组合属性信息。11.根据权利要求9所述的一种模型训练方法,其特征在于,所述获取所述训练文本的多个文本属性信息,包括:将所述训练文本输入至第三机器学习模型进行文本属性信息提取,得到所述训练文本的多个文本属性信息。12.根据权利要求9至11任意一项所述的一种模型训练方法,其特征在于,所述目标文本信息为所述训练文本的关键词信息,所述的多个文本属性信息,包括文本属性类型为文本类目的第一文本属性信息,以及文本属性类型为候选词类目的第二文本属性信息。13.一种文本信息抽取装置,其特征在于,包括:文本获取装置,用于获取待处理文本;文本属性获取装置,用于获取所述待处理文本的多个文本属性信息;
文本特征识别单元,用于将所述待处理文本输入至第一机器学习模型,对所述待处理文本进行特征提取得到多个第一文本特征信息;属性组合单元,用于将多个所述文本属性信息输入至第二机器学习模型,对输入至所述第二机器学习模型的各个所述文本属性信息进行交叉组合,得到多个文本交互属性信息,所述第二机器学习模型将多个所述文本属性信息和多个所述文本交互属性信息进行组合,得到组合属性信息;文本特征拼接单元,用于将所述组合属性信息分别与各个所述第一文本特征信息进行拼接,得到多个第二文本特征信息;预测单元,用于将多个所述第二文本特征信息输入至分类模型进行分类处理,得到分类预测结果,以确定所述待处理文本的目标文本信息。14.一种文本信息抽取装置,其特征在于,包括:至少一个存储器,用于存储程序;至少一个处理器,用于加载所述程序以执行上述权利要求1至8任意一项所述的文本信息抽取方法。15.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于:所述计算机可执行指令被处理器执行时实现如权利要求1至8任意一项所述的文本信息抽取方法,或者,如权利要求9至12任意一项所述的模型训练方法。

技术总结
本申请公开了一种文本信息抽取方法、模型训练方法、文本信息抽取装置、模型训练装置及存储介质,将获取的待处理文本输入至第一机器学习模型,提取待处理文本的第一文本特征信息,通过第二机器学习模型对待处理文本的多个文本属性信息进行交叉组合后得到多个文本交互属性信息,和文本属性信息进行组合得到组合属性信息。通过将组合属性信息分别与各个第一文本特征信息进行拼接后进行分类处理,确定目标文本信息。通过引入多个文本属性信息并对多个文本属性信息进行交叉组合,能够加强不同文本属性信息之间的交互,以识别到最有区分性的特征组合表示,同时能够丰富候选预测结果的多样性,能有效辅助对文本信息的抽取,提高文本信息抽取的准确性。信息抽取的准确性。信息抽取的准确性。


技术研发人员:李天时
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2021.01.29
技术公布日:2021/11/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献