一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信息抽取、模型训练方法、装置、计算机设备和存储介质与流程

2021-11-24 21:59:00 来源:中国专利 TAG:

技术特征:
1.一种信息抽取方法,其特征在于,所述方法包括:将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息。2.根据权利要求1所述的方法,其特征在于,在所述信息抽取模型的训练阶段,所述特征增强层用于将样本文本数据的句法特征、词性特征与所述词嵌入层输出的词向量进行拼接。3.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型包括依次连接的第一预训练词嵌入层、第一双向lstm层、第一向量拼接层、第一全连接层和crf解码层。4.根据权利要求1所述的方法,其特征在于,所述关键词提取模型包括依次连接的第二预训练词嵌入层、第二双向lstm层、第二向量拼接层、注意力层和第二全连接层。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:获取输入的关键要素信息;根据所述实体类信息和所述关键词信息,对所述关键要素信息进行校验。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取对校验结果的反馈信息;根据所述反馈信息,利用所述待预测文本数据、所述实体类信息、所述关键词信息继续对所述信息抽取模型进行训练,得到更新后的信息抽取模型。7.一种模型训练方法,其特征在于,所述方法包括:获取训练数据集,所述训练数据集包括若干个样本文本数据;将所述样本文本数据输入至待训练的信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;通过所述词嵌入层对所述样本文本数据进行嵌入表征,得到所述样本文本数据的词向量;获取所述样本文本数据的句法特征、词性特征,通过所述特征增强层将所述句法特征、所述词性特征与所述词向量进行拼接,得到拼接特征;将所述拼接特征分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述样本文本数据中的实体类信息和关键词信息;当所述样本文本数据中的实体类信息和关键词信息满足模型训练停止条件时,停止对所述信息抽取模型的训练。8.根据权利要求6所述的方法,其特征在于,所述词嵌入层采用bert网络模型,在所述将所述样本文本数据输入至待训练的信息抽取模型之前,所述方法还包括:获取金融领域文本数据,所述金融领域数据包括若干个金融领域词汇;
基于全词掩码对所述金融领域词汇进行词覆盖处理,利用处理后的金融领域文本数据对所述bert网络模型进行无监督预训练。9.一种信息抽取装置,其特征在于,所述装置包括:文本数据输入模块,用于将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;文本数据嵌入模块,用于通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;实体关键词抽取模块,用于通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息。10.一种模型训练装置,其特征在于,所述装置包括:数据集获取模块,用于获取训练数据集,所述训练数据集包括若干个样本文本数据;文本数据输入模块,用于将所述样本文本数据输入至待训练的信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;文本数据嵌入模块,用于通过所述词嵌入层对所述样本文本数据进行嵌入表征,得到所述样本文本数据的词向量;文本特征增强模块,用于获取所述样本文本数据的句法特征、词性特征,通过所述特征增强层将所述句法特征、所述词性特征与所述词向量进行拼接,得到拼接特征;实体关键词抽取模块,用于将所述拼接特征分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述样本文本数据中的实体类信息和关键词信息;模型停止训练模块,用于当所述样本文本数据中的实体类信息和关键词信息满足模型训练停止条件时,停止对所述信息抽取模型的训练。11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结
本申请涉及一种信息抽取、模型训练方法、装置、计算机设备和存储介质,通过将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息,实现将信息抽取拆解为命名实体识别与关键词抽取两个子任务,从而减少信息抽取任务的难度,并提升关键信息抽取的准确率,降低关键词漏检几率。降低关键词漏检几率。降低关键词漏检几率。


技术研发人员:张辰昱 潘仰耀 汪贇 张彤 刘学源
受保护的技术使用者:上海浦东发展银行股份有限公司
技术研发日:2021.08.03
技术公布日:2021/11/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献