一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信息抽取引擎的生成方法及装置、电子设备与流程

2022-06-11 11:47:59 来源:中国专利 TAG:

技术特征:
1.一种信息抽取引擎的生成方法,其特征在于,所述方法包括:获取待处理领域的历史文本数据集;根据所述历史文本数据集,找出所述待处理领域的领域新词;通过查询每个领域新词的中心词的基本信息,构建领域词典;将所述领域词典与通用词典作为信息抽取引擎的词典基础,对所述信息抽取引擎中的领域规则模块或所述领域词典进行调试,使所述信息抽取引擎对样本集的单元测试和回归测试结果满足预设目标,获得调试完成的信息抽取引擎。2.根据权利要求1所述的方法,其特征在于,根据所述历史文本数据集,找出所述待处理领域的领域新词,包括:根据所述历史文本数据集,通过词聚类方法找出所述待处理领域的候选新词;通过正则表达式对所述候选新词进行噪音过滤,得到所述待处理领域的领域新词。3.根据权利要求2所述的方法,其特征在于,根据所述历史文本数据集,通过词聚类方法找出所述待处理领域的领域新词,包括:统计所述历史文本数据集中每个词汇的出现次数;针对任意两个词汇构成的组合词,计算所述组合词的互信息和左右熵;选取所述互信息大于第一预设值且所述左右熵大于第二预设值的组合词,得到所述候选新词。4.根据权利要求1所述的方法,其特征在于,所述通过查询每个领域新词的中心词的基本信息,构建领域词典,包括:针对每个领域新词,根据所述领域新词的中心词,在通用词典中查询所述中心词的基本信息,得到所述领域新词的中心词的基本信息;根据每个领域新词的中心词的基本信息,构建所述领域词典。5.根据权利要求4所述的方法,其特征在于,根据所述领域新词的中心词,在通用词典中查询所述中心词的基本信息,得到所述领域新词的中心词的基本信息,包括:根据所述领域新词的右侧若干字,查询所述右侧若干字在所述通用词典中的基本信息,得到所述领域新词的中心词的基本信息。6.根据权利要求1所述的方法,其特征在于,将所述领域词典与通用词典作为信息抽取引擎的词典基础,对所述信息抽取引擎中的领域规则模块或所述领域词典进行调试,使所述信息抽取引擎对样本集的单元测试和回归测试结果满足预设目标,包括:以所述领域词典和通用词典为依据,通过所述信息抽取引擎对所述样本集进行处理,得到处理结果基线;对所述信息抽取引擎中的领域规则模块或所述领域词典进行修改调试,使所述领域规则模块的规则模式与所述样本集中的单元测试样例匹配;通过调试后的所述信息抽取引擎对所述样本集进行处理,得到新处理结果,使所述新处理结果与所述处理结果基线之间的差异满足预设目标。7.根据权利要求6所述的方法,其特征在于,所述样本集包括开发集和测试集;以所述领域词典和通用词典为依据,通过所述信息抽取引擎对所述样本集进行处理,得到处理结果基线,包括:以所述领域词典和通用词典为依据,通过所述信息抽取引擎对所述开发集进行信息抽
取,得到信息抽取结果基线;以所述领域词典和通用词典为依据,通过所述信息抽取引擎对所述测试集进行处理,统计所述领域规则模块的规则击中次数,得到击中次数基线。8.根据权利要求7所述的方法,其特征在于,所述通过调试后的所述信息抽取引擎对所述样本集进行处理,得到新处理结果,使所述新处理结果与所述处理结果基线之间的差异满足预设目标,包括:通过调试后的信息抽取引擎,计算所述开发集的新抽取结果和所述测试集的新击中次数,使所述新抽取结果与所述信息抽取结果基线之间的差异比例小于第一阈值,新击中次数超过所述击中次数基线的超过比例大于第二阈值。9.一种信息抽取引擎的生成装置,其特征在于,所述装置包括:数据获取模块,用于获取待处理领域的历史文本数据集;新词查找模块,用于根据所述历史文本数据集,找出所述待处理领域的领域新词;词典构建模块,用于通过查询每个领域新词的中心词的基本信息,构建领域词典;模型调试模块,用于将所述领域词典与通用词典作为信息抽取引擎的词典基础,对所述抽取引擎中的领域规则模块或所述领域词典进行调试,使所述信息抽取引擎对样本集的单元测试和回归测试结果满足预设目标,获得调试完成的信息抽取引擎。10.一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行权利要求1-8任意一项所述的信息抽取引擎的生成方法。

技术总结
本申请提供一种信息抽取引擎的生成方法及装置、电子设备,该方法包括:获取待处理领域的历史文本数据集;根据所述历史文本数据集,找出所述待处理领域的领域新词;通过查询每个领域新词的中心词的基本信息,构建领域词典;将所述领域词典作为所述信息抽取引擎内部的底层通用解析引擎(NLP-Parser)的输入,对所述信息抽取引擎中的领域规则模块或所述领域词典进行调试,使所述信息抽取引擎对样本集的单元测试和回归测试结果满足预设目标,获得调试完成的信息抽取引擎。该方案为通用解析引擎应用于各种缺乏标注数据的业务场景提供了解决方案,克服了主流监督学习方案的标注数据的知识瓶颈,由于只需对领域规则模块进行开发,降低了代码开发工作量。低了代码开发工作量。低了代码开发工作量。


技术研发人员:李维 秦海龙 林天兵 彭滢 刘郑勇 穆啸天
受保护的技术使用者:上海弘玑信息技术有限公司
技术研发日:2022.03.09
技术公布日:2022/6/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献