一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

非结构化数据文档处理方法及相关设备与流程

2021-11-15 19:06:00 来源:中国专利 TAG:

技术特征:
1.一种非结构化数据文档处理方法,包括:利用基于深度学习的文字识别模型,对非结构化数据文档进行文字识别,以获得文字内容;采用信息抽取算法从所述文字内容中抽取关键信息;将所述关键信息转化为结构化数据予以存储或输出。2.根据权利要求1所述的方法,其中,利用所述文字识别模型对所述非结构化数据文档进行文字识别包括:通过文本检测模型,检测出所述非结构化数据文档中的文字区域;通过所述文字识别模型,对所述文字区域进行文字识别。3.根据权利要求2所述的方法,其中,所述文本检测模型包括faster r

cnn模型、全卷积网络fcn模型和连接文本候选网络ctpn模型之一。4.根据权利要求2所述的方法,其中,所述文字识别模型包括:卷积神经网络cnn、循环神经网络rnn和连接时间分类ctc的组合;或者cnn、seq2seq模型和注意力机制的组合。5.根据权利要求1至4中任一项所述的方法,其中,采用信息抽取算法从所述文字内容中抽取关键信息包括:通过基于字符模式的抽取、基于语法模式的抽取或基于语义模式的抽取,从所述文字内容中抽取信息实体作为所述关键信息。6.根据权利要求1至4中任一项所述的方法,其中,采用信息抽取算法从所述文字内容中抽取关键信息包括:通过基于监督学习的抽取模型或基于远程监督学习的抽取模型,从所述文字内容中抽取实体关系作为所述关键信息。7.根据权利要求1至4中任一项所述的方法,其中,采用信息抽取算法从所述文字内容中抽取关键信息包括:通过基于深度学习的抽取模型,从所述文字内容中抽取信息实体作为所述关键信息。8.根据权利要求7所述的方法,其中,所述基于深度学习的抽取模型包括双向长短期记忆网络bilstm和条件随机场crf的组合。9.一种非结构化数据文档处理装置,包括:文字识别模块,用于利用基于深度学习的文字识别模型对非结构化数据文档进行文字识别,以获得文字内容;信息抽取模块,用于采用信息抽取算法从所述文字内容中抽取关键信息;转化模块,用于将所述关键信息转化为结构化数据予以存储或输出。10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现根据权利要求1至8中任意一项所述的方法。

技术总结
本公开提供一种非结构化数据文档处理方法及相关设备。该方法包括:利用基于深度学习的文字识别模型,对非结构化数据文档进行文字识别,以获得文字内容;采用信息抽取算法从所述文字内容中抽取关键信息;将所述关键信息转化为结构化数据予以存储或输出。这种非结构化数据文档处理方法通过数字化手段实现非结构化数据的提取转换,可以减少手工处理数据的工作量,节省人力资源成本。节省人力资源成本。节省人力资源成本。


技术研发人员:张耀宏 李艾玲 魏宁霞 张华 贺桂萍 党引 刘莉莉 刘畅 陈晓双 周旭东 陆春江
受保护的技术使用者:国网宁夏电力有限公司
技术研发日:2021.05.31
技术公布日:2021/11/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献