一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于金融长文本复核系统的文本格式审核模块的制作方法

2022-07-02 11:32:30 来源:中国专利 TAG:

技术特征:
1.一种用于金融长文本复核系统的文本格式审核模块,其用于对金融长文本的目录、标题格式进行审核,判断该金融长文本的连续性,其特征在于:所述文本格式审核模块包括一预处理模块、一序号获取模块、一序号匹配模块、一连续性审核模块、一引用审核模块和一输出模块;其中,所述预处理模块对输入的金融长文本进行文本数据划分后,根据nlp模型解析文本数据获得段落数据、标题数据、表格数据及其之间的数据关系,该预处理模块还读取文本目录结构,根据文本目录结构对标题数据进行层级格式化;该预处理模块将解析后的段落数据,标题数据和表格数据按预定义的数据模型组织输出并保存至数据库中;所述序号获取模块用于获取标题序号和序号格式并进行序号分类,所述标题序号的类别包括目录标题序号,正文标题序号以及附录表格标题序号;所述序号匹配模块用于将序号获取模块获取的序号与序号前后的特征词进行匹配并保存;所述连续性审核模块用于审核所述序号获取模块获取的目录标题序号、正文标题序号以及附录表格标题序号,并将该些序号判定为连续性序号或非连续性序号,同时对标题数据的格式及对应序号的格式进行审核;所述引用审核模块根据所述序号匹配模块输出的序号与特征词关系,用于对文本数据中引用的序号审核其引用准确性;所述输出模块将所述连续性审核模块和所述引用审核模块的审核结果输出并保存。2.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块,其特征在于:所述预处理模块还包括一文本转换单元,用于将pdf格式的金融长文本转换为图片格式文本,将所述图片格式文本进行拉伸和二值化处理后根据cv模型获取文本数据。3.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块,其特征在于:所述连续性审核模块包括一比较单元,用于比较相邻的同一格式标题的序号的连续性,并判定所述序号的为连续序号或非连续序号。4.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块,其特征在于:所述输出模块包括一显示单元和一标记单元,所述显示单元用于以标注形式显示审核结果;所述标记单元用于对文本出现问题的序号数据或标题数据进行标识,并在所述显示单元中显示。5.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块,其特征在于:所述nlp模型为预训练模型,由大规模通用语料和金融语料训练获得。6.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块,其特征在于,所述文本格式审核模块通过以下步骤处理金融长文本:s1:输入pdf金融长文本;s2:使用nlp模型对金融长文本进行预处理,预定格式保存处理后数据;s3:获取标题序号和序号格式,进行序号分类;s4:将序号与其前后的特征词进行匹配保存;s5:审核标题序号连续性、标题格式和对应序号格式;s6:审核文本数据中引用的序号是否准确;s7:将s5与s6步骤中的审核结果以预定义格式输出和保存。
7.根据权利要求6所述的用于金融长文本复核系统的文本格式审核模块,其特征在于,所述使用nlp模型对金融长文本进行预处理的具体步骤为:s20:将pdf格式金融长文本转化为图片格式文本,根据cv模型检测所述图片格式文本获取表格、页眉、页脚、图片、公式数据,提取并组织表格、页眉、页脚、图片、公式数据以外的文字数据;s21:根据nlp模型将所述文字数据划分为段落数据和标题数据,获取段落数据中表格数据;s22:对段落数据和标题数据进行数据清洗,数据长度切割和定位数据提取位置,根据nlp模型解析处理后的段落数据和标题数据,提取数据关系后按预定义的数据模型输出保存;s23:对表格数据进行数据清洗和集合划分,根据nlp模型解析处理后的表格数据并提取数据关系,按预定义的数据模型输出保存;s24:获取文本目录结构;s25:读取s23的标题数据,进行标题层级格式化。8.根据权利要求7所述的用于金融长文本复核系统的文本格式审核模块,其特征在于,所述标题层级格式化方法为:s250:确定标题数据间的标题领属关系;s251:根据所述标题领属关系确定标题层级;s252:对不同层级标题进行格式化。

技术总结
一种用于金融长文本复核系统的文本格式审核模块,其用于对金融长文本的表格、目录等格式进行复核,判断该金融长文本的连续易读性,其特征在于:所述模块包括一预处理模块,一序号获取模块,一序号匹配模块,一连续性审核模块,一引用审核模块和一输出模块。经过上述模块的配合,可以快速对金融长文本进行格式审核,基于自然语言处理技术,利用人工智能直接输出审核结构,极大降低了审核所需时间,审核效率高,审核准确率好,防止出现工作人员因修改文档删除或增加了一些段落却忘记修改段落前的序号,由此引起目录不连续或引用的目录不存在的现象,系统主要检测这部分的格式错误给用户提示,保证文档的连续易读性。保证文档的连续易读性。保证文档的连续易读性。


技术研发人员:马文翔 朱乐为 崔子锋
受保护的技术使用者:广州故新智能科技有限责任公司
技术研发日:2022.04.02
技术公布日:2022/7/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献