一种用于金融长文本复核系统的文本格式审核模块的制作方法

2022-07-02 11:32:30 来源：中国专利 TAG：

1.本发明属于金融文本分析领域，具体涉及一种用于金融长文本复核系统的文本格式审核模块。

背景技术：

2.金融长文本主要是指记录评估企业一段时间内财务状况或向外展示公司经营状况的包括年度报告、招股说明书、审计报告等在内的一系列财务数据文本。此类文本通常由专业金融方面的人员结合公司实际情况撰写完成，其主包含了大量非结构化财务数据，主要由文本段落、财务指标和表格数据等组成。往往金融机构或企业本身在发布金融长文本前需要对其进行核查以确保文本的正确性，而大多数金融文本复核工作都是由人工审核，金融文本数据繁杂且专业程度要求高，使得人工审核的效率以及精准度较低，因此审核工作任务非常繁重，需要耗费大量时间来做重复性工作，在这种情况下，审核人员容易疲惫，检查过程中会出现遗漏和错误。因此，逐步采用人工智能复合文本来替代人工复合文本是大势所趋。金融文本复核除了需要核对文本内容数据的准确和文字的正确性，还需要核对金融文本整体结构格式是否合规，文本标题是否具有连续性等，其中文本的格式审核需要贯穿全文，检查内容较多，容易出现遗漏情况。为了提高金融长文本文本格式的审核效率和精度，结合人工智能对自然语言处理技术的强大功能，依托于计算机强大的计算能力，现提出一种金融长文本复核系统的文本格式审核模块，以解决金融长文本格式审核效率低以及精准度低的问题，可以节约大量的审核时间。

技术实现要素：

3.针对上述存在现象问题，本发明提出一种用于金融长文本复核系统的文本格式审核模块，通过解析处理金融长文本的文本内容和结构，结合人工智能对文本整体结构和连续性进行对比分析，实现金融长文本的精准高效的格式审核。
4.为实现上述目的，本发明提供一种用于金融长文本复核系统的文本格式审核模块，其用于对金融长文本的目录、标题格式进行审核，判断该金融长文本的连续性。所述文本格式审核模块包括一预处理模块、一序号获取模块、一序号匹配模块、一连续性审核模块、一引用审核模块和一输出模块。其中，所述预处理模块对输入的金融长文本进行文本数据划分后，根据nlp模型解析文本数据获得段落数据、标题数据、表格数据及其之间的数据关系，该预处理模块还读取文本目录结构，根据文本目录结构对标题数据进行层级格式化；该预处理模块将解析后的段落数据，标题数据和表格数据按预定义的数据模型组织输出并保存至数据库中。所述序号获取模块用于获取标题序号和序号格式并进行序号分类，所述标题序号的类别包括目录标题序号，正文标题序号以及附录表格标题序号。所述序号匹配模块用于将序号获取模块获取的序号与序号前后的特征词进行匹配并保存。所述连续性审核模块用于审核所述序号获取模块获取的目录标题序号、正文标题序号以及附录表格标题序号，并将该些序号判定为连续性序号或非连续性序号，同时对标题数据的格式及对应序
号的格式进行审核。所述引用审核模块根据所述序号匹配模块输出的序号与特征词关系，用于对文本数据中引用的序号审核其引用准确性。所述输出模块将所述连续性审核模块和所述引用审核模块的审核结果输出并保存。
5.优选的，所述预处理模块还包括一文本转换单元，用于将pdf格式的金融长文本转换为图片格式文本，将所述图片格式文本进行拉伸和二值化处理后根据cv模型获取文本数据。
6.优选的，所述连续性审核模块包括一比较单元，用于比较相邻的同一格式标题的序号的连续性，并判定所述序号的为连续序号或非连续序号。
7.优选的，所述输出模块包括一显示单元和一标记单元，所述显示单元用于以标注形式显示审核结果；所述标记单元用于对文本出现问题的序号数据或标题数据进行标识，并在所述显示单元中显示。
8.优选的，所述nlp模型为预训练模型，由大规模通用语料和金融语料训练获得。
9.优选的，所述文本格式审核模块通过以下步骤处理金融长文本：s1：输入pdf金融长文本；s2：使用nlp模型对金融长文本进行预处理，预定格式保存处理后数据；s3：获取标题序号和序号格式，进行序号分类；s4：将序号与其前后的特征词进行匹配保存；s5：审核标题序号连续性、标题格式和对应序号格式；s6：审核文本数据中引用的序号是否准确；s7：将s5与s6步骤中的审核结果以预定义格式输出和保存。
10.优选的，所述使用nlp模型对金融长文本进行预处理的具体步骤为：s20：将pdf格式金融长文本转化为图片格式文本，根据cv模型检测所述图片格式文本获取表格、页眉、页脚、图片、公式数据，提取并组织表格、页眉、页脚、图片、公式数据以外的文字数据；s21：根据nlp模型将所述文字数据划分为段落数据和标题数据，获取段落数据中表格数据；s22：对段落数据和标题数据进行数据清洗，数据长度切割和定位数据提取位置，根据nlp模型解析处理后的段落数据和标题数据，提取数据关系后按预定义的数据模型输出保存；s23：对表格数据进行数据清洗和集合划分，根据nlp模型解析处理后的表格数据并提取数据关系，按预定义的数据模型输出保存；s24：获取文本目录结构；s25：读取s23的标题数据，进行标题层级格式化。
11.优选的，所述标题层级格式化方法为：s250：确定标题数据间的标题领属关系；s251：根据所述标题领属关系确定标题层级；s252：对不同层级标题进行格式化。
12.本发明的有益效果：本发明提供的一种用于金融长文本复核系统的文本格式审核模块，通过预处理模块清洗、切割和分类待检测文本并提取文本数据，利用nlp模型解析处理得到预定格式的段落数据、标题数据、表格数据和对应数据关系，对标题层级化格式处理，利用序号获取模块获取标题序号和序号格式，序号匹配模块将序号与相关特征词关联；连续性审核模块针对获取的序号进行连续性审核从而判定标题的连续性，同时对标题格式和对应序号格式进行审核；利用引用审核模块对文本数据中引用的序号进行审核，通过序号匹配的特征词判断引用准确性，最后由输出模块将审核结果输出。经过上述模块的配合，可以快速对金融长文本进行格式审核，基于自然语言处理技术，利用人工智能直接输出审核结构，极大降低了审核所需时间，审核效率高，审核准确率好，审核结果一目了然，方便人员快速找到问题点并纠正过来，保证了文档的连续易读性。
附图说明
13.图1是本发明提供的金融长文本复核系统的文本格式审核模块的组成结构图；
14.图2是本发明提供的文本格式审核模块审核金融长文本步骤流程图。
15.图3是本发明提供的预处理s2步骤流程图。
16.图4是本发明提供的标题层级格式化s25步骤流程图。
具体实施方式
17.为进一步详细介绍本发明，接下来结合附图进行说明。特别指出，下面所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
18.参阅图1，本本发明提供一种用于金融长文本复核系统的文本格式审核模块，其用于对金融长文本的目录、标题格式进行审核，判断该金融长文本的连续性。所述文本格式审核模块包括一预处理模块、一序号获取模块、一序号匹配模块、一连续性审核模块、一引用审核模块和一输出模块。其中：
19.所述预处理模块对输入的金融长文本进行文本数据划分后，根据nlp模型解析文本数据获得段落数据、标题数据、表格数据及其之间的数据关系，该预处理模块还读取文本目录结构，根据文本目录结构对标题数据进行层级格式化；该预处理模块将解析后的段落数据，标题数据和表格数据按预定义的数据模型组织输出并保存至数据库中。
20.所述序号获取模块用于获取标题序号和序号格式并进行序号分类，所述标题序号的类别包括目录标题序号，正文标题序号以及附录表格标题序号。
21.所述序号匹配模块用于将序号获取模块获取的序号与序号前后的特征词进行匹配并保存。
22.所述连续性审核模块用于审核所述序号获取模块获取的目录标题序号、正文标题序号以及附录表格标题序号，并将该些序号判定为连续性序号或非连续性序号，同时对标题数据的格式及对应序号的格式进行审核。
23.所述引用审核模块根据所述序号匹配模块输出的序号与特征词关系，用于对文本数据中引用的序号审核其引用准确性。
24.所述输出模块将所述连续性审核模块和所述引用审核模块的审核结果输出并保存。
25.优选的，所述预处理模块还包括一文本转换单元，用于将pdf格式的金融长文本转换为图片格式文本，将所述图片格式文本进行拉伸和二值化处理后根据cv模型获取文本数据。
26.优选的，所述连续性审核模块包括一比较单元，用于比较相邻的同一格式标题的序号的连续性，并判定所述序号的为连续序号或非连续序号。
27.优选的，所述输出模块包括一显示单元和一标记单元，所述显示单元用于以标注形式显示审核结果；所述标记单元用于对文本出现问题的序号数据或标题数据进行标识，并在所述显示单元中显示。
28.优选的，所述nlp模型为预训练模型，由大规模通用语料和金融语料训练获得。
29.可以理解，用于金融长文本复核系统的文本格式审核模块是基于nlp模型对文本数据处理，通过自然语言处理技术提取标题数据等关键信息，通过判断标题对应序号的连续性来判别文本中标题是否具有连续性。针对引用部分审核，将序号与特征词关联起来，利用序号作为纽带来判断文本中引用部分是否准确。利用nlp模型来解析文本，可以有效地对金融长文本中繁杂的数据、文字和表格进行数据清洗和整理。金融文本通常是采用自然语言进行描述，且各企业及金融机构生产的金融长文本的书写要求及文本格式都有所区别，因此在对金融文本的格式进行审核之前需要将不同模板的金融长文本转换为审核模块预定义的文件格式，这里我们采用自然语言处理处理技术实现该需求。首先将文本数据进行清洗，剔除其中的异常值、缺失值或无语义的字符，对数据长度切割和划分；利用与预训练的nlp模型对处理后的数据进行解析和提取，该模型经过在大规模通用语料和金融语料训练，可以提取文字、图片和表格数据并对其进行融合分类，这里我们分为段落数据、标题数据和表格数据，nlp模型可识别文字在上下文丰富的语义信息从而提取数据关系，读取文本目录结构，对标题数据层级格式化后以预定义的格式保存供格式审核模块进行进一步审核操作。
30.针对金融文本的格式审核，分为连续性审核和标题格式审核，从而判断文本的连续易读性，避免出现人员在删除或增加字段后忘记修改标题或序号导致目录不连续或者引用不存在的现象。通过序号获取模块和序号匹配模块可以对标题序号及序号格式进行获取，将序号与特征词关联起来，为接下来的连续性审核和引用审核做准备。连续性审核模块主要通过对标题的格式、序号连续性进行审核，从而判定其标题的连续性。序号是有顺序的，序号的连续性是指序号出现顺序的先后，顺序不正确即为序号不连续，否则就是连续序号，在进行序号连续性判断的前体，还对序号格式进行判断，这是因为文本标题有分级情况，不同层级的标题序号的对应格式是不一致，所以判断序号的连续性应该针对同一格式的序号进行。针对文本中引用，通过将序号与前后特征词匹配关联起来，可以判断引用处的序号所引用内容是否与引用处的内容存在关联性，从而判断引用的准确性。最后，将审核判断的结果以特定格式进行输出，方便人员直观地理解。
31.优选的，所述文本格式审核模块通过以下步骤处理金融长文本：s1：输入pdf金融长文本；s2：使用nlp模型对金融长文本进行预处理，预定格式保存处理后数据；s3：获取标题序号和序号格式，进行序号分类；s4：将序号与其前后的特征词进行匹配保存；s5：审核标题序号连续性、标题格式和对应序号格式；s6：审核文本数据中引用的序号是否准确；s7：将s5与s6步骤中的审核结果以预定义格式输出和保存。
32.优选的，所述使用nlp模型对金融长文本进行预处理的具体步骤为：s20：将pdf格式金融长文本转化为图片格式文本，根据cv模型检测所述图片格式文本获取表格、页眉、页脚、图片、公式数据，提取并组织表格、页眉、页脚、图片、公式数据以外的文字数据；s21：根据nlp模型将所述文字数据划分为段落数据和标题数据，获取段落数据中表格数据；s22：对段落数据和标题数据进行数据清洗，数据长度切割和定位数据提取位置，根据nlp模型解析处理后的段落数据和标题数据，提取数据关系后按预定义的数据模型输出保存；s23：对表格数据进行数据清洗和集合划分，根据nlp模型解析处理后的表格数据并提取数据关系，按预定义的数据模型输出保存；s24：获取文本目录结构；s25：读取s23的标题数据，进行标题层级格式化。
33.优选的，所述标题层级格式化方法为：s250：确定标题数据间的标题领属关系；s251：根据所述标题领属关系确定标题层级；s252：对不同层级标题进行格式化。由于文档中的标题之间具有层级关系，所述层级关系可以包括标题之间的从属关系和并列关系等。从属关系是指一个标题(上位标题)在内容逻辑中概括了另一个标题(下位标题)的对应内容，并列关系是指两个标题概括的内容在逻辑上是并列关系。对文本的标题进行层级分类并格式化，可为后续的连续性审核做铺垫。
34.本发明提供的用于金融长文本复核系统的文本格式审核模块，通过使用nlp模型对文本数据进行提取和解析，利用连续性审核模块对标题连续性进行判断，同时对标题格式进行审核，当出现目录不连续或引用的目录不存在等情况时，利用上述文本格式审核模块可以检测出来并给用户提示，保证文档的连续易读性。
35.以上公开的实施例仅为详细说明介绍本发明，不能以此来限定本发明之范围，因此依本发明权利要求申请范围所作简单改进变化，仍属本发明保护的范围。本发明的保护范围应当以所限定的范围为准。对于本技术领域的技术人员来说，凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：内存监测方法、装置、设备以及存储介质与流程

一种用于金融长文本复核系统的文本格式审核模块的制作方法

相关文献

最热文献