一种基于知识库的金融文本核查系统的制作方法

2022-02-19 12:06:45 来源：中国专利 TAG：

1.本发明涉及的是金融文本核查
技术领域：
，具体涉及一种基于知识库的金融文本核查系统。
背景技术：
：2.金融文本是资本市场的重要组成部分，金融信息的获取离不开各类金融文本，其中ipo申报文件是十分重要的一类金融文本，对公司上市进程起到核心作用。3.近期，多个ipo项目的招股书或问询回复文件出现低级错误，或出现多处笔误，或未按照《招股说明书准则》要求披露，引起监管层重点关注，要求保荐人与其他中介机构核对申报材料，切实提高执业质量。对企业ipo所需文件内的信息进行结构化提取与自动化校验，对提高保荐机构执业质量、保障企业上市顺利进行具有重大意义，以此为契机，展开了本发明的设计与开发工作。4.金融文本相较于其他类型文本，深受广大投资者及相关方的关注，其对数据的准确性有着更高的要求。目前对于金融文本中信息的核查还停留在原始的手工业阶段，需要人工一份份进行校对，总不免出现各种各样的问题。因此尽可能减少人工核对环节，利用机器来提高核对效率已经成为必然的选择，其中通过自然语言处理、知识图谱、深度学习等技术将金融文本信息结构化、知识库化是关键所在。5.综上所述，本发明设计了一种基于知识库的金融文本核查系统。技术实现要素：6.针对现有技术上存在的不足，本发明目的是在于提供一种基于知识库的金融文本核查系统，可以低成本、可迁移地部分解决金融文本的知识提取问题与核对问题。7.为了实现上述目的，本发明是通过如下的技术方案来实现：一种基于知识库的金融文本核查系统，包括pdf解析模块、文档章节树构建模块、实体识别模块、事件提取模块、信息核查模块、缓存模块；其流程如下：将pdf文档解析后构建章节树信息，利用章节树对目标信息实体进行定位及识别，再通过实体间的逻辑关系进行事件抽取，并通过核查模块对事件提取结果进行核查，帮助业务人员快速定位文档错误；最终通过覆盖提取系统主要数据节点的缓存模块加速文档的重新解析。8.所述的pdf解析模块采用apache旗下的pdfbox，其功能如下：文本的提取，即在pdf文件里面把文本内容提取出来；合并和拆分pdf文档，可以把几个pdf合并成一个pdf文件，也可以把一个pdf文件拆分成多个pdf文件；pdf的校验，根据pdf/aiso标准校验pdf文档；打印pdf，通过java的api去打印pdf文件；把pdf转换成图片，把pdf文件转换成图片；创建pdf文件；pdf签名；pdf表格提取。9.所述的pdf解析模块对pdfbox解析后进行了修正：10.1、通过标注<pat>，<uad>序号等pdf携带的特征将文本放进神经网络中训练，可以得到大于99％的分段准确率。11.2、篇章结构主要通过规则系统，识别pdf的章节特征，通常pdf篇章标题采用不同的序号与加大加粗字体表示。12.3、pdfbox可以将表格还原为带有坐标位置信息的xml文件，这样可以判断横竖线链接，用于锁定表格。在表格处理中还要注意一些特殊情况，如有些表格会跨页，并且在pdf中页眉页脚带有横线；又或者有些表格的分割线为双横线；这些情况都需要做进一步特殊处理。表格识别本质是一个连通图问题，将表格每一个单元抽象成一个图结点，向四个方向游走，如果不遇到横竖线拦截则扩展单元，反之建立新节点。13.所述的表格提取在公告处理中主要作用于特定信息提取，如财务报表，供应商与客户表，业务构成表等等。如财务报表信息，表格提取仅仅作用于还原表格结构，但具体结构化还需要两项工作。14.一是实体对齐，如财务报表中的指标对齐，比如“资产总计＝总资产”。15.二是表格定位，即如何判定某一张表是五大供应商表还是五大客户表，这些需要通过表格的上下文判断，其中篇章结构的解析会对此有辅助定位功能。16.利用pdf转换工具可以从绝大部分上市公司公告中提取到有效文本。对于可获取的其他格式文本，如word或txt，文本内容获取较易，本发明没有加以特别对待；而对部分由图片转换的pdf，由于涉及到图像识别等其他专项技术，未在本发明中加以覆盖。17.所述的文档章节树构建模块包括以下步骤18.1、预处理。19.2、添加根节点。20.3、合并同一段落内容。21.4、创建节点。22.5、设置节点的父子关系。23.所述的实体识别模块是识别文本中具有特定意义的实体，确定所需实体的类型和内容的方法如下：24.一、基于词典和规则匹配的实体识别25.二、基于表格内容的实体识别26.所述的事件提取模块：专利的文档数据以纯文本及部分结构化信息(如表格)的形式展现，需要提取关键实体(财务科目)，以及实体间对应关系(如母公司‑2020年‑净利润‑35,432.2万元)。此类工作，将通过nlp的句法分析，专家领域词表，正则系统构建来实现。27.所述的信息核查模块的具体内容如下：28.一、勾稽关系检查29.二、财务指标数值检查30.三、数值变动和比例检查31.四、财务指标公式32.五、表内复核33.六、段落层级、格式检查34.所述的缓存模块主要对章节树、文本及表格实体识别及事件提取规则进行缓存。35.本发明具有以下有益效果：36.1、通过机器视觉及章节构建，自动生成全篇文档章节结构37.由于公告文档类型为pdf，首先需要将文档内的信息识别并提取出来，利用机器视觉处理技术，可以将pdf文档内的信息，完整且结构化的保存下来，所提取出来的信息包括但不限于文本、字体、字号、文本颜色、文本透明度、位置信息、是否为表格、是否为图片、图片旋转角度、背景信息等。38.由于提取的信息是截段化的，因此需要基于所提取出来的信息类型和一定的规则，尽可能将信息合理拼接，还原文档结构。在还原文档结构的过程中，利用提取信息的格式再基于一定的规则即可构建章节结构，从而为目标信息实体的提取提供关键的定位信息，避免在文档中无关位置进行目标实体的识别，从而促进公告的解析更为高效。39.2、实体与事件的精确提取40.根据发明和实际操作需要，项目中设立了两大类实体，一类为与变动相关的实体，另一类为与非变动相关的实体，每一类都包括科目、时间、数值、科目来源(是否为母公司信息)、科目的子类型如果有(如账面价值、账面余额)。41.两大类实体间的区别在于提取的数值是否为变动值，触发词为表示变动的相关词语，如增加、增长、比一年前降低等。当识别到触发词，则将相应实体识别为变动相关实体。两大类实体后续具有不同的提取规则，主要区别在于提取规则中是否具有“变动”含义的实体。42.3、信息自动复核43.相较于前面的环节，复核自动化相对而言更加简单，核心在于比较相同事件的属性值是否一致，关键在于事件在文档中具有多个相同的值以及财务科目之间具有的关系。44.针对公告中多次出现、或互相关联的事件，可以通过复核自动化，输出机器识别出的错误科目，辅助人工复核，提高核查效率。此外还对低级别错误包括错别字检测、标点符号核查、千分位符号错误核查和段落层级计算核查，进一步完备信息核查系统的功能。45.4、将复核结果以直观的可视化ui进行反馈46.本发明将以上功能集成于可视化ui页面，相应功能封装为页面模块供用户进行选择。页面左侧为文档，页面中部为可供核查的模块，页面右侧为财务科目信息的内容及状态的展示部分。在右侧在点开相关科目的提取值后，会显示信息点所在位置的上下文，点击“放大镜”按钮，浏览器左侧的文档会自动跳转到信息点在文档的位置，并对相应信息进行高亮显式，方便进一步查看上下文信息。附图说明47.下面结合附图和具体实施方式来详细说明本发明；48.图1为本发明的文本的事件提取流程图；49.图2为本发明的表格的事件提取流程图；50.图3为本发明的金融事件一致性核查的方式示意图；51.图4为本发明的金融事件变动核查的方式示意图；52.图5为本发明的金融事件关联规则核查的方式示意图；53.图6为本发明的信息核查模块的主要流程图；54.图7为本发明的勾稽关系检查流程图；55.图8为本发明的表内复核流程图；56.图9为本发明实施例1的智能核查示意图。具体实施方式57.为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。58.参照图1‑8，本具体实施方式采用以下技术方案：一种基于知识库的金融文本核查系统，包括pdf解析模块、文档章节树构建模块、实体识别模块、事件提取模块、信息核查模块、缓存模块；其流程如下：将pdf文档解析后构建章节树信息，利用章节树对目标信息实体进行定位及识别，再通过实体间的逻辑关系进行事件抽取，并通过核查模块对事件提取结果进行核查，帮助业务人员快速定位文档错误；最终通过覆盖提取系统主要数据节点的缓存模块加速文档的重新解析。59.所述的pdf解析模块采用apache旗下的pdfbox，其功能如下：文本的提取，即在pdf文件里面把文本内容提取出来；合并和拆分pdf文档，可以把几个pdf合并成一个pdf文件，也可以把一个pdf文件拆分成多个pdf文件；pdf的校验，根据pdf/aiso标准校验pdf文档；打印pdf，通过java的api去打印pdf文件；把pdf转换成图片，把pdf文件转换成图片；创建pdf文件；pdf签名；pdf表格提取。60.所述的pdf解析模块对pdfbox解析后进行了修正：61.1、通过标注<pat>，<uad>序号等pdf携带的特征将文本放进神经网络中训练，可以得到大于99％的分段准确率。62.2、篇章结构主要通过规则系统，识别pdf的章节特征，通常pdf篇章标题采用不同的序号与加大加粗字体表示。63.3、pdfbox可以将表格还原为带有坐标位置信息的xml文件，这样可以判断横竖线链接，用于锁定表格。在表格处理中还要注意一些特殊情况，如有些表格会跨页，并且在pdf中页眉页脚带有横线；又或者有些表格的分割线为双横线；这些情况都需要做进一步特殊处理。表格识别本质是一个连通图问题，将表格每一个单元抽象成一个图结点，向四个方向游走，如果不遇到横竖线拦截则扩展单元，反之建立新节点。64.所述的表格提取在公告处理中主要作用于特定信息提取，如财务报表，供应商与客户表，业务构成表等等。如财务报表信息，表格提取仅仅作用于还原表格结构，但具体结构化还需要两项工作。65.一是实体对齐，如财务报表中的指标对齐，比如“资产总计＝总资产”。66.二是表格定位，即如何判定某一张表是五大供应商表还是五大客户表，这些需要通过表格的上下文判断，其中篇章结构的解析会对此有辅助定位功能。67.利用pdf转换工具可以从绝大部分上市公司公告中提取到有效文本。对于可获取的其他格式文本，如word或txt，文本内容获取较易，本发明没有加以特别对待；而对部分由图片转换的pdf，由于涉及到图像识别等其他专项技术，未在本发明中加以覆盖。68.所述的文档章节树构建模块包括以下步骤69.1、预处理。对pdf解析结果进行预处理，预处理的内容包括去除解析文字截段前后的空格、标识页眉页脚、标识目录区、标识章节及标识段落的结尾。70.文字截段前后的空格往往会对内容的拼接造成干扰，导致连贯的词汇因空格的存在被拆分开，对后续的实体及其他关键字的识别造成困难，因此需要去除掉。71.页眉页脚属于与正文无关的内容，对内容的拼接同样造成干扰，因此也被标识出，并在后续的文字拼接中被排除掉。72.目录区对章节树的构建也会造成干扰，其中所包含的章节信息与正文中的章节信息会有重复，导致章节标题识别的多重匹配，因此在章节树构建过程中需要被排除掉。73.章节的标识是章节树构建的核心，章节的标题通常具有典型特征，比如序号等，并且不同的的标题具有不同的级别，并由此才能构建出章节树，因此预处理过程中，需要标识文字的章节信息。74.章节树的末端是段落，段落的完整性对章节树的效果表现极为重要，段落的结尾识别既标识着一个段落的结束，也标识着一个段落的开始。段落结尾的识别既可以通过本身的标点符号，也可以结合下文内容来进行判断。75.2、添加根节点。对所有pdf解析后的内容进行标识后，需要在所有内容前添加根节点，从该节点出发，可以获得所有子级章节、子级节点的信息。76.3、合并同一段落内容。通过在预处理过程中标识段落结尾，可以对属于同一段落的内容进行合并。77.4、创建节点。通过在预处理中识别出的章节标题，可以用来创建节点，节点包含标题内容、标题级别，以及和下一节点之间的段落内容。78.5、设置节点的父子关系。利用节点之间章节标题的级别关系，设置节点之间的父子关系。79.合并跨页表格。如果因跨页导致同一表格被识别为两个表格，第二页的表格往往会因为缺少行标题而不能被正常提取信息，因此需要对跨页表格进行合并。80.设置表格的表述信息对确定目的表格具有帮助作用，如果表格描述信息与目的表格完全无关，那么此表格也大概率不是目的表格，反之，如果目的表格必然有某种描述信息，将能对目标表格起到定位和识别作用。81.通过以上环节，可以对pdf的解析内容构建出良好的章节树信息，对下游命名实体识别及事件提取提供良好的章节位置信息，避免在无关章节位置提取目标信息，从而达到节省时间，提高识别准确度的效果。82.所述的实体识别模块是识别文本中具有特定意义的实体，确定所需实体的类型和内容的方法如下：83.一、基于词典和规则匹配的实体识别84.对于专利所需实体，维护了专门的词典负责相关的内容，主要为财务科目，并联合一定的规则，以模式和字符串相匹配为主要手段，识别所需实体，参考图1(图中各英文的含义为：text：文本；ner：命名实体识别；entity：实体；dk(domainknowledge)：领域知识；rules：规则；event:事件)。85.二、基于表格内容的实体识别86.表格内容以列表形式保存，实体的类型和类容之间大部分具有较为良好的组织结构关系，但也存在一些表格结构复杂的情况，将复杂的表格形式中的实体类型和内容对应，是该环节的关键，参考图2(图中各英文的含义为：table：表格；ner：命名实体识别；entity：实体；dk(domainknowledge)：领域知识；rules：规则；event:事件)。87.专利针对招股说明书、债券募集说明书、信评报告和审计报告开展了实验，分别对关注信息点的准确率和召回率进行了测试。4类公告的选取主要考虑几个方面：88.1、信息点多、信息点通用性强、篇幅极长的重量级公告；89.2、公告关键信息明确，可以被结构化(反例：澄清公告等便没有结构化的必要)；90.3、公告类别覆盖能“某一句话包含全部关键信息的”与“关键信息出现在多处需要聚合的”。91.4类公告所需要抽取的信息点的分析如下：92.负债总额(实体)、流动负债(实体)、流动负债平衡项目(实体)、其他流动负债(实体)、其他非流动负债(实体)、非流动负债(实体)、非流动负债平衡项目(实体)、一年内到期的非流动负债(实体)、净资产(实体)、归属于母公司净资产(实体)、资产总额(实体)、流动资产(实体)、其他流动资产(实体)、其他非流动资产(实体)、非流动资产(实体)、流动资产平衡项目(实体)、非流动资产平衡项目(实体)、一年内到期的非流动资产(实体)、可供出售债券(实体)、可供出售权益工具(实体)、一般风险准备(实体)、专项储备(实体)、专项应付款(实体)、买入返售金融资产(实体)、买入返售企业债券(实体)、代理买卖证券款(实体)、代理承销证券款(实体)、交易性金融资产(实体)、以公允价值计量且其变动计入当期损益的金融负债(实体)、以公允价值计量且其变动计入当期损益的金融资产(实体)、保险合同准备金(实体)、债权计划投资(实体)、其他应付款(实体)、其他应付款项(实体)、其他应收款(实体)、其他应收款项(实体)、其他权益工具投资(实体)、其他权益工具(实体)、其他综合收益(实体)、划分为持有待售的负债(实体)、划分为持有待售的资产(实体)、卖出回购金融资产款(实体)、发放贷款和垫款(实体)、可供出售金融资产(实体)、向中央银行借款(实体)、吸收存款及同业存款(实体)、商誉(实体)、固定资产(实体)、固定资产清理(实体)、在建工程(实体)、存放同业款项(实体)、存货(实体)、实收资本(或股本)(实体)、少数股东权益(实体)、库存股(实体)、应交税费(实体)、应付债券(实体)、一年内到期的应付债券(实体)、应付分保账款(实体)、应付利息(实体)、应付手续费及佣金(实体)、应付票据(实体)、应付票据及应付账款(实体)、应付职工薪酬(实体)、应付股利(实体)、应付账款(实体)、应收保费(实体)、应收分保合同准备金(实体)、应收分保账款(实体)、应收利息(实体)、应收款项类投资(实体)、应收票据(实体)、应收票据及应收账款(实体)、应收股利(实体)、应收账款(实体)、开发支出(实体)、投资性房地产(实体)、拆入资金(实体)、拆出资金(实体)、持有至到期投资(实体)、无形资产(实体)、期货会员资格投资(实体)、未分配利润(实体)、油气资产(实体)、生产性生物资产(实体)、盈余公积(实体)、法定盈余公积(实体)、短期借款(实体)、结算备付金(实体)、衍生金融负债(实体)、衍生金融资产(实体)、货币资金(实体)、贵金属(实体)、资本公积(实体)、递延所得税负债(实体)、递延所得税资产(实体)、递延收益(实体)、长期借款(实体)、一年内到期的长期借款(实体)、长期应付款(实体)、一年内到期的长期应付款(实体)、长期应付职工薪酬(实体)、长期应收款(实体)、长期待摊费用(实体)、长期股权投资(实体)、预付款项(实体)、预收款项(实体)、预计负债(实体)工程物资(实体)、发放委托贷款及贷款(实体)、负债和所有者权益(实体)、股本/实收资本(实体)、归属于母公司所有者权益(实体)、所有者权益(实体)、银行存款(实体)、其他货币资金(实体)、保单红利支出(实体)、公允价值变动收益(实体)、其他收益(实体)、其他业务收入(实体)、其他业务成本(实体)、净利润(实体)、扣除非经常性损益后的净利润(实体)、所得税费用(实体)、分保费用(实体)、利息支出(实体)、利息收入(实体)、利润总额(实体)、少数股东损益(实体)、已赚保费(实体)、归属于少数股东的综合收益总额(实体)、归属于母公司所有者的综合收益总额(实体)、归属于母公司所有者的净利润(实体)、扣除非经常性损益后归属于母公司的净利润(实体)、手续费及佣金支出(实体)、手续费及佣金收入(实体)、投资收益(实体)、提取保险合同准备金净额(实体)、汇兑收益(实体)、税金及附加(实体)、综合收益总额(实体)、营业利润(实体)、营业利润率(实体)、营业外支出(实体)、营业外收入(实体)、营业总收入(实体)、营业总成本(实体)、营业成本(实体)、营业收入(实体)、信用减值损失(实体)、资产减值损失(实体)、资产处置收益(实体)、赔付支出净额(实体)、退保金(实体)、期间费用(实体)、期间费用率(实体)、销售费用(实体)、销售费用率(实体)、财务费用(实体)、财务费用率(实体)、管理费用(实体)、管理费用率(实体)、研发费用(实体)、研发费用率(实体)、其他综合收益的税后净额(实体)、基本每股收益(实体)、扣除非经常损益基本每股收益(实体)、稀释每股收益(实体)、扣除非经常损益稀释每股收益(实体)、保户储金及投资款净增加额(实体)、偿还债务支付的现金(实体)、分配股利、利润或偿付利息支付的现金(实体)、发行债券收到的现金(实体)、取得借款收到的现金(实体)、取得子公司及其他营业单位支付的现金净额(实体)、取得投资收益收到的现金(实体)、向中央银行借款净增加额(实体)、向其他金融机构拆入资金净增加额(实体)、吸收投资收到的现金(实体)、回购业务资金净增加额(实体)、处置以公允价值计量且其变动计入当期损益的金融资产净增加额(实体)、处置固定资产、无形资产和其他长期资产收回的现金净额(实体)、处置子公司及其他营业单位收到的现金净额(实体)、存放中央银行和同业款项净增加额(实体)、客户存款和同业及其他金融机构存放款项净增加额(实体)、客户贷款及垫款净增加额(实体)、投资支付的现金(实体)、投资活动产生的现金流量净额(实体)、投资活动现金流入(实体)、投资活动现金净流入(实体)、投资活动现金流出(实体)、投资活动现金净流出(实体)、拆入资金净增加额(实体)、支付保单红利的现金(实体)、支付其他与投资活动有关的现金(实体)、支付其他与筹资活动有关的现金(实体)、支付其他与经营活动有关的现金(实体)、支付利息、手续费及佣金的现金(实体)、支付原保险合同赔付款项的现金(实体)、支付的各项税费(实体)、支付给职工以及为职工支付的现金(实体)、收到其他与投资活动有关的现金(实体)、收到其他与筹资活动有关的现金(实体)、收到其他与经营活动有关的现金(实体)、收到再保业务现金净额(实体)、收到原保险合同保费取得的现金(实体)、收到的税费返还(实体)、收取利息及手续费及佣金的现金(实体)、收回投资收到的现金(实体)、期初现金及现金等价物余额(实体)、期末现金及现金等价物余额(实体)、汇率变动对现金及现金等价物的影响(实体)现金及现金等价物净增加额(实体)、筹资活动产生的现金流量净额(实体)、筹资活动现金流入(实体)、筹资活动现金净流入(实体)、筹资活动现金流出(实体)、筹资活动现金净流出(实体)、经营活动产生的现金流量净额(实体)、经营活动现金流入(实体)、经营活动现金净流入(实体)、经营活动现金流出(实体)、经营活动现金净流出(实体)质押贷款净增加额(实体)、购买商品及接受劳务支付的现金(实体)、购建固定资产、无形资产和其他长期资产支付的现金(实体)、销售商品及提供劳务收到的现金(实体)、处置固定资产、无形资产和其他长期资产收回的现金净额(实体)、每股经营活动产生的现金流量(实体)、每股净现金流量(实体)、主营业务成本(实体)、主营业务收入(实体)、营业毛利(实体)、营业毛利率(实体)、主营业务毛利(实体)、主营业务毛利率(实体)、其他业务毛利(实体)、其他业务毛利率(实体)、存货周转率(实体)、应收账款周转率(实体)、流动比率(实体)、资产负债率(实体)、扣除预收账款后的资产负债率(实体)、研发支出(实体)、研发投入(实体)、现金分红(实体)、息税折旧摊销前利润(实体)、扣除非经常性损益后加权净资产收益率(实体)、加权净资产收益率(实体)、净资产收益率(实体)、总资产周转率(实体)、交易性金融负债(实体)、速动比率(实体)、应收债券利息(实体)、资产减值准备(实体)、净资产周转率(实体)、贷款偿还率(实体)、应收其他利息(实体)、ebitda全部债务比(实体)、利息保障倍数(实体)、利息偿付率(实体)、总资产收益率(实体)、现金利息保障倍数(实体)、ebit利息保障倍数(实体)、ebitda利息保障倍数(实体)、净利润率(实体)、应收银行存款利息(实体)、营业净利率(实体)、有息债务(实体)、应交企业所得税(实体)、折旧费用(实体)、值(实体)、来源(实体)、账单周期(实体)、存货类型(实体)、其他应收款类型(实体)、固定资产类型(实体)、应收账款类型(实体)、无形资产类型(实体)、应收票据类型(实体)93.所述的事件提取模块：专利的文档数据以纯文本及部分结构化信息(如表格)的形式展现，需要提取关键实体(财务科目)，以及实体间对应关系(如母公司‑2020年‑净利润‑35,432.2万元)。此类工作，将通过nlp的句法分析，专家领域词表，正则系统构建来实现。94.所述的信息核查模块的主要流程如图6所示，具体内容如下：95.一、勾稽关系检查96.勾稽关系主要针对文档内的财务科目，利用财务科目信息的重复及关系对财务科目信息点的准确性进行核验，具体涉及财务指标数值检查、数值变动和比例检查和财务指标公式核查。流程如图7所示；97.二、财务指标数值检查98.财务指标数值检查模块，主要功能为从段落、表格中将多次出现的金融财务数据和业务数据提取为结构化数据，经过金融数值的单位换算、四舍五入处理后，再进行一致性比较，找出文档中前后数值不一致的数据，参考图3。表格在排版、编辑过程中也经常出现数字与时间、指标行(或列)没有对齐的错误。99.三、数值变动和比例检查100.从文本中提取表达增减、平均、同比增减、环比增减、增长率和占比等语义的语句，并提取相关比例信息。同时从文档或表格中获取需要计算的金融指标数据并经过公式计算后作结果比对以验证数值、比例的语句描述的正确性，参考图4。101.四、财务指标公式102.一般的提供对常用财务公式核对结构化财务数据准确性功能。根据给定财务公式和需复核财务指标，并结合已提取结构指标数据，计算财务指标是否与文档中描述的一致，参考图5。103.五、表内复核104.表内复核检查，主要功能为将表格中金融数据提取为结构化数据，并进行单位换算，然后进行单表内合计的正确性的检查。主要流程如图8所示。105.六、段落层级、格式检查106.主要负责非财务类相关核查功能，该功能主要基于大量金融文本训练的语言模型和专家规则模板库实现，主要功能包括错别字检测、标点符号核查、千分位符号错误核查和段落层级计算核查等，极大提升工作效率。107.所述的缓存模块主要对章节树、文本及表格实体识别及事件提取规则进行缓存。应用举例为当仅优化了提取规则时，将在已有章节树及识别的实体的基础上，根据新的规则进行事件的重新提取，不必从新对pdf文档进行解析，从而加快系统的运行。108.本具体实施方式通过机器视觉及章节构建，自动生成全篇文档章节结构，由于公告文档类型为pdf，首先需要将文档内的信息识别并提取出来，利用机器视觉处理技术，可以将pdf文档内的信息，完整且结构化的保存下来，所提取出来的信息包括但不限于文本、字体、字号、文本颜色、文本透明度、位置信息、是否为表格、是否为图片、图片旋转角度、背景信息等。109.由于提取的信息是截段化的，因此需要基于所提取出来的信息类型和一定的规则，尽可能将信息合理拼接，还原文档结构。在还原文档结构的过程中，利用提取信息的格式再基于一定的规则即可构建章节结构，从而为目标信息实体的提取提供关键的定位信息，避免在文档中无关位置进行目标实体的识别，从而促进公告的解析更为高效。110.本具体实施方式的实体与事件的精确提取是根据专利和实际操作需要，项目中设立了两大类实体，一类为与变动相关的实体，另一类为与非变动相关的实体，每一类都包括科目、时间、数值、科目来源(是否为母公司信息)、科目的子类型如果有(如账面价值、账面余额)。111.两大类实体间的区别在于提取的数值是否为变动值，触发词为表示变动的相关词语，如增加、增长、比一年前降低等。当识别到触发词，则将相应实体识别为变动相关实体。两大类实体后续具有不同的提取规则，主要区别在于提取规则中是否具有“变动”含义的实体。112.专利事件提取中的要点及优势如下：113.一、实体的识别114.不同于通过神经网络或机器学习的方法进行实体识别，由于专利涉及领域专业性强，只需要对领域内及专利所需要的实体进行识别即可，因此专利维护了一个所需实体字典及其相应识别规则，保证同一实体的不能说辞可以匹配到同一实体，从而保证实体识别的专业性及针对性。115.二、无关实体116.在利用规则和实体从段落中抽取事件时，会有一些无关实体及其属性值对事件抽取造成干扰，只有将其也设置为实体，最后在输出结果中排除，方能得到准确的结果。117.三、报告期的识别与对应118.对于文档中的时间信息，“报告期”是正文中涉及最多的实体，本专利将报告期与具体年份对应，从而进一步精确事件的时间信息。119.四、账单周期的识别120.文档中的时间信息复杂，主要体现在月份信息的表述上，要将多样的的表述信息统一映射到一个精确的月份区间当中，如“第三季度”将被映射到“7‑9月”，“下半年”将被映射到“7‑12月”等。此外，段落中年份信息与月份信息存在间隔一段距离的情形，项目也可以正确对其拼接组装。121.五、表格中科目来源识别122.对于表格中的科目，经常不会包含母公司的信息，而是出现在其标题或表格描述当中，本专利对此类情况，将表格的标题及描述纳入表格内实体提取的考量当中，从而将事件的来源正确归类。123.六、表格中数值的单位拼接124.对于表格中的数值，往往不会带有单位信息，与表格中科目来源识别类似，单位信息往往就位于表格的描述信息当中，专利根据表格内容及表格描述信息，可以正确将表格描述当中的金额、百分比、倍率等单位与表格中的值进行正确拼接。125.七、子类型提取126.对于一些科目，如存货，其值的类型可以有跌价准备、跌价损失、账面价值、账面余额、账面原值、减值准备等，不同类型的值并不相同，不能混为一谈。对于该类科目，要针对性的设置相应的类型，方能得到准确的结果。127.八、跨页表格的拼接128.文档中的表格经常涉及跨页，因此导致待提取的信息分别位于不同的页面当中，往往导致不能正确识别。专利依据表格的样式及待提取科目的完整性，判断跨页表格科目内容是否需要合并，从而实现正确提取跨页表格中的事件。129.通过以上方式，保证实体和事件提取的准确性。130.本具体实施方式的信息自动复核相较于前面的环节，复核自动化相对而言更加简单，核心在于比较相同事件的属性值是否一致，关键在于事件在文档中具有多个相同的值以及财务科目之间具有的关系。针对公告中多次出现、或互相关联的事件，可以通过复核自动化，输出机器识别出的错误科目，辅助人工复核，提高核查效率。此外还对低级别错误包括错别字检测、标点符号核查、千分位符号错误核查和段落层级计算核查，进一步完备信息核查系统的功能。131.本具体实施方式将复核结果以直观的可视化ui进行反馈：将以上功能集成于可视化ui页面，相应功能封装为页面模块供用户进行选择。页面左侧为文档，页面中部为可供核查的模块，页面右侧为财务科目信息的内容及状态的展示部分。在右侧在点开相关科目的提取值后，会显示信息点所在位置的上下文，点击“放大镜”按钮，浏览器左侧的文档会自动跳转到信息点在文档的位置，并对相应信息进行高亮显式，方便进一步查看上下文信息。132.实施例1：如图9所示，为进行智能核查，并形成核查结果的流程示意图。将以上流程分为3个模块，则分别为文档解析模块、信息提取模块、信息核对模块。133.1、文档解析模块。通过解析pdf文档，进行文档中非结构数据进行结构化提取，产生能让机器识别应用的信息。同时，把结构化数据分类，依次进行版面分析、涨价结构分析、表格分析，运用前文所述关键技术，对文档中数据内容分析，形成机器可自动化搜索的基础。134.2、信息提取模块。搜索待提取的信息，分析该信息是否存储在表格中，此处分别运用篇章分析或者是表格理解技术，摘取可进行自动化计算、编辑财务数据，并进行数据格式的归一化。135.3、信息核查模块。将文档财务数据与机器计算财务数据比对，若有偏差，则系统将不一致的部分高亮显示。另外，此处运用知识库检索功能，将关联信息以知识图谱的形式展现，核查单文档中数据的前后勾稽关联，并以知识库中推理机技术，推理多文档复杂数据的勾稽关系。结合文档核查结果，定义核查报告结构后，系统可自动化生成核查报告。136.以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种嵌入式系统更新的方法及设备与流程

一种基于知识库的金融文本核查系统的制作方法

相关文献

最热文献