基于OCR和NLP技术的交易背景真实性审核方法和系统与流程

2022-03-19 22:22:10 来源：中国专利 TAG：

基于ocr和nlp技术的交易背景真实性审核方法和系统
技术领域
1.本发明涉及ocr和nlp技术领域，具体地，涉及一种基于ocr和nlp技术的交易背景真实性审核方法和系统。

背景技术：

2.针对目前线上贸易融资申请流程及各分行贸易背景影像资料审核模式，应收类融资业务申请中的应收账款登记信息由客户经理逐条录入，后续主要对客户或客户经理上传贸易背景影像资料如合同、发票等进行逐一的人工比对校验完成交易背景信息的真实性审核。随着审核材料数量的急剧增加，大量时间浪费在了材料的人工录入和比对，并且容易出错。
3.专利文献cn113221890a(申请号：cn202110574251.0)公开了一种基于ocr的云手机文字内容监管方法和系统，该系统包括文本信息处理模块、文本信息比对模块和敏感信息词库；采用基于文本行的检测和识别算法，对截屏数据进行文本行检测、文本行识别、敏感文字信息比对，并对云手机用户截屏数据中存在的违规文字内容进行预警和警告处理。
4.现有基于ocr的真实性辅助影像审核手段存在如下缺点：影像识别准确率低，无法满足辅助审核的要求；对文档多样性适应性差，仅能处理单一特定类型文档；对影像质量要求高，无法处理低质量影像；对包含图片、表格的混合型影像材料，存在表格定位不准、图表本身结构干扰识别效果等问题；另外对ocr识别出的各个信息要素均逐一的人工比对校验，及其耗时。

技术实现要素：

5.针对现有技术中的缺陷，本发明的目的是提供一种基于ocr和nlp技术的交易背景真实性审核方法和系统。
6.根据本发明提供的基于ocr和nlp技术的交易背景真实性审核方法，包括：
7.步骤1：通过接口向交易系统请求业务的应收账款信息数据，在获取数据后将数据整合为待校验数据格式；
8.步骤2：通过影像平台获取该业务的影像资料列表；
9.步骤3：基于ocr和nlp技术，根据影像的唯一编号进行影像识别，根据预设关键要素字段抓取对应的信息，得到待校验数据；
10.步骤4：根据不同的业务场景、文档类型、指标类型构建比对规则，对待校验数据进行真实性校验，生成辅助审核的校验报告。
11.优选的，通过图像采集装置对待校验材料进行图像采集，并对采集的图像进行ocr区域定位，区域类别包含：文本区、表格区和发票区；
12.在具有标注的数据上进行训练，构建基于深度卷积神经网络的ocr模型，将影像资料输入至ocr模型，输出各区域的内容分布，形成多个区域子图。
13.优选的，将各区域子图输入至ocr模型进行内容提取，输出各区域的内容文字，并
根据输出的文字进行业务关键要素抽取；
14.文本区、表格区的业务关键要素包括：合同名称、合同编号、合同金额、合同签订日期、合同生效日期、合同签订方；
15.发票区的业务关键要素包括：发票代码、发票号码、含税金额、税率、开票日期、货物品类。
16.优选的，结合命名实体识别模型和基于数据分析的规则，同时引入指标类型、位置信息和关键词，进行文本区、表格区业务关键要素抽取。
17.优选的，将发票区域子图输入至深度卷积神经网络进行分类，每个类别对应发票区中的每种业务关键要素，结合样本增强、svm、目标检测、表格识别和跨页表格拼接的ai技术，进行发票区关键要素抽取。
18.根据本发明提供的基于ocr和nlp技术的交易背景真实性审核系统，包括：
19.模块m1：通过接口向交易系统请求业务的应收账款信息数据，在获取数据后将数据整合为待校验数据格式；
20.模块m2：通过影像平台获取该业务的影像资料列表；
21.模块m3：基于ocr和nlp技术，根据影像的唯一编号进行影像识别，根据预设关键要素字段抓取对应的信息，得到待校验数据；
22.模块m4：根据不同的业务场景、文档类型、指标类型构建比对规则，对待校验数据进行真实性校验，生成辅助审核的校验报告。
23.优选的，通过图像采集装置对待校验材料进行图像采集，并对采集的图像进行ocr区域定位，区域类别包含：文本区、表格区和发票区；
24.在具有标注的数据上进行训练，构建基于深度卷积神经网络的ocr模型，将影像资料输入至ocr模型，输出各区域的内容分布，形成多个区域子图。
25.优选的，将各区域子图输入至ocr模型进行内容提取，输出各区域的内容文字，并根据输出的文字进行业务关键要素抽取；
26.文本区、表格区的业务关键要素包括：合同名称、合同编号、合同金额、合同签订日期、合同生效日期、合同签订方；
27.发票区的业务关键要素包括：发票代码、发票号码、含税金额、税率、开票日期、货物品类。
28.优选的，结合命名实体识别模型和基于数据分析的规则，同时引入指标类型、位置信息和关键词，进行文本区、表格区业务关键要素抽取。
29.优选的，将发票区域子图输入至深度卷积神经网络进行分类，每个类别对应发票区中的每种业务关键要素，结合样本增强、svm、目标检测、表格识别和跨页表格拼接的ai技术，进行发票区关键要素抽取。
30.与现有技术相比，本发明具有如下的有益效果：
31.(1)本发明利用光学字符识别ocr技术和自然语言处理nlp技术等人工智能技术，对贸易融资业务审批流程中提交的影像材料进行自动化识别和关键信息要素的智能抽取，并通过智能逻辑校验，提供检查建议包括商务合同的有效性、发票的验真结果、发票与合同的一致性等，供业务申请人员和审批人员做进一步判断和操作，提高审核效率；
32.(2)本发明能够针对不同制式、不同质量、多种内容类型混合编排的影像资料进行
识别，并基于信息抽取、语义分析等nlp技术实现特定内容抽取，以满足信息比对、校验的需要；
33.(3)本发明将智能影像识别、校验技术引入贸金融资交易背景真实性审核，具有识别准确率高、耗时短的特点，且能有效防止人为审核失误，有效节省人力资源成本。
附图说明
34.通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
35.图1为本发明的一个具体实施方式的流程图；
36.图2为本发明中影像识别功能的流程图；
37.图3为本发明中业务关键要素抽取功能的流程图。
具体实施方式
38.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。
39.实施例：
40.本发明提供了一种基于ocr和nlp技术的交易背景真实性审核方法，如图1，包括如下步骤：
41.s100：业务信息提取。通过接口向贸金系统请求本笔业务的应收账款信息数据。获取数据后将信息整合为待校验数据格式，暂存于中台系统备用。该进程可由操作人员点选或系统自动触发；
42.s200：向影像平台请求该笔业务的影像资料列表。操作人员对需要进行校验的影像资料进行选定；
43.s300：中台系统将选定影像的唯一编号提交至基于ocr和nlp的智能影像识别系统，点选触发影像识别。根据预设关键要素字段，抓取对应的信息，形成待校验数据，返回中台系统；
44.s400：触发智能校验功能。根据不同的业务场景、文档类型、指标类型构建具体的、不同的比对规则，生成辅助审核的校验报告，供审核业务人员参考；同时触发发票验真功能，将智能影像识别后的发票信息并发往验真接口，并将返回结果添加至校验报告。
45.如图2所示，所述s300基于ocr和nlp的智能影像识别系统具体包括：
46.s310：影像资料采集。通过图像采集装置对待校验材料进行图像采集；
47.s320：ocr区域定位。区域类别包含：文本区、表格区和发票区。将影像资料逐页输入至基于深度卷积神经网络的ocr模型。ocr模型输出以上各区域的内容分布，形成多个区域子图。该ocr模型已在大量有标注数据上进行训练，具备高准确率的区域定位能力；
48.s330：ocr内容提取。将各区域子图输入至ocr模型进行内容提取，输出各区域的内容文字。该ocr模型已在大量有标注的数据上进行训练，具备高准确率的内容识别能力；
49.s340：业务关键要素抽取。文本区、表格区的业务关键要素包括但不限于：合同名
称、合同编号、合同金额、合同签订日期、合同生效日期、合同签订方；发票区的业务关键要素包括但不限于：发票代码、发票号码、金额(含税)、税率、开票日期、货物品类。均可根据业务需要动态配置。
50.如图3所示，所述s340对业务关键要素进行抽取具体包括：
51.s341：文本区、表格区业务关键要素抽取。考虑到内容版式的多样化，对业务关键要素的抽取结合了命名实体识别模型和基于数据分析的规则两种技术手段。针对特殊行业和特定合同版式采取专用模型。例如：针对建筑行业的采购合同，需要对此类合同版式进行数据标注并训练专用于此类版式的模型。考虑识别模型的整体泛化能力，同时结引入指标类型、位置信息、关键词等规则进行业务关键要素抽取；
52.s342：发票区关键要素抽取。将s320中的发票区域子图输入至深度卷积神经网络进行分类，每个类别对应s340发票区中的每种业务关键要素。结合样本增强、svm、目标检测、表格识别和跨页表格拼接等多种ai技术手段，确保业务关键要素识别和抽取的准确性。
53.本发明的主要技术难点在于：1、客户上传的影像资料质量参差不齐，同一份影像文件中存在多种类型的材料，需要通过识别手段对不同的影像类型进行识别分类；2、影像文件中合同文件属于非制式文件，格式变化多样且多数文本内容较长，需抽取的关键信息较为分散，如货品名称、单价和数量等信息抽取难度较大；3、影像文件中发票文件包含多种发票类型，且存在折叠、多种版式排布、套打等情况增加识别和关键要素抽取的难度；4、贸易背景资料信息要素比对审核需要根据多种类型影像文件抽取的信息要素进行验真、校核，需要通过一定的方案将不同的要素进行归类和分析。
54.本方案使用的方法如下：
55.1、对上传的影像文件进行逐页分割，采用卷积神经网络对影像文件进行分类，同时针对合同等具有上下文特征的文件进行归类，便于后续的关键业务要素识别和抽取；
56.2、考虑到合同文件版式的多样化，对合同关键要素的抽取结合了命名实体识别模型和基于数据分析的规则两种技术手段，针对特殊行业和特定合同版式采取专用模型，同时结合关键指标类型、位置信息、关键词等提取的规则提高识别模型的整体泛化能力；
57.关键要素：例如合同名称、合同主体(甲方、乙方)、合同签订日期、合同编号、合同总金额、付款方式、货品信息、合同有效期等；
58.专用模型：针对具体行业训练的命名实体识别模型等；
59.特殊行业和特定版式：针对不同的行业，如建筑行业的采购合同，有特定的合同版式。
60.3、针对不同类型的发票，采用深度卷积神经网络进行分类，并采用了样本增强、svm、目标检测、表格识别和跨页表格拼接等多种ai技术手段，提高了不同发票类型多种信息要素的识别和抽取准确性，同时结合外部发票验真数据的接口调用进行信息确认和比对；
61.4、基于影像文件抽取的关键信息要素与应收账款登记信息进行对比审核，采用分类文件验真、同类信息指标对比验证的技术手段，结合业务申请的场景形成对应的比对规则，并结合自然语言处理nlp技术提供辅助审核的结果报告，供审核业务人员参考。
62.分类文件：例如商务合同、协议、不同种类的发票、交易流水票据等；
63.同类信息指标：例如商务合同中的合同金额和发票总金额等同类型信息指标的比
对验真。
64.根据本发明提供的基于ocr和nlp技术的交易背景真实性审核系统，包括：模块m1：通过接口向交易系统请求业务的应收账款信息数据，在获取数据后将数据整合为待校验数据格式；模块m2：通过影像平台获取该业务的影像资料列表；模块m3：基于ocr和nlp技术，根据影像的唯一编号进行影像识别，根据预设关键要素字段抓取对应的信息，得到待校验数据；模块m4：根据不同的业务场景、文档类型、指标类型构建比对规则，对待校验数据进行真实性校验，生成辅助审核的校验报告。
65.通过图像采集装置对待校验材料进行图像采集，并对采集的图像进行ocr区域定位，区域类别包含：文本区、表格区和发票区；在具有标注的数据上进行训练，构建基于深度卷积神经网络的ocr模型，将影像资料输入至ocr模型，输出各区域的内容分布，形成多个区域子图。将各区域子图输入至ocr模型进行内容提取，输出各区域的内容文字，并根据输出的文字进行业务关键要素抽取；文本区、表格区的业务关键要素包括：合同名称、合同编号、合同金额、合同签订日期、合同生效日期、合同签订方；发票区的业务关键要素包括：发票代码、发票号码、含税金额、税率、开票日期、货物品类。结合命名实体识别模型和基于数据分析的规则，同时引入指标类型、位置信息和关键词，进行文本区、表格区业务关键要素抽取。将发票区域子图输入至深度卷积神经网络进行分类，每个类别对应发票区中的每种业务关键要素，结合样本增强、svm、目标检测、表格识别和跨页表格拼接的ai技术，进行发票区关键要素抽取。
66.本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
67.以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本技术的实施例和实施例中的特征可以任意相互组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：游戏中的用户界面编辑方法、设备及存储介质与流程

基于OCR和NLP技术的交易背景真实性审核方法和系统与流程

相关文献

最热文献