纸质流水文件识别的方法、装置、设备和存储介质与流程

2022-11-14 00:48:06 来源：中国专利 TAG：

1.本发明涉及文字识别技术领域，特别涉及一种纸质流水文件识别的方法、装置、设备和存储介质。

背景技术：

2.在金融行业中，企业账户能拿到电子表格版流水，个人流水等其他场景一般为纸质流水，无法直接拿到结构化好的信息进行处理和分析。这就导致银行需要花费大量的人力将个人用户的纸质流水文件导入到计算机系统中，效率较低。
3.同时，电子流水文件往往具有特定的字段结构，现有文字识别技术难以将从纸质流水文件上识别得到的文字转换为具有特定字段结构的电子流水文件。

技术实现要素：

4.针对上述现有技术的缺点，本发明提供一种纸质流水文件识别的方法、装置、设备和存储介质，以提供一种自动将纸质流水文件转换为电子流水文件的方案。
5.本技术第一方面提供一种纸质流水文件识别的方法，包括：
6.获取待识别流水图像；其中，所述待识别流水图像显示有待识别的纸质流水文件；
7.利用第一目标检测模型检测所述待识别流水图像，获得多个第一文本框，并利用第二目标检测模型检测所述待识别流水图像，获得多个第二文本框；
8.分别根据所述第一文本框和所述第二文本框进行文字识别，获得所述第一文本框对应的第一识别结果和所述第二文本框对应的第二识别结果；
9.通过比对所述第一识别结果和所述第二识别结果获得最终识别结果；
10.从预先构建的模板库中提取和所述最终识别结果匹配的目标流水模板；
11.将所述最终识别结果填入所述目标流水模板，获得待识别的纸质流水文件对应的电子流水文件。
12.可选的，所述利用第一目标检测模型检测所述待识别流水图像，获得多个第一文本框，包括：
13.利用基于目标候选区域算法的双阶段目标检测模型检测所述待识别流水图像，获得多个第一文本框；
14.所述利用第二目标检测模型检测所述待识别流水图像，获得多个第二文本框，包括：
15.利用基于回归方式的单阶段目标检测模型检测所述待识别流水图像，获得多个第二文本框。
16.可选的，所述分别根据所述第一文本框和所述第二文本框进行文字识别，获得所述第一文本框对应的第一识别结果和所述第二文本框对应的第二识别结果，包括：
17.对所述待识别流水图像中位于所述第一文本框内的区域进行文字识别，获得所述第一文本框对应的第一识别结果；
18.对所述待识别流水图像中位于所述第二文本框内的区域进行文字识别，获得所述第二文本框对应的第二识别结果。
19.可选的，所述通过比对所述第一识别结果和所述第二识别结果获得最终识别结果，包括：
20.比对所述第一识别结果和所述第二识别结果；
21.若所述第一识别结果和所述第二识别结果相同，将所述第一识别结果确定为最终识别结果；
22.若所述第一识别结果和所述第二识别结果不同，对所述第一识别结果进行修正，获得最终识别结果。
23.本技术第二方面提供一种纸质流水文件识别的装置，包括：
24.获取单元，用于获取待识别流水图像；其中，所述待识别流水图像显示有待识别的纸质流水文件；
25.检测单元，用于利用第一目标检测模型检测所述待识别流水图像，获得多个第一文本框，并利用第二目标检测模型检测所述待识别流水图像，获得多个第二文本框；
26.识别单元，用于分别根据所述第一文本框和所述第二文本框进行文字识别，获得所述第一文本框对应的第一识别结果和所述第二文本框对应的第二识别结果；
27.比对单元，用于通过比对所述第一识别结果和所述第二识别结果获得最终识别结果；
28.提取单元，用于从预先构建的模板库中提取和所述最终识别结果匹配的目标流水模板；
29.填充单元，用于将所述最终识别结果填入所述目标流水模板，获得待识别的纸质流水文件对应的电子流水文件。
30.可选的，所述检测单元利用第一目标检测模型检测所述待识别流水图像，获得多个第一文本框时，具体用于：
31.利用基于目标候选区域算法的双阶段目标检测模型检测所述待识别流水图像，获得多个第一文本框；
32.所述检测单元利用第二目标检测模型检测所述待识别流水图像，获得多个第二文本框时，具体用于：
33.利用基于回归方式的单阶段目标检测模型检测所述待识别流水图像，获得多个第二文本框。
34.可选的，所述识别单元分别根据所述第一文本框和所述第二文本框进行文字识别，获得所述第一文本框对应的第一识别结果和所述第二文本框对应的第二识别结果时，具体用于：
35.对所述待识别流水图像中位于所述第一文本框内的区域进行文字识别，获得所述第一文本框对应的第一识别结果；
36.对所述待识别流水图像中位于所述第二文本框内的区域进行文字识别，获得所述第二文本框对应的第二识别结果。
37.可选的，所述比对单元通过比对所述第一识别结果和所述第二识别结果获得最终识别结果时，具体用于：
38.比对所述第一识别结果和所述第二识别结果；
39.若所述第一识别结果和所述第二识别结果相同，将所述第一识别结果确定为最终识别结果；
40.若所述第一识别结果和所述第二识别结果不同，对所述第一识别结果进行修正，获得最终识别结果。
41.本技术第三方面提供一种电子设备，包括存储器和处理器；
42.其中，所述存储器用于存储计算机程序；
43.所述处理器用于执行所述计算机程序，所述计算机程序被执行时，具体用于实现本技术第一方面任意一项所提供的纸质流水文件识别的方法。
44.本技术第四方面提供一种计算机存储介质，用于存储计算机程序，所述计算机程序被执行时，具体用于实现本技术第一方面任意一项所提供的纸质流水文件识别的方法。
45.本技术提供一种纸质流水文件识别的方法、装置、设备和存储介质，可应用于人工智能领域或金融领域，方法包括：获取待识别流水图像；其中，待识别流水图像显示有待识别的纸质流水文件；利用第一目标检测模型检测待识别流水图像，获得多个第一文本框，并利用第二目标检测模型检测待识别流水图像，获得多个第二文本框；分别根据第一文本框和第二文本框进行文字识别，获得第一文本框对应的第一识别结果和第二文本框对应的第二识别结果；通过比对第一识别结果和第二识别结果获得最终识别结果；从预先构建的模板库中提取和最终识别结果匹配的目标流水模板；将最终识别结果填入目标流水模板，获得待识别的纸质流水文件对应的电子流水文件。本方案根据最终识别结果在模板库中找到匹配的目标流水模板并将最终识别结果填入目标流水模板，从而实现了将识别结果的文字转换为具有特定字段结构的电子流水。
附图说明
46.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
47.图1为本技术实施例提供的一种纸质流水文件识别的方法的流程图；
48.图2为本技术实施例提供的一种纸质流水文件识别的装置的示意图；
49.图3为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
50.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
51.银行流水结构化处理工作仍大量依赖人工进行，由于流水记录种类多数量多，导致流水审核花费大量人力和精力以及流水录入过程中造成信息的漏录和错录。根据目前的一些识别技术能够相对准确的识别出流水中的文字信息，但是将文字信息按照流水记录进
行字段结构化仍有困难。
52.针对上述问题，本文提出一种基于深度学习的针对纸质银行流水信息提取的方法，实现对纸质流水记录内容的识别以及结构化提取到导出表格的一站式数据处理，减轻银行信息录入员的工作量、提高数据录入的效率以及减少信息录入的错误率，在一定程度上提高银行此业务的自动化和智能化水平。
53.本发明的技术方案主要包括以下模块：
54.目标检测模型：获取扫描件中文本框位置。
55.文本信息识别模型：获取扫描件中文本框内容。
56.对比匹配模块：两种方案结果对比，获取流水记录。
57.模板库匹配模块：将流水记录与模板库匹配的类型进行结构化提取。
58.本发明的基本原理如下：
59.分别读取银行流水扫描件文件。
60.获取扫描件文本框位置及内容识别结果，包括：
61.采用基于目标候选区域算法的双阶段目标检测模型，因为双阶段目标检测模型在准确度上存在优势；
62.采用基于回归方式的单阶段目标检测模型，因为其不需要产生候选区域，在检测速度上具备优势。
63.对两种方案的结果进行比对，即对两种方案产生的流水记录进行匹配对比，得出最终的识别结果。
64.与模板库进行匹配，提取结构化的流水记录，也就是将最终识别的位置和内容与模板库对比，提取结构化流水记录，并进行表格导出。
65.本发明的有益效果在于：
66.本发明提出一种基于深度学习的纸质银行流水信息提取的方法，采用双阶段目标检测模型和单阶段目标检测模型的双重检测，实现对纸质流水记录内容的识别以及结构化提取到导出表格，可以减轻银行信息录入员的工作量、提高数据录入的效率以及减少信息录入的错误率，一定程度上可以提高银行此业务的自动化水平。
67.下面结合附图对本发明的技术方案进行具体说明。
68.请参见图1，为本技术实施例提供的一种纸质流水文件识别的方法，该方法可以包括如下步骤。
69.s101，获取待识别流水图像。
70.其中，待识别流水图像显示有待识别的纸质流水文件。
71.待识别流水图像，可以由银行职员利用摄像设备拍摄待识别的纸质流水文件得到，或者利用扫描设备(如扫描仪)扫描待识别的纸质流水文件得到。
72.s102，利用第一目标检测模型检测待识别流水图像，获得多个第一文本框，并利用第二目标检测模型检测待识别流水图像，获得多个第二文本框。
73.可选的，利用第一目标检测模型检测待识别流水图像，获得多个第一文本框，包括：
74.利用基于目标候选区域算法的双阶段目标检测模型检测待识别流水图像，获得多个第一文本框；
75.利用第二目标检测模型检测待识别流水图像，获得多个第二文本框，包括：
76.利用基于回归方式的单阶段目标检测模型检测待识别流水图像，获得多个第二文本框。
77.也就是说，第一目标检测模型可以是基于目标候选区域算法的双阶段目标检测模型，该模型在用于检测文本框时，具有较高的准确度。第二目标检测模型可以是基于回归方式的单阶段目标检测模型，该模型在用于检测文本框是具有较快的速度。
78.上述两种目标检测模型的具体架构及其工作原理可以参见相关的现有技术文献。
79.在步骤s102中，第一目标检测模型和第二目标检测模型分别独立地对待识别流水图像进行过检测。即第一目标检测模型检测待识别流水图像，将其中有文字的区域用矩形框标注出来，这些第一目标检测模型输出的矩形框就是第一文本框。
80.同理，第二目标检测模型检测待识别流水图像，将其中有文字的区域用矩形框标注出来，这些第二目标检测模型输出的矩形框就是第二文本框。
81.一般情况下，第一文本框的数量和第二文本框的数量相同，并且位置接近的第一文本框和第二文本框可能有大部分区域重叠，但具体坐标和尺寸可能不同。
82.可选的，第一目标检测模型的训练过程可以是，首先获得多个样本流水图像，然后将这些样本流水图像输入到第一目标检测模型中，获得第一目标检测模型对每一个样本流水图像检测得到的第一文本框，然后针对每一个样本流水图像，将该样本流水图像的第一文本框和预先对该样本流水图像标注得到的标准文本框进行比对，确定两者之间的位置差异和尺寸差异，然后根据多个样本流水图像的位置差异和尺寸差异计算得到第一目标检测模型的损失值，在损失值不满足预设的收敛条件(比如损失值不小于预设的损失阈值)的情况下，根据损失值更新第一目标检测模型内的参数，再次用更新后的第一目标检测模型重复前述过程，直到损失值满足收敛条件为止，此时就获得了训练好的第一目标检测模型。
83.对第二目标检测模型的训练过程和第一目标检测模型的训练过程相同，不再赘述。
84.s103，分别根据第一文本框和第二文本框进行文字识别，获得第一文本框对应的第一识别结果和第二文本框对应的第二识别结果。
85.可选的，分别根据第一文本框和第二文本框进行文字识别，获得第一文本框对应的第一识别结果和第二文本框对应的第二识别结果，包括：
86.对待识别流水图像中位于第一文本框内的区域进行文字识别，获得第一文本框对应的第一识别结果；
87.对待识别流水图像中位于第二文本框内的区域进行文字识别，获得第二文本框对应的第二识别结果。
88.在步骤s103中，针对每一个第一文本框，将该第一文本框内的像素拷贝出来，获得一个第一文本框图像，然后将每一个第一文本框图像依次输入预先训练好的文字识别模型，从而识别出每一个第一文本框图像上显示的文字，这些识别得到的文字就是第一文本框对应的第一识别结果。
89.同理，针对每一个第二文本框，将该第二文本框内的像素拷贝出来，获得一个第二文本框图像，然后将每一个第二文本框图像依次输入预先训练好的文字识别模型，从而识别出每一个第二文本框图像上显示的文字，这些识别得到的文字就是第二文本框对应的第
二识别结果。
90.上述文字识别模型可以是基于任意一种现有模型架构训练得到的神经网络模型，其具体工作原理和结构可以参见相关现有技术文献，不再赘述。
91.需要说明，本实施例中第一识别结果和第二识别结果均可以是通过文字识别获得的多个字符串，每个字符串可以包括汉字和阿拉伯数字。
92.s104，通过比对第一识别结果和第二识别结果获得最终识别结果。
93.可选的，通过比对第一识别结果和第二识别结果获得最终识别结果，包括：
94.比对第一识别结果和第二识别结果；
95.若第一识别结果和第二识别结果相同，将第一识别结果确定为最终识别结果；
96.若第一识别结果和第二识别结果不同，对第一识别结果进行修正，获得最终识别结果。
97.一种对第一识别结果进行修正的方法可以是，再次利用第一目标检测模型对待识别流水图像进行检测，获得第三文本框，然后根据第三文本框对待识别流水图像进行文字识别，获得第三识别结果(具体识别过程参见步骤s104)，最后比对第一识别结果和第三识别结果，以及比对第三识别结果和第二识别结果。
98.如果第一识别结果和第三识别结果一致，则认为第二识别结果出错，将第一识别结果确定为最终识别结果。
99.如果第二识别结果和第三识别结果一致，则认为第一识别结果出错，将第二识别结果确定为最终识别结果。
100.另一种可选的对第一识别结果进行修正的方法可以是：
101.首先根据以往录入的电子流水文件，建立流水常用字数据库，该数据库中包含可能在流水文件中出现的每一个文字。
102.基于该数据库，可以检测第一识别结果中是否有未包含在流水常用字数据库中的文字(称为库外文字)，若第一识别结果包含库外文字，则确定第一识别结果有误，此时可以用和第一识别结果的库外文字最相似的库内文字(即属于流水常用字数据库的文字)替换库外文字，获得修正后的最终识别结果。
103.除上述方法以外，还可以进行人工修正等多种修正方法，本实施例对具体的修正方法不做限定。
104.s105，从预先构建的模板库中提取和最终识别结果匹配的目标流水模板。
105.一种提取匹配的目标流水模板的方法可以是，在最终识别结果中找到表示待识别的纸质流水文件的类型的文字，比如，存款流水单，取款流水单等等。然后根据待识别的纸质流水文件的类型，在模板库中找到该类型适用的流水模板，将该流水模板确定为目标流水模板。
106.另一种提取匹配的目标流水模板的方法可以是，模板库中每一个流水模板均对应的配置有该流水模板的特征信息，特征信息可以包括，该流水模板有几个栏位，每个栏位对填入的内容的限制(如长度限制，格式限制等)，然后在步骤s105中，可以将最终识别结果和模板库内每一流水模板的特征信息比对，如果最终识别结果和某一流水模板的特征信息匹配，就确定该流水模板为目标流水模板。
107.比如，某流水模板的特征信息为包含16个栏位，模板库中其他流水模板的栏位都
少于16个，而最终识别结果中包括16个字符串，那么通过比对可以确定包含16个栏位的这个流水模板为目标流水模板。
108.s106，将最终识别结果填入目标流水模板，获得待识别的纸质流水文件对应的电子流水文件。
109.步骤s106的具体实施方式可以是：
110.首先在历史数据库中找到以往录入的且使用该目标流水模板的参考电子流水文件，然后将最终识别结果中的文字和参考电子流水文件中的文字进行比对，对于目标流水模板中的每一栏位，可以在最终识别结果中找到和参考电子流水文件中该栏位的内容相似的字符串，将找到的字符串填入该栏位。
111.比如，目标流水模板中包括一个地址栏位，在步骤s106中，可以将参考电子文件中地址栏位的内容，和最终识别结果中的字符串进行比对，然后将最终识别结果中和参考电子流水文件中地址栏的内容相似的字符串填入目标模板的地址栏位。例如，参考电子流水文件中地址栏位的内容是xx市yy镇北二路12号，最终识别结果中某个字符串为
“……
市
……
镇
……
路
……
号”，则可以认为该字符串和参考电子流水文件中地址栏的内容相似，将该字符串填入目标模板的地址栏。
112.一方面，本实施例提供的方法分别利用两种目标检测模型来检测文本框，从而获得两种识别结果，并通过比对两种识别结果获得最终识别结果，提高了转换得到的电子流水文件的准确性。
113.另一方面，本实施例提供的方法在预先构建的模板库的基础上，提取最终识别结果匹配的目标流水模板，从而利用目标流水模板实现了文字识别结果向具有特定字段结构的电子流水文件的转换。
114.本技术提供一种纸质流水文件识别的方法，可应用于人工智能领域或金融领域，方法包括：获取待识别流水图像；其中，待识别流水图像显示有待识别的纸质流水文件；利用第一目标检测模型检测待识别流水图像，获得多个第一文本框，并利用第二目标检测模型检测待识别流水图像，获得多个第二文本框；分别根据第一文本框和第二文本框进行文字识别，获得第一文本框对应的第一识别结果和第二文本框对应的第二识别结果；通过比对第一识别结果和第二识别结果获得最终识别结果；从预先构建的模板库中提取和最终识别结果匹配的目标流水模板；将最终识别结果填入目标流水模板，获得待识别的纸质流水文件对应的电子流水文件。本方案根据最终识别结果在模板库中找到匹配的目标流水模板并将最终识别结果填入目标流水模板，从而实现了将识别结果的文字转换为具有特定字段结构的电子流水。
115.根据本技术实施例提供的纸质流水文件识别的方法，本技术实施例还提供一种纸质流水文件识别的装置，请参见图2，该装置可以包括如下单元。
116.获取单元201，用于获取待识别流水图像。
117.其中，待识别流水图像显示有待识别的纸质流水文件。
118.检测单元202，用于利用第一目标检测模型检测待识别流水图像，获得多个第一文本框，并利用第二目标检测模型检测待识别流水图像，获得多个第二文本框。
119.识别单元203，用于分别根据第一文本框和第二文本框进行文字识别，获得第一文本框对应的第一识别结果和第二文本框对应的第二识别结果。
120.比对单元204，用于通过比对第一识别结果和第二识别结果获得最终识别结果。
121.提取单元205，用于从预先构建的模板库中提取和最终识别结果匹配的目标流水模板。
122.填充单元206，用于将最终识别结果填入目标流水模板，获得待识别的纸质流水文件对应的电子流水文件。
123.可选的，检测单元202利用第一目标检测模型检测待识别流水图像，获得多个第一文本框时，具体用于：
124.利用基于目标候选区域算法的双阶段目标检测模型检测待识别流水图像，获得多个第一文本框；
125.检测单元202利用第二目标检测模型检测待识别流水图像，获得多个第二文本框时，具体用于：
126.利用基于回归方式的单阶段目标检测模型检测待识别流水图像，获得多个第二文本框。
127.可选的，识别单元203分别根据第一文本框和第二文本框进行文字识别，获得第一文本框对应的第一识别结果和第二文本框对应的第二识别结果时，具体用于：
128.对待识别流水图像中位于第一文本框内的区域进行文字识别，获得第一文本框对应的第一识别结果；
129.对待识别流水图像中位于第二文本框内的区域进行文字识别，获得第二文本框对应的第二识别结果。
130.可选的，比对单元204通过比对第一识别结果和第二识别结果获得最终识别结果时，具体用于：
131.比对第一识别结果和第二识别结果；
132.若第一识别结果和第二识别结果相同，将第一识别结果确定为最终识别结果；
133.若第一识别结果和第二识别结果不同，对第一识别结果进行修正，获得最终识别结果。
134.本技术实施例提供的纸质流水文件识别的装置，其具体工作原理可以参见本技术任一实施例所提供的纸质流水文件识别的方法中的相关步骤，此处不再赘述。
135.本技术提供一种纸质流水文件识别的装置，可应用于人工智能领域或金融领域，装置包括：获取单元201获取待识别流水图像；其中，待识别流水图像显示有待识别的纸质流水文件；检测单元202利用第一目标检测模型检测待识别流水图像，获得多个第一文本框，并利用第二目标检测模型检测待识别流水图像，获得多个第二文本框；识别单元203分别根据第一文本框和第二文本框进行文字识别，获得第一文本框对应的第一识别结果和第二文本框对应的第二识别结果；比对单元204通过比对第一识别结果和第二识别结果获得最终识别结果；提取单元205从预先构建的模板库中提取和最终识别结果匹配的目标流水模板；填充单元206将最终识别结果填入目标流水模板，获得待识别的纸质流水文件对应的电子流水文件。本方案根据最终识别结果在模板库中找到匹配的目标流水模板并将最终识别结果填入目标流水模板，从而实现了将识别结果的文字转换为具有特定字段结构的电子流水。
136.本技术实施例还提供一种电子设备，请参见图3，包括存储器301和处理器302。
137.其中，存储器301用于存储计算机程序。
138.处理器302用于执行计算机程序，计算机程序被执行时，具体用于实现本技术任一实施例所提供的银行文字识别的方法。
139.本技术实施例还提供一种计算机存储介质，用于存储计算机程序，计算机程序被执行时，具体用于实现本技术任一实施例所提供的银行文字识别的方法。
140.需要说明的是，本发明提供的纸质流水文件识别的方法、装置、设备和存储介质可用于人工智能领域或金融领域。上述仅为示例，并不对本发明提供的纸质流水文件识别的方法、装置、设备和存储介质的应用领域进行限定。
141.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
142.需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
143.专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于虚拟场景的银行投资顾问服务系统的制作方法

纸质流水文件识别的方法、装置、设备和存储介质与流程

相关文献

最热文献