无边框表格复原模型训练方法、装置、计算机设备和介质与流程

2021-12-08 01:05:00 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，特别是涉及一种无边框表格复原模型训练方法、装置、计算机设备和介质。

背景技术：

2.表格内容复原和提取是金融资管行业在科技化转型期经常着力处理的一项任务，该任务意在将文档文件中的表格依照其原有内容及样式还原和复现。现阶段各大企业公开的年度审计报告，募集说明书等报告都含有大量格式纷繁的表格数据，包括边框表格以及无边框表格。
3.在传统方式中，有边框表格遵从常见的数据类型场景，表头和结构相对统一，复原较为简单。而对于无边框表格，由于不同对象(如审计公司)出具的形式各不相同，且无固定表头以及结构，没有统一标准进行复原，从而使得无表框表格的复原难度较大，无表框表格复原处理效率较低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提升无表框表格复原处理效率的无边框表格复原模型训练方法、装置、计算机设备和介质。
5.一种无边框表格复原模型训练方法，所述方法包括：
6.获取原始训练数据，原始训练数据包括文本数据中有边框表格的表格图像以及文本结构信息；
7.识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像；
8.根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据；
9.基于目标训练数据对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
10.在其中一个实施例中，识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像，包括：
11.对表格图像中的各像素点进行识别，确定表格图像中的各表格边框线；
12.基于各表格边框线，确定对应各表格边框线的相邻单元格；
13.获取各相邻单元格中单元格像素点的单元格像素值；
14.基于各单元格像素值，对各表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
15.在其中一个实施例中，确定表格图像中的各表格边框线之后，还包括：
16.判定表格边框线之间是否存在延伸关系；
17.当确定表格边框线之间存在延伸关系时，则确定存在延伸关系的至少两条表格边
框线为同一表格边框线；
18.基于各单元格像素值，对各表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像，包括：
19.基于存在延伸关系的至少两条表格边框线中任一表格边框线对应的相邻单元格的单元格像素值，对确定为同一表格边框线的至少两条表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
20.在其中一个实施例中，基于各单元格像素值，对各表格边框线进行边框线像素值替换，生成对应的无边框表格图像，包括：
21.从表格图像确定的表格边框线中随机确定目标边框线，并基于目标边框线的相邻单元格中单元格像素点的单元格像素值，对目标边框线的各边框线像素点的像素值进行替换，得到无边框表格图像。
22.在其中一个实施例中，获取原始训练数据，包括：
23.获取原始文本数据，原始文本数据中包括有边框表格；
24.对各原始文本数据按照文件页码进行拆分，得到各文本页；
25.对各文本页进行文本标题、文本内容以及文本表格的识别，并确定对应各文本标题、文本内容以及文本表格的坐标位置；
26.基于各坐标位置，建立对应原始文本数据的文本结构信息，并从各文本页中裁减出表格图像；
27.基于表格图像以及文本结构信息，生成原始训练数据。
28.在其中一个实施例中，原始训练数据还包括表格图像中的有边框表格的单元格数量以及各单元格之间的位置索引数据；
29.根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据，包括：
30.基于无边框表格图像、文本结构信息、有边框表格的单元格数量以及各单元格之间的位置索引数据，生成目标训练数据；
31.基于目标训练数据，对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型，包括：
32.通过目标训练数据，对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
33.在其中一个实施例中，上述方法还包括：
34.将表格图像、文本结构信息、无边框表格图像以及目标训练数据中的至少一个上传至区块链节点中进行存储。
35.一种无边框表格复原模型训练装置，所述装置包括：
36.原始训练数据获取模块，用于获取原始训练数据，原始训练数据包括文本数据中有边框表格的表格图像以及文本结构信息；
37.无边框表格图像生成模块，用于识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像；
38.目标训练数据生成模块，用于根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据；
39.训练模块，用于基于目标训练数据对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
40.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。
41.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。
42.上述无边框表格复原模型训练方法、装置、计算机设备和介质，通过获取有边框表格作为初始训练数据，并通过对有边框表格的表格图像进行表格边线的识别以及预处理，生成对应的图边框表格图像，从而可以通过不同类型以及大数据量的有边框表格实现无边框表格的数据量以及表格格式的增强，即得到数据增强后的目标训练数据，使得在基于目标训练数据进行无边框表格复原模型训练的时候，可以提升用于训练模型的训练数据的数量以及表格格式的类型，可以提升训练的无边框表格复原模型的准确性，进而可以提升后续基于训练的无边框表格复原模型进行无边框表格复原的准确性。并且，通过将无边框表格图像与文本结构信息进行组合，并用于进行模型的训练，使得模型的训练过程结合了文本数据的文本结构信息，可以提升表格识别的准确性，进而可以提升复原的准确性。
附图说明
43.图1为一个实施例中无边框表格复原模型训练方法的应用场景图；
44.图2为一个实施例中无边框表格复原模型训练方法的流程示意图；
45.图3为一个实施例中有边框表格的示意图；
46.图4为一个实施例中无边框表格的示意图；
47.图5为一个实施例中无边框表格复原模型训练装置的结构框图；
48.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
49.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
50.本技术提供的无边框表格复原模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以与用户进行交互，并基于用户的指示，进行后续的数据处理。具体地，服务器104在接收到终端102的指示之后，可以获取原始训练数据，原始训练数据包括文本数据中有边框表格的表格图像以及文本结构信息。然后服务器104可以识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像。进一步，服务器104可以根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据，并基于目标训练数据对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
51.在一个实施例中，如图2所示，提供了一种无边框表格复原模型训练方法，以该方
networks)、循环神经网络(rnn，recurrent neural networks)、长短期记忆(lstm，long short term memory)等，本技术对此不作限制。
67.在本实施例中，服务器可以基于用户指示，构建初始复原模型，并通过目标训练数据对初始复原模型进行训练。
68.具体地，服务器可以设置模型的训练参数，并基于训练参数进行初始复原模型的训练，如模型的训练次数、学习率、通过率等。
69.在本实施例中，服务器可以对目标训练数据进行标注，例如，标注文本块等，并基于标注后的目标训练数据进行初始复原模型的训练。
70.在本实施例中，服务器可以将目标训练数据分为训练数据集以测试数据集，训练测试集用于模型的训练，测试训练集用于模型的测试，并在训练以及测试均通过时，得到训练完成的无边框表格复原模型。
71.在本实施例中，服务器可以通过训练完成的无边框表格复原模型对待复原文本数据进行复原处理，待复原文本数据中可以包括无边框表格。
72.具体地，服务器可以将待复原文本数据输入无边框表格复原模型中，通过表格复原模型识别待复原文本数据中各内容的结构，并基于待复原文本数据中无边框表格文本内容，生成对应的统一的标准格式的数据，使得后续服务器可以基于生成的标准格式的数据进行数据分析，并生成对应的报告，如年度审计报告或者是年度评估报告等。
73.上述无边框表格复原模型训练方法中，通过获取有边框表格作为初始训练数据，并通过对有边框表格的表格图像进行表格边线的识别以及预处理，生成对应的图边框表格图像，从而可以通过不同类型以及大数据量的有边框表格实现无边框表格的数据量以及表格格式的增强，即得到数据增强后的目标训练数据，使得在基于目标训练数据进行无边框表格复原模型训练的时候，可以提升用于训练模型的训练数据的数量以及表格格式的类型，可以提升训练的无边框表格复原模型的准确性，进而可以提升后续基于训练的无边框表格复原模型进行无边框表格复原的准确性。并且，通过将无边框表格图像与文本结构信息进行组合，并用于进行模型的训练，使得模型的训练过程结合了文本数据的文本结构信息，可以提升表格识别的准确性，进而可以提升复原的准确性。
74.在其中一个实施例中，识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像，可以包括：对表格图像中的各像素点进行识别，确定表格图像中的各表格边框线；基于各表格边框线，确定对应各表格边框线的相邻单元格；获取各相邻单元格中单元格像素点的单元格像素值；基于各单元格像素值，对各表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
75.在本实施例中，服务器在获取到表格图像之后，可以对各表格图像中的各像素点进行遍历，并通过像素点确定表格图像中的表格边框线。
76.具体地，服务器可以根据像素值相同的像素点之间的对应关系，确定像素点是否为表格边框线，例如，参考图3，横向或者竖向方向上，连续预设数量个(如n个)像素点的像素值不为0，则可以确定该多个像素点为对应表格边框线的像素点，从而确定表格边框线。或者在横向或者纵向方向上，像素值不为0的像素点构成多个矩形区域，且该多个矩形区域相连接，形成闭环，则可以确定该像素值不为0的像素点为表格边框线对应的像素点，如以像素点为单位构成的矩形区域1、2、3、4首尾相连，形成闭环，则以像素点为单位构成的矩形
区域1、2、3、4分别为对应的表格边框线。
77.在本实施例中，服务器在确定各表格边框线之后，可以确定对应各表格边框线的相邻单元各，例如，对于表格边框线1和表格边框线2，则服务器可以确定其对应的相邻单元各为a，对于表格边框线3，其对应的相邻单元格为a和b，而对于表格边框线4，其对应的相邻单元格为a和c。
78.在本实施例中，对于表格边框线1和表格边框线2，服务器可以通过获取相邻单元格a的单元格像素点的单元格像素值，并用于对表格边框线1和表格边框线2的边框线像素点的边框线像素值进行替换。而对于表格边框线3，服务器可以通过获取相邻单元格为a或者是相邻单元格b的单元格像素点的单元格像素值进行替换。同理，对于表格边框线4，服务器可以通过获取相邻单元格为a或者是相邻单元格c的单元格像素点的单元格像素值进行替换。
79.在本实施例中，服务器可以对有边框表格的部分或者是全部表格边框线进行像素点像素值的替换，以生成对应有边框表格的无边框表格，即生成对应表格图像的无边框表格图像。
80.上述实施例中，通过对各像素点进行识别，确定表格边框线以及相邻单元格，然后通过相邻单元格的单元格像素点的单元格像素值对对应的表格边框线的边框线像素点的像素值进行替换，使得在去除表格边框线之后，替换位置的像素值与相邻单元格的单元格像素值一致，可以提升生成的无边框表格的准确性。
81.在其中一个实施例中，确定表格图像中的各表格边框线之后，还可以包括：判定表格边框线之间是否存在延伸关系；当确定表格边框线之间存在延伸关系时，则确定存在延伸关系的至少两条表格边框线为同一表格边框线。
82.在本实施例中，服务器可以根据组成表格边框线的朝向，以及坐标位置，确定各表格边框线的之间是否存在延伸关系。例如，继续参考图3，对于表格边框线1和表格边框线5，均为竖直朝向，且在横向方向上，坐标位置是一致的，则服务器可以确定表格边框线1和表格边框线5之间存在延伸关系。同理，表格边框线2、表格边框线6以及表格边框线7的朝向一致，且竖向坐标一致，可以确定表格边框线2、表格边框线6以及表格边框线7之间存在延伸关系。而对于表格边框线2和表格边框线4，或者表格边框线3和表格边框线1，或者表格边框线3和表格边框线5，虽然他们的朝向是一致的，但是他们在朝向方向的坐标位置不一致，则表格边框线2和表格边框线4，或者表格边框线3和表格边框线1，或者表格边框线3和表格边框线5之间不存在延伸关系。
83.进一步，服务器可以确定存在延伸关系的至少两个表格边框线为同一表格边框线，即可以确定表格边框线1和表格边框线5为同一表格边框线，确定表格边框线2、表格边框线6以及表格边框线7为同一表格边框线。
84.在本实施例中，基于各单元格像素值，对各表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像，可以包括：基于存在延伸关系的至少两条表格边框线中任一表格边框线对应的相邻单元格的单元格像素值，对确定为同一表格边框线的至少两条表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
85.在本实施例中，服务器可以根据存在延伸关系的至少两个表格边框线中任一表格边框线对应的相邻单元格的单元格像素值，对确定为同一表格边框线的至少两个表格边框
线的边框线像素点进行像素值替换。例如，继续参考图3，对于表格边框线1和表格边框线5，服务器可以根据表格边框线1对应的相邻单元格a的单元格像素点的单元格像素值或者是表格边框线5对应的相邻单元格c的单元格像素点的单元格像素值，对表格边框线1和表格边框线5进行同时替换。
86.在其中一个实施例中，服务器可以通过对相邻单元格的单元格像素点的单元格像素值进行比较判定，以确定选取哪一相邻单元格的单元格像素值对表格边框线的边框线像素值进行替换，例如，服务器可以确定像素值小的像素值用于对表格边框线进行替换。
87.在其中一个实施例中，基于各单元格像素值，对各表格边框线进行边框线像素值替换，生成对应的无边框表格图像，可以包括：从表格图像确定的表格边框线中随机确定目标边框线，并基于目标边框线的相邻单元格中单元格像素点的单元格像素值，对目标边框线的各边框线像素点的像素值进行替换，得到无边框表格图像。
88.具体地，服务器在基于单元格像素值，对表格边框线进行像素值替换的时候，可以通过随机算法，从确定的表格边框线中，随机确定随机数量的表格边框线为目标边框线，并根据目标边框线的相邻单元格中单元格像素点的单元格像素值，对目标边框线的各边框线像素点的像素值进行替换，得到无边框表格图像。
89.例如，继续参考图3，服务器通过随机算法，可以确定仅替换表格边框线3或者是仅替换表格边框线1和表格边框线5，或者是替换全部的表格边框线，替换后的无边框表格可以如下图4中的(a)或(b)所示。
90.上述实施例中，通过随机替换部分或者全部表格边框线，使得可以生成种类样式的无边框表格，即生成更多种类样式的无边框表格图像，可以进一步实现无边框表格图像的数据增强，提升后续模型训练的准确性。
91.在其中一个实施例中，获取原始训练数据，可以包括：获取原始文本数据，原始文本数据中包括有边框表格；对各原始文本数据按照文件页码进行拆分，得到各文本页；对各文本页进行文本标题、文本内容以及文本表格的识别，并确定对应各文本标题、文本内容以及文本表格的坐标位置；基于各坐标位置，建立对应原始文本数据的文本结构信息，并从各文本页中裁减出表格图像；基于表格图像以及文本结构信息，生成原始训练数据。
92.其中，文本数据可以是指各种不同格式的文本数据，例如，可以是word或者是pdf文档等。
93.在本实施例中，服务器在获取到文本数据之后，可以将文本数据按照页码进行拆分，生成对应的各文本页。
94.进一步，服务器可以通过ocr识别算法，对各文本页进行识别，并进行定位，以确定各文本页中的各文本标题、文本内容以及表格。
95.在本实施例中，文本标题可以包括多级标题，如一级标题、二级标题、三级标题等，本技术对此不作限制。文本内容是指纯文本内容，如整段的文字内容等。表格是指有边框表格，或者也可以包括无边框表格。
96.在本实施例中，服务器可以基于确定的各文字信息，建立文本机构信息，如多少级标题，文本内容以及表格分别位于哪一级标题下等。
97.在本实施例中，服务器可以根据表格数据的坐标位置，从文本页中裁减出表格图像。例如，服务器可以通过沿表格外延扩展预设像素的边距，并进行裁减，以得到表格图像。
98.在本实施例中，服务器在得到表格图像以及文本结构信息，可以将其进行关联存储，以得到对应的原始训练数据。
99.在其中一个实施例中，原始训练数据还可以包括表格图像中的有边框表格的单元格数量以及各单元格之间的位置索引数据。
100.在本实施例中，服务器获取到的原始训练数据中还可以包括有边框表格的单元格数量以及单元格之间的位置索引输入，继续参考图3，可以包括5个单元格，单元格a、单元格b以及单元格d之间横向相邻，单元格c以及单元格e之间横向相邻，单元格a、单元格b以及单元格d与单元格c和单元格e之间纵向相邻，且单元格c和单元格e部分与单元格b相对应。
101.在本实施例中，单元格之间的位置索引数据也可以是指相对坐标位置数据，如各个单元格的左上坐标与右下坐标，合作是单元格的中心点坐标以及长款坐标等，本技术对此不作限制。
102.在本实施例中，根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据，可以包括：基于无边框表格图像、文本结构信息、有边框表格的单元格数量以及各单元格之间的位置索引数据，生成目标训练数据。
103.在本实施例中，基于目标训练数据，对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型，可以包括：通过目标训练数据，对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
104.进一步，服务器可以将无边框表格图像、所述文本结构信息、所述有边框表格的单元格数量以及各单元格之间的位置索引数据作作为目标训练数据，并用于初始复原模型的训练。
105.在其中一个实施例中，上述方法还可以包括：将表格图像、文本结构信息、无边框表格图像以及目标训练数据中的至少一个上传至区块链节点中进行存储。
106.其中，区块链是指分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(block chain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。
107.具体地，区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
108.在本实施例中，服务器可以将表格图像、文本结构信息、无边框表格图像以及目标训练数据中的一个或者多个数据上传并存储于区块链的节点中，以保证数据的私密性和安全性。
109.上述实施例中，通过将表格图像、文本结构信息、无边框表格图像以及目标训练数据中至少一个上传至区块链并存储于区块链的节点中，从而可以保障存储至区块链节点中数据的私密性，可以提升数据的安全性。
110.在其中一个实施例中，上述数据处理过程可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
111.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
112.应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
113.在一个实施例中，如图5所示，提供了一种无边框表格复原模型训练装置，包括：a模块、b模块和c模块，其中：
114.原始训练数据获取模块100，用于获取原始训练数据，原始训练数据包括文本数据中有边框表格的表格图像以及文本结构信息。
115.无边框表格图像生成模块200，用于识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像。
116.目标训练数据生成模块300，用于根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据。
117.训练模块400，用于基于目标训练数据对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
118.在其中一个实施例中，无边框表格图像生成模块200，可以包括：
119.表格边框线确定子模块，用于对表格图像中的各像素点进行识别，确定表格图像中的各表格边框线。
120.相邻单元格确定子模块，用于基于各表格边框线，确定对应各表格边框线的相邻单元格。
121.单元格像素值获取子模块，用于获取各相邻单元格中单元格像素点的单元格像素值。
122.无边框表格图像生成子模块，用于基于各单元格像素值，对各表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
123.在其中一个实施例中，上述装置还可以包括：
124.判定模块，用于确定表格图像中的各表格边框线之后，判定表格边框线之间是否存在延伸关系；当确定表格边框线之间存在延伸关系时，则确定存在延伸关系的至少两条表格边框线为同一表格边框线。
125.在本实施例中，无边框表格图像生成子模块用于基于存在延伸关系的至少两条表格边框线中任一表格边框线对应的相邻单元格的单元格像素值，对确定为同一表格边框线的至少两条表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
126.在其中一个实施例中，无边框表格图像生成子模块用于从表格图像确定的表格边框线中随机确定目标边框线，并基于目标边框线的相邻单元格中单元格像素点的单元格像素值，对目标边框线的各边框线像素点的像素值进行替换，得到无边框表格图像。
127.在其中一个实施例中，原始训练数据获取模块100，可以包括：
128.原始文本数据获取子模块，用于获取原始文本数据，原始文本数据中包括有边框
表格。
129.文本页生成子模块，用于对各原始文本数据按照文件页码进行拆分，得到各文本页。
130.确定子模块，用于对各文本页进行文本标题、文本内容以及文本表格的识别，并确定对应各文本标题、文本内容以及文本表格的坐标位置。
131.裁减子模块，用于基于各坐标位置，建立对应原始文本数据的文本结构信息，并从各文本页中裁减出表格图像。
132.原始训练数据生成子模块，用于基于表格图像以及文本结构信息，生成原始训练数据。
133.在其中一个实施例中，原始训练数据还可以包括表格图像中的有边框表格的单元格数量以及各单元格之间的位置索引数据。
134.在本实施例中，目标训练数据生成模块300用于基于无边框表格图像、文本结构信息、有边框表格的单元格数量以及各单元格之间的位置索引数据，生成目标训练数据。
135.在本实施例中，训练模块400用于通过目标训练数据，对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
136.在其中一个实施例中，上述装置还可以包括：
137.存储模块，用于将表格图像、文本结构信息、无边框表格图像以及目标训练数据中的至少一个上传至区块链节点中进行存储。
138.关于无边框表格复原模型训练装置的具体限定可以参见上文中对于无边框表格复原模型训练方法的限定，在此不再赘述。上述无边框表格复原模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
139.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储表格图像、文本结构信息、无边框表格图像以及目标训练数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种无边框表格复原模型训练方法。
140.本领域技术人员可以理解，图6中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
141.在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取原始训练数据，原始训练数据包括文本数据中有边框表格的表格图像以及文本结构信息；识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像；根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据；基于
目标训练数据对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
142.在其中一个实施例中，处理器执行计算机程序时实现识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像，可以包括：对表格图像中的各像素点进行识别，确定表格图像中的各表格边框线；基于各表格边框线，确定对应各表格边框线的相邻单元格；获取各相邻单元格中单元格像素点的单元格像素值；基于各单元格像素值，对各表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
143.在其中一个实施例中，处理器执行计算机程序时实现确定表格图像中的各表格边框线之后，还可以实现以下步骤：判定表格边框线之间是否存在延伸关系；当确定表格边框线之间存在延伸关系时，则确定存在延伸关系的至少两条表格边框线为同一表格边框线。
144.在本实施例中，处理器执行计算机程序时实现基于各单元格像素值，对各表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像，可以包括：基于存在延伸关系的至少两条表格边框线中任一表格边框线对应的相邻单元格的单元格像素值，对确定为同一表格边框线的至少两条表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
145.在其中一个实施例中，处理器执行计算机程序时实现基于各单元格像素值，对各表格边框线进行边框线像素值替换，生成对应的无边框表格图像，可以包括：从表格图像确定的表格边框线中随机确定目标边框线，并基于目标边框线的相邻单元格中单元格像素点的单元格像素值，对目标边框线的各边框线像素点的像素值进行替换，得到无边框表格图像。
146.在其中一个实施例中，处理器执行计算机程序时实现获取原始训练数据，可以包括：获取原始文本数据，原始文本数据中包括有边框表格；对各原始文本数据按照文件页码进行拆分，得到各文本页；对各文本页进行文本标题、文本内容以及文本表格的识别，并确定对应各文本标题、文本内容以及文本表格的坐标位置；基于各坐标位置，建立对应原始文本数据的文本结构信息，并从各文本页中裁减出表格图像；基于表格图像以及文本结构信息，生成原始训练数据。
147.在其中一个实施例中，原始训练数据还可以包括表格图像中的有边框表格的单元格数量以及各单元格之间的位置索引数据。
148.在本实施例中，处理器执行计算机程序时实现根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据，可以包括：基于无边框表格图像、文本结构信息、有边框表格的单元格数量以及各单元格之间的位置索引数据，生成目标训练数据。
149.在本实施例中，处理器执行计算机程序时实现基于目标训练数据，对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型，可以包括：通过目标训练数据，对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
150.在其中一个实施例中，处理器执行计算机程序时还可以实现以下步骤：将表格图像、文本结构信息、无边框表格图像以及目标训练数据中的至少一个上传至区块链节点中进行存储。
151.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取原始训练数据，原始训练数据包括文本数据中
有边框表格的表格图像以及文本结构信息；识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像；根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据；基于目标训练数据对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
152.在其中一个实施例中，计算机程序被处理器执行时实现识别表格图像中表格边框线，并对识别到的各表格表框线进行预处理，生成对应有边框表格的表格图像的无边框表格图像，可以包括：对表格图像中的各像素点进行识别，确定表格图像中的各表格边框线；基于各表格边框线，确定对应各表格边框线的相邻单元格；获取各相邻单元格中单元格像素点的单元格像素值；基于各单元格像素值，对各表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
153.在其中一个实施例中，计算机程序被处理器执行时实现确定表格图像中的各表格边框线之后，还可以实现以下步骤：判定表格边框线之间是否存在延伸关系；当确定表格边框线之间存在延伸关系时，则确定存在延伸关系的至少两条表格边框线为同一表格边框线。
154.在本实施例中，计算机程序被处理器执行时实现基于各单元格像素值，对各表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像，可以包括：基于存在延伸关系的至少两条表格边框线中任一表格边框线对应的相邻单元格的单元格像素值，对确定为同一表格边框线的至少两条表格边框线的边框线像素点进行像素值替换，生成对应的无边框表格图像。
155.在其中一个实施例中，计算机程序被处理器执行时实现基于各单元格像素值，对各表格边框线进行边框线像素值替换，生成对应的无边框表格图像，可以包括：从表格图像确定的表格边框线中随机确定目标边框线，并基于目标边框线的相邻单元格中单元格像素点的单元格像素值，对目标边框线的各边框线像素点的像素值进行替换，得到无边框表格图像。
156.在其中一个实施例中，计算机程序被处理器执行时实现获取原始训练数据，可以包括：获取原始文本数据，原始文本数据中包括有边框表格；对各原始文本数据按照文件页码进行拆分，得到各文本页；对各文本页进行文本标题、文本内容以及文本表格的识别，并确定对应各文本标题、文本内容以及文本表格的坐标位置；基于各坐标位置，建立对应原始文本数据的文本结构信息，并从各文本页中裁减出表格图像；基于表格图像以及文本结构信息，生成原始训练数据。
157.在其中一个实施例中，原始训练数据还可以包括表格图像中的有边框表格的单元格数量以及各单元格之间的位置索引数据。
158.在本实施例中，计算机程序被处理器执行时实现根据无边框表格图像以及对应的有边框表格的文本结构信息，生成目标训练数据，可以包括：基于无边框表格图像、文本结构信息、有边框表格的单元格数量以及各单元格之间的位置索引数据，生成目标训练数据。
159.在本实施例中，计算机程序被处理器执行时实现基于目标训练数据，对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型，可以包括：通过目标训练数据，对构建的初始复原模型进行训练，得到训练完成的无边框表格复原模型。
160.在其中一个实施例中，计算机程序被处理器执行时还可以实现以下步骤：将表格
图像、文本结构信息、无边框表格图像以及目标训练数据中的至少一个上传至区块链节点中进行存储。
161.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
162.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
163.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种平面作品处理方法及相关设备与流程

无边框表格复原模型训练方法、装置、计算机设备和介质与流程

相关文献

最热文献