一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种表格定位方法、装置及相关设备与流程

2022-05-26 22:55:57 来源:中国专利 TAG:


1.本技术涉及文档处理技术领域,特别涉及一种表格定位方法,还涉及一种表格定位装置、设备及计算机可读存储介质。


背景技术:

2.随着金融行业pdf文档的海量增长,传统的人工处理方法需要投入大量的时间和精力,已无法满足日常的工作需求。为了提升金融文档的审核效率,金融公司开始走上了智能化道路,尤其是围绕披露型金融文档的电子化和智能化已然成为一种趋势。其中,表格解析是披露型金融文档智能化的一个重要分支,表格解析的流程主要包括表格定位、表格还原以及内容抽取,其中表格定位是其至关重要的第一步。然而,由于表格的设计和类型多种多样,且特征丰富,现有的单一模式的识别方式根本无法有效保证表格的定位精度。
3.因此,如何有效提高文档表格的定位精度是本领域技术人员亟待解决的问题。


技术实现要素:

4.本技术的目的是提供一种表格定位方法,该表格定位方法可以有效提高文档表格的定位精度;本技术的另一目的是提供一种表格定位装置、设备及计算机可读存储介质,均具有上述有益效果。
5.第一方面,本技术提供了一种表格定位方法,包括:
6.获取包含表格信息的样本数据;
7.对所述样本数据进行正负样本均衡处理,获得处理后的样本数据;
8.利用所述处理后的样本数据训练获得表格定位模型;
9.利用所述表格定位模型对待处理文档进行表格定位,获得各表格预测框;
10.利用基于交并比的confluence算法在所有所述表格预测框中筛选获得最优表格预测框。
11.优选的,所述对所述样本数据进行正负样本均衡处理,获得处理后的样本数据,包括:
12.根据所述样本数据生成各预设锚框,并计算各所述预设锚框与真实框的交并比;
13.根据正样本选择公式计算第一交并比阈值,所述正样本选择公式为:
14.iou1=m ln(1-v);
15.其中,所述iou1为所述第一交并比阈值,m表示所述真实框与所述预设锚框的交并比均值,v表示所述真实框与所述预设锚框的交并比方差;
16.将所述交并比超出所述第一交并比阈值的预设锚框作为正样本;
17.将所述交并比不超出所述第一交并比阈值的预设锚框作为负样本。
18.优选的,所述表格定位方法还包括:
19.根据所述样本数据确定各预测框;
20.将与所述真实框中心点距离最近的预设数量个预测框,作为所述正样本。
21.优选的,所述将所述交并比不超出所述第一交并比阈值的预设锚框作为负样本之后,还包括:
22.在所有所述负样本中,将所述交并比超出第二交并比阈值的负样本删除。
23.优选的,所述利用基于交并比的confluence算法在所有所述表格预测框中筛选获得最优表格预测框,包括:
24.基于所有所述表格预测框生成第一预测框集合;
25.在所述第一预测框集合中选中任意一个表格预测框作为第一表格预测框,计算所述第一表格预测框与其他各表格预测框的交并比,并将所述交并比为零的其他表格预测框和所述第一表格预测框删除,获得第二预测框集合;
26.计算所述第一表格预测框与所述第二预测框集合内各表格预测框的置信度加权交并比,并将所述置信度加权交并比超出第一阈值的表格预测框作为所述最优表格预测框;
27.计算所述最优表格预测框与所述第二预测框集合中其他各表格预测框的交并比,并将所述交并比超出第二阈值的其他表格预测框删除,获得第三预测框集合;
28.将所述第一表格预测框从所述第一预测框集合中删除,并返回所述在所述第一预测框集合中选中任意一个表格预测框作为第一表格预测框的步骤,直至所述第一预测框集合为空,获得所有所述最优表格预测框。
29.优选的,所述利用所述处理后的样本数据训练获得表格定位模型,包括:
30.结合involution算法和单级特征检测器构建初始网络模型;
31.利用所述处理后的样本数据对所述初始网络模型进行模型训练,获得预设评价指标低于预设阈值的表格定位模型;其中,所述预设评价指标具体为真实框与预测框的对齐精度。
32.优选的,所述对所述样本数据进行正负样本均衡处理,获得处理后的样本数据之前,还包括:
33.按照表格行列布局对所述样本数据中的表格进行复制操作和删除操作,获得数据增强后的样本数据。
34.第二方面,本技术还公开了一种表格定位装置,包括:
35.样本获取模块,用于获取包含表格信息的样本数据;
36.样本均衡模块,用于对所述样本数据进行正负样本均衡处理,获得处理后的样本数据;
37.模型训练模块,用于利用所述处理后的样本数据训练获得表格定位模型;
38.表格定位模块,用于利用所述表格定位模型对待处理文档进行表格定位,获得各表格预测框;
39.预测框筛选模块,用于利用基于交并比的confluence算法在所有所述表格预测框中筛选获得最优表格预测框。
40.第三方面,本技术还公开了一种表格定位设备,包括:
41.存储器,用于存储计算机程序;
42.处理器,用于执行所述计算机程序时实现如上所述的任一种表格定位方法的步骤。
43.第四方面,本技术还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的任一种表格定位方法的步骤。
44.本技术所提供的一种表格定位方法,包括获取包含表格信息的样本数据;对所述样本数据进行正负样本均衡处理,获得处理后的样本数据;利用所述处理后的样本数据训练获得表格定位模型;利用所述表格定位模型对待处理文档进行表格定位,获得各表格预测框;利用基于交并比的confluence算法在所有所述表格预测框中筛选获得最优表格预测框。
45.应用本技术所提供的技术方案,在获得大量样本数据之后,先对样本数据进行正负样本均衡处理,获得正负样本均衡的高质量样本数据,然后利用这些高质量样本数据进行模型训练,获得具有高精度的表格定位模型,由此,在表格定位过程中,则可以直接利用该表格定位模型从待处理文档中定位到各个表格预测框,最后,再利用基于交并比的confluence算法在所有表格预测框中筛选获得最优表格预测框,实现了从模型预测结果中筛选获得最优结果,进而实现了基于神经网络模型的表格定位,有效地提高了文档表格的定位精度。
46.本技术所提供的一种表格定位装置、设备及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
47.为了更清楚地说明现有技术和本技术实施例中的技术方案,下面将对现有技术和本技术实施例描述中需要使用的附图作简要的介绍。当然,下面有关本技术实施例的附图描述的仅仅是本技术中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本技术的保护范围。
48.图1为本技术所提供的一种表格定位方法的流程示意图;
49.图2为本技术所提供的一种表格定位模型的框架结构图;
50.图3为本技术所提供的一种表格定位模型中dardnet网络的结构示意图;
51.图4为本技术所提供的一种表格定位模型中fpn 网络的结构示意图;
52.图5为本技术所提供的一种表格数据增强方法的示意图;
53.图6为本技术所提供的一种表格定位装置的结构示意图;
54.图7为本技术所提供的一种表格定位设备的结构示意图。
具体实施方式
55.本技术的核心是提供一种表格定位方法,该表格定位方法可以有效提高文档表格的定位精度;本技术的另一核心是提供一种表格定位装置、设备及计算机可读存储介质,也具有上述有益效果。
56.为了对本技术实施例中的技术方案进行更加清楚、完整地描述,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行介绍。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员
在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
57.本技术实施例提供了一种表格定位方法。
58.请参考图1,图1为本技术所提供的一种表格定位方法的流程示意图,该表格定位方法可包括:
59.s101:获取包含表格信息的样本数据。
60.本步骤旨在实现样本数据的获取,由于本技术所提供的技术方案旨在实现表格定位,因此,该样本数据为包含有表格信息的样本数据。可以理解的是,该样本数据用于实现模型训练,以训练得到用于实现表格定位的神经网络模型,因此,为实现模型训练,该样本数据应当包括正样本数据和负样本数据。
61.当然,样本数据的获取方式并不唯一,可以通过大量的文档采集实现,本技术对此不做限定。可以想到的是,样本数据的数量越多,越有助于实现更为准确的模型训练,从而获得精度更高的神经网络模型,进一步提高表格定位精度。
62.s102:对样本数据进行正负样本均衡处理,获得处理后的样本数据。
63.本步骤旨在实现正负样本的均衡处理,以有效保证样本数据中正样本和负样本的均衡性,从而有效提高模型精度。可以理解的是,此处进行正负样本均衡处理,具体是指将样本数据中的正样本数据和负样本数据达到数量均衡的状态,例如,当正样本数据数量较多,而负样本数据数量较少时,则可以增加负样本数据数量;当正样本数据数量较少,而负样本数据数量较多时,则可以增加正样本数据数量。
64.其中,正负样本均衡处理的具体实现方式并不唯一,可达到正负样本均衡即可,本技术对此不做限定,例如,可以采用atss(adaptive training sample selection,一种自适应的训练样本选择方法)算法实现。
65.s103:利用处理后的样本数据训练获得表格定位模型;
66.本步骤旨在实现模型训练,以获得表格定位模型,该表格定位模型则用于实现表格预测,进而实现表格预测框的获取。具体而言,在获得正负样本均衡处理的样本数据的基础上,即可利用这些高质量样本数据进行模型训练,获得满足要求的表格定位模型。可以理解的是,表格定位模型的具体类型并不影响本技术方案的实施,可实现表格预测即可,例如,可以为基于involution算法的神经网络模型等,本技术对此不做限定。此外,表格定位模型的训练过程参照已有技术即可,本技术在此不再赘述。
67.s104:利用表格定位模型对待处理文档进行表格定位,获得各表格预测框;
68.本步骤旨在利用表格定位模型实现表格定位,以从待处理文档中预测得到各个表格预测框。其中,待处理文档即为需要进行表格定位的文档,其具体类型并不影响本技术方案的实施,本技术对此不做限定,例如,可以为pdf文档、word文档等。当然,待处理文档的来源也不唯一,可以由用户直接输入,也可以根据用户指令从网络中下载得到,本技术对此同样不做限定。具体而言,获取到待处理文档之后,即可将其输入至表格定位模型,模型输出即为待处理文档中的各表格预测框。
69.s105:利用基于交并比的confluence算法在所有表格预测框中筛选获得最优表格预测框。
70.本步骤旨在实现表格预测框筛选,以从表格定位模型输出的所有表格预测框中筛选得到最优表格预测框,由此,实现了从模型预测结果中筛选获得最优结果,可以有效保证
表格定位结果的准确性。可以理解的是,对于一份待处理文档而言,其中所包含的表格的数量由文档内容所决定,也就是说,待处理文档中实际所包含的表格的数量是不唯一的,在此基础上,在进行最优表格预测框筛选时,其所获得的最优表格预测框的数量也是不唯一的。
71.其中,最优表格预测框的筛选过程可以利用基于交并比的confluence算法实现。具体而言,confluence算法提出使用曼哈顿距离来衡量两组边界框的重叠程度,公式定义为:
[0072][0073][0074][0075]
其中,p
(i,j)
表示两组边界框(边界框i和边界框j)的重叠程度,mh表示曼哈顿距离,iu表示边界框i的左上角坐标(x1,y1),jv表示边界框j的左上角坐标(p1,q1),im表示边界框i的右下角坐标(x2,y2),jn表示边界框j的右下角坐标(p2,q2)。
[0076]
但是,由于confluence算法中归一化的边界框对经p
i,j
<2的过滤后仍存在离群框,可能会影响群内最优边界框的选择。confluence中边界框对的所有坐标进行最大最小归一化后均坐落在(0,1)之间,confluence算法认为p
i,j
<2的边界框对是相交的,然而,在特殊情况下,存在p
i,j
<2的边界框对不相交的情况。有基于此,由于披露型文档表格不存在重叠的情况,confluence 算法选择引入iou(交并比)替换曼哈顿距离来解决confluence算法的上述离群点的问题,即采用基于交并比的confluence算法进行模型训练。
[0077]
可以理解的是,基于交并比的confluence算法的优势如下:一方面,其可以有效保证筛选后的集群簇中的边界框对之间是两两相交的关系,提升了边界框的一致性,同时又删除了归一化操作,精简了后处理算法;另一方面,该算法不再单一依赖置信度分数,而是采用置信度加权iou值来选择最优边界框,可以有效减少假阳性,提升检测准确率。
[0078]
需要说明的是,上述s101~s103为表格定位模型的获取过程,该过程只需执行一次,在实际应用过程中,直接调用训练好的表格定位模型对待处理文档进行处理即可,其中,训练好的表格定位模型可预存于相应的存储空间,以便直接调用。当然,为有效保证模型精度,保证表格定位结果的准确性,还可以定时/不定时对模型进行优化处理。
[0079]
可见,本技术所提供的表格定位方法,在获得大量样本数据之后,先对样本数据进行正负样本均衡处理,获得正负样本均衡的高质量样本数据,然后利用这些高质量样本数据进行模型训练,获得具有高精度的表格定位模型,由此,在表格定位过程中,则可以直接利用该表格定位模型从待处理文档中定位到各个表格预测框,最后,再利用基于交并比的confluence算法在所有表格预测框中筛选获得最优表格预测框,实现了从模型预测结果中筛选获得最优结果,进而实现了基于神经网络模型的表格定位,有效地提高了文档表格的定位精度。
[0080]
在本技术的一个实施例中,上述对样本数据进行正负样本均衡处理,获得处理后的样本数据,可以包括:根据样本数据生成各预设锚框,并计算各预设锚框与真实框的交并比;根据正样本选择公式计算第一交并比阈值,正样本选择公式为:
[0081]
iou1=m ln(1-v);
[0082]
其中,iou1为第一交并比阈值,m表示真实框与预设锚框的交并比均值,v表示真实
框与预设锚框的交并比方差;
[0083]
将交并比超出第一交并比阈值的预设锚框作为正样本;将交并比不超出第一交并比阈值的预设锚框作为负样本。
[0084]
本技术实施例提供了一种正负样本均衡处理的实现方法。如上所述,可以采用atss算法实现正负样本均衡处理,atss算法可以根据不同特征层上预设锚框与真实框的iou值来计算均值与标准差之和,作为选择正样本的iou阈值,将iou大于该阈值的预设锚框选为正样本,剩余的预设锚框设置为负样本;再设置负样本的iou阈值,将iou大于阈值的预测锚框改为忽略样本。可见,atss算法不需要指定阈值进行判定,而是通过动态自动生成阈值来选择正样本,在一定程度上实现了自适应均衡样本的功能。
[0085]
然而,当真实框与预设锚框的iou值极度不均衡时,会因为均值与标准差之和过大,导致没有预设锚框满足条件。有基于此,为了进一步提升正样本数量,可以对atss算法进行优化,提出上述改进后的正样本选择公式,该公式相较于优化前的公式更为平滑,能够更好处理iou值分布不均衡的情况,从而更好地选择不同特征层上的正样本。
[0086]
由此,在基于样本数据确定各预设锚框,并计算获得各预设锚框与真实框的iou之后,即可基于上述公式计算获得第一交并比阈值,该第一交并比阈值即为用于选择正样本数据的iou阈值,进一步,当预设锚框与真实框的iou超出第一交并比阈值时,即可将该预设锚框作为正样本,当预设锚框与真实框的iou不超出第一交并比阈值时,即可将该预设锚框作为负样本。
[0087]
在本技术的一个实施例中,该表格定位方法还可以包括:根据样本数据确定各预测框;将与真实框中心点距离最近的预设数量个预测框,作为正样本。
[0088]
在经过上一实施例对样本数据进行正负样本均衡处理之后,负样本数据数量仍然远远大于正样本数据,因此,可以对正样本数据进行扩充,以获得更多数量的正样本数据。具体的,可以先确定样本数据中的各预测框,然后计算各预测框中心点与真实框中心点之间的距离,最后将距离最近的一定数量个预测框作为正样本,以进一步增加正样本数量。可以理解的是,中心点距离越近,预测框为真实框的可能性越大。
[0089]
在本技术的一个实施例中,上述将交并比不超出第一交并比阈值的预设锚框作为负样本之后,还可以包括:在所有负样本中,将交并比超出第二交并比阈值的负样本删除。
[0090]
除对正样本数据进行扩充,获得更多数量的正样本数据外,还可以参照上述atss算法,对负样本数据进行筛选,以减少负样本数量,以达到正负样本均衡。具体的,在将交并比不超出第一交并比阈值的预设锚框作为负样本之后,在所有的负样本中,还可以进一步设置第二交并比阈值,即用于筛选负样本的iou阈值,然后将交并比超出该第二交并比阈值的负样本删除,即上述将交并比超出该第二交并比阈值的负样本修改为忽略样本,以达到减少负样本数量、提高负样本质量的目的。
[0091]
此外,第一交并比阈值与第二交并比阈值的具体取值并不影响本技术方案的实施,由技术人员根据实际情况进行设定即可,本技术对此不做限定。
[0092]
在本技术的一个实施例中,上述利用基于交并比的confluence算法在所有表格预测框中筛选获得最优表格预测框,可以包括:基于所有表格预测框生成第一预测框集合;在第一预测框集合中选中任意一个表格预测框作为第一表格预测框,计算第一表格预测框与其他各表格预测框的交并比,并将交并比为零的其他表格预测框和第一表格预测框删除,
获得第二预测框集合;计算第一表格预测框与第二预测框集合内各表格预测框的置信度加权交并比,并将置信度加权交并比超出第一阈值的表格预测框作为最优表格预测框;计算最优表格预测框与第二预测框集合中其他各表格预测框的交并比,并将交并比超出第二阈值的其他表格预测框删除,获得第三预测框集合;将第一表格预测框从第一预测框集合中删除,并返回在第一预测框集合中选中任意一个表格预测框作为第一表格预测框的步骤,直至第一预测框集合为空,获得所有最优表格预测框。
[0093]
本技术实施例提供了一种最优表格预测框的筛选方法。具体而言,在基于表格定位模型获得待处理文档中的各个表格预测框之后,基于这些表格预测框生成一个预测框集合,即上述第一预测框集合,假设第一预测框集合为b={b1,b2,...,bn},对第一预测框集合进行遍历,从中选中任意一个表格预测框bi作为第一表格预测框,并对每组(bi,bj)(j取值1~n且j≠i)计算iou
i,j
值,将iou
i,j
为0的表格预测框删除,并将第一表格预测框bi剔除后获得初次筛选后的预测框集合,即上述第二预设框集合;进一步,假设第二预设框集合为b',对于第二预设框集合b'中的每一个预测框,计算其与第一表格预测框bi的置信度加权交并比,置信度加权交并比计算公式为:
[0094][0095][0096]
其中,(bi,bj)表示两组预测框,c表示置信度分数,wp
(i,j)
表示置信度加权交并比。
[0097]
由此,在获得各置信度加权交并比之后,将其与预先设定的阈值,即上述第一阈值进行比较,如若超出该第一阈值,则可以将其对应的表格预测框(第二预设框集合b'之内的表格预测框,非第一表格预测框)视为“最优”表格预测框。在此基础上,计算该最优表格预测框与第二预测框集合b'中其他各表格预测框的交并比,并将所述交并比超出第二阈值的其他表格预测框删除,以实现移除与最优表格预测框高度重合的其它表格预测框,获得第三预测框集合。进一步,将第一表格预测框从第一预测框集合中删除,并重新在删除第一表格预测框的第一预测框集合中重新选择任意一个表格预测框作为新的第一表格预测框,重复执行上述步骤,直至遍历完第一预测框集合,即第一预测框集合为空时,获得所有最优表格预测框。
[0098]
同样的,第一阈值与第二阈值的具体取值并不影响本技术方案的实施,由技术人员根据实际情况进行设定即可,本技术对此不做限定。
[0099]
在本技术的一个实施例中,上述利用处理后的样本数据训练获得表格定位模型,可以包括:结合involution算法和单级特征检测器构建初始网络模型;利用处理后的样本数据对初始网络模型进行模型训练,获得预设评价指标低于预设阈值的表格定位模型;其中,预设评价指标具体为真实框与预测框的对齐精度。
[0100]
本技术实施例提供了一种具体类型的表格定位模型,即基于involution算法和单级特征检测器的表格定位模型。具体而言,首先利用involution算法和单级特征检测器构建初始网络模型,然后利用上述样本均衡处理之后的高质量样本数据对该初始网络模型进行训练,结合预先设定的评价指标,得到满足要求的表格定位模型,即上述预设评价指标低于预设阈值的表格定位模型。
[0101]
在此基础上,本技术实施例提供了一种具体框架结构的表格定位模型。请参考图2,图2为本技术所提供的一种表格定位模型的框架结构图,该网络结构具体内容如下:
[0102]
1、backbone部分(主干网络):
[0103]
在表格检测任务中,除了线条和文字的基本特征外,还有表格的行列关系、缩进、单元格底色等重要特征。然而,传统的卷积具有空间不变性,该性质剥夺了卷积核对不同空间位置的不同视觉信息的学习能力。为了能够充分提取表格空间布局特征,可以在主干网络中引入了involution算子(一种神经网络算子),并提出dardnet网络。如图3所示,图3为本技术所提供的一种表格定位模型中dardnet网络的结构示意图,dardnet网络的结构由两部分组成,分别为dardnnet conv(dardnet卷积模块)和involution residual(involution残差模块),其中,dardnnet conv是由一个7*7involution算子、2个3*3卷积、一个batchnorm(正则化层)和relu(激活函数)组成,involution residual是由5个由残差模块组成,其中的残差模块由2个7*7involution算子和1个1*1卷积组成。
[0104]
由于involution是通过对单个特征点像素进行卷积生成involution kernel(involution卷积核),从而学习到表格的空间布局特征。involution产生involution卷积核内核的过程与self-attention(自注意力)具有一定的联系性,其能够使得感兴趣像素与周围像素进行交互,能够捕捉到长距离关系。此外,involution在通道间进行卷积核参数共享的性质,使得其具备使用大卷积核的可能性,从而提升模型的感受野,学习到更多的上下文信息,获取到表格的整体布局信息。
[0105]
2、neck部分(在主干网络与预测层之间的部分):
[0106]
由于披露型文档的表格属于中大型目标,32倍下采样的特征图足够用于表格检测。因此,可以选择采用单级特征检测器的特征图金字塔结构网络fpn ,输入为32倍下采样的特征图,输出为13*13检测层,从而简化网络结构,加快了模型收敛速度。如图4所示,图4为本技术所提供的一种表格定位模型中fpn 网络的结构示意图,为了在提升速度的同时保证检测效果,fpns 采用了膨胀残差模块,网络主要包含两个组块为:project层(投影层)和dialated residual块(空洞残差模块),其中,project层是由一个1x1和一个3x3的卷积层组成;dialated residual块是由5个膨胀率不同的残差块组成。
[0107]
进一步,对于表格定位模型而言,其损失函数主要由边界框回归损失函数、分类损失函数和置信度损失函数组成。其中,边界框回归损失函数可以选择giouloss,这是因为坐标l2范数对边界框的尺度比较敏感,例如,当大尺度预测框的坐标l2范数和小尺度预测框的坐标l2范数相等时,二者对应的iou却可能相差很大,而giou不仅可以反映预测框与真实框无交集时的真实距离,而且可以优化iou损失函数梯度为零的问题,其公式如下:
[0108][0109]
其中,a和b分别表示两个框,c表示a框和b框的并集,a∪b表示a框和b框的交集。
[0110]
那么,基于giou的边界框回归损失函数为:
[0111]
l
giou
=λ
coord
(1-giou);
[0112]
λ
coord
=2-twth;
[0113]
其中,l
giou
表示基于giou的边界框回归损失函数,giou表示一种重叠度衡量指标,tw和th分别表示模型预测的特征图的宽和高,λ
coord
表示边界框回归损失函数的权重系数。
[0114]
由于λ
coord
=2-twth,那么,当tw*th越小,权重系数越大,对应的小目标框的回归损失函数越大,该权重系数可以通过提升小目标框的回归损失值来提升小目标框的占比。
[0115]
然而,在披露型文档的表格检测任务中,主要是对中大型目标框进行检测。为了提升大目标框的权重比率,降低小目标框的权重比率,可以采用新的权重系数那么,最终的边界框回归损失函数为:
[0116][0117]
除此之外,上述预先设定评价指标是为有效保证模型精度而设定,用以训练获得评价指标满足预设条件的表格定位模型,其中,该预设评价指标具体可以为真实框与预测框的对齐精度。可以理解的是,与目标检测任务不同,表格检测需要精确的边界分割,因此表格数据对预测框的边界拟合程度较为关注。在此基础上,为了更精确地测量表格边界的拟合程度,可以选择引入eob评价指标(一种模型评价指标),其原理在于计算目标框与预测框对齐的精确度,计算公式如下:
[0118][0119]
其中,i和j分别表示预测框和真实框,表示真实框的左上角坐标,表示真实框的右下角坐标,表示预测框的左上角坐标,表示预测框的右下角坐标。
[0120]
在本技术的一个实施例中,上述对样本数据进行正负样本均衡处理,获得处理后的样本数据之前,还可以包括:按照表格行列布局对样本数据中的表格进行复制操作和删除操作,获得数据增强后的样本数据。
[0121]
可以理解的是,在目标检测任务中,大数据集可以训练出泛化能力更强的网络,得到识别精度更高的模型,能更好的适用于应用场景。由于人力标注的成本较大,相关技术通常会采用数据增强来扩充数据集,从而提升模型的精度,标准的数据增强方法有旋转、缩放、增加对比度等。然而,对于表格数据集而言,标准数据增强没有考虑到表格中行列的布局,无法产生具有代表性的数据,甚至会导致模型性能的下降。因此,针对标准数据增强技术对表格数据集无效的问题,可以采用一种基于表格的数据增强方法,如图5所示,图5为本技术所提供的一种表格数据增强方法的示意图,该方法可以对表格的行列进行复制、删除操作,既可以改变表格的局部结构,又可以维持表格的整体布局,从而获取到大量有效的增广数据。
[0122]
当然,上述复制操作和删除操作的数据增强方式仅为本技术实施例所提供的一种实现形式,并不唯一,还可以采用其他方式实现,可实现样本数据的扩充即可,本技术对此不做限定。
[0123]
本技术还提供了一种表格定位装置,请参考图6,图6为本技术所提供的一种表格定位装置的结构示意图,该表格定位装置可包括:
[0124]
样本获取模块1,用于获取包含表格信息的样本数据;
[0125]
样本均衡模块2,用于对样本数据进行正负样本均衡处理,获得处理后的样本数据;
[0126]
模型训练模块3,用于利用处理后的样本数据训练获得表格定位模型;
[0127]
表格定位模块4,用于利用表格定位模型对待处理文档进行表格定位,获得各表格预测框;
[0128]
预测框筛选模块5,用于利用基于交并比的confluence算法在所有表格预测框中筛选获得最优表格预测框。
[0129]
可见,本技术实施例所提供的表格定位装置,在获得大量样本数据之后,先对样本数据进行正负样本均衡处理,获得正负样本均衡的高质量样本数据,然后利用这些高质量样本数据进行模型训练,获得具有高精度的表格定位模型,由此,在表格定位过程中,则可以直接利用该表格定位模型从待处理文档中定位到各个表格预测框,最后,再利用基于交并比的confluence算法在所有表格预测框中筛选获得最优表格预测框,实现了从模型预测结果中筛选获得最优结果,进而实现了基于神经网络模型的表格定位,有效地提高了文档表格的定位精度。
[0130]
在本技术的一个实施例中,上述样本均衡模块2可具体用于根据样本数据生成各预设锚框,并计算各预设锚框与真实框的交并比;根据正样本选择公式计算第一交并比阈值,正样本选择公式为:
[0131]
iou1=m ln(1-v);
[0132]
其中,iou1为第一交并比阈值,m表示真实框与预设锚框的交并比均值,v表示真实框与预设锚框的交并比方差;
[0133]
将交并比超出第一交并比阈值的预设锚框作为正样本;将交并比不超出第一交并比阈值的预设锚框作为负样本。
[0134]
在本技术的一个实施例中,上述样本均衡模块2还可用于根据样本数据确定各预测框;将与真实框中心点距离最近的预设数量个预测框,作为正样本。
[0135]
在本技术的一个实施例中,上述样本均衡模块2还可用于在上述将交并比不超出第一交并比阈值的预设锚框作为负样本之后,在所有负样本中,将交并比超出第二交并比阈值的负样本删除。
[0136]
在本技术的一个实施例中,上述预测框筛选模块5可具体用于基于所有表格预测框生成第一预测框集合;在第一预测框集合中选中任意一个表格预测框作为第一表格预测框,计算第一表格预测框与其他各表格预测框的交并比,并将交并比为零的其他表格预测框和第一表格预测框删除,获得第二预测框集合;计算第一表格预测框与第二预测框集合内各表格预测框的置信度加权交并比,并将置信度加权交并比超出第一阈值的表格预测框作为最优表格预测框;计算最优表格预测框与第二预测框集合中其他各表格预测框的交并比,并将交并比超出第二阈值的其他表格预测框删除,获得第三预测框集合;将第一表格预测框从第一预测框集合中删除,并返回在第一预测框集合中选中任意一个表格预测框作为第一表格预测框的步骤,直至第一预测框集合为空,获得所有最优表格预测框。
[0137]
在本技术的一个实施例中,上述模型训练模块3可具体用于结合involution算法和单级特征检测器构建初始网络模型;利用处理后的样本数据对初始网络模型进行模型训练,获得预设评价指标低于预设阈值的表格定位模型;其中,预设评价指标具体为真实框与预测框的对齐精度。
[0138]
在本技术的一个实施例中,该表格定位装置还可包括样本增强模块,用于在上述对样本数据进行正负样本均衡处理,获得处理后的样本数据之前,按照表格行列布局对样
本数据中的表格进行复制操作和删除操作,获得数据增强后的样本数据。
[0139]
对于本技术提供的装置的介绍请参照上述方法实施例,本技术在此不做赘述。
[0140]
本技术还提供了一种表格定位设备,请参考图7,图7为本技术所提供的一种表格定位设备的结构示意图,该表格定位设备可包括:
[0141]
存储器,用于存储计算机程序;
[0142]
处理器,用于执行计算机程序时可实现如上述任意一种表格定位方法的步骤。
[0143]
如图7所示,为表格定位设备的组成结构示意图,表格定位设备可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
[0144]
在本技术实施例中,处理器10可以为中央处理器(central processing unit,cpu)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
[0145]
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行表格定位方法的实施例中的操作。
[0146]
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本技术实施例中,存储器11中至少存储有用于实现以下功能的程序:
[0147]
获取包含表格信息的样本数据;
[0148]
对样本数据进行正负样本均衡处理,获得处理后的样本数据;
[0149]
利用处理后的样本数据训练获得表格定位模型;
[0150]
利用表格定位模型对待处理文档进行表格定位,获得各表格预测框;
[0151]
利用基于交并比的confluence算法在所有表格预测框中筛选获得最优表格预测框。
[0152]
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能所需的应用程序等;存储数据区可存储使用过程中所创建的数据。
[0153]
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
[0154]
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
[0155]
当然,需要说明的是,图7所示的结构并不构成对本技术实施例中表格定位设备的限定,在实际应用中表格定位设备可以包括比图7所示的更多或更少的部件,或者组合某些部件。
[0156]
本技术还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上述任意一种表格定位方法的步骤。
[0157]
该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0158]
对于本技术提供的计算机可读存储介质的介绍请参照上述方法实施例,本技术在此不做赘述。
[0159]
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0160]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0161]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom或技术领域内所公知的任意其它形式的存储介质中。
[0162]
以上对本技术所提供的技术方案进行了详细介绍。本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献