一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种对地震采集数据表格的表格线检测方法及装置与流程

2022-05-17 21:35:18 来源:中国专利 TAG:


1.本发明属于地震采集数据表格图像的智能识别技术领域,更具体地,涉及一种对地震采集数据表格的表格线检测方法及装置。


背景技术:

2.近年来,地球物理勘探行业和野外地震采集技术一直在快速发展,计算机信息技术在野外地震采集过程中的应用也越来越广泛,在野外施工采集的钻井数据资料,需要由操作员手动的将数据输入电子表格中,以便后续的研究人员对采集的数据资料进行分析处理。但是,随着地震采集规模的不断扩大,采集数据量的不断增长,手动录入数据的方式弊端日益显现,人工手动录入方式的效率低下且错误率高,严重影响后续的生产效率;为了解决这种地震采集数据管理与生产应用脱节的问题,对地震采集数据表格图像的自动识别录入是一个非常有效的解决方法,而表格线的检测是表格图像自动识别录入的关键。
3.表格线将整个表格图像划分为不同区域,是图像版面分析与识别信息结构化处理的重要依据,因此对表格线检测的研究具有非常重要的意义。
4.目前,对表格图像进行表格线的检测通常采用基于游程平滑的表格线检测方法和基于数学形态学的表格线检测方法,基于游程平滑的表格线检测算法在提取直线时容易受到非表格区域直线的干扰,导致提取过多的无用信息,基于数学形态学的表格线检测的方法效果较好,数学形态学中的结构元素的选取对表格线提取具有关键性的作用,直接影响检测结果的好坏,通用的数学形态学方法的结构元素是由表格中单个文字的宽度和高度决定的,但是,由于表格内容是手工记录的文字,存在粘连等问题,计算单个文字的宽度和高度存在较大的误差,这样粗略的选择容易产生错检,造成后续的单元格内容提取不准确。


技术实现要素:

5.有鉴于此,本发明提供了一种对地震采集数据表格的表格线检测方法,至少解决现有技术中在采用基于数学形态学的表格线检测方法过程中,在计算单个文字的宽度和高度存在较大的误差,粗略的选择容易造成表格线的错检,造成后续的单元格内容提取不准确的技术问题。
6.第一方面,本发明实施例提供了一种对地震采集数据表格的表格线检测方法,包括:
7.获取钻井数据的表格图像a;
8.对所述表格图像a进行预处理,获取表格图像b;
9.对所述表格图像b进行图像投影运算,获取投影值;
10.将所述投影值通过划分作用域划分为纵向作用域和横向作用域;
11.对所述纵向作用域和横向作用域通过数学形态学运算分别获取水平表格线图像c和竖直表格线图像d;
12.将所述水平表格线图像c和所述竖直表格线图像d相加得到表格线图像e;
13.对所述表格线图像e的干扰线进行处理,获取表格线图像f。
14.可选地,对所述表格图像a预处理,获取表格图像b,包括:
15.将所述表格图像a进行灰度化和二值化处理,得到第一图像,对所述第一图像进行去噪和倾斜矫正,获取所述表格图像b。
16.可选地,对所述表格图像b进行图像投影运算,获取投影值,包括:将所述表格图像b进行二值化处理得到第二图像,计算所述第二图像的横向和纵向的投影值。
17.可选地,将所述投影值通过划分作用域划分为纵向作用域和横向作用域,包括:
18.所述投影值得到每列单元格的长度和每行单元格的宽度,将每列单元格长度划分多个纵向作用域并将每行单元格的宽度划分多个横向作用域。
19.可选地,对所述纵向作用域和横向作用域通过数学形态学运算分别获取水平表格线图像c和竖直表格线图像d,包括:
20.对所述纵向作用域进行自适应选择结构元素的数学形态学闭运算,获取所述水平表格线图像c;对所述横向作用域进行自适应选择结构元素的数学形态学闭运算,获取所述竖直表格图像d;
21.其中,所述纵向作用域通过所述自适应选择结构元素的数学形态学闭运算获取具有水平表格线图像c的计算公式为:
22.x_i=αh_i
23.其中,x_i是每行的结构元素取值,α的取值是0.8~0.9,h_i是第i列单元格的长度。
24.可选地,对所述表格线图像e的干扰线进行处理,获取表格线图像f,包括:
25.对所述表格线图像e中部分黑色区域进行填充,白色区域进行剔除,并基于数学形态学运算的方法对所述表格线图像e中的水平线和竖直线进行检测,获取干扰线,对所述干扰线进行去除,获取表格线图像f。
26.可选地,对所述第一图像进行去噪和倾斜矫正,获取表格图像b,包括:
27.对所述第一图像运用中值滤波算法,在去噪的同时保存表格线的边缘信息;
28.对去噪后的所述第一图像采用canny的边缘检测方法进行图像边缘信息的提取;
29.运用轮廓的检测方法,获取表格框的轮廓区域;
30.获取表格框的矩形与水平线角度,将所述表格框根据角度进行旋转,获取表格图像b。
31.可选地,所述划分纵向作用域,包括:
32.根据所述纵向的投影值,对每列的投影值进行排序,获取n个纵向表格线;
33.根据每个纵向表格线的投影值,在一定邻域位置范围内找出所述投影值在一定阈值范围内的点,这些相邻点构成每个纵向表格线的宽度;
34.根据表格线的位置和表格线的宽度计算每列单元格长度;
35.根据所述每列单元格长度划分所述纵向作用域;
36.其中,计算每列单元格长度的计算公式为:
37.tw_i=d_i-d_(i-1)-w_i
38.其中,tw_i是第i列单元格长度,d_i是该列表格线的最后一个像素点位置,d_(i-1)是前一列表格线的最后一个像素点,w_i是当前表格线的宽度。
39.可选地,所述干扰线的去除,包括:
40.计算所述表格线图像e中黑色连通域像素点的个数,小于设定的阈值,则进行白色填充;计算白色连通域像素点的数量,小于设定的阈值,则进行剔除;
41.对所述表格线图像e进行腐蚀操作,获取表格线图像f;
42.其中,去除水平干扰线的腐蚀计算的公式为:
[0043][0044]
其中,代表腐蚀运算,k是复合结构元素,k=[k1,k2],令k1为1*3且数据元全是1的结构元素,k2是对应横向作用域的表格垂直结构元素。
[0045]
第二方面,本发明实施例还提供了一种对地震采集数据表格的表格线检测装置,包括:
[0046]
图像模块,获取钻井数据的表格图像a;
[0047]
处理模块,对所述表格图像a进行预处理,获取表格图像b;
[0048]
图像投影模块,对所述表格图像b进行图像投影运算,获取投影值;
[0049]
划分作用域模块,将所述投影值划分为纵向作用域和横向作用域;
[0050]
运算模块,对所述纵向作用域和横向作用域通过数学形态学运算分别获取水平表格线图像c和竖直表格线图像d;
[0051]
修复模块,将所述水平表格线图像c和所述竖直表格线图像d相加得到表格线图像e;
[0052]
干扰线处理模块,对所述表格线图像e的干扰线进行处理,获取表格线图像f。
[0053]
本发明的有益效果:
[0054]
本发明通过将表格图像划分多个作用域,在采用基于数学形态学运算的表格线检测方法过程中能够对结构元素自适应动态选取,减少了表格线的错检,使得检测结果更加完整和准确,为后续的单元格内容识别提供重要基础。
[0055]
本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。
附图说明
[0056]
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
[0057]
图1是本发明实施例一的一种对地震采集数据表格的表格线检测方法的流程图;
[0058]
图2是本发明实施例一的输入图片;
[0059]
图3是本发明采用现有技术获取的表格横线示意图;
[0060]
图4是采用本发明获取的表格横线示意图;
[0061]
图5是本发明实施例一检测的表格线示意图。
具体实施方式
[0062]
下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。
[0063]
第一方面,本发明实施例提供了一种对地震采集数据表格的表格线检测方法,包
括:
[0064]
获取钻井数据的表格图像a;
[0065]
对所述表格图像a进行预处理,获取表格图像b;
[0066]
具体的,将所述表格图像a进行灰度化和二值化处理,得到第一图像,对所述第一图像进行去噪和倾斜矫正,获取所述表格图像b。
[0067]
具体的,对所述第一图像进行去噪和倾斜矫正,获取表格图像b,包括:
[0068]
对所述第一图像运用中值滤波算法,在去噪的同时保存表格线的边缘信息;
[0069]
对去噪后的所述第一图像采用canny的边缘检测方法进行图像边缘信息的提取;
[0070]
运用轮廓的检测方法,获取表格框的轮廓区域;
[0071]
获取表格框的矩形与水平线角度,将所述表格框根据所述角度进行旋转,获取表格图像b。
[0072]
对所述表格图像b进行图像投影运算,获取投影值;
[0073]
具体的,将所述表格图像b进行二值化处理得到第二图像,并计算出所述第二图像的横向和纵向的投影值。
[0074]
将所述投影值通过划分作用域划分为纵向作用域和横向作用域;
[0075]
具体的,所述投影值得到每列单元格的长度和每行单元格的宽度,将每列单元格长度划分多个纵向作用域并将每行单元格的宽度划分多个横向作用域。
[0076]
具体的,所述划分纵向作用域,包括:
[0077]
根据所述纵向的投影值,对每列的投影值进行排序,获取n个纵向表格线;
[0078]
根据每个纵向表格线的投影值,在一定邻域位置范围内找出所述投影值在一定阈值范围内的点,这些相邻点构成了每个纵向表格线的宽度;
[0079]
根据表格线的位置和表格线的宽度计算每列单元格长度;
[0080]
根据所述每列单元格长度划分所述纵向作用域;
[0081]
其中,计算每列单元格长度的计算公式为:
[0082]
tw_i=d_i-d_(i-1)-w_i
[0083]
其中,tw_i是第i列单元格长度,d_i是该列表格线的最后一个像素点位置,d_(i-1)是前一列表格线的最后一个像素点,w_i是当前表格线的宽度。计算每行表格宽度也是这种方法,只不过从列计算转换成行计算,此处不再赘述。
[0084]
对所述纵向作用域和横向作用域通过数学形态学运算分别获取具有水平表格线图像c和具有竖直表格线图像d;
[0085]
具体的,对所述纵向作用域进行自适应选择结构元素的数学形态学闭运算,获取所述水平表格线图像c;对所述横向作用域进行自适应选择结构元素的数学形态学闭运算,获取所述竖直表格图像d;
[0086]
其中,所述纵向作用域通过所述自适应选择结构元素的数学形态学闭运算获取具有水平表格线图像c的计算公式为:
[0087]
x_i=αh_i
[0088]
其中,x_i是每行的结构元素取值,α的取值是0.8~0.9,h_i是第i列单元格的长度。
[0089]
横向作用域的计算方法和纵向作用域的计算方法相同,此处不再赘述。
[0090]
将所述水平表格线图像c和所述竖直表格线图像d相加得到表格线图像e;
[0091]
对所述表格线图像e的干扰线进行处理,获取表格线图像f。
[0092]
具体的,对所述表格线图像e中部分黑色区域进行填充,白色区域进行剔除,并基于数学形态学运算的方法对所述表格线图像e中的水平线和竖直线进行检测,获取干扰线,将干扰线进行去除,获取表格线图像f。
[0093]
具体的,所述干扰线的去除,包括:
[0094]
计算所述表格线图像e中黑色连通域像素点的个数,小于设定的阈值,则进行白色填充;计算白色连通域像素点的数量,小于设定的阈值,则进行剔除,阈值是根据实际的需要进行设定。
[0095]
对所述表格线图像e进行腐蚀操作,获取表格线图像f;
[0096]
其中,所述腐蚀操作,包括:
[0097]
对所述表格线图像e进行腐蚀计算,获取表格线图像f;
[0098]
其中,去除水平干扰线的腐蚀计算的公式为:
[0099][0100]
其中,代表腐蚀运算,k是复合结构元素,k=[k1,k2],令k1为1*3且数据元全是1的结构元素,k2是对应横向作用域的表格垂直结构元素。
[0101]
去除垂直干扰线的过程与上述类似,只是k中k1为3*1且数据元取值全为1的结构元素,k2是对应纵向作用域的表格水平结构元素。
[0102]
本发明通过划分作用域将投影值划分为纵向作用域和横向作用域,充分考虑了结构元素的影响,提取的表格线更加准确和完整,提高了表格重建后的准确性,对后续的单元格提取和单元格内容识别有着重要的意义。
[0103]
进一步的,通过基于形态学的方法进行对地震采集数据表格的表格线检测,能够自适应的选择结构元素,并且不会受到表格类型的影响,具有很好的通用性。
[0104]
第二方面,本发明实施例还提供了一种对地震采集数据表格的表格线检测装置,包括:
[0105]
图像模块,获取钻井数据的表格图像a;
[0106]
处理模块,对所述表格图像a进行预处理,获取表格图像b;
[0107]
图像投影模块,对所述表格图像b进行图像投影运算,获取投影值;
[0108]
划分作用域模块,将所述投影值划分为纵向作用域和横向作用域;
[0109]
运算模块,对所述纵向作用域和横向作用域通过数学形态学运算分别获取水平表格线图像c和竖直表格线图像d;
[0110]
修复模块,将所述水平表格线图像c和所述竖直表格线图像d相加得到表格线图像e;
[0111]
干扰线处理模块,对所述表格线图像e的干扰线进行处理,获取表格线图像f。
[0112]
实施例一:
[0113]
参考图1,选取商河地区的一个钻井数据表格图像具体说明,一种对地震采集数据表格的表格线检测方法,其方法包括以下步骤:
[0114]
s1、获取钻井数据的表格图像a
[0115]
将野外钻井表格数据通过用手机拍摄或者扫描等方式获取表格图像a,如图2所示,并输入服务器。
[0116]
s2、对表格图像a进行预处理,获取表格图像b
[0117]
将获取的表格图像a进行图像灰度化和二值化处理,得到第一图像,然后对第一图像进行去噪和倾斜矫正,获取表格图像b;
[0118]
s3、对表格图像b进行投影计算
[0119]
将矫正后的表格图像b进行二值化处理得到第二图像,计算第二图像的横向和纵向的投影值;
[0120]
s4、划分作用域
[0121]
根据投影值得到每列单元格的长度和每行单元格的宽度,根据每列单元格长度,划分多个纵向作用区域,每个作用域的宽度是当前单元格向前向后延伸本单元格长度的15%,横向作用域也是类似操作,只是划分依据是改成每行单元格的宽度,对于本领域的技术人员来说是很容易实现的,此处不再赘述。
[0122]
s5、数学形态学运算
[0123]
在每个纵向作用域进行自适应选择结构元素的数学形态学闭运算时,结构元素的选择由当前列的单元格长度决定,闭运算之后获取所述水平表格线图像c;对每个横向作用域进行自适应选择结构元素的数学形态学闭运算时,结构元素的选择由当前行的单元格宽度确定,闭运算之后获取竖直表格图像d。
[0124]
s6、表格断线修复
[0125]
将水平表格线图像c和竖直表格线图像d相加重构得到表格线图像e,计算表格线的平均宽度,根据表格线平均宽度确定结构元素,对表格线图像e进行闭运算。
[0126]
s7、干扰线的去除
[0127]
参考图3-图5,对表格线图像e中小面积黑色区域进行填充,白色区域进行剔除,并采用自适应选择结构元素的数学形态学的方法进一步检测水平线和竖直线,将检测出的干扰线进行去除,由图3和图4可看出,采用本技术方案提取的表格横线更加准确和完整,大大提高了表格重建后的准确性。
[0128]
在本实施例中,对于步骤s2中去噪和图像倾斜矫正具体步骤如下:
[0129]
s21、对二值化后的第一图像采用中值滤波算法,在去除噪声点的同时保存了表格线的边缘信息;
[0130]
s22、对去噪后的第一图像采用基于canny的边缘检测方法进行图像边缘提取;
[0131]
s23、采用基于轮廓的检测方法,获得第一图像中所有轮廓,包含所有文字轮廓、单元格轮廓和表格框轮廓,并通过轮廓属性获得表格框的轮廓区域;
[0132]
s24、获取表格框的矩形与水平线角度,将表格框根据角度进行旋转,获取表格图像b。
[0133]
在本实施例中,对于s4中划分作用域,具体步骤:
[0134]
s41、根据步骤s3中的第二图像纵向的投影计算结果所获得的投影值,对每列的投影值进行排序,找出不相邻的前n个点,且这个n个点的值相差在一定阈值范围内,获得n个纵向表格线;
[0135]
s42、根据每个纵向表格线的投影值,在一定邻域位置范围内找出投影值在一定阈
值范围内的点,这些相邻点构成了每个列表格线的宽度;
[0136]
s43、根据表格线的位置和表格线的宽度计算出每列单元格长度,计算公式如下:
[0137]
tw_i=d_i-d_(i-1)-w_i
[0138]
其中,tw_i是第i列单元格长度,d_i是该列表格线的最后一个像素点位置,d_(i-1)是前一列表格线的最后一个像素点,w_i是当前表格线的宽度。计算每行表格宽度也是这种方法,只不过从列计算转换成行计算,此处不再赘述;
[0139]
s44、根据每列单元格长度划分表格图像的纵向作用域,将图像划分n-1个纵向作用域,每个作用域的宽度是当前单元格向前向后延伸本单元格长度的15%。
[0140]
在本实施例中,对于s5中数学形态学运算,具体步骤:
[0141]
s51、对每个纵向作用域选择当前列单元格长度乘以一个因子n作为结构元素大小,计算公式如下,对所有纵向作用域操作结束后,得到所有纵向作用域表格横线。
[0142]
x_i=αh_i
[0143]
其中,x_i是每行的结构元素取值,α的取值是0.8~0.9,h_i是第i列单元格的长度。
[0144]
在本实施例中,对于s6的表格断线修复,具体步骤为:
[0145]
s61、计算所有表格线的平均宽度;
[0146]
s62、设置结构元素为n*n对表格图像进行闭运算,闭运算具有较好的连接和补缺的作用。
[0147]
在本实施例中,对于s7中的干扰线去除,具体步骤:
[0148]
s71、计算图像中黑色连通域像素点个数,小于设定的阈值,则进行白色填充,计算白色连通域像素点数量,小于设定的阈值,则进行剔除,这个计算过程去除了一定噪声影响,并进一步对表格线内孔洞修复。
[0149]
其中,去除水平干扰线的腐蚀计算的公式为:
[0150][0151]
其中,代表腐蚀运算,k是复合结构元素,k=[k1,k2],令k1为1*3且数据元全是1的结构元素,k2是对应横向作用域的表格垂直结构元素。
[0152]
去除垂直干扰线的过程与上述类似,只是k中k1为3*1且数据元取值全为1的结构元素,k2是对应纵向作用域的表格水平结构元素。
[0153]
本发明提供一种对地震采集数据表格的表格线检测方法,将表格图像划分多个作用域,在采用基于数学形态学的表格线检测方法过程中能够对结构元素自适应动态选取,减少了表格线的错检,使得检测结果更加完整和准确,为后续的单元格内容识别提供重要基础。
[0154]
实施例二:
[0155]
一种对地震采集数据表格的表格线检测装置,包括以下步骤:
[0156]
图像模块,获取钻井数据的表格图像a;
[0157]
处理模块,对所述表格图像a进行预处理,获取表格图像b;
[0158]
图像投影模块,对所述表格图像b进行图像投影运算,获取投影值;
[0159]
划分作用域模块,将所述投影值划分为纵向作用域和横向作用域;
[0160]
运算模块,对所述纵向作用域和横向作用域通过数学形态学运算分别获取具有水
平表格线图像c和具有竖直表格线图像d;
[0161]
修复模块,将所述水平表格线图像c和所述竖直表格线图像d相加得到表格线图像e;
[0162]
干扰线处理模块,对所述表格线图像e的干扰线进行处理,获取表格线图像f。
[0163]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献