一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种工程图纸文字识别方法与流程

2022-04-25 05:06:12 来源:中国专利 TAG:

技术特征:
1.一种工程图纸文字识别方法,其特征在于,包括如下步骤:s1、对工程图纸文字区域进行标注,提取图纸内的文字区域;s2、利用dsa算法对提取的文字区域制作数据集,并利用训练centernet模型识别工程图纸的表格和文字区域图像;s3、利用opencv算法识别对步骤s2中的文字区域图像进行识别,提取其中的文字;s4、构建工程领域词典,利用所构建的词典判断步骤s3所识别的文字,并将识别信息填充值工程信息表直至所识别的文字全部被识别。2.根据权利要求1所述的一种工程图纸文字识别方法,其特征在于,所述s2中利用训练centernet模型识别工程图纸的表格和文字区域图像的具体方式为:s21、设置centernet模型参数;s22、计算数据集的均值和方差。3.根据权利要求2所述的一种工程图纸文字识别方法,其特征在于,所述s21中centernet模型参数具体为:根据文字区域的检测目标,设置centernet模型的类别数为2;根据工程图纸扫描件的像素,将centernet模型的resolution参数设置为(512,512)。4.根据权利要求2所述的一种工程图纸文字识别方法,其特征在于,所述数据集的均值计算方式为:x’=sum(x)/n,其中,x’为均值,x为数据集中所有图片都像素值,n为数据集中所有图片都像素总数。5.根据权利要求2所述的一种工程图纸文字识别方法,其特征在于,所述方差的计算方式为:6.根据权利要求1所述的一种工程图纸文字识别方法,其特征在于,所述s3具体方式为:s31、利用opencv的cv2.getstructuringelement模块,对表格和文字区域图像进行线条检测,经过横线提取和竖线提取后得到包含文字的表格边框图像g1;s32、利用opencv的图像擦除模块cv2.erode,擦除g1中无意义的线条,得到g2;s33、利用opencv的轮廓检测模块cv2.findcontours,检测g1中的表格的所有单元格,得到所有单元格的坐标集合;s34、利用单元格坐标集合对g2进行图像切分,得到每一个单元格图像集g3={g
i
|i=1,2,3

n}其中,g
i
为第i个单元格图像,i为单元格图像的索引;利用训练好的centernet模型,可以得到工程图纸的表格和文字区域图像,记为g。7.根据权利要求1或6任一项所述的一种工程图纸文字识别方法,其特征在于,所述s4中利用所构建的词典判断步骤s3所识别的文字具体方式为:判断g
i
中的文字为键属性或值属性:若是键属性,则将其填入工程信息表的关键字列;若是值属性,则将其填入工程信息表中对应的值列。

技术总结
本发明公开了一种工程图纸文字识别方法,先制作图纸内文字区域的标注数据集,利用深度学习可以更好的提取图像特征的优越性,训练深度学习的CenterNet模型用以识别文字区域,然后利用OpenCV技术能够对图像的纹理特征更敏感,更容易检测并排除表格线条干扰的有点,使用OpenCV技术中的线条检测和轮廓检测技术,对文字区域进行剪裁,最后利用OCR技术对剪裁后的区域进行文字识别,解决现有的工程图纸文字识别标注数据集难获取;工程图纸因为文字与表格嵌套、文字信息排版混乱等原因,导致识别有语义意义的字词困难的问题,能够有效自动识别工程图纸中工程名称、施工单位等关键文字。施工单位等关键文字。施工单位等关键文字。


技术研发人员:覃晓 施宇 廖显幸 文宏凤 周卫江 许桓韶 彭宏辉 农忠霖 李军
受保护的技术使用者:广西桂能软件有限公司
技术研发日:2022.01.11
技术公布日:2022/4/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献