一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于Tesseract-OCR引擎的工件产品序列号识别方法、装置及系统

2022-04-27 10:28:59 来源:中国专利 TAG:

技术特征:
1.一种基于tesseract-ocr引擎的工件产品序列号识别方法,其特征在于,包括:采集场景内各类工件序列号图像,构建工件序列号数据集;利用数据集中的工件序列号图像训练文本检测网络;将待检测的工件序列号图像,输入到训练好的文本检测网络中进行文本检测,定位工件序列号图像中的文本部分;提取数据集中工件序列号图像中的文本部分,通过jtessboxeditor训练得出识别工件序列号图像中文本部分的tesseract-ocr模型;采用训练好的tesseract-ocr模型,对待检测工件序列号图像中的文本部分进行识别,并筛选出序列号。2.根据权利要求1所述的方法,其特征在于,所述文本检测网络为ctpn网络,训练所述ctpn网络包括:使用vgg-16网络进行特征提取,在vgg-16网络的最后一个卷积层采用3
×
3的卷积核对特征图进行卷积;将卷积后的特征输入双向长短时记忆模型进行学习;通过全连接层输出预测参数到三个分类或者回归层中。3.根据权利要求2所述的方法,其特征在于,在将卷积后的特征输入双向长短时记忆模型进行学习时,使用如下公式作为单元状态更新值的激活函数:并使用自适应算法优化学习率,如下:其中,l0是初始的学习率,需要设置较大,i表示第i次迭代的过程,l表示模型训练的总体迭代次数。4.根据权利要求3所述方法,其特征在于,所述将待检测的工件序列号图像,输入到训练好的文本检测网络中进行文本检测,定位工件序列号图像中文本部分包括:利用高斯模糊变换和二值化去噪方法获取待检测的工件序列号图像的灰度图像;通过文本检测网络选取滑动窗口,同时给出判断该窗口内是否为文字的概率;当概率大于设定阈值则判断为是文字,通过矩形框画出文字部分,并显示概率;通过矩形框的特性利用opencv中的边缘轮廓与面积筛选模块去除过大和过小的文字区域,保留获得的文字区域。5.根据权利要求4所述方法,其特征在于,所述提取数据集中工件序列号图像中的文本部分,通过jtessboxeditor进行训练得出识别工件图像中文本部分的tesseract-ocr模型包括:制作数据集中工件序列号图像的文本部分的训练样本,利用jtessboxeditor中的merge tiff选择文本部分的样本图片,并生成box文件以及字符配置文件,通过字符矫正工具对样本图片中的字符进行相应的位置以及识别矫正并且保存,训练生成语言文件。6.根据权利要求1-5任一项所述方法,其特征在于,所述采用训练好的tesseract-ocr
模型,待检测工件序列号图像中的文本部分进行识别,并筛选出序列号包括:在待检测图片中选取文字区域,将文字区域的部分先进行图片预处理;输入训练好的tesseract-ocr模型中进行识别,获取文字识别结果;根据序列号的不同特性,筛选出符合条件的区域,若没有符合条件的区域,则表明图像中不包含序列号部分。7.一种基于tesseract-ocr引擎的工件产品序列号识别装置,其特征在于,包括:数据集单元,其配置为采集场景内各类工件序列号图像,构建工件序列号数据集;第一训练单元,其配置为利用数据集中的工件序列号图像训练文本检测网络;文本定位单元,其配置为将待检测的工件序列号图像,输入到训练好的文本检测网络中进行文本检测,定位工件序列号图像中的文本部分;第二训练单元,其配置为提取数据集中工件序列号图像中的文本部分,通过jtessboxeditor训练得出识别工件序列号图像中文本部分的tesseract-ocr模型;识别单元,其配置为采用训练好的tesseract-ocr模型,对待检测工件序列号图像中的文本部分进行识别,并筛选出序列号。8.根据权利要求7所述的方法,其特征在于,所述文本检测网络为ctpn网络,训练所述ctpn网络包括:使用vgg-16网络进行特征提取,在vgg-16网络的最后一个卷积层采用3
×
3的卷积核对特征图进行卷积;将提取后的特征输入双向长短时记忆模型进行学习;通过全连接层输出预测参数到三个分类或者回归层中。9.根据权利要求8所述的方法,其特征在于,在将提取后的特征输入双向长短时记忆模型进行学习时,使用如下公式作为单元状态更新值的激活函数:并使用自适应算法优化学习率,如下:其中,l0是初始的学习率,需要设置较大,i表示第i次迭代的过程,l表示模型训练的总体迭代次数。10.一种基于tesseract-ocr引擎的工件产品序列号识别系统,其特征在于,包括客户端和服务器端;所述客户端包括图像采集模块、第一信息传输模块和显示模块;所述图像采集模块用于采集含有工件序列号的工件图像;所述第一信息传输模块,用于向服务器端发送采集的图像信息,并接收服务器端返回的工件序列号上传、识别与存储的状态;所述显示模块用于显示图像采集模块工作状态与信息,显示信息传输和服务端的通讯状况,监测通讯有无异常、网络连接是否稳定,显示返回客户端的工件序列号上传、识别与存储的状态;所述服务器端包括第二信息传输模块、信息处理模块、信息存储模块和数据库;
所述信息传输模块,用于接收客户端传输的图像信息,并向客户端发送工件序列号是否上传以及识别存储的状态;信息处理模块,用于根据权利要求1-6任一项所述基于tesseract-ocr引擎的工件产品序列号识别方法对输入的工件序列号图像进行文本检测与识别,输出识别的序列号信息;信息存储模块,用于保存采集到的图像以及识别出的序列号文本信息。

技术总结
本发明公开了一种基于Tesseract-OCR引擎的工件产品序列号识别方法、装置及系统,属于图像处理、计算机视觉与模式识别领域。包括采集场景内各类工件序列号图像,构建工件序列号数据集;利用数据集中的工件序列号图像训练文本检测网络;将待检测的工件序列号图像,输入到训练好的文本检测网络中进行文本检测,定位工件序列号图像中的文本部分;提取数据集中工件序列号图像中的文本部分,通过jTessBoxEditor训练得出识别工件图像中文本部分的Tesseract-OCR模型;采用训练好的Tesseract-OCR模型,对待检测工件序列号图像中的文本部分进行识别,并筛选出序列号。所述系统包括客户端和服务器端。本发明能够有效地检测定位与识别序列号,符合智能制造对自动检测并识别工件图片序列号的需求。测并识别工件图片序列号的需求。测并识别工件图片序列号的需求。


技术研发人员:梅雪 何毅 翟天翔 李森伟
受保护的技术使用者:南京工业大学
技术研发日:2022.01.11
技术公布日:2022/4/26
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献