一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种银行卡的OCR识别方法、装置、设备和介质与流程

2022-05-18 16:49:59 来源:中国专利 TAG:

技术特征:
1.一种银行卡的ocr识别方法,其特征在于:包括下述步骤:s1、检测角度模型检测银行卡图片的输入角度,若输入角度不是正确角度,则将输入角度旋转为正确角度;s2、文本检测模型检测处于正确角度的银行卡图片,先识别出银行卡图片各个可能存在文字的图像区域,利用fpn网络结构关注银行卡图片中的细节信息和语义信息,得到感兴趣区域;s3、文本识别模型对感兴趣区域通过五个卷积层获取更深层次的信息,并在五个卷积层之后添加双向lstm层以获取当前图片区域的上下文信息,利用上下文信息对图片区域做更精准的结果预测和校验,得到识别结果;s4、全连接层对识别结果进行多字符的分类,得到不同图像区域的字符串;s5、对得到的不同图像区域的字符串,利用模板匹配的方式获取银行卡信息。2.根据权利要求1所述的一种银行卡的ocr识别方法,其特征在于:所述文本检测模型依次包括向上通道、向下通道和拼接层;所述向上通道对银行卡图片的特征进行卷积得到四个不同大小的特征图,所述向下通道将四个特征图分别上采样为同一大小;所述拼接层将上采样后的四个特征图进行拼接;其中:所述向上通道包括一层输入层和四层卷积层,五层卷积层的卷积核较小,用于关注银行卡中的单字信息;四层卷积层中,相对低层网络用来关注银行卡的细节信息,相对高层网络用于关注银行卡的语义信息;所述向下通道的各卷积层整合与所述向上通道中同层的数据和本卷积层的上一卷积层的数据,获得不同尺度的信息,将向上通道和向下通道对应层特征叠加,使得同一层的特征包括上层的语义信息和下层的细节信息;所述拼接层用于拼接所述向下通道的各卷积层输出的不同维度数据,根据不同维度数据采集不同粒度的信息,首先用一层卷积层整合不同维度的数据,再用两层空洞卷积层做特征筛选,得出目标区域文字中最符合的感受野尺度特征,并得到感兴趣图像区域。3.根据权利要求2所述的一种银行卡的ocr识别方法,其特征在于:所述向上通道的具体构成为:第一层是输入层,用于输入图像;第二层是卷积层,卷积核为1*1,步长为1*1,填充为1*1,通道数为512;第三层是卷积层,卷积核为1*1,步长为1*1,填充为1*1,通道数为256;第四层是卷积层,卷积核为1*1,步长为1*1,填充为1*1,通道数为128;第五层是卷积层,卷积核为1*1,步长为1*1,填充为1*1,通道数为64;第二层至第五层得到四个特征图,分别为1/4、1/8、1/16、1/32大小;所述向下通道的具体构成为:第一层是所述向上通道的第五层;第二层是卷积层,卷积核为3*3,填充为1*1,通道数为64,上采样方式中,输出为输入的1倍;第三层是卷积层,卷积核为3*3,填充为1*1,通道数为64,上采样方式中,输出为输入的2倍;第四层是卷积层,卷积核为3*3,填充为1*1,通道数为64,上采样方式中,输出为输入的
4倍;第五层是卷积层,卷积核为3*3,填充为1*1,通道数为64,上采样方式中,输出为输入的8倍;第二层至第五层将四个特征图分别上采样为1/4大小;所述拼接层的具体构成为:第一层是卷积层,卷积核为3*3,填充为1*1,通道数为64,归一化方法为bn,激活函数为relu;第二层是空洞卷积层,卷积核为2*2,步长为2*2,通道数为64,归一化方法为bn,激活函数为relu;第三层是空洞卷积层,卷积核为2*2,步长为2*2,通道数为64,激活函数为sigmoid。4.根据权利要求1所述的一种银行卡的ocr识别方法,其特征在于:所述文本识别模型的具体构成为:第一层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为64,用来提取特征;第二层是最大池化层,滑动窗口为2*2,步长为2*2,用2*2的滑动窗口来捕捉长宽比近似的文字,并增加特征维度;第三层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为128,用来提取特征;第四层是最大池化层,滑动窗口为2*2,步长为2*2,用2*2的滑动窗口来捕捉长宽比近似的文字,并增加特征维度;第五层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为256;第六层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为256;第七层是最大池化层,滑动窗口为1*2,步长为2*2;用1*2的滑动窗口来捕捉长宽比较大的数字,并增加特征维度;第八层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为512,归一化方法为bn;第九层是最大池化层,滑动窗口为1*2,步长为1*1,用1*2的滑动窗口来长宽差别较大的数字;第十层是卷积层,卷积核为2*2,步长为1*1,通道数为512;第十一层是前向长短期记忆网络层,隐藏单元数为512,获取当前文字的下文信息;第十二层是反前向长短期记忆网络层,隐藏单元数为512,获取当前文字的上文信息。5.一种银行卡的ocr识别装置,其特征在于:包括:检测角度模型,用于检测银行卡图片的输入角度,若输入角度不是正确角度,则将输入角度旋转为正确角度;文本检测模型,用于检测处于正确角度的银行卡图片,先识别出银行卡图片各个可能存在文字的图像区域,利用fpn网络结构关注银行卡图片中的细节信息和语义信息,得到感兴趣区域;文本识别模型,用于对感兴趣区域通过五个卷积层获取更深层次的信息,并在五个卷积层之后添加双向lstm层以获取当前图片区域的上下文信息,利用上下文信息对图片区域做更精准的结果预测和校验,得到识别结果;全连接层,用于对识别结果进行多字符的分类,得到不同图像区域的字符串;
模板匹配模块,用于对得到的不同图像区域的字符串,利用模板匹配的方式获取银行卡信息。6.根据权利要求5所述的一种银行卡的ocr识别装置,其特征在于:所述文本检测模型依次包括向上通道、向下通道和拼接层;所述向上通道对银行卡图片的特征进行卷积得到四个不同大小的特征图,所述向下通道将四个特征图分别上采样为同一大小;所述拼接层将上采样后的四个特征图进行拼接;其中:所述向上通道包括一层输入层和四层卷积层,五层卷积层的卷积核较小,用于关注银行卡中的单字信息;四层卷积层中,相对低层网络用来关注银行卡的细节信息,相对高层网络用于关注银行卡的语义信息;所述向下通道的各卷积层整合与所述向上通道中同层的数据和本卷积层的上一卷积层的数据,获得不同尺度的信息,将向上通道和向下通道对应层特征叠加,使得同一层的特征包括上层的语义信息和下层的细节信息;所述拼接层用于拼接所述向下通道的各卷积层输出的不同维度数据,根据不同维度数据采集不同粒度的信息,首先用一层卷积层整合不同维度的数据,再用两层空洞卷积层做特征筛选,得出目标区域文字中最符合的感受野尺度特征,并得到感兴趣图像区域。7.根据权利要求5所述的一种银行卡的ocr识别装置,其特征在于:所述向上通道的具体构成为:第一层是输入层,用于输入图像;第二层是卷积层,卷积核为1*1,步长为1*1,填充为1*1,通道数为512;第三层是卷积层,卷积核为1*1,步长为1*1,填充为1*1,通道数为256;第四层是卷积层,卷积核为1*1,步长为1*1,填充为1*1,通道数为128;第五层是卷积层,卷积核为1*1,步长为1*1,填充为1*1,通道数为64;第二层至第五层得到四个特征图,分别为1/4、1/8、1/16、1/32大小;所述向下通道的具体构成为:第一层是所述向上通道的第五层;第二层是卷积层,卷积核为3*3,填充为1*1,通道数为64,上采样方式中,输出为输入的1倍;第三层是卷积层,卷积核为3*3,填充为1*1,通道数为64,上采样方式中,输出为输入的2倍;第四层是卷积层,卷积核为3*3,填充为1*1,通道数为64,上采样方式中,输出为输入的4倍;第五层是卷积层,卷积核为3*3,填充为1*1,通道数为64,上采样方式中,输出为输入的8倍;第二层至第五层将四个特征图分别上采样为1/4大小;所述拼接层的具体构成为:第一层是卷积层,卷积核为3*3,填充为1*1,通道数为64,归一化方法为bn,激活函数为relu;第二层是空洞卷积层,卷积核为2*2,步长为2*2,通道数为64,归一化方法为bn,激活函数为relu;
第三层是空洞卷积层,卷积核为2*2,步长为2*2,通道数为64,激活函数为sigmoid。8.根据权利要求5所述的一种银行卡的ocr识别装置,其特征在于:所述文本识别模型的具体构成为:第一层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为64,用来提取特征;第二层是最大池化层,滑动窗口为2*2,步长为2*2,用2*2的滑动窗口来捕捉长宽比近似的文字,并增加特征维度;第三层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为128,用来提取特征;第四层是最大池化层,滑动窗口为2*2,步长为2*2,用2*2的滑动窗口来捕捉长宽比近似的文字,并增加特征维度;第五层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为256;第六层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为256;第七层是最大池化层,滑动窗口为1*2,步长为2*2;用1*2的滑动窗口来捕捉长宽比较大的数字,并增加特征维度;第八层是卷积层,卷积核为3*3,填充为1*1,步长为1*1,通道数为512,归一化方法为bn;第九层是最大池化层,滑动窗口为1*2,步长为1*1,用1*2的滑动窗口来长宽差别较大的数字;第十层是卷积层,卷积核为2*2,步长为1*1,通道数为512;第十一层是前向长短期记忆网络层,隐藏单元数为512,获取当前文字的下文信息;第十二层是反前向长短期记忆网络层,隐藏单元数为512,获取当前文字的上文信息。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4任一项所述的方法。

技术总结
本发明提供一种银行卡的OCR识别方法、装置、设备和介质,方法包括:检测角度模型检测银行卡图片的输入角度;文本检测模型检测处于正确角度的银行卡图片,先识别出银行卡图片各个可能存在文字的图像区域,利用FPN网络结构关注银行卡图片中的细节信息和语义信息,得到感兴趣区域;再由文本识别模型获取更深层次的信息,并添加双向LSTM层以获取当前图片区域的上下文信息,从而做更精准的结果预测和校验,得到识别结果。有了本发明,即使银行卡背景复杂,以及摄取图像时因光照强度、拍摄角度等情况的干扰,也能准确、高效地识别相关信息。高效地识别相关信息。高效地识别相关信息。


技术研发人员:黄家昌 赖奇嵘 杨辉 邱道椿
受保护的技术使用者:福建亿能达信息技术股份有限公司
技术研发日:2021.12.31
技术公布日:2022/5/17
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献