一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种智能无透镜文字识别系统

2022-06-08 08:55:03 来源:中国专利 TAG:


1.本发明属于无透镜成像领域,具体涉及一种智能无透镜文字识别系统。


背景技术:

2.随着视觉任务的快速发展和应用,相机被集成在各种硬件设备上。某些应用场景对相机尺寸有严格的要求,无透镜相机是一种使用薄掩膜版替代镜头的成像系统,因此可以大大减小相机尺寸。
3.和带镜头的相机相比,无透镜相机需要对传感器上收集的数据进行计算成像才能恢复图像,但是基于无透镜重建的图像存在模糊、分辨率的缺点,导致无法胜任很多视觉任务,目前尚未有对基于无透镜的非单个字符文字检测和识别的研究。
4.因此,需要一套无透镜文字识别系统。


技术实现要素:

5.针对目前无透镜成像技术由于较差的成像质量而未应用于非单个字母的文字定位和识别的情况,本发明提供了一种基于无透镜的文字定位和识别系统。识别准确率高且该系统方法具有通用性。
6.本发明采用的技术方案如下:
7.本发明的智能无透镜文字识别系统包括光学模块和计算成像及文字定位识别模块,光学模块主要由平行放置的可调制幅度掩膜板和光学传感器组成,待识别目标放置于光学模块前方,待识别目标发出的光线经可调制幅度掩膜板散射后,在光学传感器的平面上投射形成投影图像(原始数据),光学传感器将投影图像传输至计算成像及文字定位识别模块;
8.计算成像及文字识别模块包括计算成像模型、文字定位模型和文字识别模型,三个模型串行连接;计算成像及文字识别模块的输入为经光学模块后在传感器上得到的投影图像,输出为投影图像上文字的文本形式。
9.所述的可调制幅度掩膜板为由k*k个单元格组成的二值化掩膜版,每个单元格的值为1或0,1表示光线能通过,0表示光线不能通过。
10.投影图像经计算成像模型输出预测的重建图像;文字定位模型对输入的重建图像进行处理,输出图像中文字的位置;将文字定位模型的输出结果输入文字识别模型后,输出图像的文字识别结果;
11.计算成像及文字识别模块训练过程中,仅计算成像模型参与训练,需更新参数,文字定位模型和文字识别模型不参与训练。
12.计算成像模型为编码器-解码器体系的神经网络,具体采用u-net;文字定位模型采用任意文字定位模型结构,具体采用ctpn;文字识别模型采用任意文字识别模型结构,具体采用crnn。
13.可调制幅度掩膜板上的图案通过液晶显示器显示,掩模版上的图案随机生成或通
过训练优化后确定;通过训练优化后确定掩模版图案的方法包括以下步骤:
14.1)将待识别目标与光学模块的成像过程建模为二维卷积层,具体为:
15.m=w*o
[0016][0017]
其中,w表示掩模版上的幅度分布,即掩模版上单元格的值分布;以掩模版中心点为原点构建坐标系,(i,j)为掩膜板上单元格中心点的坐标,w
i,j
表示掩膜板上坐标为(i,j)的单元格的值;
[0018]
o表示待识别目标不经过掩模版时在传感器平面上缩放后的图像(即o表示待识别目标经过孔径时在传感器平面上缩放后的图像);以传感器平面中心点为原点构建坐标系,(x,y)表示投影图像的像素点在传感器平面上的坐标值,o
x,y
表示待识别目标不经过掩模版时在传感器平面的(x,y)处的像素值;o
x i,y j
表示在传感器平面上(x i,y j)处的像素值;
[0019]
m表示待识别目标经过掩模版后投影在传感器平面上的图像;m
x,y
表示待识别目标经过掩模版后在传感器平面的(x,y)处的像素值;
[0020]
k表示掩模版上单元格的行数或列数,i∈[1,k];
[0021]
2)将二维卷积层进行二值化得到二值神经网络二维卷积层,结果如下:
[0022][0023]
其中,
[0024][0025][0026]
其中,wb表示对w进行二值化处理后的结果;
[0027]
由于掩模版只有0和1值,我们使用二值神经网络来训练,二值神经网络使用sign函数将二连续值映射到-1或 1,随后加1并除以2;
[0028]
3)将二值神经网络二维卷积层的参数wb作为模型参数与计算成像及文字定位识别模块一同训练优化;
[0029]
3.1)训练过程中,通过电路调整对掩膜板的图案做随机初始化,并将随机初始化的结果作为二值神经网络卷积层的初始参数;
[0030]
3.2)系统前向传播过程的训练:固定待识别目标,在真实物理场景中测量待识别目标经掩膜版后在光学传感器的平面上得到的投影图像,并将其作为计算成像及文字定位识别模块的输入;
[0031]
反向传播过程的训练:计算成像及文字定位识别模块输出的预测图像与真实图像标签的损失函数loss,将损失函数loss反向传播至二值神经网络卷积层,更新二值神经网
络卷积层参数wb,并根据更新的参数wb调制可调掩膜版,调制结果作为下一轮训练时模型前向传播过程中的掩膜版图案;
[0032]
3.3)训练完成后得到的掩膜版图案为优化后的结果。
[0033]
所述的可调制掩模版的单元格尺寸大小和传感器平面上的像素点尺寸大小相同;待识别目标与可调制幅度掩膜板之间的距离d1远大于可调制幅度掩膜板和光学传感器之间的距离d2,d1》100d2;因此将掩模版上的幅度分布近似等于掩模版上的幅度分布在传感器平面上的投影。
[0034]
所述的计算成像及文字定位识别模块在训练过程中的损失函数loss为:
[0035]
loss=a
×
loss1 b
×
loss2;
[0036]
其中,loss1为计算成像模型输出的预测图像与真实图像标签(待识别目标图像)之间的误差;loss2为计算成像及文字定位识别模块最终输出的预测文本与待识别目标的真实文字标签(待识别目标图像上的文本信息)之间的误差;a和b为权重。
[0037]
本发明的有效效益:
[0038]
本发明的无透镜文字识别系统能够减少镜头带来的尺寸限制,使得相机被集成在其他设备上更加方便。
[0039]
本发明实现了软硬件一体化的无透镜成像和文字识别的深度学习模型优化,提高了在无透镜下的文字定位和文字识别的准确率,且该系统的每个模块具有通用性和普适性,具有很强的实际应用性。
附图说明
[0040]
图1是本发明的整体数据流。
[0041]
图2是本发明中光学模块的原理图。
[0042]
图3是本发明中计算成像及文字定位识别模块的原理图。
具体实施方式
[0043]
下面结合附图及具体实施例对本发明作进一步详细说明。
[0044]
如图1所示,本发明的无透镜文字识别系统包括光学模块、计算成像及文字定位识别模块。待识别目标通过光学模块获得原始数据,原始数据通过计算成像及文字定位识别模块获得文字的文本形式。
[0045]
光学模块由可调制幅度掩膜板和传感器组成,其中可调制幅度掩膜板是一种二值化的掩模版,其分为k*k个单元格,单元格的值为1或0,1代表光线能通过,0代表光线不能通过,放置在光学传感器前,且两者平行放置,物体放置在掩膜版前,物体发出的光线经过可调制幅度掩膜板散射后,将特定的投影图像(原始数据)投射在传感器所处平面上,由传感器记录后传到计算成像及文字定位识别模块。该可调制幅度掩膜板的图案可通过电路实时控制,具体可通过液晶显示器显示,掩膜板上的图案既可以随机生成,也可以通过训练优化更新掩膜版;通过训练优化获得的掩膜版能使计算成像及文字定位识别模块的识别效果更好。当光学模块中的掩膜版图案固定时,在不优化掩膜版的情况下,使用固定掩膜版图案,仍然可以通过传感器上得到的原始数据,通过计算成像及文字定位识别模块,获得文字的定位和识别结果。
[0046]
如图2所示,训练优化掩模版图案的方法如下:
[0047]
1)将成像目标与掩模版交互的过程建模为二维卷积层
[0048]
m=w*o
[0049][0050]
其中,w表示掩模版上的幅度分布,即掩模版上单元格的值分布;以掩模版中心点为原点构建坐标系,(i,j)为掩膜板上单元格中心点的坐标,w
i,j
表示掩膜板上坐标为(i,j)的单元格的值;
[0051]
o表示可调制幅度掩膜板全透明情况下,待识别目标不经过掩模版时在传感器平面上缩放后的图像;以传感器平面中心点为原点构建坐标系,(x,y)表示传感器平面上像素点的坐标值,o
x,y
表示待识别目标不经过掩模版时在传感器平面的(x,y)处的像素值;
[0052]
m表示待识别目标经过掩模版后投影在传感器平面上的图像;m
x,y
表示待识别目标经过掩模版后在传感器平面的(x,y)处的像素值;
[0053]
k表示掩模版上单元格的行数或列数,i∈[1,k]。
[0054]
由于掩模版单元格像素大小和传感器像素大小相同,且d1》》d2(d1大于100倍的d2),所以w可近似等于掩模版上幅度分布在传感器平面上的投影。
[0055]
2)将二维卷积层的参数w作为模型参数与后续计算成像及文字定位识别模块一同训练优化。
[0056]
2.1)将二维卷积层进行二值化得到二值神经网络:
[0057][0058][0059][0060]
其中,wb表示对w进行二值化处理后的结果。
[0061]
由于掩模版只有0和1值,我们使用二值神经网络来训练,二值神经网络使用sign函数将w映射到-1或 1,随后加1并除以2。
[0062]
2.2)训练过程中,通过电路调整对掩膜板图案做随机初始化,并将该值作为二值神经网络卷积层的初始参数。
[0063]
在系统的前向传播的过程中:固定待测目标物,在真实物理场景中测量经过掩膜版以后传感器上得到的原始数据,并将其作为计算成像及文字定位识别模块的输入,
[0064]
在经过计算成像及文字定位识别模块后得到与真实标签的误差,
[0065]
在梯度反向传播过程中:计算成像及文字定位识别模块的输出与真实标签的误差,计算梯度并反向传播,将误差反向传播至二值神经网络卷积层,更新二值神经网络卷积层,并根据更新的权重结果去调制可调掩膜版,作为下一轮训练时模型前向传播过程中的
掩膜版图案。
[0066]
训练完成后,固定掩膜版图案。
[0067]
如图3所示,计算成像及文字识别模块包含计算成像模型、文字定位模型和文字识别模型。使用过程中,该模块由三个模型串行,输入数据为经过光学模块后在传感器上得到的原始数据,输出为预测的文字的文本形式。训练过程中,仅计算成像模型是需要更新参数的,文字定位模型和文字识别模型不参与训练。
[0068]
计算成像模型是一种基于深度学习的成像方法,能够由传感器上获得的原始数据(模型输入)计算得到预测的重建图像(模型输出)。计算成像模型是一种结构为编码器-解码器的神经网络,具体的可采用u-net结构的网络。训练过程中,以包含字母和数字的图像作为待识别目标,其经过光学模块后在传感器上获得的原始数据作为模型输入,训练损失函数由两部分组成:1)待识别目标图像(真实图像标签)与模型输出的预测图像之间的误差loss1;2)将预测的重建图像输入后接的文字定位模型和文字识别模型,得到预测的文本,计算预测文本与待识别目标的文字标签之间的误差loss2。损失函数loss=a
×
loss1 b
×
loss2。
[0069]
梯度反向传播:该损失函数计算梯度回传更新计算成像模型及前文所述的二维卷积层,最终得到对应训练好的计算成像模型。
[0070]
文字定位模型是一个神经网络模型。输入数据是图像,输出数据是文字所在的位置。该模型可采用任意文字定位模型结构,具体的结构可采用如ctpn:图像经过vgg16网络,在该网络最后的卷积层的每一行都计算3*3滑动窗口,并将结果通过blstm结构连接,最后输入一个全连接层,输出为预测的坐标和置信度分数。且该模型是训练好的,在该系统中不参与损失函数的后向传播更新参数。
[0071]
文字识别模型是一个神经网络模型。输入数据是带字母数字的图像,输出是文字识别的结果。该模型可采用任意文字识别模型结构,如crnn:图像首先经过若干卷积层,提取特征序列,进入blstm,最终输出预测字母的分数。且该模型是训练好的,在该系统中不参与损失函数的后向传播更新参数。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献