一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

双向表征自主迭代网络下高表征迁移的中文图像识别方法

2022-06-05 18:35:08 来源:中国专利 TAG:


1.本发明涉及中文图像识别技术领域,具体公开了双向表征自主迭代网络下高表征迁移的中文图像识别方法。


背景技术:

2.文字是人类信息交流的主要媒介,是人类最伟大和最具影响力的发明之一,是人类文化、思想传承的一种基本的表达方式和不可或缺的载体。日常生活中文字信息无处不在,它是我们认识和记录这个世界的主要工具。随着中国移动互联网技术的飞速发展使得这类数据的传播和分享更加便捷,许多新的应用场景都需要利用这些文本信息,尤其在信息智能化场景,随着数码相机、智能手机等具有拍照和摄像功能的便携式电子设备的广泛使用,大量的文本也以图像或者视频的数据方式被保存下来。因此,人们迫切希望利用计算机对图像或视频中的文本进行检测识别,形成语义表达的方式对其进行理解。一方面可以提高各种应用场景的生产效率;另一方面这些文本可以作为描述场景的额外信息,辅助各类计算机视觉的实际应用任务。因此,文本的分析与处理越来越成为计算机视觉领域的研究热点之一。
3.针对文档文本中文图像数据识别功能准确度不高问题,现多采用图像数据增强等方式,但提升效果不明显。或使用基于深度学习的中文图像识别方法,但面临着数据集小,识别网络模型效果差等问题。


技术实现要素:

4.本发明提供双向表征自主迭代网络下高表征迁移的中文图像识别方法,解决的技术问题在于:如何提高中文图像识别方法的识别效果。
5.为解决以上技术问题,本发明提供一种双向表征自主迭代网络下高表征迁移的中文图像识别方法,包括步骤:
6.s1、采集不同自然场景下的英文图片和中文图片进行预处理后,得到对应的英文图片数据集和中文图片数据集,并对英文图片数据集和中文图片数据集进行文本提取,得到对应的英文文本数据集和中文文本数据集;
7.s2、采用英文图片数据集及英文文本数据集对构建的双向表征自主迭代网络进行训练,训练完成后得到英文视觉特征、英文语义特征以及特征权重参数矩阵;
8.s3、通过迁移模块将特征权重参数矩阵迁移至中文识别网络模型,采用特征权重参数矩阵对构建的中文识别网络模型的网络参数进行初始化;
9.s4、采用中文图片数据集及中文文本数据集、英文视觉特征、英文语义特征对初始化后的中文识别网络模型进行训练。
10.进一步地,在步骤s2中,双向表征自主迭代网络包括视觉模块、语义模块和融合模块;
11.视觉模块用于提取英文图片数据集的英文视觉特征fv;
12.语义模块用于提取英文文本数据集的英文语义特征f
l

13.融合模块用于对英文视觉特征fv和英文语义特征f
l
进行融合后采用softmax函数进行归一化,其中融合后的特征为:
14.g=σ([fv,f
l
]wf)
[0015]
其中,σ(
·
)表示使fv和f
l
的矩阵保持一致的函数,表示fv和f
l
的权重参数,t表示字符序列的长度,c是特征维数,r表示实数域。
[0016]
进一步地,视觉模块具有n层卷积层,以对输入的英文图片数据集进行n次卷积,每次卷积后输出对应的英文视觉特征;
[0017]
语义模块具有n层卷积层,以对输入的英文文本数据集进行n次卷积,每次卷积后输出对应的英文语义特征;
[0018]
在训练过程中,通过迭代原理重新细化视觉模块和语义模块的预测,其中的错误预测作为噪声进行处理,通过反复将语义模块的输出作为全新的数据输入视觉模块、视觉模块重新执行以矫正视觉模块的预测效果;视觉模块执行第n次卷积后输出第n层英文视觉特征,语义模块执行第n次卷积后输出第n层英文语义特征;融合模块对第n层英文视觉特征和第n层英文语义特征进行融合后采用softmax函数进行归一化得到第n层特征权重参数矩阵,n=1,2,

,n,n≥3。
[0019]
进一步地,英文视觉特征fv表示为:
[0020][0021]
其中,ρ(
·
)表示用于向视觉模块输入图像x的图像处理函数,γ(
·
)表示由主干网络resnet和注意力模块组合作用的特征提取函数,h、w是英文图片数据集中任一图片的高和宽,r表示实数域。
[0022]
进一步地,双向表征自主迭代网络基于提取的英文视觉特征fv通过softmax函数输出英文视觉预测结果,表示为:
[0023][0024]
其中,softmax(
·
)表示softmax函数,是英文图片中字符序列的位置编码,由相比u-net规模更小的微型u-net2实现,h、w是英文图片数据集中任一图片的高和宽,是身份映射函数。
[0025]
进一步地,视觉模块和语义模块采用的损失函数均为:
[0026][0027]
其中,表示视觉模块的损失,表示语义模块的损失,表示融合模块的损失,均采用交叉熵损失函数,i代表第i次迭代,λ
l
和λv是对应的平衡因子,m表示迭
代总次数。λ
l
和λv在具体的实验进行不同的设置,不同的数据集以及不同硬件、算法的情况下,设置不一样的平衡因子。
[0028]
进一步地,步骤s4具体包括步骤:
[0029]
s41、向中文识别网络模型输入中文图片数据集及中文文本数据集,中文识别网络模型依照与双向表征自主迭代网络相同的卷积过程进行第一次卷积,得到第1层中文视觉特征和第1层中文语义特征,合称为第1层中文文本特征;
[0030]
s42、迁移模块将由第1层英文视觉特征和第1层英文语义特征组成的第1层英文文本特征迁移到第1层中文文本特征处;
[0031]
s43、中文识别网络模型通过特征运算将第1层英文文本特征和第1层中文文本特征融合成新的中文文本特征进行第二次卷积,得到第2层中文文本特征;
[0032]
s44、按照步骤s42~s43相同的过程进行特征迁移、特征融合、卷积,直至卷积完成,得到第n层中文文本特征;
[0033]
s45、将第n层中文文本特征依次通过平均池化层和全连接层,最后输入到分类层获取预测标签,得到中文文字识别结果。
[0034]
进一步地,在步骤s1中,对不同自然场景下的英文图片和中文图片进行预处理具体为:剔除不满足预设条件的英文图片及中文图片。
[0035]
本发明提供的一种双向表征自主迭代网络下高表征迁移的中文图像识别方法,首先对采集的不同自然场景下的英文图片和中文图片进行预处理(数据去噪),以剔除分辨率较低的图片,以增强训练时的图像数据的特征;然后通过双向表征自主迭代网络对英文数据集(英文图片数据集、英文文本数据集)提取英文文本特征并生成相应的特征权重参数矩阵;进一步使用特征权重参数矩阵权重矩阵对中文识别网络模型进行初始化,从而加快微调模型性能提高的速度;以及将英文文本特征迁移到中文识别网络模型中,与根据中文数据集(中文图片数据集、中文文本数据集)得到的中文文本特征相融合,生成新的中文文本特征参与下次卷积,依次类推,从而保证中文训练时特征的多样性,实现高表征迁移,卷积完成后通过平均池化层、全连接层、分类层得到中文文字识别结果。
[0036]
本发明通过迁移学习改变了传统训练神经网络模型的固有模式,增加了使用其他域进行预训练(双向表征自主迭代网络)的步骤,参数计算量显著减少,降低计算资源损耗、减少内存占用,缩短训练时间,识别率、运算速度、稳定性、鲁棒性显著提高。
附图说明
[0037]
图1是本发明实施例提供的双向表征自主迭代网络下高表征迁移的中文图像识别方法的流程图;
[0038]
图2是本发明实施例提供的双向表征自主迭代网络的框架结构图;
[0039]
图3是本发明实施例提供的双向表征自主迭代网络的双向表征自主迭代网络下高表征迁移的中文图像识别方法的另一流程图。
具体实施方式
[0040]
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护
范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
[0041]
针对,识别网络模型效果差等问题,本发明实施例提供一种双目前基于深度学习的中文图像识别方法,面临着数据集小向表征自主迭代网络下高表征迁移的中文图像识别方法,如图1所示,包括步骤:
[0042]
s1、采集不同自然场景下的英文图片和中文图片进行预处理后,得到对应的英文图片数据集和中文图片数据集,并对英文图片数据集和中文图片数据集进行文本提取,得到对应的英文文本数据集和中文文本数据集;
[0043]
s2、采用英文图片数据集及英文文本数据集对构建的双向表征自主迭代网络进行训练,训练完成后得到英文视觉特征、英文语义特征以及特征权重参数矩阵;
[0044]
s3、通过迁移模块将特征权重参数矩阵迁移至中文识别网络模型,采用特征权重参数矩阵对构建的中文识别网络模型的网络参数进行初始化;
[0045]
s4、采用中文图片数据集及中文文本数据集、英文视觉特征、英文语义特征对初始化后的中文识别网络模型进行训练。
[0046]
针对步骤s1,本实施例采用的中英文(文字、图片)数据集中包含了多种自然场景,比如实验室、医院、教室、办公室、沙漠、森林、操场等,而且自然场景对于文字识别的影响程度更不相同,这种数据在识别过程中,存在对不确定外观属性、光照程度、低像素的文本识别效果差和文档矫正、识别和归档问题,并且数据来自实际,存在各种不确定性因素会对模型的稳定性和精确性提出很高的要求,特征学习难度大,之前所做的研究大都缺乏可解释性。
[0047]
场景文本作为固有的自然场景内容随机地存在于图像当中(比如道路指示牌、商品名称、广告牌等),与叠加文本相比,自然场景文本在字体大小、类型、颜色、排列方向等方面具有更大的复杂性。自然场景文本区域的视觉特性主要体现在以下几个方面:
[0048]
1)对比度属性:文本作为人类社会人际沟通的信息载体,可读性是自然场景文本具有存在意义的基本要求,自然场景文本相对其背景区域而言,其灰度、颜色信息往往具有较明显的对比度;
[0049]
2)梯度、边缘属性:文本通常具有复杂的空间结构,因此文本区域往往存在相对密集的边缘以及较明显的梯度信息;
[0050]
3)灰度、颜色属性:为了视觉上的舒适性,往往选择与背景有明显反差的颜色进行书写,且文本的颜色与灰度分布均匀;
[0051]
4)笔画宽度属性:尽管文本由不同的笔画组成,但同一个文本中的笔画宽度近似相等;
[0052]
5)几何大小属性:自然场景文本具有任意的尺寸大小,但为了满足人眼视觉要求,自然场景文本的尺寸通常满足一定的变化范围;
[0053]
6)视觉上下文属性:在同一个文本行区域内,相邻文本之间具有笔画宽度、颜色、高度以及像素灰度值相近等特点;
[0054]
7)空间分布属性:文本在图像中通常以文本行的形式存在,相邻文本之间的排列方式是任意的,其间隔距离通常满足一定的规律。
[0055]
本实施例为了更好地提取特征,在采集不同自然场景下的英文图片和中文图片之后,需要先对其进行预处理,就是图2中的数据去噪,因为有些图片是由于光照或者拍照角
度等原因,出现一些模糊或者一些其他情况(比如文本区域被大面积遮挡,文本区域光照严重不均等明显属于噪声的情形),导致一些数据不能用,要剔除。图片尽可能清晰,图片大小、字符串的长度、高度所占图片的整体大小不做严格要求,图片数量在千张以上。
[0056]
针对步骤s2,如图2所示,双向表征自主迭代网络包括视觉模块、语义模块和融合模块。
[0057]
视觉模块用于提取英文图片数据集的英文视觉特征fv:
[0058][0059]
其中,ρ(
·
)表示用于向视觉模块输入图像x的图像处理函数,γ(
·
)表示由主干网络resnet和注意力模块组合作用的特征提取函数,h、w是英文图片数据集中任一图片的高和宽,c表示通道数,黑白图像的通道数c=1,而rgb彩色图像的通道数c=3,r表示实数域。注意力模块模拟的是人脑的注意力模型,举个例子来说,当观赏一幅画时,虽然可以看到整幅画的全貌,但是在深入仔细地观察时,眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不均衡,而是具有一定的权重区分。
[0060]
从图2可以看到,双向表征自主迭代网络基于提取的英文视觉特征fv通过softmax函数输出英文视觉预测结果,表示为:
[0061][0062]
其中,softmax(
·
)表示softmax函数,是英文图片中字符序列的位置编码,t表示字符序列的长度,c是特征维数,由相比u-net规模更小的微型u-net2实现,h、w是英文图片数据集中任一图片的高和宽,是身份映射函数。对于身份映射函数映射的概念为:
[0063]
设x、y是两个非空集合,如果存在一个法则f,使得对x中每个元素x,按法则f在y中有唯一确定的元素y与之对应,那么称f为从x到y的映射,记作
[0064]
f:x
→y[0065]
其中y称为元素x(在映射f下)的像,并记作f(x),即y=f(x);而元素x称为元素y(在映射f下)的一个原像;集合x称为映射f的定义域,记作即df,即df=x;x中所有元素的像所组成的集合称为映射f的值域,记作rf或f(x),即rf=f(x)=f(x)|x∈x。
[0066]
语义模块用于提取英文文本数据集的英文语义特征f
l
,其基于多头注意力机制和前馈函数,多头注意力机制使得有的头部用于关注局部信息,有的头部用于关注全局信息,各个头部各司其职,从而关注到英文文本各方面的特征。前馈函数即代表前馈神经网络。
[0067]
融合模块用于对英文视觉特征fv和英文语义特征f
l
进行融合后采用softmax函数进行归一化,其中融合后的特征为:
[0068]
g=σ([fv,f
l
]wf)
[0069]
其中,σ()表示使fv和f
l
的矩阵保持一致的函数,表示fv和f
l
的权重参
数,fv和f
l
的权重参数相同,wf在具体实验的时候进行定义,
[0070]
视觉模块具有n层卷积层,以对输入的英文图片数据集进行n次卷积,每次卷积后输出对应的英文视觉特征;语义模块具有n层卷积层,以对输入的英文文本数据集进行n次卷积,每次卷积后输出对应的英文语义特征。在图3中,将视觉模块的第n层卷积层与语义模块的第n层卷积层看作一层的卷积层,经过该层卷积得到的英文文本特征则包括英文视觉特征和英文文本特征,n=1,2,

,n,n≥3。
[0071]
在训练过程中,通过迭代原理重新细化视觉模块和语义模块的预测,其中的错误预测作为噪声进行处理,通过反复将语义模块的输出作为全新的数据输入视觉模块、视觉模块重新执行,逐步细分预测,以解决文本的长度不对齐等问题,以矫正视觉模块的预测效果。视觉模块执行第n次卷积后输出第n层英文视觉特征,语义模块执行第n次卷积后输出第n层英文语义特征。融合模块对第n层英文视觉特征和第n层英文语义特征进行融合后采用softmax函数进行归一化得到第n层特征权重参数矩阵,随即第n层特征权重参数矩阵、第n层英文文本特征(包括第n层英文语义特征、第n层英文视觉特征)被迁移至中文识别网络模型的对应层,然后视觉模块、语义模块再执行下一层的卷积、融合模块进行下一层所得特征的融合,再迁移至中文识别网络模型的下一层,以此类推。
[0072]
在本实施例中,所述双向表征自主迭代网络采用的损失函数为:
[0073][0074]
其中,表示视觉模块的损失,表示语义模块的损失,表示融合模块的损失,i代表第i次迭代,λ
l
和λv是对应的平衡因子,m表示迭代总次数。
[0075]
在本例中,均采用交叉熵损失函数,交叉熵公式为:
[0076][0077]
其中,p(x)来表示样本的真实分布,q(x)来表示模型所预测的分布,n为数据集的数量,p代表真实样本,q代表模型预测。
[0078]
交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。交叉熵在分类问题中常常与softmax是标配,softmax将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。
[0079]
针对步骤s4,其具体包括步骤:
[0080]
s41、向中文识别网络模型输入中文图片数据集及中文文本数据集,中文识别网络模型依照与双向表征自主迭代网络相同的卷积过程进行第一次卷积,得到第1层中文视觉特征和第1层中文语义特征,合称为第1层中文文本特征;
[0081]
s42、迁移模块将由第1层英文视觉特征和第1层英文语义特征组成的第1层英文文本特征迁移到第1层中文文本特征处;
[0082]
s43、中文识别网络模型通过特征运算将第1层英文文本特征和第1层中文文本特
征融合成新的中文文本特征进行第二次卷积,得到第2层中文文本特征;
[0083]
s44、按照步骤s42~s43相同的过程进行特征迁移、特征融合、卷积,直至卷积完成,得到第n层中文文本特征;
[0084]
s45、将第n层中文文本特征依次通过平均池化层和全连接层,最后输入到分类层获取预测标签,得到中文文字识别结果。
[0085]
在步骤s43中,进行特征融合采用的公式为:
[0086]
t(y)=h(g(x),y)
[0087]
其中,t(y)表示融合后的中文文本特征,x表示迁移前的英文文本特征,y表示融合后的中文文本特征,g(
·
)表示特征迁移过程,h(
·
)表示进行特征融合的函数(直接进行特征相加)。
[0088]
在步骤s45中,分类层的预测概率为:
[0089]
p(yi=g|xi)=softmax(w
st
h(x
t
) b
t
)
[0090]
其中,w
st
代表源域(英文数据集)和目标域(中文数据集)共同学习到的参数矩阵,h(x
t
)、b
t
分别为目标域中的特征输出和偏置量,p(yi=g|xi)是指融合后的第i层的中文文本特征yi对应目标域的输入图像xi的真值标签为g的预测概率。
[0091]
综上所述,本发明实施例提供的一种双向表征自主迭代网络下高表征迁移的中文图像识别方法,首先对采集的不同自然场景下的英文图片和中文图片进行预处理(数据去噪),以剔除分辨率较低的图片,以增强训练时的图像数据的特征;然后通过双向表征自主迭代网络对英文数据集(英文图片数据集、英文文本数据集)提取英文文本特征并生成相应的特征权重参数矩阵;进一步使用特征权重参数矩阵权重矩阵对中文识别网络模型进行初始化,从而加快微调模型性能提高的速度;以及将英文文本特征迁移到中文识别网络模型中,与根据中文数据集(中文图片数据集、中文文本数据集)得到的中文文本特征相融合,生成新的中文文本特征参与下次卷积,依次类推,从而保证中文训练时特征的多样性,实现高表征迁移,卷积完成后通过平均池化层、全连接层、分类层得到中文文字识别结果。
[0092]
本发明实施例通过迁移学习改变了传统训练神经网络模型的固有模式,增加了使用其他域进行预训练(双向表征自主迭代网络)的步骤,参数计算量显著减少,降低计算资源损耗、减少内存占用,缩短训练时间,识别率、运算速度、稳定性、鲁棒性显著提高。
[0093]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献