一种基于孪生度量模型的印刷汉字字体识别方法与流程

2022-02-20 00:51:36 来源：中国专利 TAG：

1.本发明属于字体识别方法技术领域，特别是涉及一种基于孪生度量模型的印刷汉字字体识别方法。

背景技术：

2.使用ocr（光学字符识别）技术可以将一个汉字图像转化为一个汉字编码，从而录入到计算机中，实现纸质文档的数字化。因此从上世纪80年代以来，ocr一直是模式识别、图像处理和机器学习的研究热点。经过多年的发展，目前对于印刷汉字的识别已经达到了较好的效果，并且开始广泛的应用，比如汉王ocr，百度ocr，阿里ocr。但是现有的中文ocr系统仅能“识字”，录入过程会将格式信息丢失，无法完整恢复原版面。为了使版面复原时可以自动恢复字体，需要对字体进行识别，字体识别是实现“原文重现”的一个重要前提。汉字字体因为汉字类别多、风格多变、形似字多等特点，是模式识别领域的难题之一。
3.目前对于汉字字体识别所采用的方法主要有整体分析法和个体分析法两类。整体分析法以版面区域作为分析对象，这种方法对版面区域内含有多种字体信息的情况无法识别。个体分析法以单个字符作为分析对象，这一类方法可以避免整体分析法在多字体识别中的问题，但是基于人工筛选的特征在识别准确度和效率方面难以做到最优。随着深度学习技术不断发展，cnn作为深度学习的主流网络架构，在诸如目标检测、图像分类等计算机视觉应用研究领域表现突出。但是现有的方法多是用于文字的区域定位，进行自然场景的文字区域提取与识别，并无法精准可靠的识别印刷汉字的字体。并且，由于汉字构造复杂，且在不同书法家手中演变出不同种类的书法字体，现有的深度学习方式难以应对如此种类众多的分类任务，即便能达到同样准确率，模型也会相当庞大。

技术实现要素：

4.为了解决上述问题，本发明提出了一种基于孪生度量模型的印刷汉字字体识别方法，能够在提高汉字字体识别精度和鲁棒性的同时保证识别模型较小、运算速率较快。
5.为达到上述目的，本发明采用的技术方案是：一种基于孪生度量模型的印刷汉字字体识别方法，包括步骤：s10,制作印刷汉字字体数据集包括一系列具有不同字体图像，构建训练集和测试集；s20,利用训练集训练孪生度量模型，孪生度量模型包含有两个结构相同、权重共享的孪生子网络，根据孪生子网络输出的特征向量获取对比损失函数；不断将训练集中不同图像送入孪生度量模型的任一孪生子网络，得到若干个特征向量，利用对比损失函数，构建字体空间；s30,将待检测字体图像输入孪生度量模型，得到特征向量，利用k最邻近算法从字体空间中获取待测字体的字体类型。
6.进一步的是，利用训练集训练孪生度量模型，将两幅字体图像同时经过两个结构
相同、权重共享的孪生子网络，输出第一特征向量和第二特征向量；将第一特征向量和第二特征向量进行距离计算，获取对比损失函数；根据对比损失函数判断如果两个图像相似，使两个孪生子网络输出的第一特征向量和第二特征向量在字体空间中距离接近，反之距离远；不断将训练集中不同图像送入孪生度量模型的任一孪生子网络，经前向传播得到若干个特征向量，构建字体空间。
7.进一步的是，所述孪生子网络包括分解卷积字体特征提取网络和嵌入模块，所述分解卷积字体特征提取网络负责提取字体图像的瓶颈特征向量，并将瓶颈特征向量输入嵌入模块获得嵌入式特征向量。
8.进一步的是，所述分解卷积字体特征提取网络不具有全连接层和输出层，直接连接全连接结构的嵌入模块。
9.进一步的是，在所述孪生度量模型中利用两个结构相同、权重共享的孪生子网络，输出第一嵌入式特征向量和第二嵌入式特征向量；将第一嵌入式特征向量和第二嵌入式特征向量进行距离计算，获取对比损失函数；根据对比损失函数判断如果两个图像相似，使两个孪生子网络输出的嵌入式特征向量在嵌入式字体空间中距离接近，反之距离远。
10.进一步的是，再次训练，不断将训练集中不同图像送入孪生度量模型的任一孪生子网络，得到若干个嵌入式特征向量，经前向传播得到若干嵌入式特征向量，构建嵌入式字体空间。
11.进一步的是，在嵌入式字体空间中，如果输入图像属于相同字体，则两个嵌入式特征向量在嵌入式空间中距离接近，反之距离远；各嵌入式特征向量按照其所属字体分类呈块状聚集。
12.进一步的是，所述分解卷积字体特征提取网络包括依次连接的归一化处理模块、特征提取模块、多种类型的inception模块和平均池化层，输入字体图像依次经过归一化处理模块、特征提取模块、多种类型的inception模块和平均池化层输出瓶颈特征向量。
13.进一步的是，所述嵌入模块为全连接神经网络，包括输入层、隐藏层和输出层；输入层接收瓶颈特征向量经整平操作后得到的一维特征向量；经隐藏层和输出层输出二维嵌入式特征向量。
14.进一步的是，两个孪生子网络输出的特征向量e1和e2之间的距离获取损失函数为：；其中，n为样本对数量，y=0表示两个孪生子网络输入样本为不同样本，y=1表示输入样本为相似样本；表示样本间距离。
15.采用本技术方案的有益效果：本发明在字体识别任务中，利用孪生网络进行相似性判别的同时，可以获得其反馈的嵌入式特征缓存到嵌入式空间，只需度量判别目标与嵌入式空间特征间欧氏距离，对于需要高频率执行的原文重现具有相当优异的性能，且模型具有良好的泛化能力，准确性和鲁棒性要高于其他卷积神经网络。
16.本发明建立孪生度量模型参与字体识别，能够基于小样本集获得相当好的学习效果，获得精准的汉字字体识别。
17.本发明能够应对汉字构造复杂，能够识别不同书法家手中演变出不同种类的书法字体，能够应对种类众多的分类任务，在提高汉字字体识别精度和鲁棒性的同时保证识别模型较小、运算速率较快。
附图说明
18.图1 为本发明的一种基于孪生度量模型的印刷汉字字体识别方法流程示意图；图2 为本发明实施例中一种基于孪生度量模型的印刷汉字字体识别方法的原理示意图；图3 为本发明实施例中分解卷积字体特征提取网络的结构示意图；图4 为本发明实施例中嵌入模块的结构示意图。
具体实施方式
19.为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。
20.在本实施例中，参见图1和图2所示，本发明提出了一种基于孪生度量模型的印刷汉字字体识别方法，包括步骤：s10,制作印刷汉字字体数据集包括一系列具有不同字体图像，构建训练集和测试集；s20,利用训练集训练孪生度量模型，孪生度量模型包含有两个结构相同、权重共享的孪生子网络，根据孪生子网络输出的特征向量获取对比损失函数；不断将训练集中不同图像送入孪生度量模型的任一孪生子网络，得到若干个特征向量，利用对比损失函数，构建字体空间；s30,将待检测字体图像输入孪生度量模型，得到特征向量，利用k最邻近算法从字体空间中获取待测字体的字体类型。
21.在建立制作印刷汉字字体数据集包括一系列具有不同字体图像，构建训练集和测试集时：制作印刷汉字字体数据集，根据一级字库的3755个常用汉字，根据汉字编码表，以及字体文件使用pil工具生成印刷字体图片，图像大小为299
×
299像素。可采用楷体、宋体、黑体、仿宋体、隶书、幼圆、华文新魏等印刷字体进行模型训练和测试。在印刷汉字字体数据集中随机选择80%的图片构成训练数据集，在所有字体小类中没有被选用的图片将会组成测试数据集，用来对后期的算法性能进行评估。
22.作为上述实施例的优化方案1，利用训练集训练孪生度量模型，将两幅字体图像同时经过两个结构相同、权重共享的孪生子网络，输出第一特征向量和第二特征向量；将第一特征向量和第二特征向量进行距离计算，获取对比损失函数；根据对比损失函数判断如果两个图像相似，使两个孪生子网络输出的第一特征向量和第二特征向量在字体空间中距离接近，反之距离远；不断将训练集中不同图像送入孪生度量模型的任一孪生子网络，经前向传播得到若干个特征向量，构建字体空间。
23.作为上述实施例的优化方案2，所述孪生子网络包括分解卷积字体特征提取网络和嵌入模块，所述分解卷积字体特征提取网络负责提取字体图像的瓶颈特征向量，并将瓶颈特征向量输入嵌入模块获得嵌入式特征向量。所述分解卷积字体特征提取网络不具有全
连接层和输出层，直接连接全连接结构的嵌入模块。
24.在所述孪生度量模型中利用两个结构相同、权重共享的孪生子网络，输出第一嵌入式特征向量和第二嵌入式特征向量；将第一嵌入式特征向量和第二嵌入式特征向量进行距离计算，获取对比损失函数；根据对比损失函数判断如果两个图像相似，使两个孪生子网络输出的嵌入式特征向量在嵌入式字体空间中距离接近，反之距离远。
25.再次训练，不断将训练集中不同图像送入孪生度量模型的任一孪生子网络，得到若干个嵌入式特征向量，经前向传播得到若干嵌入式特征向量，构建嵌入式字体空间。如果输入图像属于相同字体，则两个嵌入式特征向量在嵌入式空间中距离接近，反之距离远；各嵌入式特征向量按照其所属字体分类呈块状聚集。
26.作为上述实施例的优化方案3，如图3所示，所述分解卷积字体特征提取网络包括依次连接的归一化处理模块、特征提取模块、多种类型的inception模块和平均池化层，输入字体图像依次经过归一化处理模块、特征提取模块、多种类型的inception模块和平均池化层输出瓶颈特征向量。
27.在分解卷积字体特征提取网络中，将299*299*3的图像进行归一化，依次经过三个卷积层，卷积核和步长分别为3
×
3/2，3
×
3/1，3
×
3/1，再通过3
×
3/2池化操作，得到特征图c1，大小为73
×
73
×
64。
28.再将特征图c1依次经过三个卷积层，卷积核和步长分别为3
×
3/1，3
×
3/2，3
×
3/1，得到特征图c2，大小为35
×
35
×
288。
29.再将特征图c2依次经过三种类型inception模块，得到特征图c3大小为8
×8×
2048。
30.最后c3再通过平均池化层，得到瓶颈特征为1
×1×
2048。
31.作为上述实施例的优化方案4，如图4所示，所述嵌入模块为全连接神经网络，包括输入层、隐藏层和输出层；输入层接收瓶颈特征向量经整平操作后得到的一维特征向量；经隐藏层和输出层输出二维嵌入式特征向量。
32.嵌入模块是一个三层简单全连接神经网络。输入层为2048个神经单元，接收瓶颈特征向量经flatten整平操作后得到的一维特征向量。隐藏层为512个神经单元，输出层为2个神经单元。
33.作为上述实施例的优化方案4，两个孪生子网络输出的特征向量e1和e2之间的距离获取损失函数为：；其中，n为样本对数量，y=0表示两个孪生子网络输入样本为不同样本，y=1表示输入样本为相似样本；表示样本间距离，可采用欧氏距离：；e为自定义阈值，当样本不同且欧氏距离小于e时，该距离纳入损失函数进行计算，处理字形不同但相似的情况。根据需要可以调整e，以控制识别度。
34.为了更好的理解本发明，下面对本发明的对各个部分的工作原理进行说明：所述利用训练集对孪生度量模型进行训练，获取孪生度量模型过程如下：
首先构建分解卷积字体特征提取网络作为瓶颈特征提取模块，将训练过的卷积神经网络模型的强大的特征提取能力应用到印刷汉字字体识别任务中。特征提取模块将印刷汉字字体图像转化为一维特征向量。印刷汉字字体图像的特征向量，被送入孪生网络，得到二维嵌入式空间特征，从而完成特征的降维。在嵌入式空间中，采用knn分类器，对印刷汉字字体图像进行分类，最终实现汉字字体识别。
35.本发明采用孪生网络结构，通过印刷汉字字体成对图像训练时，便于同类字体和不同类字体特征的比较，提供相似字体的识别能力，提供对于汉字字体的识别精度。同时采用孪生网络利用两个网络直之间的相互作用能够基于小样本集获得相当好的学习效果。本识别模型在保证识别精度的同时结构较小，提高运算速度。
36.本发明利用分解卷积字体特征提取网络能够精准提取字体图像的瓶颈特征向量，并通过对两个网络中分解卷积字体特征提取网络进行相互的冻结权重，能够有效提供对于字体相似度的识别能力。
37.本发明利用瓶颈特征嵌入特征提取过程，可以将高维特征进行有效降维，提高特征的代表性，降低度量计算的复杂度，同时通过共享权重能够有效提供对于字体相似度的识别能力。
38.本发明利用嵌入特征的度量计算，通过欧氏距离，评估汉字字体样本特征之间的相似度，作为字体识别的依据。
39.本发明再通过样本欧式距离计算对比损失函数，使模型在训练过程中，同类字体样本特征尽量接近，不同类字体样本特征尽量远离，便于聚类。
40.本发明采用训练模型，将特征提取能力迁移到印刷汉字字体识别任务中，减少了数据集样本规模。本发明采用混合模型实现了特征压缩和聚类的监督学习方式。
41.该发明在训练完成情况下，检测精度达到了99.19%。本发明检测所述的方法具有较高的检测精度，该方法能够准确，识别印刷汉字字体格式，可应用于以下几个方面：使用字体信息辅助识别引擎，从而取得更高的识别率；可以用来区分不同的排版和文章结构；有助于文档格式信息恢复。
42.以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据分析方法、装置及电子设备与流程

一种基于孪生度量模型的印刷汉字字体识别方法与流程

相关文献

最热文献