脱机手写维吾尔文数据库的构建方法、装置及其存储介质与流程

2022-02-20 16:29:47 来源：中国专利 TAG：

1.本发明涉及文字信息处理技术领域，具体是脱机手写维吾尔文数据库的构建方法、装置及其存储介质。

背景技术：

2.脱机手写识别是向机器传输个人手写图像后，得到图像上文字结果的过程。脱机手写识别系统广泛应用于处理手写票据、手写试卷、手写快递单等实际工作场景中；因此该技术的普及，在面对大量手写文本时，可以带来不少便利；脱机手写数据库是脱机手写识别系统发展必不可少的资源，而手写识别的前提条件便是拥有该语言的数据库，但目前在已知的脱机手写语言数据库中，还缺少一个维吾尔文脱机手写数据库，由于维吾尔文脱机手写数据库在进行处理时相较于印刷体会面临更大的挑战，一段印刷体维吾尔文字总体上符合规则的排列模式，在进行行切分时具有明显的分界线，那么通过投影切割法会很容易实现行切分；但是自然手写维吾尔文往往具有个人的随意性、其中行与行之间粘连、手写字符标签收集等问题都将增加数据库构建的难度，而且维吾尔文手写数据集资源稀少，且并没有完整的构建方法；
3.基于此，本发明设计了脱机手写维吾尔文数据库的构建方法、装置及其存储介质，以解决上述问题。

技术实现要素：

4.本发明所要解决的技术问题是提供脱机手写维吾尔文数据库的构建方法、装置及其存储介质，可以有效解决上述背景技术中提出的问题。
5.为解决上述问题，本发明所采取的技术方案是：脱机手写维吾尔文数据库的构建方法、装置及其存储介质，其特征在于，所述构建方法包括语料收集的步骤和语料处理的步骤；所述语料包含有常用的维吾尔文手写字符；该构建方法还包括在语料处理步骤后进行段落文本的校正和行文本的构建；
6.所述语料收集需配合专属手写表单进行书写、扫描；
7.所述语料处理需对表单文本进行校正和提取；
8.所述段落文本在校正后，段落文本的文本标签与专属手写表单上的书写样式对应，且每行的文本内容与专属手写表单上每行的书写内容保持一致；
9.所述行文本构建完成后，行文本切分后的行标签、行内容与专属手写表单上的书写样式、书写内容完全对应。
10.作为本发明的进一步优选方案，所述语料收集的步骤包括：
11.a1、通过脚本获取天山网维文板块新闻作为手写语料的参照库；
12.a2、制作专属手写表单参考，根据专属手写表单估算每个书写人员需要书写的文本量，从而对手写语料进行分配书写；
13.a3、将书写人员书写完成的手写表单进行扫描、录入；
14.所述书写人员包含各个年龄、各个学历，且在填写表单期间所述书写人员的书写风格、书写惯用手以及书写工具不做限制；所述扫描后形成的图像的分辨率为600dpi。
15.作为本发明的进一步优选方案，所述表单文本的校正包括如下步骤：
16.b1、使用多边形拟合算法由外到内逼近文本矩形区域；
17.b2、确定区域后生成最小外接矩形并得到矩形四个角的坐标；
18.b3、通过一组坐标围成的矩形区域，找到矩形的中心点坐标、长宽和偏转角度；偏转角度记为θ，对图像逆时针旋转θ
°
得到矫正后图像；
19.b4、仿射变换将外接矩形中的内容投影到分辨率为1400
×
1400的图像上，通过以上步骤完成图像的校正与提取。
20.作为本发明的进一步优选方案，所述仿射变换可以表示为2x3的矩阵h，由设定的矩阵a和向量b组成；其中：
21.a中的对角线决定图像的缩放，反对角线决定旋转；b代表图像的平移；
[0022][0023]
作为本发明的进一步优选方案，对b4步骤所得的图像使用漫水填充中的四邻域种子填充算法进行边框消除；完成后得到无边框图像。
[0024]
作为本发明的进一步优选方案，对所述无边框图像进行灰度化处理；然后使用otsu二值化处理得到无边框的手写段落文本图像。
[0025]
作为本发明的进一步优选方案，标注人员根据专属手写表单上抄写的书写样式，对无边框段落文本图像的文本标签进行换行和删除，做到逐行对应；完成所述段落文本的校正。
[0026]
作为本发明的进一步优选方案，所述行文本构建包括行切分处理和行标签校正；所述行切分处理包括以下步骤；
[0027]
c1、采用形态学图像处理中的闭运算方法获取roi区域；
[0028]
c2、计算所有roi图像分辨率大小，并对150000分辨率以下的图像进行丢弃；
[0029]
c3、人工剔除切分失误的图像，对切分错误的图像进行删除；
[0030]
c4、获取剩下所有roi图像坐标，并根据坐标进行排序，使输出的顺序与原文本一致；
[0031]
所述行标签校正是在行切分处理完成后，对段落文本校正后的图像进行逐行比对，在与切分结果验证后，删除错误切分的图像和对应标签，确保数据与标签完全对应。
[0032]
本发明还涉及一种脱机手写维吾尔文数据库的构建装置，所述装置包括存储器和处理器，所述存储器中存储有数据、程序和指令；所述数据、程序和指令由所述处理器加载并执行，实现如上所述的脱机手写维吾尔文数据库的构建方法所执行的操作。
[0033]
本发明还涉及一种可读存储介质，所述存储介质中存储有数据、程序和指令；所述数据、程序和指令由所述处理器加载并执行，实现如上所述的脱机手写维吾尔文数据库的构建方法所执行的操作。
[0034]
与现有技术相比，本发明提供了脱机手写维吾尔文数据库的构建方法、装置及其
存储介质，具备以下有益效果：
[0035]
该发明通过简便的构建方法快速、系统的实现了脱机手写维吾尔文数据库的构建，完善了技术发展的部分缺口，为我国发展提供了一大助力；通过专属手写表单避免了切分不彻底等切分过程中的难题，通过简便的数据收集、数据处理、段落文本的校正、行文本的构建为其它的研究人员提供了参考，同时通过该数据库为科研提供了研究基层，且大大的便利了维吾尔族的生活。
附图说明
[0036]
图1为本发明流程图；
[0037]
图2为本发明语料收集流程图；
[0038]
图3为本发明语料处理流程图；
[0039]
图4为本发明文本语料集参考图；
[0040]
图5本发明手写文本示意图；
[0041]
图6本发明文本信息提取图像示意图；
[0042]
图7为本发明灰度化处理图像示意图；
[0043]
图8为本发明二值化处理图像示意图；
[0044]
图9为本发明无边框段落文本图像示意图；
[0045]
图10为本发明手写文本格式图像参考图；
[0046]
图11为本发明文本行图像示意图；
[0047]
图12为本发明数据标签图像示意图；
[0048]
图13为本发明专属手写表单示意图；
[0049]
图14为本发明行文本图像示意图。
具体实施方式
[0050]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。
[0051]
本发明提供脱机手写维吾尔文数据库的构建方法，其特征在于，所述方法包括如下步骤：
[0052]
1、数据收集；
[0053]
1.1、选取天山网维文版(http://uy.ts.cn/)2019年2月至8月发表的319篇新闻和2020年4月至12月发表的102篇新闻，共计421篇，作为数据库文本标签；包括国内外新闻、记者会、最新会议、国内最新颁布的法律、最新政策等。
[0054]
1.2、使用专属手写表单对书写格式进行限制，使得在切分和提取步骤中难度减小，进而会给后续的工作增加便利性；所述专属手写表单包括书写表单和间距标线表单；所述间距标线表单的行间距为1～3.5cm；标准化的手写表单为建库提供更高的采集效率；专属手写表单通过书写表单和间距标线表单的结合使用，对于书写者有一定的行间距书写限制，能提高后续工作效率。
[0055]
1.3、书写者把间距标线表单放在手写表单之下进行书写，书写完成后，扫描成600dpi分辨率的图像；
[0056]
在填写表单期间，书写人员对书写风格或书写工具不做任何限制，保证样本的随机性；且书写人员包含各个年龄段、各个学历；更多的年龄层次和学历层次可以带来更多元化的笔迹样式；测试数据集更具挑战性；男性占总书写人员的44.84％，女性占55.15％；做到在保证样本随机性的同时，男女比例相对均衡。
[0057]
维吾尔文是具有粘连、多形态、书写多为草书等特点。总共有34种字符，有32个维吾尔文基本字符和2个特殊组件字符，基本类型中包含8个元音字母和24个辅音字母。字母有独立、前连、双连和后连四种表示形式。通过这不同形式的排列组合共计有128个字母，在语料收集时需要包含有全部或90％的常用维吾尔文手写字符。
[0058]
2、数据处理包括：
[0059]
2.1、根据多边形的最小外接矩形的一条边必然与多边形的其中一条边共线。
[0060]
2.2、遍历多边形的边，拟合外接矩形。
[0061]
2.3、比较所有外接矩形的面积，选择最小的外接矩形。
[0062]
2.4、得到box2d结构的坐标点集和旋转角度。
[0063]
2.5、根据旋转角度进行放射变换投影到分辨率为1400
×
1400的图像上，设定矩阵a和向量b；其中：
[0064]
a中的对角线决定图像的缩放，反对角线决定旋转；b代表图像的平移；
[0065]
仿射变换可以表示为2x3的矩阵h，由矩阵a和向量b组成；
[0066][0067]
2.6、使用漫水填充中的四邻域种子填充算法对放射变换投影后的图像进行边框消除；先给定一个种子点作为起始点，向附近相邻的像素点扩散，找到颜色相同或者相近的所有点，并填充新的颜色；重复上述操作，直到没有新的像素被填充，这些点最后会形成一个连通的区域，以此消除图像边框，得到无边框图像；
[0068]
2.7、对无边框图像进行灰度化处理，所述灰度化处理具采用加权平均法；
[0069]
2.8、对灰度化处理后的无边框图像进行otsu全局阈值算法处理；周围进行加权平均，根据每个图像自身特点去设置合理的阈值。
[0070]
3、进行行切分处理；
[0071]
3.1、使用形态学图像处理中的闭运算方法处理经二值化处理后的无边框图像；运算结束之后的连通域图像就是需要提取的文本行位置；返回所有连通域图像；膨胀部分选取50
×
50的卷积核，腐蚀部分采用10
×
10的卷积核；腐蚀膨胀次数均为1；
[0072]
3.2、保存图像时对连通域分辨率进行限制，筛选符合条件的图像：
[0073]
if(image_size《150000){删除}else{为roi区域}；
[0074]
roi图像坐标设置为(xi，yi)(i＝1,2,3
……
n)；
[0075]
3.3、根据坐标，对连通域图像进行排序，保证序号与文本顺序一致，即：
[0076]
对yi降序排序得到列表h；根据h顺序保存每一组(xi，yi),得到排列顺序的roi区域，所述roi区域为行切分图像或行文本图像。
[0077]
4、标签处理：
[0078]
4.1、对文本标签进行编辑，保证文本标签与手写图像每行的内容一致；
[0079]
4.2、行切分之后对手写图像和标签进行逐行比对，删除错误切分的图像和对应标签，确保数据与标签完全对应。
[0080]
最终得到1400
×
1400像素的二值无边框手写文档图像、切分而成的文本行图像和它们分别对应的标签。
[0081]
作为本发明的一个具体实施例:
[0082]
首先规划书写者年龄、学历和性别分布；然后使用自主设计表单收集书写者的手写数据；再采用多边形拟合方法逼近手写区域获取区域边框的中心坐标和偏转角度，并根据偏转角度对图像进行仿射变换，完成图像矫正和提取；利用漫水填充方法消除图像边框和噪音得到无边框段落图像；将图像进行灰度化和otsu二值化处理后采用形态学闭运算，经过固定阈值筛选之后得到roi图像；再对roi图像坐标列表进行排序得到最后文本行图像；最终对文本标签进行编辑，保证文本标签与手写图像每行的内容一致；行切分之后对现有的图像和标签进行逐行比对，删除错误切分的图像和对应标签，确保数据与标签完全对应。
[0083]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种行业政策信息管理预测方法、系统、终端及存储介质与流程

脱机手写维吾尔文数据库的构建方法、装置及其存储介质与流程

相关文献

最热文献