一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

脱机手写维吾尔文数据库的构建方法、装置及其存储介质与流程

2022-02-20 16:29:47 来源:中国专利 TAG:

技术特征:
1.脱机手写维吾尔文数据库的构建方法,其特征在于,所述构建方法包括语料收集的步骤和语料处理的步骤;所述语料包含有常用的维吾尔文手写字符;该构建方法还包括在语料处理步骤后进行段落文本的校正和行文本的构建;所述语料收集需配合专属手写表单进行书写、扫描;所述语料处理需对表单文本进行校正和提取;所述段落文本在校正后,段落文本的文本标签与专属手写表单上的书写样式对应,且每行的文本内容与专属手写表单上每行的书写内容保持一致;所述行文本构建完成后,行文本切分后的行标签、行内容与专属手写表单上的书写样式、书写内容完全对应。2.根据权利要求1所述的脱机手写维吾尔文数据库的构建方法,其特征在于,所述语料收集的步骤包括:a1、通过脚本获取天山网维文板块新闻作为手写语料的参照库;a2、制作专属手写表单参考,根据专属手写表单估算每个书写人员需要书写的文本量,从而对手写语料进行分配书写;a3、将书写人员书写完成的手写表单进行扫描、录入;所述书写人员包含各个年龄、各个学历,且在填写表单期间所述书写人员的书写风格、书写惯用手以及书写工具不做限制;所述扫描后形成的图像的分辨率为600dpi。3.根据权利要求1所述的脱机手写维吾尔文数据库的构建方法,其特征在于,所述表单文本的校正包括如下步骤:b1、使用多边形拟合算法由外到内逼近文本矩形区域;b2、确定区域后生成最小外接矩形并得到矩形四个角的坐标;b3、通过一组坐标围成的矩形区域,找到矩形的中心点坐标、长宽和偏转角度;偏转角度记为θ,对图像逆时针旋转θ
°
得到矫正后图像;b4、仿射变换将外接矩形中的内容投影到分辨率为1400
×
1400的图像上,通过以上步骤完成图像的校正与提取。4.根据权利要求3所述的脱机手写维吾尔文数据库的构建方法,其特征在于,所述仿射变换可以表示为2x3的矩阵h,由设定的矩阵a和向量b组成;其中:a中的对角线决定图像的缩放,反对角线决定旋转;b代表图像的平移;5.根据权利要求3所述的脱机手写维吾尔文数据库的构建方法,其特征在于,对b4步骤所得的图像使用漫水填充中的四邻域种子填充算法进行边框消除;完成后得到无边框图像。6.根据权利要求5所述的脱机手写维吾尔文数据库的构建方法,其特征在于,对所述无边框图像进行灰度化处理;然后使用otsu二值化处理得到无边框的手写段落文本图像。7.根据权利要求1或6所述的脱机手写维吾尔文数据库的构建方法,其特征在于,标注
人员根据专属手写表单上抄写的书写样式,对无边框段落文本图像的文本标签进行换行和删除,做到逐行对应;完成所述段落文本的校正。8.根据权利要求1所述的脱机手写维吾尔文数据库的构建方法,其特征在于,所述行文本构建包括行切分处理和行标签校正;所述行切分处理包括以下步骤:c1、采用形态学图像处理中的闭运算方法获取roi区域;c2、计算所有roi图像分辨率大小,并对150000分辨率以下的图像进行丢弃;c3、人工剔除切分失误的图像,对切分错误的图像进行删除;c4、获取剩下所有roi图像坐标,并根据坐标进行排序,使输出的顺序与原文本一致;所述行标签校正是在行切分处理完成后,对段落文本校正后的图像进行逐行比对,在与切分结果验证后,删除错误切分的图像和对应标签,确保数据与标签完全对应。9.一种脱机手写维吾尔文数据库的构建装置,其特征在于,所述装置包括存储器和处理器,所述存储器中存储有数据、程序和指令;所述数据、程序和指令由所述处理器加载并执行,实现如权利要求1至权利要求8任一项所述的脱机手写维吾尔文数据库的构建方法所执行的操作。10.一种可读存储介质,其特征在于,所述存储介质中存储有数据、程序和指令;所述数据、程序和指令由所述处理器加载并执行,实现如权利要求1至权利要求8任一项所述的脱机手写维吾尔文数据库的构建方法所执行的操作。

技术总结
脱机手写维吾尔文数据库的构建方法、装置及其存储介质,其特征在于,所述构建方法包括语料收集的步骤和语料处理的步骤;所述语料包含有常用的维吾尔文手写字符;该构建方法还包括在语料处理步骤后进行段落文本的校正和行文本的构建;所述语料收集需配合专属手写表单进行书写、扫描;所述语料处理需对表单文本进行校正和提取;该发明通过简便的构建方法快速、系统的实现了脱机手写维吾尔文数据库的构建,通过专属手写表单避免了切分不彻底等切分过程中的难题,通过简便的数据收集、数据处理、段落文本的校正、行文本的构建为其它的研究人员提供了参考,同时通过该数据库为科研提供了研究基层,且大大的便利了维吾尔族的生活。且大大的便利了维吾尔族的生活。且大大的便利了维吾尔族的生活。


技术研发人员:阿布都克力木
受保护的技术使用者:新疆财经大学
技术研发日:2021.11.03
技术公布日:2022/1/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献