一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于手写汉字识别的文本分割方法与流程

2022-10-13 03:54:49 来源:中国专利 TAG:


1.本发明涉及数据识别处理技术领域,具体涉及一种用于手写汉字识别的文本分割方法。


背景技术:

2.汉字是人们用来交流的工具,纸质媒介是记录汉字的传统媒介,然而随着信息时代的来临,人们逐渐转而更为采用先进的计算机、网络、通讯等信息处理技术存放与处理汉字。在经过大量的研究之后人们发现对手写体文本的识别中由于分割不当引起的识别错误比由于字形不规范和分类器性能不佳而引起的错误还要多。也就是说只有当每一个单独的汉字都能从文本图像中准确的分割出来才有可能进行正确的字符识别。
3.由于个人的书写习惯,汉字书写随意往往会造成字体扭曲变形、字号大小不一致、连笔和乱笔等现象,并且每一行汉字并不能做到严格水平布置,从而产生倾斜和扭曲,甚至出现相邻行的粘连现象,这些都是不可避免的。目前,对于汉字切分的方法主要有基于汉字结构的切分方法、基于识别的切分方法、基于词的整体切分方法以及基于统计的切分方法等。这些方法容易将相离或不粘连的汉字部件切分开,然而对于字符间发生严重粘连或交叠的情况,这些方法由于找不到准确的切分位置,容易造成粘连字符的错误合并。


技术实现要素:

4.为了解决上述技术问题,本发明提供一种用于手写汉字识别的文本分割方法,所采用的技术方案具体如下:本发明一个实施例提供了一种用于手写汉字识别的文本分割方法,该方法包括以下步骤:采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以所述外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将所述外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行;对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据所述宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块;根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率;以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。
5.优选的,所述二值图像的获取方法为:将所述文本图像进行灰度化得到灰度图像,通过均值滤波对灰度图像去噪,利用大津算法获取去噪后的灰度图像的最佳阈值,将灰度值小于最佳阈值的像素点赋值为第一预设值,灰度值不小于最佳阈值的像素点赋值为第二预设值,得到所述二值图像。
6.优选的,所述外接矩形的获取方法为:对所述二值图像进行逐行和逐列遍历,选取第一个和最后一个含有第一预设值的像素点的行作为矩形的宽,选取第一个和最后一个含有第一预设值的像素点的列作为矩形的高,组成字体区域的所述外接矩形。
7.优选的,所述根据每个子矩形中每一行的像素值将对应的子矩形分行,包括:对于每个子矩形,从上到下统计每行像素点中像素值为第一预设值的数量,并构建直方图,对所述直方图进行波动曲线拟合,统计拟合的曲线中每个波峰点的横坐标,以每个横坐标作为高度在子矩形上作水平直线,将每条水平直线通过的字符连通域标记,将标记的连通域根据所处的不同直线进行分行;对于未标记的字符连通域,根据字符连通域与水平直线之间的位置关系进行分行。
8.优选的,所述根据字符连通域与水平直线之间的位置关系进行分行,包括:对于两条相邻水平直线之间的未标记的字符连通域,令其与距离最近的标记的字符连通域合并;对于同时通过两条相邻水平直线的未标记的字符连通域,对两条相邻水平直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据每个连通域所属的直线进行分行;若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为第一预设值的数量,取最小数量的行作为分割线进行划分;若被分成多个部分连通域,令每个通过水平直线的部分连通域与距离最近的通过水平直线的字符连通域合并。
9.优选的,所述根据粘连字符块的粘连特征将粘连字符块分割,包括:获取每个粘连字符块的垂直投影直方图,对垂直投影直方图进行波动曲线拟合,从左至右依次统计波谷点的横坐标,按照横坐标的顺序依次在该粘连字符块的长度边上做垂线,若垂线上通过有两个及以上的连通域,计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域作为单个字符块;若垂线上只通过一个连通域,在垂线对应的垂直投影直方图上左右两侧范围内,选取最小纵坐标值对应的横坐标值为分割线,令分割线左侧区域为单个字符块。
10.优选的,所述第一成字概率的获取方法为:计算每行中所有字符块的平均宽度,当相邻两个字符块的宽度之和小于等于平均宽度时,以所述宽度之和与平均宽度的比值作为所述第一成字概率;当相邻两个字符块的宽度之和大于平均宽度时,以平均宽度的预设倍数减去两个字符块的宽度之和的结果作为分子,以平均宽度作为分母,得到的比值即为所述第一成字概率。
11.优选的,所述第二成字概率的获取方法为:计算每行中所有字间距的平均值作为平均字间距,当相邻两个字符块之间的字间距大于等于所述平均字间距时,所述第二成字概率为零;当相邻两个字符块之间的字间距
小于所述平均字间距时,计算字间距和平均字间距的比值,以1减去所述比值的结果作为所述第二成字概率。
12.优选的,所述第三成字概率的获取方法为:获取每个字符块的纵向投影区间范围,以相邻两个字符块的纵向投影区间范围的偏差作为纵向偏差量,以所述纵向偏差量和相邻两个字符块中纵向投影区间范围最大值的比值作为所述第三成字概率。
13.本发明实施例至少具有如下有益效果:通过对文字区域分为多个子矩形进行分块分行,能够根据每部分汉字的内容各自分行,提高了汉字分行的准确度;然后将每个子矩形中的粘连字符块分割,再通过字符块的宽度、字间距和投影范围多方面计算相邻两个字符块为同一字符块的可能性,基于这种可能性对分割开的汉字进行合并,避免出现将偏旁部首分割出来的情况,能够将手写汉字准确分割为单字,单独成字效果较好,同时单字分割的准确性提高,进一步地提高了手写汉字识别的准确率。
附图说明
14.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
15.图1为本发明一个实施例提供的一种用于手写汉字识别的文本分割方法的步骤流程图;图2为本发明一个实施例提供的文本图像的二值图像;图3为图2文字分行之后的信息提取图像;图4为本发明一个实施例提供的粘连字符块示例图;图5为本发明一个实施例提供的纵向重叠的字符块示例图。
具体实施方式
16.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于手写汉字识别的文本分割方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
17.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
18.下面结合附图具体的说明本发明所提供的一种用于手写汉字识别的文本分割方法的具体方案。
19.请参阅图1,其示出了本发明一个实施例提供的一种用于手写汉字识别的文本分割方法的步骤流程图,该方法包括以下步骤:步骤s001,采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区
域的外接矩形,以外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行。
20.具体的步骤包括:1、采集手写汉字的文本图像,并转化为二值图像。
21.获取相机采集到的手写汉字文本图像,将文本图像进行灰度化得到灰度图像,通过均值滤波对灰度图像去噪,利用大津算法获取去噪后的灰度图像的最佳阈值,将灰度值小于最佳阈值的像素点赋值为第一预设值,灰度值不小于最佳阈值的像素点赋值为第二预设值,得到二值图像。
22.由于文本背景自带的细小污染和拍摄设备性能引起的干扰以及书写者书写习惯产生的墨点、断点及笔划粗细不均等,会使采集图像产生一些噪声。因此需要对采集的文本图像做灰度化处理,使用均值滤波对灰度图像做平滑处理,去除孤立的噪声点、填充目标区域中孤立的白点、减少字符边缘线上的毛刺和缺口。
23.然后统计平滑图像的灰度直方图,利用大津算法在灰度直方图上求取最佳分割阈值t,进而对图像进行二值化处理,令白色表示背景,黑色表示手写汉字信息。当像素点的灰度值小于t时,令其为0,当像素点的灰度值不小于t时,令其为1,获得二值化后的文本图像,即为二值图像。
24.需要说明的是,在本发明实施例中第一预设值为0,第二预设值为1,得到的二值图像为只存在像素值为1和0的图像,得到的二值图像如图2所示。
25.2、获取二值图像中字体区域的外接矩形。
26.对二值图像进行逐行和逐列遍历,选取第一个和最后一个含有第一预设值的像素点的行作为矩形的宽,选取第一个和最后一个含有第一预设值的像素点的列作为矩形的高,组成字体区域的外接矩形。
27.3、根据每个子矩形中每一行的像素值将对应的子矩形分行。
28.由于书写者本身的书写习惯造成每个人在没有约束的情况下,很难做到把每一行文字都写得平直,这个时候如果行与行之间的距离又比较近就可能发生字符行的重叠现象。基于汉字书写方式可知,若字符行本身包含的字符较少则不易发生重叠,只有当每行的字符较多时,行与行之间才容易发生重叠。但行与行之间始终会保留有一定的间隙,因此首先将字体区域分行。
29.对于每个子矩形,从上到下统计每行像素点中像素值为第一预设值的数量,并构建直方图,对直方图进行波动曲线拟合,统计拟合的曲线中每个波峰点的横坐标,以每个横坐标作为高度在子矩形上作水平直线,将每条水平直线通过的字符连通域标记,将标记的连通域根据所处的不同直线进行分行;对于未标记的字符连通域,根据字符连通域与水平直线之间的位置关系进行分行。
30.其中未标记的字符的分行过程为:对于两条相邻水平直线之间的未标记的字符连通域,令其与距离最近的标记的字符连通域合并;对于同时通过两条相邻水平直线的未标记的字符连通域,对两条相邻水平直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据每个连通域所属的直线进行分行;若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为第一预设值的数量,取最小数量的行作为分割线进行划分;若被分成多个部分连通域,令每个通过水
平直线的部分连通域与距离最近的通过水平直线的字符连通域合并。
31.根据字体区域的外接矩形建立平面坐标系,使该矩形处于第一象限,矩形左下角为原点,矩形长宽为。使用直线,其中,x为横轴坐标,将矩形纵向划分为等间距的5等份。由此使每个长距离行变成多个短距离行,减小行与行之间发生重叠的概率。其中a的取值可根据文本中每行的字符数量自行设置。
32.取划分的第一个子矩形为例,从上到下统计每行中像素点为0的数量,获得一个直方图,其横轴长度为n,步长为单个像素点,纵轴为对应行的0值数量,然后对该直方图进行波动曲线拟合,取该曲线上波峰点的横坐标,获得横坐标集合,其中n为该子矩形内字符行的数量。
33.在平面坐标系上做直线,获得n条过第一个子矩形的直线,标记各直线上通过的字符连通域,这些标记连通域根据所处的不同直线进行分行,令直线上方的未标记字符连通域属于第一行字符,令直线下方的未标记字符连通域属于第n行字符。
34.已知一个汉字的书写,其笔画应向同一区域收敛,因此对两相邻直线之间的未标记字符连通域,令其与距离最近的标记字符连通域合并。而对于同时通过两相邻直线的连通域表示上下两行手写汉字粘连,对该连通域两直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据其所属的直线进行分行,若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为0的数量,取最小数量的行为分割线进行划分,若被分成多个连通域部分,则令该部分中通过直线的连通域与距离最近的通过直线的连通域合并。至此将第一个子矩形中的字符分行完成。
35.同样的方法对每个子矩形分行,对图2分行之后得到的每行的内容如图3所示。
36.步骤s002,对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块。
37.汉字的特点是笔划多,结构复杂,一个汉字通常包含多个部件,且有的部件本身也构成一个汉字。因此根据各连通域的外接矩形大小将汉字字符分为三类,一为汉字较小的偏旁部首,二为汉字的主体、三为较大的粘连汉字。进而对粘连汉字进行分割,对偏旁部首进行合并,获取单独成字效果较好的手写汉字分割结果图像。
38.具体的步骤包括:首先使用垂直投影法将各行字符进行划分,其横坐标为每字符行的长度,纵坐标为对应纵向上0值像素点数量,依次统计横坐标对应的纵坐标值,以非0纵坐标值相邻的0值纵坐标对应的横坐标的垂线为分割线进行划分,取各划分区域内连通域的行和列的起始和终止位置为边界线,获得各矩形字符块,统计各矩形字符块的高度集合,计算高度均值为,判断当矩形字符块的高度小于等于时,该矩形字符块为标点符号,对其进行去除。
39.然后统计剩余矩形字符块的宽度集合,计算宽度均值为,令其为标准字符的
宽度。设定当矩形字符块的宽度小于时,判断此类字符块为偏旁部首字符块,当矩形字符块的宽度大于等于且小于等于时,判断此类字符块为主体字符块,当矩形字符块的宽度大于时,判断此类字符块为粘连字符块。
40.步骤s003,根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率。
41.具体的步骤包括:1、根据粘连字符块的粘连特征将粘连字符块分割。
42.如图4和图5所示,垂直投影法分割的粘连字符块可分为两类,一类为字符块内连通域相连,令一类为字符块内连通域不相连,但纵向上重叠。
43.获取每个粘连字符块的垂直投影直方图,对垂直投影直方图进行波动曲线拟合,从左至右依次统计波谷点的横坐标,按照横坐标的顺序依次在该粘连字符块的长度边上做垂线,若垂线上通过有两个及以上的连通域,计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域作为单个字符块;若垂线上只通过一个连通域,在垂线对应的垂直投影直方图上左右两侧范围内,选取最小纵坐标值对应的横坐标值为分割线,令分割线左侧区域为单个字符块。
44.取一粘连字符块为例,对其垂直投影直方图进行波动曲线拟合,从左至右依次统计两波峰之间的波谷点的横坐标,获得集合,其中m为波谷数量。再以集合中的数据依次在该粘连字符块的长度边上做垂线,然后依次分析垂线上的字符连通域,若其上通过有两个及以上的连通域,说明字符处于纵向重叠状态,则计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域和完全位于垂线左侧的连通域划分为单个字符块,若垂线上只通过一个连通域,说明存在一个字符有较长水平笔划或者斜笔划与另一字符连接,则取垂线对应的垂直投影直方图上左右两侧范围内横坐标对于的纵坐标值,取最小纵坐标值对于的横坐标值为分割线,令分割线左侧区域为单个字符块。同理从左至右依次根据垂线将粘连字符块分割完成。
45.至此字符块只有汉字的偏旁部首字符块和主体字符块。
46.2、根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率。
47.计算每行中所有字符块的平均宽度,当相邻两个字符块的宽度之和小于等于平均宽度时,以宽度之和与平均宽度的比值作为第一成字概率;当相邻两个字符块的宽度之和大于平均宽度时,以平均宽度的预设倍数减去两个字符块的宽度之和的结果作为分子,以平均宽度作为分母,得到的比值即为第一成字概率。
48.对手写汉字文本逐行从左至右进行成字概率计算,以第一行为例,从左至右统计
各字符块的宽度,获得集合,其中k为该行分割的字符块数量。
49.取第一个字符块的宽度和第二个字符块的宽度,若,则将第一个字符块和第二个字符块合并,令其表示第二块字符,再与第三个字符块进行成字分析。若,则判断第一个字符块单独成字,再继续分析第二块与第三块字符。
50.若,则需要计算两字符块的成字概率,其根据汉字整体的宽度特征和横向、纵向上的部件分布特征计算。首先根据字符宽度,计算两字符基于字宽的第一成字概率为:3、根据字间距获取对应两个字符块为同一字符块的第二成字概率。
51.计算每行中所有字间距的平均值作为平均字间距,当相邻两个字符块之间的字间距大于等于平均字间距时,第二成字概率为零;当相邻两个字符块之间的字间距小于平均字间距时,计算字间距和平均字间距的比值,以1减去比值的结果作为第二成字概率。
52.从左至右统计相邻两字符块之间的距离,获得集合,取集合均值为表示此行的平均字间距。
53.根据书写规则,一个字的其书写笔画靠的较近,非一个字的笔画离的相对较远,根据这一原则,将各个连通域进行归附判定。因此基于字间距的第二成字概率为:其中,为平均字间距,为第一个字符块和第二个字符块的间距,两字符越接近,成字概率越大,越有可能为同一个字符。
54.4、根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率。
55.获取每个字符块的纵向投影区间范围,以相邻两个字符块的纵向投影区间范围的偏差作为纵向偏差量,以纵向偏差量和相邻两个字符块中纵向投影区间范围最大值的比值作为第三成字概率。
56.根据汉字的书写方式可知,一个汉字的左右偏旁部首在纵向上应重叠,而不同汉字在纵向上由于个人的书写习惯可能造成偏差,令第一个字符块和第二个字符块处于第一
象限,建立平面坐标系,统计第一个字符块在坐标系上的纵向投影区间和第二个字符块在坐标系上的纵向投影区间。令区间范围大的为、区间范围小的为,若区间完全处于区间内,则说明两字符在纵向上重叠,其基于字符纵向投影的成字概率为1。
57.若区间存在不处于区间的部分,则说明两字符在纵向上存在偏差。计算区间的范围大小为和区间不处于区间的部分大小为,其基于字符纵向投影区间的第三成字概率为:其中表示两字符的纵向偏差量,表示相邻两个字符块中纵向投影区间范围最大值。
58.相邻两个字符块的纵向偏差量越小,说明两字符在纵向上的位置越重叠,越有可能为同一个字。
59.步骤s004,以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。
60.具体的步骤包括:1、以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率。
61.相邻两个字符块为同一字符块的最终成字概率p为:2、获取分割结果图像。
62.对于每一行字符块,按照从左到右的顺序进行字符合并,即当第一块字符与第二块字符之间的最终成字概率时,第一块字符与第二块字符为同一个字符,将两个字符块合并,按照顺序继续分析第三和第四块字符;否则第一块字符单独成字,进而分析第二和第三块字符。依次进行合并分析,将第一行字符分割完成。
63.同理对手写汉字文本进行逐行分割,至此实现了文本的汉字字符分割,然后对分割的不同大小的字符块做几何变换,使之成为同一大小尺寸,获得单独成字效果较好的手写汉字分割结果图像。
64.综上所述,本发明实施例采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行;对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块;根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成
字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率;以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。本发明实施例能够将手写汉字准确分割为单字,单独成字效果较好,同时单字分割的准确性提高,进一步地提高了手写汉字识别的准确率。
65.需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
66.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
67.以上所述实施例仅用以说明本技术的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围,均应包含在本技术的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献