一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种东巴象形文字图像文档识别方法、装置、设备及介质

2023-08-09 15:05:25 来源:中国专利 TAG:


1.本发明涉及文档识别技术领域,特别涉及一种东巴象形文字图像文档识别方法、装置、设备及存储介质。


背景技术:

2.东巴文是一种十分原始的图画象形文字,纳西语称“森究鲁究”,直译为“留在木石上的印迹”。由于这种文字主要由纳西族祭司东巴用来书写传递民族文化的东巴经,所以人们通常也称它为东巴文。东巴文是一种十分原始的图画象形文字,也是目前世界上唯一存活的象形文字,被誉为文字的“活化石”。2003年,使用东巴文书写的东巴古籍被联合国教科文组织列入世界记忆遗产名录,2006年东巴造纸术、东巴画入选第一批国家级非物质文化遗产名录。
3.由古至今,世界上以成千上万卷图画象形文字记录一个民族千百年辉煌文化的,只有纳西族的“东巴经”。为了更好的保护、传承和传播东巴象形文字,1981年云南省东巴文化研究室正式成立,专门用于抢救以“东巴经”为主的纳西古籍,同时在国内外专家、学者的共同努力下陆续出版了很多出版物,其中包括代表了东巴文编撰领域较高水平的三部字典:《纳西象形文字谱》、《纳西族象形标音文字字典》和《纳西语英语汉语语汇》,也有耗费研究人员大量心血整理和翻译的近千册东巴经书而汇集成的重要成果——《纳西东巴古籍译注全集》。大量出版物的面市,使更多的学者、专家及对东巴文感兴趣的读者有了更多的研究资料和学习基础。但是,目前市面上的数字化文档大多是图像,如果想在此基础上进一步实现东巴文档的字符分割、字符串识别、文档检索与提取等的文档分析任务仍是困难重重。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种东巴象形文字图像文档识别方法、装置、设备及存储介质,能够对东巴象形文字图像文档进行识别,可以得到完整性好、独立性高的文本行。其具体方案如下:
5.第一方面,本技术提供了一种东巴象形文字图像文档识别方法,包括:
6.基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页面进行识别,得到文档元素集合;
7.根据所述文档元素集合中的正文文本的位置信息利用预设迭代投影算法对所述正文文本进行投影,并基于投影值对所述正文文本进行分割得到分割后的文本段落;
8.对所述文本段落中满足预设字块距离条件的相邻字块进行合并处理得到第一处理后段落,并将所述文本段落中满足预设行高条件和预设投影值条件的像素行作为分割行对相应的文本段落进行分割处理得到第二处理后段落;
9.对所述第一处理后段落以及所述第二处理后段落进行合并以得到与所述当前图像文档页面对应的识别后文本行。
10.可选的,所述基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页
面进行识别,得到文档元素集合之后,还包括:
11.利用预设ocr识别工具对所述文档元素集合中的页眉和/或页脚以及注释标识中的文字内容进行识别,得到相应的识别结果;
12.基于所述识别结果创建表征所述当前图像文档页面与所述东巴象形文字图像文档之间关系的检索信息,以便基于所述检索信息对所述东巴象形文字图像文档进行检索。
13.可选的,所述对所述文本段落中满足预设字块距离条件的相邻字块进行合并处理得到第一处理后段落,包括:
14.判断所述文本段落中任意相邻字块之间的字块距离是否小于预设字块距离;
15.若所述字块距离小于所述预设字块距离,则对相应的相邻字块进行合并处理,以得到所述第一处理后段落。
16.可选的,所述将所述文本段落中满足预设行高条件和预设投影值条件的像素行作为分割行对相应的文本段落进行分割处理得到第二处理后段落,包括:
17.从所述文本段落中确定出行高度值不小于预设行高度值的若干个第一初始像素行,并从若干个所述第一初始像素行中确定出投影值小于预设投影值的第一目标像素行,然后将所述第一目标像素行作为分割行对相应的文本段落进行分割处理,以得到所述第二处理后段落;
18.或,从所述文本段落中确定出投影值小于预设投影值的若干个第二初始像素行,并基于预设行高度值从若干个所述第二初始像素行中确定出第二目标像素行,然后将所述第二目标像素行作为分割行对相应的文本段落进行分割处理,以得到所述第二处理后段落。
19.可选的,所述对所述第一处理后段落以及所述第二处理后段落进行合并以得到与所述当前图像文档页面对应的识别后文本行,包括:
20.将所述第一处理后段落中更改后的段落合并至所述第二处理后段落,并将合并后的第二处理后段落确定为与所述当前图像文档页面对应的所述识别后文本行;
21.或,将所述第二处理后段落中更改后的段落合并至所述第一处理后段落,并将合并后的第一处理后段落确定为与所述当前图像文档页面对应的所述识别后文本行。
22.可选的,所述基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页面进行识别,得到文档元素集合之前,还包括:
23.在东巴象形文字图像文档中随机选取第一图像文档页面和第二图像文档页面,并分别对所述第一图像文档页面以及所述第二图像文档页面中的文档元素进行记录以得到包含相应文档元素的位置信息以及属性信息的第一文档元素结果和第二文档元素结果;
24.基于所述第一文档元素结果和所述第二文档元素结果构建所述预设元素识别规则。
25.可选的,所述基于所述第一文档元素结果和所述第二文档元素结果构建所述预设元素识别规则,包括:
26.判断所述第一文档元素结果与所述第二文档元素结果中每类文档元素的属性信息以及位置信息是否一致;
27.若否,则重新跳转至所述在东巴象形文字图像文档中随机选取第一图像文档页面和第二图像文档页面的步骤;
28.若是,则将相应类别的文档元素的属性信息以及位置信息记录到预设元素识别规则中。
29.第二方面,本技术提供了一种东巴象形文字图像文档识别装置,包括:
30.文档元素识别模块,用于基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页面进行识别,得到文档元素集合;
31.文本分割模块,用于根据所述文档元素集合中的正文文本的位置信息利用预设迭代投影算法对所述正文文本进行投影,并基于投影值对所述正文文本进行分割得到分割后的文本段落;
32.第一文本处理模块,用于对所述文本段落中满足预设字块距离条件的相邻字块进行合并处理得到第一处理后段落;
33.第二文本处理模块,用于将所述文本段落中满足预设行高条件和预设投影值条件的像素行作为分割行对相应的文本段落进行分割处理得到第二处理后段落;
34.文本行确定模块,用于对所述第一处理后段落以及所述第二处理后段落进行合并以得到与所述当前图像文档页面对应的识别后文本行。
35.第三方面,本技术提供了一种电子设备,包括:
36.存储器,用于保存计算机程序;
37.处理器,用于执行所述计算机程序以实现如上述的东巴象形文字图像文档识别方法。
38.第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如上述的东巴象形文字图像文档识别方法。
39.由此可见,本技术可以基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页面进行识别,得到文档元素集合;然后根据所述文档元素集合中的正文文本的位置信息利用预设迭代投影算法对所述正文文本进行投影,并基于投影值对所述正文文本进行分割得到分割后的文本段落;再对所述文本段落中满足预设字块距离条件的相邻字块进行合并处理得到第一处理后段落,并将所述文本段落中满足预设行高条件和预设投影值条件的像素行作为分割行对相应的文本段落进行分割处理得到第二处理后段落;最后对所述第一处理后段落以及所述第二处理后段落进行合并以得到与所述当前图像文档页面对应的识别后文本行。这样一来,本技术可以基于预设迭代投影算法对东巴象形文字图像文档的当前图像文档页面的正文文本进行分割,这样可以得到不同的文本段落,然后基于预设字块距离条件对得到的文本段落中的字块进行合并,并且可以基于预设行高条件以及预设投影值条件对文本段落中的段落进行分割,这样可以得到完整性好、独立性高的文本行。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
41.图1为本技术公开的一种东巴象形文字图像文档识别方法流程图;
42.图2为本技术公开的一种具体的文档元素示意图;
43.图3为本技术公开的一种具体的文本过度分割结果示意图;
44.图4为本技术公开的一种具体的文本不完全分割结果示意图;
45.图5为本技术公开的一种具体的文本二次分割结果示意图;
46.图6为本技术公开的一种具体的东巴象形文字图像文档识别方法流程图;
47.图7为本技术公开的一种文档元素识别规则构建方法流程图;
48.图8为本技术公开的一种具体的文档元素记录示意图;
49.图9为本技术公开的另一种具体的文档元素记录示意图;
50.图10为本技术公开的一种东巴象形文字图像文档识别装置结构示意图;
51.图11为本技术公开的一种电子设备结构图。
具体实施方式
52.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
53.本技术可以有效分析东巴象形文字图像文档的元素,并且可以识别文档的排版结构,然后根据文档图像的结构特征对文档中的东巴象形文字以及文本进行分割,可以使最终得到的识别后文本行更具完整性。
54.参见图1所示,本发明实施例公开了一种东巴象形文字图像文档识别方法,包括:
55.步骤s11、基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页面进行识别,得到文档元素集合。
56.本实施例中,首先可以基于所述预设元素识别规则对所述东巴象形文字图像文档的所述当前图像文档页面进行识别,这样可以得到与所述当前图像文档页面对应的所述文档元素集合;可以理解的是,本技术中的文档元素集合包括但不限于:页眉、页脚、正文、其他装饰或注释标识等。当然,除了这些组成文档结构的关键性文档元素之外,为了使各个组成部分之间间隔更彻底、避免引起读者的混淆,部分书籍还会在距离较近的元素之间加上分割线,以起到相互隔离的作用。以《纳西族象形标音文字字典》为例,其组成文档结构的元素如图2所示,可以看出,由于《纳西族象形标音文字字典》的文档中包括东巴象形文字、国际音标和注释文字等多种不同类型的文字,为了方便读者阅读,在文档中还加入了大量的分割线,除了纵向的用于间隔东巴字和注释文字的分割线之外,在每个东巴字注释结束的位置也增加了横向的分割线。同时,为了方便读者随时了解当前文档所处章节,在文档的左侧或右侧也增加了章节注释。大量文档元素的应用,为读者的阅读提供了方便,但是给文档结构的分析增加了难度。分析文档中元素的属性和它们在文档中所处的位置可知,这些文档元素根据它们的属性不同,在文档中各自有着相对较为固定的位置,具体如表1所示,可以根据文档元素的位置来判断它们的属性。
57.表1
58.文档元素名称元素位置页眉文档顶部页脚文档底部
正文文档中部分割线文档中部,多位于文档正文中章节注释文档左侧/右侧
59.需要指出的是,在一种具体的实施例中,所述基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页面进行识别,得到文档元素集合之后,还可以包括:利用预设ocr识别工具对所述文档元素集合中的页眉和/或页脚以及注释标识中的文字内容进行识别,得到相应的识别结果;基于所述识别结果创建表征所述当前图像文档页面与所述东巴象形文字图像文档之间关系的检索信息,以便基于所述检索信息对所述东巴象形文字图像文档进行检索。具体的,在得到所述文档元素集合之后,可以利用所述预设ocr识别工具对所述文档元素集合中的部分内容进行识别,这样可以得到所述文档元素集合对应的所述当前图像文档页面相对于所述东巴象形文字图像文档的位置关系,进一步的,可以基于识别到的所述识别结果建立相应的所述检索信息。可以理解的是,页眉/页脚的标记能够快速定位当前文档在整本书中所处的位置;而章节注释的标记可以推断出当前文档所涉及的内容,相应的,分隔符的标记则能够去除文档中的干扰,提高文档解析效率。这样一来,文档元素集合中的标记,有助于理解文档内容,方便于从微观的角度深入分析文档的内容;进一步的,可以将这些已标记的文档元素组合在一起,以便于从宏观的角度理解文档的组成形式和布局规律。因此,本技术实施例可以通过对文档元素的识别以及重构来建立数字文档与文档目录条目之间的链接关系,这样可以得到前述的检索信息;由此可知,通过对文档元素的识别以及重构,可以建立单个文档与整部书籍之间的关联性,即便在没有实现文档正文内容的识别的前提下,也可以通过对文档元素的识别重构来实现读者对文档内容的快速检索。并且,由于除正文以外的其他文档元素所包含的内容较少,文字识别相对简单且准确度较高,因此,通过对文档元素的识别重构,能够在一定程度上提高文档检索等相关文档任务的准确性。
60.步骤s12、根据所述文档元素集合中的正文文本的位置信息利用预设迭代投影算法对所述正文文本进行投影,并基于投影值对所述正文文本进行分割得到分割后的文本段落。
61.本实施例中,通过前述步骤得到与所述当前图像文档页面对应的所述文档元素集合之后,可以进一步在所述文档元素集合中确定出所述正文文本的位置信息,然后可以利用所述预设迭代投影算法对所述正文文本进行投影,并根据投影得到的投影值对所述正文文本进行分割,这样可以得到所述文本段落。需要指出的是,东巴象形文字图像文档的图像文档页面中包括东巴象形文字以及相应的注释文字,其中注释文字可以包括汉字以及东巴字;可以理解的是,通过预设迭代投影算法对图像文档中的正文文本进行投影分割,其中正文文本可以包括东巴文字以及东巴文字对应的注释文字。在具体的实施例中,可以利用预设迭代投影算法首先对注释文字部分以及东巴文字部分进行垂直分割,然后再对正文文本的注释文字部分中独立性好、结构紧凑、粘连较少的文本行进行水平分割,需要指出的是,注释文字中也可能存在由于上下文字粘连导致的分割不完全的情况;相应的,由于文档中也存在大量的东巴文字,如果东巴文字的结构松散,或者是过于紧密,都会容易导致投影算法的过度分割,或者是分割不彻底的问题;这样得到的文本段落具体可以包括东巴文字分割后的东巴字块和注释文字分割后的文本行,其中文本行可以包括文本文字块以及东巴字
块。如图3所示为过度分割和/或分割不完全的情况。因此,针对这部分出现过度分割或者分割不完全的字块,还需要进行二次处理。
62.步骤s13、对所述文本段落中满足预设字块距离条件的相邻字块进行合并处理得到第一处理后段落,并将所述文本段落中满足预设行高条件和预设投影值条件的像素行作为分割行对相应的文本段落进行分割处理得到第二处理后段落。
63.本实施例中,由前述步骤s12可以得到分割后的文本段落,可以理解的是,所述文本段落中有可能存在过度分割或者分割不完全的情况;针对文本段落中可能存在过度分割的情况,可以对所述文本段落中满足所述预设字块距离条件的相邻字块进行合并,这样可以得到将存在过度分割的字块进行合并后的所述第一处理后段落。可以理解的是,文本段落中字块的二次合并比较简单,并且在文本段落中被过度分割的一般都是东巴字,而汉字被过度分割的情况相对较少。这是因为东巴字是图画象形文字,它们一般通过描绘现实世界事物的外在特征来表达含义,与汉字相比,东巴字的结构更加复杂,并且组合字更多,组合形式也更加复杂,加之很多东巴字在文档中经常以突出的方式独立存在,使得投影分割的过程中更加容易产生过度分割的情况;并且被过度分割后的东巴字块与普通的东巴字相比,它的字体高度较小,且与上下相邻的其他东巴字块距离较近。那么,只需合并两个距离更近的东巴字块就可以在一定程度上解决过度分割的问题。本实施例中,可以重复执行前述字块合并的步骤,直到文本段落中的被过度分割的字块都被找出,并将相应的字块合并之后,将最终的本文段落确定为所述第一处理后段落;如图4所示为将过度分割的字块进行合并后的效果。
64.相应的,可以理解的是,文本段落中的分割不完全情况一般出现于东巴字注释列中,这是因为在东巴注释中除了有手写汉字之外,可能还包含一些其他的东巴字。在文档的排版上,为了保持文档版面的整体性和美观,东巴字的注释内容一般字体都比较小,在注释内容中加入字体较小的东巴字就变得更加困难,加之书写过程中手写文字不可避免的存在随意性,使得文本行上下粘连、上下交错或重叠的概率变高。因此,对文本段落的再次分割实际上就是将文本段落中存在粘连、交错和重叠的文本行分离开。一般而言,对于分割不完全的文本段落,其中包含的文本行可能存在粘连、交错或重叠等情况。在具体的实施例中,针对文本段落中可能存在的分割不完全的情况,可以将所述文本段落中满足所述预设行高条件并且满足所述预设投影值条件的像素行作为分割行,以对相应的文本段落进行分割处理得到所述第二处理后段落。具体的,在分割行确定的过程中,要考虑分割行的高度并且要考虑分割行中的投影值大小,可以通过所述预设行高条件以及所述预设投影值条件来确定最终的分割行,以对所述文本段落中可能存在的分割不完全的情况进行处理,直到文本段落中不存在满足前述分割行的条件的像素行,然后可以将分割后的文本段落确定为所述第二处理后段落。如图5所示为对分割不完全的文本段落进行再次分割后的效果。
65.步骤s14、对所述第一处理后段落以及所述第二处理后段落进行合并以得到与所述当前图像文档页面对应的识别后文本行。
66.本实施例中,对文本段落分别进行合并以及再次分割的处理后可以得到所述第一处理后段落以及所述第二处理后段落;然后可以将所述第一处理后段落以及所述第二处理后段落进行合并,可以得到与所述当前图像文档页面对应的所述识别后文本行。在一种具体的实施例中,所述对所述第一处理后段落以及所述第二处理后段落进行合并的步骤,可
以包括:将所述第一处理后段落中更改后的段落合并至所述第二处理后段落,并将合并后的第二处理后段落确定为与所述当前图像文档页面对应的所述识别后文本行;相应的,在另一种具体的实施例中,所述对所述第一处理后段落以及所述第二处理后段落进行合并的步骤,可以包括:将所述第二处理后段落中更改后的段落合并至所述第一处理后段落,并将合并后的第一处理后段落确定为与所述当前图像文档页面对应的所述识别后文本行;可以理解的是,可以将所述第一处理后段落合并至所述第二处理后段落或者将所述第二处理后段落合并至所述第一处理后段落,这样可以得到最终的与所述当前图像文档页面对应的并且独立性和完整性高的所述识别后文本行。
67.由此可见,本技术实施例可以基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页面进行识别,得到文档元素集合;然后可以通过预设ocr识别工具对所述文档元素集合中的部分元素进行识别并且可以根据得到的识别结果创建表征所述当前图像文档页面与所述东巴象形文字图像文档之间关系的检索信息;并且本技术实施例可以根据所述文档元素集合中的正文文本的位置信息利用预设迭代投影算法对所述正文文本进行投影,并基于投影值对所述正文文本进行分割得到分割后的文本段落;再对所述文本段落中满足预设字块距离条件的相邻字块进行合并处理得到第一处理后段落,并将所述文本段落中满足预设行高条件和预设投影值条件的像素行作为分割行对相应的文本段落进行分割处理得到第二处理后段落;最后对所述第一处理后段落以及所述第二处理后段落进行合并以得到与所述当前图像文档页面对应的识别后文本行。这样一来,本技术可以在得到识别后文本行的同时建立单个图像文档页面与整个图像文档之间的关联性,进一步可以得到相应的检索信息,这样在没有实现文档正文内容的识别的前提下,也可以通过所述检索信息来实现读者对文档内容的快速检索。
68.上述实施例中介绍了包含创建检索信息的文档识别的相关内容,可以在没有实现文档正文内容的识别的前提下,通过所述检索信息来实现读者对文档内容的快速检索。下面实施例将具体介绍对文本段落中存在的过度分割以及不完全分割的情况进行处理的相关步骤。
69.参见图6所示,本发明实施例公开了一种东巴象形文字图像文档识别方法,包括:
70.步骤s21、基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页面进行识别,得到文档元素集合。
71.步骤s22、根据所述文档元素集合中的正文文本的位置信息利用预设迭代投影算法对所述正文文本进行投影,并基于投影值对所述正文文本进行分割得到分割后的文本段落。
72.步骤s23、判断所述文本段落中任意相邻字块之间的字块距离是否小于预设字块距离;若所述字块距离小于所述预设字块距离,则对相应的相邻字块进行合并处理,以得到所述第一处理后段落。
73.本实施例中,得到所述文本段落之后,可以将所述文本段落中可能存在的过度分割的相关字块进行合并处理,可以包括:判断所述文本段落中任意相邻字块之间的字块距离是否小于预设字块距离;若所述字块距离小于所述预设字块距离,则对相应的相邻字块进行合并处理;具体的,本技术实施例利用所述预设字块距离判断所述文本段落中是否存在被过度分割的字块,若存在满足字块距离小于所述预设字块距离的两个字块时,可以通
过合并的方式对相应的两个字块进行处理,直到在所述文本段落中不存在满足字块距离小于所述预设字块距离的相邻字块;这样可以得到不包含过度分割情况的所述第一处理后段落。
74.步骤s24、从所述文本段落中确定出行高度值不小于预设行高度值的若干个第一初始像素行,并从若干个所述第一初始像素行中确定出投影值小于预设投影值的第一目标像素行,然后将所述第一目标像素行作为分割行对相应的文本段落进行分割处理,以得到所述第二处理后段落。
75.本实施例中,通过前述步骤s22得到的所述文本段落中可能存在分割不完全的情况,可以对所述文本段落中包含分割不完全情况的文本行进行再次分割是,可以包括:从所述文本段落中确定出行高度值不小于预设行高度值的若干个第一初始像素行,并从若干个所述第一初始像素行中确定出投影值小于预设投影值的第一目标像素行,然后将所述第一目标像素行作为分割行对相应的文本段落进行分割处理,以得到所述第二处理后段落;可以理解的是,不同的图像文档页面可能有不同的分辨率,对应像素行;分割不完全的文本段落中存在若干个可以被确定为分割行的像素行,可以通过所述预设行高度值从相应像素行中确定出所述第一初始像素行;并且可以对所述第一初始像素行的投影值进行判断,将所述第一初始像素行中投影值小于所述预设投影值的所述第一目标像素行;可以理解的是,投影值小于所述预设投影值,则说明该像素行中空白较多,有很大可能是文本行上下粘连、上下交错或重叠的情况;这样一来,可以将所述第一目标像素行作为分割行对相应的段落进行分割,通过这样的方式可以将所述文本段落中满足前述预设行高条件以及满足前述预设投影值条件的段落都进行分割,可以得到所以第二处理后段落。
76.进一步的,在一种具体的实施例中,得到所述第二处理后段落的步骤可以包括:从所述文本段落中确定出投影值小于预设投影值的若干个第二初始像素行,并基于预设行高度值从若干个所述第二初始像素行中确定出第二目标像素行,然后将所述第二目标像素行作为分割行对相应的文本段落进行分割处理,以得到所述第二处理后段落。可以理解的是,在所述文本段落中对于所述投影值以及所述预设行高度值的判断没有先后顺序,只要满足这两个条件的像素行都有可能被作为分割行对所述文本段落进行分割,最终可以得到所述第二处理后段落。
77.步骤s25、对所述第一处理后段落以及所述第二处理后段落进行合并以得到与所述当前图像文档页面对应的识别后文本行。
78.其中,关于上述步骤s21、s22和s25更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
79.由此可见,本技术实施例中,可以基于预设字块距离对文本段落中部分相邻的字块进行合并,这样可以优化所述文本段落中可能存在的过度分割的情况;并且可以基于预设行高度值以及预设投影值将符合条件的像素行作为分割行对所述文本段落中的部分段落进行分割,这样可以优化所述文本段落中可能存在的不完全分割的情况;这样一来,本技术可以通过字块合并以及二次分割得到与图像文档页面对应的独立性好、完整性高的文本行。
80.下面实施例将针对文档元素解析记录并构建预设元素识别规则的过程进行介绍。参见图7所示,本发明实施例公开了一种文档元素识别规则构建方法,包括:
81.步骤s31、在东巴象形文字图像文档中随机选取第一图像文档页面和第二图像文档页面,并分别对所述第一图像文档页面以及所述第二图像文档页面中的文档元素进行记录以得到包含相应文档元素的位置信息以及属性信息的第一文档元素结果和第二文档元素结果。
82.本实施例中,可以在东巴象形文字图像文档中随机选取所述第一图像文档页面以及所述第二图像文档页面,然后分别记录所述第一图像文档页面以及所述第二图像文档页面中各类元素的位置以及属性;这样可以得到所述第一文档元素结果以及所述第二文档元素结果;需要指出的是,所述第一图像文档页面与所述第二文档元素页面可能同为奇数页面或同为偶数页面,也可能一个是奇数页面而另一个是偶数页面;这些情况下,所述第一文档元素结果与所述第二文档元素结果中元素的位置以及属性会存在不同的情况;如图8和图9所示为不同图像文档页面中记录的文档元素。
83.步骤s32、判断所述第一文档元素结果与所述第二文档元素结果中每类文档元素的属性信息以及位置信息是否一致。
84.本实施例中,得到所述第一文档元素结果以及所述第二文档元素结果之后,可以判断所述第一文档元素结果与所述第二文档元素结果中的每类文档元素的属性信息以及位置信息是否一致;可以理解的是,当所述第一图像文档页面与所述第二图像文档页面同为奇数页面或偶数页面时,所述第一文档元素结果与所述第二文档元素结果中的文档元素相关的信息大致相同;相应的,当所述第一图像文档页面与所述第二图像文档页面不同为奇数页面或偶数页面时,所述第一文档元素结果与所述第二文档元素结果中的文档元素相关的信息则会存在差异。
85.步骤s33、若否,则重新跳转至所述在东巴象形文字图像文档中随机选取第一图像文档页面和第二图像文档页面的步骤。
86.本实施例中,若所述第一文档元素结果与所述第二文档元素结果中每类文档元素的属性信息以及位置信息不一致,则说明所述第一图像文档页面与所述第二图像文档页面不同为奇数页面或偶数页面,这种情况下的所述第一文档元素结果与所述第二文档元素结果就没有对比价值,可以直接跳转至所述在东巴象形文字图像文档中随机选取第一图像文档页面和第二图像文档页面的步骤,重新选取第一图像文档页面以及第二图像文档页面。
87.步骤s34、若是,则将相应类别的文档元素的属性信息以及位置信息记录到预设元素识别规则中。
88.本实施例中,若所述第一文档元素结果与所述第二文档元素结果中每类文档元素的属性信息以及位置信息一致,则说明所述第一图像文档页面与所述第二图像文档页面同为奇数页面或同为偶数页面,这种情况下,可以对所述第一文档元素结果与所述第二文档元素结果中有相同位置信息以及属性信息的文档元素记录到所述预设元素识别规则中,以便于后续对图像文档页面的文档元素进行识别。
89.本技术实施例中,可以通过在东巴象形文字图像文档中随机选取第一图像文档页面以及第二图像文档页面的方式分别记录其中的文档元素,以得到所述第一文档元素结果以及所述第二文档元素结果;然后可以比对所述第一文档元素结果与所述第二文档元素结果中文档元素的位置信息以及属性信息,通过这样记录比对并将有相同位置信息以及属性信息的文档元素记录到预设元素识别规则的方式对所述东巴象形文字图像文档中一定数
量的图像文档页面的文档元素进行解析,可以得到用于对其他图像文档页面的文档元素进行识别的所述预设元素识别规则;这样一来,可以根据少数的图像文档页面提取得到完善的预设元素识别规则,可以提高后续对文档元素的识别效率以及识别精度。
90.如图10所示,本技术公开了一种东巴象形文字图像文档识别装置,包括:
91.文档元素识别模块11,用于基于预设元素识别规则对东巴象形文字图像文档的当前图像文档页面进行识别,得到文档元素集合;
92.文本分割模块12,用于根据所述文档元素集合中的正文文本的位置信息利用预设迭代投影算法对所述正文文本进行投影,并基于投影值对所述正文文本进行分割得到分割后的文本段落;
93.第一文本处理模块13,用于对所述文本段落中满足预设字块距离条件的相邻字块进行合并处理得到第一处理后段落;
94.第二文本处理模块14,用于将所述文本段落中满足预设行高条件和预设投影值条件的像素行作为分割行对相应的文本段落进行分割处理得到第二处理后段落;
95.文本行确定模块15,用于对所述第一处理后段落以及所述第二处理后段落进行合并以得到与所述当前图像文档页面对应的识别后文本行。
96.由此可见,本技术可以基于预设迭代投影算法对东巴象形文字图像文档的当前图像文档页面的正文文本进行分割,这样可以得到不同的文本段落,然后基于预设字块距离条件对得到的文本段落中的字块进行合并,并且可以基于预设行高条件以及预设投影值条件对文本段落中的段落进行分割,这样可以得到完整性好、独立性高的文本行。
97.在一种具体的实施例中,所述文档元素识别模块11,还可以包括:
98.识别结果确定单元,用于利用预设ocr识别工具对所述文档元素集合中的页眉和/或页脚以及注释标识中的文字内容进行识别,得到相应的识别结果;
99.检索信息创建单元,用于基于所述识别结果创建表征所述当前图像文档页面与所述东巴象形文字图像文档之间关系的检索信息,以便基于所述检索信息对所述东巴象形文字图像文档进行检索。
100.在一种具体的实施例中,所述第一文本处理模块13,可以包括:
101.字块距离判断单元,用于判断所述文本段落中任意相邻字块之间的字块距离是否小于预设字块距离;
102.字块合并单元,用于当所述字块距离小于所述预设字块距离时,对相应的相邻字块进行合并处理,以得到所述第一处理后段落。
103.在一种具体的实施例中,所述第二文本处理模块14,可以包括:
104.第一文本段落分割单元,用于从所述文本段落中确定出行高度值不小于预设行高度值的若干个第一初始像素行,并从若干个所述第一初始像素行中确定出投影值小于预设投影值的第一目标像素行,然后将所述第一目标像素行作为分割行对相应的文本段落进行分割处理,以得到所述第二处理后段落;
105.第二文本段落分割单元,用于从所述文本段落中确定出投影值小于预设投影值的若干个第二初始像素行,并基于预设行高度值从若干个所述第二初始像素行中确定出第二目标像素行,然后将所述第二目标像素行作为分割行对相应的文本段落进行分割处理,以得到所述第二处理后段落。
106.在一种具体的实施例中,所述文本行确定模块15,可以包括:
107.第一文本段落合并单元,用于将所述第一处理后段落中更改后的段落合并至所述第二处理后段落,并将合并后的第二处理后段落确定为与所述当前图像文档页面对应的所述识别后文本行;
108.第二文本段落合并单元,用于将所述第二处理后段落中更改后的段落合并至所述第一处理后段落,并将合并后的第一处理后段落确定为与所述当前图像文档页面对应的所述识别后文本行。
109.在一种具体的实施例中,所述文档元素识别模块11,还可以包括:
110.元素记录单元,用于在东巴象形文字图像文档中随机选取第一图像文档页面和第二图像文档页面,并分别对所述第一图像文档页面以及所述第二图像文档页面中的文档元素进行记录以得到包含相应文档元素的位置信息以及属性信息的第一文档元素结果和第二文档元素结果;
111.元素识别规则构建子模块,用于基于所述第一文档元素结果和所述第二文档元素结果构建所述预设元素识别规则。
112.在另一种具体的实施例中,所述元素识别规则构建子模块,包括:
113.元素判断单元,用于判断所述第一文档元素结果与所述第二文档元素结果中每类文档元素的属性信息以及位置信息是否一致;
114.步骤跳转单元,用于当所述第一文档元素结果与所述第二文档元素结果中每类文档元素的属性信息以及位置信息不一致时,重新跳转至所述在东巴象形文字图像文档中随机选取第一图像文档页面和第二图像文档页面的步骤;
115.元素识别规则记录单元,用于当所述第一文档元素结果与所述第二文档元素结果中每类文档元素的属性信息以及位置信息一致时,将相应类别的文档元素的属性信息以及位置信息记录到预设元素识别规则中。
116.进一步的,本技术实施例还公开了一种电子设备,图11是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
117.图11为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的东巴象形文字图像文档识别方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
118.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
119.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
120.其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序
222,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的东巴象形文字图像文档识别方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
121.进一步的,本技术还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的东巴象形文字图像文档识别方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
122.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
123.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
124.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
125.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
126.以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表