一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本字符检测方法、装置及存储介质与流程

2022-03-26 02:23:11 来源:中国专利 TAG:


1.本发明涉及通信技术领域,具体涉及一种文本字符检测方法、装置及存储介质。


背景技术:

2.目前,基于深度学习的文本识别任务已经较为成熟,但是文本识别通常环节都是先通过文本检测检测出文本区域,再确定文本的方向,进行识别,或者事先已知文本识别的方向为正向,对于整个文本区域旋转180度的倒置文本,如果直接使用常规的文字识别方案,难以得到正确的识别结果。
3.自然场景或者工业环境中的文本识别方案会比文件、证件等事先确定了文本的方向或者可以得到文本方向的理想情况复杂很多,例如快递传输行业在中转场准运包裹的环节中需要使用文本识别技术对包裹上粘贴的运单中的文字信息进行识别,而这一场景下,由于包裹的摆放位置不固定,运单的粘贴位置和方向不固定,导致进行文本识别的图片的方向也不固定,由于每个样本差异较大,检测算法也只能根据文字的排列规律有效判断文本的横纵方向,无法判断文本的正反,从而导致此类文本无法正常识别。


技术实现要素:

4.本发明提供一种文本字符检测方法、装置及存储介质,可以实现对文本方向的判定以及识别文本对应的正向文本的内容识别结果,不论待识别文本图像识别后的多个字符是正向还是倒置,均可以完成识别,从而实现双向文本的识别,拓展文本识别的使用场景,以及提高文本在复杂场景下的识别准确率。
5.一方面,本技术提供一种文本字符检测方法,所述文本字符检测方法包括:
6.获取待识别文本图像;
7.对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本;
8.根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本;
9.其中,所述字符字典中的字符的字符编码信息包括预置的字符集合中预先定义的第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息,所述第一类型字符为字符的正向字符和其倒置字符不同的字符,所述第二类型字符为字符的倒置字符与字符集合中其他字符的正向字符相似的字符或者为字符的正向字符与字符字典中其他字符的倒置字符相似的字符,所述第三类型字符为字符的正向字符和其倒置字符相同的字符,所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符;所述第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息,所述正向字符编码信息为所述第一类型字符和第二类型字符的正向字符的字符编码信息,所述倒置字符编码信息为所述第一类型字符和第二类型字符的倒置字符的字符编码信息,所述公共字符编码信息为
第三类型字符或第四类型字符的字符编码信息,所述第三类型字符中每个字符及其对应的字符采用相同的字符编码信息,所述第四类型字符中每个字符及其对应的字符采用相同的字符编码信息。
10.在本技术一些实施方式中,在所述根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本之前,所述方法还包括:
11.获取初始字符集合,所述初始字符集合为包括预设数量的正向字符的字符集合,且所述初始字符集合中的字符仅包括正向字符;
12.对所述初始字符集合中的字符进行倒置后,添加到所述初始字符集合中,得到所述字符集合;
13.对所述字符集合中字符进行编码,得到所述字符字典。
14.在本技术一些实施方式中,所述对所述字符集合中字符进行编码,得到所述字符字典,包括:
15.对所述字符集合中第一类型字符的正向字符和倒置字符,分别采用不同的编码信息进行编码,得到第一正向字符编码和第一倒置字符编码;
16.对所述字符集合中第二类型字符的正向字符和倒置字符,分别采用不同的编码信息进行编码,得到第二正向字符编码和第二倒置字符编码;
17.对所述字符集合中第三类型字符中每个字符及其对应的字符,采用相同的编码信息进行编码,得到第一公共字符编码;
18.对所述字符集合中第四类型字符中每个字符及其对应的字符,采用相同的编码信息进行编码,得到第二公共字符编码;
19.其中,所述正向字符编码包括所述第一正向字符编码和所述第二正向字符编码,所述倒置字符编码包括第一倒置字符编码和所述第二倒置字符编码,所述公共字符编码包括第一公共字符编码和第二公共字符编码。
20.在本技术一些实施方式中,所述根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本,包括:
21.根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本;
22.若所述检测文本是正向文本,直接输出所述检测文本;
23.若所述检测文本是倒置文本,对所述检测文本进行倒置处理,输出所述检测文本的倒置处理后的结果。
24.在本技术一些实施方式中,所述根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,包括:
25.分别以所述检测文本中各字符为目标字符,在所述预置的字符字典中字符的字符编码信息中查找所述目标字符的字符编码信息;
26.根据所述目标字符的字符编码信息,确定所述目标字符是正向字符编码还是倒置字符编码;
27.统计所述检测文本中为正向字符编码的第一数量值和倒置字符编码的第二数量值;
28.根据所述第一数量值和所述第二数量值,确定所述检测文本是正向文本还是倒置文本。
29.在本技术一些实施方式中,所述根据所述第一数量值和所述第二数量值,确定所述检测文本是正向文本还是倒置文本,包括:
30.判断所述第一数量值和所述第二数量值的大小;
31.若所述第一数量值大于所述第二数量值,确定所述检测文本是正向文本;
32.若所述第一数量值小于所述第二数量值,确定所述检测文本是倒置文本。
33.在本技术一些实施方式中,所述对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本,包括:
34.对所述待识别文本图像进行字符分割,得到多个字符图像;
35.对所述多个字符图像进行字符识别,得到具有排列顺序的多个字符的检测文本。
36.在本技术一些实施方式中,所述对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本,包括:
37.将所述待识别文本图像输入预先训练好的文本检测模型中,以输出具有排列顺序的多个字符的检测文本,所述文本检测模型为densenet网络模型,所述densenet网络模型的损失函数为权重时间连接分类损失函数。
38.另一方面,本技术提供一种文本字符检测装置,所述文本字符检测装置包括:
39.获取单元,用于获取待识别文本图像;
40.识别单元,用于对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本;
41.输出单元,用于根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本;
42.其中,所述字符字典中的字符的字符编码信息包括预置的字符集合中预先定义的第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息,所述第一类型字符为字符的正向字符和其倒置字符不同的字符,所述第二类型字符为字符的倒置字符与字符集合中其他字符的正向字符相似的字符或者为字符的正向字符与字符字典中其他字符的倒置字符相似的字符,所述第三类型字符为字符的正向字符和其倒置字符相同的字符,所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符;所述第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息,所述正向字符编码信息为所述第一类型字符和第二类型字符的正向字符的字符编码信息,所述倒置字符编码信息为所述第一类型字符和第二类型字符的倒置字符的字符编码信息,所述公共字符编码信息为第三类型字符或第四类型字符的字符编码信息,所述第三类型字符中每个字符及其对应的字符采用相同的字符编码信息,所述第四类型字符中每个字符及其对应的字符采用相同的字符编码信息。
43.在本技术一些实施方式中,所述装置还包括编码单元,所述编码单元用于:
44.在所述根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本之前,获取初始字符集合;
45.对所述初始字符集合中的字符进行倒置后,添加到所述初始字符集合中,得到字
符集合;
46.对所述字符集合中字符进行编码,得到所述字符字典。
47.在本技术一些实施方式中,所述编码单元具体用于:
48.对所述字符集合中第一类型字符的正向字符和倒置字符,分别采用不同的编码信息进行编码,得到第一正向字符编码和第一倒置字符编码;
49.对所述字符集合中第二类型字符的正向字符和倒置字符,分别采用不同的编码信息进行编码,得到第二正向字符编码和第二倒置字符编码;
50.对所述字符集合中目标字符的正向字符和倒置字符,分别采用相同的编码信息进行编码,得到公共字符编码,所述目标字符为所述字符集合中字符的正向字符和其倒置字符相同的字符,或者字符的正向字符和所述字符集合中其他字符的正向字符相同的字符;
51.其中,所述正向字符编码包括所述第一正向字符编码和所述第二正向字符编码,所述倒置字符编码包括第一倒置字符编码和所述第二倒置字符编码。
52.在本技术一些实施方式中,所述输出单元具体用于:
53.根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本;
54.若所述检测文本是正向文本,直接输出所述检测文本;
55.若所述检测文本是倒置文本,对所述检测文本进行倒置处理,输出所述检测文本的倒置处理后的结果。
56.在本技术一些实施方式中,所述输出单元具体用于:
57.分别以所述检测文本中各字符为目标字符,在所述字符编码信息中查找所述目标字符的字符编码信息;
58.根据所述目标字符的字符编码信息,确定所述目标字符是正向字符编码还是倒置字符编码;
59.统计所述检测文本中为正向字符编码的第一数量值和倒置字符编码的第二数量值;
60.根据所述第一数量值和所述第二数量值,确定所述检测文本是正向文本还是倒置文本。
61.在本技术一些实施方式中,所述输出单元具体用于:
62.判断所述第一数量值和所述第二数量值的大小;
63.若所述第一数量值大于所述第二数量值,确定所述检测文本是正向文本;
64.若所述第一数量值小于所述第二数量值,确定所述检测文本是倒置文本。
65.在本技术一些实施方式中,所述识别单元具体用于:
66.对所述待识别文本图像进行字符分割,得到多个字符图像;
67.对所述多个字符图像进行字符识别,得到具有排列顺序的多个字符的检测文本。
68.在本技术一些实施方式中,所述识别单元具体用于:
69.将所述待识别文本图像输入预先训练好的文本检测模型中,以输出具有排列顺序的多个字符的检测文本,所述文本检测模型为densenet网络模型,所述densenet网络模型的损失函数为权重时间连接分类损失函数。
70.另一方面,本技术还提供一种计算机设备,所述计算机设备包括:
71.一个或多个处理器;
72.存储器;以及
73.一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的文本字符检测方法。
74.第四方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行第一方面任一项所述的文本字符检测方法中的步骤。
75.本技术中通过获取待识别文本图像;对待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本;根据预置的字符字典中字符的字符编码信息,确定检测文本是正向文本还是倒置文本,并输出检测文本的正向文本。本技术预先对字符字典中字符编码为正向字符编码、倒置字符编码和公共字符编码,再基于字符字典中字符的字符编码信息,对待识别文本图像识别之后的多个字符进行字符方向识别,确定多个字符的正向文本,因此可以实现对检测文本方向的判定以及输出检测文本对应的正向文本的内容识别结果,不论待识别文本图像识别后的多个字符是正向还是倒置,均可以完成识别,从而实现双向文本的识别,拓展文本识别的使用场景,以及提高文本在复杂场景下的识别准确率。
附图说明
76.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
77.图1是本发明实施例提供的文本字符检测系统的场景示意图;
78.图2是本发明实施例中提供的文本字符检测方法的一个实施例流程示意图;
79.图3是本发明实施例中步骤203的一个实施例流程示意图;
80.图4是本发明实施例中步骤301的一个实施例流程示意图;
81.图5是本发明实施例中提供的文本字符检测装置的一个实施例结构示意图;
82.图6是本发明实施例中提供的计算机设备的一个实施例结构示意图。
具体实施方式
83.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
84.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
85.在本技术中,“示例性”一词用来表示“用作例子、例证或说明”。本技术中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本技术所公开的原理和特征的最广范围相一致。
86.本发明实施例提供一种文本字符检测方法、装置及存储介质,以下分别进行详细说明。
87.请参阅图1,图1为本发明实施例所提供的文本字符检测系统的场景示意图,该文本字符检测系统可以包括计算机设备100,计算机设备100中集成有文本字符检测装置,如图1中的计算机设备。
88.本发明实施例中计算机设备100主要用于获取待识别文本图像;对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本;根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本;其中,所述字符字典中的字符的字符编码信息包括预置的字符集合中预先定义的第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息,所述第一类型字符为字符的正向字符和其倒置字符不同的字符,所述第二类型字符为字符的倒置字符与字符集合中其他字符的正向字符相似的字符或者为字符的正向字符与字符字典中其他字符的倒置字符相似的字符,所述第三类型字符为字符的正向字符和其倒置字符相同的字符,所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符;所述第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息,所述正向字符编码信息为所述第一类型字符和第二类型字符的正向字符的字符编码信息,所述倒置字符编码信息为所述第一类型字符和第二类型字符的倒置字符的字符编码信息,所述公共字符编码信息为第三类型字符或第四类型字符的字符编码信息,所述第三类型字符中每个字符及其对应的字符采用相同的字符编码信息,所述第四类型字符中每个字符及其对应的字符采用相同的字符编码信息。
89.本发明实施例中,该计算机设备100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本发明实施例中所描述的计算机设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(cloud computing)的大量计算机或网络服务器构成。
90.可以理解的是,本发明实施例中所使用的计算机设备100还可以是既包括接收和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的计算机设备100具体可以是台式终端或移动终端,例如计算机设备100具体还可以是平板电脑、笔记本电脑等中的一种。
91.本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本技术方案一种应用场景,并不构成对本技术方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算机设备,例如图1中仅示出1个计算机设备,可以理解的,该文本字符检测系统还可以包括一个或多个其他计算机设备,具体此处不作限定。
92.另外,如图1所示,该文本字符检测系统还可以包括存储器200,用于存储数据,如存储字符数据,例如字符字典中的字符或者检测文本中的字符等。
93.需要说明的是,图1所示的文本字符检测系统的场景示意图仅仅是一个示例,本发明实施例描述的文本字符检测系统以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着文本字符检测系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
94.首先,本发明实施例中提供一种文本字符检测方法,该文本字符检测方法的执行主体为文本字符检测装置,该文本字符检测装置应用于计算机设备,该文本字符检测方法包括:获取待识别文本图像;对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本;根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本;其中,所述字符字典中的字符的字符编码信息包括预置的字符集合中预先定义的第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息,所述第一类型字符为字符的正向字符和其倒置字符不同的字符,所述第二类型字符为字符的倒置字符与字符集合中其他字符的正向字符相似的字符或者为字符的正向字符与字符字典中其他字符的倒置字符相似的字符,所述第三类型字符为字符的正向字符和其倒置字符相同的字符,所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符;所述第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息,所述正向字符编码信息为所述第一类型字符和第二类型字符的正向字符的字符编码信息,所述倒置字符编码信息为所述第一类型字符和第二类型字符的倒置字符的字符编码信息,所述公共字符编码信息为第三类型字符或第四类型字符的字符编码信息,所述第三类型字符中每个字符及其对应的字符采用相同的字符编码信息,所述第四类型字符中每个字符及其对应的字符采用相同的字符编码信息。
95.如图2所示,为本发明实施例中文本字符检测方法的一个实施例流程示意图,该文本字符检测方法包括步骤201~203,具体如下:
96.201、获取待识别文本图像。
97.其中,待识别文本图像可以为拍摄装置拍摄的待识别文本的图像,例如物流行业内,在物流网点转运包裹的环节中需要使用文本识别技术对包裹上粘贴的运单中的文字信息进行识别,此时,待识别文本图像为物流网点内拍摄装置拍摄的包裹的运单图像,其中物流网点可以是中转场或者物流收派件网点。
98.202、对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本。
99.其中,排列顺序为与待识别文本图像匹配的排列顺序,具体的,如可以为待识别文本中各字符区域对应的顺序,例如,待识别文本图像中每个字符对应的检测文本框(可以是
后续实施例中神经网络的检测框)的顺序。
100.203、根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本。
101.其中,字符字典为字符编码的集合,本技术实施例中字符字典中可以包括数字字符、字母字符和符号字符等字符类型的字符编码,对于字母字符还可以包括大小写字母字符,例如a和a,另外对于每种字符类型,可以包括字符的正向字符和倒置字符,例如,数字a,正向字符为“a”,倒置字符为在字符字典中可以包括“a”和的字符编码。可以理解的是,在本技术的某些实施例中,字符字典中还可以进一步包括其他计算机语言或者人类语言的字符,由于其他其他计算机语言或者人类语言的字符较多,情况较为复杂,当字符数量过多时,并无法人为穷举定义所有字符,因此,本技术主要用于字符字典中包括数字字符、字母字符和符号字符等字符类型的字符编码,即本技术的检测场景优选对于数字字符、字母字符和符号字符对应的文本图像的识别。
102.所述字符字典中的字符的字符编码信息包括预置的字符集合中预先定义的第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息,所述第一类型字符为字符的正向字符和其倒置字符不同的字符,所述第二类型字符为字符的倒置字符与字符集合中其他字符的正向字符相似的字符或者为字符的正向字符与字符字典中其他字符的倒置字符相似的字符,所述第三类型字符为字符的正向字符和其倒置字符相同的字符,所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符;所述第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息,所述正向字符编码信息为所述第一类型字符和第二类型字符的正向字符的字符编码信息,所述倒置字符编码信息为所述第一类型字符和第二类型字符的倒置字符的字符编码信息,所述公共字符编码信息为第三类型字符或第四类型字符的字符编码信息,所述第三类型字符中每个字符及其对应的字符采用相同的字符编码信息,所述第四类型字符中每个字符及其对应的字符采用相同的字符编码信息。
103.其中,由于述第三类型字符为字符的正向字符和其倒置字符相同的字符,所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符,此时,所述第三类型字符中每个字符及其对应的字符,表示第三类型字符中每个字符的正向字符及其倒置字符;第四类型字符中每个字符及其对应的字符,表示第四类型字符中字符的倒置字符和字符集合中其他字符的正向字符相同的字符。
104.本技术预先对字符字典中字符编码为正向字符编码、倒置字符编码和公共字符编码,再基于字符字典中字符的字符编码信息,对待识别文本图像识别之后的多个字符进行字符方向识别,确定多个字符的正向文本,因此可以实现对检测文本方向的判定以及输出检测文本对应的正向文本的内容识别结果,不论待识别文本图像识别后的多个字符是正向还是倒置,均可以完成识别,从而实现双向文本的识别,拓展文本识别的使用场景,以及提高文本在复杂场景下的识别准确率。
105.在使用深度学习方案进行文本识别的时候,本质上是对各个字符进行编码,识别的过程也就转化为各字符分类问题,每个字符对应其编码的类别。因此对于模型而言,并不关心文本是否存在倒置的情况,将字符的倒置字符和正向字符结合,形成所述字符字典,利
用所述字符字典中的字符即可训练出相应的文本检测模型。
106.因此,在本技术一些实施方式中,在所述根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本之前,所述方法还可以包括:获取初始字符集合;对所述初始字符集合中的字符进行倒置后,添加到所述初始字符集合中,得到字符集合;对所述字符集合中字符进行编码,得到所述字符字典。此时,所述字符字典中的字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息。其中,所述初始字符集合为包括预设数量的正向字符的字符集合,且所述初始字符集合中的字符仅包括正向字符,例如可以包括数字、字母和符号等字符类型的正向字符,初始字符集合如现有技术中的字符字典,初始字符集合中字符不包括字符的倒置字符,仅包括正向字符。
107.在对字符字典中字符进行编码时,最简单的方式是将所有正向文本的字符和正向文本倒置之后的字符都当成不同的个体,进行不同的编码,但实际上正向文本和倒置文本之间存在以下4种字符出现情况(后续简称为“字符情况”),
108.1.第一类型字符:字符的倒置字符和正向字符均不相同;
109.2.第三类型字符:字符的正向字符和倒置字符相同,如“1”的正向字符和倒置字符相同;
110.3.第四类型字符:字符的倒置字符和其它字符的正向相同,如“6”的倒置字符和“9”的正向字符相同;
111.4.第二类型字符:字符的倒置字符和其它字符的正向字符相似,如“5”的倒置字符和“s”的正向字符相似。
112.仅当所有字符只存在上述第1种情况的前提下,上述简单的编码方式才有效,因实际场景中,含有的字符情况是有4类,由于字符的正向字符和倒置字符不一致,才能当成不同的个体编码,所以如果使用上述简单的编码方式,会有以下2点问题:
113.(1)遇到上述第2种情况、第3种情况这两种情况时,图像特征一致的图片却使用了不同的编码,模型训练和识别时易发生混淆,直接影响模型的性能,且发生该错误的时候,会直接影响后处理的解码,如果无法根据识别结果判断出文本的方向,则无法解码得到识别结果。
114.(2)第4种情况的相似字符本就是文本识别中的一个难点,无法直接从编码方式的调整解决相似字符易识别出错的问题。
115.因此,针对上述种出现的问题,分别设计了相应的解决方案。
116.首先介绍下字符编码,字符编码(英语:character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ascii码。其中,ascii码将字母、数字和其它符号编号,并用7比特的二进制来表示这个整数,通常会额外使用一个扩充的比特,以便于以1个字节的方式存储。
117.针对问题(1),本技术设计了一种字符编码方式,1.将第一类型字符中的两种字符进行唯一编码,确保第一类型字符中的字符的正向文本和倒置文本对应的编码信息均唯一。2.将第三类型字符对应的两种字符和第四类型字符中的对应的两种字符使用相同编码信息,即第三类型字符中的两种字符和第四类型字符中的两种字符采用同样的编码信息,
例如正向和倒置的“1”使用同样的编码方式,即同一编码信息,例如ascii码十进制编码规则中,1的编码信息为“049”,此时正向和倒置的“1”均使用同样的“049”编码信息,正向的“6”和倒置的“9”使用同样的编码信息,例如,ascii码十进制编码规则中,正向的“6”的编码为“054”,此时,将正向的“6”和倒置的“9”均使用“054”编码信息,由于使用同样的编码信息,它们在字符字典中的展现实质就是一个字符,例如正向的“6”和倒置的“9”就是一个同样的“054”编码信息。
118.针对问题(2),使用编码规则的调整并不能解决相似文本识别易出错的问题,因此,本技术在模型训练的时候制定了相应的策略解决这一问题,对于第四类型字符中的两种字符的编码选择简单的唯一编码信息。
119.具体的,即所述对所述字符集合中字符进行编码,得到所述字符字典,包括:对所述字符集合中第一类型字符的正向字符和倒置字符,分别采用不同的编码信息进行编码,得到第一正向字符编码和第一倒置字符编码;对所述字符集合中第二类型字符的正向字符和倒置字符,分别采用不同的编码信息进行编码,得到第二正向字符编码和第二倒置字符编码;对所述字符集合中第三类型字符中每个字符及其对应的字符,采用相同的编码信息进行编码,得到第一公共字符编码;对所述字符集合中第四类型字符中每个字符及其对应的字符,采用相同的编码信息进行编码,得到第二公共字符编码;其中,所述正向字符编码包括所述第一正向字符编码和所述第二正向字符编码,所述倒置字符编码包括第一倒置字符编码和所述第二倒置字符编码,所述公共字符编码包括第一公共字符编码和第二公共字符编码。
120.其中,本技术实施例中编码分成三种情况,第一类型字符和第二类型字符中正向字符对应的正向字符编码,第一类型字符和第二类型字符中倒置字符对应的倒置字符编码,第三类型字符和第四类型字符中的正向字符和倒置字符对应的公共字符编码。
121.基于上述原理,本技术实施例中,所述字符字典中的字符的字符编码信息包括预置的字符集合中预先定义的第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息,所述第一类型字符为字符的正向字符和其倒置字符不同的字符(上述字符情况1),所述第二类型字符为字符的倒置字符与字符集合中其他字符的正向字符相似的字符或者为字符的正向字符与字符字典中其他字符的倒置字符相似的字符(上述字符情况4),所述第三类型字符为字符的正向字符和其倒置字符相同的字符(上述字符情况2),所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符(上述字符情况3);所述第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息,所述正向字符编码信息为所述第一类型字符和第二类型字符的正向字符的字符编码信息,所述倒置字符编码信息为所述第一类型字符和第二类型字符的倒置字符的字符编码信息,所述公共字符编码信息为第三类型字符或第四类型字符的字符编码信息,所述第三类型字符中每个字符及其对应的字符采用相同的字符编码信息,所述第四类型字符中每个字符及其对应的字符采用相同的字符编码信息。
122.如图3所示,在本技术一些实施方式中,步骤203中所述根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本,可以包括步骤301~303,具体如下:
123.301、根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本。
124.302、若所述检测文本是正向文本,直接输出所述检测文本。
125.303、若所述检测文本是倒置文本,对所述检测文本进行倒置处理,输出所述检测文本的倒置处理后的结果。
126.其中,如图4所示,在本技术一些实施方式中,步骤301中所述根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,可以进一步包括步骤401~403,具体如下:
127.401、根据所述预置的字符字典中字符的字符编码信息,分别确定所述检测文本中各字符是正向字符编码还是倒置字符编码。
128.具体的,所述根据所述预置的字符字典中字符的字符编码信息,分别确定所述检测文本中各字符是正向字符编码还是倒置字符编码,包括:分别以所述检测文本中各字符为目标字符,在所述预置的字符字典中字符的字符编码信息中查找所述目标字符的字符编码信息;根据所述目标字符的字符编码信息,确定所述目标字符是正向字符编码还是倒置字符编码。
129.例如,所述检测文本中包括字符“a”,通过字典中字符的字符编码信息,可以确定字符“a”是正向字符编码。
130.402、统计所述检测文本中为正向字符编码的第一数量值和倒置字符编码的第二数量值。
131.例如,检测文本中包括5个字符,其中正向字符编码数量(即第一数量值)为5,倒置字符编码数量(即第二数量值)为1。
132.403、根据所述第一数量值和所述第二数量值,确定所述检测文本是正向文本还是倒置文本。
133.具体的,在本技术一些实施方式中,所述根据所述第一数量值和所述第二数量值,确定所述检测文本是正向文本还是倒置文本,可以进一步包括:判断所述第一数量值和所述第二数量值的大小;若所述第一数量值大于所述第二数量值,确定所述检测文本是正向文本;若所述第一数量值小于所述第二数量值,确定所述检测文本是倒置文本。
134.接着步骤402中的举例描述,正向字符编码数量5>倒置字符编码数量1,可以确定检测文本是正向文本,反之,若第一数量值小于所述第二数量值,可以确定检测文本是倒置文本。
135.需要说明的是,在实际应用过程中,还存在极少数极端情况,即第一数量值等于所述第二数量值,对于相等的情况,也就意味着上面的方式无法判断此时的检测文本是正向文本或者倒置文本,这个时候可以根据实际情况来处理,对于第一数量值等于所述第二数量时,确定检测文本是正向文本还是倒置文本,本技术实施例中有多种处理方式:
136.(1)直接舍弃掉该检测文本,不进行确定
137.即若第一数量值等于所述第二数量值,判定此张待识别文本图像是无法确定检测文本是正向文本或倒置文本的图像,可以直接舍弃,不作处理,并输出提醒信息,对用户进行提示。
138.(2)直接将检测文本按固定的一个文本方向确定
139.即若第一数量值等于所述第二数量值,按照预先设定的固定文本方向(正向或倒置),确定检测文本是正向文本或倒置文本,当然,发明人按照先验规律,正向字符数量和反向字符数量相等的情况下,是正向文本情况数量多一些,正向文本的概率更大,所以本技术实施例中,优选的,若第一数量值等于所述第二数量值,可以直接确定检测文本是正向文本。
140.本技术实施例中,无论是待识别文本图像中文本的方向是正向还是倒置,期望的识别结果都是调整成正向文本之后,自左向右正常的语言习惯的顺序的各字符识别结果,因此,对于倒置的文本,在文本字符识别之后,需要进行相应的判断所识别文本的方向,来进一步确定输出结果。本技术在得到包括多个字符的检测文本之后,比较这些字符落在正向编码区间(即这些字符中正向字符编码的数量)和倒置编码区间的数量(即这些字符中倒置字符编码的数量),来实现文本正向、倒置的判定。其中,对于落在公共编码区间的字符(即公共字符编码),由于对于正向和倒置的判断不起作用,可以直接剔除不统计。
141.本技术实施例中一方面通过判断正向和倒置字符数量来判断待识别文本整个是倒置还是正向,同时,再判断之后可以进一步对文本判断误差进行纠正,例如识别出5个字符,其中3个是正向,2个是倒置,则,整体文本是正向,2个倒置的是识别错误,需要进行纠正,最终输出所述检测文本的正向文本。
142.本技术实施例中,步骤203中所述对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本可以通过预先训练好的神经网络模型来进行识别,也可以通过算法来实现。
143.具体的,步骤203中所述对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本,可以进一步包括:对所述待识别文本图像进行字符分割,得到多个字符图像;对所述多个字符图像进行字符识别,得到具有排列顺序的多个字符的检测文本。字符分割是对待识别文本图像中每个字符所在区域进行分割,经过对待识别文本图像进行字符分割,可以得到待识别文本图像的各字符的字符图像。
144.其中,对所述待识别文本图像进行字符分割,得到多个字符图像的方式可以采用目前现有的字符图像分割方式,例如先进行灰度处理,然后二值化处理,矫正图像后提取特征,通过支持向量机(support vector machine,svm)、人工神经网络(artificial neural network,ann)等分类器来实现字符分割,得到多个字符图像。对所述多个字符图像进行字符识别可以采用现有的ocr算法来进行识别,具体此处不作限定。
145.在本技术另一些实施方式中,可以直接通过预先训练好的神经网络模型(如文本检测模型)来进行识别,所述对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本,包括:将所述待识别文本图像输入预先训练好的文本检测模型中,以输出具有排列顺序的多个字符的检测文本,所述文本检测模型为densenet网络模型,所述densenet网络模型的损失函数为权重时间连接分类损失函数。
146.其中,预设神经网络模型可以是卷积神经网络(convolutional neural network,cnn)模型,例如卷积神经网络(convolutional neural network,cnn)模型中的densenet网络模型,resnet网络模型、googlenet网络模型等。基于发明人的测试,本技术实施例中,densenet网络模型在参数和计算成本更少的情形下具有更优的性能,预设神经网络模型优选为densenet网络模型。
147.进一步的,当预设神经网络模型为densenet网络模型时,其损失函数可以为权重时间连接分类损失函数(weight connectionist temporal classisfication loss,weight ctc loss),以进一步提高字符识别性能。
148.对于字符编码中的第二类型字符,因字符之间过于相似从而导致识别结果易出错,本技术实施例中通过设计带权重的损失来解决上述问题,对于相似文本之间识别出错的情况,给予更大的惩罚,在不影响模型识别非相似文本性能的前提下,提升网络模型在相似文本上的识别能力。
149.本技术实施例中,weight ctc loss如下式所示:
[0150][0151]
其中,n为文本检测模型训练时字符样本集中字符的数量,k为类别数,y
ik
为第i的真实标签,p
ik
为第i个样本在第k个类别(即正向字符编码,倒置字符编码或公共字符编码)的预测概率,α为权重系数,在一个文本检测模型训练的具体实施例中,训练预设神经网络模型时,是将字符样本和字符样本的真实结果来做训练,例如样本是第二类型字符中的一个字符,真实结果已经知道,若模型输出的不是这个结果即可判断是识别错误。利用样本训练预设神经网络模型时,当样本出现非第二类型字符的识别错误时,α=1.0,当样本出现第二类型字符中的识别错误时,α=1.1。
[0152]
需要说明的是,α的取值上述仅为举例,可以理解的是,当样本出现非第二类型字符的字符识别错误时和出现第二类型字符中的字符识别错误时,α的取值可以是其他取值,只需要满足样本出现第二类型字符中的字符识别错误时α取值更大,且两种情况的α取值差距在5~15%即可。
[0153]
本技术实施例中在使用文本检测模型之前,需要预先训练得到文本检测模型,具体的,本技术实施例中还包括模型训练过程:将字符字典中的字符作为字符样本,添加至字符样本集中;根据字符样本集对预设神经网络模型进行训练,得到文本检测模型。后续可以基于文本检测模型所述待识别文本图像进行字符识别。本技术实施例中,为了保证后续识别准确率,字符样本集至少包括本技术实施例中字符字典中字符,因此字符样本集字符的数量可以是本技术中字符字典中字符的总数。
[0154]
另外,本技术实施例中文本检测模型训练时,可以使用固定字频生成上述字符编码中的第一类型字符中的文本数据,由于第三类型字符、第二类型字符、第四类型字符的,相对于第一类型字符,在整体字符数量中的占比较小,所以在数据生成的过程中,对其生成x倍(x为正整数)固定字频的字符样本,来解决样本量过低而无法准确有效识别的问题。
[0155]
为了更好实施本技术实施例中文本字符检测方法,在文本字符检测方法基础之上,本技术实施例中还提供一种文本字符检测装置,如图5所示,所述文本字符检测装置500包括获取单元501、识别单元502和输出单元503,具体如下:
[0156]
获取单元501,用于获取待识别文本图像;
[0157]
识别单元502,用于对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本;
[0158]
输出单元503,用于根据预置的字符字典中字符的字符编码信息,确定所述检测文
本是正向文本还是倒置文本,并输出所述检测文本的正向文本;
[0159]
其中,所述字符字典中的字符的字符编码信息包括预置的字符集合中预先定义的第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息,所述第一类型字符为字符的正向字符和其倒置字符不同的字符,所述第二类型字符为字符的倒置字符与字符集合中其他字符的正向字符相似的字符或者为字符的正向字符与字符字典中其他字符的倒置字符相似的字符,所述第三类型字符为字符的正向字符和其倒置字符相同的字符,所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符;所述第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息,所述正向字符编码信息为所述第一类型字符和第二类型字符的正向字符的字符编码信息,所述倒置字符编码信息为所述第一类型字符和第二类型字符的倒置字符的字符编码信息,所述公共字符编码信息为第三类型字符或第四类型字符的字符编码信息,所述第三类型字符中每个字符及其对应的字符采用相同的字符编码信息,所述第四类型字符中每个字符及其对应的字符采用相同的字符编码信息。
[0160]
本技术中通过获取待识别文本图像;对待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本;根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本;本技术预先对字符字典中字符编码为正向字符编码、倒置字符编码和公共字符编码,再基于字符字典中字符的字符编码信息,对待识别文本图像识别之后的多个字符解码,确定多个字符的正向文本,因此可以实现对文本方向的判定以及输出检测文本对应的正向文本的内容识别结果,不论待识别文本图像识别后的多个字符是正向还是倒置,均可以完成识别,从而实现双向文本的识别,拓展文本识别的使用场景,以及提高文本在复杂场景下的识别准确率。
[0161]
在本技术一些实施方式中,所述装置还包括编码单元,所述编码单元用于:
[0162]
在所述根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本之前,获取初始字符集合;
[0163]
对所述初始字符集合中的字符进行倒置后,添加到所述初始字符集合中,得到字符集合;
[0164]
对所述字符集合中字符进行编码,得到所述字符字典。。
[0165]
在本技术一些实施方式中,所述编码单元具体用于:
[0166]
对所述字符集合中第一类型字符的正向字符和倒置字符,分别采用不同的编码信息进行编码,得到第一正向字符编码和第一倒置字符编码;
[0167]
对所述字符集合中第二类型字符的正向字符和倒置字符,分别采用不同的编码信息进行编码,得到第二正向字符编码和第二倒置字符编码;
[0168]
对所述字符集合中目标字符的正向字符和倒置字符,分别采用相同的编码信息进行编码,得到公共字符编码,所述目标字符为所述字符集合中字符的正向字符和其倒置字符相同的字符,或者字符的正向字符和所述字符集合中其他字符的正向字符相同的字符;
[0169]
其中,所述正向字符编码包括所述第一正向字符编码和所述第二正向字符编码,所述倒置字符编码包括第一倒置字符编码和所述第二倒置字符编码。
[0170]
在本技术一些实施方式中,所述输出单元503具体用于:
[0171]
根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本;
[0172]
若所述检测文本是正向文本,直接输出所述检测文本;
[0173]
若所述检测文本是倒置文本,对所述检测文本进行倒置处理,输出所述检测文本的倒置处理后的结果。
[0174]
在本技术一些实施方式中,所述输出单元503具体用于:
[0175]
分别以所述检测文本中各字符为目标字符,在所述字符编码信息中查找所述目标字符的字符编码信息;
[0176]
根据所述目标字符的字符编码信息,确定所述目标字符是正向字符编码还是倒置字符编码;
[0177]
统计所述检测文本中为正向字符编码的第一数量值和倒置字符编码的第二数量值;
[0178]
根据所述第一数量值和所述第二数量值,确定所述检测文本是正向文本还是倒置文本。
[0179]
在本技术一些实施方式中,所述输出单元503具体用于:
[0180]
判断所述第一数量值和所述第二数量值的大小;
[0181]
若所述第一数量值大于所述第二数量值,确定所述检测文本是正向文本;
[0182]
若所述第一数量值小于所述第二数量值,确定所述检测文本是倒置文本。
[0183]
在本技术一些实施方式中,所述识别单元502具体用于:
[0184]
对所述待识别文本图像进行字符分割,得到多个字符图像;
[0185]
对所述多个字符图像进行字符识别,得到具有排列顺序的多个字符的检测文本。
[0186]
在本技术一些实施方式中,所述识别单元502具体用于:
[0187]
将所述待识别文本图像输入预先训练好的文本检测模型中,以输出具有排列顺序的多个字符的检测文本,所述文本检测模型为densenet网络模型,所述densenet网络模型的损失函数为权重时间连接分类损失函数。
[0188]
本发明实施例还提供一种计算机设备,其集成了本发明实施例所提供的任一种文本字符检测装置,所述计算机设备包括:
[0189]
一个或多个处理器;
[0190]
存储器;以及
[0191]
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述文本字符检测方法实施例中任一实施例中所述的文本字符检测方法中的步骤。
[0192]
本发明实施例还提供一种计算机设备,其集成了本发明实施例所提供的任一种文本字符检测装置。如图6所示,其示出了本发明实施例所涉及的计算机设备的结构示意图,具体来讲:
[0193]
该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0194]
处理器601是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
[0195]
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
[0196]
计算机设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0197]
该计算机设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0198]
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
[0199]
获取待识别文本图像;
[0200]
对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本;
[0201]
根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本;
[0202]
其中,所述字符字典中的字符的字符编码信息包括预置的字符集合中预先定义的第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息,所述第一类型字符为字符的正向字符和其倒置字符不同的字符,所述第二类型字符为字符的倒置字符与字符集合中其他字符的正向字符相似的字符或者为字符的正向字符与字符字典中其他字符的倒置字符相似的字符,所述第三类型字符为字符的正向字符和其倒置字符相同的字符,所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符;所述第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息,所述正向字符编码信息为所述第一类型字符和第二类型字符的正向字符的字符编码信息,所述倒置字符编码信息为
所述第一类型字符和第二类型字符的倒置字符的字符编码信息,所述公共字符编码信息为第三类型字符或第四类型字符的字符编码信息,所述第三类型字符中每个字符及其对应的字符采用相同的字符编码信息,所述第四类型字符中每个字符及其对应的字符采用相同的字符编码信息。
[0203]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0204]
为此,本发明实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行本发明实施例所提供的任一种文本字符检测方法中的步骤。例如,所述计算机程序被处理器进行加载可以执行如下步骤:
[0205]
获取待识别文本图像;
[0206]
对所述待识别文本图像进行字符识别,得到具有排列顺序的多个字符的检测文本;
[0207]
根据预置的字符字典中字符的字符编码信息,确定所述检测文本是正向文本还是倒置文本,并输出所述检测文本的正向文本;
[0208]
其中,所述字符字典中的字符的字符编码信息包括预置的字符集合中预先定义的第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息,所述第一类型字符为字符的正向字符和其倒置字符不同的字符,所述第二类型字符为字符的倒置字符与字符集合中其他字符的正向字符相似的字符或者为字符的正向字符与字符字典中其他字符的倒置字符相似的字符,所述第三类型字符为字符的正向字符和其倒置字符相同的字符,所述第四类型字符为字符的倒置字符和字符集合中其他字符的正向字符相同的字符;所述第一类型字符、第二类型字符、第三类型字符和第四类型字符的字符编码信息包括预先设置的正向字符编码、倒置字符编码和公共字符编码的信息,所述正向字符编码信息为所述第一类型字符和第二类型字符的正向字符的字符编码信息,所述倒置字符编码信息为所述第一类型字符和第二类型字符的倒置字符的字符编码信息,所述公共字符编码信息为第三类型字符或第四类型字符的字符编码信息,所述第三类型字符中每个字符及其对应的字符采用相同的字符编码信息,所述第四类型字符中每个字符及其对应的字符采用相同的字符编码信息。
[0209]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
[0210]
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
[0211]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0212]
以上对本发明实施例所提供的一种文本字符检测方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发
明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献