一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本识别方法、装置、电子设备及计算机存储介质与流程

2022-08-13 21:00:16 来源:中国专利 TAG:


1.本公开涉及但不限于图像处理技术领域,尤其涉及一种文本识别方法、装置、设备及存储介质。


背景技术:

2.文字识别技术是一种对图像中的文字进行识别,并将图像中的文字形状转换为特定格式的文字的技术。随着科技的发展,文字识别技术也愈发成熟,在各个领域都得到了广泛的应用。例如,对证件或银行卡进行文字识别、对火车票进行文字识别、对图像中的车牌号进行文字识别等。
3.然而,在相关技术中,在不同的场景中需要采用不同的文字识别方法进行文字识别,即相关技术中的文字识别方法无法通用于多种场景。


技术实现要素:

4.本公开实施例至少提供一种文本识别方法、装置、电子设备及计算机存储介质。
5.本公开实施例提供一种文本识别方法,所述方法包括:
6.获取待识别的图像;
7.获取所述图像的场景信息和所述图像的对象信息;其中,所述场景信息表征所述图像中的对象所属的应用场景;
8.基于所述图像的场景信息,确定与所述图像对应的目标文本识别模型集合;
9.基于所述图像的对象信息,从所述目标文本识别模型集合中确定与所述图像对应的目标文本识别模型;
10.基于所述目标文本识别模型对所述图像进行文本识别,得到文本识别结果。
11.在一些实施例中,所述基于所述图像的场景信息,确定与所述图像对应的目标文本识别模型集合,包括:将预设关联关系库中,与所述图像的场景信息具有关联关系的文本识别模型集合,确定为与所述图像对应的目标文本识别模型集合;所述基于所述图像的对象信息,从所述目标文本识别模型集合中确定与所述图像对应的目标文本识别模型,包括:将所述目标文本识别模型集合中,与所述图像的对象信息具有关联关系的所述文本识别模型,确定为与所述图像对应的目标文本识别模型。
12.这样,通过将预设关联关系库中与该待识别的图像的场景信息关联的文本识别模型集合确定为对应的目标文本识别模型集合,可以快速地确定出目标文本识别模型集合。通过将目标文本识别模型集合中与该待识别的图像的对象信息关联的文本识别模型确定为对应的目标文本识别模型,可以快速地从目标文本识别模型集合中确定出目标文本识别模型。进而,这样可以加快对待识别的图像进行文本识别的速度。
13.在一些实施例中,所述获取所述图像的场景信息和所述图像的对象信息,包括:对所述图像进行图像分析处理,将所述图像划分为背景区域和文本区域;基于所述背景区域中的内容,确定所述图像的场景信息;基于所述文本区域中的内容,确定所述图像的对象信
息。
14.这样,将待识别图像划分为背景区域和文本区域后,根据待识别的图像的不同区域的内容确定出的不同信息的准确率较高,即根据待识别的图像的背景区域的内容确定出的场景信息的准确率较高,根据待识别的图像的文本区域的内容确定出的对象信息的准确率较高。
15.在一些实施例中,所述对所述图像进行图像分析处理,将所述图像划分为背景区域和文本区域,包括:对所述图像进行区域预处理,确定预选文本区域和预选背景区域;对所述图像进行轮廓识别,确定文本轮廓;基于所述预选文本区域和所述文本轮廓,从所述图像中确定所述文本区域;基于所述预选背景区域和所述文本轮廓,从所述图像中确定所述背景区域。
16.这样,通过先对待识别的图像进行区域预处理,再对待识别的图像进行轮廓识别,然后根据预处理得到的预选文本区域、预选背景区域和文本轮廓确定文本区域和背景区域;可以使得确定出的文本区域和背景区域的误差较小,准确性较高。
17.在一些实施例中,所述对所述图像进行区域预处理,确定预选文本区域和预选背景区域,包括:对所述图像进行对象检测,确定所述图像中包含所述对象的对象区域;从所述对象区域中确定所述预选文本区域;将所述图像中除所述预选文本区域之外的区域确定为所述预选背景区域。
18.这样,通过先确定待识别的图像中的对象区域,然后再从对象区域中确定预选文本区域,即先在待识别的图像的基础上缩小范围,再在较小的范围内确定预选文本区域;可以使得确定出的预选文本区域的准确性较高,且通过这样的方式确定预选文本区域的效率更高。
19.在一些实施例中,所述基于所述背景区域中的内容,确定所述图像的场景信息,包括:分别确定所述背景区域的内容与预设数据库中的各个预设背景内容之间的相似度;根据大于预设阈值的相似度对应的预设背景内容的场景信息,确定所述图像的场景信息。
20.这样,一方面,根据预设数据库中的预设背景内容的场景信息确定待识别的图像的场景信息的效率更高,也更方便;另一方面,根据大于预设阈值的相似度对应的预设背景内容的场景信息,确定出的场景信息的准确率更高。
21.在一些实施例中,所述基于所述目标文本识别模型对所述图像进行文本识别,得到文本识别结果,包括:利用所述目标文本识别模型,将所述图像的文本区域中的内容由图像格式转换为文本格式;根据图像格式的内容在所述图像中的位置信息,对文本格式的内容进行组合,得到所述文本识别结果。
22.这样,可以还原文本的排列顺序和排版格式,使得到的文本格式的内容与文本区域中图像格式的内容是对应的,可以提高文本识别的效果。
23.在一些实施例中,所述方法还包括:获取至少一组样本图像;其中,每组所述样本图像对应一种场景信息;针对每一所述场景信息,利用与所述场景信息对应的一组样本图像对初始模型进行训练,得到所述场景信息对应的文本识别模型;根据每一所述场景信息对应的至少一个文本识别模型,得到每一所述场景信息对应的文本识别模型集合。
24.这样,预先训练好文本识别模型集合,在应用时,即对待识别的图像进行文本识别时,则可以从预先训练好的文本识别模型集合中选择文本识别模型进行文本识别,不需调
用其它的文本识别服务,可以提高文本识别的效率。
25.本公开实施例还提供了一种文本识别装置,所述装置包括:
26.第一获取模块,配置为获取待识别的图像;
27.第二获取模块,配置为获取所述图像的场景信息和所述图像的对象信息;其中,所述场景信息表征所述图像中的对象所属的应用场景;
28.第一确定模块,配置为基于所述图像的场景信息,确定与所述图像对应的目标文本识别模型集合;
29.第二确定模块,配置为基于所述图像的对象信息,从所述目标文本识别模型集合中确定与所述图像对应的目标文本识别模型;
30.文本识别模块,配置为基于所述目标文本识别模型对所述图像进行文本识别,得到文本识别结果。
31.本公开实施例还提供了一种电子设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序以执行上述任意一种文本识别方法。
32.本公开实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种文本识别方法。
33.本公开的实施例提供的技术方案可以包括以下有益效果:
34.在本公开实施例中,在获取到待识别的图像之后,可以获取待识别的图像的场景信息和对象信息;然后基于待识别的图像的场景信息确定目标文本识别模型集合,并基于待识别的图像的对象信息,从目标文本识别模型集合中确定目标文本识别模型;最后基于目标文本识别模型对待识别的图像进行文本识别,得到文本识别结果。由于,目标文本识别模型集合和目标文本识别模型都是与待识别的图像对应的;因此,对于不同的待识别的图像,可以确定出对应的目标文本识别模型,进而可以基于对应的目标文本识别模型进行文本识别。所以,本公开实施例提供的文本识别方法可以自适应不同的待识别的图像,从而可以在多种应用场景中通用。
35.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
36.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
37.图1是根据本公开一示例性实施例示出的文本识别方法的流程图一。
38.图2是根据本公开一示例性实施例示出的文本识别模型集合的示意图一。
39.图3是根据本公开一示例性实施例示出的文本识别模型集合的示意图二。
40.图4是根据本公开一示例性实施例示出的预设关联关系库的示意图。
41.图5是根据本公开一示例性实施例示出的证件类文本识别模型集合的示意图。
42.图6是根据本公开一示例性实施例示出的文本识别方法的流程图二。
43.图7是根据本公开一示例性实施例示出的图像分析处理方法的流程图。
44.图8是根据本公开一示例性实施例示出的区域预处理方法的流程图。
45.图9是根据本公开一示例性实施例示出的文本识别方法的流程图三。
46.图10是根据本公开一示例性实施例示出的文本识别装置的组成结构示意图。
47.图11是根据本公开一示例性实施例示出的一种电子设备的硬件结构框图。
具体实施方式
48.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
49.图1是根据本公开一示例性实施例示出的文本识别方法的流程图一。在一些实施例中,本公开提供的文本识别方法可以应用于电子设备,例如,可以应用于终端设备和服务器等电子设备。这里,终端设备可以包括:移动终端或固定终端等。其中,移动终端可以包括:手机、平板电脑、笔记本电脑等设备,固定终端可以包括:台式电脑等。
50.如图1所示,本公开一示例性实施例示出的文本识别方法主要包括以下步骤:
51.步骤110,获取待识别的图像。
52.在一些实施例中,待识别的图像可以是,图像内容中包含文字的图像,如证件或票据的复印件、包含文字的视频截图或包含文字的网络图像等图像。在上述文本识别方法应用于电子设备的情况下,执行上述文本识别方法的电子设备可以包含图像采集模块、通信模块或存储模块等中的至少一种模块。
53.在电子设备包含图像采集模块的情况下,电子设备可以通过图像采集模块来获取待识别的图像,例如,通过摄像头来拍摄图像,将拍摄得到的图像作为待识别图像。在电子设备包含通信模块的情况下,电子设备可以通过通信模块从其它电子设备或云端服务器中获取待识别的图像。在电子设备包含存储模块的情况下,可以预先将待识别的图像存储在存储模块中,在需进行文本识别时,可以从电子设备的存储模块中获取待识别的图像。
54.步骤120,获取所述图像的场景信息和所述图像的对象信息;其中,所述场景信息表征所述图像中的对象所属的应用场景。
55.在一些实施例中,在电子设备通过图像采集模块、通信模块或存储模块等获取到待识别的图像之后,可以获取待识别的图像的场景信息和对象信息。这里,场景信息可以是待识别的图像中的对象所属的应用场景,例如,在待识别的图像中包含第一证件的情况下,待识别的图像中的对象可以是第一证件。场景信息可以包括证件类识别场景、票据类识别场景和手写类识别场景等,也可以具体是第一证件类识别场景、第二证件类识别场景、飞机票类识别场景和火车票类识别场景等,还可以是开发人员自定义的场景信息,在此不对场景信息作具体限定。这里,例如,第一证件可以为毕业证等证件,第二证件可以为驾驶证等证件。
56.例如,在待识别的图像中包含第一证件(如待识别的图像为第一证件的复印件或照片等)的情况下,待识别的图像的场景信息可以是证件类识别场景,也可以具体是第一证件类识别场景。
57.对象信息可以是待识别的图像中的对象的内容信息或属性信息,属性信息可以包括对象的尺寸信息、语言信息和清晰度信息等。例如,在待识别的图像中包含第一证件的情
况下,待识别的图像的对象信息可以是该第一证件的图像内容(如第一证件上的图标、或“姓名”、“第一证件”的字样中的任一种)、尺寸信息(第一证件的长、宽等)、语言信息(第一证件中的文本为英文或中文)和、清晰度信息(第一证件的清晰度)等中的至少一种,在此不对对象信息作具体限定。
58.需说明的是,在一些实施例中,虽然在获取待识别的图像的对象信息时,无法对待识别图像中的文本进行识别,但是可以识别出文本的字样(即文字的形状)。
59.可以理解的是,根据图像的场景信息可以确定图像所属大类,根据图像的对象信息可以确定图像所属小类。例如,在图像的场景信息为证件类识别场景的情况下,可以确定该图像属于证件类;在图像的对象信息(图像内容)中包含“第一证件”字样的情况下,可以确定该图像属于证件类中的第一证件类。在图像的场景信息为第一证件类识别场景的情况下,可以确定该图像属于第一证件类;在图像的对象信息为中文的情况下,可以确定该图像属于第一证件类中的中文第一证件类。步骤130,基于所述图像的场景信息,确定与所述图像对应的目标文本识别模型集合。
60.在一些实施例中,在得到待识别的图像的场景信息之后,可以确定与待识别的图像对应的目标文本识别模型集合。目标文本识别模型集合可以是从预先得到的至少一个文本识别模型集合中确定的。每一文本识别模型集合可以包括分别对具有一种场景信息的图像(包含不同应用场景的对象的图像)进行文本识别的至少一个文本识别模型。
61.图2是根据本公开一示例性实施例示出的文本识别模型集合的示意图一。如图2所示,在一些实施例中,在场景信息包括证件类识别场景、票据类识别场景和手写类识别场景的情况下,至少一个文本识别模型集合中可以包括:用于对证件类图像(如第一证件图像)进行文本识别的证件类文本识别模型集合210、用于对票据类图像(如火车票图像)进行文本识别的票据类文本识别模型集合220、以及用于对手写类图像进行文本识别的手写类文本识别模型集合230。
62.在确定待识别的图像的场景信息为证件类识别场景的情况下,可以将至少一个文本识别模型集合中的证件类文本识别模型集合确定为目标文本识别模型集合;在确定待识别的图像的场景信息为票据类识别场景的情况下,可以将至少一个文本识别模型集合中的票据类文本识别模型集合确定为目标文本识别模型集合;在确定待识别的图像的场景信息为手写类识别场景的情况下,可以将至少一个文本识别模型集合中的手写类文本识别模型集合确定为目标文本识别模型集合。
63.步骤140,基于所述图像的对象信息,从所述目标文本识别模型集合中确定与所述图像对应的目标文本识别模型。
64.在一些实施方式中,每个文本识别模型集合中可以包含预先训练得到的至少一个文本识别模型,每个文本识别模型集合中的各个文本识别模型可以是,对具有相同场景信息和不同对象信息的图像进行文本识别的文本识别模型。并且,每个文本识别模型集合中的各个文本识别模型可以是基于深度神经网络的文本识别模型。可以理解的是,采用基于深度神经网络的文本识别模型可以提高进行文本识别的准确率。
65.例如,如图2所示,在场景信息包括证件类识别场景的情况下,证件类文本识别模型集合210中可以包含:用于对第一证件图像(场景信息为证件类识别场景,对象信息为“第一证件”字样)进行文本识别的第一证件文本识别模型211,和用于对第二证件图像(场景信
息为证件类识别场景,对象信息为“第二证件”字样)进行文本识别的第二证件文本识别模型212。
66.在场景信息包括票据类识别场景的情况下,票据类文本识别模型集合220中可以包含:用于对飞机票图像(场景信息为票据类识别场景,对象信息为“飞机票”字样或对象的尺寸符合飞机票的尺寸)进行文本识别的飞机票文本识别模型221,和用于对火车票图像(场景信息为票据类识别场景,对象信息为“火车票”字样或对象的尺寸符合火车票的尺寸)进行文本识别的火车票文本识别模型222。
67.在场景信息包括手写类识别场景的情况下,手写类文本识别模型集合230中可以包含:用于对中文手写图像(场景信息为手写类识别场景,对象信息为中文),即包含中文手写体文本的图像,进行文本识别的中文手写体文本识别模型231,和用于对英文手写图像(场景信息为手写类识别场景,对象信息为英文),即包含英文手写体文本的图像,进行文本识别的中文手写体文本识别模型232。
68.在确定待识别的图像的场景信息为证件类识别场景,目标文本识别模型集合为证件类文本识别模型集合的情况下;若待识别的图像的对象信息为“第一证件”字样,则将证件类文本识别模型集合中的第一证件文本识别模型确定为目标文本识别模型;若待识别的图像的对象信息为“第二证件”字样,则将证件类文本识别模型集合中的第二证件文本识别模型确定为目标文本识别模型。
69.在一些实施例中,每个文本识别模型集合中还可以包含对具有相同场景信息但对象的清晰度(对象信息)不同的图像进行文本识别的不同精度的文本识别模型,利用不同精度的文本识别模型对具有相同场景信息但对象的清晰度不同的图像中进行文本识别。例如,针对对象的清晰度越高的图像,采用精度越低的文本识别模型进行文本识别,以降低模型的训练成本;针对对象的清晰度越低的图像,采用精度越高的文本识别模型进行文本识别,以提高对图像进行文本识别的准确率。
70.可以理解的是,精度越高的文本识别模型的训练成本越高,对图像进行文本识别的准确率也越高。因此,针对包含不同清晰度的对象的图像,采用不同精度的文本识别模型进行文本识别,一方面可以降低对清晰度较高的图像进行文本识别的文本识别模型的训练成本,一方面可以提高对清晰度较低的图像进行文本识别的准确率。
71.图3是根据本公开一示例性实施例示出的文本识别模型集合的示意图二。如图3所示,在另一些实施例中,在场景信息包括第一证件类识别场景、飞机票类识别场景和中文手写类识别场景的情况下,至少一个文本识别模型集合中可以包括:用于对第一证件图像进行文本识别的第一证件类文本识别模型集合310、用于对飞机票图像进行文本识别的飞机票类文本识别模型集合320、以及用于对中文手写图像(包含中文手写体文本的图像)进行文本识别的中文手写类文本识别模型集合330。
72.需说明的是,以上提到的场景信息和文本识别模型集合仅是示例,在其它实施例中,场景信息还可以包括第二证件类识别场景、火车票类识别场景等等,文本识别模型集合还可以包括第二证件类文本识别模型集合、火车票类文本识别模型集合等等,在此不对场景信息和文本识别模型集合进行限定。
73.如上所述,每个文本识别模型集合中的各个文本识别模型可以是,对具有相同场景信息和不同对象信息的图像进行文本识别的文本识别模型。
74.例如,如图3所示,在场景信息包括第一证件类识别场景的情况下,第一证件类文本识别模型集合310中可以包含:用于对中文第一证件图像(场景信息为第一证件类识别场景,对象信息为中文)进行文本识别的中文第一证件文本识别模型311,和用于对韩文第一证件图像(场景信息为第一证件类识别场景、对象信息为韩文)进行文本识别的韩文第一证件文本识别模型312。
75.在场景信息包括飞机票类识别场景的情况下,飞机票类文本识别模型集合320中可以包含:用于对a航空公司的飞机票图像(场景信息为飞机票类识别场景,对象信息为“a航空”字样)进行文本识别的a航空公司飞机票文本识别模型321,和用于对b航空公司的飞机票图像(场景信息为飞机票类识别场景,对象信息为“b航空”字样)进行文本识别的b航空公司飞机票文本识别模型322。
76.在场景信息包括中文手写类识别场景的情况下,中文手写类文本识别模型集合330中可以包含:用于对对象的清晰度位于第一清晰度区间的中文手写图像(场景信息为中文手写类识别场景,对象的清晰度位于第一清晰度区间)进行文本识别的第一精度中文手写文本识别模型331,和用于对对象的清晰度位于第二清晰度区间的中文手写图像(场景信息为中文手写类识别场景,对象的清晰度位于第二清晰度区间)进行文本识别的第二精度中文手写文本识别模型332。
77.步骤150,基于所述目标文本识别模型对所述图像进行文本识别,得到文本识别结果。
78.在基于待识别的图像的场景信息,确定出目标文本识别模型集合,并根据待识别的图像的对象信息,从目标文本识别模型集合中确定出目标文本识别模型之后,可以利用确定出的目标文本识别模型对待识别的图像进行文本识别,得到文本识别结果。这里的文本识别,可以是识别出待识别的图像中的文本,并将识别出的文本转换为预设格式并输出;文本识别结果则是预设格式的文本。
79.在一些实施例中,在对待识别的图像进行文本识别得到预设格式的文本后,还可以对预设格式的文本进一步进行处理,例如,根据预设格式的文本对待处理的图像中的对象进行分析,将分析结果作为文本识别结果。如,在对象为第一证件图像的情况下,从预设格式的文本中提取出该第一证件图像中的第一证件号码,这里提取到的第一证件号码则可以作为文本识别的结果。
80.在本公开实施例中,在获取到待识别的图像之后,可以获取待识别的图像的场景信息和对象信息;然后基于待识别的图像的场景信息确定目标文本识别模型集合,并基于待识别的图像的对象信息,从目标文本识别模型集合中确定目标文本识别模型;最后基于目标文本识别模型对待识别的图像进行文本识别,得到文本识别结果。由于,目标文本识别模型集合和目标文本识别模型都是与待识别的图像对应的;因此,对于不同的待识别的图像,可以基于待识别的图像确定出对应的目标文本识别模型,进而可以基于对应的目标文本识别模型进行文本识别。所以,本公开实施例提供的文本识别方法可以自适应不同的待识别的图像,从而可以在多种应用场景中通用。
81.在一些实施例中,在步骤130中,所述基于所述图像的场景信息,确定与所述图像对应的目标文本识别模型集合,可以包括:
82.将预设关联关系库中,与所述图像的场景信息具有关联关系的文本识别模型集
合,确定为与所述图像对应的目标文本识别模型集合。
83.在一些实施例中,可以预先训练得到至少一个文本识别模型,然后按照文本识别模型的应用场景对至少一个文本识别模型分类,得到与不同应用场景对应的至少一个文本识别模型集合。
84.可以理解的是,文本识别模型的应用场景也可以包括证件类、票据类和手写类等,可以按照文本识别模型的应用场景将至少一个文本识别模型分为证件类文本识别模型集合、票据类文本识别模型集合和手写类文本识别模型集合等。不同应用场景的文本识别模型集合可以与图像的场景信息相对应,例如,证件类文本识别模型集合与场景信息为证件类识别场景的图像相对应;票据类文本识别模型集合与场景信息为票据类识别场景的图像相对应。
85.由于,不同应用场景的文本识别模型集合可以与待识别的图像的场景信息相对应。因此,在一些实施例中,可以预先建立文本识别模型集合与待识别的图像的场景信息的关联关系,并在存储文本识别模型集合时,将文本识别模型集合,和与文本识别模型集合具有关联关系的待识别的图像的场景信息一起存储在预设关联关系库中。
86.例如,如图4所示,在预设关联关系库400中,证件类识别场景410与证件类文本识别模型集合440相关联,票据类识别场景420与票据类文本识别模型集合450相关联,手写类识别场景430与手写类文本识别模型集合460相关联。
87.在基于待识别的图像的场景信息,确定与待识别的图像对应的文本识别模型集合时,可以从预设关联关系库中搜索与该待识别的图像的场景信息具有关联关系的文本识别模型集合,将搜索到的文本识别模型集合确定为目标文本识别模型集合。例如,在待识别的图像的场景信息为证件类识别场景的情况下,从预设关联关系库中搜索与证件类关联的证件类文本识别模型集合,将证件类文本识别模型集合确定为目标文本识别模型集合。
88.在步骤140中,所述基于所述图像的对象信息,从所述目标文本识别模型集合中确定与所述图像对应的目标文本识别模型,可以包括:
89.将所述目标文本识别模型集合中,与所述图像的对象信息具有关联关系的所述文本识别模型,确定为与所述图像对应的目标文本识别模型。
90.可以理解的是,相同场景信息的图像的对象信息可能不同,因此为了提高对图像进行文本识别的精确度,在文本识别模型集合与图像的场景信息相关联的情况下,文本识别模型集合中的文本识别模型可以与图像的对象信息相关联。文本识别模型集合中可以保存有至少一个文本识别模型、以及每一文本识别模型对应的对象信息。
91.例如,如图5所示,在证件类文本识别模型500中,“第一证件”字样510的对象信息与第一证件文本识别模型530相关联,“第二证件”字样520的对象信息与第二证件文本识别模型540相关联。
92.在基于待识别的图像的对象信息,确定与待识别的图像对应的文本识别模型时,可以从与待识别的图像的场景信息对应的文本识别模型集合中搜索与该待识别的图像的对象信息具有关联关系的文本识别模型,将搜索到的文本识别模型确定为目标文本识别模型。例如,在待识别的图像的场景信息为证件类识别场景,对象信息为“第一证件”字样的情况下,从证件类文本识别模型集合中搜索与“第一证件”字样关联的第一证件文本识别模型,将第一证件文本识别模型确定为目标文本识别模型。
93.这里,在确定与待识别的图像对应的目标文本识别模型集合时,通过将预设关联关系库中与该待识别的图像的场景信息关联的文本识别模型集合确定为对应的目标文本识别模型集合,可以快速地确定出目标文本识别模型集合。在确定与待识别的图像对应的目标文本识别模型集合时,通过将目标文本识别模型集合中与该待识别的图像的对象信息关联的文本识别模型确定为对应的目标文本识别模型,可以快速地从目标文本识别模型集合中确定出目标文本识别模型。进而,可以加快对待识别的图像进行文本识别的速度。
94.在一些实施例中,待识别的图像的场景信息和对象信息可以通过人工确定。在通过人工确定待识别的图像的场景信息和对象信息的情况下,执行所述文本识别方法的电子设备可以包括显示屏和操作界面,待识别的图像的场景信息和对象信息可以通过人工确定。在电子设备获取到待识别图像后,可以基于显示屏将待识别的图像显示给工作人员,工作人员在确定出待识别的图像的场景信息和对象信息之后,可以通过电子设备的操作界面以文字输入或语音输入等方式将确定出的场景信息和对象信息输入电子设备中。
95.这样,通过人工确定的待识别的图像的场景信息和对象信息更加准确,从而基于场景信息和对象信息确定出的目标文本识别模型也更加准确,更加适用于待识别的图像。
96.图6是根据本公开一示例性实施例示出的文本识别方法的流程图二。如图6所示,在步骤120中,所述获取所述图像的场景信息和所述图像的对象信息,可以包括步骤121至步骤123,其中:
97.步骤121,对所述图像进行图像分析处理,将所述图像划分为背景区域和文本区域。
98.文本区域可以是图像中包含文本的区域,背景区域可以是图像中包含除了文本之外的其它内容的区域。可以理解的是,在一些实施方式中,在此阶段,虽然无法对图像中的文本进行识别,但是可以基于目标检测算法或文本检测算法检测到图像中包含文本的区域。例如,目标检测算法可以包括但不限于r-cnn(区域卷积神经网络,region-cnn)算法、fast r-cnn(快速区域卷积神经网络,fast region-cnn)算法和sdd(单发多框检测,single shot multibox detector)算法等中的至少一种;文本检测算法可以包括但不限于cptn(连接网络提议网络,connectionist text proposal network)算法、rrpn(旋转区域候选框网络算法,rotation region proposal networks)算法等中的至少一种。
99.在一些实施例中,可以基于图像的像素信息、颜色信息、纹理信息和形状信息中的任意一种信息对图像进行区域划分。如,可以采用n-cut(归一化分割,normalized cut)算法按照图像中像素与像素之间的关系权重,对图像进行划分。
100.在另一些实施例中,可以通过预设图像分析处理模型来实现图像的区域划分,预设图像分析处理模型可以是预先训练得到的用于将图像划分为文本区域和除文本区域之外的背景区域的神经网络模型。预设图像分析处理模型可以是图像语义分割模型。
101.步骤122,基于所述背景区域中的内容,确定所述图像的场景信息。
102.可以理解的是,图像的背景区域的内容中可以包含图像中的对象的背景模板,根据图像的背景区域的内容,可以确定图像的场景信息。例如,待识别的图像中包含中文第一证件的情况下,待识别的图像的背景区域可以包含中文第一证件对应的背景模板。在确定待识别的图像的场景信息时,根据背景区域的背景模板,可以判断该图像的场景信息为证件类识别场景或第一证件类识别场景。
103.步骤123,基于所述文本区域中的内容,确定所述图像的对象信息。
104.在一些实施方式中,图像的文本区域的内容可以包括文本内容,需说明的是,在对待识别的图像进行文本识别之前,待识别的图像中的文本区域的内容和背景区域的内容,可以均是图像格式。在基于待识别的图像的文本区域的内容确定待识别的图像的对象信息时,可以检测待识别的图像中的关键字样,例如,在根据待识别的图像的背景区域的内容,确定待识别的图像的场景信息为证件类识别场景的情况下,可以检测待识别的图像的文本区域的内容中是否包含“第一证件”、“第二证件”或“火车票”等字样。在检测到待识别的图像中包含“第一证件”字样的情况下,确定待识别的对象信息为“第一证件”字样。
105.确定出待识别的图像的场景信息后,则可以根据待识别的图像的场景信息,即证件类识别场景,将至少一个文本识别模型集合中的证件类文本识别模型集合确定为目标文本识别模型集合;根据待识别的图像的对象信息,即“第一证件”字样,将证件类文本识别模型集合中的第一证件文本识别模型确定为目标文本识别模型。
106.还例如,在根据待识别的图像的背景区域的内容,确定待识别的图像的场景信息为第一证件类识别场景的情况下,可以检测待识别的图像的文本区域中的文本内容的语言;在检测到文本内容的语言为中文的情况下,确定待识别的对象信息为中文。
107.确定出待识别的图像的场景信息后,则可以根据待识别的图像的场景信息,即第一证件类识别场景,将至少一个文本识别模型集合中的第一证件类文本识别模型集合确定为目标文本识别模型集合;根据待识别的图像的对象信息,即中文,将第一证件类文本识别模型集合中的中文第一证件文本识别模型确定为目标文本识别模型。
108.这样,将待识别图像划分为背景区域和文本区域后,根据待识别的图像的不同区域的内容确定出的不同信息的准确率较高,即根据待识别的图像的背景区域的内容确定出的场景信息的准确率较高,根据待识别的图像的文本区域的内容确定出的对象信息的准确率较高。进而,根据场景信息确定出的目标文本识别模型集合和目标文本识别模型的准确率较高,利用目标文本识别模型对待识别的图像进行文本识别可以提高文本识别的准确率。
109.图7是根据本公开一示例性实施例示出的图像分析处理方法的流程图。如图7所示,在步骤121中,所述对所述图像进行图像分析处理,将所述图像划分为背景区域和文本区域,可以包括步骤1211至步骤1213,其中:
110.步骤1211,对所述图像进行区域预处理,确定预选文本区域和预选背景区域。
111.这里,预选文本区域可以是待识别的图像中的包含文本的区域,可以通过上文所述的目标检测算法或文本检测算法确定图像中的预选文本区域。在确定出预选文本区域后,可以将待识别的图像中除预选文本区域之外的区域确定为预选背景区域。
112.在一些实施例中,也可以通过第一预设模型对待识别的图像进行区域预处理,从待识别的图像中确定预选文本区域和预选背景区域。
113.步骤1212,对所述图像进行轮廓识别,确定文本轮廓。
114.这里,可以通过第二预设模型对待识别的图像进行轮廓识别,也可以采用预设的轮廓识别算法对待识别的图像进行轮廓识别。
115.步骤1213,基于所述预选文本区域和所述文本轮廓,从所述图像中确定所述文本区域。
116.步骤1214,基于所述预选背景区域和所述文本轮廓,从所述图像中确定所述背景区域。
117.可以理解的是,若直接通过模型将待处理的图像划分为文本区域和背景区域,则可能因模型的精度问题,或图像的复杂度等问题,出现将原本应属于文本区域的部分区域划分进背景区域中,或将原本应属于背景区域的部分区域划分进文本区域中的情况。
118.因此,在得到预选文本区域和预选背景区域的情况下,还可以对待处理的图像进行轮廓识别,得到文本轮廓;然后,基于预选文本区域和文本轮廓确定文本区域,基于预选背景区域和文本轮廓确定背景区域。可以理解的是,文本轮廓是待识别的图像中的文本内容的轮廓。
119.在一些实施例中,基于预选文本区域和文本轮廓确定文本区域,可以包括:根据文本轮廓对预选文本区域进行调整,得到文本区域。
120.基于预选背景区域和文本轮廓确定背景区域,可以包括:根据文本轮廓对预选背景区域进行调整,得到背景区域。
121.即,在本公开实施例中,可以先通过第一预设模型对待识别的图像进行区域预处理,从待识别的图像中确定预选文本区域和预选背景区域;然后通过第二预设模型对待识别的图像进行轮廓识别,确定文本轮廓;最后,根据文本轮廓分别对预选文本区域和预选背景区域进行调整,得到文本区域和背景区域。
122.可以理解的是,对待识别的图像进行预处理和对图像进行轮廓识别,并不改变待识别的图像的构图。进行预处理和轮廓识别后的待识别的图像的预选背景区域、预选文本区域和文本轮廓均位于同一图像中。确定出预选文本区域和预选背景区域后,可以在待识别的图像中对预选文本区域和预选背景区域进行标注。确定出文本轮廓后,可以在待识别的图像中用线条勾勒出文本轮廓。
123.在一些实施例中,在根据文本轮廓对预选文本区域和预选背景区域进行调整的过程中,可以将预选文本区域中位于文本轮廓之外的区域,从预选文本区域划分进预选背景区域中;将预选背景区域中位于文本轮廓之内的区域,划分进预选文本区域中。
124.具体地,可以将预选文本区域中位于文本轮廓之外的全部区域确定为第一区域,将预选背景区域中位于文本轮廓之内的全部区域确定为第二区域。在根据文本轮廓对预选文本区域和预选背景区域进行调整的过程中,可以从预选文本区域中移除第一区域,并将第一区域添加进预选背景区域中,直至预选文本区域全部位于文本轮廓之内;从预选背景区域中移除第二区域,并将第二区域添加进预选文本区域中,直至预选背景区域全部位于文本轮廓之外。最后,将移除了第一区域和添加了第二区域的预选文本区域确定为文本区域,将移除了第二区域和添加了第一区域的预选背景区域确定为背景区域。
125.这里,先对待识别的图像进行区域预处理,再对待识别的图像进行轮廓识别,然后根据预处理得到的预选文本区域、预选背景区域和文本轮廓确定文本区域和背景区域;这样确定出的文本区域和背景区域的误差较小,准确性较高。
126.图8是根据本公开一示例性实施例示出的区域预处理方法的流程图。如图8所示,在步骤1211中,所述对所述图像进行区域预处理,确定预选文本区域和预选背景区域,可以包括:
127.步骤12111,对所述图像进行对象检测,确定所述图像中包含所述对象的对象区
域。
128.在本公开实施例中,对象区域即为待识别的图像中的对象所在的区域。可以理解的是,待识别的图像中除了包含对象所在的区域,还可以包含留白区域。例如,在待识别的图像为第一证件的复印件的情况下,对象为第一证件,第一证件一般位于复印件的中部区域,待识别的图像中除第一证件所在区域之外的区域为留白区域。
129.由于留白区域中不包含图像内容,在本公开实施例中,主要对待识别的图像中的对象区域和对象区域的内容进行分析和处理,预选文本区域、背景文本区域、文本区域和背景区域均位于对象区域内。因此,在确定预选文本区域和预选背景区域之前,可以先确定对象区域。
130.在对待识别的图像进行对象检测时,也可以采用上文中提到的目标检测算法。可以理解的是,目标检测算法可以检测到待识别的图像中的对象所在的区域。
131.步骤12112,从所述对象区域中确定所述预选文本区域。
132.步骤12113,将所述图像中除所述预选文本区域之外的区域确定为所述预选背景区域。
133.在从对象区域中确定预选文本区域时,可以采用目标检测算法检测对象区域中的文本所在的预选文本区域,也可以采用文本检测算法检测对象区域中的文本所在的预选文本区域。在一些实施例中,检测对象区域和检测检测预选文本区域的目标检测算法可以是同一种目标检测算法,也可以是不同算法。例如,检测对象区域和检测检测预选文本区域的目标检测算法都可以是r-cnn算法。需说明的是,在利用目标检测算法检测对象区域和预选文本区域时,目标检测算法的参数可以不同。还例如,检测对象区域时采用目标检测算法,检测预选文本区域时采用文本检测算法。
134.这里,先确定待识别的图像中的对象区域,然后再从对象区域中确定预选文本区域,即先在待识别的图像的基础上缩小范围,再在较小的范围内确定预选文本区域;这样确定出的预选文本区域的准确性较高,且通过这样的方式确定预选文本区域的效率更高。
135.在一些实施例中,在步骤122中,所述基于所述背景区域的内容,确定所述图像的场景信息,可以包括步骤1221和步骤1222,其中:
136.步骤1221,分别确定所述背景区域的内容与预设数据库中的各个预设背景内容之间的相似度。
137.步骤1222,根据大于预设阈值的相似度对应的预设背景内容的场景信息,确定所述图像的场景信息。
138.可以理解的是,预设数据库中可以预先保存有至少一个预设背景内容和至少一个预设背景内容对应的场景信息。在基于待识别的图像的背景区域的内容,确定待识别的图像的场景信息的过程中,可以将待识别的图像的背景区域的内容与预设数据库中的各个预设背景内容进行比对,得到待识别的图像的背景区域的内容与各个预设背景内容的相似度;然后根据大于预设阈值的相似度对应的预设背景内容的场景信息,确定待识别的图像的场景信息。
139.在一些实施例中,不同的预设背景对应的场景信息可能相同,也可能不相同。可以将大于预设阈值的相似度对应的预设背景内容的场景信息中,出现频率最高场景信息,确定为待识别的图像的场景信息;也可以将大于预设阈值的相似度中的最大相似度随影的预
设背景内容的场景信息,确定为待识别的图像的场景信息。
140.这样,一方面,根据预设数据库中的预设背景内容的场景信息确定待识别的图像的场景信息的效率更高,也更方便;另一方面,根据大于预设阈值的相似度对应的预设背景内容的场景信息,确定出的场景信息的准确率更高。
141.在一些实施例中,在步骤150中,所述基于所述目标文本识别模型对所述图像进行文本识别,得到文本识别结果,可以包括步骤151和步骤152,其中:
142.步骤151,利用所述目标文本识别模型,将所述图像的文本区域中的内容由图像格式转换为文本格式。
143.步骤152,根据图像格式的内容在所述图像中的位置信息,对文本格式的内容进行组合,得到所述文本识别结果。
144.在一些实施方式中,目标文本识别模型可以是预先训练完成的,用于将图像中的图像格式的文本转换为文本格式的文本的模型。例如,目标文本识别模型可以是ocr(光学字符识别,optical character recognition)模型。
145.可以理解的是,目标文本识别模型在将待识别的图像的文本区域中的内容由图像格式转换为文本格式的过程中,可以按照图像格式的文本的排列顺序,将图像格式的文本转换为文本格式的文本;也可以将图像格式的文本分割成至少一个部分,然后对至少一个部分的图像格式的文本进行格式转换,在转换的过程中可以没有固定转换顺序。
146.在一些实施例中,存在得到的文本格式的文本的排列顺序和排版格式可能与图像格式的文本不同的情况。因此,为了还原文本的排列顺序和排版格式,可以根据图像格式的内容在待识别的图像中的位置信息,对文本格式的内容进行组合。
147.这样,则可以还原文本的排列顺序和排版格式,使得到的文本格式的内容与文本区域中图像格式的内容是对应的,可以提高文本识别的效果。
148.在一些实施例中,得到文本识别结果之后,还可以利用检验算法或人工对文本识别结果进行检验。
149.在一些实施例中,每一文本识别模型中可以包括至少一个子模块,例如,可以包括对象检测子模块、文本检测子模块、文本识别子模块、校验子模块和结构化子模块。目标检测子模块可以对待识别的图像进行对象检测,确定待识别的图像中包含对象的对象区域;文本检测子模块可以对待识别的图像进行文本检测,确定对象区域中的文本区域;文本识别子模块可以对待识别的图像进行文本识别,将待识别的图像的文本区域中的内容由图像格式转换为文本格式;校验子模块可以对文本格式的内容进行校验;结构化子模块可以根据图像格式的内容在图像中的位置信息,对校验后的文本格式的内容进行组合,得到文本识别结果。
150.这里,对象检测子模块、文本检测子模块和文本识别子模块均可以是神经网络模型。
151.在一些实施例中,所述文本识别方法还可以包括步骤610至步骤630,其中:
152.步骤610,获取至少一组样本图像;其中,每组所述样本图像对应一种场景信息。
153.在一些实施例中,可以预先从网络数据库中获取多张样本图像,然后通过人工或聚类算法对获取到的样本图像,按照样本图像的场景信息(即样本图像中的对象的应用场景)进行分类,得到至少一组样本图像,每组样本图像对应一种场景信息。并且,通过每组样
本图像对至少一个初始模型进行训练,可以得到一个由至少一个文本识别模型构成的文本识别模型集合。
154.步骤620,针对每一所述场景信息,利用与所述场景信息对应的一组样本图像对初始模型进行训练,得到所述场景信息对应的文本识别模型。
155.这里的初始模型,可以是具有初始参数的神经网络模型。初始模型可以是未经过训练的神经网络模型,也可以是经过预训练的神经网络模型。
156.步骤630,根据每一所述场景信息对应的至少一个文本识别模型,得到每一所述场景信息对应的文本识别模型集合。
157.在一些实施例中,步骤610至步骤630可以在步骤110之前执行。
158.可以理解的是,每种场景信息对应的一组样本图像中的各张样本图像的对象信息可能不同。在训练文本识别模型时,可以利用具有同一种场景信息且具有同一种对象信息的样本图像对一个初始模型进行训练,得到一个文本识别模型。这样,利用具有同一种场景信息且具有不同对象信息的样本图像对至少一个初始模型进行训练,则可以得到至少一个不同的文本识别模型,这至少一个不同的文本识别模型则构成了该场景信息对应的文本识别模型集合。
159.例如,可以获取证件类和票据类的两组样本图像,证件类的一组样本图像中可以包括对象信息为“第一证件”字样的第一证件样本图像和对象信息为“第二证件”字样的第二证件样本图像;票据类的一组样本图像中可以包括对象信息为“火车票”字样的火车票样本图像和对象信息为“飞机票”字样的飞机票样本图像。
160.在对初始模型进行训练的过程中,可以利用证件类的样本图像中的第一证件样本图像对第一个初始模型进行训练,得到第一证件文本识别模型;利用证件类的样本图像中的第二证件样本图像对第二个初始模型进行训练,得到第二证件文本识别模型;第一证件文本识别模型和第二证件文本识别模型则构成了证件类文本识别模型集合。利用票据类的样本图像中的火车票样本图像对第三个初始模型进行训练,得到火车票文本识别模型;利用票据类的样本图像中的飞机票样本图像对第四个初始模型进行训练,得到飞机票文本识别模型;火车票文本识别模型和飞机票文本识别模型则构成了票据类文本识别模型集合。
161.这样,预先训练好文本识别模型集合,在应用时,即对待识别的图像进行文本识别时,则可以从预先训练好的文本识别模型集合中选择文本识别模型进行文本识别,不需调用其它的文本识别服务,可以提高文本识别的效率。
162.同时,在本公开实施例中,由于目标文本识别模型集合和目标文本识别模型都是与待识别的图像对应的;因此,在多种应用场景下,都可以基于待识别的图像确定出对应的目标文本识别模型,进而进行文本识别。所以,本公开实施例提供的文本识别方法可以在多种应用场景中通用,相较于通过人工进行文本识别,还可以提高文本识别的效率。
163.图9是根据本公开一示例性实施例示出的文本识别方法的流程图三。如图9所示,所述文本识别方法可以包括:步骤910,获取至少一组样本图像;其中,每组所述样本图像对应一种场景信息。
164.这里,步骤910可以参照前述针对步骤610的描述。
165.步骤920,针对每一所述场景信息,利用与所述场景信息对应的一组样本图像对初始模型进行训练,得到所述场景信息对应的文本识别模型。
166.这里,步骤920可以参照前述针对步骤620的描述。
167.步骤930,根据每一所述场景信息对应的至少一个文本识别模型,得到每一所述场景信息对应的文本识别模型集合。
168.在一些实施例中,可以为每一文本识别模型集合设置一个服务接口,每一服务接口与每一场景信息和每一文本识别模型集合对应。这样,用户可以通过调用与场景信息对应的服务接口,来通过服务接口对应的文本识别模型集合中的文本识别模型对待识别的图像进行文本识别。
169.这里,步骤930可以参照前述针对步骤630的描述。
170.步骤940,获取待识别的图像。
171.这里的待识别的图像可以是,图像内容中包含文字的图像,如证件或票据的复印件、包含文字的视频截图或包含文字的网络图像等图像。
172.步骤950,获取所述图像的场景信息和所述图像的对象信息;其中,所述场景信息表征所述图像中的对象所属的应用场景。
173.这里得场景信息可以是待识别的图像中的对象所属的应用场景,对象信息可以是待识别的图像中的对象的内容信息或属性信息,属性信息可以包括对象的尺寸信息、语言信息和清晰度信息等。
174.步骤960,基于所述图像的场景信息,确定与所述图像对应的目标文本识别模型集合。
175.这里,目标文本识别模型集合可以是从预先得到的至少一个文本识别模型集合中确定的。每一文本识别模型集合可以包括分别对具有一种场景信息的图像(包含不同应用场景的对象的图像)进行文本识别的至少一个文本识别模型。
176.步骤970,基于所述图像的对象信息,从所述目标文本识别模型集合中确定与所述图像对应的目标文本识别模型。
177.可以理解的是,每个文本识别模型集合中可以包含预先训练得到的至少一个文本识别模型,每个文本识别模型集合中的各个文本识别模型可以是,对具有相同场景信息和不同对象信息的图像进行文本识别的文本识别模型。
178.步骤980,基于所述目标文本识别模型对所述图像进行文本识别,得到文本识别结果。
179.这里的文本识别,可以是识别出待识别的图像中的文本,并将识别出的文本转换为预设格式并输出;文本识别结果则是预设格式的文本。
180.在一些实施例中,可以利用与每一所述场景信息对应的样本图像对初始模型进行训练,得到每一场景信息对应的至少一个文本识别模型;按照场景信息对至少一个文本识别模型进行分类,得到每一场景信息对应的文本识别模型集合。然后为每一文本识别模型集合设置对应的服务接口,每一服务接口与每一场景信息和每一文本识别集合对应。
181.在对待识别的图像进行识别时,可以先确定待识别的图像的场景信息和对象信息,然后基于场景信息确定与待识别的图像对应的目标服务接口;调用目标服务接口,然后基于对象信息,从目标服务接口对应的目标文本识别模型集合中确定目标文本识别模型。
182.确定目标文本识别模型之后,通过目标文本识别模型中的对象检测子模块对待识别的图像进行对象检测,确定待识别的图像中包含对象的对象区域;通过目标文本识别模
型中的文本检测子模块对待识别的图像进行文本检测,确定对象区域中的文本区域;通过目标文本识别模型中的文本识别子模块对待识别的图像进行文本识别,将待识别的图像的文本区域中的内容由图像格式转换为文本格式;通过目标文本识别模型中的校验子模块对文本格式的内容进行校验;通过目标文本识别模型中的结构化子模块根据图像格式的内容在图像中的位置信息,对校验后的文本格式的内容进行组合,得到文本识别结果。
183.在本公开实施例中,在获取到待识别的图像之后,可以获取待识别的图像的场景信息和对象信息;然后基于待识别的图像的场景信息确定目标文本识别模型集合,并基于待识别的图像的对象信息,从目标文本识别模型集合中确定目标文本识别模型;最后基于目标文本识别模型对待识别的图像进行文本识别,得到文本识别结果。由于,目标文本识别模型集合和目标文本识别模型都是与待识别的图像对应的;因此,对于不同的待识别的图像,可以基于待识别的图像确定出对应的目标文本识别模型,进而可以基于对应的目标文本识别模型进行文本识别。所以,本公开实施例提供的文本识别方法可以自适应不同的待识别的图像,从而可以在多种应用场景中通用。
184.图10为本公开实施例的文本装置的组成结构示意图,如图10所示,该文本识别装置10包括:
185.第一获取模块11,配置为获取待识别的图像;
186.第二获取模块12,配置为获取所述图像的场景信息和所述图像的对象信息;其中,所述场景信息表征所述图像中的对象所属的应用场景;
187.第一确定模块13,配置为基于所述图像的场景信息,确定与所述图像对应的目标文本识别模型集合;
188.第二确定模块14,配置为基于所述图像的对象信息,从所述目标文本识别模型集合中确定与所述图像对应的目标文本识别模型;
189.文本识别模块15,配置为基于所述目标文本识别模型对所述图像进行文本识别,得到文本识别结果。
190.在一些实施例中,所述第一确定模块13,可以配置为:将预设关联关系库中,与所述图像的场景信息具有关联关系的文本识别模型集合,确定为与所述图像对应的目标文本识别模型集合。所述第二确定模块14,可以配置为:将所述目标文本识别模型集合中,与所述图像的对象信息具有关联关系的所述文本识别模型,确定为与所述图像对应的目标文本识别模型。
191.在一些实施例中,所述第二获取模块12可以包括:图像分析处理单元,配置为对所述图像进行图像分析处理,将所述图像划分为背景区域和文本区域;第一确定单元,配置为基于所述背景区域中的内容,确定所述图像的场景信息;第二确定单元,配置为基于所述文本区域中的内容,确定所述图像的对象信息。
192.在一些实施例中,所述图像分析处理模块,可以包括:区域预处理单元,配置为对所述图像进行区域预处理,确定预选文本区域和预选背景区域;轮廓识别单元,配置为对所述图像进行轮廓识别,确定文本轮廓;确定单元,配置为基于所述预选文本区域和所述文本轮廓,从所述图像中确定所述文本区域;基于所述预选背景区域和所述文本轮廓,从所述图像中确定所述背景区域。
193.在一些实施例中,所述区域预处理单元,可以配置为:对所述图像进行对象检测,
确定所述图像中包含所述对象的对象区域;从所述对象区域中确定所述预选文本区域;将所述图像中除所述预选文本区域之外的区域确定为所述预选背景区域。
194.在一些实施例中,所述第三确定模块,可以配置为:分别确定所述背景区域的内容与预设数据库中的各个预设背景内容之间的相似度;根据大于预设阈值的相似度对应的预设背景内容的场景信息,确定所述图像的场景信息。
195.在一些实施例中,所述文本识别模块15,可以配置为:利用所述目标文本识别模型,将所述图像的文本区域中的内容由图像格式转换为文本格式;根据图像格式的内容在所述图像中的位置信息,对文本格式的内容进行组合,得到所述文本识别结果。
196.在一些实施例中,所述装置10还包括:第三获取模块,配置为获取至少一组样本图像;其中,每组所述样本图像对应一种场景信息。模型训练模块,配置为针对每一所述场景信息,利用与所述场景信息对应的一组样本图像对初始模型进行训练,得到所述场景信息对应的文本识别模型。处理模块,配置为根据每一所述场景信息对应的至少一个文本识别模型,得到每一所述场景信息对应的文本识别模型集合。
197.需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开装置实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
198.需要说明的是,本公开实施例中,如果以软件功能模块的形式实现上述的文本识别方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是终端、服务器等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、运动硬盘、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本公开实施例不限制于任何特定的硬件和软件结合。
199.本公开实施例再提供一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,该计算机可执行指令被执行后,能够实现本公开实施例提供的文本识别方法中的步骤。
200.本公开实施例再提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令,所述该计算机可执行指令被处理器执行时实现上述实施例提供的文本识别方法的步骤。
201.本公开实施例提供一种电子设备,图11为本公开实施例电子设备的组成结构示意图,如图11所示,所述电子设备20包括:一个处理器21、至少一个通信总线、通信接口22、至少一个外部通信接口和存储器23。其中,通信接口22配置为实现这些组件之间的连接通信。其中,通信接口22可以包括内部通信接口和外部通信接口,外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器21,配置为执行存储器中的计算机程序程序,以实现上述实施例提供的文本识别方法的步骤。
202.以上文本识别装置、电子设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同相应方法实施例相似的技术描述和有益效果,限于篇幅,可案件上述方法实施例的记载,故在此不再赘述。对于本公开文本识别装置、电子设备和存储介质实施例
中未披露的技术细节,请参照本公开方法实施例的描述而理解。
203.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列特征的过程、方法、物品或者装置不仅包括那些特征,而且还包括没有明确列出的其他特征,或者是还包括为这种过程、方法、物品或者装置所固有的特征。在没有更多限制的情况下,由语句“包括一个
……”
限定的特征,并不排除在包括该特征的过程、方法、物品或者装置中还存在另外的相同特征。
204.在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
205.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外,在本公开各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
206.或者,本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
207.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其
它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
208.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献