一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文档图像的识别方法、装置、电子设备及存储介质与流程

2023-02-19 09:37:04 来源:中国专利 TAG:


1.本技术涉及计算机视觉技术领域,具体涉及一种文档图像的识别方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.纸质文档是人们日常办公的信息传输媒介,通过拍摄文档而采集到的图像称为文档图像,随着手机、平板电脑等便携移动设备的普及,文档图像在人们生活中有着丰富的应用场景,例如发票、业务申请表、合同、个人档案等纸质资料的电子档案,以及各种图像文字识别软件等等。
3.通常,在涉及文档图像的计算视觉处理任务中,比如文档区域检测、文档朝向、文档清晰度等任务,会对每个功能任务采用不同的模型分别实现。但是,本技术的发明人在实际研发过程中发现,同时采用多个模型实现文档图像的多个功能任务,处理速度较慢。


技术实现要素:

4.本技术提供一种文档图像的识别方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术中采用多个模型实现文档图像的多个功能任务,处理速度较慢问题。
5.第一方面,本技术提供一种文档图像的识别方法,所述方法包括:
6.获取待识别的目标文档图像;
7.通过预先训练好的文档识别模型中的特征提取模块,基于所述目标文档图像进行特征提取,得到所述目标文档图像的采样特征图;
8.通过所述文档识别模型中的特征融合模块,基于所述目标文档图像的采样特征图进行特征融合,得到所述目标文档图像的目标融合特征图;
9.通过所述文档识别模型中的第一识别模块,基于所述目标文档图像的采样特征图进行识别,得到所述目标文档图像的第一识别结果,其中,所述第一识别结果包括所述目标文档图像的文档属性识别结果、文档朝向识别结果、文档类型识别结果中的至少一者;
10.通过所述文档识别模型中的第二识别模块,基于所述目标融合特征图进行识别,得到所述目标文档图像的第二识别结果,其中,所述第二识别结果包括所述目标文档图像的文档清晰度识别结果和文档区域识别结果中的至少一者。
11.第二方面,本技术提供一种文档图像的识别装置,所述文档图像的识别装置包括:
12.获取单元,用于获取待识别的目标文档图像;
13.提取单元,用于通过预先训练好的文档识别模型中的特征提取模块,基于所述目标文档图像进行特征提取,得到所述目标文档图像的采样特征图;
14.融合单元,用于通过所述文档识别模型中的特征融合模块,基于所述目标文档图像的采样特征图进行特征融合,得到所述目标文档图像的目标融合特征图;
15.识别单元,用于通过所述文档识别模型中的第一识别模块,基于所述目标文档图像的采样特征图进行识别,得到所述目标文档图像的第一识别结果,其中,所述第一识别结
果包括所述目标文档图像的文档属性识别结果、文档朝向识别结果、文档类型识别结果中的至少一者;
16.所述识别单元,还用于通过所述文档识别模型中的第二识别模块,基于所述目标融合特征图进行识别,得到所述目标文档图像的第二识别结果,其中,所述第二识别结果包括所述目标文档图像的文档清晰度识别结果和文档区域识别结果中的至少一者。
17.第三方面,本技术还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本技术提供的任一种文档图像的识别方法中的步骤。
18.第四方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的文档图像的识别方法中的步骤。
19.本技术通过采用文档识别模型对目标文档图像进行特征提取得到目标文档图像的采样特征图、对目标文档图像的采样特征图进行特征融合得到目标融合特征图,再分别采用目标文档图像的采样特征图、目标融合特征图实现如文档属性识别、文档朝向识别、文档类型识别、文档清晰度识别、文档区域识别等不同的文档图像识别功能;由于只需采用同一模型一次提取、融合特征,即可将提取、融合后的采样特征图、目标融合特征图用于多个文档图像处理任务,实现了一个模型中采样特征、目标融合特征图在多个文档识别功能上共享。避免了需针对每个文档识别功能的实现进行一次特征提取和/或融合的问题,减少了特征提取次数、特征融合次数,从而加快了多个文档识别功能的同时实现,提高了同时处理文档图像的多个功能任务时的处理速度。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1是本技术实施例所提供的文档图像的识别检测系统的场景示意图;
22.图2是本技术实施例提供的文档图像的识别方法的一种流程示意图;
23.图3是本技术实施例中提供的文档识别模型的一个说明示意图;
24.图4是本技术实施例中提供的识别模块输入的目标融合特征图的一个说明示意图;
25.图5是本技术实施例提供的文档图像的识别方法的另一种流程示意图;
26.图6是本技术实施例中提供的文档识别模型中清晰度判别分支的一种结构示意图;
27.图7是本实施例提供的文档识别模型训练的一种实施例流程示意图;
28.图8是本技术实施例中提供的文档图像的识别装置的一个实施例结构示意图;
29.图9是本技术实施例中提供的电子设备的一个实施例结构示意图。
具体实施方式
30.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
31.在本技术实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本技术实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
32.为了使本领域任何技术人员能够实现和使用本技术,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本技术。在其它实例中,不会对公知的过程进行详细阐述,以避免不必要的细节使本技术实施例的描述变得晦涩。因此,本技术并非旨在限于所示的实施例,而是与符合本技术实施例所公开的原理和特征的最广范围相一致。
33.本技术实施例提供一种文档图像的识别方法、装置、电子设备和计算机可读存储介质。其中,该文档图像的识别装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
34.本技术实施例文档图像的识别方法的执行主体可以为本技术实施例提供的文档图像的识别装置,或者集成了该文档图像的识别装置的服务器设备、物理主机或者用户设备(user equipment,ue)等不同类型的电子设备,其中,文档图像的识别装置可以采用硬件或者软件的方式实现,ue具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(personal digital assistant,pda)等终端设备。
35.该电子设备可以采用单独运行的工作方式,或者也可以采用设备集群的工作方式,通过应用本技术实施例提供的文档图像的识别方法,可以提高同时处理文档图像的多个功能任务时的处理速度。
36.参见图1,图1是本技术实施例所提供的文档图像的识别系统的场景示意图。其中,该文档图像的识别系统可以包括电子设备100,电子设备100中集成有文档图像的识别装置。例如,该电子设备可以获取待识别的目标文档图像;通过文档识别模型中的特征提取模块,基于目标文档图像进行特征提取,得到目标文档图像的采样特征图;通过文档识别模型中的特征融合模块,基于目标文档图像的采样特征图进行特征融合,得到目标文档图像的目标融合特征图;通过文档识别模型中的第一识别模块,基于目标文档图像的采样特征图进行识别,得到目标文档图像的第一识别结果;通过文档识别模型中的第二识别模块,基于目标融合特征图进行识别,得到目标文档图像的第二识别结果。
37.另外,如图1所示,该文档图像的识别系统还可以包括存储器200,用于存储数据,如存储图像数据、视频数据。
38.需要说明的是,图1所示的文档图像的识别系统的场景示意图仅仅是一个示例,本技术实施例描述的文档图像的识别系统以及场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着文档图像的识别系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
39.下面,开始介绍本技术实施例提供的文档图像的识别方法,本技术实施例中以电
子设备作为执行主体,为了简化与便于描述,后续方法实施例中将省略该执行主体。
40.参照图2,图2是本技术实施例提供的文档图像的识别方法的一种流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。该文档图像的识别方法包括步骤201~步骤205,其中:
41.201、获取待识别的目标文档图像。
42.为了便于纸质文件后续的存储、传输或整理等,通常需要对文档图像的文档属性、文档朝向、文档清晰度、文档区域、文档类型等信息进行识别。
43.其中,目标文档图像是指需要进行文档属性、文档朝向、文档清晰度、文档区域、文档类型等信息识别的图像,目标文档图像可以有多种表现形式。例如,可以是直接拍摄得到的文档图像,也可以是扫描仪等设备或软件对直接拍摄得到的图像进行转化后的图像扫描件。目标文档图像可以是rgb格式的图像,也可以是灰度图,本技术实施例对目标文档图像的格式不做具体限制。
44.步骤201中,获取目标文档图像的方式可以有多种,示例性地,包括:
45.(1)在实际应用中,应用本技术实施例提供的电子设备,在硬件上可直接包括摄像头,电子设备的摄像头可以实时拍摄得到文档的视频帧或图像,并将电子设备的摄像头采集到的视频帧或图像作为目标文档图像。
46.(2)从电子设备内部,获取预先采集并存储在电子设备内部的视频帧或图像,作为目标文档图像。
47.(3)电子设备可与其他设备建立网络连接,例如与扫描仪、或手机等设备建立网络连接,并根据该网络连接从扫描仪在线获取扫描仪采集的视频帧或图像,或者根据该网络连接从手机在线获取手机采集的视频帧或图像,作为目标文档图像。
48.(4)电子设备从存储有扫描仪、手机等设备采集得到的图像的相关存储介质,读取出扫描仪、手机等设备采集得到的图像,作为目标文档图像。
49.此处目标文档图像的获取方式仅为举例,不以此为限。
50.202、通过预先训练好的文档识别模型中的特征提取模块,基于所述目标文档图像进行特征提取,得到所述目标文档图像的采样特征图。
51.203、通过所述文档识别模型中的特征融合模块,基于所述目标文档图像的采样特征图进行特征融合,得到所述目标文档图像的目标融合特征图。
52.为了方便理解,下面先介绍本技术实施例中的文档识别模型,如图3所示,文档识别模型可以包括特征提取模块、特征融合模块、识别模块。其中,识别模块又可以进一步包括第一识别模块、第二识别模块。下面分别介绍文档识别模型中各个模块的架构及功能:
53.(一)特征提取模块。
54.特征提取模块,用于根据目标文档图像输出目标文档图像的采样特征图。特征提取模块以目标文档图像作为输入,对目标文档图像进行包括但不限于卷积、池化等操作中的一种或多种,以实现对目标文档图像进行特征提取得到目标文档图像的采样特征图。
55.其中,特征提取模块可以包括多个下采样层,多个下采样层依次连接,每个下采样层用于输出一种倍率的采样特征图。图3中,p0表示目标文档图像,p1、p2、

、pn分别表示采用不同倍率对目标文档图像p0进行下采样后得到的采样特征图。比如,特征提取模块共设5个下采样层,每个下采样层的倍率均为2,5个下采样层输出的采样特征图依次为p1、p2、p3、
p4、p5,p1、p2、p3、p4、p5的长宽尺寸分别为原始输入的目标文档图像p0的1/2、1/4、1/8、1/16、1/32。
56.特征提取模块可以是卷积神经网络(convolutional neural networks,cnn),在一些实施例中,可以采用开源的网络模型中的用于特征提取的卷积神经网络部分作为本技术实施例中的特征提取模块。例如,可以采用mobilenet-v2-1.4模型用于特征提取的主干部分作为本技术实施例中的特征提取模块。
57.(二)特征融合模块。
58.特征融合模块,用于根据目标文档图像的采样特征图输出目标文档图像的融合特征图。特征融合模块以特征融合模块输出的采样特征图作为输入,对采样特征图进行上采样,以实现对采样特征图进行特征融合得到采样特征图的融合特征图。
59.其中,特征融合模块可以包括多个上采样层,多个上采样层依次连接,每个上采样层用于基于一种倍率的采样特征图进行上采样从而得到并输出融合特征图。图3中,f1、f2、

、f(n-)、fn分别表示采用不同倍率采样特征图进行上采样后得到的融合特征图,其中,fn=pn。比如,特征融合模块共设2个上采样层,4个上采样层输出的融合特征图依次为f1、f2、f3、f4,f1、f2、f3、f4的长宽尺寸分别与原始输入的采样特征图p0相同。
60.(三)识别模块。
61.识别模块,用于根据采样特征图和/或融合特征图输出目标文档图像的识别结果。识别模块可以划分为以采样特征图作为输入、以目标文档图像的识别结果作为输入的第一识别模块,以融合特征图作为输入、以目标文档图像的识别结果作为输入的第二识别模块。进一步地,还可以进一步包括以采样特征图和融合特征图作为输入、以目标文档图像的识别结果作为输入的第三识别模块。
62.1、第一识别模块。
63.第一识别模块以采样特征图作为输入,根据采样特征图进行预测处理,确定目标文档图像的第一识别结果。比如,可以用于确定目标文档图像的文档属性、文档朝向、文档类型等等。其中,第一识别模块可以采用全连接层,与特征提取模块进行连接。
64.2、第二识别模块。
65.第二识别模块以融合特征图作为输入,根据融合特征图进行预测处理,确定目标文档图像的第二识别结果。比如,可以用于确定目标文档图像的文档清晰度、文档区域(如纸面区域)等等。其中,第二识别模块与特征融合模块进行连接。
66.3、第三识别模块。
67.第三识别模块以采样特征图和融合特征图作为输入,根据采样特征图和融合特征图进行预测处理,确定目标文档图像的第三识别结果。比如,可以用于确定目标文档图像中的纸面是否完整等等。其中,第三识别模块分别与特征提取模块、特征融合模块进行连接。
68.在一些实施例中,特征提取层包括n个下采样层,此时,步骤202具体可以包括:按照n个上采样层中每个下采样层的预设倍率,对目标文档图像依次进行下采样;通过n个下采样层中的每个采样层依次采样后,每个下采样层输出一个采用特征图,得到目标文档图像的n个采样特征图。
69.204、通过所述文档识别模型中的第一识别模块,基于所述目标文档图像的采样特征图进行识别,所述目标文档图像的第一识别结果。
70.其中,所述第一识别结果包括所述目标文档图像的文档属性识别结果、文档朝向识别结果、文档类型识别结果中的至少一者。
71.其中,文档属性识别结果用于指示目标文档图像中是否包含有纸面区域,从而用于指示目标文档图像是否为文档图像。
72.文档朝向识别结果用于指示目标文档图像中纸面的朝向,比如,可以用于识别目标文档图像中纸面是正向0
°
、正向90
°
、正向180
°
或正向270
°

73.文档类型识别结果用于指示目标文档图像中文档的文字类型、语言类型、用途等等。
74.针对文档属性识别、文档朝向识别、文档类型识别功能的实现,下面分别举例进行说明。
75.(1)在一些实施例中,第一识别模块用于识别目标文档图像的文档属性。此时,第一识别模块可以设置为:输入连接特征提取模块输出的采样特征图、且输出为包括2个节点的全连接层。步骤204具体可以包括:通过文档识别模型中的第一识别模块,根据采样特征图进行二分类预测处理,确定目标文档图像中是否包含有纸面区域,得到目标文档图像的文档属性识别结果。
76.(2)在一些实施例中,第一识别模块用于识别目标文档图像的文档朝向。此时,第一识别模块可以设置为:输入连接特征提取模块输出的采样特征图、且输出为包括x1个节点的一个全连接层,其中x1表示节点数量,可以与预设的朝向数量相同;比如,预先设定共4个朝向,则全连接层的节点数x1=4。步骤204具体可以包括:通过文档识别模型中的第一识别模块,根据采样特征图进行分类预测处理,确定目标文档图像中纸面的朝向,得到目标文档图像的文档朝向识别结果。
77.其中,“通过文档识别模型中的第一识别模块,根据采样特征图进行分类预测处理,确定目标文档图像中纸面的朝向”的具体原理如下:首先,第一识别模块根据采样特征图预测文档图像中纸面的朝向是每种预设朝向类别的概率;然后,输出概率最大的预设朝向类别作为目标文档图像中纸面的朝向,从而得到目标文档图像的文档朝向识别结果。
78.例如,预先设定纸面是正向0
°
、正向90
°
、正向180
°
或正向270
°
共4个朝向类别,第一识别模块设置了一个包括4个节点的全连接层,该全连接层以特征提取模块输出的采样特征图为输入、4个节点分别用于输出纸面是正向0
°
、正向90
°
、正向180
°
或正向270
°
的概率,最终输出概率最大的预设朝向类别,比如正向180
°
,作为目标文档图像中纸面的朝向。
79.(3)在一些实施例中,第一识别模块用于识别目标文档图像的文档类型。此时,第一识别模块可以设置为:输入连接特征提取模块输出的采样特征图、且输出为包括x2个节点的一个全连接层,其中x2表示节点数量,可以与预设的文档类型数量相同;比如,预先设定共4个文档类型(“公开文件”、“私密文件”、“保密文件”、“绝密文件”),则全连接层的节点数x2=4。步骤204具体可以包括:通过文档识别模型中的第一识别模块,根据采样特征图进行分类预测处理,确定目标文档图像中纸面的文档类型,得到目标文档图像的文档类型识别结果。
80.上面以第一识别模块只实现一个文档识别功能进行了举例,可以理解的是,第一识别模块也可以同时设置多个功能架构,用于共享特征提取模块输出的采用特征图,实现不同的文档识别功能。比如同时设置多个全连接层,分别以特征提取模块输出的采用特征
图作为输入,分别根据采用特征图进行预测得到不同文档识别功能的识别结果。例如,可以分别针对文档属性、文档类型设置2个全连接层,形成包括2个功能架构的第一识别模块。又如,可以分别针对文档属性、文档朝向设置2个全连接层,形成包括2个功能架构的第一识别模块。再如,可以分别针对文档属性、文档朝向和文档类型设置3个全连接层,形成包括3个功能架构的第一识别模块。步骤204中情况(4)将介绍其中一种情况:
81.(4)在一些实施例中,第一识别模块同时用于识别目标文档图像的文档属性、文档朝向。此时,第一识别模块可以设置为:第一分类子模块和第二分类子模块;第一分类子模块和第二分类子模块均以目标文档图像的采样特征图作为输入,第一分类子模块输出为目标文档图像的文档属性识别结果、第二分类子模块输出为目标文档图像的文档朝向识别结果;例如,第一识别模块可以设置为2个全连接层,1个全连层作为第一分类子模块,另1个全连接层作为第二分类子模块。步骤204具体可以包括:通过所述第一识别模块的第一分类子模块,基于所述目标文档图像的第一采样特征图进行分类,得到所述目标文档图像的文档属性识别结果;通过所述第一识别模块的第二分类子模块,基于所述目标文档图像的第二采样特征图进行分类,得到所述目标文档图像的文档朝向识别结果。
82.其中,通过第一子分类模块确定目标文档图像的文档属性识别结果可以参照上述步骤204中情况(1)的介绍、通过第二子分类模块确定目标文档图像的文档属性识别结果可以参照上述步骤204中情况(2)的介绍,为简化表述,此处不再赘述。
83.其中,目标文档图像的采样特征图可以包括多个,这里,以第一采样特征图表示第一分类子模块输入的采样特征图、第二采样特征图表示第二分类子模块输入的采样特征图,实际上第一分类子模块和第二分类子模块分别输入的采样特征图可以相同、也可以不同。
84.通过步骤204情况(4)这种第一识别模块同时设置多个功能模块方式,如同时设置第一分类子模块和第二分类子模块的方式,可以实现一个模型中采样特征图在多个文档识别功能上共享;由于可以避免需针对每个文档识别功能的实现进行一次特征提取的问题,减少了特征提取次数,从而加快了多个文档识别功能的同时实现。
85.205、通过所述文档识别模型中的第二识别模块,基于所述目标融合特征图进行识别,得到所述目标文档图像的第二识别结果。
86.其中,所述第二识别结果包括所述目标文档图像的文档清晰度识别结果和文档区域识别结果中的至少一者。
87.其中,文档清晰度识别结果用于指示目标文档图像中的文字是否清晰。
88.文档区域识别结果用于指示目标文档图像中的纸面区域。
89.针对文档清晰度识别、文档区域识别功能的实现,下面分别举例进行说明。
90.(1)在一些实施例中,第二识别模块用于识别目标文档图像的文档清晰度。其中,第二识别模块可以设置为:输入连接特征融合模块输出的目标融合特征图、输出为目标文档图像的文档清晰度的架构;第二识别模块的架构组成可以依据实际情况而定,例如,可以设置为:在特征融合模块输出的目标融合特征图后接一层3*3的卷积层、维度为16、采用relu进行激活、输出为目标文档图像的文档清晰度。步骤205具体可以包括:通过文档识别模型中的第二识别模块,根据采样特征图进行分类预测处理,确定目标文档图像中是否清晰,得到目标文档图像的文档清晰度识别结果。
91.其中,文档清晰度识别结果的具体识别在后文将详细介绍,此处不再赘述。
92.(2)在一些实施例中,第二识别模块用于识别目标文档图像的纸面区域。其中,第二识别模块可以设置为:输入连接特征融合模块输出的目标融合特征图、输出为目标文档图像的纸面区域的架构。步骤205具体可以包括:通过文档识别模型中的第二识别模块,基于目标融合特征图进行区域检测,得到目标文档图像的文档区域识别结果。
93.其中,文档区域识别结果的具体识别在后文将详细介绍,此处不再赘述。
94.(3)在一些实施例中,第二识别模块同时用于识别目标文档图像的文档清晰度、纸面区域等多个功能。例如,此时,第二识别模块可以设置为:检测子模块和判别子模块;检测子模块和判别子模块均以目标文档图像的目标融合特征图作为输入,检测子模块输出为目标文档图像的文档区域识别结果、判别子模块输出为目标文档图像的文档清晰度识别结果。步骤205具体可以包括:通过所述第二识别模块的检测子模块,基于所述第一融合特征图进行区域检测,得到所述目标文档图像的文档区域识别结果;通过所述第二识别模块的判别子模块,基于所述第二融合特征图进行清晰度识别,得到所述目标文档图像的文档清晰度识别结果。
95.其中,目标融合特征图可以包括多个,这里,以第一融合特征图表示检测子模块输入的目标融合特征图、第二融合特征图表示判别子模块输入的目标融合特征图,实际上检测子模块和判别子模块分别输入的目标融合特征图可以相同、也可以不同。
96.例如,如图3和图4所示,目标融合特征图包括f1、f2、f3、f4,检测子模块以第一融合特征图(如图4中f1所示)、判别子模块以第二融合特征图(如图4中f2所示)。
97.通过步骤205情况(3)这种第二识别模块同时设置多个功能模块方式,如同时设置检测子模块和判别子模块的方式,可以实现一个模型中目标融合特征图在多个文档识别功能上共享;由于可以避免需针对每个文档识别功能的实现进行一次特征提取、融合的问题,减少了特征提取次数、特征融合次数,从而加快了多个文档识别功能的同时实现。
98.由以上内容可以看出,本技术实施例中,通过采用文档识别模型对目标文档图像进行特征提取得到目标文档图像的采样特征图、对目标文档图像的采样特征图进行特征融合得到目标融合特征图,再分别采用目标文档图像的采样特征图、目标融合特征图实现如文档属性识别、文档朝向识别、文档类型识别、文档清晰度识别、文档区域识别等不同的文档图像识别功能;由于只需采用同一模型一次提取、融合特征,即可将提取、融合后的采样特征图、目标融合特征图用于多个文档图像处理任务,实现了一个模型中采样特征、目标融合特征图在多个文档识别功能上共享。避免了需针对每个文档识别功能的实现进行一次特征提取和/或融合的问题,减少了特征提取次数、特征融合次数,从而加快了多个文档识别功能的同时实现,提高了同时处理文档图像的多个功能任务时的处理速度。
99.上面步骤201~步骤205中介绍了文档识别模型的识别模块包括第一识别模块和第二识别模块,各功能模块间如何共享特征来实现多个文档识别功能。在一些实施例中,如图3所示,文档识别模型的识别模块还可以同时包括第一识别模块、第二识别模块和第三识别模块。
100.如图5所示,此时,该文档图像的识别方法具体可以包括步骤501~步骤506:
101.501、获取待识别的目标文档图像。
102.502、通过预先训练好的文档识别模型中的特征提取模块,基于所述目标文档图像
进行特征提取,得到所述目标文档图像的采样特征图。
103.其中,目标文档图像的采样特征图包括第一采样特征图和第二采样特征图。
104.503、通过所述文档识别模型中的特征融合模块,基于所述目标文档图像的采样特征图进行特征融合,得到所述目标文档图像的目标融合特征图。
105.其中,目标文档图像的目标融合特征图包括第三融合特征图和第四融合特征图。
106.504、通过所述文档识别模型中的第一识别模块,基于所述第一采样特征图进行识别,得到所述目标文档图像的第一识别结果。
107.505、通过所述文档识别模型中的第二识别模块,基于所述第三融合特征图进行识别,得到所述目标文档图像的第二识别结果。
108.其中,步骤501~步骤505的实现,与上述步骤201~步骤205的实现相同,具体可以参照上述说明,此处不再赘述。
109.506、通过所述文档识别模型中的第三识别模块,基于所述第四融合特征图和所述第二采样特征图进行识别,得到所述目标文档图像的第三识别结果。
110.步骤501~步骤506中,目标融合特征图可以包括多个,这里,以第三融合特征图表示检测子模块输入的目标融合特征图、第四融合特征图表示判别子模块输入的目标融合特征图,实际上检测子模块和判别子模块分别输入的目标融合特征图可以相同、也可以不同。
111.类似地,目标文档图像的采样特征图可以包括多个,这里,以第一采样特征图表示第一分类子模块输入的采样特征图、第二采样特征图表示第二分类子模块输入的采样特征图,实际上第一分类子模块和第二分类子模块分别输入的采样特征图可以相同、也可以不同。
112.其中,第三识别结果可以是任意的文档识别功能的识别结果,例如,可以是用于确定目标文档图像中的纸面是否完整等等。本技术实施例中,以第三识别结果用于指示目标文档图像中的纸面是否完整,即第三识别模块用于识别目标文档图像中的纸面是否完整为例。此时,第三识别模块可以设置为:输入连接特征提取模块输出的采样特征图(即第二采样特征图)、特征融合模块输出的目标融合特征图(即第二融合特征图),输出为目标文档图像的第三识别结果的架构。
113.例如,第三识别模块包括一个输出节点数为2的全连接层,基于全连接层进行回归,1个节点用于输出目标文档图像中的纸面完整的概率、另1个节点用于输出目标文档图像中的纸面不完整的概率。最后,若目标文档图像中的纸面完整的概率大于或等于目标文档图像中的纸面不完整的概率,则确定目标文档图像中的纸面完整;若目标文档图像中的纸面完整的概率小于目标文档图像中的纸面不完整的概率,则确定目标文档图像中的纸面完整。
114.通过上述步骤501~步骤506可以看出,第一识别模块、第二识别模块和第三识别模块实现了采样特征图、目标融合特征图的共享,各功能模块间共享特征来实现了多个文档识别功能。
115.在一些实施例中,上述步骤“通过所述第二识别模块的检测子模块,基于所述第一融合特征图进行区域检测,得到所述目标文档图像的文档区域识别结果”具体可以包括步骤a1~步骤a2:
116.a1、通过所述第二识别模块的检测子模块,基于所述第一融合特征图进行前景预
测,得到所述目标文档图像的纸面前景区域。
117.具体地,将第一融合特征图输入第二识别模块的检测子模块,以使得第二识别模块的检测子模块根据第一融合特征图,分别预测目标文档图像各像素点是纸面前景区域所在像素点的概率;并将是纸面前景区域所在像素点的概率大于预设概率阈值的像素点,作为目标文档图像的纸面前景区域所在像素点,输出目标文档图像的纸面前景区域所在各像素点的坐标,从而得到目标文档图像的纸面前景区域。
118.a2、将目标文档图像的纸面前景区域作为目标文档图像的文档区域识别结果。
119.在一些实施例中,上述步骤“通过所述第二识别模块的检测子模块,基于所述第一融合特征图进行区域检测,得到所述目标文档图像的文档区域识别结果”具体可以包括步骤b1~步骤b3:b1、通过所述第二识别模块的检测子模块,基于所述第一融合特征图进行前景预测,得到所述目标文档图像的纸面前景区域。
120.步骤b1与步骤a1实现相同,此处不再赘述。
121.b2、通过所述第二识别模块的检测子模块,基于所述第一融合特征图进行顶点偏移量预测,得到所述目标文档图像的每个文档区域顶点相对所述纸面前景区域各点的偏移量。
122.具体地,将第一融合特征图输入第二识别模块的检测子模块,以使得第二识别模块的检测子模块根据第一融合特征图,分别预测文档区域检测框四个顶点中的每个顶点相对与纸面前景区域各像素点的距离(比如包括在x轴、y轴方向的距离);并将每个顶点相对与纸面前景区域各像素点的距离,作为目标文档图像的每个文档区域顶点相对纸面前景区域各点的偏移量。
123.b3、通过所述第二识别模块的检测子模块,基于所述纸面前景区域和所述每个文档区域顶点相对所述纸面前景区域各点的偏移量,确定所述目标文档图像的文档区域识别结果。
124.其中,文档区域顶点是指目标文档图像的纸面区域的检测框的顶点。
125.最后,根据纸面前景区域中各像素点坐标、目标文档图像的每个文档区域顶点相对纸面前景区域各点的偏移量,通过计算得到文档区域检测框四个顶点的坐标;最后,将文档区域检测框四个顶点的坐标作为目标文档图像的文档区域识别结果,从而得到目标文档图像的文档区域识别结果。
126.通过将纸面前景区域、与每个文档区域顶点相对纸面前景区域各点的偏移量结合,可以更为精准地检测出目标文档图像中的文档区域。
127.在一些实施例中,上述步骤“通过所述第二识别模块的判别子模块,基于所述第二融合特征图进行清晰度识别,得到所述目标文档图像的文档清晰度识别结果”具体可以包括:将第二融合特征图输入第二识别模块的判别子模块,以使得第二识别模块的判别子模块根据第二融合特征图,预测目标文档图像清晰的概率、目标文档图像不清晰的概率;并在目标文档图像清晰的概率大于或等于目标文档图像不清晰的概率时,将目标文档图像判别为清晰;在目标文档图像清晰的概率小于目标文档图像不清晰的概率时,将目标文档图像判别为不清晰,从而得到目标文档图像的文档区域识别结果。
128.在一些实施例中,上述步骤“通过所述第二识别模块的判别子模块,基于所述第二融合特征图进行清晰度识别,得到所述目标文档图像的文档清晰度识别结果”具体可以包
括:通过所述第二识别模块的判别子模块,基于所述第二融合特征图和所述纸面前景区域进行清晰度预测,得到所述目标文档图像的文档清晰度识别结果。
129.为了方便理解,可以参照图6,图6是本技术实施例中提供的文档识别模型中清晰度判别分支的一种结构示意图。图6中,第二识别模块包括检测子模块和判别子模块,检测子模块用于基于第一融合特征图f1进行前景预测,得到目标文档图像的纸面前景区域fs;判别子模块用于基于第二融合特征图f1、纸面前景区域fs,确定文档清晰度识别结果。
130.其中,第一特征融合特征图和第二融合特征图主要是为了区别是检测子模块的特征输入、还是判别子模块的特征输入,实际上,第一特征融合特征图和第二融合特征图可以相同、也可以不同。
131.如图6所示,为了提高文档清晰度识别结果的准确率,第二识别模块用于确定文档清晰度识别结果的判别子模块,还可以同时以第二融合特征图f1、用于确定纸面前景区域的检测子模块根据第一融合特征图f1输出的纸面前景区域fs,确定文档清晰度识别结果。其中,基于纸面前景区域fs进行文档清晰度识别结果的确定,纸面前景区域fs起到了掩膜的作用,使得在进行清晰度判别主要关注纸面前景区域、而不关注背景区域,从而提高文档清晰度识别结果的准确率。
132.具体地,将特征融合模块输出的第二融合特征图、检测子模块输出的纸面前景区域输入第二识别模块的判别子模块,以使得第二识别模块的判别子模块根据第二融合特征图、纸面前景区域,预测目标文档图像清晰的概率、目标文档图像不清晰的概率;并在目标文档图像清晰的概率大于或等于目标文档图像不清晰的概率时,将目标文档图像判别为清晰;在目标文档图像清晰的概率小于目标文档图像不清晰的概率时,将目标文档图像判别为不清晰,从而得到目标文档图像的文档区域识别结果。
133.本技术实施例中,在预测目标文档图像清晰的概率、目标文档图像不清晰的概率,第二识别模块的判别子模块中输入的纸面前景区域起到了掩膜的作用。由于目标文档图像的清晰度主要考量的是文档区域的清晰,通过结合纸面前景区域进行判别,而不关注目标文档图像的背景部分,可以提高目标文档图像是否清晰的判别准确度。
134.下面以文档识别模型包括特征提取模块、特征融合模块、第一识别模块、第二识别模块,第一识别模块包括第一子分类模块和第二子分类模型,第二识别模块包括检测子模块和判别子模块为例,介绍本技术实施例中文档识别模型的训练过程。参考图7,图7是本实施例提供的文档识别模型训练的一种实施例流程示意图,文档识别模型的训练过程可以包括如下步骤701~步骤707:
135.701、获取样本图像。
136.其中,所述样本图像标注有属性标签、朝向标签、清晰度标签、区域标签。
137.其中,样本图像的获取方式与上述目标文档图像的获取方式类似,具体可以参照上述步骤201中的说明,此处不再赘述。
138.其中,可以通过人工对样本图像进行标注,以得到样本图像的属性标签、朝向标签、清晰度标签和区域标签。下面举例分别说明人工对样本图像进行标注的过程:
139.1、标注属性标签。对于图像集i=1、2、3、

、i、

,标注图片i中是否存在且占比达到70%以上的纸面,用ei=1表示存在、ei=0表示不存在。
140.2、将ei=1的图片旋正,使得文本方向符合通常的阅读习惯。
141.3、标注清晰度标签。标注ei=1的图片的清晰度标签,以是否能清楚辨认纸面上的所有文字为标准,用qi=1表示清晰、qi=0表示不清晰。
142.4、标注区域标签。按照以下的规则用闭合的四段线pi标注ei=1的图片ii中的纸面区域:
143.a、从纸面区域的左上顶点开始,按照顺时针方向依次标注剩下三个顶点,
144.b、当两端顶点都在图像中时,线段需要连接两端点,当两端点有一个或者都不在图像中时,线段需贴合图中可见的本段纸面边缘,并推测其位于图像外的顶点。
145.c、当纸面的一整条边都不在图中时,需要将图片截断纸面的边作为纸面的新边缘。
146.5、标注朝向标签,并进行数据集增广。将旋正或的原始图像i朝向标注为oi=0,对每个图像i随机增广出多张图片:
147.a、随机顺时针旋转0度、90度、180度、270度,标注或更新增广的图像朝向、区域标签:用oi=0表示朝向为0度、oi=1表示朝向为90度、oi=2表示朝向为180度、oi=3表示朝向为270度;同时,需要对应地调整标注pi,保证其起始点为纸面区域左上顶点;
148.b、随机地在图像上增加轻微的椒盐噪音,高斯模糊,明暗变化,对比度变化等;
149.c、随机地对图像进行小角度的旋转和透视变换,需要对应地调整标注pi。
150.702、通过预设识别模型中的特征提取模块,基于所述样本图像进行特征提取,得到所述样本图像的采样特征图。
151.其中,预设识别模型与训练好的文档识别模型架构和功能类似,包括特征提取模块、特征融合模块、第一识别模块、第二识别模块,第一识别模块包括第一子分类模块和第二子分类模型,第二识别模块包括检测子模块和判别子模块,具体可以参照上述文档识别模型的架构说明,此处不再赘述。
152.步骤702的实现与上述步骤202的实现类似,具体可以参照上述步骤202的说明。不同的是,步骤702中使用的是预设识别模型对样本图像进行特征提取得到样本图像的采样特征图,步骤202使用的是训练好的文档识别模型对目标文档图像进行特征提取得到目标文档图像的采样特征图。
153.703、通过所述预设识别模型中的特征融合模块,基于所述样本图像的采样特征图进行融合,得到所述样本图像的样本融合特征图。
154.步骤703的实现与上述步骤203的实现类似,具体可以参照上述步骤203的说明。不同的是,步骤703中使用的是预设识别模型对样本图像进行特征融合得到样本图像的样本融合特征图,步骤203使用的是训练好的文档识别模型对目标文档图像进行特征融合得到目标文档图像的目标融合特征图。
155.704、通过所述预设识别模型中的第一识别模块,基于所述样本图像的采样特征图进行预测,得到所述样本图像的属性预测结果、朝向预测结果。
156.其中,属性预测结果是指通过预设识别模型识别所得到样本图像的文档属性,属性预测结果用于指示样本图像中是否包含有纸面区域。
157.其中,朝向预测结果是指通过预设识别模型识别所得到样本图像的文档朝向,朝向预测结果用于指示样本图像中纸面的朝向。
158.具体地,可以通过预设识别模型中的第一识别模块的第一分类子模块,基于样本
图像的第一采样特征图进行分类,得到样本图像的属性预测结果;通过预设识别模型中的第一识别模块的第二分类子模块,基于样本图像的第二采样特征图进行分类,得到样本图像的朝向预测结果。
159.由于步骤704的实现与上述步骤204中情况(4)的实现类似,步骤704进行了简化表述,对于预设识别模型实现没有详述的部分,具体可以参照上述步骤204中情况(4)的说明。
160.705、通过所述预设识别模型中的第一识别模块,基于所述样本融合特征图进行预测,得到所述样本图像的文档区域预测结果、清晰度预测结果。
161.清晰度预测结果是指通过预设识别模型识别所得到样本图像的文档清晰度,清晰度预测结果用于指示样本图像中的文字是否清晰。
162.文档区域预测结果是指通过预设识别模型识别所得到样本图像的纸面区域,文档区域预测结果用于指示样本文档图像中的纸面区域。
163.具体地,可以通过预设识别模型中第二识别模块的检测子模块,基于样本融合特征图进行区域检测,得到样本图像的文档区域预测结果;通过预设识别模型中第二识别模块的判别子模块,基于样本图像的融合特征图进行清晰度识别,得到样本图像的清晰度预测结果。
164.由于步骤705的实现与上述步骤205中情况(3)的实现类似,步骤705进行了简化表述,对于预设识别模型实现没有详述的部分,具体可以参照上述步骤205中情况(3)的说明。
165.706、基于所述属性预测结果、所述朝向预测结果、所述文档区域预测结果、所述清晰度预测结果、所述属性标签对应的属性实际结果、朝向标签对应的朝向实际结果、清晰度标签对应的清晰度实际结果、区域标签对应的文档区域实际结果,确定所述预设识别模型的训练损失。
166.其中,第一分类子模块可以对应设置第一损失函数,然后根据第一损失函数、属性预测结果和属性标签对应的属性实际结果,确定第一分类子模块的属性分类损失。例如,第一损失函数如下公式(1)所示:
[0167][0168]
公式(1)中,e_loss为第一分类子模块的属性分类损失,n为训练样本数,fe为模型预测的图像中是否有占比大于70%的纸面区域的概率值,e为图像中是否有占比大于70%的纸面区域的标注值,取1或0。
[0169]
第二分类子模型可以对应设置第二损失函数,然后根据第二损失函数、朝向预测结果和朝向标签对应的朝向实际结果,确定第二分类子模块的朝向分类损失。例如,第二损失函数如下公式(2)所示:
[0170][0171]
公式(2)中,o_loss为第二分类子模块的朝向分类损失,n为训练样本数,fok为模型预测的纸面朝向是第k个方向的概率,ok为纸面朝向是否是第k个方向标注值,取值为1或0,e为图像中是否有占比大于70%的纸面区域的标注值,取1或0,ε=1e-3为防除零因子。
[0172]
检测子模块可以对应设置第三损失函数,然后根据第三损失函数、文档区域预测结果和区域标签对应的文档区域实际结果,确定检测子模块的检测损失。例如,第三损失函
数如下公式(3)所示:
[0173][0174]
公式(3)中,d_loss为检测子模块的检测损失,s_loss为文档区域预测损失,g_loss为文档四个顶点相对当前位置偏移量的预测损失,e为图像中是否有占比大于70%的纸面区域的标注值,取1或0,ε=1e-3为防除零因子,其中s_loss、g_loss可以分别由以下公式(4)、(5)确定。
[0175]
s_loss=1-2*(∑s*fs)/(∑s ∑fs ε)
ꢀꢀꢀ
公式(4)
[0176][0177]
公式(4)中,s_loss为文档区域预测损失,s为文档区域标注图,fs为模型预测的纸面前景区域,ε=1e-3为防除零因子。
[0178]
公式(5)中,g_loss为文档四个顶点相对当前位置偏移量的预测损失,g为文档四个顶点相对当前位置偏移量的标注值,fg为模型预测的文档四个顶点相对当前位置偏移量。
[0179]
判别子模块可以对应设置第四损失函数,然后根据第四损失函数、属清晰度预测结果和清晰度标签对应的清晰度实际结果,确定判别子模块的清晰度判别损失。例如,第四损失函数如下公式(6)所示:
[0180][0181]
公式(6)中,q_loss为判别子模块的清晰度判别损失,fq为模型预测的纸面清晰的概率值,q为其对应的标注值,e为图像中是否有占比大于70%的纸面区域的标注值,取1或0,ε=1e-3为防除零因子。
[0182]
预设识别模型的训练损失的设置方式有多种,例如,训练损失可以设置为;第一分类子模块的属性分类损失、第二分类子模块的朝向分类损失、检测子模块的检测损失、与判别子模块的清晰度判别损失之间的直接加和;又如,训练损失可以设置为第一分类子模块的属性分类损失、第二分类子模块的朝向分类损失、检测子模块的检测损失、与判别子模块的清晰度判别损失之间的加权和。
[0183]
707、基于所述训练损失,对所述预设识别模型的模型参数进行调整,直至达到预设的停止训练条件,将所述预设识别模型作为所述文档识别模型。
[0184]
其中,预设的停止训练条件可以根据实际需求而设置。例如,可以是当训练损失小于预设值时,或者是训练损失基本不再变化时,即相邻多次训练对应的训练损失的差值小于预设值;或者是预设识别模型训练的迭代次数达到最大迭代次数时。
[0185]
由于文档识别模型是基于第一分类子模块的属性分类损失、第二分类子模块的朝向分类损失、检测子模块的检测损失、与判别子模块的清晰度判别损失对预设识别模型进行训练得到,因此可以保证文档识别模型能够准确地识别出目标文档图像的文档属性、文档朝向、文档类型、文档清晰度和文档区域。
[0186]
为了更好实施本技术实施例中文档图像的识别方法,在文档图像的识别方法基础之上,本技术实施例中还提供一种文档图像的识别装置,如图8所示,为本技术实施例中文
档图像的识别装置的一个实施例结构示意图,该文档图像的识别装置800包括:
[0187]
获取单元801,用于获取待识别的目标文档图像;
[0188]
提取单元802,用于通过预先训练好的文档识别模型中的特征提取模块,基于所述目标文档图像进行特征提取,得到所述目标文档图像的采样特征图;
[0189]
融合单元803,用于通过所述文档识别模型中的特征融合模块,基于所述目标文档图像的采样特征图进行特征融合,得到所述目标文档图像的目标融合特征图;
[0190]
识别单元804,用于通过所述文档识别模型中的第一识别模块,基于所述目标文档图像的采样特征图进行识别,得到所述目标文档图像的第一识别结果,其中,所述第一识别结果包括所述目标文档图像的文档属性识别结果、文档朝向识别结果、文档类型识别结果中的至少一者;
[0191]
所述识别单元804,还用于通过所述文档识别模型中的第二识别模块,基于所述目标融合特征图进行识别,得到所述目标文档图像的第二识别结果,其中,所述第二识别结果包括所述目标文档图像的文档清晰度识别结果和文档区域识别结果中的至少一者。
[0192]
在一些实施例中,所述目标融合特征图包括第一融合特征图和第二融合特征图,识别单元804具体用于:
[0193]
通过所述第二识别模块的检测子模块,基于所述第一融合特征图进行区域检测,得到所述目标文档图像的文档区域识别结果;
[0194]
通过所述第二识别模块的判别子模块,基于所述第二融合特征图进行清晰度识别,得到所述目标文档图像的文档清晰度识别结果。
[0195]
在一些实施例中,识别单元804具体用于:
[0196]
通过所述第二识别模块的检测子模块,基于所述第一融合特征图进行前景预测,得到所述目标文档图像的纸面前景区域;
[0197]
通过所述第二识别模块的检测子模块,基于所述第一融合特征图进行顶点偏移量预测,得到所述目标文档图像的每个文档区域顶点相对所述纸面前景区域各点的偏移量;
[0198]
通过所述第二识别模块的检测子模块,基于所述纸面前景区域和所述每个文档区域顶点相对所述纸面前景区域各点的偏移量,确定所述目标文档图像的文档区域识别结果。
[0199]
在一些实施例中,识别单元804具体用于:
[0200]
通过所述第二识别模块的判别子模块,基于所述第二融合特征图和所述纸面前景区域进行清晰度预测,得到所述目标文档图像的文档清晰度识别结果。
[0201]
在一些实施例中,所述目标文档图像的采样特征图包括第一采样特征图和第二采样特征图,识别单元804具体用于:
[0202]
通过所述第一识别模块的第一分类子模块,基于所述第一采样特征图进行分类,得到所述目标文档图像的文档属性识别结果,其中,所述文档属性识别结果用于指示所述目标文档图像是否为文档图像;
[0203]
通过所述第一识别模块的第二分类子模块,基于所述第二采样特征图进行分类,得到所述目标文档图像的文档朝向识别结果。
[0204]
在一些实施例中,所述目标文档图像的采样特征图包括第一采样特征图和第二采样特征图,所述目标融合特征图包括第三融合特征图和第四融合特征图,识别单元804具体
用于:
[0205]
通过所述文档识别模型中的第一识别模块,基于所述第一采样特征图进行识别,得到所述目标文档图像的第一识别结果;
[0206]
通过所述文档识别模型中的第二识别模块,基于所述第三融合特征图进行识别,得到所述目标文档图像的第二识别结果;
[0207]
通过所述文档识别模型中的第三识别模块,基于所述第四融合特征图和所述第二采样特征图进行识别,得到所述目标文档图像的第三识别结果。
[0208]
在一些实施例中,所述文档图像的识别装置还包括训练单元(图中未示出),训练单元具体用于:
[0209]
获取样本图像,所述样本图像标注有属性标签、朝向标签、清晰度标签、区域标签;
[0210]
通过预设识别模型中的特征提取模块,基于所述样本图像进行特征提取,得到所述样本图像的采样特征图;
[0211]
通过所述预设识别模型中的特征融合模块,基于所述样本图像的采样特征图进行融合,得到所述样本图像的样本融合特征图;
[0212]
通过所述预设识别模型中的第一识别模块,基于所述样本图像的采样特征图进行预测,得到所述样本图像的属性预测结果、朝向预测结果;
[0213]
通过所述预设识别模型中的第一识别模块,基于所述样本融合特征图进行预测,得到所述样本图像的文档区域预测结果、清晰度预测结果;
[0214]
基于所述属性预测结果、所述朝向预测结果、所述文档区域预测结果、所述清晰度预测结果、所述属性标签对应的属性实际结果、朝向标签对应的朝向实际结果、清晰度标签对应的清晰度实际结果、区域标签对应的文档区域实际结果,确定所述预设识别模型的训练损失;
[0215]
基于所述训练损失,对所述预设识别模型的模型参数进行调整,直至达到预设的停止训练条件,将所述预设识别模型作为所述文档识别模型。
[0216]
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
[0217]
由于该文档图像的识别装置可以执行本技术如图1至图7对应任意实施例中文档图像的识别方法中的步骤,因此,可以实现本技术如图1至图7对应任意实施例中文档图像的识别方法所能实现的有益效果,详见前面的说明,在此不再赘述。
[0218]
此外,为了更好实施本技术实施例中文档图像的识别方法,在文档图像的识别方法基础之上,本技术实施例还提供一种电子设备,参阅图9,图9示出了本技术实施例电子设备的一种结构示意图,具体的,本技术实施例提供的电子设备包括处理器901,处理器901用于执行存储器902中存储的计算机程序时实现如图1至图7对应任意实施例中文档图像的识别方法的各步骤;或者,处理器901用于执行存储器902中存储的计算机程序时实现如图7对应实施例中各单元的功能。
[0219]
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器902中,并由处理器901执行,以完成本技术实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序
在计算机装置中的执行过程。
[0220]
电子设备可包括,但不仅限于处理器901、存储器902。本领域技术人员可以理解,示意仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子备还可以包括输入输出设备、网络接入设备、总线等,处理器901、存储器902、输入输出设备以及网络接入设备等通过总线相连。
[0221]
处理器901可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分。
[0222]
存储器902可用于存储计算机程序和/或模块,处理器901通过运行或执行存储在存储器902内的计算机程序和/或模块,以及调用存储在存储器902内的数据,实现计算机装置的各种功能。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0223]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的文档图像的识别装置、电子设备及其相应单元的具体工作过程,可以参考如图1至图7对应任意实施例中文档图像的识别方法的说明,具体在此不再赘述。
[0224]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0225]
为此,本技术实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本技术如图1至图7对应任意实施例中文档图像的识别方法中的步骤,具体操作可参考如图1至图7对应任意实施例中文档图像的识别方法的说明,在此不再赘述。
[0226]
其中,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取存储器(ram,random access memory)、磁盘或光盘等。
[0227]
由于该计算机可读存储介质中所存储的指令,可以执行本技术如图1至图7对应任意实施例中文档图像的识别方法中的步骤,因此,可以实现本技术如图1至图7对应任意实施例中文档图像的识别方法所能实现的有益效果,详见前面的说明,在此不再赘述。
[0228]
以上对本技术实施例所提供的一种文档图像的识别方法、装置、电子设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献