一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

字符识别的方法及电子设备与流程

2022-12-20 22:26:24 来源:中国专利 TAG:


1.本技术涉及计算机视觉技术领域,具体而言,涉及字符识别的方法及电子设备。


背景技术:

2.针对文本图像(即包含文本的图片)的字符识别技术是计算机视觉中的一种常用技术,通常应用于文档信息提取、证照识别以及资质审核等场景。
3.现有技术下,通常采用字符识别模型,对文本图片进行字符识别,获得字符识别信息。
4.但是,受设备的内存或显存限制,字符识别模型通常无法支持较长的文字行图片,适用范围较小,且文本图片的文本长度较长时,字符识别的准确率通常较低。因此,在对包含较长文本的文本图片进行识别时,如何提高字符识别的准确率以及适用范围是一个需要解决的问题。


技术实现要素:

5.本技术实施例的目的在于提供字符识别的方法及电子设备,用以在对包含较长文本的文本图片进行识别时,提高字符识别的准确率以及适用范围。
6.一方面,提供一种字符识别的方法,包括:
7.基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;文本子图片的长度大于交叠长度预设值且不大于切分长度阈值;
8.采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;
9.分别将每两个相邻文本子图片的重叠字符进行匹配,获得匹配结果;两个相邻文本子图片的重叠字符是从两个相邻文本子图片的重叠区域中分别识别出的字符;
10.根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。
11.在上述实现过程中,基于切分长度阈值以及交叠长度预设值,将包含较长文本的目标文本图片进行划分,获得多个包含较短文本的文本子图片,从而解决了字符识别模型难以准确识别包含较长文本的图片的问题。
12.一种实施方式中,在基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片之前,方法还包括:
13.对原始图片进行文本行检测,获得文本行区域;
14.从原始图片中划分出包含文本行区域的文本行图片;
15.根据文本行图片的高度,以及图片高度预设值,获得缩放比例;
16.按照缩放比例,分别对文本行图片的高度和长度进行缩放,获得目标文本图片。
17.在上述实现过程中,对原始图片进行预处理,可以切分仅包含文本行区域的目标
文本图片,为后续图片切分提供了遍历。
18.一种实施方式中,基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片,包括:
19.基于切分长度阈值以及交叠长度预设值,将目标文本图片进行划分,获得至少一个长度为切分长度阈值的文本子图片,以及至少一个长度大于交叠长度预设值且小于切分长度阈值的文本子图片;
20.或者,基于切分长度阈值以及交叠长度预设值,将目标文本图片进行等长划分,获得多个长度相同的文本子图片。
21.在上述实现过程中,可以采用不同方式进行图片切分。
22.一种实施方式中,采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息,包括:
23.将各文本子图片输入字符识别模型,分别获得每一文本子图片中的各字符以及每一字符对应的置信度;
24.其中,字符识别信息包括字符及其对应的置信度,置信度为字符识别的可信度。
25.在上述实现过程中,可以识别出图片中的字符及其对应的置信度。
26.一种实施方式中,分别将每两个相邻文本子图片的重叠字符进行匹配,获得匹配结果,包括:
27.针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,将第一目标文本子图片的第一字符识别信息中的后n个字符与第二目标文本子图片中的第二字符识别信息中的前n个字符进行匹配,获得匹配结果;
28.其中,第一目标文本子图片和第二目标文本子图片为各文本子图片中任意相邻的两个文本子图片,且第一目标文本子图片为第二目标文本子图片的前一个文本子图片,n为最大重叠字符数,n为正整数。
29.在上述实现过程中,对相邻文本子图片中的重叠字符进行匹配,以便后续字符筛选。
30.一种实施方式中,根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息,包括:
31.针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,基于重叠区域字符数以及匹配结果,对第一目标文本子图片的第一字符识别信息和第二目标文本子图片的第二字符识别信息进行字符筛选处理;重叠区域字符数用于指示一个文本子图片的一个重叠区域中包含的重叠字符的数量;
32.将字符筛选处理后的第一字符识别信息和第二字符识别信息进行拼接。
33.在上述实现过程中,对相邻文本子图片中的重叠字符进行匹配,并进行字符筛选,提高了字符筛选的准确度。
34.一种实施方式中,对第一目标文本子图片的第一字符识别信息和第二目标文本子图片的第二字符识别信息进行字符筛选处理,包括:
35.循环执行以下步骤,直至确定字符筛选完成:
36.若根据匹配结果,确定第一字符识别信息中的后m个字符与第二字符识别信息中的前m个字符相同,则将后m个字符和前m个字符中对应相同的字符进行去重,m为重叠区域
字符数,m为正整数,重叠区域字符数初始值为最大重叠字符数;
37.若确定m大于1,且根据匹配结果确定后m个字符和前m个字符之间存在对应相同的字符,也存在对应不同的字符,则将后m个字符和前m个字符中对应相同的字符进行去重,并根据各字符的置信度,将后m个字符和前m个字符中对应不同的字符进行筛选;
38.若确定m=1,且根据匹配结果确定第一字符识别信息中的最后一个字符和第二字符识别信息中的第一个字符不同,则根据最后一个字符的置信度以及第一个字符的置信度,对最后一个字符度以及第一个字符进行字符筛选;
39.若确定m大于1,且根据匹配结果确定后m个字符和前m个字符中不存在对应相同的字符,则将重叠区域字符数减一,获得更新后的重叠区域字符数。
40.在上述实现过程中,针对不同的重叠字符数量,采用不同的方式进行字符筛选,提高了字符筛选的准确度。
41.一种实施方式中,将后m个字符和前m个字符中对应相同的字符进行去重,包括:
42.针对相同的第一目标字符和第二目标字符,去除第一目标字符,或者,去除第二目标字符;
43.其中,第一目标字符为后m个字符中的第i个字符,第二目标字符为前m个字符中的第i个字符,i表示字符的序号,i为正整数,i不大于m。
44.在上述实现过程中,可以去除重复的重叠字符。
45.一种实施方式中,根据各字符的置信度,将后m个字符和前m个字符中对应不同的字符进行筛选,包括:
46.针对不同的第一目标字符和第二目标字符,确定第一目标字符的置信度与第二目标字符的置信度中的最小置信度,并去除最小置信度对应的字符;
47.其中,第一目标字符为后m个字符中的第i个字符,第二目标字符为前m个字符中的第i个字符,i表示字符的序号,i为正整数,i不大于m。
48.在上述实现过程中,可以筛选出置信度高的重叠字符。
49.一种实施方式中,根据最后一个字符的置信度以及第一个字符的置信度,对最后一个字符度以及第一个字符进行字符筛选,包括:
50.若确定最后一个字符的置信度以及第一个字符的置信度均大于置信度上限阈值,则保留最后一个字符和第一个字符;
51.若确定最后一个字符的置信度以及第一个字符的置信度均小于置信度下限阈值,则去除最后一个字符和第一个字符;
52.若确定最后一个字符和第一个字符中存在置信度不小于置信度下限阈值且不大于置信度上限阈值的字符,则确定最后一个字符的置信度以及第一个字符的置信度中的最小置信度,并去除最小置信度对应的字符。
53.在上述实现过程中,可以根据置信度进行字符筛选,提高了后续字符拼接的准确度。
54.一方面,提供一种字符识别的装置,包括:
55.切分单元,用于基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;文本子图片的长度大于交叠长度预设值且不大于切分长度阈值;识别单元,用
于采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;匹配单元,用于分别将每两个相邻文本子图片的重叠字符进行匹配,获得匹配结果;两个相邻文本子图片的重叠字符是从两个相邻文本子图片的重叠区域中分别识别出的字符;拼接单元,用于根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。
56.一种实施方式中,切分单元还用于:对原始图片进行文本行检测,获得文本行区域;从原始图片中划分出包含文本行区域的文本行图片;根据文本行图片的高度,以及图片高度预设值,获得缩放比例;按照缩放比例,分别对文本行图片的高度和长度进行缩放,获得目标文本图片。
57.一种实施方式中,切分单元用于:
58.基于切分长度阈值以及交叠长度预设值,将目标文本图片进行划分,获得至少一个长度为切分长度阈值的文本子图片,以及至少一个长度大于交叠长度预设值且小于切分长度阈值的文本子图片;或者,基于切分长度阈值以及交叠长度预设值,将目标文本图片进行等长划分,获得多个长度相同的文本子图片。
59.一种实施方式中,识别单元用于:
60.将各文本子图片输入字符识别模型,分别获得每一文本子图片中的各字符以及每一字符对应的置信度;
61.其中,字符识别信息包括字符及其对应的置信度,置信度为字符识别的可信度。
62.一种实施方式中,匹配单元用于:
63.针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,将第一目标文本子图片的第一字符识别信息中的后n个字符与第二目标文本子图片中的第二字符识别信息中的前n个字符进行匹配,获得匹配结果;
64.其中,第一目标文本子图片和第二目标文本子图片为各文本子图片中任意相邻的两个文本子图片,且第一目标文本子图片为第二目标文本子图片的前一个文本子图片,n为最大重叠字符数,n为正整数。
65.一种实施方式中,拼接单元用于:
66.针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,基于重叠区域字符数以及匹配结果,对第一目标文本子图片的第一字符识别信息和第二目标文本子图片的第二字符识别信息进行字符筛选处理;重叠区域字符数用于指示一个文本子图片的一个重叠区域中包含的重叠字符的数量;
67.将字符筛选处理后的第一字符识别信息和第二字符识别信息进行拼接。
68.一种实施方式中,拼接单元用于:
69.循环执行以下步骤,直至确定字符筛选完成:
70.若根据匹配结果,确定第一字符识别信息中的后m个字符与第二字符识别信息中的前m个字符相同,则将后m个字符和前m个字符中对应相同的字符进行去重,m为重叠区域字符数,m为正整数,重叠区域字符数初始值为最大重叠字符数;
71.若确定m大于1,且根据匹配结果确定后m个字符和前m个字符之间存在对应相同的字符,也存在对应不同的字符,则将后m个字符和前m个字符中对应相同的字符进行去重,并根据各字符的置信度,将后m个字符和前m个字符中对应不同的字符进行筛选;
72.若确定m=1,且根据匹配结果确定第一字符识别信息中的最后一个字符和第二字符识别信息中的第一个字符不同,则根据最后一个字符的置信度以及第一个字符的置信度,对最后一个字符度以及第一个字符进行字符筛选;
73.若确定m大于1,且根据匹配结果确定后m个字符和前m个字符中不存在对应相同的字符,则将重叠区域字符数减一,获得更新后的重叠区域字符数。
74.一种实施方式中,拼接单元用于:
75.针对相同的第一目标字符和第二目标字符,去除第一目标字符,或者,去除第二目标字符;
76.其中,第一目标字符为后m个字符中的第i个字符,第二目标字符为前m个字符中的第i个字符,i表示字符的序号,i为正整数,i不大于m。
77.一种实施方式中,拼接单元用于:
78.针对不同的第一目标字符和第二目标字符,确定第一目标字符的置信度与第二目标字符的置信度中的最小置信度,并去除最小置信度对应的字符;
79.其中,第一目标字符为后m个字符中的第i个字符,第二目标字符为前m个字符中的第i个字符,i表示字符的序号,i为正整数,i不大于m。
80.一种实施方式中,拼接单元用于:
81.若确定最后一个字符的置信度以及第一个字符的置信度均大于置信度上限阈值,则保留最后一个字符和第一个字符;
82.若确定最后一个字符的置信度以及第一个字符的置信度均小于置信度下限阈值,则去除最后一个字符和第一个字符;
83.若确定最后一个字符和第一个字符中存在置信度不小于置信度下限阈值且不大于置信度上限阈值的字符,则确定最后一个字符的置信度以及第一个字符的置信度中的最小置信度,并去除最小置信度对应的字符。
84.一方面,提供了一种电子设备,包括处理器以及存储器,存储器存储有计算机可读取指令,当计算机可读取指令由处理器执行时,运行如上述任一种字符识别的各种可选实现方式中提供的方法的步骤。
85.一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时运行如上述任一种字符识别的各种可选实现方式中提供的方法的步骤。
86.一方面,提供了一种计算机程序产品,计算机程序产品在计算机上运行时,使得计算机执行如上述任一种字符识别的各种可选实现方式中提供的方法的步骤。
87.本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
88.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
89.图1为本技术实施例提供的一种字符识别的方法的流程图;
90.图2为本技术实施例提供的一种图片切分示意图;
91.图3为本技术实施例提供的一种字符筛选方法的实施流程图;
92.图4为本技术实施例提供的一种字符识别示意图;
93.图5为本技术实施例提供的一种测试指标对比的示例图;
94.图6为本技术实施例提供的一种字符识别的装置的结构框图;
95.图7为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
96.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
97.光学字符识别(optical character recognition,ocr)技术也即光学文字识别,是指通过图像处理和模式识别技术对光学的字符进行识别。如针对印刷体字符,可以采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并经过识别软件将图像中的文字转换成文本格式,以供文字处理软件进一步编辑加工。
98.ocr是计算机视觉技术(computer vision,cv)研究领域的分支之一,是计算机科学的重要组成部分。其中,cv技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。ocr作为cv中的一种常用技术,被广泛应用于文档信息提取、证照识别以及资质审核等实际项目中,尤其在机器流程自动化(robotic process automation,rpa)项目中有着普遍应用。
99.其中,rpa技术可以模拟员工在日常工作中通过键盘、鼠标对计算机的操作,可以代替人类执行登录系统、操作软件、读写数据、下载文件、读取邮件等操作。以自动化机器人作为企业的虚拟劳动力,可以将员工从重复、低价值的工作中解放出来,将精力投入到高附加值的工作上,从而可以使企业在数字化智能化转型的同时又做到降低成本、增加效益。rpa是一种使用软件机器人取代业务流程中的人工任务,并且像人一样与计算机的前端系统进行交互,因此rpa可以看作是一种运行在个人pc机或服务器中的软件型程序机器人,通过模仿用户在电脑上进行的操作来替代人类自动重复这些操作,例如检索邮件、下载附件、登录系统、数据加工分析等活动,快速、准确、可靠。虽然和传统的物理机器人一样都是通过设定的具体规则来解决人类工作中速度和准确度的问题,但是传统的物理机器人是软硬件结合的机器人,需要在特定的硬件支持下配合软件才能执行工作;而rpa机器人是纯软件层面的,只要安装了相应的软件,就可以部署到任意一台pc机和服务器中来完成规定的工作。也就是说,rpa是一种利用“数字员工”代替人进行业务操作的一种方式及其相关的技术。本
质上rpa是通过软件自动化技术,模拟人实现计算机上系统、软件、网页和文档等对象的无人化操作,获取业务信息、执行业务动作,最终实现流程自动化处理、人力成本节约和处理效率提升。从描述可知,在一些rpa应用场景中,可以通过ocr技术识别界面上的文字等信息,并基于识别的文字信息模拟人点击鼠标以及键盘等操作。
100.首先对本技术实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
101.终端设备:可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。
102.服务器:可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
103.传统技术下,通常采用字符识别模型对文本图片进行字符识别,以获得文本图片中包含的字符。但是,实际应用中,字符识别模型通常仅能对一定长度(如,10像素)内的文本进行准确识别,当文本图片中的文本长度超过一定长度时,字符识别的准确率通常较低。
104.因此,为了在对包含较长文本的文本图片进行识别时,可以提高字符识别的准确率和适用范围,本技术实施例提供了字符识别的方法及电子设备。
105.参阅图1所示,为本技术实施例提供的一种字符识别的方法的流程图,应用于电子设备,电子设备可以为服务器,也可以为终端设备。该方法的具体实施流程如下:
106.步骤101:基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片。
107.其中,交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度。文本子图片的长度大于交叠长度预设值且不大于切分长度阈值。不同文本子图片可以相同,也可以不同。
108.一种实施方式中,步骤101的实现过程还可以包括:对原始图片进行图片预处理,获得目标文本图片。
109.一种实施方式中,对原始图片进行图片预处理,获得目标文本图片的具体步骤可以包括:
110.s101-1:对原始图片进行文本行检测,获得文本行区域。
111.这样,就可以检测出原始图片中包含文本的区域。
112.s101-2:从原始图片中划分出包含文本行区域的文本行图片。
113.这样,可以先从原始图片中划分出仅包含文本行区域的文本行图片。
114.s101-3:根据文本行图片的高度,以及图片高度预设值,获得缩放比例。
115.s101-4:按照缩放比例,分别对文本行图片的高度和长度进行缩放,获得目标文本图片。
116.一种实施方式中,将文本行图片的高度缩放至图片高度预设值,并确定文本行图
片的长度与缩放比例之间的比值(即文本行图片缩放后的长度),以及将文本行图片长度缩放至该比值。
117.作为一个示例,缩放比scale=h1/h2。则缩放后的文本行图片(即目标文本图片)的高度为h2,长度w2=w1/scale。其中,h1为文本行图片的高度,h2为图片高度预设值(如,32像素)。w1为文本行图片的长度。w2为缩放后的文本行图片的长度。
118.由于字符识别模型仅能准确识别一定高度之内的图片,因此,可以根据字符识别模型的图像识别高度,获得图片高度预设值,并根据图片高度预设值对文本行图片进行尺寸变换(resize),即将文本行图片的高度和长度进行等比例缩放,以保证后续识别的准确率以及结果的可复现。
119.一种实施方式中,步骤101的实现过程可以采用以下任一方式:
120.方式1:基于切分长度阈值以及交叠长度预设值,将目标文本图片进行划分,获得至少一个长度为切分长度阈值的文本子图片,以及至少一个长度大于交叠长度预设值且小于切分长度阈值的文本子图片。
121.需要说明的是,长度为切分长度阈值的文本子图片可以为一个,也可以为多个,其它文本子图片(即长度不为切分长度阈值的文本子图片)也可以为一个或多个。实际应用中,其它文本子图片的长度和数量可以根据实际应用场景进行设置,在此不做限制。切分长度阈值可以根据字符识别模型限制的文本最大长度确定。
122.作为一个示例,参阅图2所示,为一种图片切分示意图。切分长度阈值为split_width,交叠长度预设值为delta_width。(如,split_width为240像素,delta_width为18像素)。图3中,将目标文本图片进行切分,获得4个文本子图片。其中,每两个相邻的文本子图片之间的交叠区域的长度为delta_width。前三个文本子图片的长度均为split_width。最后一个文本子图片的长度大于delta_width且小于split_width。
123.这样,就可以优先按照切分长度阈值进行图片切分,以减少数据处理量以及切分次数。
124.方式2:基于切分长度阈值以及交叠长度预设值,将目标文本图片进行等长划分,获得多个长度相同的文本子图片。
125.作为一个示例,确定切分长度阈值与交叠长度预设值之间的差值d1=split_width-delta_width。若确定上述差值d1可以被目标文本图片的长度l整除,则可以将目标文本图片进行等长划分,获得多个长度均为切分长度阈值的文本子图片。否则,可以设置切分长度变量x,并可以根据l=(x-delta_width)k,计算出x值,进而可以根据确定出的x值,将目标文本图片进行等长划分,获得多个的文本子图片。k表示划分出的文本子图片的数量,为正整数。
126.需要说明的是,划分出的目标文本图片的长度,需要确保目标文本图片中的字符数在字符识别模型的识别范围内,因此,可以基于切分长度阈值确定划分出的目标文本图片的长度。交叠长度预设值需要确保两个相邻的目标文本图片中的交叠字符为至少一个。
127.一种实施方式中,根据目标文本图片的高度,预估单个字符的长度范围,并根据预估的字符的长度范围,预估n个字符的长度范围,并根据n个字符的长度范围,确定交叠长度预设值(如,交叠长度预设值可以为n个字符的长度范围中的最大值)。
128.其中,n为最大重叠字符数。由于不同字符的长度不同,因此,实际交叠字符的数量
可能与n不同。作为一个示例,设定n为2,由于i的长度很窄,因此,交叠字符的数量为3。
129.实际应用中,切分长度阈值以及交叠长度预设值均可以根据实际应用场景进行设置,各文本子图片的长度可以相同也可以不同,在此不作限制。
130.步骤102:采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息。
131.一种实施方式中,将各文本子图片输入字符识别模型(如,将各文本子图片批量输入字符识别模型),分别获得每一文本子图片中的各字符以及每一字符对应的置信度。
132.其中,字符识别信息是指识别出的文本子图片中的字符信息以及识别出的字符的置信度。字符识别信息包括字符及其对应的置信度。置信度即置信水平,是指参数的真实值落在测量结果的概率。本技术实施例中,识别出的字符的置信度为:真实字符为识别出的字符的概率,即字符识别的可信度。
133.可选的,字符识别模型可以采用但不限于以下任一算法:
134.卷积循环神经网络(convolutional recurrent neural network,crnn),以及基于注意力机制的序列到序列文字识别网络(attentional seq2seq)。
135.实际应用中,字符识别模型可以根据实际应用场景进行设置,在此不作限制。
136.步骤103:分别将每两个相邻文本子图片的重叠字符进行匹配,获得匹配结果。
137.一种实施方式中,针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,第一目标文本子图片中的第一重叠区域,与第二目标文本子图片中的第二叠区域互相重叠,则第一重叠区域中识别出的字符为第一目标文本子图片的重叠字符,第二重叠区域中识别出的字符为第二目标文本子图片的重叠字符。分别将每两个相邻文本子图片的重叠字符进行匹配包括:将第一重叠区域的字符与第二重叠区域的字符进行匹配。
138.一种实施方式中,将第一目标文本子图片的第一字符识别信息中的后n个字符与第二目标文本子图片中的第二字符识别信息中的前n个字符进行匹配,获得匹配结果。
139.其中,两个相邻文本子图片的重叠字符是从两个相邻文本子图片的重叠区域中分别识别出的字符。第一目标文本子图片和第二目标文本子图片为各文本子图片中任意相邻的两个文本子图片,且第一目标文本子图片为第二目标文本子图片的前一个文本子图片,n为最大重叠字符数,n为正整数。
140.步骤104:根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。
141.一种实施方式中,针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,基于重叠区域字符数以及匹配结果,对第一目标文本子图片的第一字符识别信息和第二目标文本子图片的第二字符识别信息进行字符筛选处理;将字符筛选处理后的第一字符识别信息和第二字符识别信息进行拼接。
142.其中,重叠区域字符数用于指示一个文本子图片的一个重叠区域中包含的重叠字符的数量。
143.一种实施方式中,将字符筛选处理后的第一字符识别信息和第二字符识别信息进行拼接可以包括:将两个字符串(即字符筛选处理后的第一字符识别信息和第二字符识别信息)首尾连接(即后一个字符串的第一个字符与前一个字符串的最后一个字符衔接),获得拼接后的一个字符串(即目标文本图片的字符识别信息)。
144.一种实施方式中,字符筛选的实现过程可以包括:
145.循环执行以下步骤,直至确定字符筛选完成:
146.s104-1:若根据匹配结果,确定第一字符识别信息中的后m个字符与第二字符识别信息中的前m个字符相同,则将后m个字符和前m个字符中对应相同的字符进行去重,m为重叠区域字符数,m为正整数,重叠区域字符数初始值为最大重叠字符数。
147.一种实施方式中,将后m个字符和前m个字符中对应相同的字符进行去重,包括:去除后m个字符中的第一目标字符,或者,去除前m个字符中的第二目标字符。
148.其中,第一目标字符为后m个字符中的第i个字符,第二目标字符为前m个字符中的第i个字符,i表示字符的序号,i为正整数,i不大于m。
149.作为一个示例,确定m为3,且第一字符识别信息中的后3个字符与第二字符识别信息中的前3个字符完全相同,则去除上述后3个字符。
150.这样,可以去除重复的重叠字符(即去除对应相同的重叠字符)。
151.s104-32:若确定m大于1,且根据匹配结果确定后m个字符和前m个字符之间存在对应相同的字符,也存在对应不同的字符,则将后m个字符和前m个字符中对应相同的字符进行去重,并根据各字符的置信度,将后m个字符和前m个字符中对应不同的字符进行筛选。
152.一种实施方式中,根据各字符的置信度,将后m个字符和前m个字符中对应不同的字符进行筛选,包括:针对不同的第一目标字符和第二目标字符,确定第一目标字符的置信度与第二目标字符的置信度中的最小置信度,并去除最小置信度对应的字符。
153.其中,对应相同是指在后m个字符和前m个字符中序号相同的两个字符相同。即上述后m个字符中的第i个字符和上述前m个字符中的第i个字符相同。对应不同是指在后m个字符和前m个字符中序号相同的两个字符不同。即上述后m个字符中的第i个字符和上述前m个字符中的第i个字符不同。
154.这样,若两者既存在对应相同的重叠字符,也存在对应不同的重叠字符,则将对应相同的字符进行去重。
155.s104-3:若确定m=1,且根据匹配结果确定第一字符识别信息中的最后一个字符和第二字符识别信息中的第一个字符不同,则根据最后一个字符的置信度以及第一个字符的置信度,对最后一个字符度以及第一个字符进行字符筛选。
156.s104-4:若确定m大于1,且根据匹配结果确定后m个字符和前m个字符中不存在对应相同的字符,则将重叠区域字符数减一,获得更新后的重叠区域字符数。
157.需要说明的是,s104-1-s104-4可以采用任意顺序执行,本技术实施例中,对其执行顺序不做限定。
158.一种实施方式中,s104-3的实现过程可以包括:
159.s104-31:若确定最后一个字符的置信度以及第一个字符的置信度均大于置信度上限阈值,则保留最后一个字符和第一个字符。
160.s104-32:若确定最后一个字符的置信度以及第一个字符的置信度均小于置信度下限阈值,则去除最后一个字符和第一个字符。
161.s104-33:若确定最后一个字符和第一个字符中存在置信度不小于置信度下限阈值且不大于置信度上限阈值的字符,则确定最后一个字符的置信度以及第一个字符的置信度中的最小置信度,并去除最小置信度对应的字符。
162.作为一个示例,置信度上限阈值threshold_high=0.96,置信度下限阈值threshold_low=0.6。
163.这样,置信度不小于置信度上限阈值,则认为字符识别正确,字符保留,置信度不大于置信度下限阈值,则认为识别错误,字符舍弃。若字符的置信度位于两者之间,则保留置信度较大的字符,去除置信度较低的字符。
164.参阅图3所示,为一种字符筛选方法的实施流程图。下面采用一个具体的应用场景,对上述实施例中的字符筛选过程进行举例说明。假设最大重叠字符数n为3,第一目标文本子图片的第一字符识别信息可以表示为pic1,第一目标文本子图片的第二字符识别信息可以表示为pic2,则该方法的具体实施流程如下:
165.步骤301:根据重叠区域字符数m=3,判断pic1中的最后三个字符是否与pic2的前三个字符相同,若是,则执行步骤302,否则,执行步骤303。
166.具体的,根据最大重叠字符数,确定重叠区域字符数m的初始值为3。
167.步骤302:去除pic1中的最后三个字符或者去除pic2的前三个字符,执行步骤313。
168.这样,若pic1中的最后三个字符与pic2的前三个字符一致,则可以将pic1和pic2合并(即针对pic1和pic2进行重叠字符去重以及拼接)。
169.步骤303:判断pic1中的最后三个字符与pic2的前三个字符之间是否完全不相同,若是,则执行步骤305,否则,执行步骤304。
170.步骤304:将pic1中的最后三个字符与pic2的前三个字符中对应相同的字符进行去重,并将对应不同的字符进行筛选,执行步骤313。
171.也就是说,pic1中的最后三个字符与pic2的前三个字符之间存在对应相同的字符,也存在对应不同的字符。
172.步骤305:将重叠区域字符数减一,获得更新后的重叠区域字符数m=2。
173.具体的,m=m-1。
174.步骤306:确定重叠区域字符数m=2》1,则根据更新后的重叠区域字符数,判断pic1中的后两个字符是否与pic2的前两个字符相同,若是,则执行步骤307,否则,执行步骤308。
175.步骤307:去除pic1中的后两个字符或者去除pic2的前两个字符,执行步骤313。
176.这样,若pic1中的后两个字符与pic2的前两个字符一致,则可以将pic1和pic2合并。
177.步骤308:判断pic1中的后两个字符与pic2的前两个字符之间是否完全不相同,若是,则执行步骤310,否则,执行步骤309。
178.步骤309:将pic1中的后两个字符与pic2的前两个字符中对应相同的字符进行去重,并将对应不同的字符进行筛选,执行步骤313。
179.一种实施方式中,假设上述后两个字符依次为a1,a2,上述前两个字符依次为b1,b2。若a1与b1相同,a2与b2不同,则去除a1或b1,并保留a2与b2中置信度较高的字符,舍弃置信度较低的字符。若a1与b1不同,a2与b2相同,则去除a2或b2,并保留a1与b1中置信度较高的字符,舍弃置信度较低的字符。
180.步骤310:更新重叠区域字符数m=1,并判断第一字符识别信息中的最后一个字符和第二字符识别信息中的第一个字符是否相同,若是,则执行步骤311,否则,执行步骤312。
181.步骤311:去除第一字符识别信息中的最后一个字符,或者,去除第二字符识别信息中的第一个字符,执行步骤313。
182.这样,若pic1中的最后1个字符与pic2的第一个字符一致,则可以将pic1和pic2合并。
183.步骤312:根据最后一个字符的置信度以及第一个字符的置信度,对最后一个字符度以及第一个字符进行字符筛选。
184.步骤301:结束字符筛选流程。
185.一种实施方式中,步骤312的实现过程可以包括:
186.方式1:若确定上述最后一个字符的置信度和上述第一个字符的置信度,均大于置信度上限阈值threshold_high,则保留上述最后一个字符和上述第一个字符。
187.方式2:若确定上述最后一个字符的置信度和上述第一个字符的置信度,均小于置信度下限阈值threshold_low=0.6,则去除上述最后一个字符和上述第一个字符。
188.方式3:若确定上述最后一个字符的置信度和/或上述第一个字符的置信度位于[threshold_low,threshold_high]之内,则保留两者中置信度较高的字符,舍弃两者中置信度较低的字符。
[0189]
下面采用一个具体的应用场景,对上述实施例进行示例说明。图4为一种字符识别示意图。图4中包括目标文本图片、多个文本子图片、多个字符识别信息以及目标文本图片的字符识别信息。在一些图片数据中,存在图片框宽度(即图片的长度)很长且包含较长文本的图片,即图4所示的目标文本图片。由于将较长的文本图片输入字符识别模型之后,可能会导致字符识别结果出现很大偏差的问题。因此,本技术实施例中,先基于切分长度阈值以及交叠长度预设值将图4所示的目标文本图片进行划分,获得图4中的多个文本子图片(每一行即为一个文本子图片),然后,通过字符识别模型,对图4所示的各文本子图片分别进行字符识别,获得图4所示的各字符识别信息(每一行即为一个字符识别信息),最后,采用上述实施例中的拼接处理方案,对各字符识别信息进行拼接处理,获得图4所示的目标文本图片的字符识别信息,这提高了长文本的字符识别准确率。
[0190]
参阅图5所示,为一种测试指标对比的示例图。针对多项测试指标,分别对传统字符识别方法和本技术字符识别方法进行字符识别测试,获得图5中传统字符识别方法的测试指标值,以及本技术字符识别方法的测试指标值。其中,各测试指标包括识别精度、召回率以及分值。识别精度表示字符识别的精确度。召回率表示从图片中识别出的字符与图片中包含的总字符的占比。分值表示针对字符识别效果的评分。显然,识别精度越高,召回率越高,分值越高,则表示字符识别效果越好,相比传统字符识别方法,本技术的符识别方法具有更好的识别效果。进一步的,还可以针对本技术中的图片切分方法以及字符拼接方法设计单独的模块,并将其添加到字符识别模型中,使得字符识别模型具有准确识别长文本的能力。
[0191]
本技术实施例中,基于切分长度阈值以及交叠长度预设值,将包含较长文本的目标文本图片进行划分,获得多个包含较短文本的文本子图片,从而解决了字符识别模型难以准确识别包含较长文本的图片的问题,以及通过相邻文本子图片的重叠区域中字符的匹配结果以及置信度,对相邻文本子图片的字符识别信息进行字符筛选以及拼接,以去除对应相同的重叠字符以及未准确识别的字符,提高了针对长文本的字符识别准确度。
[0192]
基于同一发明构思,本技术实施例中还提供了一种字符识别的装置,由于上述装置及设备解决问题的原理与一种字符识别的方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
[0193]
如图6所示,其为本技术实施例提供的一种字符识别的装置的结构示意图,包括:
[0194]
切分单元601,用于基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;文本子图片的长度大于交叠长度预设值且不大于切分长度阈值;识别单元602,用于采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;匹配单元603,用于分别将每两个相邻文本子图片的重叠字符进行匹配,获得匹配结果;两个相邻文本子图片的重叠字符是从两个相邻文本子图片的重叠区域中分别识别出的字符;拼接单元604,用于根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。
[0195]
一种实施方式中,切分单元601还用于:对原始图片进行文本行检测,获得文本行区域;从原始图片中划分出包含文本行区域的文本行图片;根据文本行图片的高度,以及图片高度预设值,获得缩放比例;按照缩放比例,分别对文本行图片的高度和长度进行缩放,获得目标文本图片。
[0196]
一种实施方式中,切分单元601用于:基于切分长度阈值以及交叠长度预设值,将目标文本图片进行划分,获得至少一个长度为切分长度阈值的文本子图片,以及至少一个长度大于交叠长度预设值且小于切分长度阈值的文本子图片;或者,基于切分长度阈值以及交叠长度预设值,将目标文本图片进行等长划分,获得多个长度相同的文本子图片。
[0197]
一种实施方式中,识别单元602用于:将各文本子图片输入字符识别模型,分别获得每一文本子图片中的各字符以及每一字符对应的置信度;其中,字符识别信息包括字符及其对应的置信度,置信度为字符识别的可信度。
[0198]
一种实施方式中,匹配单元603用于:针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,将第一目标文本子图片的第一字符识别信息中的后n个字符与第二目标文本子图片中的第二字符识别信息中的前n个字符进行匹配,获得匹配结果;其中,第一目标文本子图片和第二目标文本子图片为各文本子图片中任意相邻的两个文本子图片,且第一目标文本子图片为第二目标文本子图片的前一个文本子图片,n为最大重叠字符数,n为正整数。
[0199]
一种实施方式中,拼接单元604用于:针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,基于重叠区域字符数以及匹配结果,对第一目标文本子图片的第一字符识别信息和第二目标文本子图片的第二字符识别信息进行字符筛选处理;重叠区域字符数用于指示一个文本子图片的一个重叠区域中包含的重叠字符的数量;将字符筛选处理后的第一字符识别信息和第二字符识别信息进行拼接。
[0200]
一种实施方式中,拼接单元604用于:循环执行以下步骤,直至确定字符筛选完成:若根据匹配结果,确定第一字符识别信息中的后m个字符与第二字符识别信息中的前m个字符相同,则将后m个字符和前m个字符中对应相同的字符进行去重,m为重叠区域字符数,m为正整数,重叠区域字符数初始值为最大重叠字符数;若确定m大于1,且根据匹配结果确定后m个字符和前m个字符之间存在对应相同的字符,也存在对应不同的字符,则将后m个字符和
前m个字符中对应相同的字符进行去重,并根据各字符的置信度,将后m个字符和前m个字符中对应不同的字符进行筛选;若确定m=1,且根据匹配结果确定第一字符识别信息中的最后一个字符和第二字符识别信息中的第一个字符不同,则根据最后一个字符的置信度以及第一个字符的置信度,对最后一个字符度以及第一个字符进行字符筛选;若确定m大于1,且根据匹配结果确定后m个字符和前m个字符中不存在对应相同的字符,则将重叠区域字符数减一,获得更新后的重叠区域字符数。
[0201]
一种实施方式中,拼接单元604用于:针对相同的第一目标字符和第二目标字符,去除第一目标字符,或者,去除第二目标字符;其中,第一目标字符为后m个字符中的第i个字符,第二目标字符为前m个字符中的第i个字符,i表示字符的序号,i为正整数,i不大于m。
[0202]
一种实施方式中,拼接单元604用于:针对不同的第一目标字符和第二目标字符,确定第一目标字符的置信度与第二目标字符的置信度中的最小置信度,并去除最小置信度对应的字符;其中,第一目标字符为后m个字符中的第i个字符,第二目标字符为前m个字符中的第i个字符,i表示字符的序号,i为正整数,i不大于m。
[0203]
一种实施方式中,拼接单元604用于:若确定最后一个字符的置信度以及第一个字符的置信度均大于置信度上限阈值,则保留最后一个字符和第一个字符;若确定最后一个字符的置信度以及第一个字符的置信度均小于置信度下限阈值,则去除最后一个字符和第一个字符;若确定最后一个字符和第一个字符中存在置信度不小于置信度下限阈值且不大于置信度上限阈值的字符,则确定最后一个字符的置信度以及第一个字符的置信度中的最小置信度,并去除最小置信度对应的字符。
[0204]
本技术实施例提供的字符识别的方法及电子设备中,基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;文本子图片的长度大于交叠长度预设值且不大于切分长度阈值;采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;分别将每两个相邻文本子图片的重叠字符进行匹配,获得匹配结果;两个相邻文本子图片的重叠字符是从两个相邻文本子图片的重叠区域中分别识别出的字符;根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。这样,基于切分长度阈值以及交叠长度预设值,将包含较长文本的目标文本图片进行划分,获得多个包含较短文本的文本子图片,从而解决了字符识别模型难以准确识别包含较长文本的图片的问题。
[0205]
图7示出了一种电子设备7000的结构示意图。参阅图7所示,电子设备7000包括:处理器7010以及存储器7020,可选的,还可以包括电源7030、显示单元7040、输入单元7050。
[0206]
处理器7010是电子设备7000的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在存储器7020内的软件程序和/或数据,执行电子设备7000的各种功能,从而对电子设备7000进行整体监控。
[0207]
本技术实施例中,处理器7010调用存储器7020中存储的计算机程序时执行上述实施例中的各个步骤。
[0208]
可选的,处理器7010可包括一个或多个处理单元;优选的,处理器7010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理
器7010中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
[0209]
存储器7020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、各种应用等;存储数据区可存储根据电子设备7000的使用所创建的数据等。此外,存储器7020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
[0210]
电子设备7000还包括给各个部件供电的电源7030(比如电池),电源可以通过电源管理系统与处理器7010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
[0211]
显示单元7040可用于显示由用户输入的信息或提供给用户的信息以及电子设备7000的各种菜单等,本发明实施例中主要用于显示电子设备7000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元7040可以包括显示面板7041。显示面板7041可以采用液晶显示屏(liquid crystal display,lcd)、有机发光二极管(organic light-emitting diode,oled)等形式来配置。
[0212]
输入单元7050可用于接收用户输入的数字或字符等信息。输入单元7050可包括触控面板7051以及其他输入设备7052。其中,触控面板7051,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板7051上或在触控面板7051附近的操作)。
[0213]
具体的,触控面板7051可以检测用户的触摸操作,并检测触摸操作带来的信号,将这些信号转换成触点坐标,发送给处理器7010,并接收处理器7010发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7051。其他输入设备7052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0214]
当然,触控面板7051可覆盖显示面板7041,当触控面板7051检测到在其上或附近的触摸操作后,传送给处理器7010以确定触摸事件的类型,随后处理器7010根据触摸事件的类型在显示面板7041上提供相应的视觉输出。虽然在图7中,触控面板7051与显示面板7041是作为两个独立的部件来实现电子设备7000的输入和输出功能,但是在某些实施例中,可以将触控面板7051与显示面板7041集成而实现电子设备7000的输入和输出功能。
[0215]
电子设备7000还可包括一个或多个传感器,例如压力传感器、重力加速度传感器、接近光传感器等。当然,根据具体应用中的需要,上述电子设备7000还可以包括摄像头等其它部件,由于这些部件不是本技术实施例中重点使用的部件,因此,在图7中没有示出,且不再详述。
[0216]
本领域技术人员可以理解,图7仅仅是电子设备的举例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
[0217]
本技术实施例中,一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得通信设备可以执行上述实施例中的各个步骤。
[0218]
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本技术时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
[0219]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序
产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0220]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0221]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0222]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献