满足于tensorrt动态输入的OCR文字识别方法、装置及电子设备与流程

2022-08-11 06:20:06 来源：中国专利 TAG：

满足于tensorrt动态输入的ocr文字识别方法、装置及电子设备
技术领域
1.本技术涉及图像识别技术领域，具体而言，涉及一种满足于tensorrt动态输入的ocr文字识别方法、装置及电子设备。

背景技术：

2.目前，随着神经网络的复兴发展，基于自然场景文字检测识别(optical character recognition，光学字符识别)任务需求得到了很大推动，并且近年来涌现了许多基于深度学习的场景文字检测和识别算法。在成果转化实际应用方面，文字识别产品多是一些“边”、“端”设备，边端设备自身硬件的条件限制，往往给技术落地造成一定的影响。因此，如何确保文字识别准确率且满足实时性的要求，也是当前文字识别的热点问题。问题主要是：基于神经网络的文字识别模型普遍存在参数量及浮点计算量大的特点，且网络结构使用的层数越多，其运行速度就越慢，在实际应用过程中多存在“人等机器”的现象，模型运行速度慢、时间成本高不具备实时性。另外，模型结构输入图像尺寸多是固定宽、高大小。但现实任务场景多存在长短宽高不一，特别是针对较小的文本图像，不同长宽文本图像数据，现有技术处理手段多是直接将输入图像缩放到模型需要的尺寸上这就容易造成文本的字体扭曲、方向、角度等发生变化，往往会带来识别上的偏差，引起文字字符漏识别、误识别。

技术实现要素：

3.有鉴于此，本技术的目的在于提供一种满足于tensorrt动态输入尺寸的ocr文字识别方法、装置，能够通过对待识别文本图像进行预处理的方式，解决现有技术中存在的字符识别容易发生偏差的问题，达到了自适应动态输入的文字识别的图像大小要求，弥补了图像小于预设宽度的文字漏识别、误识别的缺陷，有效的提升了ocr文字识别准确率，极大的改善了用于文字识别的产品服务质量的效果。
4.第一方面，本发明实施例提供了一种满足于tensorrt动态输入尺寸的ocr文字识别方法，所述方法包括：
5.获取待识别文本图像；
6.判断所述待识别文本图像的宽度是否小于预设宽度；
7.当判断结果为是时，对所述待识别文本图像进行背景扩充，得到第一预处理图像，所述第一预处理图像的宽度等于所述预设宽度；
8.对所述第一预处理图像进行文字识别，得到文字识别结果。
9.进一步地，所述对所述待识别文本图像进行背景扩充，得到第一预处理图像的步骤，包括：
10.对所述待识别文本图像进行背景色提取，得到目标背景色；
11.根据所述目标背景色对所述待识别文本图像进行背景的左右扩充，得到第一预处
理图像。
12.进一步地，所述对所述第一预处理图像进行文字识别，得到文字识别结果的步骤，包括：
13.利用预训练的文字识别模型对所述第一预处理图像进行文字识别，得到文字识别结果。
14.进一步地，所述满足于tensorrt动态输入尺寸的ocr文字识别方法还包括：
15.获取文本图像数据集，所述文本图像数据集包括多个训练文本图像；
16.根据所述文本图像数据集对初始的文字识别模型进行模型训练，得到预训练的文字识别模型；
17.对所述预训练的文字识别模型进行格式转换，得到网络结构的权重信息文件；
18.根据所述网络结构的权重信息文件，构建引擎文件；
19.所述利用预训练的文字识别模型对所述第一预处理图像进行文字识别，得到文字识别结果的步骤，包括：
20.加载所述引擎文件；
21.将所述第一预处理图像输入所述引擎文件，得到所述引擎文件输出的文字识别结果。
22.进一步地所述满足于tensorrt动态输入尺寸的ocr文字识别方法还包括：
23.当所述判断结果为否时，对所述待识别文本图像进行缩放，得到第二预处理图像，所述第二预处理图像的宽度等于所述预设宽度；
24.对所述第二预处理图像进行文字识别，得到文字识别结果。
25.第二方面，本技术实施例还提供了一种满足于tensorrt动态输入尺寸的ocr文字识别装置，所述装置包括：
26.获取模块，用于获取待识别文本图像；
27.判断模块，用于判断所述待识别文本图像的宽度是否小于预设宽度；
28.处理模块，用于当判断结果为是时，对所述待识别文本图像进行背景扩充，得到第一预处理图像，所述第一预处理图像的宽度等于所述预设宽度；
29.识别模块，用于对所述第一预处理图像进行文字识别，得到文字识别结果。
30.进一步地，所述处理模块具体用于：
31.对所述待识别文本图像进行背景色提取，得到目标背景色；
32.根据所述目标背景色对所述待识别文本图像进行背景的左右扩充，得到第一预处理图像。
33.进一步地，所述处理模块还用于：
34.当所述判断结果为否时，对所述待识别文本图像进行缩放，得到第二预处理图像，所述第二预处理图像的宽度等于所述预设宽度；
35.所述识别模块还用于：对所述第二预处理图像进行文字识别，得到文字识别结果。
36.第三方面，本技术实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的第一方面所述方法的步骤。
37.第四方面，本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的第一方面所述方法的步骤。
38.本技术实施例提供的一种满足于tensorrt动态输入尺寸的ocr文字识别方法及装置，获取待识别文本图像；判断待识别文本图像的宽度是否小于预设宽度；当判断结果为是时，对所述待识别文本图像进行背景扩充，得到第一预处理图像，所述第一预处理图像的宽度等于所述预设宽度，然后对第一预处理图像进行文字识别，得到文字识别结果。与现有技术中的只通过对不符合要求的文本图像进行缩放处理的方法相比，达到了自适应动态输入的文字识别的图像大小要求，弥补了图像小于预设宽度的文字漏识别、误识别的缺陷，有效的提升了ocr文字识别准确率，极大的改善了用于文字识别的产品服务质量。
39.为使本技术的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
40.为了更清楚地说明本技术实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
41.图1为本发明实施例提供的一种满足于tensorrt动态输入尺寸的ocr文字识别方法的流程示意图；
42.图2为本发明实施例提供的一种引擎文件生成的流程示意图；
43.图3为本发明实施例提供的一种满足于tensorrt动态输入尺寸的ocr文字直接缩放效果图；
44.图4为本发明实施例提供的一种满足于tensorrt动态输入尺寸的ocr文字背景色提取填充效果图；
45.图5为本发明实施例提供的一种满足于tensorrt动态输入尺寸的ocr文字识别流程图；
46.图6为本发明实施例提供的一种满足于tensorrt动态输入尺寸的ocr文字识别装置的结构示意图；
47.图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
48.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本技术保护的范围。
49.场景文字是场景文字是自然图像中的文字。它在日常生活中无处不在，名片、路牌、包装、车牌、店铺门面等物体都携带文字，并由文字埯述。对场景文字的识别是人类视觉的重要功能，也是计算机视觉的重要问题。它可以被用于大量的实际问题，如车牌识别、地理定位、单据识别、无人驾驶、无人超市等，是计算机视觉的一项基础设施。ocr(optical character recognition)文字识别作为一种通用的图像理解技术，对信息检索、文字文本系统信息回路，图纸、文字、文档的电子化、归类和检索等文字文本二次转换等应用的研究都有着重要意义。常见的文字识别往往受到图像尺寸的限制，对于长短宽高不一的图像进行缩放，会带来文本的字体扭曲，方向、角度等发生变化，对识别造成困难。基于此，本发明实施例提供一种ocr文字识别方法、装置及电子设备，将宽度大于预设宽度的文本图像进行背景填充，再输入文字识别模型中进行识别，这样可以有效的提升准确率、弥补了文本漏识别、误识别的缺陷，极大的改善了文字识别的效果。
50.为便于对本实施例进行理解，首先对本发明实施例所公开的一种ocr文字识别方法进行详细介绍。
51.本发明实施例提供了一种满足于tensorrt动态输入尺寸的ocr文字识别方法，该方法可以由具有文字识别能力的电子设备执行，该方法适用于对文本图像的识别。参见图1所示的一种满足于tensorrt动态输入尺寸的ocr文字识别方法的流程示意图，该方法对待识别文本图像依次进行如下步骤s101～步骤s104所示的文字识别处理，得到文字识别结果：
52.步骤s101，获取待识别文本图像。
53.该步骤中的待识别文本图像可以是任意图片，该图片可以是任意场景中的图片，都可以适用于本发明中的文字识别，本发明实施例所述的满足于tensorrt动态输入尺寸的ocr文字识别是将图片中的文字，通过电子设备检测亮、暗并确定其形状，然后将图片中形状翻译为计算机文字的过程。
54.步骤s102，判断待识别文本图像的宽度是否小于预设宽度。
55.该步骤中，宽度为待识别文本图像中需要进行识别的形状的宽度，宽度对ocr文字识别的影响很大，如果图片的宽度不符合识别要求，在识别之前的处理过程中会出现文字字体扭曲，方向、角度变化的情况，因此，本发明在获取待识别文本图像之后，优先对待识别文本图像的宽度进行判断，根据判断结果进行下一步操作。
56.步骤s103，当判断结果为是时，对待识别文本图像进行背景扩充，得到第一预处理图像，第一预处理图像的宽度等于预设宽度。
57.该步骤中，先考虑的是待识别文本图像的宽度小于预设宽度的情况，可选的，本发明实施例中的预设宽度可以为320，该宽度适用于本发明实施例中的文字识别模型，这样得到的文字识别结果准确率更高。当待识别文本的宽度小于预设宽度时，对待识别文本图像进行背景色的填充，保证了目标文字的清晰度，参见图3，为本发明实施例提供的一种满足于tensorrt动态输入尺寸的ocr文字直接缩放效果图：
58.其中，图的左侧部分为直接缩放的效果图，我们可以看到，直接缩放的文本图像出现了不清晰和失真的情况，在造成了视觉上的偏差的同时也给下一步的文字识别增加了困难。
59.参见图4所示的满足于tensorrt动态输入尺寸的ocr文字背景色提取填充效果图，
可以看出，图像的目标文字即数字是清晰可见的，没有因为整体图像的宽度变宽而与原始图像产生偏差，因此，通过该背景色提取并填充后的文本图像在观看和识别后的文本图像准确率更高，也更清晰。
60.可选的，对待识别文本图像进行背景扩充，得到第一预处理图像的步骤，包括：
61.对待识别文本图像进行背景色提取，得到目标背景色；
62.根据所述目标背景色对所述待识别文本图像进行背景的左右扩充，得到第一预处理图像。
63.本发明实施例中，对待识别文本图像进行背景扩充，扩充的方式可以根据图像本身的状态来选择，具体扩充方法如下：
64.方式1：图像右侧的部分不动，从图像最左侧的部分开始，对图像的背景色进行自左向右的方向进行扩充，即将图像的左侧背景部分拉长；
65.方式2：图像左侧的部分不动，从图像最右侧的部分开始，对图像的背景色自右向左的单方向扩充，即将图像的右侧背景部分拉长；
66.方式3：将图像的两侧的背景色部分向外进行扩充。
67.扩充的宽度根据与预设宽度的差距而定，扩充后得到第一预处理图像。
68.步骤s104，对第一预处理图像进行文字识别，得到文字识别结果。
69.该步骤中，待识别文本图像经过第一预处理后，已经满足了文字识别所需的条件，将第一预处理后的图像进行文字识别，即可得到文字识别结果。
70.可选地，对第一预处理图像进行文字识别，得到文字识别结果的步骤，包括：
71.利用预训练的文字识别模型对第一预处理图像进行文字识别，得到文字识别结果。
72.本发明实施例中，文字识别结果是通过预训练过的文字识别模型得到的，可选地，满足于tensorrt动态输入尺寸的ocr文字识别方法还包括：
73.获取文本图像数据集，文本图像数据集包括多个训练文本图像；
74.根据文本图像数据集对初始的文字识别模型进行模型训练，得到预训练的文字识别模型；
75.对预训练的文字识别模型进行格式转换，得到网络结构的权重信息文件；
76.根据网络结构的权重信息文件，构建引擎文件；
77.参见图2为本发明实施例提供的一种引擎文件生成的流程示意图。
78.通过获取文本图像数据集，利用文本图像数据集中的多个训练文本图像对深度学习模型进行模型训练，得到预训练后的文字识别模型ocr.pt；对文字识别模型进行格式转换，得到网络结构权重信息，本发明实施例中的文字识别模型是基于tensort进行加载的，通过tensort进行网络模型搭建，对文字识别模型进行格式转换以及保存权重信息，是便于文字识别模型在tensort中进行加载；然后根据得到的权重信息文件，构建引擎文件，引擎文件在文字识别过程中起到加速文字识别，识别效率高并且可以保证实时性。
79.可选地，利用预训练的文字识别模型对所述第一预处理图像进行文字识别，得到文字识别结果的步骤，包括：
80.加载所述引擎文件；
81.将第一预处理图像输入引擎文件，得到引擎文件输出的文字识别结果。
82.参见图5，为本发明实施例提供的一种满足于tensorrt动态输入尺寸的ocr文字识别流程图，在获取待识别文本图像的同时，加载引擎文件，通过上述可知，引擎文件的作用是加速文字识别的进度，并保证实时性，在判断待识别文本图像是否满足输入要求后，如果满足，将待识别文本图像输入引擎文件，在引擎文件的加载下，最后输出识别结果；如果待识别文本图像尺寸不满足输入要求，则在背景色填充后，输入引擎文件，最后输出识别结果。
83.本发明实施例提供的满足于tensorrt动态输入尺寸的ocr文字识别方法，通过获取待识别文本图像；判断待识别文本图像的宽度是否小于预设宽度；当判断结果为是时，对所述待识别文本图像进行背景扩充，得到第一预处理图像，所述第一预处理图像的宽度等于所述预设宽度，然后对第一预处理图像进行文字识别，得到文字识别结果。本技术通过对待识别文本图像进行判断，根据待识别文本图像的宽度进行处理，采用背景色填充待识别文本图像的方法，达到了自适应动态输入的文字识别的图像大小要求，弥补了图像小于预设宽度的文字漏识别、误识别的缺陷，有效的提升了ocr文字识别准确率，极大的改善了用于文字识别的产品服务质量。
84.基于同一发明构思，本技术实施例中还提供了与满足于tensorrt动态输入尺寸的ocr文字识别方法对应的满足于tensorrt动态输入尺寸的ocr文字识别装置，由于本技术实施例中的装置解决问题的原理与本技术实施例上述满足于tensorrt动态输入尺寸的ocr文字识别装置方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。
85.参见图6所示的一种满足于tensorrt动态输入尺寸的ocr文字识别装置的结构示意图，该装置包括：
86.获取模块601，用于获取待识别文本图像；
87.判断模块602，用于判断待识别文本图像的宽度是否小于预设宽度；
88.处理模块603，用于当判断结果为是时，对待识别文本图像进行背景扩充，得到第一预处理图像，第一预处理图像的宽度等于所述预设宽度；
89.识别模块604，用于对第一预处理图像进行文字识别，得到文字识别结果。
90.本技术实施例提供的满足于tensorrt动态输入尺寸的ocr文字识别装置，通过获取待识别文本图像；判断待识别文本图像的宽度是否小于预设宽度；当判断结果为是时，对所述待识别文本图像进行背景扩充，得到第一预处理图像，所述第一预处理图像的宽度等于所述预设宽度，然后对第一预处理图像进行文字识别，得到文字识别结果。本技术通过对待识别文本图像进行判断，根据待识别文本图像的宽度进行处理，采用背景色填充待识别文本图像的方法，达到有效的提升准确率、弥补了文本漏识别、误识别的缺陷，极大的改善了文字识别的效果。
91.进一步地，上述处理模块603具体用于：
92.对待识别文本图像进行背景色提取，得到目标背景色；
93.根据目标背景色对所述待识别文本图像进行背景的左右扩充，得到第一预处理图像。
94.进一步地，上述识别模块604具体用于：
95.利用预训练的文字识别模型对第一预处理图像进行文字识别，得到文字识别结果。
96.进一步地，上述处理模块603还用于：
97.当判断结果为否时，对待识别文本图像进行缩放，得到第二预处理图像，第二预处理图像的宽度等于所述预设宽度。
98.进一步地，上述识别模块604还用于：对第二预处理图像进行文字识别，得到文字识别结果。
99.进一步地，上述ocr文字识别装置还包括：
100.训练模块，用于获取文本图像数据集，文本图像数据集包括多个训练文本图像；
101.根据文本图像数据集对初始的文字识别模型进行模型训练，得到预训练的文字识别模型。
102.参见图7，本发明实施例还提供一种电子设备700，包括：处理器704，存储器701，总线702和通信接口703，所述处理器704、通信接口703和存储器701通过总线702连接；处理器704用于执行存储器701中存储的可执行模块，例如计算机程序。
103.其中，存储器701可能包含随机存取存储器(randomaccessmemory，简称ram)，也可能还包括非易失性存储器(non-volatilememory，简称nvm)，例如至少一个磁盘存储器。通过至少一个通信接口703(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。
104.总线702可以是工业标准体系结构(industry standard architecture，简称isa)总线、外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。
105.其中，存储器701用于存储程序，所述处理器704在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器704中，或者由处理器704实现。
106.处理器704可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器704中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器704可以是通用处理器，包括中央处理器(centralprocessingunit，简称cpu)、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现成可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器701，处理器704读取存储器701的信息，结合其硬件完成上述方法的步骤。
107.本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前面方法实施例中所述的地震图像噪声
压制方法。该计算机可读存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、ram、磁碟或者光盘等各种可以存储程序代码的介质。
108.在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。
109.附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
110.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
111.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
112.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
113.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
114.最后应说明的是：以上所述实施例，仅为本技术的具体实施方式，用以说明本技术的技术方案，而非对其限制，本技术的保护范围并不局限于此，尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围，都应涵盖在本技术的保护
范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于自适应动态图神经网络的空气质量预测方法

满足于tensorrt动态输入的OCR文字识别方法、装置及电子设备与流程

相关文献

最热文献