用于字符识别的方法、电子设备和存储介质与流程

2021-10-23 01:57:00 来源：中国专利 TAG：字符识别电子设备用于性能

1.本技术一般地涉及字符识别技术，并具体涉及用于提高字符识别性能的方法、电子设备和存储介质。

背景技术：

2.一般而言，光学字符识别(optical character recognition，ocr)是通过计算处理而完成的从包含文本的图像到作为机器可编辑文本的数字形式的转换过程。ocr过程可以包括使用电子设备(例如扫描仪或数码相机)获得包含文本的图像，通过检测暗、亮的模式确定字符形状，以及用字符识别方法将字符形状翻译成计算机文字。通过ocr，可以以节省与手动输入有关的人力与时间成本的方式，将图像或影像内的字符转换为计算机字符，从而提高获取信息、利用信息的效率。
3.然而，当图像在对比度、亮度、是否存在歪斜等方面存在缺陷或不足时，ocr字符识别性能可能会降级。因此，需要相应的改进以提高ocr中字符识别的准确率和效率。

技术实现要素：

4.本公开的一个方面涉及用于字符识别的方法。该方法可以包括字符模糊识别操作，其中通过动态框在特定对象的图像中检索，以获得多个字符元素。该方法可以包括字符序列形成操作，其中基于所述多个字符元素形成第一字符序列。该方法可以包括语义验证操作，其中对第一字符序列的语义进行验证。在第一字符序列未通过语义验证情况下，该方法还可以包括字符序列更新操作，其中基于所述多个字符元素形成不同于第一字符序列的第二字符序列。在第一字符序列通过语义验证的情况下，该方法还可以包括字符序列输出操作，其中将通过语义验证的第一字符序列作为所述字符识别的结果予以输出。
5.在上述方法的实施例中，动态框可以是横向和/或纵向大小可变的框，在图像中检索可以包括按照预定或任意的轨迹移动动态框以覆盖字符元素。
6.在上述方法的实施例中，还可以包括将检索到的字符元素与字符库中的字符进行匹配，以获得多个字符元素。
7.在上述方法的实施例中，字符序列形成操作和/或字符序列更新操作可以包括通过深度学习分类器来基于多个字符元素形成相应的字符序列。
8.在上述方法的实施例中，语义验证操作可以包括以下中的至少一项：将一个或多个字符与固定语料进行匹配；对第一字符序列的至少两个部分的语义进行互相验证；或者对第一字符序列的至少两个部分的语义进行依存分析。
9.在上述方法的实施例中，还可以包括：在第一字符序列未通过语义验证的情况下，对第二字符序列的语义进行验证；以及在第二字符序列通过语义验证的情况下，将通过语义验证的第二字符序列确定为所述字符识别的结果，并将第二字符序列与第一字符序列相关联作为对所述深度学习分类器的训练数据。
10.在上述方法的实施例中，特定对象包括以下中的至少一项：票据、单据、文档、书
籍、名片或宣传资料。
11.在上述方法的实施例中，特定对象的图像中的字符具有不同的字体、字号、版式或以上各项的组合。
12.本公开的另一个方面涉及用于字符识别的电子设备。该电子设备包括一个或多个处理器以及存储器，该存储器耦接到该一个或多个处理器，该存储器上存储有可执行指令，该可执行指令在由该一个或多个处理器执行时使得电子设备执行根据本公开的用于字符识别的方法的各个操作。
13.本公开的又一个方面涉及计算机可读存储介质，其上存储有可执行指令。可执行指令在由一个或多个处理器执行时，实现根据本公开的用于字符识别的方法的各个操作。
14.本发明内容旨在提供在本文档中所描述的主题中的一些的简要概述。因此，应当理解，上述特征仅为示例，并且不应解释为以任何方式缩窄本发明所描述的主题的范围或实质。本文所描述的主题的其它特征、方面和优点将通过以下具体实施方式、附图和权利要求书而变得显而易见。
附图说明
15.当结合以下附图考虑各个实施方案的以下详细描述时，可获得对本主题的更好的理解，在附图中：
16.图1示出了根据本公开实施例的用于字符识别的示例电子设备。
17.图2示出了用于根据本公开实施例的电子设备的示例逻辑框图。
18.图3示出了通过动态框的示例性的字符模糊识别操作。
19.图4a至图4c示出了通过动态框的字符模糊识别操作的具体示例。
20.图5示出了根据本公开实施例的通过投影预处理来促进字符模糊识别的示例操作。
21.图6示出了借助语义依存分析来进行语义验证的示例。
22.图7示出了根据本公开实施例的用于字符识别的示例操作流程图。
23.虽然本文所描述的特征可受各种修改形式和另选形式的影响，但其特定实施方案在附图中以举例的方式示出并在本文详细描述。然而，应当理解，附图和对其的详细描述并非旨在将本文限制于所公开的具体形式，而正相反，其目的在于覆盖落在如由所附权利要求书所限定的主题的实质和范围内的所有修改、等同物和另选方案。
具体实施方式
24.在本公开内容的讨论中，字符可以包括以下中的至少一项：
25.——文字：例如汉字、日文假名等；
26.——数字：例如0、1、2
……
9等；
27.——拼音或字母：例如a、b、y、z等；
28.——单词：例如“tax”、“import”等；
29.——符号：例如#、％、&、等。
30.在本公开内容的讨论中，使用字符元素一词来表示构成字符的基本元素。单个字符可以由一个字符元素构成，例如字符“木”由一个字符元素“木”构成；字符“a”由一个字符
元素“a”构成。另选地，单个字符可以由多个字符元素构成，例如字符“村”由两个字符元素“木”和“寸”构成；字符“tax”由三个字符元素“t”、“a”和“x”构成。
31.在本公开内容的讨论中，使用字符序列一词来表示由多个字符或字符元素构成的传达一定语义的序列。
32.在理想情况下，首先，通过字符识别过程应当能够准确识别出图像中的多个字符元素，例如不会将“木”识别为“本”，不会将“m”识别为“nn”。其次，传统而言，字符元素应当能够与字符准确对应，例如不会将“林”对应为两个单独的“木”。如果可实现以上两点，则由识别出的多个字符或字符元素构成的字符序列与原始图像中的文本完全对应的可能性会很大。在本文中，识别出的字符序列与原始图像中的文本完全对应也称为识别结果是正确的。
33.在本公开的技术方案中，可以通过动态框来检索图像中的字符元素，以满足对不同字体、字号、版式的字符的识别需求。这样，可以实现对票据、单据、文档、书籍、名片或宣传资料等对象中字符的识别。在本公开的技术方案中，可以通过人工智能的方式来基于识别出的多个字符元素来形成传达一定语义的字符序列。形成字符序列的过程可以包括以多种方式来组合字符元素，并基于一定的逻辑输出字符序列。在本公开的技术方案中，还可以通过依存分析等操作对输出的字符序列的语义进行验证。
34.通过以上任一个操作，本公开的技术方案可以提高字符识别的准确率和效率。以下结合图1至图7描述根据本公开的用于字符识别的方法、电子设备和存储介质的具体方面。
35.图1示出了根据本公开实施例的用于字符识别的示例电子设备。电子设备100可以是任何类型的电子设备，诸如个人计算机(pc)、蜂窝电话、个人数字助理(pda)、平板设备、笔记本设备、智能电话、光学扫描设备、智能电视、语音助理设备等。
36.在图1的示例中，电子设备100可以包括存储设备102和一个或多个处理器104，二者可以经由总线120耦接到彼此。
37.存储设备102可以是各种类型的存储器或存储设备中的任何一种。例如，存储设备102可以包括安装介质(例如cd-rom、软盘或磁带设备)、随机存取存储器(诸如dram、ddr ram、sram、edo ram、rambus ram等)、非易失性存储器(诸如闪存、磁介质或光学存储装置)、寄存器或其他类似类型的存储器元件等。存储设备102还可以包括其他类型的存储器或其组合。
38.在本公开的实施例中，存储设备102可以存储可执行指令的集合或模块，可执行指令在由处理器104执行时使得电子设备100执行根据本公开的各种操作，以便识别图像、画面等中的字符。存储设备102还可以存储任何对象的图像或画面数据，可以从这些图像或画面数据中识别字符。这些图像或画面数据可以具有灰度图或二进制位图的形式。这些图像或画面数据可以是经由光学扫描获得的，可以是由用户存储的，或者可以是通过网络从其他数据源接收的，本公开在该方面不受限定。
39.处理器104可以是用于执行信息处理和控制功能的任何类型的处理器，诸如微处理器、数字信号处理器、微控制器、多核处理器、专用处理器、用于网络通信的接口等。在本公开的实施例中，处理器104可以运行存储设备102所存储的各种程序指令(例如根据本公开实施例的可执行指令的集合或模块)，以及对存储设备102所存储的信息(例如根据本公
开实施例的图像等)进行处理，使得电子设备100执行根据本公开的各种操作，以便识别图像、画面等中的字符。将在下文中进一步描述根据本公开实施例的用于字符识别的各种操作。
40.在进一步的实施例中，电子设备100可以包括可选的i/o接口106、相机108、收发器110或麦克风112中的至少一项。在图1中，以虚线框指示这些装置是可选的。
41.i/o接口106可以是被配置为向电子设备100输入信息和/或从电子设备100输出信息的任何部件。i/o接口106可以包括例如键盘、小键盘、触摸界面、有线接口(例如usb接口)等。在实施例中，特定对象的图像或画面数据可以通过i/o接口106接收并且被存储在存储设备102中。例如，特定对象的图像可以是通过扫描仪获得的，接着通过i/o接口106接收并且被存储在存储设备102中。
42.相机108可以是或可以包括被配置为拍摄图像和/或视频的任何相机。在实施例中，特定对象的图像可以是通过相机108获得的。
43.收发器110可以是被配置为用于发送和接收数据流的任何部件。收发器110可以便于电子设备100与其他设备(例如分布式存储装置、处理器，其他电子设备或者服务器)进行通信。在本公开的实施例中，收发器110可以根据任何适当的有线和/或无线通信协议进行数据流的收发。
44.麦克风112可以是或可以包括被配置为捕获声音信息的任何声音捕获装置。在实施例中，麦克风112可以接收用户的语音命令，以对字符识别操作进行控制或调整。
45.图2示出了用于根据本公开实施例的电子设备的示例逻辑框图。如图2所示，在实施例中，电子设备200可以包括字符模糊识别模块205。字符模糊识别模块205在由一个或多个处理器(例如处理器104)执行时，可以使得电子设备200通过动态框在特定对象的图像中检索，以获得多个字符元素。
46.在实施例中，电子设备200可以包括语义验证模块210。语义验证模块210在由一个或多个处理器(例如处理器104)执行时，可以使得电子设备200基于检索到的多个字符元素形成字符序列。在实施例中，形成字符序列可以包括将单个字符或字符元素拆分为多个字符，以及/或者将多个字符元素组合为单个字符等，从而形成具有一定语义的字符序列。
47.在实施例中，电子设备200可以包括字符序列形成模块215。字符序列形成模块215在由一个或多个处理器(例如处理器104)执行时，可以使得电子设备200对所形成的字符序列的语义进行验证。如果字符序列通过语义验证，则表明检索到的字符以及所形成的字符序列是正确的。如果字符序列未能通过语义验证，则表明检索到的字符元素或者所形成的字符序列中的一者出现错误或者是不适当的。
48.在实施例中，电子设备200可以包括字符序列更新模块220。字符序列更新模块220在由一个或多个处理器(例如处理器104)执行时，可以使得电子设备200在某个字符序列未能通过语义验证的情况下，基于检索到的字符元素形成另一个不同的字符序列。在实施例中，更新字符序列可以包括以不同的方式将单个字符或字符元素拆分为多个字符，以及/或者将多个字符元素组合为单个字符等，从而形成具有一定语义的字符序列。虽然在图2中以虚线表示字符序列更新模块220可以是可选的，但应理解，这并不意味着在附图中以实现示出的各种元素一定是必须的。
49.在实施例中，电子设备200可以包括字符序列输出模块225。字符序列输出模块225
在由一个或多个处理器(例如处理器104)执行时，可以使得电子设备200在字符序列通过语义验证的情况下，将通过语义验证的字符序列作为字符识别的结果予以输出。
50.应当理解，图2中各个模块是根据其所实现的具体功能划分的逻辑模块，其并不旨在用于限制具体的实现方式。图2中各个模块的功能例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时，上述各个单元可被实现为独立的物理实体，或者也可由单个实体(例如，处理电路(cpu或dsp等)、集成电路等)来实现。其中，处理电路可以指在计算系统中执行功能的数字电路系统、模拟电路系统或混合信号(模拟和数字的组合)电路系统的各种实现。处理电路可以包括例如诸如集成电路(ic)、专用集成电路(asic)这样的电路、单独处理器核心的部分或电路、整个处理器核心、单独的处理器、诸如现场可编程门阵列(fpga)的可编程硬件设备、和/或包括多个处理器的系统。
51.以下结合图3至图7描述根据本公开实施例的字符识别操作的各个方面。
52.字符模糊识别操作
53.根据本公开实施例的字符识别可以包括字符模糊识别操作。字符模糊识别操作可以包括通过动态框在特定对象的图像中检索，以获得多个字符元素。在实施例中，动态框是在一个或多个方向中(例如横向和/或纵向方向中)大小可变的，以覆盖可以具有任何字体大小(例如字号)的字符元素。
54.图3示出了通过动态框的示例性的字符模糊识别操作。示例操作300可以包括在305处选择特定大小的框，在310处以所选择的特定大小的框检索图像中的字符元素，以及在315处获得检索到的字符元素。在一个实施例中，将检索到的字符元素与字符库中的元素进行比较，以获得字符元素。例如，在检索到的字符元素与字符库中的特定字符元素匹配的情况下，则将检索到的字符元素确定为该特定字符元素。在实施例中，字符库可以存储在例如电子设备100或200本地的存储设备中或者存储在远程可访问的存储设备处。
55.可以结合图4a来理解示例操作300。可以尝试在图像中移动特定大小的框，以判断该框在大部分情况下是否能够覆盖单个字符元素。如果是，则可以选择该特定大小的框来检索字符元素。否则，需要调整框的大小。在图4a的示例中，图像中要识别的字符包括一行字符，即“境内收货人(91210100746494975x)”。如图4a所示，可以存在用于检索字符的四种不同大小的框402至408。首先，可以在图像中尝试移动不同大小的框，从而选择合适大小的框来检索图像中的字符元素。例如，可以按照由大到小的顺序来尝试不同的框。在图4a中，当在图像中移动第一个尝试的框402达几个字符的距离后，发现框402均不能覆盖单个字符元素(而是覆盖多个字符元素)。因此，可以判断框402过大并使用减小的框404。框404与框402情况类似，从而使用进一步减小的框406。当在图像中移动框406达例如3个字符的距离后，发现其能检索到“境”、“内”、“收”。于是，确定选择框406来在图像中检索字符元素。
56.在选择了一种大小的框的情况下，检索字符可以包括在图像中按照一定轨迹移动框，从而确定框所覆盖的内容是否与某个字符元素匹配。应当理解，在图像中包括多种字体大小的字符的情况下，一种大小的框可能不足以检索出所有的字符元素。因此，示例操作300还可以包括在305处调整框的大小，以及在310处以所调整的特定大小的框检索图像中的字符元素，以及在315处进一步获得检索到的字符元素。该方面也可以结合图4a来理解。
57.在图4a的示例中，在选择了框406之后，可以在水平方向移动框406，分别识别出“境”、“内”、“收”、“货”、“人”。之后，进一步移动框406时发现对于之后的字符元素而言，框
406是过大的。因此，可以与以上类似地使用进一步减小的框408。当在图像中继续移动框408达例如3个字符的距离后，发现其能检索到“(”、“9”、“1”。于是，确定选择框408来在图像中检索之后的字符元素。
58.虽然图4a示出了按照由大到小的顺序来尝试不同框的示例，但是应当理解，按照由小到大的顺序来尝试不同的框也是可行的。
59.从图4a的示例可以看出，根据本公开的通过动态框在图像中检索字符元素的操作可以适应图像中不同的字体大小，准备高效地识别出不同大小的字符。
60.在实施例中，通过在图像中移动动态框使得框覆盖字符元素来对字符元素进行检索。应理解，310处在图像中检索字符元素可以包括按照预定或任意的轨迹移动动态框以覆盖字符元素。框移动的轨迹取决于图像中字符排列的方向。在字符水平排列的情况下，框移动的轨迹可以是水平的，例如从左至右或者从右至左。在字符竖直排列的情况下，框移动的轨迹可以是竖直的，例如从上至下或者从下至上。通过对动态框的移动轨迹的控制，根据本公开的字符识别操作可以从任何排布或板式布局的图像中检索字符元素，扩展字符识别操作的使用范围。
61.根据本公开的通过动态框在图像中检索字符元素的操作可以适应图像中不同的字体排布或板式，准备高效地识别出特殊排布或板式的字符，如参考图4b所描述的。
62.在图4b的示例中，图像中要识别的字符包括两行字符，即“i was walking along the road,
…
,then”和“i realized that...”。在该示例中，使用了首字符下沉的特殊板式。当在图像中移动第一个尝试的框412达几个字符的距离后，发现第一大小的框412在覆盖单个字符元素“i”之后便总是覆盖多个字符元素。因此，可以判断框412过大并使用减小的第二框414继续检索。此时，会保留(而非丢弃)已经检索到的下沉的字体较大的字符“i”，以用于后续的字符序列形成操作。在后续检索中，由于总是通过动态框去覆盖图像中的字符元素，因此可以自动识别出分别位于两行中的字符元素。也就是，下沉的首字符不会影响后续的字符元素识别。
63.字符的特殊排布或板式不限于上述首字符下沉，而是可以包括字符以非规则大小或布局的方式所呈现的各种排布或板式(例如幂运算、脚标等)。本公开在该方面不做限定，并且均可以适用。
64.在实施例中，动态框可以是矩形或正方形的。一般而言，动态框是以“端正”姿态在图像中移动的。所谓端正姿态是指动态框的边是水平或竖直的。根据本公开的字符识别操作可以包括在检索到字符元素时确定字符元素的倾斜角度，并且根据所确定的倾斜角度相应地调整动态框的倾斜角度和移动轨迹。如已知的，获取的图像可能是歪斜的，其中存在字体倾斜是常见的情形。该根据倾斜角度调整动态框的倾斜角度和移动轨迹的操作，对于从这样的图像中识别字符是有效的。
65.图4c示出了在字符具有一定倾斜角度下的示例操作。在图4c的示例中，图像中要识别的字符同样包括一行字符，即“境内收货人(91210100746494975x)”。如图4c所示，可以存在用于检索字符元素的两种不同倾斜角度的框422至424。首先，可以在图像中尝试移动端正的框，从而选择合适大小的框422来检索图像中的字符元素。当在图像中使用第一个尝试的框422时，发现所识别的字符存在倾斜角度。例如，可以通过对识别出的字符与字符库中的字符元素进行模式匹配来确定存在倾斜以及具体的倾斜角度。于是，确定使用具有相
应倾斜角度的框424来在图像中继续检索字符元素。而且，还基于该倾斜角度来调整框424的移动轨迹。
66.应当理解，上述关于调整动态框的大小、倾斜角度和移动轨迹以及对不同排布或板式的识别的实施例可以以任何适当的方式进行组合。这些组合仍然落入本公开的范围内。
67.图5示出了根据本公开实施例的通过投影预处理来促进字符模糊识别的示例操作。在一些实施例中，在使用动态框之前，可以通过对图像中的字符进行投影，初步分析字符的行、列特征，以便使用大小合适的动态框。投影预处理可以包括对字符进行水平投影或垂直投影。
68.在图5的示例中，图像中要识别的字符包括两行字符，即“境内收货人(91210100746494975x)”和“b汽车有限公司”。首先，可以对要识别的字符进行水平投影，从而将要识别的字符进行“行”划分。在图5的示例中，通过水平投影，获得分开的两行字符，即“境内收货人(91210100746494975x)”和“b汽车有限公司”。之后，可以对每一行字符垂直投影，从而将该行中要识别的字符进行“列”划分。在图5的示例中，以第一行字符“境内收货人(91210100746494975x)”为例，理想地，通过垂直投影获得单个字符“境”、“内”、“收”、“货”、“人”、“(”、“9”等等。然而，通过垂直投影不一定总能够准确识别出这些单个字符。此时，可以对投影预处理之后的字符元素应用根据本公开的字符识别操作，从而进一步提高字符识别操作的准确率和效率。
69.字符序列形成/更新操作
70.根据本公开实施例的字符识别操作可以包括字符序列形成操作或更新操作，其中基于多个字符元素形成字符序列。在实施例中，形成字符序列可以包括将单个字符或字符元素拆分为多个字符，以及/或者将多个字符元素组合为单个字符等，从而形成具有一定语义的字符序列。
71.以要识别图像中的文本“境内收货人”为例，在以上描述的字符模糊识别操作中，理想地可以识别出字符“境”、“内”、“收”、“货”和“人”。然而，由于图像质量或者字符清晰度等负面影响，可能不能准确地识别出所有字符。例如，由于字符的右侧不清晰，可能将“境”识别为字符元素“埋”、“填”等，或者基于能够清晰识别出左侧而简单地将“境”识别为字符元素“土”。又例如，由于字符的左侧不清晰，可能将“境”识别为字符元素“镜”、“睛”等，或者基于能够清晰识别出右侧而将“境”简单地识别为字符元素“竟”。基于类似的原因，可能将字符“收”识别为“4”、“文”或“收”。
72.基于字符模糊识别操作对个别字符的多种可能的识别结果，字符序列形成操作或更新操作可能会形成多种可能的字符序列。在上述例子中，多种可能的字符序列可以包括“埋内收货人”、“竟内收货人”、“境内4货人”或“埋内文货人”等等。在实施例中，可以使用人工智能的方式来获得所有可能的字符序列。人工智能的实现方式可以包括但不限于深度学习分类器、神经网络等。之后，可以通过语义验证操作从这些可能的字符序列中确定正确的字符序列。
73.如以下所描述的，在一个实施例中，可以将存在错误的上述可能的字符序列和最终确定的正确字符序列作为训练数据，对深度学习分类器或神经网络进行训练。这样，当再次出现与上述类似的错误时，深度学习分类器或神经网络可以自动将其确定为正确的字符
序列，即“境内收货人”。此时，如果期望，可以省略后续的语义验证操作，从而提高字符识别的效率。
74.语义验证操作
75.根据本公开实施例的字符识别操作可以包括语义验证操作，其中对字符序列的语义进行验证。通过语义验证的字符序列被确定为与图形中的文本对应的正确字符序列。
76.在一个实施例中，语义验证可以包括将字符序列或其一部分与固定语料进行匹配。固定语料可以包括词语库、短句库或固定搭配库等。这些固定语料可以存储在例如电子设备100或200本地的存储设备中或者存储在远程可访问的存储设备处。例如，对于“4货人”或“文货人”，可以搜索固定语料以与其进行匹配，从而确定正确的字符为“收货人”。
77.在一个实施例中，语义验证可以包括使用字符序列中的一个部分对另一部分进行验证，或者对字符序列中的多个部分进行相互验证。例如，可以使用“收货人”来对“竟内”进行验证，从而根据上下文的语义连贯性将“竟内”确定为“境内”。另选地或附加地，语义验证可以包括对字符序列中的多个部分进行相互验证。例如，在字符序列中同时存在“深圳”和“518000”，可以认为“518000”是与“深圳”对应的邮政编码，从而确定字符序列可以通过语义验证。
78.在一个实施例中，语义验证还可以包括对字符序列中的多个部分进行依存分析。例如，可以借助语义依存来分析多个部分之间的逻辑关系。示例的逻辑关系可以包括主谓关系、动宾关系、间宾关系、定中关系等。图6示出了借助语义依存分析来对“境内”和“收货人”进行语义验证的示例。可以结合以上描述来理解图6的示例，此处不再重复。
79.字符识别示例流程
80.图7示出了根据本公开实施例的用于字符识别的示例操作流程图。如图7的示例操作流程700所示，首先在705处执行字符模糊识别操作，包括通过动态框在特定对象的图像中检索以获得多个字符元素。接着，在710处执行字符序列形成操作，包括基于多个字符元素形成第一字符序列。之后，在715处执行语义验证操作，包括对第一字符序列的语义进行验证。
81.接下来，在720处判断第一字符序列是否通过语义验证。如果判断第一字符序列能够通过语义验证，则在725处将通过语义验证的第一字符序列作为字符识别的结果予以输出。如果判断第一字符序列未能够通过语义验证，则返回710处执行字符序列更新操作，包括基于多个字符元素形成不同于第一字符序列的第二字符序列。之后，重复执行715至720的操作，直到字符序列通过语义验证，并输出相应的字符序列。
82.图7所示流程中的具体操作可以结合上述关于字符识别操作的具体描述来理解，此处不再重复。在一个实施例中，710处的字符序列形成操作和更新操作可以使用深度学习分类器或神经网络执行。在第二字符序列通过语义验证的情况下，在将第二字符序列确定为字符识别的结果的同时，可以将第二字符序列与未通过语义验证的第一字符序列相关联，作为对深度学习分类器或神经网络的训练数据。
83.在本公开的实施例中，可以从特定对象的图像中识别字符。特定对象的示例可以包括以下类别中的至少一项：票据、单据、文档、书籍、名片或宣传资料。特定对象还可以是税票、收据、银行对帐单、申报表、发票、货物清单、海关进出口报关单等。在这些对象中，均不同程度上具有不同的字体、字号、版式的组合。根据以上描述，本公开的用于字符识别的
方法、电子设备和存储介质可以准确、高效地对此类对象进行字符识别。
84.以上分别描述了根据本公开实施例的各示例性电子设备和方法。应当理解，这些电子设备的操作或功能可以相互组合，从而实现比所描述的更多或更少的操作或功能。各方法的操作步骤也可以以任何适当的顺序相互组合，从而类似地实现比所描述的更多或更少的操作。
85.应当理解，根据本公开实施例的机器可读存储介质或程序产品中的机器可执行指令可以被配置为执行与上述设备和方法实施例相应的操作。当参考上述设备和方法实施例时，机器可读存储介质或程序产品的实施例对于本领域技术人员而言是明晰的，因此不再重复描述。用于承载或包括上述机器可执行指令的机器可读存储介质和程序产品也落在本公开的范围内。这样的存储介质可以包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。另外，应当理解，上述系列处理和设备也可以通过软件和/或固件实现。
86.另外，术语“或”旨在表示包含性“或”而不是排他性“或”。即，除非另有说明或从上下文可以清楚地看出，否则“x采用a或b”旨在表示任何自然的包含性置换。即，如果x采用a；x采用b；或x采用a和b两者，则在任何上述情况下均满足“x采用a或b”。此外，在主题说明书和附图中使用的“一”和“一个”通常应被解释为意指“一个或多个”，除非另有说明或从上下文清楚地理解为是单数形式。
87.虽然各种实施例易于进行各种修改和替代构造，但是其某些示出的实施例在附图中示出并且已经在上面进行了详细描述。但是，应该理解的是，无意将各种实施例限制为所公开的特定形式，而是相反，其意图是涵盖落入各种实施例的精神和范围内的所有修改、替代构造以及等同物。
88.除了本文描述的各种实施例之外，应该理解的是，可以使用其它类似的实施例，或者可以对所描述的(一个或多个)实施例进行修改和添加，以执行对应的(一个或多个)实施例的相同或等同功能，而不会从中偏离。更进一步，多个处理芯片或多个设备可以共享本文描述的一个或多个功能的执行，并且类似地，可以跨多个设备实现存储。因此，本发明不限于任何单个实施例，而是根据所附权利要求书的广度、精神和范围来解释。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

用于字符识别的方法、电子设备和存储介质与流程

相关文献

最热文献