文字识别纠错方法、装置、终端设备及存储介质与流程

2022-10-13 01:37:37 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，特别是涉及一种文字识别纠错方法、装置、终端设备及存储介质。

背景技术：

2.光学字符识别（optical character recognition，简称ocr），通常用于自动化地对光学设备所采集的文字图像中的内容进行匹配和识别，以及进行纠错任务。但是，现有的ocr算法通常存在误识别问题，且ocr纠错算法的效果不佳，对于汉字的识别和纠错效果则更差。
3.需要一种文字识别纠错方法，以提升汉字领域识别和纠错的准确率。

技术实现要素：

4.本发明的目的是：提供一种文字识别纠错方法、装置、计算机终端设备以及计算机可读存储介质，能够解决光学字符识别准确率不高的问题。
5.为了实现上述目的，本发明提供了一种文字识别纠错方法，包括：根据文本图像，获取所述文本图像中的文字信息；将所述文字信息输入匹配模型，获得所述匹配模型输出的文字匹配结果；其中，所述匹配模型为根据现有语料数据集训练的关键词基于转换器的双向编码表征keyword-bert网络模型；根据所述文字信息，获取所述文字信息的字符结构及字符部件；将所述字符结构及字符部件输入识别模型，获得所述识别模型输出的文字识别结果；其中，所述识别模型为，根据现有字符数据集训练的卷积神经网络（convolutional neural networks, 简称cnn）模型；根据所述匹配结果和所述识别结果，以加权评分的方式计算获得纠错结果。
6.在某一个实施例中，所述cnn模型包括：目标定位模块以及内容识别模块；其中，所述目标定位模块用于生成方框或像素级掩模形式的定位区域，以确定所述定位区域中，所述字符结构及字符部件中的内容的位置，获得定位结果；所述内容识别模块用于根据所述定位结果，识别定位区域中的字符所表示的内容。
7.在某一个实施例中，所述根据文本图像，获取所述文本图像中的文字信息之前，所述方法还包括：根据所述文本图像，进行图像预处理，获得预处理后的文本图像；其中，所述图像预处理包括以下至少一种：噪声消除、边缘检测、直方图均衡、形态学处理、二值化。
8.在某一个实施例中，所述现有字符数据集为图像形式，所述现有字符数据集在进行cnn模型的训练之前，还包括：根据现有字符数据集，进行数据增强，获得数据增强后的字符数据集；
其中，所述数据增强包括以下至少一种：增加随机噪声、图像翻转、图像移位、图像旋转、图像裁剪以及图像缩放。
9.本发明实施例还提供了一种文字识别纠错装置，应用于上述任一实施例中的文字识别纠错方法，包括：文字信息获取单元，用于根据文本图像，获取所述文本图像中的文字信息；文字信息匹配单元，用于将所述文字信息输入匹配模型，获得所述匹配模型输出的文字匹配结果；其中，所述匹配模型为根据现有语料数据集训练的关键词基于转换器的双向编码表征keyword-bert网络模型；字符信息获取单元，用于根据所述文字信息，获取所述文字信息的字符结构及字符部件；字符信息匹配单元，用于将所述字符结构及字符部件输入识别模型，获得所述识别模型输出的文字识别结果；其中，所述识别模型为，根据现有字符数据集训练的卷积神经网络cnn模型；纠错结果处理单元，用于根据所述匹配结果和所述识别结果，以加权评分的方式计算获得纠错结果。
10.在某一个实施例中，所述cnn模型包括：目标定位模块以及内容识别模块；其中，所述目标定位模块用于生成方框或像素级掩模形式的定位区域，以确定所述定位区域中，所述字符结构及字符部件中的内容的位置，获得定位结果；所述内容识别模块用于根据所述定位结果，识别定位区域中的字符所表示的内容。
11.在某一个实施例中，所述装置还包括：图像预处理单元，用于根据所述文本图像，进行图像预处理，获得预处理后的文本图像；其中，所述图像预处理包括以下至少一种：噪声消除、边缘检测、直方图均衡、形态学处理、二值化。
12.在某一个实施例中，所述现有字符数据集为图像形式，所述字符信息匹配单元，还用于：根据现有字符数据集，进行数据增强，获得数据增强后的字符数据集；其中，所述数据增强包括以下至少一种：增加随机噪声、图像翻转、图像移位、图像旋转、图像裁剪以及图像缩放。
13.本发明实施例还提供了一种计算机终端设备，包括一个或多个处理器和存储器。存储器与所述处理器耦接，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任意一个实施例中的文字识别纠错方法。
14.本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一个实施例中的文字识别纠错方法。
15.本发明实施例公开了一种文字识别纠错方法、装置、计算机终端设备以及计算机可读存储介质，与现有技术相比，其有益效果在于：通过语义匹配对文字信息进行识别和纠错，以及通过字形匹配，对文字结构进行匹配和纠错，进一步的输出两种匹配方法的结果，通过加权评分的方式进行两种方法效果的融合，简化了文字识别纠错的算法流程，并提升了文字识别纠错的准确率。
附图说明
16.为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1是本发明实施例一提供的一种文字识别纠错方法的流程示意图；图2是本发明实施例一提供的一种文字识别纠错方法的应用场景示意图；图3是本发明实施例二提供的一种文字识别纠错方法的流程示意图；图4是本发明实施例三提供的一种文字识别纠错方法的流程示意图；图5是本发明实施例四提供的一种文字识别纠错装置的结构示意图；图6是本发明实施例五提供的一种计算机终端设备的结构示意图。
具体实施方式
18.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.应当理解，文中所使用的步骤编号仅是为了方便描述，不作为对步骤执行先后顺序的限定。
20.应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
21.术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
22.术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
23.ocr识别和纠错工作是人工智能领域中的一项重要任务，用于对光学图像中文字的内容进行匹配，以及，对于可能匹配错误的词句进行相应的纠错。但是当前的ocr识别和纠错的准确率不高，且多用于英语等字母类的语言，对于中文专用或者中外通用的解决方案较少。一种可行的解决方案是，通过文字的部首等结构、字形上的特征进行识别和纠错，这一类型的算法通常将文字视作一个图像，进行文字各个结构的拆解和识别。另一种可行的解决方案是，通过词向量，从文字本身的意义出发，进行上下文的匹配和识别，进而完成纠错工作。当前也有融入字形特征的词向量模型，但是纠错效果并不好，而其他算法多通过单一角度进行文字的识别和纠错。本技术的技术构思在于，同时使用了文字的图像意义和句法意义，即，通过字形的辨析和语义的辨析，融合两方面的信息进行文字的识别和纠错，相比现有技术，简化了算法实现的难度，同时也提升了识别的准确率。
24.实施例一图1是本发明实施例一提供的一种文字识别纠错方法的流程示意图，请参阅图1，所述方法包括：s101、根据文本图像，获取所述文本图像中的文字信息；
s102、将所述文字信息输入匹配模型，获得所述匹配模型输出的文字匹配结果；s103、根据所述文字信息，获取所述文字信息的字符结构及字符部件；s104、将所述字符结构及字符部件输入识别模型，获得所述识别模型输出的文字识别结果；s105、根据所述匹配结果和所述识别结果，以加权评分的方式计算获得纠错结果。
25.结合具体应用场景对本实施例进行示例性说明：对于光学图像的文字识别纠错任务，首先需要根据文本图像，获取所述文本图像中的文字信息，之后再根据具体算法，从所述文字信息中提取相应的特征进行处理。
26.完成文字信息的提取之后，可以先进行语义上的匹配，具体的，将所述文字信息输入匹配模型，获得所述匹配模型输出的文字匹配结果；其中，所述匹配模型为根据现有语料数据集训练的关键词基于转换器的双向编码表征keyword-bert网络模型。需要说明的是，keyword-bert网络模型能够对语段中的关键词进行更多关注，即，在匹配和纠错的过程中，对于相对重要的词，算法将更加侧重，由此也提升了方法本身的实用性。可以通过各大公开的语料数据集进行网络模型的预训练，在使用场景中，则可以直接输入训练好的模型。需要说明的是，所述匹配模型可以不局限于keyword-bert网络模型，其他的自然语言处理模型，只要能够进行语义的识别和匹配，均为可行的实施方式，但是，这里给出的优选实施方式则在效果上相比其他方案更好。
27.完成语义上的匹配之后，则需要进行字形上的匹配，进而再融合两方面的识别结果，进行方法最终结果的计算。具体的，字形方面的匹配首先要进行文字的解析和拆分，但是，对于英语等字母语言，字形的识别要更加简单，且现有的字母训练集中的数据量要远少于汉字。因此，该步骤多用于汉字语境中。根据所述文字信息，获取所述文字信息的字符结构及字符部件；之后，将所述字符结构及字符部件输入识别模型，获得所述识别模型输出的文字识别结果；其中，所述识别模型为，根据现有字符数据集训练的卷积神经网络cnn模型。同样，可以通过各大公开的字符数据集进行网络模型的预训练，在使用场景中，直接将字形输入训练好的模型进行识别。字形方面的特征包括字符结构和字符部件，由于该步骤多用于汉字语境，因此，所述字符结构通常为汉字中的上下结构、左右结构、独立结构等等，所述字符部件即构成汉字的基本元素，需要从部分或部首逐级拆分至笔画级别。若该步骤用于外文，则通常不需要进行字符结构和字符部件的拆分，直接将文字信息中对应的字母输入识别模型即可。cnn为一类通用的图像识别网络，经过一系列的卷积和池化层完成图像中一些特征的提取。
28.一种示例，所述cnn模型包括：目标定位模块以及内容识别模块；其中，所述目标定位模块用于生成方框或像素级掩模形式的定位区域，以确定所述定位区域中，所述字符结构及字符部件中的内容的位置，获得定位结果；所述内容识别模块用于根据所述定位结果，识别定位区域中的字符所表示的内容。在本实施例中，一种优选的cnn模型则是带有目标定位模块和内容识别模块两部分的模型，在现有的算法中，faster rcnn和mask rcnn为两种较有代表性的cnn模型，前者的目标定位模块用于生成定位方框，后者的目标定位模块用于生成像素级掩模形式的定位区域。通过目标定位模块进行待识别区域的判定，通过内容识别模块进行所述待识别区域中文字内容的识别，提升了字形识别的准确率。
29.完成语义和字形两方面的识别之后，可根据所述匹配结果和所述识别结果，以加
权评分的方式计算获得纠错结果。加权评分是一种通用的、简便的数据融合方式，此外也可以通过神经网络或者其他复杂算法取得更加精确的融合结果，以进一步提升识别和纠错的准确度。但是，算法的复杂性相应的会增加。例如，图2是本发明实施例一提供的一种文字识别纠错方法的应用场景示意图，提供了一种语义和字形融合识别的方法应用案例。图中所示的例句应为“怎么扫码加微信”，但是，在光学设备对文字进行提取之后，“微信”一词被错误识别为“徽信”，因此需要进行识别和纠错工作。如图所示，上方列出的为几个语义方面识别结果的备选项，以及归一化后的得分，下方列出的则为几个字形方面识别结果的备选项，以及对应的归一化得分，省略号代表得分过低忽略不计的其他结果。在该场景下，可以通过语义和字形之间的加权评分融合两方面的特征，在影响程度未知的情况下，一种通用的权值取值方式为各取0.5，因此可以得到，微信的得分为0.98，徵信的得分为0.42，微信群的得分为0.37，短信的得分为0.35，信息的得分为0.06，显然，这里应当以“微信”作为纠错结果，替代原文本中识别出的“徽信”，从语义和字形两方面还原了语句本身应有的意义，完成了纠错工作。需要说明的是，在图2所示的这种场景下，无论权值如何分配，“微信”都将是最终用于纠错的匹配结果，但是，一些场景下则可能影响匹配结果的正确性。由于权值的分配难以通过具体的数学公式进行建模和计算，但是，语义中通常也包含了同音字、同义词、形近字的判断，尤其是本技术所述的keyword-bert网络模型，因此，语义的权值通常应当更重，即大于0.5，但是具体的取值却难以直接确定。此时也可通过神经网络的手段，辅以人工标注，将一系列识别结果输入网络，训练出一个收敛的网络模型，倒推出语义和字形两方面的权值，并以此作为一种权值的分配方案，以提升方法的准确率。
30.本实施例提供一种文字识别纠错方法，包括：根据文本图像，获取所述文本图像中的文字信息；将所述文字信息输入匹配模型，获得所述匹配模型输出的文字匹配结果；其中，所述匹配模型为根据现有语料数据集训练的关键词基于转换器的双向编码表征keyword-bert网络模型；根据所述文字信息，获取所述文字信息的字符结构及字符部件；将所述字符结构及字符部件输入识别模型，获得所述识别模型输出的文字识别结果；其中，所述识别模型为，根据现有字符数据集训练的卷积神经网络cnn模型；根据所述匹配结果和所述识别结果，以加权评分的方式计算获得纠错结果。通过语义匹配对文字信息进行识别和纠错，以及通过字形匹配，对文字结构进行匹配和纠错，进一步的输出两种匹配方法的结果，通过加权评分的方式进行两种方法效果的融合，简化了文字识别纠错的算法流程，并提升了文字识别纠错的准确率。
31.实施例二图3是本发明实施例二提供的一种文字识别纠错方法的流程示意图，请参见图3，s101之前，所述方法还包括：s201、根据所述文本图像，进行图像预处理，获得预处理后的文本图像。
32.结合具体应用场景对本实施例进行示例性说明：所述根据文本图像，获取所述文本图像中的文字信息之前，所述方法还包括：根据所述文本图像，进行图像预处理，获得预处理后的文本图像；其中，所述图像预处理包括以下至少一种：噪声消除、边缘检测、直方图均衡、形态学处理、二值化。对输入图像进行相应的预处理，有利于突出图像中的文字部分，相应的也更有利于提取特征，以提升方法的准确率。同时，对于ocr的文字识别纠错方法，传统的图像处理手段也是一种惯用方法，即，通过图像处理完成图像质量的提升和文字内容
的突出，同时通过特征工程进行图像中颜色、形态及纹理等方面特征的提取和组合，再经过统计机器学习的建模完成识别和纠错。需要说明的是，这种方法也可用于本技术中，以替代字符结构和字符特征的提取。但是，相比本技术中所提出的方案，传统方法步骤较繁琐，且需要大量的人力工作，同时准确率也并不高。但在现有字符数据集不足的场景下，也是一种可选的替代方案，通过图像预处理以提升图像的质量则更为重要。
33.本实施例提供一种文字识别纠错方法，根据文本图像，获取所述文本图像中的文字信息之前，所述方法还包括：根据所述文本图像，进行图像预处理，获得预处理后的文本图像；其中，所述图像预处理包括以下至少一种：噪声消除、边缘检测、直方图均衡、形态学处理、二值化。通过应用前对文本图像的预处理，提升了文本图像的质量，由此提升了文字识别纠错的准确率。
34.实施例三图4是本发明实施例三提供的一种文字识别纠错方法的流程示意图，请参见图4，s104具体包括：s301、根据现有字符数据集，进行数据增强，获得数据增强后的字符数据集；s302、根据所述数据增强后的字符数据集，对所述cnn模型进行训练；s303、将所述字符结构及字符部件输入所述cnn模型，获得所述cnn模型输出的文字识别结果。
35.结合具体应用场景对本实施例进行示例性说明：对于图像形式的现有字符数据集，可能其中的数据量不足以训练出一个通用、稳定、性能优良的模型，因此可通过数据增强，从各个角度对数据集进行扩充，以解决模型的稳定性和通用性问题。具体的，根据现有字符数据集，进行数据增强，获得数据增强后的字符数据集；根据所述数据增强后的字符数据集，对所述cnn模型进行训练；将所述字符结构及字符部件输入所述cnn模型，获得所述cnn模型输出的文字识别结果。其中，所述数据增强包括以下至少一种：增加随机噪声、图像翻转、图像移位、图像旋转、图像裁剪以及图像缩放。
36.本实施例提供一种文字识别纠错方法，所述现有字符数据集为图像形式，所述现有字符数据集在进行cnn模型的训练之前，还包括：根据现有字符数据集，进行数据增强，获得数据增强后的字符数据集；其中，所述数据增强包括以下至少一种：增加随机噪声、图像翻转、图像移位、图像旋转、图像裁剪以及图像缩放。通过训练时对现有字符数据集的数据增强，提升了模型的稳定性和重复性，由此提升了文字识别纠错的准确率。
37.实施例四图5是本发明实施例四提供的一种文字识别纠错装置的结构示意图，请参阅图5，本发明实施例提供一种文字识别纠错装置，应用于上述任意一个实施例中的文字识别纠错方法。需要说明的是，图5仅是一种最基本的实施方式，根据实际需求还可以加上其他单元。所述装置包括：文字信息获取单元41，用于根据文本图像，获取所述文本图像中的文字信息；文字信息匹配单元42，用于将所述文字信息输入匹配模型，获得所述匹配模型输出的文字匹配结果；其中，所述匹配模型为根据现有语料数据集训练的关键词基于转换器的双向编码表征keyword-bert网络模型；字符信息获取单元43，用于根据所述文字信息，获取所述文字信息的字符结构及
字符部件；字符信息匹配单元44，用于将所述字符结构及字符部件输入识别模型，获得所述识别模型输出的文字识别结果；其中，所述识别模型为，根据现有字符数据集训练的卷积神经网络cnn模型；纠错结果处理单元45，用于根据所述匹配结果和所述识别结果，以加权评分的方式计算获得纠错结果。
38.一种示例，所述cnn模型包括：目标定位模块以及内容识别模块；其中，所述目标定位模块用于生成方框或像素级掩模形式的定位区域，以确定所述定位区域中，所述字符结构及字符部件中的内容的位置，获得定位结果；所述内容识别模块用于根据所述定位结果，识别定位区域中的字符所表示的内容。
39.通过目标定位模块进行待识别区域的判定，通过内容识别模块进行所述待识别区域中文字内容的识别，提升了字形识别的准确率。
40.一种示例，所述装置还包括：图像预处理单元，用于根据所述文本图像，进行图像预处理，获得预处理后的文本图像；其中，所述图像预处理包括以下至少一种：噪声消除、边缘检测、直方图均衡、形态学处理、二值化。
41.通过应用前对文本图像的预处理，提升了文本图像的质量，由此提升了文字识别纠错的准确率。
42.一种示例，所述现有字符数据集为图像形式，所述字符信息匹配单元，还用于：根据现有字符数据集，进行数据增强，获得数据增强后的字符数据集；其中，所述数据增强包括以下至少一种：增加随机噪声、图像翻转、图像移位、图像旋转、图像裁剪以及图像缩放。
43.通过训练时对现有字符数据集的数据增强，提升了模型的稳定性和重复性，由此提升了文字识别纠错的准确率。
44.关于文字识别纠错装置的具体限定可以参见上文中对于文字识别纠错方法的限定，在此不再赘述。上述文字识别纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
45.本实施例提供一种文字识别纠错装置，包括：文字信息获取单元，用于根据文本图像，获取所述文本图像中的文字信息；文字信息匹配单元，用于将所述文字信息输入匹配模型，获得所述匹配模型输出的文字匹配结果；其中，所述匹配模型为根据现有语料数据集训练的关键词基于转换器的双向编码表征keyword-bert网络模型；字符信息获取单元，用于根据所述文字信息，获取所述文字信息的字符结构及字符部件；字符信息匹配单元，用于将所述字符结构及字符部件输入识别模型，获得所述识别模型输出的文字识别结果；其中，所述识别模型为，根据现有字符数据集训练的卷积神经网络cnn模型；纠错结果处理单元，用于根据所述匹配结果和所述识别结果，以加权评分的方式计算获得纠错结果。通过语义匹配对文字信息进行识别和纠错，以及通过字形匹配，对文字结构进行匹配和纠错，进一步的
输出两种匹配方法的结果，通过加权评分的方式进行两种方法效果的融合，简化了文字识别纠错的算法流程，并提升了文字识别纠错的准确率。
46.实施例五图6是本发明实施例五提供的一种计算机终端设备的结构示意图，请参阅图6，本发明实施例提供一种计算机终端设备，包括一个或多个处理器和存储器。存储器与所述处理器耦接，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任意一个实施例中的文字识别纠错方法。
47.处理器用于控制该计算机终端设备的整体操作，以完成上述的文字识别纠错方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作，这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(static random access memory，简称sram)，电可擦除可编程只读存储器(electrically erasable programmable read-only memory，简称eeprom)，可擦除可编程只读存储器(erasable programmable read-only memory，简称eprom)，可编程只读存储器(programmable read-only memory，简称prom)，只读存储器(read-only memory，简称rom)，磁存储器，快闪存储器，磁盘或光盘。
48.在一示例性实施例中，计算机终端设备可以被一个或多个应用专用集成电路(application specific 1ntegrated circuit，简称as1c)、数字信号处理器(digital signal processor，简称dsp)、数字信号处理设备(digital signal processing device，简称dspd)、可编程逻辑器件(programmable logic device，简称pld)、现场可编程门阵列(field programmable gate array，简称fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文字识别纠错方法，并达到如上述方法一致的技术效果。
49.在另一示例性实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，该计算机程序被处理器执行时实现上述任意一个实施例中的文字识别纠错方法的步骤。例如，该计算机可读存储介质可以为上述存储有计算机程序的存储器，上述计算机程序可由计算机终端设备的处理器执行以完成上述的文字识别纠错方法，并达到如上述方法一致的技术效果。
50.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于标签的网盘文件管理方法、装置、网盘及存储介质与流程

文字识别纠错方法、装置、终端设备及存储介质与流程

相关文献

最热文献