用于去除文档图像中干扰信息的方法及相关产品与流程

2022-11-30 08:28:52 来源：中国专利 TAG：

1.本发明的实施方式涉及数据处理技术领域，更具体地，本发明的实施方式涉及用于去除文档图像中干扰信息的方法、计算装置及计算机可读存储介质。

背景技术：

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。
3.随着移动互联网的发展，手机等智能设备已经深入到大众的工作和生活，通过智能设备可以进行各种信息的处理。图像是最常见的信息载体之一，而文档又是图像最常见的内容之一，但是受光照、相机参数、拍照方式、传输压缩等各种因素的影响，文档图像中可能会存在阴影、模糊、噪点、透字等各种问题，因此亟需通过某种技术来提高文档图像的质量。另外，文档图像中除了包括印刷体信息之外，还可能包含手写的文字、标记和涂鸦等非印刷体信息，而在金融和教育等场景中，用户通常希望能去除掉图像中的非印刷体信息。例如，银行在识别报表时通常不希望识别手写签名，而学生在进行错题收集时希望能去除掉上面的手写作答痕迹等。

技术实现要素：

4.在现有技术中，如何去除掉文档图像中的干扰信息是非常令人烦恼的过程。
5.因此，期望提供一种用于去除文档图像中干扰信息的方案，其能最大限度的去除文档图像中的干扰信息，从而使得去除干扰后的图像更符合阅读和打印等使用需求。
6.在本上下文中，本发明的实施方式期望提供一种用于去除文档图像中干扰信息的方法、计算装置及计算机可读存储介质。
7.在本发明实施方式的第一方面中，提供了一种用于去除文档图像中干扰信息的方法，包括：获取待处理的文档图像，其中所述文档图像中包括干扰信息；通过两个不同的干扰信息去除策略分别对所述文档图像中的干扰信息进行去除处理，以得到两个初始处理图像；以及根据两个所述初始处理图像中各个像素的像素值来确定去除干扰信息的最终处理图像中各个像素的目标像素值，以实现对所述文档图像的去干扰处理。
8.在本发明的一些实施例中，上述两个不同的干扰信息去除策略中之一包括：利用图像分割模型对所述文档图像进行图像分割，以得到所述文档图像中的干扰信息图像；根据所述干扰信息图像确定第一像素值，并用其替换所述干扰信息中各个像素的像素值，以在所述文档图像中初步去除干扰信息；以及利用图像增强模型对初步去除干扰信息后的文档图像进行图像增强处理，以得到所述初始处理图像。
9.在本发明进一步的实施例中，上述根据所述干扰信息图像确定第一像素值包括：在所述干扰信息图像中，根据位于所述干扰信息的轮廓外的预设区域内各个像素的像素值
计算所述预设区域内的像素均值，作为所述第一像素值。
10.在本发明的另一些实施例中，上述计算所述预设区域内的像素均值包括：将所述预设区域内各个像素的像素值按照由大到小的顺序依次排序；按照排序顺序依次选择预设数目的像素值；以及根据选择的预设数目的像素值计算所述预设区域内的像素均值。
11.在本发明的又一些实施例中，上述两个不同的干扰信息去除策略中之一包括：利用图像分割模型和图像增强模型分别对所述文档图像进行图像分割和图像增强处理，以得到增强后的文档图像中的干扰信息图像；以及利用预设的第二像素值对所述干扰信息图像中的各个像素的像素值进行替换，以得到所述初始处理图像。
12.可选地或附加地，在一些实施例中，所述图像增强处理至少包括去色处理、去噪处理和对比度增强处理中的一种或至少两种的组合。
13.在本发明的再一些实施例中，上述根据两个所述初始处理图像中各个像素的像素值来确定所述最终处理图像中各个像素的目标像素值包括：将两个所述初始处理图像中各个对应像素的最大像素值作为所述最终处理图像中各个像素的目标像素值。
14.在本发明进一步的实施例中，上述用于去除文档图像中干扰信息的方法还包括：对所述最终处理图像执行下述操作中的至少一种或任意两种的组合：旋转；偏移；以及缩放。
15.在本发明的一些实施例中，上述用于训练所述图像分割模型的输入图像样本和标签图像至少通过下述方法获取：获取采集的具有干扰信息的文档图像，将其作为用于训练所述图像分割模型的输入图像样本；去除所述文档图像中的干扰信息；以及将所述具有干扰信息的文档图像和去除干扰信息后的文档图像进行作差处理，以得到用于训练所述图像分割模型的标签图像。
16.在本发明进一步的实施例中，上述用于训练所述图像分割模型的输入图像样本和标签图像还通过下述方法获取：获取干扰信息和对应的背景图；将所述干扰信息渲染到所述背景图中，以得到用于训练所述图像分割模型的输入图像样本；以及将所述干扰信息渲染到与所述背景图的大小相对应的白底图上，以得到用于训练所述图像分割模型的标签图像。
17.可选地或附加地，在一些实施例中，上述用于训练所述图像分割模型的输入图像样本和标签图像还通过下述方法获取：获取干扰信息图像和不具有干扰信息的文档图像；将所述干扰信息图像叠加到所述不具有干扰信息的文档图像中，以得到用于训练所述图像分割模型的输入图像样本；以及将所述干扰信息图像叠加到与所述不具有干扰信息的文档图像大小相对应的白底图上，以得到用于训练所述图像分割模型的标签图像。
18.在本发明的另一些实施例中，上述用于训练所述图像增强模型的输入图像样本和标签图像通过下述方法获取：获取文档图像，将其作为用于训练所述图像增强模型的标签图像；以及对所述文档图像进行降阶处理，以得到用于训练所述图像增强模型的输入图像样本，其中所述降阶处理包括在所述文档图像中执行增加噪声、增色和降低对比度中的一种或至少两种组合操作。
19.在本发明实施方式的第二方面中，提供了一种计算装置，包括：处理器，其配置用于执行程序指令；以及存储器，其配置用于存储所述程序指令，当所述程序指令由所述处理器加载并执行时，使得所述处理器执行根据本发明实施方式的第一方面任一实施例所述的
方法。
20.在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，其中存储有程序指令，当所述程序指令由处理器加载并执行时，使得所述处理器执行根据本发明实施方式的第一方面任一实施例所述的方法。
21.根据本发明实施方式的用于去除文档图像中干扰信息的方案可以通过两个干扰信息去除策略共同去除文档图像中的干扰信息，相比于单独使用一个干扰信息去除策略而言，干扰信息的去除效果更好，从而使得去除干扰信息后的图像更符合阅读和打印等使用需求。
附图说明
22.通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：
23.图1示意性地示出了适于实现本发明实施方式的示例性计算系统的框图；
24.图2示意性地示出了根据本发明一实施例的用于去除文档图像中干扰信息的方法的流程图；
25.图3a、图3b和图3c分别示意性地示出了根据本发明一实施例的分别通过一种干扰信息去除策略以及两种干扰信息去除策略去除干扰信息后的文档图像的示意图；
26.图4a、图4b和图4c分别示意性地示出了根据本发明另一实施例的分别通过一种干扰信息去除策略以及两种干扰信息去除策略去除干扰信息后的文档图像的示意图；
27.图5示意性地示出了根据本发明一实施例的一种干扰信息去除策略的流程图；
28.图6示意性地示出了根据本发明一实施例的另一种干扰信息去除策略的流程图；
29.图7、图9和图11分别示意性地示出了根据本发明一实施例的图像分割模型的三种训练数据的获取方法的流程图；
30.图8示意性地示出了根据图7的获取方法获取的一对输入图像样本和标签图像的示意图；
31.图10示意性地示出了根据图9的获取方法获取的一对输入图像样本和标签图像的示意图；
32.图12示意性地示出了根据图11的获取方法获取的一对输入图像样本和标签图像的示意图；
33.图13分别示意性地示出了根据本发明一实施例的图像增强模型的训练数据的获取方法的流程图；
34.图14示意性地示出了根据图13的获取方法获取的一对输入图像样本和标签图像的示意图；以及
35.图15示意性地示出了根据本发明一实施例的方法得到的原始图像和去除干扰信息后的图像的对比图的示意图。
36.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
37.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
38.图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(cpu)101、随机存取存储器(ram)102、只读存储器(rom)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有cpu 101、ram 102、rom 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。
39.本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。
40.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
41.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
42.计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。
43.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部
分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(lan)或广域网(wan))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
44.下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
45.也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
46.也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
47.根据本发明的实施方式，提出了一种用于去除文档图像中干扰信息的方法、计算装置及计算机可读存储介质。
48.此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
49.下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。
50.发明概述
51.本发明人发现，目前有一种技术提出了一种基于图像分割模型的手写去除方法，通过分割模型得到文档图像的打印文字区域与手写笔迹区域，将文档图像的灰度图像中属于手写笔迹区域的像素值置为背景像素(去除手写笔迹)，最后再结合膨胀后的打印文字区域对已经去除手写笔迹的灰度图像进行最终的去色增强处理，得到更适合阅读及打印的文档图像。
52.然而，该种技术在进行手写笔迹区域的像素值替换时，背景像素值是通过计算手写笔迹周围的像素均值得到的，但文档图像中的阴影、噪声会导致计算出来的像素均值与背景像素值差异较大，因此会导致部分被识别到的手写笔迹被残留下来(即无法去除掉)。
53.另外，本发明人还发现了一种技术，其提出了一种干扰去除方法，可以去除掉例如企业报表等文档图像中的干扰区域中的干扰信息(例如手写签字笔迹)。该方法包括：收集手写签名图像，将这些图像贴到财务报表图像中，从而得到成对的训练数据(输入到初始图像分割模型的带手写签名的图像和对应的手写分割标签图像)。基于包含多对训练数据的训练样本图像集对初始图像分割模型进行训练，得到图像分割模型。在进行去干扰处理时，将待审核数据图像输入到图像分割模型中，得到干扰信息图像，并用预设像素值替换的方法将干扰信息图像中的干扰信息去除，以得到去除干扰的数据图像。
54.该技术的训练样本图像集中的训练样本图像(带手写签名的图像)是通过合成的
方式得到的，但合成数据与真实数据会存在很大的差异。例如，在真实场景下，用户会使用不同颜色和/或不同材质的笔进行书写，且不同用户的书写方式各异，因此真实数据要比合成数据复杂得多。合成数据与真实数据的巨大差异会导致仅使用合成数据训练得到的图像分割模型没有好的泛化能力。
55.另外，该技术在去除手写笔迹等干扰信息时是用预设像素值做的像素替换，且没有后续的增强处理操作，因此很容易导致明显的手写痕迹等干扰信息的残留。
56.在本发明的实施方式中，提出了用于去除文档图像中干扰信息的方案。该方案通过两个干扰信息去除策略共同去除干扰信息，相比于单独使用一个干扰信息去除策略的去除效果更好，从而使得去除干扰后的图像更符合阅读和打印等使用需求。
57.在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。
58.用于去除文档图像中干扰信息的方法
59.图2示意性地示出了根据本发明一实施例的用于去除文档图像中干扰信息的方法200的流程图。
60.如图2中所示，方法200可以包括在步骤s201处，获取待处理的文档图像，其中文档图像中包括干扰信息。根据不同的应用场景，待处理的文档图像可以不同，例如可以包括错题图像或数据报表图像等。干扰信息可以为文档图像中的非印刷体信息(印刷体信息为需保留的信息)，例如手写笔迹或透字等，而手写笔迹例如可以为手写的文字、标记和涂鸦等。进一步，手写的文字可以为上述数据报表中的手写签名或错题中的手写答案和批改字迹等，手写的标记可以为错题的类别标号等。
61.在获取到待处理的文档图像后，方法200可以进入步骤s202，通过两个不同的干扰信息去除策略分别对文档图像中的干扰信息进行去除处理，以得到两个初始处理图像。
62.本发明实施方式中的两个干扰信息去除策略可以根据需要进行选用，例如其中一个可以为先对待处理的文档图像进行图像增强处理，再进行像素替换处理，而另一个则可以与其相反，为先对待处理的文档图像进行像素替换处理，再进行图像增强处理，具体的干扰信息去除策略稍后详述。
63.可以理解的是，通过每个干扰信息去除策略去除后的初始处理图像中都还残留有一些干扰信息，但是不同的干扰信息去除策略处理后的图像中残留的干扰信息往往是不同的，例如残留的干扰信息内容不同或信息的残留程度不同(例如一个残留痕迹较深，另一个残留痕迹较浅)。基于此，为了达到更好的干扰信息去除效果，本发明实施方式可以结合这两个初始处理图像来得到最终处理图像。
64.具体地，在步骤s203处，方法200可以根据两个初始处理图像中各个像素的像素值来确定去除干扰信息的最终处理图像中各个像素的目标像素值，以实现对所述文档图像的去干扰处理。
65.基于不同的应用场景的需求，可以根据两个初始处理图像中各个对应像素的像素值进行计算，将计算结果作为目标像素值，或者可以按照预设规则对它们进行取值。
66.通常的，所期望的最终处理图像的背景颜色为浅色，例如白色，而由于在处理过程中未对需保留的前景图像(例如前述的印刷体图像)进行去除处理，因此前景图像在处理前后的像素值往往不会发生改变或者改变很小。基于此，可以将两个初始处理图像中各个对
应像素的最大像素值作为最终处理图像中各个像素的目标像素值，从而使得像素的目标像素值更接近背景像素值，进而达到更好的干扰去除效果。
67.为进一步说明本发明的干扰去除效果，图3a、图3b和图3c以及图4a、图4b和图4c中分别示出了通过一种干扰信息去除策略以及通过两种干扰信息去除策略共同去除干扰信息后的文档图像。其中，图3a和图3b分别是通过一种干扰信息去除策略去除干扰后的文档图像(两种干扰信息去除策略不同)，图3c是通过两种干扰信息去除策略共同去除干扰后的文档图像。图4a和图4b分别是通过一种干扰信息去除策略去除干扰后的文档图像(两种干扰信息去除策略不同)，图4c是通过两种干扰信息去除策略共同去除干扰信息后的文档图像。
68.根据上述文档图像的处理结果可以看出，通过两个干扰信息去除策略共同去除干扰比单独使用一个干扰信息去除策略去除干扰的去除效果更好，从而使得去除干扰后的图像更符合阅读和打印等使用需求。
69.图5示意性地示出了根据本发明一实施例的一种干扰信息去除策略500的流程图。
70.如图5中所示，干扰信息去除策略500包括在步骤s501处，利用图像分割模型对文档图像进行图像分割，以得到文档图像中的干扰信息图像。在一个实施场景中，图像分割模型可以为神经网络模型，进一步，其可以为卷积神经网络模型。另外，干扰信息图像可以为掩码图像。
71.在得到干扰信息图像后，在步骤s502处，可以根据干扰信息图像确定第一像素值，并用其替换干扰信息中各个像素的像素值，以在文档图像中初步去除干扰信息。
72.具体地，在干扰信息图像中，可以根据位于干扰信息的轮廓外的预设区域内各个像素的像素值计算预设区域内的像素均值，作为第一像素值。此处的预设区域的范围可以根据例如字间距和/或行间距等来确定。例如，当字间距和/或行间距较小时，可以将预设区域的范围设置的较小，从而可以防止将前景图像中的像素作为背景像素，从而影响像素均值的准确性。相应地，当字间距和/或行间距较大时，可以将预设区域的范围设置的较大，从而可以将尽可能多的背景像素统计进来，以便得到更准确的像素均值。
73.为了确定准确的干扰信息，干扰信息轮廓可以通过更接近字体轮廓的四边形或五边形等多边形形状表示。另外，干扰信息轮廓也可以为圆形等其他形状。
74.可以理解的是，上述选定的预设区域中可能包括背景像素，也可能包括前景像素(例如干扰信息周边字迹对应的像素)，而根据前述实施方式的描述可知，最终处理图像的背景像素的像素值一般较大，因此为了获得准确的像素均值，可以选择预设区域内像素值中较大的一部分像素的像素值来计算像素均值。
75.具体地，可以将预设区域内各个像素的像素值按照由大到小的顺序依次排序，按照排序顺序依次选择预设数目的像素值，以及根据选择的预设数目的像素值计算预设区域内的像素均值。此处的预设数目可以根据干扰信息周围的信息的密集程度进行设定，例如当周围的信息的密集程度适中时，可以选择预设区域内占像素总数的1/2的像素的像素值，而当周围的信息较为密集时，可以选择预设区域内占像素总数的1/4的像素的像素值。进一步，当周围的信息较为稀疏时，可以选择预设区域内占像素总数的3/4的像素的像素值。通过该方法计算出的像素均值更加接近背景像素值，从而利用其可以最大限度的去除干扰信息。
76.可以理解的是，上文中仅仅是是示例性的示出了一种第一像素值的计算方法，本领域技术人员还可以在此教导下对其进行修改，例如还可以选用预设区域内其他数目的像素的像素值来计算第一像素值，例如采用预设区域内占像素总数的1/3或4/5的像素的像素值。
77.在初步去除干扰信息后，方法可以进入步骤s503，利用图像增强模型对初步去除干扰信息后的文档图像进行图像增强处理，以得到初始处理图像。在一个实施场景中，图像增强模型可以为神经网络模型，进一步，其可以为卷积神经网络模型。另外，图像增强模型可以对文档图像进行去噪(去除阴影和模糊等)、去色(使背景色变为白色)和增加对比度中的一种或多种处理。显然，通过这些操作可以得到质量更高的初始处理图像。
78.由此可见，经过本发明实施方式中的干扰信息去除策略500进行去干扰处理可以得到质量较高但其中可能残留有部分干扰信息的初始处理图像。上述图3a和图4a分别为通过该种干扰信息去除策略处理后的图像。由图可以看出，在图3a中仍残留有
“‑
m”(位于题目4下方)等答题痕迹，而在图4a中仍残留有“af”(位于题目21下方)等答题痕迹。
79.进一步，为了得到初始处理图像的灰度图像，可以先对获取的文档图像进行二值化处理，再对其进行像素替换以及图像增强等操作(图3a和图4a中所示的图像均为灰度图像)。
80.上文结合实施方式描述了一种干扰信息去除策略，下面本发明将继续结合图6、图3b和图4b来对另一种干扰信息去除策略进行说明。
81.如图6中所示，干扰信息去除策略600可以包括在步骤s601处，利用图像分割模型和图像增强模型分别对文档图像进行图像分割和图像增强处理，以得到增强后的文档图像中的干扰信息图像。
82.图像分割模型和图像增强模型可以参照前述实施方式的描述，此处不再详述。根据上述描述可知，通过图像分割模型和图像增强模型可以得到背景色为白色的干扰信息图像。
83.在得到增强后的文档图像中的干扰信息图像后，方法可以进入步骤s602，利用预设的第二像素值对干扰信息图像中的各个像素的像素值进行替换，以得到初始处理图像。由于此时干扰信息图像的背景色为白色(即像素值为255)，因此可以将第二像素值设置为255或254等，从而可以将干扰信息去除的比较彻底。
84.上述图3b和图4b分别为通过该种干扰信息去除策略处理后的图像。由图可以看出，在图3b中已经去除掉了残留的
“‑
m”答题痕迹，并且在图4b中已经去除掉了残留的“af”答题痕迹。由该两幅附图可以看出，该种干扰信息去除策略相对于上述实施方式中的干扰信息去除策略对干扰信息去除的更加彻底，但其中仍有一些手写痕迹的残留，例如图3b中“题目14、题目15和题目16右侧的黑色残留痕迹”以及图4b中“题目21和题目22周围的黑色残留痕迹”。
85.与上述实施方式同理地，本发明实施方式中也可以对获取的文档图像进行二值化处理，以得到灰度图像(图3b和图4b中所示的图像为灰度图像)。
86.可以理解的是，通过本发明的实施方式得到的最终处理图像和待处理的文档图像之间的各个像素是对齐的(例如各个对应像素的位置、大小和角度等都是对应的)，从而可以利用这些数据进行模型训练。为了防止数据被剽窃，在本发明的一个实施方式中，可以对
上述最终处理图像执行下述操作中的至少一种或任意两种的组合：旋转；偏移；以及缩放。通过该操作可以使最终处理图像和待处理的文档图像之间的各个像素之间不对齐，从而防止剽窃和盗用。为了不影响最终处理图像的阅读和打印等使用，可以使图像的旋转角度较小、偏移距离较小和缩小比例较小，具体旋转角度较小、偏移距离较小和缩小比例可以根据图像的大小等具体设定。
87.根据前述实施方式的描述可知，由于目前的图像增强模型的训练数据仅合成数据，因此模型的泛化能力比较差。为了解决该问题，本发明可以采用多种合成训练数据、真实的训练数据(非合成数据)或采用合成数据和真实的训练数据共同作为模型的训练数据，下面本发明实施方式将结合图7-图12来对各种训练数据的获取方法进行详细说明。图7、图9和图11中分别示出了图像分割模型的三种训练数据的获取方法。
88.如图7中所示，方法700可以包括在步骤s701处，获取采集的具有干扰信息的文档图像，将其作为用于训练图像分割模型的输入图像样本。此处的文档图像可以为真实的具有干扰信息的图像，例如包括手写笔迹的真实错题图像或包括手写签名的真实数据报表图像等。
89.接着，方法700可以进入步骤s702，去除文档图像中的干扰信息。
90.首先，可以通过图像增强模型去除掉文档图像中的阴影、模糊和光斑等噪声，经过该处理后，此时文档图像的背景色变为白色，并且其中仅保留所需的非干扰信息(例如印刷体信息)和干扰信息(例如手写笔迹)。然而，由于模型的处理能力的限制，经过图像增强模型处理后的文档图像中可能还残留有透字等干扰信息，此时可以通过修图软件(例如photoshop中的擦图功能)将文档图像中残留的手写笔迹和透字等信息擦除掉，从而得到去除干扰信息后的文档图像。
91.在得到去除干扰信息后的文档图像后，方法700可以进入步骤s703，将具有干扰信息的文档图像和去除干扰信息后的文档图像进行作差处理，以得到用于训练图像分割模型的标签图像。为了得到标签图像的灰度图像，可以将作差处理后的图像进行二值化处理。
92.图8中示出了通过上述方法获取的一对输入图像样本和标签图像，其中中间竖线左侧的图像为真实的错题图像，中间竖线右侧的图像为标签图像。由图中可以看出，该种方法得到的训练数据更符合实际情况，因此通过其训练出的模型对真实数据的处理能力更强，从而能够进行更准确的图像分割。
93.上文结合图7和图8描述了真实训练数据的获取方法，下面本发明将结合图9-图12来对两种合成训练数据的获取方法进行说明。
94.如图9中所示，方法900可以包括在步骤s901处，获取干扰信息和对应的背景图。干扰信息可以为用户由电子设备(如手机或平板电脑)中获取的手写笔迹(例如手写输入法输入的手写笔迹)等。背景图中可以仅包括需保留的非干扰信息(例如印刷体信息)。另外，背景图中还可以为包括需保留的非干扰信息、噪声(例如阴影、模糊和光斑等)和透字等，从而可以使得训练数据更真实，进而使得训练出的图像分割模型可以进行更准确的图像分割。
95.接着，方法900可以进入步骤s902，将干扰信息渲染到背景图中，以得到用于训练上述图像分割模型的输入图像样本。
96.进一步，方法900可以进入步骤s903，将干扰信息渲染到与背景图的大小相对应的白底图上，以得到用于训练图像分割模型的标签图像。白底图的大小可以与背景图大小相
同，从而可以便于标签图像和输入图像样本形成相匹配的训练数据。为了得到标签图像的灰度图像，可以对渲染到白底图后的图像进行二值化处理。
97.图10中示出了通过上述方法获取的一对输入图像样本和标签图像，其中背景颜色较深的左侧图像为作为输入图像样本的错题图像，背景色为白色的右侧图像为标签图像。由图中可以看出，通过该方法获得的训练数据训练出的图像分割模型可以进行准确的图像分割。
98.为了使图像分割模型具有较强的泛化能力，可以使其干扰信息具有多样性，因此可以在渲染时将干扰信息设置为不同的颜色和粗度。
99.图11中示出了另一种合成训练数据的获取方法1100。如图11中所示，方法1100可以包括在步骤s1101处，获取干扰信息图像和不具有干扰信息的文档图像。此处的干扰信息图像可以为仅包括干扰信息(例如手写笔迹)的图像，而不具有干扰信息的文档图像可以为仅包括需保留的非干扰信息(例如印刷体信息)的图像。另外，不具有干扰信息的文档图像还可以为包括需保留的非干扰信息、噪声(例如阴影、模糊和光斑等)和透字等的图像，从而可以使得训练数据更真实，进而使得训练出的图像分割模型可以进行更准确的图像分割。
100.接着，方法1100可以进入步骤s1102，将干扰信息图像叠加到不具有干扰信息的文档图像中，以得到用于训练上述图像分割模型的输入图像样本。
101.进一步，方法1100可以进入步骤s1103，将上述干扰信息图像叠加到与不具有干扰信息的文档图像大小相对应的白底图上，以得到用于训练图像分割模型的标签图像。白底图的大小可以与不具有干扰信息的文档图像大小相同，从而可以便于标签图像和输入图像样本形成相匹配的训练数据。为了得到标签图像的灰度图像，可以对渲染到白底图上的图像进行二值化处理。
102.图12中示出了通过上述方法获取的一对输入图像样本和标签图像，其中背景颜色较深的左侧图像为作为输入图像样本的错题图像，背景颜色为白色的右侧图像为标签图像。由图中可以看出，通过该方法获得的训练数据训练出的图像分割模型也可以进行准确的图像分割。
103.通过上述描述可知，通过任何一种训练数据训练得到的图像分割模型都具有对应的效果，因此可以仅采用任意一种训练数据(如图7、图9或图11中所述的方法获取的训练数据)进行模型训练。另外，还可以采用上述多种数据来源获取的训练数据来共同进行模型训练，例如可以采用上述图7和图9所述的方法获取的训练数据进行模型训练，或采用上述图7和图11所述的方法获取的训练数据进行模型训练，或采用上述图9和图11所述的方法获取的训练数据进行模型训练。进一步，还可以采用上述三种方法获取的训练数据进行模型训练。数据来源的多样性不仅可以加快模型的训练，还可以提高模型的泛化能力。另外，训练数据中包括真实数据可以提高模型对真实数据的处理能力。
104.上文中结合一个或多个实施方式描述了图像分割模型的训练数据的获取方法，下面本发明将继续结合图13和图14来对图像增强模型的训练数据的获取方法进行说明。
105.如图13中所示，方法1300可以包括在步骤s1301处，获取文档图像，将其作为用于训练图像增强模型的标签图像。此处的文档图像可以为高质量图像，例如为扫描图像或通过其他格式(例如pdf格式)转换得到的图像。
106.接着，方法1300可以进入步骤s1302，对上述文档图像进行降阶处理，以得到用于
训练图像增强模型的输入图像样本。其中降阶处理可以包括在文档图像中执行增加噪声、增色和降低对比度中的一种或至少两种组合操作。例如，可以在上述文档图像中增加阴影、高斯噪声、运动模糊、摩尔纹以及降低对比度等一系列退化操作。
107.图14中示出了通过上述方法获取的一对输入图像样本和标签图像，其中背景颜色较深的左侧图像为作为输入图像样本的错题图像，背景颜色为白色的右侧图像为标签图像。由图中可以看出，通过该方法获得的训练数据训练出的图像增强模型可以输出高质量的图像。另外，该方法相对于通过多个拍照设备对同一个文档图像的高质量图像和低质量图像分别拍照的获取方法而言可以降低对采集设备的要求(如不需要考虑不同拍照设备的参数以及拍照角度一致性等问题)，从而降低了数据的获取难度以及获取成本。
108.前文中结合多个实施方式描述了图像分割模型和图像增强模型中训练数据的获取方法，下面本发明将对上述两个模型的训练方法进行描述。
109.首先对图像增强模型的训练进行说明。本发明中的图像增强模型是基于生成对抗网络结构实现的，包含一个生成器模型和一个判别器模型，通过二者的对抗训练，使得生成器模型可以将带有各种噪声的文档图像转换为高质量图像。生成器模型是一个两阶段的模型，每个阶段都是一个u-net结构，即包含了编码器和解码器。
110.生成器模型中的第一个编码器包含了多个卷积残差网络模块，每个卷积残差网络模块由两个卷积层、一个bn层(batch normalization，批量归一化)、一个残差连接和一个relu激活层组成。第一个解码器包含了多个卷积网络模块，每个卷积网络模块由反卷积层、卷积层、relu激活层和来自第一个编码器的跳跃连接组成。第二组编码器-解码器的结构和第一个类似，其中解码器的跳跃连接也是来自第一个编码器，第二组编码器-解码器结构起到了进一步细化模型结果的作用。整个生成对抗网络采用patchgan，因此判别器模型只包含几组卷积模块，每个卷积模块由卷积层和激活层组成。
111.在进行模型训练时，可以通过随机裁切的方式在训练样本(训练数据)中裁切出某一片段，然后将其重新调整到某一个固定尺寸，如512
×
512。随机裁切出的图像大小不一样，在重新调整尺寸后图像中的文字大小也会有变化，因此通过将不同大小的图像作为训练样本来训练模型可以使训练出的模型对不同大小的文字有更好的泛化能力。
112.在进行模型训练时，生成对抗网络部分的损失函数如下述公式(一)和(二)所示。其中，z表示一张带有噪声等各种退化信息的低质量图像，x表示与低质量图像z对应的高质量图像，d(x)表示基于高质量图像的判别值，g(z)表示基于低质量图像的生成器模型的输出值，ld表示判别器模型的损失，lg表示生成器模型的损失。
[0113][0114][0115]
在进行模型训练时，生成器模型(负责监督增强效果部分)的损失函数如下述公式(三)所示。其中，i
cout
表示生成器模型中第一个解码器的输出结果，i
rout
表示第二个解码器的输出结果，λc和λr分别是已知的权重值，i
gt
表示标签图像，l
*
表示生成器模型的损失。
[0116]
l
*
＝λc||i
cout-i
gt
||1 λr||i
rout-i
gt
||1ꢀꢀꢀ
(三)
[0117]
由此，本发明实施方式可以根据前述实施方式获取的训练数据集(包括多个训练数据)以及判别器模型的损失和生成器模型的损失来训练得到图像增强模型，具体训练方
法可以采用现有方法，此处不再详述。
[0118]
上文描述了图像增强模型的训练方法，下面本发明将继续对图像分割模型的训练方法进行说明。
[0119]
根据本发明前述实施方式的描述可知，本发明的图像分割模型可以是基于卷积神经网络实现的，其可以包括一个编码器-解码器结构。模型的输入为具有干扰信息的文档图像，即前述实施方式中所述的输入图像样本，模型的输出为干扰信息图像，即前述实施方式中所述的标签图像。具体地，编码器和解码器都是由多个swin transformer模块组成的，解码器的每个模块还带有来自编码器的跳跃连接。在编码器中，随着层数的增加，特征图像的尺寸变得越来越小；在解码器中，随着层数的增加，特征图像的尺寸越来越大，最终使得图像分割模型输出的图像的尺寸与编码器的输入图像的尺寸一致。
[0120]
在进行模型训练时，数据的获取方式，即裁切和重新调整尺寸的策略和图像增强模型一致，此处不再详述。在进行模型训练时，图像分割模型的损失函数如下述公式(四)和(五)所示，其中p
x，y
和g
x，y
分别表示图像分割模型的输出结果和真实的标签图像，l表示图像分割模型的损失。
[0121][0122]
l＝1-dice(p
x，y
，g
x，y
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(五)
[0123]
由此，本发明实施方式可以根据前述实施方式获取的训练数据集(包括多个训练数据)以及图像分割模型的损失来训练得到图像分割模型，具体训练方法可以采用现有方法，此处不再详述。
[0124]
上文中结合实施方式对图像增强模型和图像分割模型的训练方法进行了说明。可以理解的是，上述方法仅仅是示例性的而非限制性的，本领域技术人员可以根据需要对其进行修改，以适应不同应用场景的需求。例如，可以将上述u-net和swin transformer替换为其它cnn网络模型。
[0125]
前文中结合多个实施方式描述了本发明的用于去除文档图像中的干扰信息的方法、模型训练数据的获取方法以及模型训练方法，根据描述可知，基于本发明的方法可以得到干扰信息的去除效果更好的图像，从而使其更符合阅读和打印等使用需求。为了说明本发明的干扰信息的处理效果，图15中示出了通过本发明的方法得到的去除干扰信息后的图像和原始图像的对比图，其中中间白色区域左侧的图像为原始图像，中间白色区域右侧的图像为去除干扰信息后的图像。由图中可以看出，通过本发明的方法去除了原始图像中的几乎全部干扰信息，其更加便于打印和阅读等。
[0126]
示例性应用场景
[0127]
本发明实施例的用于去除文档图像中干扰信息的方案可以应用于错题收集以及数据报表的识别等应用场景。
[0128]
在错题收集的应用场景中，目前常常采用手抄错题的方式进行收集，该种方式的错题收集效率比较低。本发明可以通过对错题拍照得到错题图像，并通过本发明实施方式的用于去除文档图像中干扰信息的方法将错题图像中的答题字迹、批改字迹、透字以及阴影和光斑等去除，并且还可以对其进行对比度增强，从而得到一个清晰且仅包括印刷的题目的图像，进而可以方便继续使用。
[0129]
在数据报表识别的应用场景中，本发明可以通过对数据报表拍照得到数据报表图像，并通过本发明实施方式的用于去除文档图像中干扰信息的方法将数据报表图像中的手写签名、透字以及阴影和光斑等去除，并且还可以对其进行对比度增强，从而得到一个清晰且仅包括印刷体信息的图像，进而可以方便阅读和打印。
[0130]
需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。
[0131]
通过上面结合附图对根据本发明实施方式的用于去除文档图像中干扰信息的方案的示例性描述，可以理解是，本发明的实施方式提供了一种干扰信息的去除效果更好的方法，其通过两个干扰信息去除策略共同去除干扰信息，相比于单独使用一个干扰信息去除策略而言，本方案的干扰信息的去除效果更好，从而使得去除干扰后的图像更符合阅读和打印等使用需求。
[0132]
应当注意，尽管在上文详细描述中提及了装置的若干模块或子模块，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
[0133]
此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0134]
申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
[0135]
虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：数据分析方法、装置及计算机可读存储介质与流程

用于去除文档图像中干扰信息的方法及相关产品与流程

相关文献

最热文献