一种模型训练方法、文本去除方法及相关装置与流程

2021-11-25 02:51:00 来源：中国专利 TAG：

1.本发明涉及人工智能领域，尤其涉及一种模型训练方法、文本去除方法及相关装置。

背景技术：

2.去除作答试题图像中的作答文本，对用户和拍照判题程序的提供者都有很大意义。对于用户来说，去除作答文本后，用户可以重新练习，以巩固学习效果。对于拍照判题程序的提供者来说，去除作答文本后，可以用于扩充题库。
3.现有去除作答文本的过程为：先采用通用目标检测方法检测作答试题图像中的作答文本，再去除检测到的作答文本。

技术实现要素：

4.为了解决现有技术中的至少一个技术问题，本公开提供了一种模型训练方法、文本去除方法及相关装置；根据本公开的另一方面，一种模型训练方法，用于训练作答文本检测模型，所述作答文本检测模型包括第一神经网络和第二神经网络，其中，所述第一神经网络用于确定作答试题图像中各像素点属于作答区域的分类结果，所述第二神经网络用于基于所述作答试题图像和所述第一神经网络输出的所述分类结果，确定所述作答试题图像中各像素点属于作答文本的分类结果；所述模型训练方法包括：基于第一作答试题图像和第一标签，训练所述第一神经网络，其中，所述第一作答试题图像为用于训练的所述作答试题图像，所述第一标签用于指示所述第一作答试题图像中各像素点是否属于作答区域；基于第二作答试题图像、第一分类结果和第二标签，训练所述第二神经网络，其中，所述第二作答试题图像为用于训练的所述作答试题图像，所述第一分类结果为所述第二作答试题图像中各像素点属于作答区域的分类结果，所述第二标签用于指示所述第二作答试题图像中各像素点是否属于作答文本。
5.根据本公开的另一方面，提供了一种文本去除方法，包括：将待处理图像输入作答文本检测模型，以得到所述待处理图像中各像素点属于作答文本的分类结果，其中，所述待处理图像为待去除作答文本的作答试题图像，所述作答文本检测模型根据本公开实施例中任一所述模型训练方法训练得到；根据所述待处理图像中各像素点属于作答文本的分类结果，去除所述待处理图像中的作答文本。
6.根据本公开的另一方面，提供了一种训练装置，用于训练作答文本检测模型，所述作答文本检测模型包括第一神经网络和第二神经网络，其中，所述第一神经网络用于确定作答试题图像中各像素点属于作答区域的分类结果，所述第二神经网络用于基于所述作答
试题图像和所述第一神经网络输出的所述分类结果确定所述作答试题图像中各像素点属于作答文本的分类结果；所述训练装置包括：第一训练模块，基于第一作答试题图像和第一标签，训练所述第一神经网络，其中，所述第一作答试题图像为用于训练的所述作答试题图像，所述第一标签用于指示所述第一作答试题图像中各像素点是否属于作答区域；第二训练模块，基于第二作答试题图像、第一分类结果和第二标签，训练所述第二神经网络，其中，所述第二作答试题图像为用于训练的所述作答试题图像，所述第一分类结果为所述第二作答试题图像中各像素点属于作答区域的分类结果，所述第二标签用于指示所述第二作答试题图像中各像素点是否属于作答文本。
7.根据本公开的另一方面，提供了一种文本去除装置，包括：像素分类模型，用于将待处理图像输入作答文本检测模型，以得到所述待处理图像中各像素点属于作答文本的分类结果，其中，所述待处理图像为待去除作答文本的作答试题图像，所述作答文本检测模型根据本公开实施例中任一所述模型训练方法训练得到；文本去除模块，用于根据所述待处理图像中各像素点属于作答文本的分类结果，去除所述待处理图像中的作答文本。
8.根据本公开的另一方面，提供了一种电子设备，包括：处理器；以及，存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据本公开实施例中任一所述的方法。
9.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开实施例中任一所述的方法。
10.本公开实施例中提供的一个或多个技术方案，经训练的作答文本检测模型，可以通过第二神经网络基于第一神经网络确定的作答试题图像中各像素点属于作答区域的分类结果确定所述作答试题图像中各像素点属于作答文本的分类结果，使得基于各像素点属于作答文本的分类结果得到的作答文本用采用通用目标检测方法检测作答试题图像中的作答文本更为精确。因此，可以提高作答文本检测的准确性，进而提高作答文本去除的精准度。
附图说明
11.附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。
12.图1示出了根据本公开示例性实施例的可以在其中实施本文描述的各种方法的应用场景示意图；图2示出了根据本公开示例性实施例的作答文本检测模型的示意性框图；图3示出了根据本公开示例性实施例的模型训练方法的流程图；图4示出了根据本公开示例性实施例的手机拍摄作答试题图像的示意图；
图5示出了根据本公开示例性实施例的模型训练方法的子流程图；图6示出了根据本公开示例性实施例的模型训练方法的另一种子流程图；图7示出了根据本公开示例性实施例的作答文本检测模型的另一种示意性框图；图8示出了根据本公开示例性实施例的文本去除方法的流程图；图9示出了根据本公开示例性实施例的训练装置的示意性框图；图10示出了根据本公开示例性实施例的文本去除装置的示意性框图；图11示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
13.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
14.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
15.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
16.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
17.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
18.下面对本公开的实施方式中的部分术语做说明：作答试题图像：包含试题文本和作答文本的图像，具体可以是：包含试题文本和作答文本的试卷图像，包含试题文本和作答文本的作业页面图像等。
19.试题文本：试卷、作业等页面中的试题的文本。例如：填空题“在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，除“大地”、“评价”是作答文本外，其他均为试题文本。
20.作答文本：试卷、作业等页面中的答案的文本。例如：填空题“在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，“大地”、“评价”为作答文本。
21.作答区域：用于填写作答文本的区域。例如：填空题“在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，填写“大地”、“评价”的区域是作答区域。其中，作答区域可以是矩形等形状的区域。
22.以下参照附图描述本公开的方案。
23.需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤
执行先后顺序的作用。本实施例提供的方法可以由相关的服务器、电子设备、计算机等执行，下文以服务器作为执行主体为例进行说明。
24.为了便于理解本公开实施例提供的技术方案，下面以服务器作为执行主体为例，对本公开实施例提供的模型训练方法及文本去除方法的应用场景进行介绍。
25.参见图1，图1是本公开示例性实施例提供的各种方法的应用场景示意图，该应用场景100包括拍摄设备101、显示终端102和服务器104，该服务器104用于执行本公开实施例提供的模型训练方法训练作答文本检测模型，或，执行本公开实施例提供的文本去除方法对作答试题图像进行作答文本的去除。
26.如图1所示，拍摄设备101、显示终端102等均可以通过网络103与服务器104通信。拍摄设备101可以为摄像机、相机、光电传感器等具有图像采集功能的设备。显示终端102可以为手机、笔记本电脑、台式电脑、手持终端等具有显示功能的终端。此处拍摄设备101的功能可以集成在显示终端102中，也可以独立于显示终端102，可以根据实际需要进行设计。
27.如图1所示，拍摄设备101可以通拍摄以得到待去除作答文本的待处理图像，拍摄设备101也可以用于拍摄得到用于训练的第一作答试题图像或第二作答试题图像，待处理图像、第一作答试题图像和第二作答试题图像的格式可以为jpeg（jointphotographicexpertsgroup，缩写为jpeg）、tiff（tagimagefileformat）、raw（rawimageformat）等格式。
28.如图1所示，如果拍摄设备101可以实现联网功能，该拍摄设备101可以通过网络103直接将待处理图像、第一作答试题图像或第二作答试题图像通过网络103上传至服务器104并进行处理，也可以将待处理图像、第一作答试题图像或第二作答试题图像通过拍摄设备101传输至显示终端102，显示终端102通过网络103上传至服务器104并进行模型训练处理或文本去除处理。用户可以从显示终端102通过网络103访问服务器104，获取到处理结果甚至处理过程，并进行显示。同时，如果拍摄设备101还具有图像显示功能，服务器104也可以通过网络103将处理结果甚至处理过程反馈至拍摄设备101进行显示。
29.如图1所示，如果拍摄设备101无法实现联网功能，该拍摄设备101拍摄得到待处理图像、第一作答试题图像或第二作答试题图像后，可以将所获得的待处理图像、第一作答试题图像或第二作答试题图像通过移动硬件、u盘、光盘等存储介质进行保存，显示终端102读取存储介质所存储的待处理图像，将其通过网络103上传至服务器104并进行模型训练处理或文本去除处理，用户可以从显示终端102通过网络103访问服务器104获取到处理结果甚至处理过程。另外，服务器104也可以通过网络103自动将处理结果甚至处理过程反馈至显示终端102进行显示。
30.应理解，上述图1所示的应用场景仅为一种示例，在实际应用中，本公开实施例提供的模型训练方法和文本去除方法还可以应用于其他应用场景，在此不对本公开实施例提供的模型训练方法和文本去除方法的应用场景做具体限定。
31.下面通过实施例对本公开的模型训练方法进行介绍。
32.如图2和图3所示，图2为本公开实施例提供的作答文本检测模型的示意性框图，图3为本公开实施例提供的模型训练方法的一种流程示意图，模型训练方法该用于训练作答文本检测模型200，作答文本检测模型200包括第一神经网络201和第二神经网络202，其中，第一神经网络201用于确定作答试题图像中各像素点属于作答区域的分类结果，第二神经
网络202用于基于作答试题图像和第一神经网络201输出的分类结果确定作答试题图像中各像素点属于作答文本的分类结果，如图3所示，该模型训练方法包括：步骤s301，基于第一作答试题图像和第一标签，训练第一神经网络，其中，第一作答试题图像为用于训练的作答试题图像，第一标签用于指示第一作答试题图像中各像素点是否属于作答区域。
33.步骤s302，基于第二作答试题图像、第一分类结果和第二标签，训练第二神经网络，其中，第二作答试题图像为用于训练的作答试题图像，第一分类结果为第二作答试题图像中各像素点属于作答区域的分类结果，第二标签用于指示第二作答试题图像中各像素点是否属于作答文本。
34.为了便于理解本公开示例性实施例中作答区域、作答文本以及像素点的关系描述。示例性的，参见图4，手机400通过拍摄已作答的试卷得到作答试题图像401，作答试题图像401中的作答区域402内的像素点属于作答区域，作答试题图像401中的作答文本403
ꢀ“
大地”两字对应的像素点属于作答文本。
35.上述第一神经网络确定的作答试题图像中各像素点属于作答区域的分类结果可以为作答试题图像中各像素点属于作答区域的得分图，该得分图用于表示答试题图像中各像素点属于作答区域的概率大小。上述第一神经网络确定的作答试题图像中各像素点属于作答区域的分类结果具体也可以是答试题图像中各像素点是否属于作答区域等。
36.同理，上述第二神经网络确定的作答试题图像中各像素点属于作答文本的分类结果可以为作答试题图像中各像素点属于作答文本的得分图，该得分图用于表示作答试题图像中各像素点属于作答区域的概率大小。上述第二神经网络确定的作答试题图像中各像素点属于作答文本的分类结果也可以为答试题图像中各像素点是否属于作答区域等。
37.上述第一作答试题图像和第二作答试题图像之间相同，也可以不同。
38.上述第一标签用于指示第一作答试题图像中各像素点是否属于作答区域。示例性的，第一标签为用于指示第一作答试题图像中各像素点是否属于作答区域的标注框，该标注框可以是矩形框，也可以是其他形状的标注框。像素点位于标注框内表示该像素点属于作答区域，像素点未在标注框内表示该像素点不属于作答区域。示例性的，第一标签为指示第一作答试题图像中各像素点是否属于作答区域的属性标签。
39.上述第二标签用于指示第二作答试题图像中各像素点是否属于作答文本。示例性的，第二标签可以为第二作答试题图像和第二作答试题图像对应的空白试题图像的差分图像，其中，第二作答试题图像对应的空白试题图像是第二作答试题图像在未填写作答文本时的图像。在训练前，可收集大量的空白试题图像，对空白试题图像备份后由用户正常作答，用户正常作答后得到第二作答试题图像，空白试题图像与相应的第二作答试题图像形成一对，接着将该第二作答试题图像和相应的空白试题图像逐像素点位置的对应像素值进行相减得到差分图像，差分图像的像素值要么为0，要么不为0，为0的位置对应的像素点属于作答文本，不为0的位置对应的像素点不属于作答文本，如此，可以快速获得需要训练的第二作答试题图像以相应的第二标签，可以大大提高训练的效率。示例性的，第二标签可以是指示第二作答试题图像中各像素点是否属于作答文本的属性标签。
40.可以知道的，第二神经网络所确定的作答试题图像中各像素点属于作答文本的分类结果可以直接作为作答文本检测模型的输出。第二神经网络所确定的作答试题图像中各
像素点属于作答文本的分类结果也可以将作答试题图像中各像素点属于作答文本的分类结果处理后输出，例如，作答试题图像中各像素点属于作答文本的分类结果是得分图时，判断得分大于设定阈值的像素点属于作答文本，判断得分不大于设定阈值的像素点不属于作答文本。其中，设定阈值可以根据需要设置，例如，0.7、0.8、0.9等。
41.可以知道的，因为第一分类结果为第二作答试题图像中各像素点属于作答区域的分类结果，为了便于训练，可以直接将第一神经网络输入第二作答试题图像后输出的各像素点属于作答区域的分类结果作为第一分类结果。
42.应理解，执行步骤301时，以第一作答试题图像作为输入，以第一标签作为训练目标训练第一神经网络，以使训练后的第一神经网络确定的第一作答试题图像中各像素点属于作答区域的分类结果与第一标签指示的实际分类结果之间满足收敛条件。其中，该收敛条件可以是两者的误差小于某个值等，对此，本实施方式不做限定。
43.应理解，执行步骤302时，以第二作答试题图像和第一分类结果作为输入，以第二标签作为训练目标训练第二神经网络，以使训练后的第二神经网络所确定的第二作答试题图像中各像素点属于作答文本的分类结果与第二标签指示的实际分类结果之间满足收敛条件。其中，该收敛条件可以是两者的误差小于某个值等，对此，本实施方式不做限定。第一分类结果可以是第一神经网络确定的第二作答试题图像中各像素点属于作答区域的分类结果，此处，可以将第一神经网络的输出端接入到第二神经网络的输入端，以使第二作答试题图像输入经步骤s301训练的第一神经网络后将输出的第一分类结果输入到第二神经网络。
44.本公开实施例中，通过第一作答试题图像和第一标签训练第一神经网络后，第一神经网络可以更准确地确定作答试题图像中各像素点属于作答区域的分类结果；通过第二作答试题图像、第一分类结果和第二标签训练第二神经网络后，第二神经网络可以更准确地确定作答试题图像中各像素点属于作答文本的分类结果。由于作答试题图像中作答文本位于作答区域，作答区域与作答文本具有关联性，且由于作答区域还包含作答文本所没有的特征，因此，将第一神经网络确定的作答试题图像中各像素点属于作答区域的分类结果可以辅助第二网络更好地用于区分像素点是否属于作答文本，使得第二神经网络确定的作答试题图像中各像素点属于作答文本的分类结果更准确，提高作答文本检测的准确性。
45.在一个可选实施方式中，第一作答试题图像和第二作答试题图像中的试题文本均为打印体文本，第一作答试题图像和第二作答试题图像中的作答文本均为手写体文本。在第一作答试题图像和第二作答试题图像中的试题文本均为打印体文本，第一作答试题图像和第二作答试题图像中的作答文本为手写体文本时，第一神经网络和第二神经网络在训练后，能参考手写体特征和打印体特征，以作为像素点是否属于作答区域或作答文本的依据。如此，训练后的作答文本检测模型主要检测作答文本为手写体文本且试题文本为打印体文本的作答试题图像时，其准确率能大幅提升。
46.在一个可选实施方式中，如图5所示，基于第一作答试题图像和第一标签，训练第一神经网络，包括：步骤s501，将第一作答试题图像输入第一神经网络，得到第一作答试题图像中各像素点属于作答区域的分类结果；步骤s502，根据第一标签和第一作答试题图像中各像素点属于作答区域的分类结
果，确定第一神经网络的损失值，其中，第一神经网络模型的损失值用于指示第一作答试题图像中各像素点属于作答区域的分类结果与第一标签的差异；步骤s503，根据第一神经网络的损失值，更新第一神经网络的模型参数。
47.本实施方式中，第一神经网络的损失值可以根据具体需要选择相应的损失函数来计算得到，例如，损失函数可以选择交叉熵损失函数或目标检测网络centernet所采用的损失函数focal loss等损失函数，其中，损失函数focal loss是交叉熵损失函数的改进函数，可以克服目标检测中正负样本比例严重失衡的问题。
48.更新第一神经网络的参数后，可以重复步骤501~步骤503，直至第一神经网络满足收敛条件。示例性的，可以在第一神经网络的损失值小于第一设定值时认为第一神经网络满足收敛条件，其中，第一设定值可以根据需要设置，如0.001等。
49.在一个可选实施方式中，如图6所示，基于第二作答试题图像、第一分类结果和第二标签，训练第二神经网络，包括：步骤s601，将第二作答试题图像和第一分类结果输入第二神经网络，得到第二作答试题图像中各像素点属于作答文本的分类结果；步骤s602，根据第二标签和第二作答试题图像中各像素点属于作答区域的分类结果，确定第二神经网络的损失值，其中，第二神经网络的损失值用于指示第二作答试题图像中各像素点属于作答文本的分类结果与第二标签的差异；步骤s603，根据第二神经网络的损失值，更新第二神经网络的模型参数。
50.本实施方式中，可以根据具体场景选择相应的损失函数，根据损失函数第一神经网络的损失值，例如，可以选择交叉熵损失函数。
51.更新第二神经网络的参数后，可以重复步骤601~步骤603，直至第二神经网络满足收敛条件。示例性的，可以在第二神经网络的损失值小于第二设定值时认为第二神经网络满足收敛条件，其中，第二设定值可以根据需要设置，如0.001等。
52.在一个可选实施方式中，如图7所示，第一神经网络包括：第一提取子网络701，用于对作答试题图像进行特征提取，得到第一特征图，其中，第一特征图包含趋于区分作答试题图像中各像素点是否属于作答区域的特征；第一还原子网络702，用于根据第一特征图，得到与作答试题图像大小一致的第一特征映射，其中，第一特征映射用于表示作答试题图像中各像素点属于作答区域的分类结果。
53.应理解，在执行步骤s301时，输入第一神经网络的作答试题图像是第一作答试题图像，由第一提取子网络701对第一作答试题图像进行特征提取处理，得到第一特征图，由第一还原子网络702根据第一特征图得到与作答试题图像大小一致的第一特征映射。示例性的，第一特征映射可以是作答试题图像的各个像素点属于作答区域的得分图。
54.本实施方式中，利用第一提取子网络对作答试题图像进行特征提取，得到第一特征图，该第一特征图包含趋于区分作答试题图像中各像素点是否属于作答区域的特征；利用第一还原子网络根据第一特征图得到与作答试题图像大小一致的表示作答试题图像中各像素点属于作答区域的分类结果的第一特征映射。第一神经网络结构简单，易于训练。由于第一神经网络的输出结果作为中间结果被用于第二神经网络，因此，相对于普通目标检测模型，本实施例中的第一神经网络无需如常规目标检测模型同时检测目标的中心点、长
宽和偏移，而是检测每个像素点属于作答区域的分类结果，再将每个像素点属于作答区域的分类结果用于第二神经网络，使其得到每个像素点属于作答文本的分类结果。
55.示例性的，如图7所示，第一提取子网络701包括：级联的多个残差块，其中，每个残差块输出一个特征图；上采样单元，用于将多个残差块输出的特征图上采样至大小一致后串联，以得到第一特征图。
56.需要知道的，此处的多个残差块为第一提取子网络中的多个残差块。
57.上述多个残差块中的各个残差块可以分别提取作答试题图像的深层特征或浅层特征，以输出对应的第一特征图，由于上采样单元进一步将多个残差块得到的深层特征或浅层特征进行了串联，因此得到的第一特征图具有更易于区分像素点是否属于作答区域的深层特征或浅层特征，使得第一特征图能更好地用于区分作答试题图像中各像素点是否属于作答区域。
58.示例性的，如图7所示，第一提取子网络701包括依次级联的四个残差块和一个上采样单元，每一个残差块的输出是后一残差块的输入，第一个残差块输出的特征图的长宽大小均为作答试题图像的1/4，第二个残差块输出的特征图的长宽大小均作答试题图像的1/8，第三个残差块输出的特征图的长宽大小均为作答试题图像的1/16，第四个残差块输出的特征图的长宽大小均为作答试题图像的1/32，最终得到的4组128通道特征图。以1024*1024的作答试题图像为例，经过第一个残差块后得到256*256*128的特征图，其中，256*256为像素尺寸，128为通道数；经第二个残差块后得到128*128*128的特征图，其中，128*128为像素尺寸，128为通道数；经第三个残差块后得到64*64*128，其中，64*64为像素尺寸，128为通道数，经第三个残差块后得到32*32*128的特征图，其中，32*32为像素尺寸，128为通道数。可以将第一提取子网络的残差块输出的特征图上采样至256*256*128，再将4个256*256*128的特征图串联得到256*256*512的特征图以作为第一特征图。其中，特征图串联时是将相同位置的像素点的通道进行串联。示例性的，将残差块输出的特征图上采样至256*256*128时，可以通过插值的方式实现，例如可以采用双线性插值、双三次插值等插值方式，本实施方式对此不作限定。本实施方式可以参考resnet18网络模型的设计，部分结构和原理可以参考resnet18网络模型。
59.示例性的，第一提取子网络包括位于多个残差块之前的初始卷积层，初始卷积层将输入的作答试题图像转换为符合多个残差块中第一个残差块的输入要求。
60.示例性的，第一还原子网络具体用于对第一特征图进行至少一次还原处理，以得到第一特征映射，其中，每次还原处理包括至少一次卷积操作和至少一次反卷积操作。
61.示例性的，第一还原子网络包括依次串联的二个卷积层和三个反卷积层，用于对第一特征图进行两次卷积操作和三次反卷积操作，以得到与作答试题图像大小一致的特征图。
62.在一个可选的实施方式中，如图7所示，第二神经网络包括：第二提取子网络703，用于对作答试题图像进行特征提取处理，以得到第二特征图，第二特征图包含趋于区分作答试题图像中各像素点是否属于作答文本的特征；特征融合单元704，用于融合第一特征映射和第二特征图，以得到第三特征图；第二还原子网络705，用于根据第三特征图得到与作答试题图像大小一致的第二
道特征映射，其中，第二特征映射用于表示作答试题图像中各像素点属于作答文本的分类结果。
63.应理解，在执行步骤s302时，输入第二神经网络的作答试题图像是第二作答试题图像，由第二提取子网络703对第二作答试题图像进行特征提取处理，得到第二特征图，由特征融合单元704对第二特征图和第一特征映射进行融合得到第三特征图，第二还原子网络705对第三特征图进行还原处理，以得到与作答试题图像大小一致的第二特征映射，第二特征映射用于表示作答试题图像中各像素点属于作答文本的分类结果。示例性的，第二特征映射可以是用以表示作答试题图像的各个像素点属于作答文本的分类得分图。
64.由于作答文本位于作答区域内，因此像素点不属于作答区域的概率越大，则该像素点不属于作答文本的概率越大，因此通过融合第一特征映射和第二特征图得到的第三特征图能将像素点属于作答区域的分类结果与趋于区分作答试题图像中各像素点是否属于作答文本的特征融合，使得第三特征图能更精准地于区分作答试题图像中各像素点是否属于作答文本。因此，在对第三特征图进行还原处理后得到更精确的第二道特征映射。
65.示例性的，第二还原子网络具体用于：对第三特征图进行至少一次还原处理，以得到第一特征映射，其中，每次还原处理包括至少一次卷积操作和至少一次反卷积操作。
66.示例性的，第二还原子网络包括一个卷积层和一个反卷积层，一个卷积层和一个反卷积层可用于执行还原操作，其中，可以利用一个卷积层和一个反卷积层循环执行多次还原操作，以得到与作答试题图像大小一致的特征图，例如，可以利用一个卷积层和一个反卷积层循环执行8次还原操作，以得到与作答试题图像大小一致的特征图。
67.在一个实施方式中，示例性的，如图7所示，第一提取子网络701包括级联的多个残差块，第二提取子网络703包括依次级联的多个残差块和至少一个卷积块；第二提取子网络703的前n个残差块与第一提取子网络701的前n个残差块共用，n为大于等于1且小于m的正整数，m为第一提取子网络701所包含的残差块数量。应当理解的，基于该结构的作答文本检测模型，在训练第一神经网络时，第二特征提取单元的前n个残差块被训练，在训练第二神经网络时，第一提取子网络的前n个残差块也可被训练。由于第一提取子网络与第二提取子网络共用的残差块，在第一提取子网络训练后，该共用的残差块输出的浅层特征可以被用于第二提取子网络，使得第二提取子网络在训练时，效率更高。其中，示例性的，n可以大于等于2且小于等于n
‑
1，如此，可以共用适量的浅层特征，提高第二提取子网络的训练效率和精度。
68.示例性的，参见图7，图7中第一提取子网络701包括级联的四个残差块，第二提取子网络703包括级联的三个残差块以及至少一个卷积块，卷积块用于对第二提取子网络703的最后一个残差块输出的特征图进行卷积处理，其中，第二提取子网络703的前三个残差块与第一提取子网络703的前三个残差块共用。
69.示例性的，第三特征图为第一特征映射和第二特征图逐点相乘的结果。第一特征映射和第二特征图逐点相乘可以是将相同位置的第一特征映射的特征与第二特征图的特征相乘。例如，第一特征映射的第一~四个特征是0101，第二特征图的一~四个特征0110，那么逐点相乘后第三特征图的第一~四个特征是0100。此时，第三特征图的特征涵盖了包含了趋于区分各个像素点属于作答文本的特征，使得基于第三特征图得到的第二特征映射能准确表征各像素点属于作答文本的分类结果。需要知道的，此处的1和0是为了便于说明，不应
理解为对本实施方式的限定。
70.示例性的，第三特征图为第一特征映射和第二特征图逐点相加的结果。第一特征映射和第二特征图逐点相加可以是相同位置的第一特征映射的特征与第二特征图的特征相加。例如，第一特征映射的第一特征~四个特征是0101，第二特征图的第一特征~四个特征0110，那么逐点相加后第三特征图的第一特征~四个特征是0211。此时，第三特征图的特征涵盖了包含了趋于区分各个像素点属于作答文本的特征，使得基于第三特征图得到的第二特征映射能准确表征各像素点属于作答文本的分类结果。需要知道的，此处的1和0是为了便于说明，不应理解为对本实施方式的限定。
71.在一个可选实施方式中，当基于第二作答试题图像、第一输出结果和第二标签训练第二神经网络时，固定第一神经网络的目标模型参数，其中，第一神经网络的目标模型参数为第一神经网络与第二神经网络不共用的模型参数。其中，固定第一神经网络的目标训练参数表示训练第二神经网络时，第一神经网络的目标训练参数不进行更新。若第一神经网络与第二神经网络网络共用的是三个残差块，那么在训练第二神经网络时，第一神经网络除该三个残差块之外的模型参数固定，此时，第一神经网络除该三个残差块之外的模型参数不发生变化，第一神经网络除的该三个残差块发生变化，第一神经网络的高层特征不易发生变化，使得第一神经网络的输出结果依旧能表示作答试题图像中各像素点属于作答文本的分类结果，如此，可以在第一神经网络的输出结果作为第二神经网的输入后，第二神经网的输出结果更精准。
72.参见图8，本公开示例性实施例还提供了一种文本去除方法，包括：s801，将待处理图像输入作答文本检测模型，以得到待处理图像中各像素点属于作答文本的分类结果，其中，待处理图像为待去除作答文本的作答试题图像，作答文本检测模型根据本公开实施方式中任一模型训练方法训练得到；s802，根据待处理图像中各像素点属于作答文本的分类结果，去除待处理图像中的作答文本。
73.上述作答文本检测模型包括第一神经网络和第二神经网络，其中，作答文本检测模型包括第一神经网络和第二神经网络，其中，第一神经网络用于确定作答试题图像中各像素点属于作答区域的分类结果，第二神经网络用于基于作答试题图像和第一神经网络输出的分类结果，确定作答试题图像中各像素点属于作答文本的分类结果。当待处理图像输入作答文本检测模型时，作答文本检测模型的第二神经网络可以确定待处理图像中各像素点属于作答文本的分类结果。
74.在一个实施方式中，根据待处理图像中各像素点属于作答文本的分类结果，去除待处理图像中的作答文本，包括：根据待处理图像中各像素点属于作答文本的分类结果，确定待处理图像中属于作答文本的像素点和属于背景的像素点；将属于作答文本的像素点的像素值替换为邻近的属于背景的像素点的像素值。
75.本实施方式中，可以将不属于作答文本的像素点认为是背景的像素点。可以将不属于作答文本和试题文本的像素点认为是背景的像素点，也可采用其他方式确定哪些像素点是背景的像素点。
76.示例性的，可以根据像素点是否属于作答文本，而将待处理图像转化为二值图，根
据遍历二值图的每一个像素点，根据二值图中的属于作答文本的像素点的位置和相应近邻的属于背景的像素点的位置，将待处理图像中属于作答文本的像素点的像素值替换为近邻的属于背景的像素点的像素值。
77.本实施方式中，可在两个像素点的距离小于距离设定值时，认为两个像素点邻近，距离设定值可以需要设置，例如3个像素距离等。
78.在一个实施方式中，第一作答试题图像和第二作答试题图像中的试题文本均为打印体文本，第一作答试题图像和第二作答试题图像中的作答文本均为手写体文本。
79.在一个实施方式中，第一神经网络包括：第一提取子网络，用于对作答试题图像进行特征提取，得到第一特征图，其中，第一特征图包含趋于区分作答试题图像中各像素点是否属于作答区域的特征；第一还原子网络，用于根据第一特征图，得到与作答试题图像大小一致的第一特征映射，其中，第一特征映射用于表示作答试题图像中各像素点属于作答区域的分类结果。
80.可以知道的，当待处理图像输入作答文本检测模型时，待处理图像即上述作答试题图像。
81.在一个实施方式中，第一提取子网络包括：级联的多个残差块，其中，每个残差块输出一个特征图；上采样单元，用于将多个残差块输出的特征图上采样至大小一致后串联，以得到第一特征图。
82.在一个实施方式中，第二神经网络包括：第二提取子网络，用于对作答试题图像进行特征提取处理，以得到第二特征图，第二特征图包含趋于区分作答试题图像中各像素点是否属于作答文本的特征；特征融合单元，用于融合第一特征映射和第二特征图，以得到第三特征图；第二还原子网络，用于根据第三特征图得到与作答试题图像大小一致的第二道特征映射，其中，第二特征映射用于表示作答试题图像中各像素点属于作答文本的分类结果。
83.可以知道的，当待处理图像输入作答文本检测模型时，待处理图像即上述作答试题图像。
84.在一个实施方式中，第一还原子网络，具体用于：对第一特征图进行至少一次还原处理，以得到第一特征映射，其中，每次还原处理包括至少一次卷积操作和至少一次反卷积操作；在一个实施方式中，第二还原子网络，具体用于：对第三特征图进行至少一次还原处理，以得到第一特征映射，其中，每次还原处理包括至少一次卷积操作和至少一次反卷积操作在一个实施方式中，第一提取子网络包括级联的多个残差块，第二提取子网络包括依次级联的多个残差块和至少一个卷积块；其中，第二提取子网络的前n个残差块与第一提取子网络的前n个残差块共用，n为大于等于1且小于m的正整数，m为第一提取子网络所包含的残差块数量。
85.在一个实施方式中，第三特征图为第一特征映射和第二特征图逐点相乘的结果。
86.在一个实施方式中，第三特征图为第一特征映射和第二特征图逐点相加的结果。
87.在一个实施方式中，当基于第二作答试题图像、第一输出结果和第二标签训练第
二神经网络时，固定第一神经网络的目标模型参数，其中，第一神经网络的目标模型参数为第一神经网络中与第二神经网络不共用的模型参数。
88.如图9所示，本公开示例性实施例还提供了一种训练装置，用于用于训练作答文本检测模型，作答文本检测模型包括第一神经网络和第二神经网络，其中，第一神经网络用于确定作答试题图像中各像素点属于作答区域的分类结果，第二神经网络用于基于作答试题图像和第一神经网络输出的分类结果确定作答试题图像中各像素点属于作答文本的分类结果；训练装置包括：第一训练模块901，基于第一作答试题图像和第一标签，训练第一神经网络，其中，第一作答试题图像为用于训练的作答试题图像，第一标签用于指示第一作答试题图像中各像素点是否属于作答区域；第二训练模块902，基于第二作答试题图像、第一分类结果和第二标签，训练第二神经网络，其中，第二作答试题图像为用于训练的作答试题图像，第一分类结果为第二作答试题图像中各像素点属于作答区域的分类结果，第二标签用于指示第二作答试题图像中各像素点是否属于作答文本。
89.本公开实施例中的文本去除装置是本公开实施例中的模型训练方法对应的装置，相关的可选方案、原理、效果等均可以参考本公开实施例中的模型训练方法。
90.如图10所示，本公开示例性实施例还提供了一种文本去除装置，包括：像素分类模型1001，用于将待处理图像输入作答文本检测模型，以得到待处理图像中各像素点属于作答文本的分类结果，其中，待处理图像为待去除作答文本的作答试题图像，作答文本检测模型根据本公开实施方式中任一模型训练方法训练得到；文本去除模块1002，用于根据待处理图像中各像素点属于作答文本的分类结果，去除待处理图像中的作答文本。
91.本公开实施例中的文本去除装置是本公开实施例中的文本去除方法对应的装置，相关的可选方案、原理、效果等均可以参考本公开实施例中的文本去除方法。
92.本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序，计算机程序在被至少一个处理器执行时用于使电子设备执行根据本公开实施例的方法。
93.本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。
94.本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。
95.参考图11，现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述
的和/或者要求的本公开的实现。
96.如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器（rom）1102中的计算机程序或者从存储单元1108加载到随机访问存储器（ram）1103中的计算机程序，来执行各种适当的动作和处理。在ram 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、rom 1102以及ram 1103通过总线1104彼此相连。输入/输出（i/o）接口1105也连接至总线1104。
97.电子设备1100中的多个部件连接至i/o接口1105，包括：输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备，输入单元1106可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
98.计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元（cpu）、图形处理单元（gpu）、各种专用的人工智能（ai）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（dsp）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如，在一些实施例中，文本去除方法和模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由rom 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本去除方法或模型训练方法。
99.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何串联来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
100.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适串联。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦除可编程只读存储器（eprom或快闪存储器）、光纤、便捷式紧凑盘只读存储器（cd
‑
rom）、光学储存设备、磁储存设备、或上述内容的任何合适串联。
101.如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光
盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
102.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，crt（阴极射线管）或者lcd（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。
103.可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何串联的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（lan）、广域网（wan）和互联网。
104.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端
‑
服务器关系的计算机程序来产生客户端和服务器的关系。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于表单的水印生成方法、装置、电子设备和计算机介质与流程

一种模型训练方法、文本去除方法及相关装置与流程

相关文献

最热文献