一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

作业批改方法、装置、存储介质及电子设备与流程

2022-06-05 18:01:30 来源:中国专利 TAG:


1.本公开涉及人工智能技术领域,具体地,涉及一种作业批改方法、装置、存储介质及电子设备。


背景技术:

2.长期以来,学生作业都是老师手动进行批改,手动批改存在老师工作量大、批改结果不稳定且效率低的问题。近些年来,随着人工智能的迅速发展,逐渐出现了基于人工智能技术设计的作业自动批改的方法,以改善老师手动批改存在的问题。
3.然而,相关技术中的基于人工智能的作业批改的方法存在批改错误率高的问题,使得基于人工智能的作业批改方法还不足以广泛普及。


技术实现要素:

4.本公开的目的是提供一种作业批改方法、装置、存储介质及电子设备,解决了作业批改时存在的批改错误率高的问题。
5.为了实现上述目的,第一方面,本公开提供一种作业批改方法,所述方法包括:
6.获取待批改作业对应的单题图像;
7.对所述单题图像进行文本行识别,得到所述单题图像包括的各个文本行为作答文本行的第一概率;
8.基于所述各个文本行在所述单题图像中的区域分布情况以及预设区域权重,对所述第一概率进行修正,得到所述各个文本行为作答文本行的第二概率,所述预设区域权重表征作答文本行在各个区域分布的可能性大小;
9.对所述第二概率满足概率阈值的目标文本行进行文字识别,得到所述目标文本行对应的答题字符串;
10.基于所述单题图像对应的答题字符串与所述单题图像对应的参考答案字符串之间的差异,生成所述单题图像的批改信息。
11.可选地,所述对所述单题图像进行文本行识别,得到所述单题图像包括的各个文本行为作答文本行的第一概率,包括:
12.将所述单题图像输入预先训练好的文本行识别模型,得到所述文本行识别模型输出的第一识别结果,所述第一识别结果包括所述单题图像包括的各个文本行以及所述各个文本行为作答文本行的第一概率。
13.可选地,所述方法还包括:
14.获取由多个样本单题图像构成的第一样本数据集,每个样本单题图像包括作答区域分布标签;
15.基于所述第一样本数据集中各个样本单题图像包括的作答区域分布标签,确定所述预设区域权重。
16.可选地,所述对所述第二概率满足概率阈值的目标文本行进行文字识别,得到所
述目标文本行对应的答题字符串,包括:
17.将所述目标文本行输入预先训练好的文字识别模型,得到所述文字识别模型输出的第二识别结果,所述第二识别结果包括所述目标文本行中的各个文本分别对应的各个预测字符以及所述各个预测字符对应的概率;
18.基于所述各个预测字符对应的概率,得到所述目标文本行对应的答题字符串。
19.可选地,所述基于所述各个预测字符对应的概率,得到所述目标文本行对应的答题字符串,包括:
20.基于字频权重关系对同一个文本对应的所述各个预测字符对应的概率进行修正,得到该文本对应的所述各个预测字符对应的目标概率,同一道题目包括的各个文本行中的各个文本共用一个字频权重关系,所述字频权重关系表征各个字符对应的加权权重;
21.获取目标概率最大的预测字符,作为该文本对应的目标字符;
22.基于所述目标文本行中的各个文本分别对应的目标字符,得到所述目标文本行对应的答题字符串。
23.可选地,所述方法还包括:
24.获取由同一个题目的多个样本单题图像构成的第二样本数据集;
25.基于所述第二样本数据集中各个字符出现的频率,确定该题目对应的字频权重关系。
26.可选地,所述预先训练好的文字识别模型通过以下步骤训练得到:
27.获取多个样本文本行,每个样本文本行对应一个真实字符串,所述真实字符串中的各个字符对应有损失权重,一个字符对应的损失权重表征所该字符被预测成其它字符的可能性大小;
28.将所述样本文本行输入待训练文字识别模型,得到所述待训练文字识别模型输出的预测字符串;
29.基于所述预测字符串以及所述真实字符串之间的差异,得到各个字符对应的第一损失;
30.基于所述损失权重,对对应字符的第一损失进行加权求和,得到总损失;
31.基于所述总损失,对所述待训练文字识别模型进行反向传播,以完成对所述待训练文字识别模型的一次训练,所述待训练文字识别模型在经过多次训练后,得到所述预先训练好的文字识别模型。
32.可选地,所述获取待批改作业对应的单题图像,包括:
33.对所述待批改作业的图像进行特征点识别,得到第一特征信息;
34.基于各个候选标准作业图像的第二特征信息与所述第一特征信息之间的匹配度,确定目标标准作业图像;
35.基于所述第一特征信息以及所述目标标准作业图像对应的第二特征信息,对所述待批改作业的图像进行图像矫正,得到矫正后的图像;
36.对所述矫正后的图像进行题目分割,得到所述待批改作业对应的单题图像。
37.第二方面,本公开还提供一种作业批改装置,所述装置包括:
38.获取模块,用于获取待批改作业对应的单题图像;
39.文本行识别模块,用于对所述单题图像进行文本行识别,得到所述单题图像包括
的各个文本行为作答文本行的第一概率;
40.修正模块,用于基于所述各个文本行在所述单题图像中的区域分布情况以及预设区域权重,对所述第一概率进行修正,得到所述各个文本行为作答文本行的第二概率,所述预设区域权重表征作答文本行在各个区域分布的可能性大小;
41.文字识别模块,用于对所述第二概率满足概率阈值的目标文本行进行文字识别,得到所述目标文本行对应的答题字符串;
42.批改模块,用于基于所述单题图像对应的答题字符串与所述单题图像对应的参考答案字符串之间的差异,生成所述单题图像的批改信息。
43.第三方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中方法的步骤。
44.第四方面,本公开还提供了一种电子设备,包括:
45.存储器,其上存储有计算机程序;
46.处理器,用于执行存储器中的计算机程序,以实现第一方面中方法的步骤。
47.通过上述技术方案,先获取待批改作业对应的单题图像,然后对所述单题图像进行文本行识别,得到所述单题图像包括的各个文本行为作答文本行的第一概率,再基于所述各个文本行在所述单题图像中的区域分布情况以及预设区域权重,对所述第一概率进行修正,得到所述各个文本行为作答文本行的第二概率,再对所述第二概率满足概率阈值的目标文本行进行文字识别,得到所述目标文本行对应的答题字符串,最后基于所述单题图像对应的答题字符串与所述单题图像对应的参考答案字符串之间的差异,便可以生成所述单题图像的批改信息。由于预设区域权重表征作答文本行在各个区域分布的可能性大小,因此,在得到单题图像包括的各个文本行为作答文本行的第一概率之后,基于各个文本行在所述单题图像中的区域分布情况以及预设区域权重,对所述第一概率进行修正,可以考虑到作答文本行的真实分布情况,使得文本行的识别结果不再完全依赖文本行识别模型输出的结果,减弱文本行识别模型识别能力不足带来的影响,提高了作答文本行识别准确率,进而提高后续作业批改的准确性。
48.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
49.附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
50.图1是本公开一实施例提供的一种作业批改方法的流程示意图。
51.图2是本公开一实施例提供的一种单题图像识别结果示意图。
52.图3是本公开一实施例提供的一种批改信息渲染显示示意图。
53.图4是本公开一实施例提供的一种文字识别模型输出的部分结果示意图。
54.图5是本公开一实施例提供的另一种作业批改方法的流程示意图。
55.图6是本公开一实施例提供的一种作业批改装置的结构示意图。
56.图7是本公开一实施例提供的另一种作业批改装置的结构示意图。
具体实施方式
57.以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
58.相关技术中,在进行作业自动批改时,为了能够起到较好的自动批改效果,参考答案通常是比较标准化的,例如,在参考答案中,每个解题步骤之间的顺序,解题步骤中每个参考答案字符串的顺序通常是固定的,从而,通过将识别出的答题字符串与每个步骤的参考答案字符串进行一一比对,便可以判断作业的正误,从而生成批改信息。然而,由于相关技术中的文本识别模型的识别能力的不足,可能将题干中的内容一同识别成了解题步骤中的答题字符串,从而导致与实际的答题字符串存在偏差,进而造成了批改错误率高的问题,也使得基于人工智能的作业批改方法还不足以广泛普及。
59.为了解决上述问题,发明人提出了本公开提供的作业批改方法、装置、存储介质及电子设备,先获取待批改作业对应的单题图像,然后对单题图像进行文本行识别,得到单题图像包括的各个文本行为作答文本行的第一概率,再基于各个文本行在单题图像中的区域分布情况以及预设区域权重,对第一概率进行修正,得到各个文本行为作答文本行的第二概率,再对第二概率满足概率阈值的目标文本行进行文字识别,得到目标文本行对应的答题字符串,最后基于单题图像对应的答题字符串与单题图像对应的参考答案字符串之间的差异,便可以生成单题图像的批改信息。由于预设区域权重表征作答文本行在各个区域分布的可能性大小,因此,在得到单题图像包括的各个文本行为作答文本行的第一概率之后,基于各个文本行在单题图像中的区域分布情况以及预设区域权重,对第一概率进行修正,可以考虑到作答文本行的真实分布情况,使得文本行的识别结果不再完全依赖文本行识别模型输出的结果,减弱文本行识别模型识别能力不足带来的影响,提高了作答文本行识别准确率,进而提高后续作业批改的准确性。
60.请参阅图1,图1是根据本公开一示例性实施例示出的一种作业批改方法的流程图,该方法应用于电子设备,电子设备例如移动终端或服务器,移动终端包括:手机、笔记本、平板电脑、台式计算机、智能电视等。服务器包括:本地服务器及云服务器。该作业批改方法包括步骤s110至步骤s150。
61.具体的:
62.s110,获取待批改作业对应的单题图像。
63.其中,单题图像可以理解为待批改作业中的每一道题分别对应的图像。
64.可以理解的是,待批改作业可以有不同的形式。可选地,待批改作业可以只有一道题,从而待批改作业对应的单题图像只有一个。可选地,待批改作业可以有多道题,从而待批改作业对应的单题图像可以有多个。
65.需要说明的是,本公开实施例中,针对任一个单题图像的处理过程是类似的,因此,为了便于理解,后续实施例均以一个单题图像进行详细举例说明。
66.s120,对单题图像进行文本行识别,得到单题图像包括的各个文本行为作答文本行的第一概率。
67.本公开实施例中,单题图像中的文本行可以包括题目本身对应的文本行以及学生作答内容对应的文本行,其中,作答文本行可以理解为学生作答内容对应的文本行。
68.s130,基于各个文本行在单题图像中的区域分布情况以及预设区域权重,对第一
概率进行修正,得到各个文本行为作答文本行的第二概率,预设区域权重表征作答文本行在各个区域分布的可能性大小。
69.其中,区域分布情况可以理解为题目区域分布情况以及作答区域分布情况。
70.本公开实施例中,考虑到在实际作答中,学生在正常情况下通常不会在题目区域进行作答,因此,作答文本行在单题图像中出现的区域是存在一定的规律的,例如,作答文本行在题目区域出现的概率较低,而在作答区域出现的概率较高,因此,可以预先设置作答区域权重,对处于题目区域的文本行以及处于作答区域的文本行设置不同的权重。从而,在得到各个文本行为作答文本行的第一概率之后,可以进一步根据各个文本行所处的区域分布以及预设区域权重,对各个文本行对应的第一概率进行修正,得到各个文本行为作答文本行的第二概率。
71.s140,对第二概率满足概率阈值的目标文本行进行文字识别,得到目标文本行对应的答题字符串。
72.第二概率阈值是设定的将某个文本行认为是作答文本行的标准,若某个文本行对应的第二概率阈值大于或者等于概率阈值,则可以将该文本行确定为作答文本行,由于作答文本行才对应的是作答内容,因此,可以进一步将作答文本行作为目标文本行进行后续的文字识别,从而得到对应的答题字符串。
73.需要说明的是,本公开实施例中,字符串中的字符可以是汉字、拼音、其他国家的字母、阿拉伯数字、各类运算符号等。
74.示例性地,请参阅图2,假设在对单题图像20进行文本识别之后,得到了文本行1,对应的第一概率为0.54,文本行2,对应的第一概率为0.90,以及文本行3,对应的第一概率为0.49。并且假设题目区域21的对应的区域权重为0.3,作答区域22对应的区域权重为1.2,以及设定概率阈值为0.5,即大于或者等于0.5的文本行都确定为目标文本行。
75.那么,在修正前,由于文本行1实际为题目,依然被确定为目标文本行进行了后续的文字识别,则文本行1误检测,文本行3实际为作答文本行,却未被确定为目标文本行进行后续的文字识别,则文本行3漏检测。
76.在修正后,文本行1对应的第二概率为0.54*0.3=0.162,文本行2对应的第二概率为0.9*1.2=1.08,以及文本行3对应的第二概率为0.49*1.2=0.588,仍然设定概率阈值为0.5的话,则文本行2以及文本行3均会被准确确定为目标文本行进行后续的文字识别,文本行1则不会再被确定为目标文本行进行后续的文字识别,因此,降低了误检测以及漏检测的可能性,提高了识别得到目标文本的准确率。
77.s150,基于单题图像对应的答题字符串与单题图像对应的参考答案字符串之间的差异,生成单题图像的批改信息。
78.本公开实施例中,在得到答题字符串之后,便可以将答题字符串与同一个道题对应的参考答案字符串进行比较,从而根据比较结果自动生成单题图像的批改信息。
79.此外,考虑到数学题解题过程的多样性,在一些实施方式中,在比较答题字符串与参考答案字符串之间的差异的时候,可以只比较等号字符“=”后边的数字字符串是否相同,若相同,则生成表征解题正确的批改信息,例如打钩,即在单题图像中打钩,若不相同,则生成表征解题错误的批改信息,例如打叉,即在单题图像中打叉。
80.此外,考虑到语文等题型的存在同义词的特点,在一些实施方式中,在比较答题字
符串与参考答案字符串之间的差异的时候,可以设置设计同语义规则,例如,答题字符串“不能做完这个项目”与参考答案字符串“不能完成这个项目”表达的意思相同,可以生成表征解题正确的批改信息,例如打钩,即在单题图像中打钩。
81.此外,为了使得批改信息更加的细致,在一些实施方式中,参考答案字符串还对应有错因分析以及知识关注点,此时,在比较答题字符串与参考答案字符串之间的差异的时候,若某条字符串与对应的参考答案字符串之间存在差异,则可以对应输出相应的错因分析以及知识关注点,以提示作业的学生。
82.示例性地,请参阅图3,答题字符串“32 29=60(人)”计算错误,此时,可以对应在错误的答题文本行附近输出“这里计算错误了,两数求和还要多加练习哦!”的批改信息。
83.结合前述内容可知,电子设备可以是移动终端或服务器。
84.在一些实施方式中,当电子设备是移动终端的时候,学生用户可以使用电子设备对自己完成的作业进行拍照,从而使得移动终端可以获取到待批改作业,移动终端在进行处理并生成单题图像的批改信息之后,可以直接在移动终端上进行渲染显示。
85.在另一些实施方式中,当电子设备是服务器的时候,学生用户可以先使用移动终端对自己完成的作业进行拍照,从而使得移动终端可以获取到待批改作业,然后再通过移动终端将待批改作业上传到服务器,从而服务器便可以获取到待批改作业,服务器在进行处理并生成单题图像的批改信息之后,可以将批改信息对应的数据发送到移动终端,再由移动终端进行渲染显示。
86.采用上述技术方案,先获取待批改作业对应的单题图像,然后对单题图像进行文本行识别,得到单题图像包括的各个文本行为作答文本行的第一概率,再基于各个文本行在单题图像中的区域分布情况以及预设区域权重,对第一概率进行修正,得到各个文本行为作答文本行的第二概率,再对第二概率满足概率阈值的目标文本行进行文字识别,得到目标文本行对应的答题字符串,最后基于单题图像对应的答题字符串与单题图像对应的参考答案字符串之间的差异,便可以生成单题图像的批改信息。由于预设区域权重表征作答文本行在各个区域分布的可能性大小,因此,在得到单题图像包括的各个文本行为作答文本行的第一概率之后,基于各个文本行在单题图像中的区域分布情况以及预设区域权重,对第一概率进行修正,可以考虑到作答文本行的真实分布情况,使得文本行的识别结果不再完全依赖文本行识别模型输出的结果,减弱文本行识别模型识别能力不足带来的影响,提高了作答文本行识别准确率,进而提高后续作业批改的准确性。
87.在一些实施方式中,可以通过预先训练的神经网络模型对单题图像进行文本行识别,这种情况下,对单题图像进行文本行识别,得到单题图像包括的各个文本行为作答文本行的第一概率可以包括以下步骤:
88.将单题图像输入预先训练好的文本行识别模型,得到文本行识别模型输出的第一识别结果,第一识别结果包括单题图像包括的各个文本行以及各个文本行为作答文本行的第一概率。
89.本公开实施例中,预先训练好的文本行识别模型可以是db-net、ctpn、east、seglink、textbox、textbox 或者psenet等网络模型。
90.示例性地,继续参考图2,在将图2所示的单题图像20输入预先训练好的文本行识别模型之后,可以得到文本行1,对应的第一概率为0.54,文本行2,对应的第一概率为0.90,
以及文本行3,对应的第一概率为0.49。需要说明的是,图2仅示出了部分文本行以及对应的概率。
91.在一些实施方式中,本公开实施例的方法还包括确定预设区域权重的步骤,也即本公开实施例的方法还包括以下步骤:
92.获取由多个样本单题图像构成的第一样本数据集,每个样本单题图像包括作答区域分布标签;基于第一样本数据集中各个样本单题图像包括的作答区域分布标签,确定预设区域权重。
93.其中,作答区域分布标签可以理解为单题图像中标注出的作答区域。
94.本公开实施例中,可以获取学生历史作答的作业,然后对每个作业包括的每个单题图像分别标注作答区域分布标签,从而便可以得到第一样本数据集。而当第一样本数据集的样本单题图像数量足够大的时候,可以进行手写作答区域的统计,生成类似热力图的统计结果,该热力图可以表示作答文本行出现概率较高的区域,即得到预设区域权重。从而在后续的应用阶段,便可以使用预设区域权重对第一概率进行修正,提升高概率区域出现的作答文本行的置信度。
95.根据标注有作答区域分布标签的单题图像得到预设区域权重,可以较好的反映出学生在作业时的作答区域,进而反映作答文本行的真实分布情况,以便于提高后续对于目标文本行的确定的准确性。
96.在一些实施方式中,可以通过预先训练的神经网络模型对目标文本行进行文字识别,这种情况下,对第二概率满足概率阈值的目标文本行进行文字识别,得到目标文本行对应的答题字符串可以包括以下步骤:
97.将目标文本行输入预先训练好的文字识别模型,得到文字识别模型输出的第二识别结果,第二识别结果包括目标文本行中的各个文本分别对应的各个预测字符以及各个预测字符对应的概率;基于各个预测字符对应的概率,得到目标文本行对应的答题字符串。
98.本公开实施例中,预先训练好的文字行识别模型可以是crnn或seq2seq attention等方案,也可以是基于深度学习的光学字符识别(optical character recognition,ocr)模型或者基于传统方案ocr的模型。
99.本公开实施例中,在将目标文本行输入预先训练好的文字识别模型,便可以得到目标文本行中的各个文本分别对应的各个预测字符以及各个预测字符对应的概率。从而,在一种实施方式中,便可以进一步将各个文本对应的概率最大的预测字符确定为该文本对应的预测字符,进而最终得到目标文本行中的各个文本对应的答题字符,并将各个答题字符按顺序进行组合得到答题字符串。
100.在一些实施方式中,预先训练好的文字识别模型通过以下步骤训练得到:
101.获取多个样本文本行,每个样本文本行对应一个真实字符串,真实字符串中的各个字符对应有损失权重,一个字符对应的损失权重表征所该字符被预测成其它字符的可能性大小;将样本文本行输入待训练文字识别模型,得到待训练文字识别模型输出的预测字符串;基于预测字符串以及真实字符串之间的差异,得到各个字符对应的第一损失;基于损失权重,对对应字符的第一损失进行加权求和,得到总损失;基于总损失,对待训练文字识别模型进行反向传播,以完成对待训练文字识别模型的一次训练,待训练文字识别模型在经过多次训练后,得到预先训练好的文字识别模型。
102.本公开实施例中,样本文本行中的每个字符对应有损失权重,各个字符对应的损失权重可以根据各个字符被预测成其它字符的可能性大小确定。
103.示例性地,可以在有限字符集内,统计每个字符更容易被识别成哪几个相似字符(比如1更可能被识别成7和2,从而当1被预测为7或者2的时候,对字符1设置相对较大的损失权重,例如1.2,但是几乎不会被识别成6和9,从而,当1被预测为6或者9的时候,对字符1设置相对较小的损失权重,例如1.05),从而便可以根据被预测为其他字符的可能性大小,设置损失权重。
104.从而,在训练阶段,当已知真实标注情况下,根据模型预测结果,确定对应的损失权重,从而,在基于预测字符串以及真实字符串之间的差异,得到各个字符对应的第一损失值之后,再在第一损失值的基础上增加损失权重,进行加权求和处理,得到总损失,然后再基于总损失,对待训练文字识别模型进行反向传播,以完成对待训练文字识别模型的一次训练,从而在待训练文字识别模型在经过多次训练后,便可以得到预先训练好的文字识别模型。
105.示例性地,假设一个样本文本行对应的真实字符串为“4 8=12”,将其输入待训练文字识别模型之后,输出的预测字符串为“4 3=12”,由于字符8被预测为3,字符8除了对应有第一损失值之外,查表得知,8误识为3对应有损失权重,例如,可以是1.2,此时,该字符串的总损失可以为每个字符的损失的加权求和,即0 0 0.3*1.2 0 0 0=0.36,从而基于总损失0.36,对待训练文字识别模型进行反向传播,以完成对待训练文字识别模型的一次训练。
106.通过对各个字符增加了对应的损失权重,相当于建立了语义纠错处理的流程,使得模型能够根据预测成其它字符的可能性,对模型参数进行调整,进而提高了模型识别准确性。
107.此外,考虑到预先训练好的文字识别模型的预测性能也可能存在不足,使得预测结果也不一定是完全准确的,因此,为了提高字符预测的准确性,在一些实施方式中,基于各个预测字符对应的概率,得到目标文本行对应的答题字符串,可以包括以下步骤:
108.基于字频权重关系对同一个文本对应的各个预测字符对应的概率进行修正,得到该文本对应的各个预测字符对应的目标概率,同一道题目包括的各个文本行中的各个文本共用一个字频权重关系,字频权重关系表征各个字符对应的加权权重;获取目标概率最大的预测字符,作为该文本对应的目标字符;基于目标文本行中的各个文本分别对应的目标字符,得到目标文本行对应的答题字符串。
109.其中,字频权重关系可以表征各个作答字符在某个单题中出现的可能性大小,本公开实施例中,可以针对每个单题图像,建立对应的字频权重关系,然后基于字频权重关系对该单题图像下的各个预测字符对应的概率进行修正,得到该文本对应的各个预测字符对应的目标概率。
110.示例性地,假设目标文本行为“3 6=9(个)”,将该目标文本行输入预先训练好的文字识别模型,可以得到文字识别模型输出的第二识别结果,该第二识别结果可以以one-hot形式输出,参考图4,图4示出了第6个文本对应的one-hot输出结果,其中,被预测为字符“个”的原预测概率为0.43,被预测为字符“不”的原预测概率为0.46。如果根据文字识别模型输出的结果确定第6个文本的话,取最大概率0.46对应的字符,即被错误识别为“不”,而使用字频权重关系对各个字符进行加权,假设字符“个”对应的字频权重关系为0.85,字符“不”对应的字频权重关系为0.64,则被预测为字符“个”的概率为0.43*0.85=0.36,被预测为字符“不”的概率为0.46*0.64=0.29,从而第6个文本被正确识别为“个”。
111.在一些实施方式中,字频权重关系可以根据第二样本数据集得到,也就是说,本公开实施例的方法还包括以下步骤:
112.获取由同一个题目的多个样本单题图像构成的第二样本数据集;基于第二样本数据集中各个字符出现的频率,确定该题目对应的字频权重关系。
113.本公开实施例中,针对每个题目,可以统计历史上的多个学生的作答结果,即获得由多个样本单题图像构成的第二样本数据集,通过从第二样本数据集合中统计学生在作答时,写入的各个字符出现的频率,便能够得到每个题目对应的字频权重关系。
114.需要说明的是,一个题目对应一个第二样本数据集合,从而,同一道题目包括的各个文本行中的各个文本共用一个字频权重关系。
115.通过统计第二样本数据集中各个字符出现的频率来确定字频权重关系,可以考虑到学生的真实作答习惯,进而反映字符的真实写入情况,以便于提高后续对于目标字符的确定的准确性。
116.此外,在一些实施方式中,获取待批改作业对应的单题图像,可以包括以下步骤:
117.对待批改作业的图像进行特征点识别,得到第一特征信息;基于各个候选标准作业图像的第二特征信息与第一特征信息之间的匹配度,确定目标标准作业图像;基于第一特征信息以及目标标准作业图像对应的第二特征信息,对待批改作业的图像进行图像矫正,得到矫正后的图像;对矫正后的图像进行题目分割,得到待批改作业对应的单题图像。
118.本公开实施例中,可以对待批改作业的图像进行特征点识别,得到第一特征信息,此外,还可以获取各个候选标准作业图像的第二特征信息,然后将第一特征信息与各个第二特征信息进行匹配,选择匹配度最高的标准作业图像,确定为目标标准作业图像,接着,再对第一特征信息以及第二特征信息使用ransac算法估计单应性矩阵,使用此矩阵将待批改作业的图像变换到标准作业图像坐标系下,根据标准作业图像边界位置,去掉变换后待批改作业的图像背景,得到矫正后的图像。
119.例如,当待批改作业是放在沙发或者桌子上拍照上传的,此时便可以通过图像矫正的方法可以去掉沙发或者桌子等背景,保留下作业部分。
120.在得到矫正后的图像之后,可以对矫正后的图像进行题目分割,得到待批改作业对应的单题图像。
121.在一些实施方式中,可以利用预先训练好的题号检测模型对矫正后的图像中的题号进行检测,得到各个题号的位置,然后根据题号的位置,以题号上方预设数量个像素(例如可以是3个像素)位置为分割线对矫正后的图像进行题目分割,从而得到待批改作业对应的单题图像。
122.在一些实施方式中,特征点可以是surf特征点。
123.在一些实施方式中,预先训练好的题号检测模型可以是yolo、ssd、mask-rcnn、cascade-rcnn、retinanet等模型。
124.下面结合图5,以一个完整的流程来对本公开实施例的作业批改方法进行介绍。
125.首先,学生使用手机对自己完成的试卷进行拍照,使得电子设备获取到待批改作业的图像,从而完成图像输入的过程。
126.接着,对输入的待批改作业的图像进行surf特征点计算,得到第一surf特征信息,同时,获取各个候选标准作业图像的第二surf特征信息接着,将第一surf特征信息与各个第二surf特征信息进行匹配,得到目标标准作业图像。接着,再利用目标标准作业图像的第二surf特征信息以及第一surf特征信息,对待批改作业的图像进行图像矫正,得到去除背景的图像。
127.接着,对去除背景的图像进行题号检测以及题目分割,得到各个单题图像。
128.接着,对单题图像依次进行文本行检测、概率修正、文字识别以及字频权重加权处理,得到答题字符串。
129.接着,将单题字符串与对应单题图像对应的参考答案字符串进行比对,生成单题图像的批改信息,从而完成对作业的批改。最后,便可以在电子设备上渲染显示。
130.需要说明的是,上述流程描述的较为简单,相关流程的详细描述可以参考前述实施例,此处不再赘述。
131.请参阅图6,本公开一示例性实施例还提供一种作业批改装置600,应用于电子设备,该装置600包括:
132.获取模块610,用于获取待批改作业对应的单题图像;
133.文本行识别模块620,用于对所述单题图像进行文本行识别,得到所述单题图像包括的各个文本行为作答文本行的第一概率;
134.修正模块630,用于基于所述各个文本行在所述单题图像中的区域分布情况以及预设区域权重,对所述第一概率进行修正,得到所述各个文本行为作答文本行的第二概率,所述预设区域权重表征作答文本行在各个区域分布的可能性大小;
135.文字识别模块640,用于对所述第二概率满足概率阈值的目标文本行进行文字识别,得到所述目标文本行对应的答题字符串;
136.批改模块650,用于基于所述单题图像对应的答题字符串与所述单题图像对应的参考答案字符串之间的差异,生成所述单题图像的批改信息
137.在一些实施方式中,文本行识别模块620还用于将所述单题图像输入预先训练好的文本行识别模型,得到所述文本行识别模型输出的第一识别结果,所述第一识别结果包括所述单题图像包括的各个文本行以及所述各个文本行为作答文本行的第一概率。
138.在一些实施方式中,装置600还包括:
139.预设区域权重确定模块,用于获取由多个样本单题图像构成的第一样本数据集,每个样本单题图像包括作答区域分布标签;基于所述第一样本数据集中各个样本单题图像包括的作答区域分布标签,确定所述预设区域权重。
140.在一些实施方式中,文字识别模块640,包括:
141.模型识别子模块,用于将所述目标文本行输入预先训练好的文字识别模型,得到所述文字识别模型输出的第二识别结果,所述第二识别结果包括所述目标文本行中的各个文本分别对应的各个预测字符以及所述各个预测字符对应的概率。
142.答题字符串确定子模块,用于基于所述各个预测字符对应的概率,得到所述目标文本行对应的答题字符串。
143.在一些实施方式中,答题字符串确定子模块,还用于基于字频权重关系对同一个文本对应的所述各个预测字符对应的概率进行修正,得到该文本对应的所述各个预测字符
对应的目标概率,同一道题目包括的各个文本行中的各个文本共用一个字频权重关系,所述字频权重关系表征各个字符对应的加权权重;获取目标概率最大的预测字符,作为该文本对应的目标字符;基于所述目标文本行中的各个文本分别对应的目标字符,得到所述目标文本行对应的答题字符串。
144.在一些实施方式中,装置600还包括:
145.字频权重关系确定模块,用于获取由同一个题目的多个样本单题图像构成的第二样本数据集;基于所述第二样本数据集中各个字符出现的频率,确定该题目对应的字频权重关系。
146.在一些实施方式中,装置600还包括:
147.文字识别模型训练模块,用于获取多个样本文本行,每个样本文本行对应一个真实字符串,所述真实字符串中的各个字符对应有损失权重,一个字符对应的损失权重表征所该字符被预测成其它字符的可能性大小;将所述样本文本行输入待训练文字识别模型,得到所述待训练文字识别模型输出的预测字符串;基于所述预测字符串以及所述真实字符串之间的差异,得到各个字符对应的第一损失;基于所述损失权重,对对应字符的第一损失进行加权求和,得到总损失;基于所述总损失,对所述待训练文字识别模型进行反向传播,以完成对所述待训练文字识别模型的一次训练,所述待训练文字识别模型在经过多次训练后,得到所述预先训练好的文字识别模型。
148.在一些实施方式中,获取模块610还用于对所述待批改作业的图像进行特征点识别,得到第一特征信息;基于各个候选标准作业图像的第二特征信息与所述第一特征信息之间的匹配度,确定目标标准作业图像;基于所述第一特征信息以及所述目标标准作业图像对应的第二特征信息,对所述待批改作业的图像进行图像矫正,得到矫正后的图像;对所述矫正后的图像进行题目分割,得到所述待批改作业对应的单题图像。
149.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
150.图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(i/o)接口704,以及通信组件705中的一者或多者。
151.其中,处理器701用于控制该电子设备700的整体操作,以完成上述的作业批改方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read-only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read-only memory,简称eprom),可编程只读存储器(programmable read-only memory,简称prom),只读存储器(read-only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储
器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(near field communication,简称nfc),2g、3g、4g、nb-iot、emtc、或其他5g等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:wi-fi模块,蓝牙模块,nfc模块等等。
152.在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(application specific integrated circuit,简称asic)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的作业批改方法。
153.在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的作业批改方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的作业批改方法。
154.在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的作业批改方法的代码部分。
155.以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
156.另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
157.此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献