内容识别方法、装置、设备及存储介质与流程

2022-11-19 06:27:51 来源：中国专利 TAG：

1.本公开涉及计算机领域，尤其涉及一种内容识别方法、装置、设备及存储介质。

背景技术：

2.随着人工智能的发展，人工智能技术应用到越来越多的领域中。以教育领域为例，出现了针对学生作业或试卷等的智能批改技术，可以减轻教师批改作业、考试的压力，同时也可辅助学生进行学习。
3.相关技术中，主要利用ocr(optical character recognition，光学识别)技术来识别书写内容，然后将识别到的文字与标准答案进行比对，根据比对结果来进行智能批改。然而，当书写内容的书写不规范时，该基于ocr技术的智能批改很容易产生误判，降低了内容识别的准确性。

技术实现要素：

4.本公开提供了一种内容识别方法、装置、设备及存储介质，以解决现有技术中至少一种技术问题。
5.一方面，本公开提供了一种内容识别方法，包括：
6.获取待识别图像，所述待识别图像包括题干图像和与所述题干图像对应的作题图像；
7.获取与所述题干图像中题目描述内容匹配的答案文本；
8.通过内容识别模型对所述答案文本和对应的作题图像进行处理，获得所述作题图像对应的内容识别序列信息；所述内容识别序列信息表征所述答案文本中各文本字符与对应的作题图像中至少一个像素块之间基于字符维度的对应关系；
9.基于所述作题图像对应的内容识别序列信息，确定内容识别结果。
10.另一方面还提供了一种内容识别装置，所述装置包括：
11.第一获取模块，用于获取待识别图像，所述待识别图像包括题干图像和与所述题干图像对应的作题图像；
12.第二获取模块，用于获取与所述题干图像中题目描述内容匹配的答案文本；
13.识别处理模块，用于通过内容识别模型对所述答案文本和对应的作题图像进行处理，获得所述作题图像对应的内容识别序列信息；所述内容识别序列信息表征所述答案文本中各文本字符与对应的作题图像中至少一个像素块之间基于字符维度的对应关系；
14.识别结果确定模块，用于基于所述作题图像对应的内容识别序列信息，确定内容识别结果。
15.另一方面还提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述任一所述的方法。
16.另一方面还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指
令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任一所述的方法。
17.另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一所述的方法。
18.本公开提供的一种内容识别方法、装置、设备及存储介质，具有如下技术效果：
19.本公开实施例通过获取待识别图像，待识别图像包括题干图像和与题干图像对应的作题图像；获取与题干图像中题目描述内容匹配的答案文本；通过内容识别模型对答案文本和对应的作题图像进行处理，获得作题图像对应的内容识别序列信息；内容识别序列信息表征答案文本中各文本字符与对应的作题图像中至少一个像素块之间基于字符维度的对应关系；基于作题图像对应的内容识别序列信息，确定内容识别结果。由于输入至内容识别模型同时包含答案文本和对应的作题图像两种模态输入数据，答案文本的文本信息参与到内容识别的各个判别阶段，有助于辅助提高模型对作题图像中的作题内容与答案文本的匹配能力，减少误判的产生，提高了内容识别的准确性。此外，通过内容识别模型进行处理得到作题图像对应的内容识别序列信息，该内容识别序列信息表征答案文本中各文本字符与对应的作题图像中至少一个像素块之间基于字符维度的对应关系，从而将原本的从二分类任务模型，建模为更细粒度的序列标注问题，进一步提高了内容识别的准确性。
附图说明
20.为了更清楚地说明本公开实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。
21.图1是本公开实施例提供的一种内容识别方法的应用环境示意图；
22.图2是本公开实施例提供的一种内容识别方法的流程示意图；
23.图3是本公开实施例提供的一种示例性的手写图片；
24.图4是本公开实施例提供的一种示例性的内容识别的示意图；
25.图5是本公开实施例提供的一种内容识别方法的部分流程示意图；
26.图6是本公开实施例提供的一种包含内容识别模型的结构示意图；
27.图7是本公开实施例提供的一种内容识别装置的结构框图；
28.图8是本公开实施例提供的一种内容识别装置的结构框图；
29.图9是本公开提供的一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
30.为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。
31.为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。
32.为了便于理解本公开实施例上述的技术方案及其产生的技术效果，针对本公开实施例中涉及的名词进行简单介绍：
33.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
34.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
35.计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
36.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
37.机器学习(machine learning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
38.自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景。
39.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人
机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
40.本公开实施例提供的方案涉及人工智能的计算机视觉技术、机器学习等技术，具体通过如下实施例进行说明：
41.本公开提供的内容识别方法可以应用于如图1所示的应用环境中。如图1所示，该硬件环境可以至少包括终端110和服务器120。
42.上述终端110包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。
43.上述服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端与服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。需要说明的是，上述服务器120可以实现为云端的云服务器。
44.在一些实施例中，上述服务器120还可以实现为区块链系统中的节点。区块链(blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
45.需要说明的是，在实际应用中，本公开实施例提供的内容识别方法可以在服务器或终端中实现，或者由终端和服务器共同实现。
46.当然，本公开实施例提供的方法并不限用于图1所示的硬件环境中，还可以用于其它可能的硬件环境，本公开实施例并不进行限制。对于图1所示的硬件环境的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。
47.图2是本公开实施例提供的一种内容识别方法的流程示意图。本公开提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。该内容识别方法的执行主体可以是本公开实施例提供的内容识别装置，或者集成了该内容识别装置的服务器，其中，该内容识别装置可以采用硬件或者软件的方式实现。以执行主体为上述图1中的服务器为例进行说明，如图2所示，该方法可以包括：
48.s201：获取待识别图像，待识别图像包括题干图像和与题干图像对应的作题图像。
49.其中，以应用于教育领域为例，待识别图像可以是试卷的部分区域图像、练习题的部分区域图像等。待识别图像包括题干图像和与题干图像对应的作题图像，该题干图像涉及的题目类型可以是中文填空题、中文解答题、英文填空题、英文填空题、其他主观题等。该作题图像中包含答题者书写的作题内容。题干图像和作题图像的数量可以为一个或多个，每个题干图像可以对应至少一个作题图像。
50.可选地，获取包含作题内容的试卷或练习题的初始图像，该作题内容可以是答题者通过工具(例如笔、电子笔等)书写的。该初始图像可以是终端上传的，也可以是从本地或其他存储位置中获取得到的，本公开对此不作具体限定。然后对该初始图像进行区域识别，识别出题干区域和作题区域。接着，从初始图像中的题干区域和作题区域中分别提取出配对的题干图像和作题图像，作为待识别图像。然后，可以通过终端上运行的应用客户端或浏
览器将待识别图像上传至服务器，以便于服务器对获取的待识别图像执行相应的内容识别。
51.s203：获取与题干图像中题目描述内容匹配的答案文本。
52.可选地，在获取到题干图像之后，可以对题干图像中的题目描述内容进行题目识别，从例如习题库中获取与识别的题目相匹配的答案文本。
53.示例性的，对于题干图像a1，其中的题目描述内容为“《出师表》的作者是___”，其匹配的答案文本是“诸葛亮”。对于题干图像a2，其中的题目描述内容为“孟子的本名是___”，其匹配的答案文本是“孟轲”。
54.s205：通过内容识别模型对答案文本和对应的作题图像进行处理，获得作题图像对应的内容识别序列信息。
55.其中，内容识别模型用于对作题图像中各像素块与答案文本进行识别处理，以获得作题图像对应的内容识别序列信息。内容识别序列信息表征答案文本中各文本字符与对应的作题图像中至少一个像素块之间基于字符维度的对应关系。
56.可选地，可以将答案文本和对应的作题图像作为模型输入，分别输入至内容识别模型中进行处理，根据作题图像中至少一个像素块对答案文本中各个字符进行序列标签，获得作题图像对应的内容识别序列信息。
57.示例性的，若答案文本m为“亭亭净植”，其包含亭、亭、净、植四个文本字符；对应的作题图像n包括像素块1、像素块2、像素块3、像素块4、像素块5、像素块6、像素块7和像素块8，这些像素块的像素宽度可以相同。调用内容识别模型对答案文本m和对应的作题图像n进行处理，根据作题图像n中至少一个像素块分别对这四个文本字符进行序列标注。可选地，该作题图像n中的像素块与答案文本m中的文本字符的对应关系可以表示：{(像素块1 像素块2，亭)、(像素块3，亭)、(像素块4 像素块5，净)、(像素块6 像素块7 像素块8，植)}，通过像素块与文本字符的对应关系分别对这四个文本字符进行序列标注，获得作题图像对应的内容识别序列信息。
58.可选地，在一些实施例中，答案文本中各个字符分别对应的作题图像中至少一个像素块可以存在像素块重叠。例如，字符a对应“像素块1 像素块2”，字符b对应“像素块2 像素块3”，字符a和字符b共同对应像素块3。
59.可选地，该内容识别序列信息可以包括标签序列，例如作题图像n对应的标签序列p可以表示为{标签1，标签2，标签3，标签4}，该标签序列p中每个序列标签依次对应答案文本m中的亭、亭、净、植四个文本字符，即，“标签1”对应文本字符“亭”，“标签2”对应文本字符“亭”，“标签3”对应文本字符“净”，“标签4”对应文本字符“植”。
60.s207：基于作题图像对应的内容识别序列信息，确定内容识别结果。
61.其中，内容识别结果可以用于表征作题图像中作题内容与对应的答案文本的匹配程度。
62.可选地，在获取作题图像对应的内容识别序列信息之后，可以根据识别结果转换处理，将内容识别序列信息转换为作题图像中作题内容的内容识别结果。示例性的，以该内容识别结果为批改结果为例，若内容识别序列信息指示作题图像中作题内容与对应的答案文本完全匹配，说明答案文本与作题图像中手写内容完全一致，则对应的批改结果为“答题正确”；若两者不完全匹配，则说明答案文本与作题图像中手写内容不完全一致，则对应的
批改结果为“答题错误”。
63.相关技术中，在教育领域，主要通过输入学生作答的手写文本图像，利用ocr识别手写图像中的文本，最后与标准答案对比，根据比对结果来实现智能批改。然而，当书写内容的书写不规范时，例如对于一些手写的难以直接辨认的连笔字、形近字或不规范书写，采用现有的智能批改技术很容易产生误判，降低了智能批改的准确性。具体地，如图3所示，此手写图片300对应的文本应为“轲”，但是由于书写不够严谨，若将该手写图片300直接通过ocr模型识别为“车”和“可”两个字，如此在后续的批改环节就会判断成错题，导致误判。而通过本公开实施例的内容识别模型可以准确识别为“轲”，减少了误判。
64.本公开实施例，通过获取待识别图像，待识别图像包括题干图像和与题干图像对应的作题图像；获取与题干图像中题目描述内容匹配的答案文本；通过内容识别模型对答案文本和对应的作题图像进行处理，获得作题图像对应的内容识别序列信息；内容识别序列信息表征答案文本中各文本字符与对应的作题图像中至少一个像素块之间基于字符维度的对应关系；基于所述作题图像对应的内容识别序列信息，确定内容识别结果。由于输入至内容识别模型同时包含答案文本和对应的作题图像两种模态输入数据，答案文本的文本信息参与到内容识别的各个判别阶段，有助于辅助提高模型对作题图像中的作题内容与答案文本的匹配能力，减少误判的产生，提高了内容识别的准确性。此外，通过内容识别模型进行处理得到作题图像对应的内容识别序列信息，该内容识别序列信息表征答案文本中各文本字符与对应的作题图像中至少一个像素块之间基于字符维度的对应关系，从而将原本的从二分类任务模型，建模为更细粒度的序列标注问题，进一步提高了内容识别的准确性，也即提升了智能批改的准确率与错题识别率。
65.在一可选实施方式中，内容识别序列信息对应的标签序列的序列维度与对应的答案文本的文本维度之间的维度差值为预设数值。该预设数值可以为自然数。示例性的，如图4所示，继续以上述答案文本m为“亭亭净植”为例，可以在答案文本m的第一个字符开头增加一个《blk》占位符401，则调整后的答案文本m可以表示为[《blk》,亭,亭,净,植]，则对应的内容识别序列信息对应的标签序列402可以为{标签0，标签1，标签2，标签3，标签4}，其中“标签0”对应《blk》占位符，其他四个标签分别对应答案文本m中的四个文本字符。此时，内容识别序列信息对应的标签序列的序列维度为5，而答案文本m的文本维度为4，则两者的维度差值为1，也即预设数值为1。
[0066]
应理解，在其他实施例中，除了可以增加一个表示答案开始的占位符之外，还可以增加一个表示答案结束的占位符或者若干其他占位符。
[0067]
如此，通过在答案文本中增加至少一个占位符，使得内容识别序列信息对应的标签序列的序列维度与对应的答案文本的文本维度之间的维度差值为预设数值，可以防止答案缺失(例如答案开头缺失、答案结尾缺失)等情况出现，提高内容识别的准确率。
[0068]
在一可选实施方式中，内容识别序列信息对应的标签序列中各标签至少包括用于表征删除字符的第一类标签(例如del标签)、用于表征替换字符的第二类标签(例如sub标签)、用于表征增加字符的第三类标签(例如add标签)和用于表征字符不变(例如o标签)的第四类标签中至少一种。可选地，前三类序列标签可以“b”和“i”两个符号配合使用，例如形成“b-del”、“b-add”、“i-sub”等组合标签，其中，“b”表示该类标签的开始，“i”表示该类标签的延续。
[0069]
示例性的，继续如图4所示，作题图像n为手写图片，其对应的书写文本为亭、亭、净、直四个字符，而答案文本m为亭、亭、净、植四个字符。以手写图片为参考，对答案文本m进行序列标注。经比较，该手写图片对应的最后一个字符“直”与答案文本中的“植”不一致，则用“直”替换“植”可以得到手写图片中的书写内容，因此，答案文本中字符“植”的序列标签为“b-sub”，答案文本字符中的其他三个字符与手写图像相一致，则对应的序列标签为“o”。与手写图片相比，答案文本的第一个字符之前没有缺失字符，则答案文本中的《blk》占位符对应的序列标签为“o”，故而，该答案文本m的标签序列403为[o,o,o,o,b-sub]。在其他实施例中，若答案文本的第一字符之前缺失字符，则答案文本中《blk》占位符对应的序列标签为“b-add”。也即，通过内容识别模型不是预测“正确”或“错误”，而是对答案文本执行序列标记，以细粒度地推断哪个答案字符与手写内容不同。
[0070]
上述实施例，由于将内容识别序列信息对应的标签序列中标签包含至少一类标签，该至少一类标签用于表征从答案文本到作题图像中作题内容的编辑操作，通过这些标签对答案文本进行序列标注，减少答案文本和作题图像的匹配计算量，提高了内容识别的效率。
[0071]
在一可选实施方式中，基于作题图像对应的内容识别序列信息，确定内容识别结果包括：
[0072]
在作题图像对应的内容识别序列信息中各序列标签为预设类标签的情况下，确定内容识别结果为第一识别结果；第一识别结果表征作题图像与对应的答案文本相匹配；
[0073]
在作题图像对应的内容识别序列信息中存在至少一个序列标签不同于预设类标签的情况下，确定内容识别结果为第二识别结果；第二识别结果表征作题图像与对应的答案文本不匹配。
[0074]
其中，预设类标签可以为上述四类序列标签中的至少一种。示例性的，预设类标签可以为表征字符不变的第四类标签，例如o标签。
[0075]
可选地，若作题图像对应的内容识别序列信息中各序列标签为预设类标签的情况下，例如作题图像对应的序列标签均为o标签，确定内容识别结果为表征作题图像与对应的答案文本相匹配的第一识别结果，则对应的批改结果为“答题正确”。若作题图像对应的内容识别序列信息中存在至少一个序列标签不同于预设类标签的情况下，例如图4中的作题图像n的标签序列403为[o,o,o,o,b-sub]，其中，最后一个序列标签不是o标签，确定内容识别结果为表征作题图像与对应的答案文本不匹配的第二识别结果，则对应的批改结果为“答题错误”。
[0076]
上述实施例，通过检测作题图像对应的内容识别序列信息中各序列标签是否均为预设类标签来确定对应的内容识别结果，使得内容识别问题从二分类问题调整为序列级别的问题，实现了内容识别的细粒度，提高内容识别的准确性。同时，也减少了内容识别计算量，进一步提高内容识别效率。
[0077]
如图5和图6所示，通过内容识别模型对答案文本和对应的作题图像进行处理，获得作题图像对应的内容识别序列信息包括：
[0078]
s501：通过内容识别模型中特征提取模块分别对答案文本和对应的作题图像进行处理，分别获得答案文本特征和对应的作题图像特征。
[0079]
在一可选实施方式中，特征提取模块包括文本特征提取层、图像特征提取层和线
性转换层。此时，通过内容识别模型中特征提取模块分别对答案文本和对应的作题图像进行处理，分别获得答案文本特征和对应的作题图像特征包括：
[0080]
s5011：通过文本特征提取层对答案文本进行处理，获得初始答案文本特征；
[0081]
s5013：通过图像特征提取层对答案文本对应的作题图像中每个像素块进行处理，获得初始作题图像特征；
[0082]
s5015：通过线性转换层分别对初始答案文本特征和初始作题图像特征进行处理，获得具有相同嵌入维度的答案文本特征和对应的作题图像特征。
[0083]
其中，文本特征提取层是指用于提取文本的特征的网络，图像特征提取层是指用于提取图像的特征的网络。线性转换层是指将提取的文本特征和图像特征进行线性映射处理。
[0084]
可选地，在文本特征的提取过程中，也可以在该特征提取模块中加入嵌入层，通过将答案文本输入嵌入层中进行嵌入表示处理，获得答案文本对应的词向量序列。然后，将词向量序列输入至文本特征提取层进行数据处理，获得初始答案文本特征。在图像特征的提取过程中，通过将作题图像输入至图像特征提取层，通过图像特征提取层对作题图像中每个像素块进行数据处理，获得初始作题图像特征。示例性的，该文本特征提取层可以为线性映射层、或者用于提取更强表达能力的嵌入表示的自然语言处理模型。该图像特征提取层可以为深度残差网络(deep residual network,resnet)等。每个像素块的像素宽度可以相等。
[0085]
在获得初始答案文本特征和初始作题图像特征之后，可以通过线性转换层对两者进行线性映射处理。具体地，该线性转换层的数量可以为2个，这两个线性转换层分别对初始答案文本特征和初始作题图像特征进行线性映射处理，获得具有相同嵌入维度的答案文本特征和对应的作题图像特征。示例性的，经过线性转换层处理后，获得的作题图像特征的张量大小是(num_blocks,hidden_size)，答案文本特征的张量大小是(num_tokens,hidden_size)，其中，num_blocks是作题图像特征的像素块的数量，num_tokens是答案文本特征的词向量的数量，hidden_size分别是作题图像特征和答案文本特征对应的隐藏状态的嵌入维度大小，也即两者的嵌入维度相一致。
[0086]
上述实施例，通过线性转换层分别对分别提取到的初始答案文本特征和初始作题图像特征进行处理，获得具有相同嵌入维度的答案文本特征和对应的作题图像特征，如此可以基于答案文本特征和对应的作题图像特征直接进行注意力计算，实现了将多模态的特征数据与注意力机制相结合，利于提高多模态数据之间的信息交互，进而提高内容识别的准确率。
[0087]
s503：通过内容识别模型中图像注意力模块对作题图像特征进行处理，获得目标作题图像特征。
[0088]
可选地，可以将作题图像特征输入内容识别模型中图像注意力模块中进行编码处理，获得目标作题图像特征。该图像注意力模块可以包括图像注意力层。图像注意力层的注意力计算公式可以表示为：
[0089][0090]
其中，q、k和v分别对应查询、键、值矩阵，d为嵌入维度(例如d＝768)。
[0091]
此外，该图像注意力模块还可以包括与图像注意力层连接的线性变换层，该线性变换层可以包括两层的全连接层，其中，仅第一层全连接层使用relu作为激活函数。此外，对于自注意力层和线性变换层，两者都可以引入残差结构，该残差结构可以包括残差模块和归一化模块，通过分别对数据进行残差连接和归一化操作来缓解模型退化问题。
[0092]
示例性的，若作题图像特征为ix，则通过图像注意力模块进行注意力计算可以表示为si＝attention(ix,ix,ix)，也即注意力si中的q、k和v均来自于作题图像特征自身。
[0093]
s505：通过内容识别模型中融合模块对答案文本特征和目标作题图像特征进行融合处理，获得融合特征。
[0094]
可选地，融合模块可以用于挖掘模态之间的相互作用。可以将答案文本特征和目标作题图像特征输入至内容识别模型中融合模块进行融合处理，获得融合特征。融合特征用于表征答案文本特征和目标作题图像特征之间的交互特征。
[0095]
在一可选实施方式中，融合模块包括文本注意力层和交叉注意力层。此时，通过内容识别模型中融合模块对答案文本特征和目标作题图像特征进行融合处理，获得融合特征包括：
[0096]
通过文本注意力层对答案文本特征进行处理，获得目标答案文本特征；
[0097]
通过交叉注意力层对目标答案文本特征和目标作题图像特征进行融合处理，获得融合特征。
[0098]
可选地，将答案文本特征输入至文本注意力层中进行编码处理，获得目标答案文本特征。示例性的，若答案文本特征为tx，则通过文本注意力层进行注意力计算可以表示为s
t
＝attention(tx,tx,tx)，也即注意力s
t
中的q、k和v均来自于答案文本特征自身。
[0099]
在获取到目标答案文本特征之后，可以将目标答案文本特征与目标作题图像特征一起输入至交叉注意力层进行融合处理，获得融合特征。目标答案文本特征与目标作题图像特征通过交叉注意力层进行跨模态的信息交互，使得模型学习匹配作题图像的答题内容与答案文本。
[0100]
示例性的，若作题图像特征为ix，答案文本特征为tx，则通过交叉注意力层进行注意力计算可以表示为c
i,t
＝attention(tx,ix,ix)，也即注意力c
i,t
中的q来自于答案文本特征，k和v均来自于作题图像特征自身。
[0101]
可选地，融合模块还可以包括与交叉注意力层连接的线性变换层，该线性变换层可以包括两层的全连接层，其中，仅第一层全连接层可以使用relu作为激活函数。此外，对于文本注意力层、交叉注意力层和线性变换层，三者可以引入残差结构，该残差结构可以包括残差模块和归一化模块，通过分别对数据进行残差连接和归一化操作来缓解模型退化问题。
[0102]
上述实施例，通过文本注意力层对答案文本特征进行处理，获得目标答案文本特征，再通过交叉注意力层对目标答案文本特征和目标作题图像特征进行融合处理，获得融合特征。通过结合文本注意力层和交叉注意力层实现文本与视觉信息的交互，辅助答案文本从作题图像中各个像素块中寻求对应的匹配信息，允许每个答案字符注意所有有效像素块，而不受语言建模的顺序限制，提高模型对作题图像的答题内容与答案文本的匹配能力，进一步提高内容识别准确率。
[0103]
s507：通过内容识别模型中输出层对融合特征进行识别处理，获得作题图像对应
的内容识别序列信息。
[0104]
可选地，内容识别模型中输出层用于将文本表征空间映射到标签空间，得到内容识别模型的输出结果。该输出结果可以包括作题图像对应的内容识别序列信息。
[0105]
仅作为示例，该输出层可以包括全连接层和激活层，通过将融合特征依次输入至内容识别模型中全连接层和激活层进行识别处理，输出作题图像对应的内容识别序列信息。该内容识别序列信息表征答案文本中各文本字符与对应的作题图像中至少一个像素块之间基于字符维度的对应关系。具体地，内容识别序列信息可以用于反映将答案文本向手写内容转换时需要进行的编辑操作。
[0106]
上述实施例，通过图像注意力模块来捕获表征视觉模态中上下文信息的目标作题图像特征，通过融合模块来挖掘模态之间的相互作用，内容识别模型可以更好的理解作题图像中答题者的笔迹、连字以及形近字等，从而提高了内容识别模型对作题图像的答题内容与答案文本的匹配能力，进一步提高内容识别准确率。
[0107]
在一可选实施方式中，继续如图6所示，内容识别模型是基于预训练的文字识别模型构建得到。其中，文字识别模型是用于识别图像中文字内容的模型，该文本识别模型可以是ocr模型。该文本识别模型可以包括用于提取输入图像的图像特征的识别特征提取层和识别线性层，识别线性层用于将图像提取层输出的图像特征进行文字映射处理。
[0108]
可选地，内容识别模型包括文本特征提取层和图像特征提取层，图像特征提取层的结构参数与文字识别模型中识别特征提取层的结构参数相同。文本特征提取层的结构参数与文字识别模型中识别线性层的结构参数互为转置的关系，也即在文字识别模型中，识别线性层是用于将高维向量隐射到文字；而在内容识别模型中，文本特征提取层用于将文本映射回同一高维向量空间中，文本特征提取层的参数矩阵与识别线性层的参数矩阵互为转置的关系。
[0109]
上述实施例，通过预训练的文字识别模型构建得到内容识别模型，且内容识别模型中文本特征提取层和图像特征提取层，分别与文字识别模型中识别线性层和识别特征提取层相关联，由于识别线性层中结构参数在预训练过程中学习了从图像特征空间到文本空间的转换，通过识别线性层作为空间之间的交互桥梁，使得通过内容识别模型将答案文本和作题图像这两个模态数据置于同一空间中，便于融合模块对两模态的信息交互。
[0110]
在一可选实施方式中，内容识别模型通过以下方式训练得到：
[0111]
获取训练样本集，训练样本集包括作题样本图像、对应的答案样本文本以及识别标签序列；
[0112]
通过内容识别模型对答案样本文本和对应的作题样本图像进行预测，获得作题样本图像对应的预测结果；内容识别模型是基于预训练的文字识别模型构建得到；
[0113]
基于预测结果和对应的识别标签序列所确定的训练损失，对内容识别模型进行训练，获得经训练的内容识别模型。
[0114]
可选地，关于训练样本集，可以从数据集中获取答题正确的作题样本图像、对应的答案文本以及识别标签序列作为正样本，从数据集中获取答题错误的作题样本图像、对应的答案文本以及识别标签序列作为负样本。为了保持训练样本数量均衡，可以通过数据增强来扩充负样本。示例性的，对于每个正样本，可以保持作题样本图像不变，而修改对应的答案文本，该修改方式可以包括随机字符插入、删除和替换。具体地，以替换字符的修改方
式，可以通过相似字符来替换原始字符构造负样本。试验证明，通过该负样本数据增强方法扩充负样本，提高了内容识别模型的性能。
[0115]
在进行内容识别模型训练之前，可以先对文字识别模型进行预训练。继续如图6所示，在预训练过程中，可以通过上述数据增强方法来扩充负样本，以提高文字识别模型的识别准确率。然后，通过经训练的文字识别模型来构建内容识别模型，并利用经训练的文字识别模型的模型参数来初始化构建的内容识别模型中对应模块的网络参数。
[0116]
可选地，文字识别模型是用于识别图像中文字内容的模型，该文本识别模型可以是ocr模型。该文本识别模型可以包括用于提取输入图像的图像特征的识别特征提取层和识别线性层，识别线性层用于将图像提取层输出的图像特征进行文字映射处理。内容识别模型包括文本特征提取层和图像特征提取层。其中，该识别特征提取层和图像特征提取层可以为resnet网络等。图像特征提取层的结构参数与文字识别模型中识别特征提取层的结构参数相同。文本特征提取层的结构参数与文字识别模型中识别线性层的结构参数互为转置的关系，也即在文字识别模型中，识别线性层是用于将高维向量隐射到文字；而在内容识别模型中，文本特征提取层用于将文本映射回同一高维向量空间中，文本特征提取层的参数矩阵与识别线性层的参数矩阵互为转置的关系。
[0117]
然后，通过内容识别模型对答案样本文本和对应的作题样本图像进行预测，获得作题样本图像对应的预测结果。该预测结果表征答案样本文本中某一文本字符被标记为某一序列样本标签的概率。该预测结果可以包括内容识别序列样本信息。接着，利用预测结果和对应的识别标签序列来确定训练损失(例如交叉熵函数等)。基于该训练损失来对训练内容识别模型，直至达到训练结束条件，获得经训练的内容识别模型。
[0118]
上述实施例，由于基于作题样本图像、对应的答案样本文本以及识别标签序列作为训练样本集来训练内容识别模型，从而训练任务不是简单的“正确”或“错误”的二分类问题，而是更细粒度的序列标注问题，利于提高训练后的模型准确性。
[0119]
此外，由于内容识别模型是基于预训练的文字识别模型构建得到，且内容识别模型中文本特征提取层和图像特征提取层，分别与文字识别模型中识别线性层和识别特征提取层相关联，由于识别线性层中结构参数在预训练过程中学习了从图像特征空间到文本空间的转换，通过识别线性层作为空间之间的交互桥梁，使得通过内容识别模型将答案文本和作题图像这两个模态数据置于同一空间中，便于融合模块对两模态的信息交互。
[0120]
本公开实施例，着眼于现有ocr自动批改技术的局限性，使用多模态方法增强内容识别模型对图像手写内容与答案文本的匹配能力，解决了手写连笔字、手写易混字等书写不规范容易误识别的问题。同时，将模型输出建模为更细粒度的序列标注问题，实现了更细粒度的内容识别任务，提高批改的准确性与错题的识别能力。
[0121]
经验证，我们基于业务场景下产生的真实数据对模型进行评测，结果显示与纯ocr自动批改技术相比，本公开实施例提供的内容识别方法的批改准确率提高10％以上，错题识别的f1提升4％，精确率提升9％。
[0122]
下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。
[0123]
请参考图7，其示出了本公开实施例提供的一种内容识别装置的结构框图。该装置具有实现上述方法示例中的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实
现。内容识别装置可以包括：
[0124]
第一获取模块710，用于获取待识别图像，待识别图像包括题干图像和与题干图像对应的作题图像；
[0125]
第二获取模块720，用于获取与题干图像中题目描述内容匹配的答案文本；
[0126]
识别处理模块730，用于通过内容识别模型对答案文本和对应的作题图像进行处理，获得作题图像对应的内容识别序列信息；内容识别序列信息表征答案文本中各文本字符与对应的作题图像中至少一个像素块之间基于字符维度的对应关系；
[0127]
识别结果确定模块740，用于基于作题图像对应的内容识别序列信息，确定内容识别结果。
[0128]
在一可选实施方式中，如图8所示，识别处理模块730包括：
[0129]
第一处理子模块731，用于通过内容识别模型中特征提取模块分别对答案文本和对应的作题图像进行处理，分别获得答案文本特征和对应的作题图像特征；
[0130]
第二处理子模块732，用于通过内容识别模型中图像注意力模块对作题图像特征进行处理，获得目标作题图像特征；
[0131]
第三处理子模块733，用于通过内容识别模型中融合模块对答案文本特征和目标作题图像特征进行融合处理，获得融合特征；
[0132]
第四处理子模块734，用于通过内容识别模型中输出层对融合特征进行识别处理，获得作题图像对应的内容识别序列信息。
[0133]
在一可选实施方式中，特征提取模块包括文本特征提取层、图像特征提取层和线性转换层。第一处理子模块731具体用于：
[0134]
通过文本特征提取层对答案文本进行处理，获得初始答案文本特征；
[0135]
通过图像特征提取层对答案文本对应的作题图像中每个像素块进行处理，获得初始作题图像特征；
[0136]
通过线性转换层分别对初始答案文本特征和初始作题图像特征进行处理，获得具有相同嵌入维度的答案文本特征和对应的作题图像特征。
[0137]
在一可选实施方式中，融合模块包括文本注意力层和交叉注意力层。第三处理子模块733具体用于：
[0138]
通过文本注意力层对答案文本特征进行处理，获得目标答案文本特征；
[0139]
通过交叉注意力层对目标答案文本特征和目标作题图像特征进行融合处理，获得融合特征。
[0140]
在一可选实施方式中，内容识别序列信息对应的标签序列中各标签至少包括用于表征删除字符的第一类标签、用于表征替换字符的第二类标签、用于表征增加字符的第三类标签和用于表征字符不变的第四类标签中至少一种。
[0141]
在一可选实施方式中，内容识别序列信息对应的标签序列的序列维度与对应的答案文本的文本维度之间的维度差值为预设数值。识别结果确定模块740具体用于：
[0142]
在作题图像对应的内容识别序列信息中各序列标签为预设类标签的情况下，确定内容识别结果为第一识别结果；第一识别结果表征作题图像与对应的答案文本相匹配；
[0143]
在作题图像对应的内容识别序列信息中存在至少一个序列标签不同于预设类标签的情况下，确定内容识别结果为第二识别结果；第二识别结果表征作题图像与对应的答
案文本不匹配。
[0144]
在一可选实施方式中，内容识别模型通过以下方式训练得到：
[0145]
获取训练样本集，训练样本集包括作题样本图像、对应的答案样本文本以及识别标签序列；
[0146]
通过内容识别模型对答案样本文本和对应的作题样本图像进行预测，获得作题样本图像对应的预测结果；内容识别模型是基于预训练的文字识别模型构建得到；
[0147]
基于预测结果和对应的识别标签序列所确定的训练损失，对内容识别模型进行训练，获得经训练的内容识别模型。
[0148]
在一可选实施方式中，文字识别模型包括用于提取输入图像的图像特征的识别特征提取层和识别线性层，识别线性层用于将图像提取层输出的图像特征进行文字映射处理；
[0149]
内容识别模型包括文本特征提取层和图像特征提取层，文本特征提取层的结构参数与识别线性层的结构参数互为转置的关系，图像特征提取层的结构参数与识别特征提取层的结构参数相同。
[0150]
上述实施例中提供的装置可执行本公开实施例中的对应方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本技术任意实施例所提供的方法。
[0151]
本公开实施例提供了一种计算机设备，该设备可以包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例任一所述的方法。
[0152]
本公开实施例还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行上述方法实施例任一所述的方法。
[0153]
本公开实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本实施例上述任一方法。
[0154]
进一步地，图9示出了一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图，所述设备可以为计算机终端、移动终端或其它设备，所述设备还可以参与构成或包含本公开实施例所提供的装置。如图9所示，计算机终端11可以包括一个或多个(图中采用112a、112b，
……
，112n来示出)处理器112(处理器112可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器114、以及用于通信功能的传输装置116。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端11还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。
[0155]
应当注意到的是上述一个或多个处理器112和/或其他数据处理电路在本文中通
常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端11(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
[0156]
存储器114可用于存储应用软件的软件程序以及模块，如本公开实施例中所述的方法对应的程序指令/数据存储装置，处理器112通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种神经网络处理方法。存储器114可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器114可进一步包括相对于处理器112远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端11。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0157]
传输装置116用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端11的通信供应商提供的无线网络。在一个实例中，传输装置116包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置116可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
[0158]
显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端11(或移动设备)的用户界面进行交互。
[0159]
需要说明的是：上述本公开实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0160]
本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0161]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0162]
以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：高温下扫描电镜图像修复方法、系统、电子设备及介质与流程

内容识别方法、装置、设备及存储介质与流程

相关文献

最热文献