图片中公式的识别方法、装置及存储介质与流程

2021-11-05 22:17:00 来源：中国专利 TAG：

1.本发明涉及识别技术领域，尤其涉及一种图片中公式的识别方法、装置及存储介质。

背景技术：

2.随着智能识别技术的逐步发展，对于图片中的内容进行识别的场景和需求也逐步增多。
3.通常，在常规方式对图片中公式进行识别的过程中，一般需要单独提供一张仅包含公式的图片，且该图片内的公式要相对简单，这样才能通过识别模型对这种图片进行识别。然而，在实际应用中，当图片中不仅包含公式本身，还包含其他图像、文字等内容时，或者是公式本身是由多个不同的行列内的简单公式组成时，现有公式识别方法会由于图片中的内容过于复杂导致识别失败。

技术实现要素：

4.鉴于上述问题，本发明提供一种图片中公式的识别方法、装置及存储介质，主要目的在于解决目前图片中公式的识别的效果较差的问题。
5.为解决上述技术问题，第一方面，本发明提供了一种图片中公式的识别方法，该方法包括：
6.获取待识别图片，并从所述待识别图片中确定目标区域，其中，所述目标区域为至少一个；所述目标区域为包含有公式的区域；
7.将所述目标区域进行划分，得到一个或者多个识别区域，其中，所述识别区域包含至少一个公式的区域，所述公式包含多个所述公式单元；
8.对一个或者多个所述公式单元进行识别，得到对应公式识别结果；
9.将所述公式识别结果输出。
10.可选的，所述将所述目标区域进行划分，得到一个或者多个识别区域包括：
11.从所述目标区域中确定每个所述识别区域；
12.获取每个所述识别区域对应的位置信息；
13.在所述将所述公式识别结果输出之前，所述方法还包括：
14.按照所述位置信息将多个所述识别区域对应的识别结果进行组合，得到所述组合结果，所述组合结果用于表征多个所述公式单元组成的所述公式；
15.所述将所述公式识别结果输出，包括：
16.将所述组合结果输出。
17.可选的，在对一个或者多个所述公式单元进行识别，得到对应公式识别结果之前，所述方法还包括：
18.将多个所述公式单元输出，并接收用户反馈的指示信息，其中，所述指示信息是用户在基于输出的所述公式单元后触发的，所述指示信息用于从多个所述公式单元选取目标
识别区域；
19.所述对一个或者多个所述公式单元进行识别，得到对应公式识别结果，包括：
20.根据所述预设识别模型对所述目标识别区域执行公式识别操作，得到对应所述目标识别区域的公式识别结果。
21.可选的，所述将所述目标区域进行划分，得到一个或者多个识别区域，包括：
22.当所述目标区域为多个时，将多个所述目标区域分别进行识别，得到对应每个所述目标区域的一个或多个所述识别区域；
23.或者，
24.当所述目标区域为多个时，基于用户选择的至少一个第一目标区域进行识别，分别得到一个或多个所述识别区域。
25.可选的，所述从所述目标区域中确定每个所述识别区域包括：
26.在所述目标区域中按照数据种类添加对应的分类标识，其中，所述分类标识用于表征所述目标区域中数据的类别，所述分类标识包括括号类别标识和文本类别标识；
27.根据所述分类标识将所述目标区域划分，得到每个所述识别区域。
28.可选的，所述根据所述分类标识将所述目标区域划分，得到每个所述识别区域，包括：
29.为所述目标区域添加边界框，得到识别单元，其中，所述边界框用于区分所述目标区域中不同的所述识别区域；
30.所述对一个或者多个所述公式单元进行识别，得到对应公式识别结果包括：
31.根据预设识别模型对所述识别单元执行公式识别操作，得到对应所述识别单元的识别结果。
32.可选的，所述获取待识别图片，并从所述待识别图片中确定目标区域包括：
33.将所述待识别图片划分为第一区域及第二区域，其中，所述第一区域为包含所述公式的区域，所述第二区域为所述待识别图片中除所述公式所在区域之外的区域；
34.将所述第一区域确定为所述目标区域。
35.可选的，所述将所述公式识别结果输出，包括：
36.通过预设方式将所述公式识别结果输出，其中，所述预设方式包括图像方式、代码方式以及语音方式，所述代码方式包括latex源码。
37.第二方面，本发明实施例还提供了一种图片中公式的识别装置，包括：
38.确定单元，用于获取待识别图片，并从所述待识别图片中确定目标区域，其中，所述目标区域为至少一个；所述目标区域为包含有公式的区域；
39.划分单元，用于将所述目标区域进行划分，得到一个或者多个识别区域，其中，所述识别区域包含至少一个公式的区域，所述公式包含多个所述公式单元；
40.执行单元，用于对一个或者多个所述公式单元进行识别，得到对应公式识别结果；
41.输出单元，用于将所述公式识别结果输出。
42.可选的，所述划分单元具体用于：
43.从所述目标区域中确定每个所述识别区域；
44.获取每个所述识别区域对应的位置信息；
45.在所述将所述公式识别结果输出之前，所述方法还包括：
46.按照所述位置信息将多个所述识别区域对应的识别结果进行组合，得到所述组合结果，所述组合结果用于表征多个所述公式单元组成的所述公式；
47.所述将所述公式识别结果输出，包括：
48.将所述组合结果输出。
49.可选的，所述装置还包括处理单元，所述处理单元用于：
50.将多个所述公式单元输出，并接收用户反馈的指示信息，其中，所述指示信息是用户在基于输出的所述公式单元后触发的，所述指示信息用于从多个所述公式单元选取目标识别区域；
51.所述对一个或者多个所述公式单元进行识别，得到对应公式识别结果，包括：
52.根据所述预设识别模型对所述目标识别区域执行公式识别操作，得到对应所述目标识别区域的公式识别结果。
53.可选的，所述划分单元具体用于：
54.当所述目标区域为多个时，将多个所述目标区域分别进行识别，得到对应每个所述目标区域的一个或多个所述识别区域；
55.或者，
56.当所述目标区域为多个时，基于用户选择的至少一个第一目标区域进行识别，分别得到一个或多个所述识别区域。
57.可选的，所述划分单元具体用于：
58.在所述目标区域中按照数据种类添加对应的分类标识，其中，所述分类标识用于表征所述目标区域中数据的类别，所述分类标识包括括号类别标识和文本类别标识；
59.根据所述分类标识将所述目标区域划分，得到每个所述识别区域。
60.第三方面，本发明提供了一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如前述第一方面中任意一项所述的图片中公式的识别方法。
61.第四方面，本发明提供了一种图片中公式的识别装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含如前述第一方面中任意一项所述图片中公式的识别方法。
62.本发明通过获取待识别图片，并从所述待识别图片中确定目标区域；然后将所述目标区域进行划分，得到一个或者多个识别区域；之后对一个或者多个所述公式单元进行识别，得到对应公式识别结果，最后将所述公式识别结果输出，从而实现了图片中公式的识别功能。在上述方案中，由于所述目标区域为至少一个；所述目标区域为包含有公式的区域，且所述识别区域包含至少一个公式的区域，所述公式包含多个所述公式单元，这就确保了在识别过程中能够当图片中的公式较为复杂时，能够将复杂的公式拆分成多个小公式或公式中的部分内容并按照识别区域分布进行识别，从而确保了在面对公式较为复杂的情况下，也能够基于本发明的方式进行识别，从而改善识别效果。另外，由于在本发明中可以在获取待识别图片后可以从中确定包含有公式的目标区域，这就确保了在一个图片中不仅包含公式也包含其他内容时仍可以对公式进行识别，从而解决了当待识别图片中包含内容较多、较为复杂情况下的公式识别效果较差的问题，进一步改善了公式的识别效果。
63.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
64.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
65.图1
‑
a示出了本发明实施例提供的一种图片中公式的识别方法流程图；
66.图1
‑
b示出了本发明实施例提供的一种图片中公式的识别方法执行过程中识别过程的示意图；
67.图1
‑
c示出了本发明实施例提供的一种图片中公式的识别方法执行过程中识别过程的示意图；
68.图1
‑
d示出了本发明实施例提供的一种图片中公式的识别方法执行过程中识别过程的示意图；
69.图1
‑
e示出了本发明实施例提供的一种图片中公式的识别方法执行过程中识别过程的示意图；
70.图1
‑
f示出了本发明实施例提供的一种图片中公式的识别方法执行过程中识别过程的示意图；
71.图1
‑
g示出了本发明实施例提供的一种图片中公式的识别方法执行过程中识别过程的示意图；
72.图2示出了本发明实施例提供的一种图片中公式的识别装置的组成框图；
73.图3为本技术实施例提供的客户端的结构示意图；
74.图4为本技术实施例提供的服务器的结构示意图。
具体实施方式
75.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。
76.本发明实施例提供了一种图片中公式的识别方法，如图1
‑
a所示，该方法包括：
77.101、获取待识别图片，并从所述待识别图片中确定目标区域。
78.其中，所述目标区域为至少一个；所述目标区域包含有公式的区域。
79.本实施例中，由于在实际情况下需要被识别的公式可能位于待识别图片的文字中或者示意图旁等，也就是说待识别图片中往往可能包含除了公式外的其他内容，这时对公式所在的位置和区域进行识别和确定就显示尤为重要。在本实施例中，可以对整个待识别图片进行分割，并从中确定公式所在的区域，即所述公式所处的区域，作为所述目标区域。
80.需要说明的是目标区域可以仅包括公式的区域，也可以包括与公式相邻的一部分文字区域，该文字可以是公式备注，也可以是相邻上下文的文字说明等。
81.当然，待识别图片中可以包括多个公式区域，可能是相邻关系，也可能是不相邻的关系。即所述目标区域可以为1个或者多个。也就是说，在所获取的待识别图片之中，可能存在多个公式的情况，这样在确定目标区域时，实际上就是从待识别图片中将包含公式的各个区域进行确定的过程，这些区域可能互相之间相邻，也可能互不相邻。具体地，对于目标区域的分布情况在此不做限定，以实际的待识别图片中具体包含的公式内容为准。
82.该目标区域即为后续识别过程中的需要进行公式识别的区域，其他区域则不需要进行识别。由于在本步骤中能够从待识别图片中确定目标区域，这就可以确保当待识别图片中包含多种不同的内容时，可以直接从中确定后续需要识别的目标区域，从而使后续公式识别的过程中，可以避免受到其他区域中内容的干扰的问题。
83.需要说明的是，在本实施例中，在获取待识别图片后基于待识别图片确定目标区域的过程中，可以从待识别图片中自动确定目标区域；也可以基于用户圈选公式区域确定目标区域，例如，用户在待识别图片中勾选希望识别的区域，用户可以圈选一个或者多个区域，相当于将待识别图像缩小识别范围。
84.当然，在实际的应用中，还可以同时结合用户的选择进行确认确定，例如，可以首先将待识别图片中全部可能需要识别的区域进行确定，得到多个区域，譬如区域a至区域f，然后向用户输出上述区域a至区域f，并由用户在获知这些区域后，从中选取某个或某几个区域，确定目标区域。其中，在向用户输出区域a至区域f的过程中，可以通过框选或标记的形式向用户展示，这样能够便于用户获知当前的待识别图片中有多少个可进行后续公式识别的区域。
85.102、将所述目标区域进行划分，得到一个或者多个识别区域。
86.其中，所述识别区域包含至少一个公式的区域，所述公式包含一个或者多个所述公式单元。
87.本实施例中所述公式单元可以理解为前述步骤中公式中的部分内容，可以为其中的一个简单的公式，即当公式为一个复合公式时，公式单元则为构成复合公式中的一个简单的公式。如图1
‑
b所示，该图中的公式则为图1
‑
b的全部，这样公式对应的目标区域实际上包含的公式内容较多，公式较为复杂，这时基于本步骤的方法可以将这个目标区域进行划分，得到多个公式单元分别对应的识别区域。也就是说，在本步骤中实际上对公式进行了拆分，得到多个公式单元，这样可以便于后续的识别。
88.103、对一个或者多个公式单元进行识别，得到对应公式识别结果。
89.当得到多个识别区域后，由于识别区域中包含的都是拆分后简单的公式或某一个较为复杂的公式中的一部分，即公式单元。这时可以基于预设识别模型对识别区域执行识别操作，其识别过程可以如下：
90.首先，将识别区域与预设识别模型内的多个卷积核进行卷积，生成多个识别区域的特征图像；
91.然后，对各个特征图像进行反卷积，从而生成识别区域的多个分割图像，在此期间，各个分割图像与识别区域中的各公式符号一一对应；
92.之后，确定各个公式符号之间的关联关系，并基于公式符号和公式符号之间的关联关系输出公式的识别结果，具体来说，本实施例所述的识别过程可以理解为将图片中的公式进行扫描和识别，从而提取出公式内容，即由像素转换为对应的数据的过程，例如图1
‑
c所示，即将一个公式识别为对应的公式数据。
93.需要说明的是，在本实施例中所述预设识别模型及上述识别过程均与常规的识别方式一致，例如，可以为一种字符识别模型，能对需要识别的区域中的文字、数字和符号进行分析和识别。当然，基于预设识别模型的种类不同，上述识别方式也与之改变，在此并不做过多赘述，在具体的识别过程中可以采用现有的任意种预设识别模型并使用相应的识别方式进行识别，上述识别过程仅为示例性的，在此并不做具体的限定，可以基于用户实际应用中的实际需要进行选取。
94.104、将所述公式识别结果输出。
95.在识别出识别区域中的公式后，则可以将前述步骤103中得到的公式识别结果进行输出。在此需要说明的是，输出的过程所使用的输出方式可以基于用户的需要进行选取。例如，当用户需要语音方式输出时，则可以将识别结果以音频的方式进行输出，从而使用户能够以所需的方式进行识别结果的获取。
96.基于此，上述实施例提供的一种图片中公式的识别方法，对于现有技术在对图片中公式进行识别时，往往会因图片中包含的内容较多、较为复杂时，导致识别效果较差的问题，本发明通过获取待识别图片，并从所述待识别图片中确定目标区域；然后将所述目标区域进行划分，得到一个或者多个识别区域；之后对一个或者多个所述公式单元进行识别，得到对应公式识别结果，最后将所述公式识别结果输出，从而实现了图片中公式的识别功能。在上述方案中，由于所述目标区域为至少一个，所述目标区域为包含有公式的区域，且所述识别区域包含至少一个公式的区域，所述公式包含多个所述公式单元，这就确保了在识别过程中能够当图片中的公式较为复杂时，能够将复杂的公式拆分成多个小公式或公式中的部分内容并按照识别区域分布进行识别，从而确保了在面对公式较为复杂的情况下，也能够基于本发明的方式进行识别，从而改善识别效果。另外，由于在本发明中可以在获取待识别图片后可以从中确定包含有公式的目标区域，这就确保了在一个图片中不仅包含公式也包含其他内容时仍可以对公式进行识别，从而解决了当待识别图片中包含内容较多、较为复杂情况下的公式识别效果较差的问题，进一步改善了图片中公式的识别效果。
97.在一些实施例中，由于用户在进行图片中公式识别的过程中，需要将图片中全部的内容进行识别，即需要将多个识别区域识别后还需要进行组合，得到整个目标区域中公式的识别结果，这时前述实施例的步骤102中，将所述目标区域进行划分，得到一个或者多个识别区域包括：
98.首先，从所述目标区域中确定每个所述识别区域；
99.然后，获取每个所述识别区域对应的位置信息。
100.在前述步骤104中将所述公式识别结果输出之前，所述方法还包括：
101.按照所述位置信息将多个所述识别区域对应的识别结果进行组合，得到所述组合结果，所述组合结果用于表征多个所述公式单元组成的所述公式；
102.基于此，前述步骤104中将所述公式识别结果输出，具体可以为：将所述组合结果输出。
103.这样，在上述步骤中，从所述目标区域中确定每个所述识别区域，具体可以一种基于目标几何和统计特征的对原图像的进行图像分割的过程，具体执行过程可以基于现有的目标检测算法执行，该目标检测算法是用于将图片中的一些部分识别出并检测该部分在图
片中的位置。在分割的过程中能够确定图像中的每个目标，并同时可以进行定位和分类。在本实施例中，由于后续需要输出包含整个目标区域的全部内容的识别结果，因此在本步骤中可以将目标区域中每个识别区域进行分割、确定，同时获取相应的位置信息，并在后续得到每个识别区域的识别结果后将这些识别结果基于识别区域的位置信息进行组合，从而确保了能够将多个识别结果组合成组合结果的效果，即将多个公式单元识别后按照公式单元对应的识别区域的位置信息组合成公式的组合结果，这样在后续输出时可以将整个目标区域内的公式进行整体输出，实现了公式识别后整体输出的效果，满足了用户一次性获知目标区域中公式全部内容的识别功能。
104.需要说明的是，在实际应用中，由于待识别图片中的公式等内容还可能存在因排版布局，导致一个公式中部分内容之间距离较大的问题，这样可以通过在目标区域中确定识别区域时还可能存在识别错误的情况，例如，可能将某个公式对应的目标区域在本无需拆分成两个识别区域的情况下误拆分的问题。
105.为此，在本步骤中得到识别区域后，还可以将该识别区域输出至用户，由用户通过点选的方式进行校准，例如，当用户发现识别区域a和识别区域b实际上是一个公式时，这时可以由用户通过选择的方式将这两个识别区域合并成一个识别区域a。这样，就能够避免某些情况下，由于待识别图片中排版、印刷等过程使某些公式之间各个部分距离过大导致的识别错误的问题，从而可以提高整体的公式识别的准确性。
106.另外，在本步骤中在向用户输出识别区域时，当用户发现某个识别区域实际上是错误的，或不需要进行识别，那么还可以通过接收用户下达的指令在多个识别区域中将该指令涉及的识别区域进行删除或忽略，这样，在检测到用户下达指令确定某个或某几个识别区域可以删除或忽略时，能够节省对这个或这几个识别区域进行后续识别分析的过程，从而可以使本实施例所述的方法在执行过程中，能够避免对不必要的识别区域进行识别带来的时间消耗和系统资源的消耗问题。
107.在一些实施例中，某些情况下，用户可能仅需要对目标区域内的一部分内容进行识别，即仅对公式中的某个或某几个公式单元进行识别，而无需全部识别，这时还可以基于用户需要选取需要识别的识别区域。因此，在前述实施例中步骤103的对一个或者多个所述公式单元进行识别，得到对应公式识别结果之前，所述方法还包括：
108.将多个所述公式单元输出，并接收用户反馈的指示信息，其中，所述指示信息是用户在基于输出的所述公式单元后触发的，所述指示信息用于从多个所述公式单元选取目标识别区域，在本步骤中输出的所述公式单元可以如图1
‑
d所示，其中每一个公式单元可以用图框包围，当用户确定需要识别哪一个时，可以通过预设指令选取对应的图框，从而实现指示信息的生成。
109.前述实施例中步骤103的对一个或者多个所述公式单元进行识别，得到对应公式识别结果，包括：
110.根据所述预设识别模型对所述目标识别区域执行公式识别操作，得到对应所述目标识别区域的公式识别结果。
111.基于本步骤的方法，能够在向用户输出识别区域后，由用户的指示信息确定后续需要识别的目标识别区域，从而确保了识别过程能够基于用户需要选取所需识别的内容，从而避免了全部识别导致不必要的识别过程，可以减少识别过程中资源的占用，并能够满
足用户针对性的识别需求。
112.在一些实施例中，由于目标区域可能是一个也可能是多个，尤其是当目标区域为多个时，可能需要将全部的目标区域都进行划分得到识别区域，以便后续的识别操作，也可能仅需要将部分目标区域进行划分得到识别区域，基于此，前述实施例步骤102中，将所述目标区域进行划分，得到一个或者多个识别区域，包括：
113.一方面，当所述目标区域为多个时，将多个所述目标区域分别进行识别，得到对应每个所述目标区域的一个或多个所述识别区域。这时，可以理解为多个目标区域都需要进行后续的识别操作，那么在本步骤中则需要对这些目标区域分别进行划分，得到对应每个目标区域的识别区域，后续则可以继续进行识别操作。由于能够在多个目标区域的情况下对所有的目标区域均进行识别，可以确保在某些情况下当一个图片中存在多个公式时，可以实现将多个公式一同识别的效果，满足了用户同时获取一个图片中的所有公式的需要。
114.另一方面，当所述目标区域为多个时，基于用户选择的至少一个第一目标区域进行识别，分别得到一个或多个所述识别区域。在这种情况下，可以理解通过一种预设交互界面来向用户显示，使用户选择需要识别的是哪里，即以预设交互界面来确定多个目标区域时具体选取哪个进行后续的识别操作，该预设交互界面中可以将每个目标区域分别用特定方式进行标记，这样用户在观看到该预设交互界面时就能马上获知当前的图片中有多少个公式是需要识别的，而用户则可以在预设交互界面进行选取，并生成对应的反馈指令，从而可以由反馈指令来确定出用户需要后续识别哪一个公式，即第一目标区域。通过这种方式可以使后续的识别过程中，在检测到多个目标区域的情况下，避免对所有的目标区域进行识别带来的系统负担，这样能够使用户通过在预设交互界面下达的反馈指令的方式，来对用户所需的第一目标区域进行划分和识别的效果，从而使本实施例的方法更具针对性。
115.在一些实施例中，前述实施例中从所述目标区域中确定每个所述识别区域，在执行时包括：
116.首先，在所述目标区域中按照数据种类添加对应的分类标识，其中，所述分类标识用于表征所述目标区域中数据的类别，所述分类标识包括括号类别标识和文本类别标识。在本步骤中，所述分类标识可以理解为在目标区域中确定基于其中包含的数据内容进行分类的标签，由于公式中一般包括文本部分(字母和数字)以及符号部分(括号等)，因此，在本步骤中可以在目标区域中确定文本部分并确定为分类标识中的文本类别标识，同时将符号部分确定为分类标识的括号类别标识。
117.然后，根据所述分类标识将所述目标区域划分，得到每个所述识别区域。基于分类标识，可以确定不同区域所包含的内容，这样就可以在划分识别区域时直接基于分类标识执行。
118.在本实施例中，由于划分识别区域的过程是基于为目标区域中的数据种类添加对应的分类标识，并基于分类标识进行划分，得到识别区域，这样就确保了在识别过程中能够基于目标区域中数据内容的种类进行划分，从而确保了划分的识别区域时能够以公式中的不同数据内容和符号进行划分得到对应每个公式单元，确保了划分的识别区域的准确性，避免划分错误影响后续识别区域的识别效果的问题，继而可以整体上提高图片中公式识别的准确性。
119.在一些实施例中，为了进一步的提高识别过程的准确性，在确定识别区域后还可
以将识别区域进行处理，具体的可以包括但不限于添加能够便于后续识别的边界框，基于此前述步骤中根据所述分类标识将所述目标区域划分，得到每个所述识别区域，在具体执行时可以按照下述方式进行，其中包括：
120.为所述目标区域添加边界框，得到识别单元，其中，所述边界框用于区分所述目标区域中不同的所述识别区域。
121.基于此，对一个或者多个所述公式单元进行识别，得到对应公式识别结果，则可以具体为：根据预设识别模型对所述识别单元执行公式识别操作，得到对应所述识别单元的识别结果。这样可以在目标区域中确定了识别区域后，可以为每个识别区域添加对应的边界框，这样形成每一个后续需要识别的单元区域，即识别单元，这样就确保了后续识别的过程中可以按照识别单元进行识别，从而在公式识别操作时便于在对每个需要识别的公式单元进行获取和识别。
122.另外，在实际应用中，由于边界框的大小、形式可能会对后续识别的结果造成影响，例如当某识别区域本身较小，若添加一个较大边界框可能会影响其他识别区域的识别，又或者几个识别区域可能互为相邻，若边界框较大可能会互相覆盖。有鉴于此，在本实施例中，在目标区域中对每个识别区域添加边界框时，可以将添加了边界框后的识别单元输出至用户，由用户进行判断是否可以基于当前确定的识别单元进行后续的识别过程。当然，在这个过程中还可以同时提供不同大小和形式的边界框，这样可以由用户在发现个别识别单元之间存在互相影响的情况下，能够调整每个识别单元的边界框，从而有利于后续识别的准确性。
123.在一些实施例中，由于待识别图片中可能包含很多不同的内容，不仅包含公式，还有其他不需要进行识别的文本、图像等，例如图1
‑
e所示，其中需要识别的仅仅为图的上半部分对应的公式，而下半部分的文字等内容实际上是不需要识别的。因此，在本实施例的方法中，前述实施例中步骤101获取待识别图片，并从所述待识别图片中确定目标区域，在具体执行时可以包括：
124.首先，将所述待识别图片划分为第一区域及第二区域，其中，所述第一区域为包含所述公式的区域，所述第二区域为所述待识别图片中除所述公式所在区域之外的区域；然后，将所述第一区域确定为所述目标区域。
125.基于前述实施例的描述可知，可以就图片中包含的内容的特点进行划分成不同的区域，这样可以基于公式的特点从待识别图片中的全部数据内容中确定哪一部分是包含公式的区域，作为第一区域，其他部分作为不需要识别的第二区域，并将第一区域确定为后续需要识别的目标区域，这样就确保了能够将图片中的公式部分和非公式部分进行划分的效果，从而可以使后续能够准确获取包含公式的目标区域，从而无需对第二区域的内容进行识别，既能够减少识别过程中不必要的资源占用，还能够减少因第二区域的内容影响目标区域中公式识别效果的问题。
126.另外，在本实施例中，由于可能存在待识别图片中的显示清晰度的影响导致的第一区域和第二区域的划分不准的情况，为了解决这个问题，还可以在确定出第二区域后，输出至用户，并由用户对该第二区域进行人工分析，以判断是否在该第二区域中也存在公式的情况。然后检测用户是否下达了指令，以重新确定第一区域。这样，就可以避免某些情况下识别第一区域时将某些公式遗漏的情况，可以提高识别的准确性。
127.在一些实施例中，由于用户可能存在不同的输出需求，例如可以将公式语音输出，或者以图片的形式输出，这样前述实施例中步骤104将所述公式识别结果输出，在执行时可以按照下述方式执行，其中包括：
128.通过预设方式将所述公式识别结果输出。
129.其中，所述预设方式包括图像方式、代码方式以及语音方式，所述代码方式包括latex源码。
130.在以图像方式进行输出的过程中，可以理解为用户在将待识别图片按照上述方式执行公式识别的过程中，仅仅需要将原来的待识别图片中的公式部分进行提取的过程，例如图1
‑
f所示。
131.另外，当以代码方式进行输出时，则可以选取代码的种类后进行输出，在本实施例中可以通过latex源码输出公式，如图1
‑
g所示，其中，latex源码音译“拉泰赫”代码，是一种基于τεx的排版方法，由美国计算机学家开发的可用于表达复杂表格和数学公式。由于它非常适用于计算机系统识别并生成高印刷质量的科技和数学类文档，因此可以广泛使用于公式等复杂结构的文本的表达。当然，由于latex源码理解起来较为复杂，通常可以将识别后得到latex源码后再转换成图像的方式进行输出。当然，在本实施例中，具体的输出方式可以基于用户所选取的预设方式进行，在此不做具体的限定，可以以实际需要为准。
132.由于能够基于预设方式进行输出，这就确保了当用户有不同的需求时，选取相应的预设方式进行输出，继而确保了输出方式的灵活性，从而有利于用户以适合的方式获知图片中公式的识别结果。
133.进一步的，作为对上述图1及多种实施例所示方法的实现，本发明实施例还提供了一种图片中公式的识别装置，用于对上述图1以及上述多个实施例所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图2所示，该装置包括：确定单元21、划分单元22、执行单元23及输出单元24，其中
134.确定单元21，可以用于获取待识别图片，并从所述待识别图片中确定目标区域，其中，所述目标区域为至少一个；所述目标区域为包含有公式的区域；
135.划分单元22，可以用于将所述目标区域进行划分，得到一个或者多个识别区域，其中，所述识别区域包含至少一个公式的区域，所述公式包含多个所述公式单元；
136.执行单元23，可以用于对一个或者多个所述公式单元进行识别，得到对应公式识别结果；
137.输出单元24，可以用于将所述公式识别结果输出。
138.借由上述技术方案，本发明提供的图片中公式的识别方法及装置，对于现有技术在对图片中公式进行识别时，往往会因图片中包含的内容较多、较为复杂时，导致识别效果较差的问题，本发明通过获取待识别图片，并从所述待识别图片中确定目标区域；然后将所述目标区域进行划分，得到一个或者多个识别区域；之后对一个或者多个所述公式单元进行识别，得到对应公式识别结果，最后将所述公式识别结果输出，从而实现了图片中公式的识别功能。在上述方案中，由于所述目标区域为至少一个，所述目标区域为包含有公式的区域，且所述识别区域包含至少一个公式的区域，所述公式包含多个所述公式单元，这就确保
了在识别过程中能够当图片中的公式较为复杂时，能够将复杂的公式拆分成多个小公式或公式中的部分内容并按照识别区域分布进行识别，从而确保了在面对公式较为复杂的情况下，也能够基于本发明的方式进行识别，从而改善识别效果。另外，由于在本发明中可以在获取待识别图片后可以从中确定包含有公式的目标区域，这就确保了在一个图片中不仅包含公式也包含其他内容时仍可以对公式进行识别，从而解决了当待识别图片中包含内容较多、较为复杂情况下的公式识别效果较差的问题，进一步改善了图片中公式的识别效果。
139.可选的，所述划分单元具体用于：
140.从所述目标区域中确定每个所述识别区域；
141.获取每个所述识别区域对应的位置信息；
142.在所述将所述公式识别结果输出之前，所述方法还包括：
143.按照所述位置信息将多个所述识别区域对应的识别结果进行组合，得到所述组合结果，所述组合结果用于表征多个所述公式单元组成的所述公式；
144.所述将所述公式识别结果输出，包括：
145.将所述组合结果输出。
146.可选的，所述装置还包括处理单元，所述处理单元用于：
147.将多个所述公式单元输出，并接收用户反馈的指示信息，其中，所述指示信息是用户在基于输出的所述公式单元后触发的，所述指示信息用于从多个所述公式单元选取目标识别区域；
148.所述对一个或者多个所述公式单元进行识别，得到对应公式识别结果，包括：
149.根据所述预设识别模型对所述目标识别区域执行公式识别操作，得到对应所述目标识别区域的公式识别结果。
150.可选的，所述划分单元具体用于：
151.当所述目标区域为多个时，将多个所述目标区域分别进行识别，得到对应每个所述目标区域的一个或多个所述识别区域；
152.或者，
153.当所述目标区域为多个时，基于用户选择的至少一个第一目标区域进行识别，分别得到一个或多个所述识别区域。
154.可选的，所述划分单元具体用于：
155.在所述目标区域中按照数据种类添加对应的分类标识，其中，所述分类标识用于表征所述目标区域中数据的类别，所述分类标识包括括号类别标识和文本类别标识；
156.根据所述分类标识将所述目标区域划分，得到每个所述识别区域。
157.本技术实施例提供的方法，可以由客户端执行也可以由服务器执行，以下对执行上述方法的客户端和服务器分别进行说明。
158.图3示出了一种客户端300的框图。例如，客户端300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
159.参照图3，客户端300可以包括以下一个或多个组件：处理组件302，存储器304，电源组件306，多媒体组件308，音频组件310，输入/输出(i/o)的接口33，传感器组件314，以及通信组件316。
160.处理组件302通常控制客户端300的整体操作，诸如与显示，电话呼叫，数据通信，
相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理部件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。
161.存储器304被配置为存储各种类型的数据以支持在客户端300的操作。这些数据的示例包括用于在客户端300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
162.电源组件306为客户端300的各种组件提供电力。电源组件306可以包括电源管理系统，一个或多个电源，及其他与为客户端300生成、管理和分配电力相关联的组件。
163.多媒体组件308包括在所述客户端300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当客户端300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
164.音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(mic)，当客户端300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。
165.i/o接口为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
166.传感器组件314包括一个或多个传感器，用于为客户端300提供各个方面的状态评估。例如，传感器组件314可以检测到设备300的打开/关闭状态，组件的相对定位，例如所述组件为客户端300的显示器和小键盘，传感器组件314还可以检测客户端300或客户端300一个组件的位置改变，用户与客户端300接触的存在或不存在，客户端300方位或加速/减速和客户端300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
167.通信组件316被配置为便于客户端300和其他设备之间有线或无线方式的通信。客户端300可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件316还包括近场通信(nfc)模块，以促进短程通
信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
168.在示例性实施例中，客户端300可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法：
169.获取待识别图片，并从所述待识别图片中确定目标区域，其中，所述目标区域为至少一个；所述目标区域为包含有公式的区域；
170.将所述目标区域进行划分，得到一个或者多个识别区域，其中，所述识别区域包含至少一个公式的区域，所述公式包含多个所述公式单元；
171.对一个或者多个所述公式单元进行识别，得到对应公式识别结果；
172.将所述公式识别结果输出。
173.可选的，所述将所述目标区域进行划分，得到一个或者多个识别区域包括：
174.从所述目标区域中确定每个所述识别区域；
175.获取每个所述识别区域对应的位置信息；
176.在所述将所述公式识别结果输出之前，所述方法还包括：
177.按照所述位置信息将多个所述识别区域对应的识别结果进行组合，得到所述组合结果，所述组合结果用于表征多个所述公式单元组成的所述公式；
178.所述将所述公式识别结果输出，包括：
179.将所述组合结果输出。
180.可选的，在对一个或者多个所述公式单元进行识别，得到对应公式识别结果之前，所述方法还包括：
181.将多个所述公式单元输出，并接收用户反馈的指示信息，其中，所述指示信息是用户在基于输出的所述公式单元后触发的，所述指示信息用于从多个所述公式单元选取目标识别区域；
182.所述对一个或者多个所述公式单元进行识别，得到对应公式识别结果，包括：
183.根据所述预设识别模型对所述目标识别区域执行公式识别操作，得到对应所述目标识别区域的公式识别结果。
184.可选的，所述从所述目标区域中确定每个所述识别区域包括：
185.在所述目标区域中按照数据种类添加对应的分类标识，其中，所述分类标识用于表征所述目标区域中数据的类别，所述分类标识包括括号类别标识和文本类别标识；
186.根据所述分类标识将所述目标区域划分，得到每个所述识别区域。
187.可选的，所述根据所述分类标识将所述目标区域划分，得到每个所述识别区域，包括：
188.为所述目标区域添加边界框，得到识别单元，其中，所述边界框用于区分所述目标区域中不同的所述识别区域；
189.所述对一个或者多个所述公式单元进行识别，得到对应公式识别结果包括：
190.根据预设识别模型对所述识别单元执行公式识别操作，得到对应所述识别单元的识别结果。
191.可选的，所述获取待识别图片，并从所述待识别图片中确定目标区域包括：
192.将所述待识别图片划分为第一区域及第二区域，其中，所述第一区域为包含所述公式的区域，所述第二区域为所述待识别图片中除所述公式所在区域之外的区域；
193.将所述第一区域确定为所述目标区域。
194.可选的，所述将所述公式识别结果输出，包括：
195.通过预设方式将所述公式识别结果输出，其中，所述预设方式包括图像方式、代码方式以及语音方式，所述代码方式包括latex源码。
196.图4是本技术实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。
197.更进一步地，中央处理器422可以执行下述方法：
198.获取待识别图片，并从所述待识别图片中确定目标区域，其中，所述目标区域为至少一个；所述目标区域为包含有公式的区域；
199.将所述目标区域进行划分，得到一个或者多个识别区域，其中，所述识别区域包含至少一个公式的区域，所述公式包含多个所述公式单元；
200.对一个或者多个所述公式单元进行识别，得到对应公式识别结果；
201.将所述公式识别结果输出。
202.可选的，所述将所述目标区域进行划分，得到一个或者多个识别区域包括：
203.从所述目标区域中确定每个所述识别区域；
204.获取每个所述识别区域对应的位置信息；
205.在所述将所述公式识别结果输出之前，所述方法还包括：
206.按照所述位置信息将多个所述识别区域对应的识别结果进行组合，得到所述组合结果，所述组合结果用于表征多个所述公式单元组成的所述公式；
207.所述将所述公式识别结果输出，包括：
208.将所述组合结果输出。
209.可选的，在对一个或者多个所述公式单元进行识别，得到对应公式识别结果之前，所述方法还包括：
210.将多个所述公式单元输出，并接收用户反馈的指示信息，其中，所述指示信息是用户在基于输出的所述公式单元后触发的，所述指示信息用于从多个所述公式单元选取目标识别区域；
211.所述对一个或者多个所述公式单元进行识别，得到对应公式识别结果，包括：
212.根据所述预设识别模型对所述目标识别区域执行公式识别操作，得到对应所述目标识别区域的公式识别结果。
213.可选的，所述从所述目标区域中确定每个所述识别区域包括：
214.在所述目标区域中按照数据种类添加对应的分类标识，其中，所述分类标识用于
表征所述目标区域中数据的类别，所述分类标识包括括号类别标识和文本类别标识；
215.根据所述分类标识将所述目标区域划分，得到每个所述识别区域。
216.可选的，所述根据所述分类标识将所述目标区域划分，得到每个所述识别区域，包括：
217.为所述目标区域添加边界框，得到识别单元，其中，所述边界框用于区分所述目标区域中不同的所述识别区域；
218.所述对一个或者多个所述公式单元进行识别，得到对应公式识别结果包括：
219.根据预设识别模型对所述识别单元执行公式识别操作，得到对应所述识别单元的识别结果。
220.可选的，所述获取待识别图片，并从所述待识别图片中确定目标区域包括：
221.将所述待识别图片划分为第一区域及第二区域，其中，所述第一区域为包含所述公式的区域，所述第二区域为所述待识别图片中除所述公式所在区域之外的区域；
222.将所述第一区域确定为所述目标区域。
223.可选的，所述将所述公式识别结果输出，包括：
224.通过预设方式将所述公式识别结果输出，其中，所述预设方式包括图像方式、代码方式以及语音方式，所述代码方式包括latex源码。
225.服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口456，一个或一个以上键盘456，和/或，一个或一个以上操作系统441，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
226.本技术实施例还提供了一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行以上方法实施例提供的图片中公式的识别方法。
227.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求指出。
228.应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制
229.以上所述仅为本技术的较佳实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图片处理方法、装置、电子设备及存储介质与流程

图片中公式的识别方法、装置及存储介质与流程

相关文献

最热文献