文档图像矫正方法、装置、存储介质及智能终端设备与流程

2021-11-09 21:49:00 来源：中国专利 TAG：

1.本技术涉及图像处理技术领域，尤其涉及一种文档图像矫正方法、装置、存储介质及智能终端设备。

背景技术：

2.在日常办公生活中，会经常需要将纸质文档转换成电子版文档，传统做法通常是使用扫描仪来实现。随着智能终端设备的普及以及智能终端设备摄像质量的提升，使用智能终端设备就可以通过拍照的方式将纸质文档转换成电子版文档。然而，由于拍摄角度和取景范围难以精确控制，在使用拍照的方式将纸质文档转换成电子版文档时，在拍摄角度不当时，在拍摄到的图像中纸质文档会有一定的歪斜，存在透视变形。
3.因此，上述问题会导致转换后的电子版文档阅读不便且不便于存档。

技术实现要素：

4.本技术实施例提供了一种文档图像矫正方法、装置、存储介质及智能终端设备，应用于智能终端设备，可以对文档图像中的存在畸变与歪斜的文档进行矫正，方便用户阅读以及文档存档。所述技术方案如下：
5.第一方面，本技术实施例提供了一种文档图像矫正方法，所述方法应用于智能终端设备，所述方法包括：
6.获取原始文档图像；
7.将所述原始文档图像输入至边缘检测模型中，得到所述原始文档图像对应的边缘概率图像，所述边缘检测模型包括语义分割分支和边缘检测分支，所述语义分割分支用于基于所述原始文本图像的语义信息得到第一边缘图像，所述边缘检测分支用于对所述原始文本图像进行边缘检测得到第二边缘图像，所述边缘概率图像为所述第一边缘图像与所述第二边缘图像的融合图像；
8.从所述边缘概率图像中确定原始文档图像中文档的顶点坐标；
9.基于所述原始文档图像中文档的顶点坐标计算透视变换矩阵，并根据所述透视变换矩阵对所述原始文档图像进行透视矫正，得到目标文档图像。
10.第二方面，本技术实施例提供了一种文档图像矫正装置，所述文档图像矫正装置包括：
11.原始图像获取模块，用于获取原始文档图像；
12.边缘检测模块，用于将所述原始文档图像输入至边缘检测模型中，得到所述原始文档图像对应的边缘概率图像，所述边缘检测模型包括语义分割分支和边缘检测分支，所述语义分割分支用于基于所述原始文本图像的语义信息得到第一边缘图像，所述边缘检测分支用于对所述原始文本图像进行边缘检测得到第二边缘图像，所述边缘概率图像为所述第一边缘图像与所述第二边缘图像的融合图像；
13.第一坐标获取模块，用于从所述边缘概率图像中确定原始文档图像中文档的顶点
坐标；
14.矩阵矫正模块，用于基于所述原始文档图像中文档的顶点坐标计算透视变换矩阵，并根据所述透视变换矩阵对所述原始文档图像进行透视矫正，得到目标文档图像。
15.第三方面，本技术实施例提供一种存储介质，所述存储介质存储有至少一条指令，所述至少一条指令适于由处理器加载并执行上述的方法步骤。
16.第四方面，本技术实施例提供一种智能终端设备，可包括：处理器和存储器；其中，所述存储器存储有至少一条指令，所述至少一条指令适于由所述处理器加载并执行上述的方法步骤。
17.本技术一些实施例提供的技术方案带来的有益效果至少包括：
18.采用本技术实施例提供的文档图像矫正方法，首先获取原始文档图像，然后将所述原始文档图像输入至包括语义分割分支和边缘检测分支的边缘检测模型中，得到所述原始文档图像对应的边缘概率图像，再从边缘概率图像中确定所述原始文档图像中文档的顶点坐标，基于原始文档图像中文档的顶点坐标计算出透视变换矩阵，最后基于所述透视变换矩阵对所述原始文档图像进行透视矫正，以得到包括畸变修复后的正视角文档图像的目标文档图像，不存在歪斜与畸变，方便用户阅读以及文档存档，提升了用户体验。
附图说明
19.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1为本技术实施例提供了文档图像中文档畸变的举例示意图；
21.图2为本技术实施例提供了一种文档图像矫正方法的流程示意图；
22.图3为本技术实施例提供了一种获取边缘概率图的举例示意图；
23.图4为本技术实施例提供了一种文档图像矫正方法的流程示意图；
24.图5为本技术实施例提供了一种直线集合与交点滤除后的第一交点集合的举例示意图；
25.图6为本技术实施例提供了一种由四类交点得到顶点坐标的举例示意图；
26.图7为本技术实施例提供了一种计算顶点坐标的举例示意图；
27.图8为本技术实施例提供了一种透视矫正的举例示意图；
28.图9为本技术实施例提供了一种目标文档裁剪的举例示意图；
29.图10为本技术实施例提供了一种文档图像矫正方法的流程示意图；
30.图11为本技术实施例提供了一种细化处理的举例示意图；
31.图12为本技术实施例提供了一种文档图像矫正装置的结构示意图；
32.图13为本技术实施例提供了一种智能终端设备的结构示意图。
具体实施方式
33.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于
本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
34.在本技术的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本技术的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本技术中的具体含义。此外，在本技术的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
35.为了更清楚的描述本发明实施例的技术方案，在描述之前，对本发明中的一些概念进行详细描述以便更好的理解本方案。
36.边缘检测:边缘检测是图像处理和计算机视觉中的基本问题，边缘检测的目的是标识数字图像中亮度变化明显的像素点(通常是图形的边缘)。边缘是指图像上灰度级变化很快的像素点的集合。
37.语义分割：是像素级别的图像分类，用于为图像中的每个像素分类并根据图像的语义来进行分割，语义指的是图像的内容。
38.边缘概率图像：一种灰度图像，其上各像素点的灰度值表示该像素点为边缘像素点的概率。
39.透视变换：将图像从一个视平面投影到另外一个视平面的过程，所以透视变换也被称为投影映射。例如在拍摄文档图像的过程中，如果文档所处的平面与摄像头的成像平面不是平行的，那么拍摄得到的文档在图像中就会发生畸变。这种畸变就是透视畸变的一种，这种畸变具体可呈现为距离摄像头越近的点，看起来越大，越远的点看起来越小。
40.透视变换对畸变图像的校正需要取得畸变图像的一组四个点的坐标和目标图像的一组四个点的坐标，通过两组坐标点可以计算出透视变换的变换矩阵，之后对整个原始图像执行变换矩阵的变换，就可以实现图像校正。
41.请参见图1，为本技术实施例提供了文档图像中文档畸变的举例示意图。如图1所示，所示智能终端需要对所示纸质文档进行拍摄以获取所示纸质文档的电子版文档，在拍摄过程中因为拍摄角度和范围的把控不当，实际拍摄效果如图1中文档图像所示，纸质文档在所示电子版文档中发生了明显歪斜且周围有很大的背景区域，不便于进行阅读以及存档处理，在后续若需要对此文档进行ocr文字识别，也是比较难以实现很好的识别效果。
42.基于此，本技术实施例提供一种文档图像矫正方法、装置、存储介质及智能终端设备，其中该文档图像矫正方法的执行主体可以是本技术实施例提供的文档图像矫正装置，或者集成了该文档图像矫正装置的智能终端设备，其中该文档图像矫正装置可以采用硬件或软件的方式实现。其中，智能终端设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者智能穿戴设备等配置有处理器(包括但不限于通用处理器、定制化处理器等)和摄像头而具有拍摄图像和处理图像的能力的设备。
43.在本技术实施例中，首先获取原始文档图像，然后使用包括语义分割分支和边缘检测分支的边缘检测模型对原始文档图像进行边缘检测，使得到的边缘概率图像更加准确；再从边缘概率图像中确定所述原始文档图像中文档的顶点坐标，基于原始文档图像中文档的顶点坐标计算出透视变换矩阵，最后基于所述透视变换矩阵对所述原始文档图像进行透视矫正，以得到包括畸变修复后的正视角文档图像的目标文档图像，方便了用户阅读以及文档存档，提升了用户体验。
44.下面结合具体的实施例进行详细说明，为了便于说明，下述实施例均以智能终端设备为智能手机为例进行说明。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。附图中所示的流程图仅是示例性说明，不是必须按照所示步骤执行。例如，有的步骤是并列的，在逻辑上并没有严格的先后关系，因此实际执行顺序是可变的。
45.请参见图2，为本技术实施例提供了一种文档图像矫正方法的流程示意图。如图2所示，所述文档图像矫正方法可以包括以下步骤s101～s104。
46.s101，获取原始文档图像；
47.其中，所述原始文档图像即存在畸变的文档图像。所述原始文档图像可以是指便捷式摄像头或者摄像机等可拍摄设备拍摄所形成的文本图像。
48.不难理解，在使用便捷式摄像头或者摄像机等可拍摄设备进行拍摄时，由于拍摄角度和取景范围的难以把控，所拍摄到的原始文档图像或多或少的存在畸变问题。
49.示例性的，原始文档图像具体可参见图1中所示的电子版文档。
50.可选的，所述原始文档图像中的文档类型包括但不限于书籍(封面/内页)、卡片(名片/身份证/银行卡)、票据(火车票/机票/发票/小票/收据等)、纸张(试卷/海报/菜单/传单/报纸)、ppt投影/tv/电脑屏幕等。
51.s102,将所述原始文档图像输入至边缘检测模型中，得到所述原始文档图像对应的边缘概率图像，所述边缘检测模型包括语义分割分支和边缘检测分支，所述语义分割分支用于基于所述原始文本图像的语义信息得到第一边缘图像，所述边缘检测分支用于对所述原始文本图像进行边缘检测得到第二边缘图像，所述边缘概率图像为所述第一边缘图像与所述第二边缘图像的融合图像；
52.具体的，将所述原始文档图像输入至训练好的边缘检测模型中，由所述边缘检测模型中的语义分割分支基于所述原始文本图像的语义信息得到第一边缘图像，以及由所述边缘检测模型中的边缘检测分支对所述原始文本图像进行边缘检测得到第二边缘图像，基于所述第一边缘图像中的分割结果以及第二边缘图像中的边缘检测结果得到最终的边缘概率图。
53.所述边缘检测模型包括语义分割分支和边缘检测分支。所述语义分割分支用于对所述原始文档图像进行语义分割，具体为所述原始文档图像中的每个像素点分类并根据原始文档图像中各部分图像的语义来进行分割。在本技术实施例中，主要将原始文档图像中语义为文档的像素点所组成的图像进行分割，得到语义分割后的第一边缘图像。所述边缘检测分支用于检测所述原始文档图像中可能是边缘的像素点，边缘即指原始文档图像中灰度级变化很快的像素点的集合，对所述原始文档图像进行边缘检测可得到第二边缘图像。
54.不难理解，所述边缘检测分支对所述原始文档图像进行边缘检测后得到的第二边缘图像中存在的边缘不仅仅包括文档的边缘，还可能包括文档之外的背景区域内可能存在的一些边缘，而所述第一边缘图像中仅包括原始文档图像中文档的分割结果，因此结合所述第一边缘图像和所述第二边缘图像可将所述第而边缘图像中不属于文档的边缘滤除掉，生成最终的边缘概率图像。所述边缘概率图中包括对应于所述文档的文档边缘框。
55.在本技术实施例中，所述边缘概率图可以是灰度图像，所述边缘概率图中每一个像素点的灰度值表示该像素点为边缘的概率，例如像素点1为边缘的概率为0.5，则它在所述边缘概率图中显示的灰度值为255*0.5＝127.5。
56.请参见图3，为本技术实施例提供了一种获取边缘概率图像的举例示意图。如图3所示，所示边缘检测模型包括编码网络、解码网络、语义分割分支以及边缘检测分支，将原始文档图像输入至边缘检测模型中，由所示边缘检测模型中的语义分割分支可得到第一边缘图像，由所示边缘检测模型中的边缘检测分支可得到第二边缘图像，结合所示第一边缘图像以及所示第二边缘图像的结果，可得到最终如图3所示的边缘概率图像。不难看出，图3中所示第一边缘图像由语义分割分支对原始文档图像进行语义分割得到，所示第一边缘图像中标示出文档所在的文档区域以及非文档区域，如图3中所示第一边缘图像中白色区域为文档区域，黑色区域为非文档区域；所示第二边缘图像由边缘检测分支对原始文档图像进行边缘检测得到，而第二边缘图像中不仅包括文档的边缘，还包括除文档之外的无效边缘，由第二边缘图像结合语义分割分支得到的第一边缘图像，可将第二边缘图像中不属于文档的无效边缘滤除，得到仅包括文档边缘的边缘概率图像。
57.在本技术实施例中，边缘概率图像中的文档边缘统称为文档边缘框。
58.s103,从所述边缘概率图像中确定所述原始文档图像中文档的顶点坐标；
59.在一种可实现的方式中，可以通过对所述边缘概率图像中文档边缘框进行直线检测，得到基于文档边缘框的直线集合，通过计算直线集合中两两直线之间的交点，所述交点大致可划分为不同区域，对不同区域内的交点分别求质心，可将求得的质心作为述原始文档图像中文档的顶点坐标。
60.在一种可实现的方式中，可以通过对所述边缘概率图像中文档边缘框进行直线检测，得到基于文档边缘框的直线集合，然后获取所述直线集合中任意四条直线组成的矩形框集合，将最大的矩形框的顶点坐标作为所述原始文档图像中文档的顶点坐标。
61.s104,基于所述原始文档图像中文档的顶点坐标计算透视变换矩阵，并根据所述透视变换矩阵对所述原始文档图像进行透视矫正，得到目标文档图像。
62.具体的，基于所述原始文档图像中文档的顶点坐标计算得到目标文档图像中文档的顶点坐标，基于所述原始文档图像中文档的顶点坐标以及所述目标文档图像中文档的顶点坐标的对应变换关系，计算得到透视变换矩阵，然后根据所述透视变换矩阵对所述原始文档图像进行透视矫正，得到目标文档图像。
63.在本技术实施例中，首先获取原始文档图像，然后使用包括语义分割分支和边缘检测分支的边缘检测模型对原始文档图像进行边缘检测，使得到的边缘概率图像更加准确；再从边缘概率图像中确定所述原始文档图像中文档的顶点坐标，基于原始文档图像中文档的顶点坐标计算出透视变换矩阵，最后基于所述透视变换矩阵对所述原始文档图像进行透视矫正，以得到包括畸变修复后的正视角文档图像的目标文档图像，方便了用户阅读
以及文档存档，提升了用户体验。
64.请参见图4，为本技术实施例提供了一种文档图像矫正方法的流程示意图。本技术实施例的执行主体为智能终端设备。如图4所示，所述文档图像矫正方法可以包括以下步骤。
65.s201，获取原始文档图像；
66.具体的，步骤s201可一并参见步骤s101中的详细描述，在此不一一赘述。
67.s202，将所述原始文档图像输入至边缘检测模型中，得到所述原始文档图像对应的边缘概率图像，所述边缘检测模型包括语义分割分支和边缘检测分支，所述语义分割分支用于基于所述原始文本图像的语义信息得到第一边缘图像，所述边缘检测分支用于对所述原始文本图像进行边缘检测得到第二边缘图像，所述边缘概率图像为所述第一边缘图像与所述第二边缘图像的融合图像；
68.具体的，步骤s202可一并参见步骤s102中的详细描述，在此不一一赘述。
69.s203，利用霍夫变换对所述边缘概率图像中文档边缘框进行直线检测，得到直线集合；
70.具体的，所述边缘概率图像中的文档边缘框的每条边缘可看作是多条直线的集合，利用霍夫变换对所述边缘概率图像中的文档边缘框进行直线检测，获取所述文档边缘框中所有直线的集合。
71.所述直线集合中的各直线均为在边缘概率图像的图像坐标系下的直线。
72.可选的，对所述边缘概率图像中的文档边缘框进行直线检测还可以是通过其它直线检测算法来实现，例如：hough_line直线检测算法、lsd直线检测算法、fld直线检测算法等。
73.s204，计算所述直线集合中两两直线的交点，得到第二交点集合；
74.具体的，基于所述直线集合中各直线在边缘概率图像的图像坐标系中的直线方程，计算所述直线集合中两两直线的交点得到第二直线集合。
75.s205，对所述第二交点集合进行交点滤除处理，得到第一交点集合；
76.具体的，遍历所述第二交点集合中各交点，确定所述交点对应的两条直线之间的夹角不满足夹角区间的第一目标交点以及不位于所述边缘概率图像中文档边缘框的第二目标交点，滤除所述第一目标交点以及所述第二目标交点，得到第一交点集合。
77.不难理解，由于边缘检测以及直线检测会存在一定误差，所述第二交点集合中的各交点可能会存在与所述边缘概率图像中的文档边缘框的顶点相距过远的不合理交点。
78.所述确定所述交点对应的两条直线之间的夹角不满足夹角区间的第一目标交点是指，在实际情形中，文档的任意两条邻边一般互相垂直，即邻边夹角是90
°
，而拍摄到的原始文档图像中存在透视变形，文档在图像中存在歪斜，畸变问题，会导致原始文档图像中所呈现的文档邻边夹角在90
°
附近，一般不会超过
±
30
°
，在边缘概率图像中检测到的各直线可近似为文档的边，两两直线的交点可近似为文档的顶点，即各交点对应的两条直线之间的夹角应满足在一定的夹角区间，该交点才可被认定为合理交点。故将夹角不满足夹角区间的两条直线形成的交点作为第一目标交点，进而在第一交点集合中将所述第一目标交点进行滤除，提高第一交点集合中各交点的合理性。
79.所述确定不位于所述边缘概率图像中文档边缘框的第二目标交点，可以理解的
是，由于直线检测的不确定性以及原始文档图像中文档的透视变形问题，在计算直线集合中两两直线之间的交点时，可能部分交点会落在边缘概率图像中的文档边缘框之外，甚至落在边缘概率图像之外，将不位于所述边缘概率图像中文档边缘框的不合理交点作为第二目标交点，进而在第一交点集合中将所述第二目标交点进行滤除，提高第一交点集合中各交点的合理性。
80.具体的，判断所述交点是否位于所述边缘概率图像中文档边缘框方式可以为，判断所述交点对应的像素点的灰度值是否大于灰度值阈值，若所述交点对应的像素点的灰度值大于灰度值阈值，则确定所述交点位于所述文档边缘框，若所述交点对应的像素点的灰度值不大于灰度值阈值，则确定所述交点不位于所述文档边缘框。
81.可选的，判断所述交点是否位于所述边缘概率图像中文档边缘框方式还可以为，判断所述交点对应的像素点是边缘的概率值是否大于概率值阈值，若所述交点对应的像素点为边缘的概率值大于概率值阈值，则确定所述交点位于所述文档边缘框，若所述交点对应的像素点为边缘的概率值不大于概率值阈值，则确定所述交点不位于所述文档边缘框。
82.步骤s203～步骤s205请一并参见图5，为本技术实施例提供了一种直线集合与交点滤除后的第一交点集合的举例示意图。
83.如图5所示，所示直线集合是基于对边缘概率图像的文档边缘框进行直线检测得到的，所示第一交点集合为直线集合中两两直线的交点。
84.s206，采用聚类算法对所述第一交点集合中的各交点进行分类，得到四类交点；
85.具体的，计算所述第一交点集合的质心，得到所述第一交点集合的质心的质心坐标，以所述质心坐标为坐标原点绘制直角坐标系，基于所述直角坐标系的四个象限将所述第一交点集合中的各交点划分为四类交点。
86.s207，计算所述四类交点中每一类交点的聚类中心，得到四个聚类中心，将四个所述聚类中心的坐标作为所述原始文档图像中文档的顶点坐标；
87.请参见图6，为本技术实施例提供了一种由四类交点得到顶点坐标的举例示意图。如图6所示，以第一交点集合的质心为坐标原点建立直角坐标系，将第一交点集合中各交点按照直角坐标系的四个象限分为4类，分别计算4类交点的聚类中心得到四个顶点坐标，例如图，第一类交点的聚类中心作为顶点v1，第二类交点的聚类中心作为顶点v2，第三类交点的聚类中心作为顶点v3，第四类交点的聚类中心作为顶点v4。
88.s208，基于所述原始文档图像中文档的顶点坐标计算得到目标文档图像中文档的顶点坐标；
89.具体的，基于所述原始文档图像中文档的顶点坐标可采用如下方式得到目标文档图像中文档的顶点坐标。假设所述原始文档图像中文档的顶点坐标为v1(x1，y1)，v2(x2，y2)，v3(x3，y3)，v4(x4，y4)，则目标文档图像中文档的顶点坐标可以为v
′1(x
′1，y
′1)，v
′2(x
′2，y
′2)，v
′3(x
′3，y
′3)，v
′4(x
′4，y
′4)。
90.其中，
[0091][0092]
[0093][0094][0095]
可参见图7，为本技术实施例提供了一种计算顶点坐标的举例示意图。如图7所示，按照上述算法，可由所示顶点v1计算得到所示顶点v
′1，由所示顶点v2计算得到所示顶点v
′2，由所示顶点v3计算得到所示顶点v
′3，由所示顶点v4计算得到所示顶点v
′4。
[0096]
s209，基于所述原始文档图像中文档的顶点坐标以及所述目标文档图像中文档的顶点坐标的对应变换关系，计算得到透视变换矩阵；
[0097]
具体的，以步骤s208中原始文档图像中文档的顶点坐标v1和目标文档图像中文档的顶点坐标v
′1为例，依据透视变换原理，假设v1和v
′1在三维空间中对应的坐标为(x1，y1，z1)，那么将v1透视变换到三维空间的过程可以表示为：
[0098][0099]
其中，是透视变换矩阵。
[0100]
将(x1，y1，z1)投影到目标平面，则有即
[0101]
另a
33
＝1，展开上式，可得：
[0102][0103]
由原始文档图像中文档的顶点坐标v1和目标文档图像中文档的顶点坐标v
′1可确定两个方程。同理可用另外的三组顶点即v2和v
′2、v3和v
′3、v4和v
′4确定另外六个方程。由四组顶点可以得到8个方程，利用这8个方程便可求解这8个未知数，即求解出透视变换矩阵m。
[0104]
s210，根据所述透视变换矩阵对所述原始文档图像进行透视矫正，得到目标文档图像；
[0105]
请参见图8，为本技术实施例提供了一种透视矫正的举例示意图。如图8所示，所示原始文档图像由步骤s209中求解得到的透视变化矩阵可得到所示目标文档图像，不难看出，所示目标文档图像中的文档为正视角文档。
[0106]
s211，基于所述目标文档图像中文档的顶点坐标对所述目标文档图像进行裁剪，得到目标文档。
[0107]
具体的，对所述目标文档图像进行裁剪，依据目标文档图像中文档的顶点坐标裁剪掉所述目标文档图像中文档之外的背景区域，得到最终的目标文档。
[0108]
请参见图9，为本技术实施例提供了一种目标文档裁剪的举例示意图。如图9所示，
在所示目标文档图像上进行裁剪得到如图所示的目标文档，所示目标文档不包括背景区域，更加方便阅读，便于保存。
[0109]
在本技术实施例中，首先获取原始文档图像，然后使用包括语义分割分支和边缘检测分支的边缘检测模型对原始文档图像进行边缘检测，使得到的边缘概率图像更加准确，可降低文档图像矫正的误差，减少文档图像矫正过程中的计算量；再通过对边缘概率图像中文档边缘框进行直线检测得到直线集合，在计算直线集合中两两直线的交点得到第二交点集合，并对第二交点集合中的各交点进行交点滤除处理，充分保证了第一交点集合中的各交点的合理性，进而提高了文档图像矫正的精准度；接着对第一交点集合中各交点进行聚类得到四类交点，将四类交点的质心作为原始文档图像中文档的顶点坐标，然后基于原始文档图像中文档的顶点坐标计算出目标文档图像中文档的顶点坐标，再基于所述原始文档图像中文档的顶点坐标以及所述目标文档图像中文档的顶点坐标计算得到透视变换矩阵，最后基于所述透视变换矩阵对所述原始文档图像进行透视矫正，以得到包括畸变修复后的正视角文档图像的目标文档图像，方便了用户阅读以及文档存档，提升了用户体验。
[0110]
在一种可实施的方式中，在生成边缘概率图之后，可以先对所述边缘概率图进行细化处理，得到细化处理后的细化边缘图，再基于细化处理得到的细化边缘图执行获取顶点坐标以及透视变换矩阵的操作。
[0111]
请参见图10，为本技术实施例提供了一种文档图像矫正方法的流程示意图。如图10所示，所述文档图像矫正方法可以包括以下步骤。
[0112]
s301，获取原始文档图像；
[0113]
具体的，步骤s301可一并参见步骤s101中的详细描述，在此不一一赘述。
[0114]
s302，将所述原始文档图像输入至边缘检测模型中，得到所述原始文档图像对应的边缘概率图像，所述边缘检测模型包括语义分割分支和边缘检测分支，所述语义分割分支用于基于所述原始文本图像的语义信息得到第一边缘图像，所述边缘检测分支用于对所述原始文本图像进行边缘检测得到第二边缘图像，所述边缘概率图像为所述第一边缘图像与所述第二边缘图像的融合图像；
[0115]
具体的，步骤s302可一并参见步骤s102中的详细描述，在此不一一赘述。
[0116]
s303，对所述边缘概率图像进行细化处理，得到细化边缘图像；
[0117]
具体的，对所述边缘概率图像进行二值化处理，得到二值化边缘图像，对所述二值化边缘图像进行边缘过滤处理，得到过滤边缘图像，利用图像细化算法对所述过滤边缘图像进行细化处理，得到细化边缘图像。
[0118]
所述边缘概率图像可以是灰度图像，所述边缘概率图中每一个像素点的灰度值表示该像素点为边缘的概率，例如像素点1为边缘的概率为0.5，则它在所述边缘概率图中显示的灰度值为255*0.5＝127.5。则所述对所述边缘概率图像进行二值化处理，得到二值化边缘图像可以是遍历所述边缘概率图像中所有像素点，判断所述像素点为边缘的概率值是否大于概率值阈值，将概率值大于概率值阈值的像素点作为边缘，将概率值不大于概率值阈值的像素点作为背景，得到二值化边缘图像。
[0119]
可选的，所述对所述边缘概率图像进行二值化处理，得到二值化边缘图像还可以是遍历所述边缘概率图像中所有像素点，判断所述像素点的灰度值是否大于灰度值阈值，将灰度值大于灰度值阈值的像素点作为边缘，将灰度值不大于灰度值阈值的像素点作为背
景，得到二值化边缘图像。
[0120]
所述对所述二值化边缘图像进行边缘过滤处理是指在对原始文档图像进行边缘检测的过程中会误识别到一些不属于文档边缘的边缘，误识别的边缘在二值化边缘图像中通常为面积较小的边缘块，可以通过设置面积阈值或周长阈值的方式，在二值化边缘图像过滤掉小于所述面积阈值或所述周长阈值的边缘块，得到过滤边缘图像。
[0121]
所述利用图像细化算法对所述过滤边缘图像进行细化处理可以进一步细化过滤边缘图像中的文档边缘框。
[0122]
请参见图11，为本技术实施例提供了一种细化处理的举例示意图。如图11所示，对所示边缘概率图进行二值化处理和边缘滤除处理可以精细化边缘并滤除掉误识别的边缘，得到所示过滤边缘图像，然后对所示过滤边缘图像进行图像细化，得到文档边缘框更进一步细化的细化边缘图像。
[0123]
s304，从所述细化边缘图像中确定原始文档图像中文档的顶点坐标；
[0124]
具体的，步骤s304可以参照步骤s203～步骤s207中的描述，可将步骤s203～步骤s207中的边缘概率图像替换为细化边缘图像，在此不进行赘述。
[0125]
s305，基于所述原始文档图像中文档的顶点坐标计算透视变换矩阵；
[0126]
具体的，步骤s305可以参照步骤s208～步骤s209中的描述，可将步骤s203～步骤s207中的边缘概率图像替换为细化边缘图像，在此不进行赘述。
[0127]
s306，根据所述透视变换矩阵对所述原始文档图像进行透视矫正，得到目标文档图像；
[0128]
s307，基于所述目标文档图像中文档的顶点坐标对所述目标文档图像进行裁剪，得到目标文档。
[0129]
具体的，对所述目标文档图像进行裁剪，依据目标文档图像中文档的顶点坐标裁剪掉所述目标文档图像中文档之外的背景区域，得到最终的目标文档。
[0130]
在本技术实施例中，将获取原始文档图像输入至包括语义分割分支和边缘检测分支边缘检测模型中，得到所述原始文档图像对应的边缘概率图像之后，对边缘概率图像进行细化处理，使得边缘概率图像中的边缘进一步细化得到细化边缘图像，然后从所述细化边缘图像中确定所述原始文档图像中文档的顶点坐标，基于所述原始文档图像中文档的顶点坐标计算透视变换矩阵，在根据透视变换矩阵对原始文档图像进行透视矫正，得到目标文档图像，最后对目标文档图像进行裁剪，得到目标文档，通过对边缘概率图像进行细化处理，不仅提高了文档图像矫正的精度，而且大量减少了在直线检测以及交点计算的过程中的计算量，提高了文档图像矫正的速度，实现了更好的用户体验。
[0131]
请参见图12，为本技术实施例提供了一种文档图像矫正装置的结构示意图。如图12所示，该文档图像矫正装置1可以通过软件、硬件或者两者的结合实现成为智能终端设备的全部或一部分。根据一些实施例，该文档图像矫正装置1包括，原始图像获取模块11、副本调整模块12、第一坐标获取模块13、矩阵矫正模块14，具体包括：
[0132]
原始图像获取模块11，用于获取原始文档图像；
[0133]
边缘检测模块12，用于将所述原始文档图像输入至边缘检测模型中，得到所述原始文档图像对应的边缘概率图像，所述边缘检测模型包括语义分割分支和边缘检测分支，所述语义分割分支用于基于所述原始文本图像的语义信息得到第一边缘图像，所述边缘检
测分支用于对所述原始文本图像进行边缘检测得到第二边缘图像，所述边缘概率图像为所述第一边缘图像与所述第二边缘图像的融合图像；
[0134]
第一坐标获取模块13，用于从所述边缘概率图像中确定所述原始文档图像中文档的顶点坐标；
[0135]
矩阵矫正模块14，用于基于所述原始文档图像中文档的顶点坐标计算透视变换矩阵，并根据所述透视变换矩阵对所述原始文档图像进行透视矫正，得到目标文档图像。
[0136]
可选的，所述装置还包括：
[0137]
细化处理模块15，用于对所述边缘概率图像进行细化处理，得到细化边缘图像；
[0138]
可选的，所述第一坐标获取模块13，具体用于：
[0139]
从所述细化边缘图像中确定所述原始文档图像中文档的顶点坐标；
[0140]
可选的，所述细化处理模块15，具体用于：
[0141]
对所述边缘概率图像进行二值化处理得到二值化边缘图像；
[0142]
对所述二值化边缘图像进行边缘过滤得到过滤边缘图像；
[0143]
利用图像细化算法对所述过滤边缘图像进行细化处理，得到细化边缘图像。
[0144]
可选的，所述第一坐标获取模块13，包括：
[0145]
直线检测单元131，用于利用霍夫变换对所述边缘概率图像中文档边缘框进行直线检测，得到直线集合；
[0146]
交点集合获取单元132，用于计算所述直线集合中两两直线的交点，得到第一交点集合；
[0147]
交点聚类单元133，用于采用聚类算法对所述交点集合中的各交点进行分类，得到四类交点；
[0148]
第一坐标获取单元134，用于计算所述四类交点中每一类交点的聚类中心，得到四个聚类中心，将四个所述聚类中心的坐标作为所述原始文档图像中文档的顶点坐标。
[0149]
可选的，所述交点集合获取单元132，还包括：
[0150]
交点集合获取子单元1321，用于计算所述直线集合中两两直线的交点对所述交点集合进行交点滤除处理，得到第二交点集合；
[0151]
交点滤除子单元1322，用于对所述第二交点集合进行交点滤除处理，得到第一交点集合。
[0152]
可选的，所述交点滤除子单元1322，具体用于：
[0153]
遍历所述第二交点集合中各交点，确定所述交点对应的两条直线之间的夹角不满足夹角区间的第一目标交点以及不位于所述边缘概率图像中文档边缘框的第二目标交点；
[0154]
滤除所述第一目标交点以及所述第二目标交点，得到第一交点集合。
[0155]
可选的，所述交点聚类单元133，具体用于：
[0156]
计算所述第一交点集合的质心，得到所述第一交点集合的质心的质心坐标；
[0157]
以所述质心坐标为坐标原点绘制直角坐标系，基于所述直角坐标系的四个象限将所述第一交点集合中的各交点划分为四类交点。
[0158]
可选的，所述矩阵矫正模块14，包括：
[0159]
第二坐标获取单元141，用于基于所述原始文档图像中文档的顶点坐标计算得到目标文档图像中文档的顶点坐标；
[0160]
矩阵获取单元142，用于基于所述原始文档图像中文档的顶点坐标以及所述目标文档图像中文档的顶点坐标的对应变换关系，计算得到透视变换矩阵。
[0161]
可选的，所述装置还包括：
[0162]
图像裁剪模块16，用于基于所述目标文档图像中文档的顶点坐标对所述目标文档图像进行裁剪，得到目标文档。
[0163]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0164]
在本技术实施例中，首先获取原始文档图像，然后使用包括语义分割分支和边缘检测分支的边缘检测模型对原始文档图像进行边缘检测，使得到的边缘概率图像更加准确；再从边缘概率图像中确定原始文档图像中文档的顶点坐标，基于原始文档图像中文档的顶点坐标计算出透视变换矩阵，最后基于所述透视变换矩阵对所述原始文档图像进行透视矫正，以得到包括畸变修复后的正视角文档图像的目标文档图像，方便了用户阅读以及文档存档，提升了用户体验；可选的，对边缘概率图像进行细化处理，提高了文档图像矫正的精度，减少了直线检测以及交点计算的计算量，提高了文档图像矫正的速度；可选的，在基于第一交点集合计算原始文档图像中文档的顶点坐标之前，对通过计算两两直线的交点得到的第二交点集合中的交点进行交点滤除处理得到第一交点集合，保证了第一交点集合中各交点的合理性，保证了文档图像矫正的精度。
[0165]
本技术实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1～图11所示实施例的所述文档图像矫正方法，具体执行过程可以参见图1～图11所示实施例的具体说明，在此不进行赘述。
[0166]
本技术还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1～图11所示实施例的所述文档图像矫正方法，具体执行过程可以参见图1～图11所示实施例的具体说明，在此不进行赘述。
[0167]
请参考图13，其示出了本技术一个示例性实施例提供的智能终端设备的结构方框图。本技术中的智能终端设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
[0168]
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个智能终端设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行智能终端设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field－programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器110可集成中央处理器(central processing unit，cpu)、图像处理器(graphics processing unit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。
[0169]
存储器120可以包括随机存储器(random access memory，ram)，也可以包括只读存储器(read
‑
only memory，rom)。可选地，该存储器120包括非瞬时性计算机可读介质(non
‑
transitory computer
‑
readable storage medium)。存储器120可用于存储指令、程
序、代码、代码集或指令集。
[0170]
其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在本技术实施例中，输入装置130可以为温度传感器，用于获取智能终端设备的运行温度。输出装置140可以为扬声器，用于输出音频信号。
[0171]
除此之外，本领域技术人员可以理解，上述附图所示出的智能终端设备的结构并不构成对智能终端设备的限定，智能终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，智能终端设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity，wifi)模块、电源、蓝牙模块等部件，在此不再赘述。
[0172]
在本技术实施例中，各步骤的执行主体可以是上文介绍的智能终端设备。可选地，各步骤的执行主体为智能终端设备的操作系统。操作系统可以是安卓系统，也可以是ios系统，或者其它操作系统，本技术实施例对此不作限定。
[0173]
在图13所示的智能终端设备中，处理器110可以用于调用存储器120中存储的文档图像矫正程序，并执行以实现如本技术各个方法实施例所述的文档图像矫正方法。
[0174]
在本技术实施例中，首先获取原始文档图像，然后使用包括语义分割分支和边缘检测分支的边缘检测模型对原始文档图像进行边缘检测，使得到的边缘概率图像更加准确；再从边缘概率图像中确定所述原始文档图像中文档的顶点坐标，基于原始文档图像中文档的顶点坐标计算出透视变换矩阵，最后基于所述透视变换矩阵对所述原始文档图像进行透视矫正，以得到包括畸变修复后的正视角文档图像的目标文档图像，方便了用户阅读以及文档存档，提升了用户体验；可选的，对边缘概率图像进行细化处理，提高了文档图像矫正的精度，减少了直线检测以及交点计算的计算量，提高了文档图像矫正的速度；可选的，在基于第一交点集合计算原始文档图像中文档的顶点坐标之前，对通过计算两两直线的交点得到的第二交点集合中的交点进行交点滤除处理得到第一交点集合，保证了第一交点集合中各交点的合理性，保证了文档图像矫正的精度。
[0175]
本领域的技术人员可以清楚地了解到本技术的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是现场可编程门阵列(field－programmable gate array，fpga)、集成电路(integrated circuit，ic)等。
[0176]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
[0177]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0178]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可
以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。
[0179]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0180]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0181]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(read
‑
only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0182]
以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于大规模复杂网络的最短路径查询方法与流程

文档图像矫正方法、装置、存储介质及智能终端设备与流程

相关文献

最热文献