提取身份证文本信息的方法及系统与流程

2022-11-12 23:15:18 来源：中国专利 TAG：

1.本发明涉及身份证文本信息技术领域，具体涉及一种提取身份证文本信息的方法及系统。

背景技术：

2.身份证文本识别是当前研究非常热门的一个方向，目前在金融、安防以及防疫等领域都获得了广泛的应用。但由于身份证的拍摄角度、背景环境以及光线等因素的影响，对身份证文本识别提出了极大的挑战。
3.现有技术通过使用传统图像处理方式进行滤波、二值化、边缘检测和字符分割等方法，将身份证区域及其中的文本从图像中分割出来，通过采用字符模板匹配或神经网络的方式进行字符识别，然后根据关键字进行姓名、身份证号等信息的提取。这种识别出单字符或一行字符后再根据关键字拼接文本的识别方式在遇到如身份证出现旋转、倒置或身份证上出现少数民族文字等情况时无法做到准确提取身份证的文本信息，鲁棒性较差。
4.因此，需要一种不受身份证位置状态和其他文字信息干扰的提取身份证文本信息的方法。

技术实现要素：

5.有鉴于此，本公开实施例提供一种提取身份证文本信息的方法和系统，至少部分解决现有技术中存在的问题。
6.第一方面，本公开实施例提供了一种提取身份证文本信息的方法，所述方法包括以下步骤：
7.通过文本检测框标识身份证的文本位置，并建立所述文本位置与文本类别的映射关系；
8.将所述文本检测框矫正至水平方向；
9.根据所述文本位置的文字朝向信息旋转所述文本检测框；以及
10.识别所述文本检测框标识的文本信息。
11.根据本公开实施例的一种具体实现方式，
12.所述获取所述文本位置的文字朝向信息，包括通过预先训练好的2分类模型判断所述文本位置的文字朝向信息。
13.根据本公开实施例的一种具体实现方式，所述方法还包括：当判断所述文本位置的文字方向为倒置时，将所述文本位置的文字旋转180度。
14.根据本公开实施例的一种具体实现方式，根据权利要求1所述的提取身份证文本信息的方法，其特征在于，所述文本类别包括姓名、出生日期、民族、住址、身份证号、签发机关和有效期中的至少一项。
15.根据本公开实施例的一种具体实现方式所述建立所述文本位置与文本类别的映射关系，包括：将训练数据输入至分类检测模型进行训练，并利用交叉熵损失和检测损失共
同监督；
16.其中，所述训练数据包括身份证图像、文本检测框的位置和文本类别。
17.根据本公开实施例的一种具体实现方式，所述将所述文本检测框矫正至水平方向，包括以下步骤：
18.基于所述文本检测框的顶点坐标分别计算所述文本检测框相邻的2条边的第一边长和第二边长；
19.通过仿射变换将所述文本检测框调整为垂直位置或水平位置，其中，当所述第一边长和所述第二边长的比值小于或等于预设阈值时，判断所述文本检测框处于水平位置；以及
20.当所述第一边长和所述第二边长的比值大于所述预设阈值时，判断所述文本检测框处于垂直位置，将所述处于垂直位置的所述文本检测框顺时针旋转90度，以将所述文本检测框矫正至水平位置。
21.第二方面，本公开实施例提供了一种提取身份证文本信息的系统，其特征在于，所述系统包括：
22.映射模块，被配置用于通过文本检测框标识身份证的文本位置，并建立所述文本位置与文本类别的映射关系；
23.水平矫正模块，被配置用于将所述文本检测框矫正至水平方向；
24.朝向矫正模块，被配置用于根据所述文本位置的文字朝向信息旋转所述文本检测框；
25.识别模块，被配置用于识别所述文本检测框标识的文本信息。
26.第三方面，本公开实施例还提供了一种电子设备，该电子设备包括：
27.至少一个处理器；以及，
28.与所述至少一个处理器通信连接的存储器；其中，
29.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行时，使所述至少一个处理器执行如第一方面中的任一项所述的提取身份证文本信息的方法。
30.第四方面，本公开实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令当由至少一个处理器执行时使所述至少一个处理器执行如第一方面中的任一项所述的提取身份证文本信息的方法。
31.第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述第一方面或第一方面的任一实现方式中的提取身份证文本信息的方法。
32.本公开实施例中的提取身份证文本信息的方法利用身份证本身的特点，可以在身份证出现旋转、倒置或身份证上出现少数民族文字等情况时准确提取身份证的文本信息。
附图说明
33.为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域
普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
34.图1为本公开实施例提供的一种提取身份证文本信息的方法流程示意图；
35.图2为本公开实施例提供的一种文本检测框及其标识的文本位置矫正流程示意图；
36.图3为本公开实施例提供的用于提取身份证文本信息的系统的示意图；
37.图4为本公开实施例提供的电子设备示意图。
具体实施方式
38.下面结合附图对本公开实施例进行详细描述。
39.以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
40.需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
41.还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
42.另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。
43.本发明实施例提出的提取身份证文本信息的方法基于身份证信息的特点，将身份证的文本划分为姓名、出生日期、民族、住址、身份证号、签发机关、有效期7个类别，并训练一个7分类检测模型，直接定位身份证文本位置以及其对应的文本类别，聚焦于汉语的文本位置，有效排除了少数民族语言对后续文本信息识别的影响，并通过对训练数据进行增强，提高了当身份证旋转、倒置时的文本信息识别准确率。
44.图1为本公开实施例提供的一种提取身份证文本信息的方法流程示意图。
45.如图1所示，在步骤s110处，通过文本检测框标识身份证的文本位置，并建立所述文本位置与文本类别的映射关系。
46.更具体地，通过视觉传感器采集身份证的图像信息，并通过文本检测框对身份证的图像信息中的文本位置进行标识。进一步地，分别建立文本检测框标识位置与文本类别
间的映射关系，例如：当文本检测框标识位置映射的文本类别为姓名时，认为该文本检测框标识位置的文本信息类型为姓名。
47.但在实际应用中，考虑到通过视觉传感器采集的身份证图像信息可能出现旋转、倒置等情况，导致无法直接根据文本检测框准确的标识身份证的图像信息中的文本位置的情况。因此，在本发明实施例中提出了一种通过分类检测模型对身份证的图像信息中的文本位置进行标识的方法，该分类检测模型训练方法如下：
48.通过将身份证图像、文本检测框的位置和文本类别作为训练数据输入至分类检测模型进行训练，并利用交叉熵损失和检测损失共同监督，最终得到用于检测身份证文本位置及文本类别的分类检测模型。
49.更具体地，基于如下等式1计算交叉熵损失和检测损失函数。
50.loss＝λ1*loss
softmax
λ2*loss
det
……
等式1
51.其中，loss为交叉熵损失和检测损失函数，λ1为交叉熵损失的权重，loss
softmax
为交叉熵损失函数，λ2为交叉熵损失的权重，loss
det
为文本检测框的损失函数。
52.通过仅识别文本检测框标识位置精准进行识别，可以有效排除少数民族语言对文本信息识别的影响。
53.在本发明实施例中，待识别的文本信息为身份证信息，上述的分类检测模型优选为7分类检测模型，上述训练数据中的文本类别分别设置为姓名、出生日期、民族、住址、身份证号、签发机关和有效期，并将7个文本类别一一对应的7个文本检测框。
54.在本发明实施例中，文本检测框为矩形。
55.在本发明实施例中，视觉传感器可以为摄像头，在此，并不构成对本发明的限制。
56.接下来转到步骤s120。
57.在步骤s120处，将所述文本检测框矫正至水平方向。
58.将文本检测框与文本检测框标识的身份证的文本位置进行绑定，并同时将文本检测框与标识的身份证的文本位置同步矫正至水平位置。
59.当上述步骤s110中通过视觉传感器采集的身份证的图像信息出现旋转、倒置等情况时，上述步骤s110中基于分类检测模型标识的文本位置与身份证的图像信息也会出现相同角度的旋转、倒置，这种情况会导致提取的身份证的文本信息识别准确性下降，因此，通过将文本检测框及其标识的文本位置矫正至水平位置的方式可以有效提升文本信息识别准确性。
60.图2为本公开实施例提供的一种文本检测框及其标识的文本位置矫正流程示意图。
61.根据图2所示，将所述文本检测框及其标识的文本位置矫正至水平位置，包括以下步骤：
62.在步骤s1201处，基于所述文本检测框的顶点坐标分别计算所述文本检测框相邻的2条边的第一边长和第二边长。
63.在步骤s1202处，通过仿射变换将所述文本检测框调整为垂直位置或水平位置，其中，当所述第一边长和所述第二边长的比值小于或等于预设阈值时，判断所述文本检测框处于水平位置。
64.在步骤s1203处，当所述第一边长和所述第二边长的比值大于所述预设阈值时，判
断所述文本检测框处于垂直位置，将所述处于垂直位置的所述文本检测框顺时针旋转90度，以将所述文本检测框矫正至水平位置。
65.更具体地，将文本检测框置于平面坐标系中，顺时针获取文本检测框的4个顶角坐标，顶角坐标分别为a1(x1，y1)、a2(x2，y2)、a3(x3，y3)、a4(x4，y4)。
66.进一步的，基于如下式2计算文本检测框的第一边长w：
[0067][0068]
基于如下式3计算文本检测框的第二边长高h：
[0069][0070]
将文本检测框4个顶角坐标通过仿射变换为(0，w)、(w，0)、(w，h)、(0，h)，以将文本检测框及其标识的文本位置矫正至垂直位置或水平位置。
[0071]
当满足如下式4时，判定文本检测框及其标识的文本位置处于水平位置，
[0072]
h/w《＝α
……
式4
[0073]
其中，α为文本检测框两条相邻边的比例阈值。优选地，文本检测框两条相邻边的比例阈值可取为1.5。
[0074]
当满足如下式5时，判定文本检测框及其标识的文本位置处于垂直位置，
[0075]
h/w》＝α
……
式5
[0076]
将文本检测框及其标识的文本位置沿顺时针或者逆时针旋转90度矫正至文本检测框及其标识的文本位置处于水平位置。
[0077]
优选地，当文本检测框位置相对于垂直位置或水平位置的偏移角度为正负30度时，对文本检测框的矫正更为精确，此时旋转文本检测框的方向朝向旋转角度小的方向旋转。
[0078]
在本发明实施例中，还可以通过顶角a3、a4坐标计算文本检测框的边长w，通过顶角a2、a3坐标计算文本检测框的边长h，在此，并不构成对本发明的限制。
[0079]
在本发明实施例中，当上述步骤s110中视觉传感器采集身份证的图像信息为处于水平位置时，则认为用于标识身份证文本位置的文本检测框也处于水平位置，此时步骤s120可省略，直接转到步骤s130。
[0080]
接下来转到步骤s130。
[0081]
在步骤s130处，根据所述文本位置的文字朝向信息旋转所述文本检测框。
[0082]
当输出结果判定文本位置的文字方向为正置时，旋转角度为0度，直接进入到步骤s140。
[0083]
在本发明实施例中，由于汉字的特殊性，当一个汉字出现倒置时可能会被错误的识别为另一个汉字，例如：当汉字“干”倒置时会被识别为汉字“士”，因此当输出结果判定文本位置的文字方向为倒置时，需要将文本位置的文字旋转180度至文字方向正置。
[0084]
更具体地，通过步骤s120将文本检测框及其标识的文本位置矫正至水平位置后，可能出现标识的文本位置的文字信息处于正置或倒置的情况。因此，本发明实施例中提出了一种用于区分文字朝向信息的2分类模型。2分类模型的训练方式如下：
[0085]
在经过步骤s120后，文本位置的文字只存在朝上(正置)或朝下(倒置)2类可能，通过由朝上和朝下的文字信息构成的训练数据训练2分类网络(或称2分类模型)，即可对文本
检测框的朝向信息进行判断。
[0086]
接下来转到步骤s140。
[0087]
在步骤s140处，识别所述文本检测框标识的文本信息。
[0088]
根据步骤s110形成的映射关系，步骤s140输出的文本信息为带有文本类别的文本信息，因此根据本方法获取的文本信息无需再根据关键字等信息去提取姓名等信息，直接根据文本类别直接对应使用即可。
[0089]
本发明提出的提取身份证信息的方法可以将文本检测框直接聚焦于汉语的文本位置，可以有效排除少数民族语言对文本信息识别的影响，提升文本信息提取准确率。
[0090]
图3示出了本公开实施例提供的用于提取身份证文本信息的系统100，包括映射模块110、水平矫正模块120、朝向矫正模块130和识别模块140。
[0091]
映射模块110，被配置用于通过文本检测框标识身份证的文本位置，并建立所述文本位置与文本类别的映射关系；
[0092]
水平矫正模块120，被配置用于将所述文本检测框矫正至水平方向；
[0093]
朝向矫正模块130，被配置用于根据所述文本位置的文字朝向信息旋转所述文本检测框；
[0094]
识别模块140，被配置用于识别所述文本检测框标识的文本信息。
[0095]
参见图4，本公开实施例还提供了一种电子设备200，该电子设备包括：
[0096]
至少一个处理器；以及，
[0097]
与该至少一个处理器通信连接的存储器；其中，
[0098]
该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述方法实施例中的提取身份证文本信息的方法。
[0099]
本公开实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述方法实施例中的提取身份证文本信息的方法。
[0100]
本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述方法实施例中的的提取身份证文本信息的方法。
[0101]
下面参考图4，其示出了适于用来实现本公开实施例的电子设备200的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0102]
如图4所示，电子设备200可以包括处理装置(例如中央处理器、图形处理器等)201，其可以根据存储在只读存储器(rom)202中的程序或者从存储装置208加载到随机访问存储器(ram)203中的程序而执行各种适当的动作和处理。在ram203中，还存储有电子设备200操作所需的各种程序和数据。处理装置201、rom202以及ram203通过总线204彼此相连。输入/输出(i/o)接口205也连接至总线204。
[0103]
通常，以下装置可以连接至i/o接口205：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置206；包括例如液晶显示器(lcd)、扬声
器、振动器等的输出装置207；包括例如磁带、硬盘等的存储装置208；以及通信装置209。通信装置209可以允许电子设备200与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备200，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0104]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置209从网络上被下载和安装，或者从存储装置208被安装，或者从rom202被安装。在该计算机程序被处理装置201执行时，执行本公开实施例的方法中限定的上述功能。
[0105]
需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
[0106]
上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
[0107]
上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取至少两个网际协议地址；向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求，其中，所述节点评价设备从所述至少两个网际协议地址中，选取网际协议地址并返回；接收所述节点评价设备返回的网际协议地址；其中，所获取的网际协议地址指示内容分发网络中的边缘节点。
[0108]
或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：接收包括至少两个网际协议地址的节点评价请求；从所述至少两个网际协议地址中，选取网际协议地址；返回选取出的网际协议地址；其中，接收到的网际协议地址指示内容分发网络中的边缘节点。
[0109]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可
以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0110]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0111]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
[0112]
应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。
[0113]
以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种多人手势识别方法、装置及介质与流程

提取身份证文本信息的方法及系统与流程

相关文献

最热文献