一种卡片式文件图像识别方法和装置与流程

2022-02-19 23:27:01 来源：中国专利 TAG：

1.本发明涉及信息处理技术领域，特别地涉及一种卡片式文件图像识别方法和装置。

背景技术：

2.名片是一种方便传递联系方式的个人信息载体，在日常商务活动、社交活动中起着重要的作用。在名片交换后，人们通常需要将名片中的一些重要信息数字化，即将接收到的纸制名片转化为电子名片或名片数据保存在手机、电脑中。另有一些应用场景，名片所有人需要将自己的纸制名片转成电子式名片，而后可以对名片上的内容进行编辑。还有一些应用场景，在采集个人数据时，可以通过采集个人名片上的数据，再根据具体的场景加以利用。
3.目前，大部分的名片识别方法采用光学字符识别(optical characterrecognition，简称ocr)技术，所述的ocr技术是指对具有文本信息的图像文件进行分析、识别而获取文字及版面信息的过程。主要包括图像预处理、文字检测和文本识别等步骤。其中，所述图像预处理通常是针对图像的成像问题进行修正。常见的预处理过程包括几何变换(透视、扭曲、旋转等)、畸变矫正、去除模糊、图像增强和光线矫正等。文字检测即检测文本所在位置、范围及其布局。通常也包括版面分析和文字行检测等，主要解决的问题是文字在图像中的位置及范围。文本识别是在文本检测的基础上，对文本内容进行识别，将文本图像信息转化为文本信息。文字识别可以采用模板匹配的方式进行分类以识别出单个字，或者采用深度学习模型，引入上下文信息以提高识别的准确率。
4.根据应用场景，所述ocr技术分为识别特定场景的专用ocr技术和识别多种场景的通用ocr技术。对于应用在自然场景通用ocr技术，由于图片背景过于丰富，或者图片具有低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题，或者文本的布局存在扭曲、褶皱、换向等问题，或者文字的字体多样、字号、字重、颜色不一等问题，都会导致ocr技术中的文本识别的难度高，从而准确率不高。而对于采用ocr技术进行的名片识别，第一个问题在于，由于名片背景图片、文字的排版布局、文字的字体、字号、颜色等千变万化，因而识别准确率不高，在现有的名片ocr识别过程中，需要用户在识别完后进行校对、审核，虽然有些现有技术中在校对、审核这一过程中参考了相关数据，如数据库中同一用户的其他名片数据，或者本地电话簿中的相关数据，但是最终仍然还需要人工校对。即使通过各种手段克服了第一个问题，然而仍然存在第二个问题，即：现有的名片ocr识别基本是在识别出文字为止，因而得到的是将名片上的文字堆砌在一起的一个文字集合，需要人为识别出人名、公司名称、地址等内容。无法直接对该文字集合直接加以利用。
5.对于一些与名片相类似的卡片式文件具有同样的问题，所述卡片式文件例如

技术实现要素：

6.针对现有技术中存在的技术问题，本发明提出了一种卡片式文件图像识别方法和
装置，用以提供具有明确类别的名片识别本文。
7.为了解决上述技术问题，根据本发明的一个方面，本发明提供了一种卡片式文件图像识别方法，其中包括以下步骤：
8.对目标卡片式文件图像进行文字识别，以得到文件字符集合，其中，所述字符包括文字、数字、标点符号和特殊符号中的一种或多种；
9.对目标卡片式文件图像进行图像处理，至少得到每个字符的图像特征；
10.对所述文件字符集合中的字符按语义进行抽取，至少根据语义特征和字符的图像特征对文件字符集合中的字符进行合并和/或拆分以得到多个类别的字段内容；以及
11.生成包括所述多个类别字段内容的文件识别文本。
12.根据本发明的另一个方面，本发明还提供了一种卡片式文件图像识别装置，其中包括字符识别模块、图像特征提取模块、语义抽取模块和版式模块，其中，所述字符识别模块经配置以对目标卡片式文件图像进行文字识别，以得到文件字符集合；所述图像特征提取模块经配置以对目标卡片式文件图像进行图像处理，至少得到每个字符的图像特征；所述语义抽取模块与所述字符识别模块和所述图像特征提取模块相连接，经配置以对所述文件字符集合中的字符进行语义抽取时，至少根据语义特征和字符的图像特征对字符集合中的字符进行合并和/或拆分以得到多个类别的字段内容；所述版式模块，经配置以按照预置格式对多个类别字段内容进行排版以生成包括所述多个类别字段内容的文件识别文本。
13.本发明在进行语义抽取时，利用图像特征加以辅助，从而能够更加准确地识别出卡片式文件图像中的文字、数字和字符等，并且能够从识别出的文本中抽取出类别，使得本发明的应用范围更加广泛。
附图说明
14.下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：
15.图1是根据本发明的一个实施例的卡片式文件图像识别方法流程图；
16.图2是根据本发明的一个实施例的名片示意图；
17.图3是根据本发明另一个实施例的名片示意图；
18.图4是根据本发明又一个实施例的名片示意图；
19.图5是根据本发明的一个实施例的名片识别装置原理框图；
20.图6是根据本发明的一个实施例的名片识别装置的应用示意图；
21.图7是基于图3所示应用实施例的名片识别流程；
22.图8是对图3所示名片进行图像、文本检测时的示意图；
23.图9是根据本发明的一个实施例的矫正图像的方法流程图；
24.图10是根据本发明的另一个实施例的矫正图像的方法流程图；
25.图11是根据本发明的又一个实施例的矫正图像的方法流程图；
26.图12是根据本发明的一个实施例的原始身份证的图片示意图；
27.图13是根据本发明的一个实施例的从原始图片中剪裁出来的身份证图像示意图；
28.图14是根据本发明的一个实施例的预测出第一关键点的身份证图像示意图；
29.图15是根据本发明的一个实施例的标出第一关键点的标准正向身份证图片示意图；
30.图16是根据本发明的一个实施例的矫正后得到的正向身份证图片示意图；
31.图17是根据本发明的一个实施例的图像矫正模块原理框图；
32.图18是根据本发明的另一个实施例的图像矫正模块原理框图；以及
33.图19是根据本发明的又一个实施例的图像矫正模块原理框图。
具体实施方式
34.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
35.在以下的详细描述中，可以参看作为本技术一部分用来说明本技术的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本技术的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本技术的技术方案。应当理解，还可以利用其它实施例或者对本技术的实施例进行结构、逻辑或者电性的改变。
36.本发明提供了一种卡片式文件图像识别方法和装置，所述的卡片式文件包括但不限于名片、身份证、护照等，本发明不但可以识别出这些卡片式文件图像中的文字，还可以识别出名片中文字的语义内容。本发明对应于不同类型的文件预置对应的类别字段来表示该文件中的文字语义。例如对于名片，预置的类别字段包括姓名、职位、地址、电话、邮件地址等等。对于身份证，预置的类别字段包括姓名、性别、民族、公民身份号码等等。本发明可以从这些文件中识别出这些类别的字段内容，在进行用户信息采集、提取时，节省了信息的填写时间，并且，还可以为其它应用程序提供了良好的数据资源。
37.实施例一
38.图1是根据本发明一个实施例的名片图像识别方法流程图，本实施例以名片作为卡片式文件的一个实施例对本发明的识别方法和装置进行详细说明，其中，所述识别方法中包括以下步骤：
39.步骤s1，获取待识别的名片图像。其中，根据本发明的应用场景，所述待识别的名片图像的来源包括以下各种方式：从手机相册中读取已经拍摄、保存的名片图像、利用手机摄像头拍摄名片、接收从其它程序、模块、装置发送来的名片图像。
40.步骤s2，矫正所述待识别的名片图像，具体请见后面的说明，在此不再赘述。
41.步骤s3，对目标名片图像进行文字识别，以得到文件字符集合。此时可以采用多种算法进行文本识别，例如：利用边缘检测算法，从名片图像中提取出文字图像区域；利用投影法从文字图像区域中切割出单字图像，然后利用卷积神经网络(convolutional neural network,cnn)模型对每个单字图像进行分类计算以得到所述单字图像对应的文字、数字、标点符号或特殊符号。还可以采用其它识别方法，例如，基于深度学习的端到端ocr技术的卷积递归神经网络(convolutional recurrent neural network,crnn)ocr算法和注意力机制 (attention)ocr算法，通过各自的深度学习模型学习到的序列特征对一个文本行图像进行识别，从而可以得到整行文本。
42.步骤s4，对目标名片图像进行图像处理，至少得到每个字符的图像特征。例如，首
先从目标名片图像中提取出字符图像区域，并分割成单个字符图像区域，此时可以获得对应字符的坐标位置和高宽信息。然后利用cnn模型对所述字符区域图像做卷积、池化、归一化等操作，从而提取出该字符的图像特征。所述字符的这些图像特征能在一定程度上表述出该文字图像例如字体、颜色、高度等特征。
43.步骤s5，对所述文件字符集合中的字符按语义进行抽取，以得到多个类别的字段内容。在一个实施例中，首先对所述文件字符集合中的字符按语义进行预分割以得到多个分词集合。以图2中的名片为例，当识别出的名片上的第一行文字为“张三总经理”时，经过语义分割以得到“张”、“三”和“总，经，理”三个分词集合。由于排版原因图像中的“张”和“三”是分开的，而“三”和“总，经，理”这个分词集合中的三个字是连在一起的。因而在进行语义分割时，根据“张”和“三”的语义特征，两个字也是分开的，而“总，经，理”这三个字是一个具有明确语义内容的词，因而分割到一个分词集合中。参考这五个字的图像特征，“张”和“三”这两个字的图像特征相同，“总，经，理”这三个字的图像特征相同，并且，“张”和“三”的图像特征明显区别于“总，经，理”的图像特征，所述图像特征代表了字高、字体、颜色，图像特征相同是指字高相近、字体或字形相近，颜色相近或具有关联。因而“张”和“三”这两个字可以合并到一起，“总，经，理”三个字符应与“三”拆分，再根据“张”和“三”的语义特征，可将其分类到“姓名”类别中，根据“总，经，理”三个语的语义特征，将其分类到“职位”类别中，从而从第一行文字“张三总经理”中抽取出“姓名”类别的字段内容“张三”和“职位”类别的字段内容“总经理”。
44.又例如，对于类别“地址”，有时会在上下两行检测出同属于地址类别的文字，此时对比这两行文字的图像特征，由于图像特征相同，因而可以将这两行的文字合并到一起。
45.在一个实施例中，可以采用深度学习算法，利用深度学习模型对每行文字及其图像特征进行处理，从而从该行文字中抽取出不同类别的字段内容。可根据名片中常用的字段类别设置所述的深度学习模型的分类类别，如“姓名”、“职位”、“单位名称”、“单位地址”、“移动电话”、“主页”、“传真”、“微信号”“主页”等等，经过进行标注的训练集对该模型进行训练，使其能够对输入的文字及其图像特征抽取出相应类别的字段。
46.步骤s6，生成包含多个类别字段内容的文件识别文本。例如，生成txt 格式或word格式的文件。根据不同的需求，可以根据预置格式生成不同排版格式或不同表达形式的文件识别文本。在一个实施例中，由文字表达名片中的相应分类，例如，如图2所示的名片中识到的文字为：
47.张三总经理xxx公司xxx省xxx市人民路1号zha ngsan@163.com
48.经过前述步骤生成的名片识本文本为：
49.姓名：张三；职位：总经理；公司：xxx公司；地址：xxx省xx市人民路1号；邮箱：zhangsan@163.com。
50.其中的“姓名”、“职位”等为字段名称，为原名片中没有的文字。为了能清楚地表达名片中的分类，在生成的名片文件中增加字段名称。
51.在另一种实施方式中，可以采用代码来代表字段名称，从而可以方便其他应用的调用。例如，采用“01”代表“姓名”、“02”代表“职位”等等。其中，在当前名片中缺少某些预置类别对应的字段内容时，可以采用缺省值表示，如数字“0”或文字“无”等。
52.实施例二
53.在某些名片中，如图3所示，会在电话号码前增加电话简体画图像或在传真号码前增加传真机简体画图像，在电子邮件前增加信封简体画图像等等，以表达该图像后面文字的函义。这些图像有助于对名片中的文字正确分类。因而，基于实施例一的方法流程，在步骤s4中对目标名片图像进行图像处理时，除了提取每个字符的图像特征外，还识别字符前的图像区域并确定是否有标志图像及对应的类别。如在从目标名片图像中逐行提取出字符图像区域时，还提取字符前的标志图像区域，为了区别与其它字符，将一段连续文字中的第一个字符移为第一字符。识别所述标志图像区域中的图像是否是前述的各种标志图像，如果得到了标志图像，根据标志图像确定与其对应的类别，然建立该标志图像与其后面字符的对应关系。如图3中所示，第一行文字图像区中“刘先生/董事长”为一个连续的文件图像，字符“刘”为第一字符，其前面没有标志图像。而在第二行“山东省青岛市北区山东路”中的第一字符“山”前有标志图像，在第三行“ 8613888888888”中的第一字符“ ”前、第四行“zidingyi@qq.com”中的第一字符“z”前和第五行 www.zidingyi.com中的第一字符“w”前都有标志图像，分别提取各个标志图像的图像特征，根据内部预置的标志图像与类别的对应关系，可以确定，“山”前的类别为“地址”、“ ”前的类别为“电话”、“z”前类别为邮件地址，“w”前类别为“主页”。
54.在步骤5中对所述文件字符集合中的字符按语义进行抽取时，除了根据实施例中的语义特征及字符的图像特征进行抽取外，还参考标志图像的类别。例如，将第二行的文字“山东省青岛市北区山东路”及各个字符的图像特征输入给深度学习模型时，还将“山”与其前面的标志图像的关系、该标志图像的“地址”类别一起输入给深度学习模型。深度学习模型在对第二行的文字“山东省青岛市北区山东路”进行抽取时，通过语义识别、每个字符的图像特征及字符“山”前的地址类别可以确定“山东省青岛市北区山东路”为类别为“地址”的字段内容。
55.同理，对于第四行字符集“zhangsan@163.com”，根据第一字符“z”前的信封简体画图像，确定第一字符“z”前的标志图像为“邮件地址”类别。在对该行内容进行抽取时，通过语义识别、各个字符的图像特征及字“z”前的“邮件地址”类别标志图像，可以确定“zhangsan@163.com”为类别为“邮件地址”的字段内容。
56.实施例三
57.在另一些名片中，如图4所示，会在名片中包括：“地址：”、“电话：”、“邮件地址：”“主页：”等用于代表其后面文字或字符的类别的文字，本发明将这些文字称为标志字符。在步骤5中进行语义抽取时，可参考这些标志字符进行分类。例如，在对名片中的字符逐行识别到多行字符集时，对每行字符集按语义进行分割得到多个分词集合。例如，对于识别到的一行字符集“电话： 861888888 888”进行语义分割后顺次得到分词集合：“电话”、“：”、“ 8 6 18 8 8 8 88 8 8”。对上述分词集合进行识别得到“电话”为标志字符，其对应类别“电话号码”，对“ 8 6 18 8 8 8 8 8 8 8”进行语义分析，并参考各个数字等的图像特征，其为一个电话号码，再结合中标志字符“电话”及其后面的“：”的含义可知，字符集“电话： 86188 8888 888”应是类别“电话号码”的字段内容。
58.图5是根据本发明一个实施例的名片识别装置原理框图，其中包括字符识别模块1、图像特征提取模块2、语义抽取模块3和版式模块4。其中，在一个实施例中，图像特征提取
模块2包括图像提取单元21、字符图像特征提取单元 22、标志图像特征提取单元23和标志图像确定单元24。所述图像提取单元21 用于从目标名片图像提取出一个或多个字符图像区域，并发送给字符识别模块 1，由字符识别模块对所述一个或多个字符图像区域进行文字识别，以得到相应的字符集合。在一个实施例中，所述图像提取单元21从目标名片图像按行提取出一个或多个字符图像区域。所述的字符图像区域通常是由连续的文字、数字、字母或标点符号等组成。所述所述图像提取单元21除了提取字符图像区域外，还提取字符前面的图像区域，该区域在本实施例中称为标志图像区域。所述字符图像特征提取单元22与图像提取单元21相连接，从所述字符图像区域中提取出每个字符的图像特征。所述标志图像特征提取单元23与图像提取单元21相连接，用于提取标志图像区域的图像特征。所述标志图像确定单元 24与所述标志图像特征提取单元23相连接，用以识别所述标志图像区域是否包含标志图像，在识别到标志图像时确定与其对应的类别，并建立所述标志图像与其后字符的对应关系。
59.语义抽取模块3分别与所述字符识别模块1和图像特征提取模块2相连接，经配置以对所述文件字符集合中的字符按语义进行抽取，以得到多个类别的字符集。在一个实施例中，语义抽取模块3包括语义预分割单元31、分类单元 32和标志字符识别单元33。所述语义预分割单元31对所述文件字符集合中的字符按语义进行预分割以得到多个分词集合，如前述的实施例，将字符集“张三总经理”分割为分词集合“张”，“三”和“总经理”，将字符集“电话： 8 6 1 8 8 8 8 8 8 8 8 8”进行语义分割后顺次得到分词集合：“电话”、“：”、“ 8 6 18 8 8 8 8 8 8 8”。所述标志字符识别单元33分别与所述语义预分割单元31和所述分类单元32相连接，用于识别所述语义预分割单元31分割的多个分词集合中是否包含标志字符，并将标志字符发送给所述分类单元32。例如识别出“电话”为字符集“电话： 8 6 1 8 8 8 8 8 8 8 8 8”中的标志字符。
60.所述分类单元32分别与语义分割单元31、标志字符识别单元33和图像特征提取模块2中的字符图像特征提取单元22和标志图像确定单元24相连接，在没有标志图像和标志字符时，所述分类单元32根据多个分词集合的语义特征及其中字符的图像特征对多个分词集合的字符进行合并或拆分得到相应类别的字段内容。当标志字符识别单元33识别出标志字符时，分类单元32根据语义特征、字符的图像特征及标志字符抽取到相应类别的字段内容；当标志图像确定单元24确定出具有标志图像时，分类单元32根据字符语义特征、字符的图像特征及对应的标志图像确定相应类别的字段内容。
61.所述版式模块4以按照预置格式对多个类别的字段内容进行排版以生成所述文件识别文本，从而以适应各种场景对识别结果的利用。例如，每个类别采用文字或编码表示，每行放置一个类别的字段内容等。
62.为了提高识别的准确率，本发明还包括图像矫正模块5，以对获取到的待识别名片图像进行图像矫正，例如裁剪、拉伸、平移、旋转、图像透视变换等等，从而得到一个正向的所述目标名片图像。
63.图6是根据本发明一个实施例的名片识别装置的应用示意图。在本实施例中，名片识别装置100与一个数据平台200相连接，该数据平台能够采集各种数据，其中包括名片图像。在数据平台收集到名片图像后，还需要采集名片中的内容，因而所述数据平台200将名片图像发送给所述名片识别装置100，所述名片识别装置100得到文件识别文本后，将其发
送给所述的数据平台200。其中，参见图7所示的名片识别流程，以图3所示的名片为例，对名片图像识别方法说明如下：
64.步骤s100，获取待识别的名片图像。在本实施例中，接收来自数据平台 200的名片图像。
65.步骤s110，判断所述名片图像是否变形，如果所述名片图像没有变形，是正的矩形图像，则执行步骤s120，如果所述名片图像变形严重，则执行步骤s111，进行图像矫正，图像矫正方法可以有多种，请见后面的说明，在此不再赘述。
66.步骤s120，对该名片图像进行文本检测，以得到多个文本图像区域，如图8所示中的文本图像区域101
‑
105。
67.步骤s130，提取每一个文本图像区域中第一个字符前的标志图像区域 201
‑
204。
68.步骤s140，识别文本图像区域的字符。在本实施例，将文本图像区域 101
‑
105逐个输入给深度学习模型，从而识别到多行对应的字符集，如对应文本图像区域101的字符集101“刘先生/董事长”，对应文本图像区域102 的字符集102“山东省青岛市北区山东路”，对应文本图像区域103 的字符集103“ 8613888888888”，对应文本图像区域104的字符集104
ꢀ“
zidingyi@qq.com”，对应文本图像区域105的字符集105“www.z idingyi.com”。
69.步骤s150，提取文本图像区域的每个字符的图像特征。
70.步骤s160，识别标志图像区域201
‑
204。通过与预置标志图像进行对比，确定标志图像区域201对应的类别是“地址”，标志图像区域202对应的类别是“电话”，标志图像区域203对应的类别是“邮件地址”，标志图像区域204 对应的类别是“主页”。
71.步骤s170，建立标志图像、字符集及类别的对应关系。如，标志图像区域201与字符集102、类别“地址”相互对应，标志图像区域202与字符集103、类别“电话”相互对应，标志图像区域203与字符集104、类别“邮件地址”相互对应，标志图像区域204与字符集104、类别“主页”相互对应。
72.步骤s180，参考标志图像、字符图像特征对所述文件字符集合中的字符进行语义抽取，以得到多个类别的字段内容。例如，对于字符集101“刘先生 /董事长”，首先对其进行语义分割，得到分词集合“刘先生”，“/”，“董事长”三个集合。参考这些字符的图像特征，字符“刘”，“先”，“生”的图像特征一致，字符“董”，“事”，“长”的图像特征一致，且字符“刘”，“先”，“生”的图像特征与字符“董”，“事”，“长”的图像特征明显不同，并且“/”为分隔符，因而，将字符“刘”，“先”，“生”合并到一起，将字符“董”，“事”，“长”合并到一起。根据合并后的分词集合“刘先生”“董事长”的语义特征，确定“刘先生”为类别“姓名”的字段内容，“董事长”为类别“职位”的字段内容。
73.对于字符集102“山东省青岛市北区山东路”，与字符集101 的处理相同，首先分割为多个分词集合“山东省”、“青岛市”、“北区”和“山东路”，再经过语义识别可以确定所述多个分词集合均属于类别“地址”，再结合标志图像、字符集及类别的对应关系，也确定了字符集102属于类别“地址”。且字符集102中文字的图像特征相同，因而将多个分词集合合并到一起得到“山东省青岛市北区山东路”作为类别“地址”的字段内容。同理，可以确定“ 8613888888888”为类别“电话号码”的字段内容，“zidingyi@qq.com”为类别“邮件地址”的字段内容，“www.zidingyi.com”为类别“主页”的字段内容。
74.步骤s190，生成名片识别文本并发送给数据平台200。在本实施例中，为了方便数
据平台200使用名片识别文本中的各个字段内容，对类别进行编码，如以两位数字代表类别。如“00”代表类别“姓名”，“01”代表类别“职位”，“02”代表类别“地址”，“03”代表类别“电话号码”，“04”代表类别“主页”，“05”代表类别“邮件地址”，则得到如下所示的图3所示名片的识别文本：
75.00
76.刘先生
77.01
78.董事长
79.02
80.山东省青岛市北区山东路
81.03
82. 8613888888888
83.04
84.www.zidingyi.com
85.05
86.zidingyi@qq.com
87.将前述的名片识别文本发送给数据平台200，结束名片识别流程。
88.虽然前述实施例中的名片识别装置应用于数据平台，当然也可以应用于移动终端，以app的形成安装于用户移动终端和/或pc端，由个人用户使用。本发明提供的名片图像识别方法采用多种辅助方式能够更加准确地识别出名片图像中的文字、数字、特殊字符等，并且能够从识别出的文本中抽取出类别，使得计算机可以理解名片中的字段内容，使得本发明的应用范围更加广泛。
89.虽然以上以名片作为实施例，但是，对于一些证件，如身份证、护照、职业资格/从业证书仍然可以采用上述实施例中的提供的方法和装置进行识别并得到对应的识别文本。
90.为了准确地进行字符识别，对原始文件图像进行矫正是非常关键的一个步骤，本发明提供了多种图像矫正方法。
91.图像矫正实施例一
92.在本实施例中，对原始文件图像进行边缘检测，裁剪掉文件图像外多余的图像；对裁剪后的图像进行拉伸、旋转等操作，从而得到一个正向矩形名片图像，该图像用于文字识别，为区别前述图像及后续处理过程中使用的图像，将得到的正向矩形、用于文字识别的名片图像称为目标名片图像。
93.图像矫正实施例二
94.本发明还提供了另一种矫正图像的方法，如图9所示的流程：
95.步骤s21，获取原始文件图像的四个顶点位置。即采用图像的直线检测以及筛选逻辑，得到有效图像的四条边界，获取两个边界的交汇点，即得到名片的四个顶点。
96.步骤s22，获取映射矩阵。即将得到的当前四个顶点分别映射到一个正向名片的对应顶点，根据这个映射关系得到一个映射矩阵。
97.步骤s23，对所述待识别的原始文件的有效图像进行图像透视变换。即根据所述映射矩阵，通过对所述待识别的原始文件的有效图像进行图像透视变换以得到正向的所述目
标文件图像。
98.图像矫正实施例三
99.对于一些文件中具有人像或某些具有规则形状的图像时，可以通过这些图像的形变确定用于透视变换的映射矩阵。以下将人像和某些具有规则形状的图像称为可利用图像。如图10所示的流程，以名片为例，矫正图像的方法包括以下步骤：
100.步骤s21a，对名片进行检测边缘。
101.步骤s22a，提取并识别名片中图像。例如，通过目标检测法识别出图片中的一个或多个图像。所述图像可能是人像、logo图像、背景中用于区分内容字段的不同颜色块等；其中名片中的人像通常为头部的正向面部图像、半身的正向面部图像，人像与名片的一边，如名片长边垂直。另外有些名片上具有规则形状的颜色块、二维码等。
102.步骤s23a，判断识别出的图像是否是可利用图像，如果是，则执行步骤 s24a，如果不是，则放弃采用这种方法矫正图像。
103.步骤s24a，在可利用图像上选取关键点。例如，可利用图像为人像时，通过人脸对齐算法得到人脸特征上的多个点，如两个眼睛上的多个轮廓点、鼻子上的中点及轮廓点、嘴的中心点多个轮廓点。如果人像具有矩形背景，获取矩形背景框的4个顶点。如果是二维码图像，取其边界的4个顶点为检测点，如果是矩形颜色块取其4个顶点为检测点，如果是圆形，即其二个垂直直径的端点为检测点。
104.步骤s25a，分析可利用图像上的关键点，并矫正可利用图像以得到标准的可利用图像。例如，对于人像，根据人脸特征确定人脸是正向还是侧向，在正向时，选取面部上对称轴上的点，如鼻子中心点，分析鼻子中心点两侧的对应点与鼻子中心点的位置关系，从而确定出在x轴和y轴的位移及旋转角度，并以此进行变换以得到矫正后的位置。通过该方法，得到矫正后的人像。对于二维码图像或矩形、圆形等颜色块，同样选择对称轴上的点，分析对称轴两侧的点的变化，从而确定图像变形规律，按此规律进行矫正，以得到矫正后的可利用图像。
105.步骤s26a，选取矫正前后的可利用图像上的四对对应关键点，根据所述关键点确定变换矩阵。例如，根据以下公式1
‑
1计算出3x3的变换矩阵：
[0106][0107]
其中，(u，v，w)为矫正前可利用图像中的一个点坐标，(x’，y’，w’)为齐次坐标；其为变换矩阵。
[0108]
由于本发明处理的是二维图像，因而w和a
33
恒定为1，且：
[0109]
x＝x
′
/w
′ꢀꢀꢀ1‑2[0110]
y＝y
′
/w
′ꢀꢀꢀ1‑3[0111]
(x，y)为矫正后可利用图像中的坐标。通过公式1
‑
1、1
‑
2和1
‑
3可以得出：
[0112]
[0113][0114]
从公式1
‑
4和1
‑
5可知，当已知4对对应点坐标后，通过8个方程式可以计算出所需的变换矩阵
[0115]
在本实施例中，矫正前后的可利用图像上选取四对的对应关键点，从而可以得到变换矩阵m。
[0116]
步骤s27a，利用变换矩阵m对原始名片图像进行变换以得到正向的目标名片图像。
[0117]
以上实施例是以矩形的名片为例，当然名片也可以是其他形状，当为其他形状时，获取的关键点则不再是矩形的四个顶点，而是与形状对应的位置，例如，当名片为椭圆形时，关键点可以分别取椭圆形状的长轴的两个顶点与短轴的两个顶点。又例如，当名片为心形时，关键点可以分别取心形垂直对称线的最高点与最低点和垂直对称线两侧的最长距离的点，从而以适应各种具有标准形状的名片图像。
[0118]
图像矫正实施例四
[0119]
本发明还提供了其他矫正方法，在本实施例中，以身份证图片为例，参见图11所示的流程图，对本发明提供方法进行说明如下：
[0120]
步骤s1a，从原始图片中获取有效图像区域。如图12所示，原始图片1a 中除了包括拍摄对象的图像区域11a外，还或多或少地包括背景图像区域10a。为了避免过多的背景图像区域10a影响矫正效果，首先从原始图片1a中检测出拍摄对象的有效图像区域。在一个实施例中，使用yolo模型进行图像检测，从而检测到身份证(拍摄对象)所在的有效图像区域12a，并将其从原始图片 1a中剪裁出来得到图13所示的图像。
[0121]
步骤s2a，从所述有效图像区域12a中预测出预置位置的关键点。本发明针对不同的文件图像需要预测出位于不同位置的不同数量的关键点。所述多个关键点的集合能够确定一个图像的变形情况，如在水平方向、垂直方向的变形，旋转的角度等。关键点的数量越多，变形情况的确定越准确，但是计算则越复杂，越耗资源。因而在满足精度要求下，适当数量关键点的可以取得处理速度快、占用资源少的优点。
[0122]
关键点实施例一
[0123]
在一个实施例中，当矫正对象的形状为矩形时，如身份证，要预测的关键点至少包括矩形的四个顶点，为了获得更多变形信息，还应预测出图像某些位置的点。在一个实施例中，需要预测出如图14所示的13个第一关键点，如图 14所示，包括四个矩形顶点、四个边的中点、两个对角线的交点、对角线交点与四个顶点之间的中点。在一实施例中，采用cpn(cascaded pyramidnetwork, 级联金字塔网络)模型可以预测出所述13个关键点(为区别于采用其他方式确定的关键点，将本实施例中确定的关键点称为第一关键点)。所述cpn网络主要包括globalnet和refinenet，所述globalnet是一个基于resnet(残差网络) 的具有u型结构的卷积神经网络，用于特征提取。在本实施例中，所述 globalnet可以完成关键点的粗检测，比如能够检测到一些特征明显的、易于查找的关键点。所述refinenet通过把globalnet特征提取部分的每一层的特征进行上采样和结合，以得到更详细的图像特征，再从这些特征进行关键点的检测，从而检测到一些不太容易被检测到的关键点。
[0124]
为了在预置位置检测出预置数量的关键点，需要采用样本训练一个cpn 网络以得到cpn模型。首先构造图像样本集。根据矫正对象的类型，在其图片上标记关键点，例如，对于身份证图像，按照图14所示标记出13个关键点，从而构造出一个图像样本。图像样本集中尽可能多地包括体现出各种图像变形的样本，从而增加预测的准确性。然后将所述图像样本输入到cpn网络中，对其进行训练，使其学习到这些关键点的位置。在训练过程中观察监测指标如损失loss和准确率来判断当前模型处于什么样的训练状态，及时调整超参数以更科学地训练模型，提高资源利用率。所述的超参数例如为学习率(learningrate，简称lr)、批次大小(batchsize)、优化器optimizer、迭代次数和激活函数等等。经过上述的训练和超参数的调整，最终得到一个最优的cpn模型。其可以准确地从任何一个图像中预测出所需要的关键点。本实施例利用所述 cpn模型从所述有效图像区域12a中预测出所需要的关键点。
[0125]
关键点实施例二
[0126]
对于拍摄对象具有标准样式、标准参数项时，可以利用这些标准参数项获取关键点。例如身份证上具有的参数项“姓名”、“性别”、“民族”及“公民身份号码”等参数项，中国护照上的中英文“姓”、“名”、“出生日期”、“有效期”、“出生地”等参数项。这些参数项具有固定且标准的样式，且排版相同。因而，在参数项位置设置的点同样可以得到后续的矩阵。为区别于实施例中的关键点，将本实施例中对应标准参数项位置的点称为第二关键点。通过训练cpn模型，可以从任意一种拍摄对象图片中预测到对应的第二关键点。例如，在身份证正面图片的“姓名”、“性别”、“民族”前各预测一点，在“公民身份号码”前后两端各预测一点，身份证前后两端各预测一点，“年”、“月”、“日”前或后各一点；在身份证反面图片上，在左上角图案的水平对称轴和垂直对称轴上的两个端点、第一行文字的“中”前预测一点，第一行文字的“国”后预测一点，第二行文字的“居”前预测一点，第二行文字的“证”后预测一点，“签发机关”和“有效期限”前各预测一点。
[0127]
同理，对于中国护照上的照片的四个顶点位置各设置一个关键点，顶部文字行两个端点，底部文字行的两个端点，中间几个重要项目的文字说明行前的位置，如姓、名、出生日期、有效期、出生地前的位置各设置一个关键点。对于一些行业的资格证书，如会计执业资格证书、律师执业资格证书等等，根据需要，同样可以设置对应的cpn模型预测相应的第二关键点。
[0128]
关键点实施例三
[0129]
当拍摄对象带有标准样式的头像时，可以利用所述头像确定关键点，在此称为第三关键点。例如，识别原始图片中的所述头像，根据所述头像确定头像所在矩形框。在所述头像所在矩形框上确定至少四个点。例如，护照上的人物照片具有统一的规格，与背景相比，具有明显的矩形边界。同类资格证书上的照片具有同样的特点。通过识别拍摄对象上的人物照片有效区域可以获得头像所在矩形框，在该矩形框预测出顶点、四边中点等作为第三关键点。
[0130]
步骤s3a，获取与原始图片类型相同的标准图片中的对应标准关键点。对于第一关键点来说，从其标准图片上获得如图15所示的13个关键点。对于第二关键点来说，从其相同类别的标准图片中对应参数项的对应位置获取标准关键点。对于第三关键点来说，从相同类别的标准图片中的人物头像矩形框中的对应位置获取标准关键点。
[0131]
步骤s4a，根据标准关键点及预测出的关键点构造变换矩阵；即通过映射计算，将
从图14中预测得到的13个点坐标映射到一个如图15所示的正规身份证件图像的对应点的坐标，此时得到一个映射矩阵，即用于透视变换的变换矩阵。具体如前述实施例所述，在此不再赘述。
[0132]
本发明中的各类关键点(第一、二、三关键点)都至少包括4个点，因而通过每4对关键点得到一个变换矩阵m，并对多个变换矩阵m进行线性回归以得到一个最优的变换矩阵m，从而提高了变换的精度和准确率。
[0133]
步骤s5a，根据所述变换矩阵m对所述原始图片的有效图像区域12a进行透视变换，有效图像区域12a的象素点的坐标经过上述转换后，再为其赋予象素值，则得到了矫正后的正向图像，如图16所示。
[0134]
由于至少可以采用前述三种方式获得三种关键点，因而，可以任意采用一种关键点及其对应标准关键点确定出第一变换矩阵或第二变换矩阵或第三变换矩阵，采用第一变换矩阵或第二变换矩阵或第三变换矩阵对原始图像进行透射变换。或者是，当原始图片符合获取第二关键点和/第三关键点时，利用二种或三种关键点分别获得二种或三种变换矩阵，再根据各自的权重计算出最优的变换矩阵。例如，当根据第一关键点和第二关键点得到第一变换矩阵和第二变换矩阵时，以0.8作为第一变换矩阵的权重，0.2作为第二变换矩阵的权重进行计算。例如，以矩阵中的a
11
为例，第一变换矩阵中的第一元素为a
111
，第二变换矩阵的第一元素为a
112
，经过加权计算得到a
11
＝0.8a
111
0.2a
112
。
[0135]
当根据第一、二、三关键点分别得到第一、二、三变换矩阵时，以0.7作为第一变换矩阵的权重，0.1作为第二变换矩阵的权重进行计算0.2作为第二变换矩阵的权重进行计算。以矩阵中的a
11
为例，第一变换矩阵中的第一元素为 a
111
，第二变换矩阵的第一元素为a
112
，第三变换矩阵的第一元素为a
113
，经过加权计算得到a
11
＝0.7a
111
0.1a
112
0.2a
113
。
[0136]
经过对矩阵中的各个元素进行如上所述的加权计算得到一个最优的变换矩阵，以最优的变换矩阵对原始图像进行透射变换，从而可以得到更佳的矫正效果。
[0137]
图像矫正模块实施例一
[0138]
图17是根据本发明一个实施例的图片矫正模块的原理框图。在本实施例中，以图12中所示的身份证图片为例。所述图片矫正模块5包括图像预处理模块51a、关键点预测模块52a、矩阵计算模块53a和变换模块54a。其中，所述图像预处理模块51a经配置以从原始图片中获取有效图像区域。在一个实施例中，所述图像预处理模块51a为一yolo模型模块，其采用yolo(you only lookonce:unified,real
‑
time object detection)算法对原始图片提取特征并进行预测，从而得到有效图像区域，并将其从原始图像中剪裁出来得到可以进行处理的图像，如图13所示的图像。所述关键点预测模块52a与所述图像预处理模块51a相连接，经配置在所述有效图像区域中12a预测出预置位置的关键点。在一个实施例中，所述关键点预测模块52a为一个训练好的cpn模型模块，其提供用于预测各种文件图像、证件图像关键点的cpn模型，根据输入图像的类型，选择对应的cpn模型进行图像处理。在本实施例中，输入的图像为身份证图像，cpn模型输出的是如图14所示的13个关键点。当输入的是标准护照图像，所述关键点预测模块52a采用预测护照关键点的cpn模型，当输入的是标准表格图像时，所述关键点预测模块52a采用预测表格关键点的cpn 模型
……
。根据图像中的不同拍摄对象，关键点的数量及位置除了可以采用图 14所示的身份证关键点的位置外，还可以在一些标准参数项上设置关键点。或者获取拍摄对象上的与人物头像对应的关键点。所
述矩阵计算模块53a与所述关键点预测模块52a相连接，根据处理的图片的类别，获取相应类别的标准图片中的对应标准关键点，和预测出的关键点进行映射计算以构造出变换矩阵m。计算过程如图11步骤s4a中所示，在此不再重复说明。所述变换模块54a分别与所述图像预处理模块1a和矩阵计算模块53a相连接，根据所述变换矩阵 m对所述原始图片的有效图像区域按照公式1
‑
6进行透视变换以获得矫正后的图片。
[0139]
图像矫正模块实施例二
[0140]
图18是根据本发明另一实施例的图片矫正模块的原理框图。在本实施例中，所述待矫正的原始图片是具有人物头像、和标准参数项的证件图片。本实施例在图17所示实施例的基础上，所述关键点预测模块52a包括第一关键点预测单元521a、第二关键点预测单元522a和第三关键点预测单元523a，对应地，所述矩阵计算模块53a包括第一变换矩阵计算单元531a、第二变换矩阵计算单元532a和第三变换矩阵计算单元533a和加权计算单元534a，另外还包括头像识别模块55a。
[0141]
在本实施例中，每个关键点预测单元采用一个cpn模型对有效图像区域进行关键点预测。其中，第一关键点预测单元521a按照前述方法实施例中的关键点实施例一预测得到13个第一关键点，对应地，矩阵计算模块53a中的第一变换矩阵计算单元531a根据所述13个第一关键点计算得到一个第一变换矩阵m1。
[0142]
第二关键点预测单元522a按照前述方法实施例中的关键点实施例二预测得到多个标准参数项对应位置的第二关键点，对应地，矩阵计算模块53a中的第二变换矩阵计算单元532a根据多个第二关键点计算得到一个第二变换矩阵 m2。
[0143]
头像识别模块55a对有效图像区域中的人物头像进行识别，从而得到人物头像所在的矩形框。
[0144]
第三关键点预测单元523a按照前述方法实施例中的关键点实施例三，从原始图像上的人物头像矩形框上预测到多个第三关键点，对应地，矩阵计算模块53a中的第三变换矩阵计算单元533a根据多个第三关键点计算得到一个第三变换矩阵m3。
[0145]
加权计算单元534a分别与第一变换矩阵计算单元531a、第二变换矩阵计算单元532a和第三变换矩阵计算单元533a相连接，根据对应不同种类关键点的权重对三个变换矩阵中的元素分别进行加权计算，最终得到一个最优变换矩阵m。变换模块54a按照所述最优变换矩阵m对原始图片的有效图像区域进行变换，从而得到矫正后的图像。
[0146]
本实施例通过不同关键点提取方法从原始图片中获取关键点，从而可以更加精确地得到图像的变形情况，并且根据各种关键点对变换效果精确度的贡献确定各自的权重，从而能够更精确地矫正图像，达到更好的矫正效果。
[0147]
图像矫正模块实施例三
[0148]
图19是根据本发明又一个实施例的图片矫正模块的原理框图。在本实施例中，所述待矫正的原始图片是具有人物头像和标准参数项的矩形证件图片。本实施例在图17所示实施例的基础上，所述关键点预测模块52a包括第一关键点预测单元521a、第二关键点预测单元522a和第三关键点预测单元523a。每个关键点预测单元采用一个cpn模型对有效图像区域中进行关键点预测。其中，第一关键点预测单元521a按照前述方法实施例中的关键点实施例一预测得到4
‑
13个第一关键点；第二关键点预测单元522a按照前述方法实施例中的关键点实施例二预测得到至少4个标准参数项对应位置的第二关键点，第三关键点预测单
元523a按照前述方法实施例中的关键点实施例三，从原始图像上的人物头像矩形框上预测到至少4个第三关键点。矩阵计算模块53a接收所述三种关键点，对多个关键点进行排列组合，结合对应的标准关键点计算得到多个变换矩阵m，并对所述多个变换矩阵m进行线性回归计算，从而得到一个最优变换矩阵m，变换模块54a按照所述最优变换矩阵m对原始图片的有效图像区域进行变换，从而得到矫正后的图像。
[0149]
虽然在上述说明中是以身份证图片作为实施例对图像矫正模块进行的说明，上述图像矫正方法和模块也适应用于本发明中所述名片、护照、各种具有统一规格的证书。本发明在数据库中存储有各种规格的名片模板，在对待识别名片图像进行矫正时，可从数据库中查询得到对应的名片模板，进行得到与各种预测关键点对应的标准关键点，从而得到变换矩阵，而对名片图像进行矫正。
[0150]
上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种卡片式文件图像识别方法和装置与流程

相关文献

最热文献