一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种出生证识别方法、装置、计算机设备及存储介质与流程

2022-06-08 20:17:32 来源:中国专利 TAG:


1.本技术涉及人工智能中的图像处理技术领域,尤其涉及一种出生证识别方法、装置、计算机设备及存储介质。


背景技术:

2.出生医学证明作为一种重要的证件,其自动识别技术,对父母及新生儿身份信息进行识别,应用于生育保险报销过程中对生育信息的登记和录入,便于进行被保人信息的核验及管理,大大提升保险报销效率,降低人力成本,控制业务风险等具有重大的意义。
3.现有一种出生证识别方法,即通过ocr识别技术快速识别提取目标出生证件上的信息内容,以达到识别出生证的目的。
4.然而,传统的出生证识别方法普遍不智能,在对证件上的信息进行识别时,可能会受到证件质量、外界环境等多种因素的影响,导致对证件上信息的识别的准确性可能无法达到百分之百,由此可见,传统的出生证识别方法存在识别准确性较低的问题。


技术实现要素:

5.本技术实施例的目的在于提出一种出生证识别方法、装置、计算机设备及存储介质,以解决传统的出生证识别方法存在识别准确性较低的问题。
6.为了解决上述技术问题,本技术实施例提供一种出生证识别方法,采用了如下所述的技术方案:
7.获取待识别的初始出生证图像;
8.对所述初始出生证图像进行证件关键点检测操作,得到关键点位置信息;
9.根据所述关键点位置信息对所述初始出生证图像进行矫正操作,得到中间出生证图像;
10.根据ocr识别技术对所述中间出生证图像进行文本识别操作,得到初始出生证信息;
11.将所述初始文本信息输入至训练好的语义识别模型进行语义识别操作,得到目标出生证信息;
12.输出所述目标出生证信息。
13.为了解决上述技术问题,本技术实施例还提供一种出生证识别装置,采用了如下所述的技术方案:
14.图像获取模块,用于获取待识别的初始出生证图像;
15.关键点检测模块,用于对所述初始出生证图像进行证件关键点检测操作,得到关键点位置信息;
16.图像矫正模块,用于根据所述关键点位置信息对所述初始出生证图像进行矫正操作,得到中间出生证图像;
17.文本识别模块,用于根据ocr识别技术对所述中间出生证图像进行文本识别操作,
得到初始出生证信息;
18.语义识别模块,用于将所述初始文本信息输入至训练好的语义识别模型进行语义识别操作,得到目标出生证信息;
19.结果输出模块,用于输出所述目标出生证信息。
20.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
21.包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的出生证识别方法的步骤。
22.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
23.所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的出生证识别方法的步骤。
24.与现有技术相比,本技术实施例主要有以下有益效果:
25.本技术提供了一种出生证识别方法,包括:获取待识别的初始出生证图像;对所述初始出生证图像进行证件关键点检测操作,得到关键点位置信息;根据所述关键点位置信息对所述初始出生证图像进行矫正操作,得到中间出生证图像;根据ocr识别技术对所述中间出生证图像进行文本识别操作,得到初始出生证信息;将所述初始文本信息输入至训练好的语义识别模型进行语义识别操作,得到目标出生证信息;输出所述目标出生证信息。本技术通过对初始出生证图像进行图像矫正,得到规范的中间出生证图像,再对矫正后的中间出生证图像进行文本识别,得到初始出生证信息,最后通过语义识别模型获取初始出生证信息的真实语义信息,从而有效避免不同的光照、拍摄角度以及不同的背景等干扰因素影响出生证识别的准确性,进一步的,通过语义识别模型识别真实的语义信息,有效避免串行等情况出现文本内容衔接不正确的情况,进一步提高出生证识别的准确性。
附图说明
26.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
27.图1是本技术可以应用于其中的示例性系统架构图;
28.图2是本技术实施例一提供的出生证识别方法的实现流程图;
29.图3是本技术实施例一提供的出生证识别方法的另一种具体实施方式的流程图;
30.图4是本技术实施例一提供的获取语义识别模型的一种具体实施方式的流程图;
31.图5是图4中步骤s402的一种具体实施方式的流程图;
32.图6是图4中步骤s403的一种具体实施方式的流程图;
33.图7是图4中步骤s404的一种具体实施方式的流程图;
34.图8是本技术实施例一提供的获取关键点位置信息的一种具体实施方式的流程图;
35.图9是本技术实施例二提供的出生证识别装置的结构示意图;
36.图10是本技术实施例二提供的出生证识别装置的另一种具体实施方式的结构示
意图;
37.图11是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
38.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
39.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
40.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
41.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
42.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
43.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
44.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
45.需要说明的是,本技术实施例所提供的出生证识别方法一般由服务器/终端设备执行,相应地,出生证识别装置一般设置于服务器/终端设备中。
46.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
47.继续参考图2,示出了本技术实施例一提供的出生证识别方法的实现流程图,为了便于说明,仅示出与本技术相关的部分。
48.上述的出生证识别方法,包括以下步骤:步骤s201、步骤s202、步骤s203、步骤s204、步骤s205以及步骤s206。
49.步骤s201:获取待识别的初始出生证图像。
50.在本技术实施例中,获取初始出生证图像可以是通过图像采集终端实时采集得到
的,该初始出生证图像还可以是通过用户终端发送携带有该初始出生证图像的数据得到的,应当理解,此处对获取获取初始出生证图像的实现方式的举例仅为方便理解,不用于限定本技术。
51.步骤s202:对初始出生证图像进行证件关键点检测操作,得到关键点位置信息。
52.在本技术实施例中,关键点检测操作可以使用目前现有的深度神经网络实现(如ssd,yolo),将出生证从图像中检测并截取出来;并在截取后的出生证图像上做关键词对应的关键区域的预测,这里采用基于centernet的检测方法,定位“新生儿姓名”、“性别”、“出生时间”、“出生孕周”、“母亲姓名”、“年龄”、“父亲姓名”等关键词语区域的中心点。
53.步骤s203:根据关键点位置信息对初始出生证图像进行矫正操作,得到中间出生证图像。
54.在本技术实施例中,矫正操作可以是在预测出关键点后,自定义出出生证的标准摆放位置,然后可得出一一对应的关键点,根据关键点的对应关系求出放射矩阵,然后将截取后的出生证图像乘以放射矩阵得到矫正后的规范图像
55.步骤s204:根据ocr识别技术对中间出生证图像进行文本识别操作,得到初始出生证信息。
56.在本技术实施例中,文本识别操作指的是现有通用的光学字符识别技术,其依据的技术可以是ocr文字识别软件,以实现将图片、照片上的文字内容,直接转换为可编辑文本的软件。
57.步骤s205:将初始文本信息输入至训练好的语义识别模型进行语义识别操作,得到目标出生证信息。
58.在本技术实施例中,语义分析模型为预先训练好的深度识别网络模型,该语义分析模型可以通过分析关联文本内容获知目标词汇的真实含义。
59.步骤s206:输出目标出生证信息。
60.在本技术实施例中,提供了一种出生证识别方法,包括:获取待识别的初始出生证图像;对初始出生证图像进行证件关键点检测操作,得到关键点位置信息;根据关键点位置信息对初始出生证图像进行矫正操作,得到中间出生证图像;根据ocr识别技术对中间出生证图像进行文本识别操作,得到初始出生证信息;将初始文本信息输入至训练好的语义识别模型进行语义识别操作,得到目标出生证信息;输出目标出生证信息。本技术通过对初始出生证图像进行图像矫正,得到规范的中间出生证图像,再对矫正后的中间出生证图像进行文本识别,得到初始出生证信息,最后通过语义识别模型获取初始出生证信息的真实语义信息,从而有效避免不同的光照、拍摄角度以及不同的背景等干扰因素影响出生证识别的准确性,进一步的,通过语义识别模型识别真实的语义信息,有效避免串行等情况出现文本内容衔接不正确的情况,进一步提高出生证识别的准确性。
61.继续参阅图3,示出了本技术实施例一提供的出生证识别方法的另一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
62.在本实施例的一些可选的实现方式中,在步骤s202之前,还包括:步骤s301。
63.步骤s301:对初始出生证图像进行灰度化操作。
64.在本技术实施例中,如果rgb模型的r=g=b时,则彩色表示一种灰度颜色,其中r=g=b的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮
度值),灰度范围为0-255。
65.在本技术实施例中,灰度化的计算公式为:
[0066][0067]
在本技术实施例中,rgb颜色值不能简单直接相加,而是必须用2.2次方换算成物理光功率。因为rgb值与功率并非简单的线性关系,而是幂函数关系,这个函数的指数称为gamma值,一般为2.2,而这个换算过程,称为gamma校正。
[0068]
在本技术实施例中,通过对初始出生证图像进行灰度化,使得整个识别过程的推断速度更快。
[0069]
继续参阅图4,示出了本技术实施例一提供的获取语义识别模型的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
[0070]
在本实施例的一些可选的实现方式中,在步骤s205之前,还包括:步骤s401、步骤s402、步骤s403、步骤s404、步骤s405以及步骤s406。
[0071]
步骤s401:在本地数据库中获取样本文本,并确定样本文本中包含的每个分词。
[0072]
在本技术实施例中,可以先从上述本地数据库中获取多个文本,确定由获取的多个文本所构成的训练集,则,针对训练集中的每个文本,可将该文本作为样本文本。
[0073]
在本技术实施例中,确定该样本文本中包含的分词时,可先对该样本文本进行分词处理,以得到该样本文本中包含的每个分词。在对样本文本进行分词处理时,可采用任何分词方法,当然,也可将该样本文本中的每个字符都作为一个分词进行处理,应当理解,此处对分词处理的举例仅为方便理解,不用于限定本技术。
[0074]
步骤s402:基于待训练的语义分析模型确定每个分词对应的词向量。
[0075]
在本技术实施例中,语义分析模型可至少包括四层,分别是:语义表征层、属性表征层、属性相关性表示层、分类层。
[0076]
在本技术实施例中,语义表征层中至少包括用于输出双向语义表示向量的子模型,如bert(bidirectional encoder representations from transformers)模型等。可将每个分词输入语义分析模型中的语义表征层,得到语义表征层输出的每个分词分别对应的双向语义表示向量,作为每个分词对应的词向量。应当理解,用于输出双向语义表示向量的模型除了上述的bert模型以外,还包括其他模型,此处对用于输出双向语义表示向量的模型的举例仅为方便理解,不用于限定本技术。
[0077]
步骤s403:在本地数据库中获取每个语义属性,根据待训练的语义分析模型中包含语义属性对应的注意力矩阵,以及每个分词对应的词向量,确定样本文本涉及语义属性的第一特征表示向量。
[0078]
在本技术实施例中,可将每个分词对应的词向量输入语义分析模型中的属性表征层,通过属性表征层中包含的该语义属性对应的注意力矩阵,对每个分词对应的词向量进行注意力加权,根据注意力加权后的每个分词对应的词向量,确定样本文本涉及该语义属性的第一特征表示向量。
[0079]
步骤s404:根据待训练的语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及样本文本涉及每个语义属性的第一特征表示向量,确定样本文
本涉及每个语义属性的第二特征表示向量。
[0080]
在本技术实施例中,可将样本文本涉及每个语义属性的第一特征表示向量输入语义分析模型中的属性相关性表示层,通过属性相关性表示层中包含的上述自注意力矩阵,对样本文本涉及每个语义属性的第一特征表示向量进行自注意力加权,根据自注意力加权后的各第一特征表示向量,确定样本文本涉及每个语义属性的第二特征表示向量。
[0081]
步骤s405:根据待训练的语义分析模型以及样本文本涉及每个语义属性的第二特征表示向量,确定待训练的语义训练模型输出的分类结果,分类结果包括样本文本所属的语义属性以及样本文本所属的语义属性对应的情感极性。
[0082]
在本技术实施例中,分类层至少包括隐层、全连接层和softmax层。
[0083]
在本技术实施例中,可将样本文本涉及每个语义属性的第二特征表示向量依次输入分类层中的隐层、全连接层和softmax层,根据每个第二特征表示向量以及分类层的隐层、全连接层和softmax层中包含的与每个语义属性对应的分类参数,对样本文本进行分类,得到分类层输出的分类结果。
[0084]
在本技术实施例中,的分类结果至少包括样本文本所属的语义属性以及样本文本在其所属的语义属性上对应的情感极性。
[0085]
在本技术实施例中,该情感极性可以采用数值进行量化,例如,数值越接近于1,则表示情感极性越倾向于正面,数值越接近于-1,则表示情感极性越倾向于负面,数值接近于0,则表示情感极性倾向于中性。
[0086]
步骤s406:根据分类结果和针对样本文本预设的标注,对语义分析模型中的模型参数进行调整,以完成对语义分析模型的训练。
[0087]
在本技术实施例中,需要调整的模型参数至少包括上述的分类参数,还可包括上述的注意力矩阵和自注意力矩阵。可采用传统的训练方法对语义分析模型中的模型参数进行调整。即,直接根据得到的分类结果和针对样本文本预设的标注,确定分类结果对应的损失(以下将其称之为第一损失),并以该第一损失最小化为训练目标对语义分析模型中的模型参数进行调整,以完成对语义分析模型的训练。
[0088]
在本技术实施例中,由于上述语义分析模型中已经加入了用于表示不同语义属性之间相关性的自注意力矩阵,因此,采用上述传统的训练方法训练得到的语义分析模型可更加准确的对待分析文本的语义进行分析。
[0089]
继续参阅图5,示出了图4中步骤s402的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
[0090]
在本实施例的一些可选的实现方式中,在步骤s402中,具体包括:
[0091]
步骤s501:将每个分词输入语义分析模型中的语义表征层,得到语义表征层输出的每个分词分别对应的双向语义表示向量,作为每个分词对应的词向量。
[0092]
在本技术实施例中,语义表征层至少包括用于输出双向语义表示向量的子模型,该子模型包括bert模型。
[0093]
继续参阅图6,示出了图4中步骤s403的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
[0094]
在本实施例的一些可选的实现方式中,在步骤s403中,具体包括:步骤s601、步骤s602以及步骤s603。
[0095]
步骤s601:将每个分词对应的词向量输入语义分析模型中的属性表征层。
[0096]
在本技术实施例中,在本技术实施例中,属性表征层中至少包含每个语义属性各自对应的注意力矩阵。
[0097]
步骤s602:通过属性表征层中包含的该语义属性对应的注意力矩阵,对每个分词对应的词向量进行注意力加权。
[0098]
在本技术实施例中,可将每个分词对应的词向量输入语义分析模型中的属性表征层,通过属性表征层中包含的该语义属性对应的注意力矩阵,对每个分词对应的词向量进行注意力加权,根据注意力加权后的每个分词对应的词向量,确定样本文本涉及该语义属性的第一特征表示向量。
[0099]
步骤s603:根据注意力加权后的每个分词对应的词向量,确定样本文本涉及该语义属性的第一特征表示向量。
[0100]
在本技术实施例中,上述的第一特征表示向量可以表征该样本文本涉及该语义属性的概率以及在该语义属性上的情感极性。
[0101]
继续参阅图7,示出了图4中步骤s404的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
[0102]
在本实施例的一些可选的实现方式中,在步骤s404中,具体包括:步骤s701、步骤s702以及步骤s703。
[0103]
步骤s701:将样本文本涉及每个语义属性的第一特征表示向量输入语义分析模型中的属性相关性表示层。
[0104]
在本技术实施例中,语义分析模型中的属性相关性表示层中至少包含自注意力矩阵,该自注意力矩阵用于表示不同语义属性之间的相关性,该自注意力矩阵的形式可以为:矩阵中的元素r
ij
表示第i个语义属性与第j个语义属性的相关性,相关性越强,r
ij
的值越大,反之越小。
[0105]
步骤s702:通过属性相关性表示层中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,对样本文本涉及每个语义属性的第一特征表示向量进行自注意力加权。
[0106]
步骤s703:根据自注意力加权后的各第一特征表示向量,确定样本文本涉及每个语义属性的第二特征表示向量。
[0107]
在本技术实施例中,第二特征表示向量同样可以表征该样本文本涉及每个语义属性的概率以及在该语义属性上的情感极性,但与第一特征表示向量不同的是,第一特征表示向量是采用各自独立的每个语义属性对应的注意力矩阵对词向量加权得到的,因此,其表征的样本文本涉及每个语义属性的概率以及在该语义属性上的情感极性并未考虑不同语义属性之间的相关性。而第二特征表示向量是采用用于表示不同语义属性之间相关性的自注意力矩阵对第一特征表示向量加权得到的,相当于由自注意力矩阵引入了不同语义属性之间相关性的因素,因此,其表征的样本文本涉及每个语义属性的概率以及在该语义属性上的情感极性考虑了不同语义属性之间的相关性。
[0108]
继续参阅图8,示出了本技术实施例一提供的获取关键点位置信息的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
[0109]
在本实施例的一些可选的实现方式中,在步骤s101之后,还包括:步骤s801以及步骤s802,步骤s102具体包括:步骤s803。
[0110]
在步骤s801中,根据长宽比例不变的方式对初始出生证图像进行尺寸调节处理,得到标准出生证图像。
[0111]
在本技术实施例中,尺寸调节处理指的是对初始出生证图像的大小进行调整的过程,该调整过程始终保持图像长宽比例不变,具体的,图像放大可以采用内插值方法,即在原有图像像素的基础上再像素点之间采用合适的插值算法插入新的元素,作为实例,该插值算法可以是:包括基于边缘的图像插值算法、基于区域的图像插值算法以及其他已知或者未来开发的算法;而缩小图像可以是采用cv_inetr_area来插值进行实现。
[0112]
在步骤s802中,根据预设尺寸对标准出生证图像进行分割处理,得到预处理出生证图像。
[0113]
在步骤s803中,对预处理出生证图像进行证件关键点检测操作,得到关键点位置信息。
[0114]
在本技术实施例中,由于在进行关键点检测操作的输入图像需要满足一定的尺寸要求,当尺寸过大的图像进行关键点检测操作时,会影响该模型的处理效率及处理准确度,因此,通过上述的尺寸调节处理和分割处理对该初始出生证图像进行标准化操作,使得进行关键点检测操作的输入数据符合尺寸要求,其中,预设尺寸可以根据实际情况进行动态调整,作为示例,该预设尺寸可以是224
×
224,应当理解,此处对预设尺寸的举例仅为方便理解,不用于限定本技术。
[0115]
综上,本技术提供了一种出生证识别方法,包括:获取待识别的初始出生证图像;对初始出生证图像进行证件关键点检测操作,得到关键点位置信息;根据关键点位置信息对初始出生证图像进行矫正操作,得到中间出生证图像;根据ocr识别技术对中间出生证图像进行文本识别操作,得到初始出生证信息;将初始文本信息输入至训练好的语义识别模型进行语义识别操作,得到目标出生证信息;输出目标出生证信息。本技术通过对初始出生证图像进行图像矫正,得到规范的中间出生证图像,再对矫正后的中间出生证图像进行文本识别,得到初始出生证信息,最后通过语义识别模型获取初始出生证信息的真实语义信息,从而有效避免不同的光照、拍摄角度以及不同的背景等干扰因素影响出生证识别的准确性,进一步的,通过语义识别模型识别真实的语义信息,有效避免串行等情况出现文本内容衔接不正确的情况,进一步提高出生证识别的准确性。同时,通过对初始出生证图像进行灰度化,使得整个识别过程的推断速度更快。
[0116]
需要强调的是,为进一步保证上述目标出生证信息的私密和安全性,上述目标出生证信息还可以存储于一区块链的节点中。
[0117]
本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0118]
本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中
描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0119]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0120]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0121]
实施例二
[0122]
进一步参考图9,作为对上述图2所示方法的实现,本技术提供了一种出生证识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0123]
如图9所示,本实施例的出生证识别装置200包括:图像获取模块201、关键点检测模块202、图像矫正模块203、文本识别模块204、语义识别模块205以及结果输出模块206。其中:
[0124]
图像获取模块201,用于获取待识别的初始出生证图像;
[0125]
关键点检测模块202,用于对初始出生证图像进行证件关键点检测操作,得到关键点位置信息;
[0126]
图像矫正模块203,用于根据关键点位置信息对初始出生证图像进行矫正操作,得到中间出生证图像;
[0127]
文本识别模块204,用于根据ocr识别技术对中间出生证图像进行文本识别操作,得到初始出生证信息;
[0128]
语义识别模块205,用于将初始文本信息输入至训练好的语义识别模型进行语义识别操作,得到目标出生证信息;
[0129]
结果输出模块206,用于输出目标出生证信息。
[0130]
在本技术实施例中,获取初始出生证图像可以是通过图像采集终端实时采集得到的,该初始出生证图像还可以是通过用户终端发送携带有该初始出生证图像的数据得到的,应当理解,此处对获取获取初始出生证图像的实现方式的举例仅为方便理解,不用于限定本技术。
[0131]
在本技术实施例中,关键点检测操作可以使用目前现有的深度神经网络实现(如ssd,yolo),将出生证从图像中检测并截取出来;并在截取后的出生证图像上做关键词对应的关键区域的预测,这里采用基于centernet的检测方法,定位“新生儿姓名”、“性别”、“出
生时间”、“出生孕周”、“母亲姓名”、“年龄”、“父亲姓名”等关键词语区域的中心点。
[0132]
在本技术实施例中,矫正操作可以是在预测出关键点后,自定义出出生证的标准摆放位置,然后可得出一一对应的关键点,根据关键点的对应关系求出放射矩阵,然后将截取后的出生证图像乘以放射矩阵得到矫正后的规范图像
[0133]
在本技术实施例中,文本识别操作指的是现有通用的光学字符识别技术,其依据的技术可以是ocr文字识别软件,以实现将图片、照片上的文字内容,直接转换为可编辑文本的软件。
[0134]
在本技术实施例中,语义分析模型为预先训练好的深度识别网络模型,该语义分析模型可以通过分析关联文本内容获知目标词汇的真实含义。
[0135]
在本技术实施例中,提供了一种出生证识别装置200,包括:图像获取模块201,用于获取待识别的初始出生证图像;关键点检测模块202,用于对初始出生证图像进行证件关键点检测操作,得到关键点位置信息;图像矫正模块203,用于根据关键点位置信息对初始出生证图像进行矫正操作,得到中间出生证图像;文本识别模块204,用于根据ocr识别技术对中间出生证图像进行文本识别操作,得到初始出生证信息;语义识别模块205,用于将初始文本信息输入至训练好的语义识别模型进行语义识别操作,得到目标出生证信息;结果输出模块206,用于输出目标出生证信息。本技术通过对初始出生证图像进行图像矫正,得到规范的中间出生证图像,再对矫正后的中间出生证图像进行文本识别,得到初始出生证信息,最后通过语义识别模型获取初始出生证信息的真实语义信息,从而有效避免不同的光照、拍摄角度以及不同的背景等干扰因素影响出生证识别的准确性,进一步的,通过语义识别模型识别真实的语义信息,有效避免串行等情况出现文本内容衔接不正确的情况,进一步提高出生证识别的准确性。
[0136]
继续参阅图10,示出了本技术实施例二提供的出生证识别装置的另一种具体实施方式的结构示意图,为了便于说明,仅示出与本技术相关的部分。
[0137]
在本实施例的一些可选的实现方式中,上述出生证识别装置200还包括:灰度化模块207,其中:
[0138]
灰度化模块207,用于对初始出生证图像进行灰度化操作。
[0139]
在本技术实施例中,如果rgb模型的r=g=b时,则彩色表示一种灰度颜色,其中r=g=b的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0-255。
[0140]
在本技术实施例中,灰度化的计算公式为:
[0141][0142]
在本技术实施例中,rgb颜色值不能简单直接相加,而是必须用2.2次方换算成物理光功率。因为rgb值与功率并非简单的线性关系,而是幂函数关系,这个函数的指数称为gamma值,一般为2.2,而这个换算过程,称为gamma校正。
[0143]
在本技术实施例中,通过对初始出生证图像进行灰度化,使得整个识别过程的推断速度更快。
[0144]
在本实施例的一些可选的实现方式中,上述出生证识别装置200还包括:
[0145]
样本获取模块,用于在本地数据库中获取样本文本,并确定样本文本中包含的每个分词;
[0146]
词向量确定模块,用于基于待训练的语义分析模型确定每个分词对应的词向量;
[0147]
注意力矩阵模块,用于在本地数据库中获取每个语义属性,根据待训练的语义分析模型中包含语义属性对应的注意力矩阵,以及每个分词对应的词向量,确定样本文本涉及语义属性的第一特征表示向量;
[0148]
自注意力矩阵模块,用于根据待训练的语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及样本文本涉及每个语义属性的第一特征表示向量,确定样本文本涉及每个语义属性的第二特征表示向量;
[0149]
分类结果确定模块,用于根据待训练的语义分析模型以及样本文本涉及每个语义属性的第二特征表示向量,确定待训练的语义训练模型输出的分类结果,分类结果包括样本文本所属的语义属性以及样本文本所属的语义属性对应的情感极性;
[0150]
参数调整模块,用于根据分类结果和针对样本文本预设的标注,对语义分析模型中的模型参数进行调整,以完成对语义分析模型的训练。
[0151]
在本技术实施例中,可以先从上述本地数据库中获取多个文本,确定由获取的多个文本所构成的训练集,则,针对训练集中的每个文本,可将该文本作为样本文本。
[0152]
在本技术实施例中,确定该样本文本中包含的分词时,可先对该样本文本进行分词处理,以得到该样本文本中包含的每个分词。在对样本文本进行分词处理时,可采用任何分词方法,当然,也可将该样本文本中的每个字符都作为一个分词进行处理,应当理解,此处对分词处理的举例仅为方便理解,不用于限定本技术。
[0153]
在本技术实施例中,语义分析模型可至少包括四层,分别是:语义表征层、属性表征层、属性相关性表示层、分类层。
[0154]
在本技术实施例中,语义表征层中至少包括用于输出双向语义表示向量的子模型,如bert(bidirectional encoder representations from transformers)模型等。可将每个分词输入语义分析模型中的语义表征层,得到语义表征层输出的每个分词分别对应的双向语义表示向量,作为每个分词对应的词向量。应当理解,用于输出双向语义表示向量的模型除了上述的bert模型以外,还包括其他模型,此处对用于输出双向语义表示向量的模型的举例仅为方便理解,不用于限定本技术。
[0155]
在本技术实施例中,可将每个分词对应的词向量输入语义分析模型中的属性表征层,通过属性表征层中包含的该语义属性对应的注意力矩阵,对每个分词对应的词向量进行注意力加权,根据注意力加权后的每个分词对应的词向量,确定样本文本涉及该语义属性的第一特征表示向量。
[0156]
在本技术实施例中,可将样本文本涉及每个语义属性的第一特征表示向量输入语义分析模型中的属性相关性表示层,通过属性相关性表示层中包含的上述自注意力矩阵,对样本文本涉及每个语义属性的第一特征表示向量进行自注意力加权,根据自注意力加权后的各第一特征表示向量,确定样本文本涉及每个语义属性的第二特征表示向量。
[0157]
在本技术实施例中,分类层至少包括隐层、全连接层和softmax层。
[0158]
在本技术实施例中,可将样本文本涉及每个语义属性的第二特征表示向量依次输入分类层中的隐层、全连接层和softmax层,根据每个第二特征表示向量以及分类层的隐
层、全连接层和softmax层中包含的与每个语义属性对应的分类参数,对样本文本进行分类,得到分类层输出的分类结果。
[0159]
在本技术实施例中,的分类结果至少包括样本文本所属的语义属性以及样本文本在其所属的语义属性上对应的情感极性。
[0160]
在本技术实施例中,该情感极性可以采用数值进行量化,例如,数值越接近于1,则表示情感极性越倾向于正面,数值越接近于-1,则表示情感极性越倾向于负面,数值接近于0,则表示情感极性倾向于中性。
[0161]
在本技术实施例中,需要调整的模型参数至少包括上述的分类参数,还可包括上述的注意力矩阵和自注意力矩阵。可采用传统的训练方法对语义分析模型中的模型参数进行调整。即,直接根据得到的分类结果和针对样本文本预设的标注,确定分类结果对应的损失(以下将其称之为第一损失),并以该第一损失最小化为训练目标对语义分析模型中的模型参数进行调整,以完成对语义分析模型的训练。
[0162]
在本技术实施例中,由于上述语义分析模型中已经加入了用于表示不同语义属性之间相关性的自注意力矩阵,因此,采用上述传统的训练方法训练得到的语义分析模型可更加准确的对待分析文本的语义进行分析。
[0163]
在本实施例的一些可选的实现方式中,上述词向量确定模块包括:词向量确定子模块,其中:
[0164]
词向量确定子模块,用于将每个分词输入语义分析模型中的语义表征层,得到语义表征层输出的每个分词分别对应的双向语义表示向量,作为每个分词对应的词向量。
[0165]
在本技术实施例中,语义表征层至少包括用于输出双向语义表示向量的子模型,该子模型包括bert模型。
[0166]
在本实施例的一些可选的实现方式中,上述注意力矩阵模块包括:属性表征子模块、注意力加权子模块以及第一特征确定子模块,其中:
[0167]
属性表征子模块,用于将每个分词对应的词向量输入语义分析模型中的属性表征层;
[0168]
注意力加权子模块,用于通过属性表征层中包含的该语义属性对应的注意力矩阵,对每个分词对应的词向量进行注意力加权;
[0169]
第一特征确定子模块,用于根据注意力加权后的每个分词对应的词向量,确定样本文本涉及该语义属性的第一特征表示向量。
[0170]
在本技术实施例中,在本技术实施例中,属性表征层中至少包含每个语义属性各自对应的注意力矩阵。
[0171]
在本技术实施例中,可将每个分词对应的词向量输入语义分析模型中的属性表征层,通过属性表征层中包含的该语义属性对应的注意力矩阵,对每个分词对应的词向量进行注意力加权,根据注意力加权后的每个分词对应的词向量,确定样本文本涉及该语义属性的第一特征表示向量。
[0172]
在本技术实施例中,上述的第一特征表示向量可以表征该样本文本涉及该语义属性的概率以及在该语义属性上的情感极性。
[0173]
在本实施例的一些可选的实现方式中,上述自注意力矩阵模块包括:第一特征输入子模块、自注意力加权子模块以及第二特征确定子模块,其中:
[0174]
第一特征输入子模块,用于将样本文本涉及每个语义属性的第一特征表示向量输入语义分析模型中的属性相关性表示层;
[0175]
自注意力加权子模块,用于通过属性相关性表示层中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,对样本文本涉及每个语义属性的第一特征表示向量进行自注意力加权;
[0176]
第二特征确定子模块,用于根据自注意力加权后的各第一特征表示向量,确定样本文本涉及每个语义属性的第二特征表示向量。
[0177]
在本技术实施例中,语义分析模型中的属性相关性表示层中至少包含自注意力矩阵,该自注意力矩阵用于表示不同语义属性之间的相关性,该自注意力矩阵的形式可以为:矩阵中的元素r
ij
表示第i个语义属性与第j个语义属性的相关性,相关性越强,r
ij
的值越大,反之越小。
[0178]
在本技术实施例中,第二特征表示向量同样可以表征该样本文本涉及每个语义属性的概率以及在该语义属性上的情感极性,但与第一特征表示向量不同的是,第一特征表示向量是采用各自独立的每个语义属性对应的注意力矩阵对词向量加权得到的,因此,其表征的样本文本涉及每个语义属性的概率以及在该语义属性上的情感极性并未考虑不同语义属性之间的相关性。而第二特征表示向量是采用用于表示不同语义属性之间相关性的自注意力矩阵对第一特征表示向量加权得到的,相当于由自注意力矩阵引入了不同语义属性之间相关性的因素,因此,其表征的样本文本涉及每个语义属性的概率以及在该语义属性上的情感极性考虑了不同语义属性之间的相关性。
[0179]
在本实施例的一些可选的实现方式中,上述出生证识别装置200还包括:尺寸调节模块以及分割模块,上述关键点检测模块202包括:关键点检测子模块,其中:
[0180]
尺寸调节模块,用于根据长宽比例不变的方式对初始出生证图像进行尺寸调节处理,得到标准出生证图像;
[0181]
分割模块,用于根据预设尺寸对标准出生证图像进行分割处理,得到预处理出生证图像;
[0182]
关键点检测子模块,用于对预处理出生证图像进行证件关键点检测操作,得到关键点位置信息。
[0183]
在本技术实施例中,尺寸调节处理指的是对初始出生证图像的大小进行调整的过程,该调整过程始终保持图像长宽比例不变,具体的,图像放大可以采用内插值方法,即在原有图像像素的基础上再像素点之间采用合适的插值算法插入新的元素,作为实例,该插值算法可以是:包括基于边缘的图像插值算法、基于区域的图像插值算法以及其他已知或者未来开发的算法;而缩小图像可以是采用cv_inetr_area来插值进行实现。
[0184]
在本技术实施例中,由于在进行关键点检测操作的输入图像需要满足一定的尺寸要求,当尺寸过大的图像进行关键点检测操作时,会影响该模型的处理效率及处理准确度,因此,通过上述的尺寸调节处理和分割处理对该初始出生证图像进行标准化操作,使得进行关键点检测操作的输入数据符合尺寸要求,其中,预设尺寸可以根据实际情况进行动态调整,作为示例,该预设尺寸可以是224
×
224,应当理解,此处对预设尺寸的举例仅为方便理解,不用于限定本技术。
[0185]
综上所述,本技术提供了一种出生证识别装置200,包括:图像获取模块201,用于
获取待识别的初始出生证图像;关键点检测模块202,用于对初始出生证图像进行证件关键点检测操作,得到关键点位置信息;图像矫正模块203,用于根据关键点位置信息对初始出生证图像进行矫正操作,得到中间出生证图像;文本识别模块204,用于根据ocr识别技术对中间出生证图像进行文本识别操作,得到初始出生证信息;语义识别模块205,用于将初始文本信息输入至训练好的语义识别模型进行语义识别操作,得到目标出生证信息;结果输出模块206,用于输出目标出生证信息。本技术通过对初始出生证图像进行图像矫正,得到规范的中间出生证图像,再对矫正后的中间出生证图像进行文本识别,得到初始出生证信息,最后通过语义识别模型获取初始出生证信息的真实语义信息,从而有效避免不同的光照、拍摄角度以及不同的背景等干扰因素影响出生证识别的准确性,进一步的,通过语义识别模型识别真实的语义信息,有效避免串行等情况出现文本内容衔接不正确的情况,进一步提高出生证识别的准确性。同时,通过对初始出生证图像进行灰度化,使得整个识别过程的推断速度更快。
[0186]
为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图11,图11为本实施例计算机设备基本结构框图。
[0187]
所述计算机设备300包括通过系统总线相互通信连接存储器310、处理器320、网络接口330。需要指出的是,图中仅示出了具有组件310-330的计算机设备300,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0188]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0189]
所述存储器310至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器310可以是所述计算机设备300的内部存储单元,例如该计算机设备300的硬盘或内存。在另一些实施例中,所述存储器310也可以是所述计算机设备300的外部存储设备,例如该计算机设备300上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器310还可以既包括所述计算机设备300的内部存储单元也包括其外部存储设备。本实施例中,所述存储器310通常用于存储安装于所述计算机设备300的操作系统和各类应用软件,例如出生证识别方法的计算机可读指令等。此外,所述存储器310还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0190]
所述处理器320在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器320通常用于控制所述计算机设备300的总体操作。本实施例中,所述处理器320用于运行所述存储器310中存储的
计算机可读指令或者处理数据,例如运行所述出生证识别方法的计算机可读指令。
[0191]
所述网络接口330可包括无线网络接口或有线网络接口,该网络接口330通常用于在所述计算机设备300与其他电子设备之间建立通信连接。
[0192]
本技术提供的计算机设备,通过对初始出生证图像进行图像矫正,得到规范的中间出生证图像,再对矫正后的中间出生证图像进行文本识别,得到初始出生证信息,最后通过语义识别模型获取初始出生证信息的真实语义信息,从而有效避免不同的光照、拍摄角度以及不同的背景等干扰因素影响出生证识别的准确性,进一步的,通过语义识别模型识别真实的语义信息,有效避免串行等情况出现文本内容衔接不正确的情况,进一步提高出生证识别的准确性。
[0193]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的出生证识别方法的步骤。
[0194]
本技术提供的计算机可读存储介质,通过对初始出生证图像进行图像矫正,得到规范的中间出生证图像,再对矫正后的中间出生证图像进行文本识别,得到初始出生证信息,最后通过语义识别模型获取初始出生证信息的真实语义信息,从而有效避免不同的光照、拍摄角度以及不同的背景等干扰因素影响出生证识别的准确性,进一步的,通过语义识别模型识别真实的语义信息,有效避免串行等情况出现文本内容衔接不正确的情况,进一步提高出生证识别的准确性。
[0195]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0196]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献