多姿态文本识别方法、装置及电子设备与流程

2022-07-01 22:08:30 来源：中国专利 TAG：

1.本发明实施例属于识别技术领域，尤其涉及一种多姿态文本识别方法、装置及电子设备。

背景技术：

2.在利用ocr(optical character recognition,光学字符识别)技术将图像中提取可以编辑文本的场景中，图像中文本姿态存在多样性，即自然场景中的文字排版、文字形态是多种多样，且由于拍摄角度或者目标本体的差异性，导致文本长度也是多种多样的。
3.将图片的特征提取出来后，采用rnn(recurrent neural network，循环神经网络)对所提取出来的特征进行预测，并根据预测结果得到可以编辑的文字内容。但是，rnn模型针对变长文本的识别容易出错，导致对变长文本的识别结果准确度不高。

技术实现要素：

4.鉴于现有技术对变长文本的识别结果准确度不高的技术问题，本发明实施例提供一种多姿态文本识别方法、装置以及电子设备，用以实现从图像中识别多姿态文本时，提高对多姿态文本中变长文本的识别准确性。
5.第一方面，本发明实施例提供一种多姿态文本识别方法，包括：
6.获取待识别的目标文本图像，通过特征提取网络提取所述目标文本图像的二维图像特征；
7.将所述二维图像特征切分为多个等长的特征片段；
8.将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，其中，所述编码器网络基于注意力机制创建；
9.融合所述多个等长的特征片段的编码特征，并将融合得到的融合编码特征序列输入至解码器网络进行解码，得到所述目标文本图像中的文字信息。
10.可选地，所述编码器网络包括二维注意力网络，以及与所述二维注意力网路级联的平行注意力网络，所述将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，包括：
11.针对所述多个等长的特征片段融合位置编码，得到二维的融合特征片段序列；
12.将所述融合特征片段序列输入至所述二维注意力网络中进行自注意力计算，得到二维的第一输出片段序列；
13.将所述第一输出片段序列和所述多个等长的特征片段输入至所述平行注意力网络中进行并行编码，得到第二输出片段序列，所述第二输出片段序列包含每个特征片段对应的编码特征。
14.可选地，所述二维注意力网络采用多层二维注意力层，其中，每层二维注意力层包含多个自注意力单元；
15.所述将所述融合特征片段序列输入至所述二维注意力网络中进行自注意力计算，
得到二维的第一输出片段序列，包括：
16.通过所述多层二维注意力层顺序处理所述融合特征片段序列，得到所述第一输出片段序列。
17.可选地，所述通过所述多层二维注意力层顺序处理所述融合特征片段序列，得到所述第一输出片段序列，包括：
18.将所述融合特征片段序列输入至第一层二维注意力层，通过所述第一层二维注意力层对所述融合特征片段序列进行自注意力计算；
19.通过第二层二维注意力层的每个自注意力单元，对所述第一层二维注意力层的加权输出进行自注意力计算；
20.通过第三层二维注意力层的每个自注意力单元，对所述第二层二维注意力层的加权输出进行自注意力计算，得到所述第一输出片段序列。
21.可选地，在所述通过特征提取网络提取所述目标文本图像的二维图像特征之前，还包括：
22.预先利用变长文本图像样本，对所述特征提取网络、所述编码器网络和所述解码器网络进行联合训练。
23.可选地，所述特征提取网络中步长为2的卷积层的数量少于预设数量阈值。
24.第二方面，本发明实施例提供一种多姿态文本识别方法，应用于服务端，包括：
25.在接收到用户设备采集的目标文本图像时，通过特征提取网络提取所述目标文本图像的二维图像特征；
26.将所述二维图像特征切分为多个等长的特征片段；
27.将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，其中，所述编码器网络基于注意力机制创建；
28.融合所述多个等长的特征片段的编码特征，并将融合得到的融合编码特征序列输入至解码器网络进行解码，得到所述目标文本图像中的文字信息；
29.反馈所述文字信息至所述用户设备，以使所述用户设备输出所述文字信息。
30.第三方面，本发明实施例提供一种多姿态文本识别装置，包括：
31.图像获取单元，用于获取待识别的目标文本图像，通过特征提取网络提取所述目标文本图像的二维图像特征；
32.特征切分单元，用于将所述二维图像特征切分为多个等长的特征片段；
33.编码单元，用于将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，其中，所述编码器网络基于注意力机制创建；
34.特征融合单元，用于融合所述多个等长的特征片段的编码特征；
35.解码单元，用于将融合得到的融合编码特征序列输入至解码器网络进行解码，得到所述目标文本图像中的文字信息。
36.可选地，所述编码器网络包括二维注意力网络，以及与所述二维注意力网路级联的平行注意力网络，所述编码单元，包括：
37.位置融合子单元，用于针对所述多个等长的特征片段融合位置编码，得到二维的融合特征片段序列；
38.注意计算子单元，用于将所述融合特征片段序列输入至所述二维注意力网络中进
行自注意力计算，得到二维的第一输出片段序列；
39.并行编码单元，用于将所述第一输出片段序列和所述多个等长的特征片段输入至所述平行注意力网络中进行并行编码，得到第二输出片段序列，所述第二输出片段序列包含每个特征片段对应的编码特征。
40.可选地，所述二维注意力网络采用多层二维注意力层，其中，每层二维注意力层包含多个自注意力单元；所述注意计算子单元，具体用于：
41.通过所述多层二维注意力层顺序处理所述融合特征片段序列，得到所述第一输出片段序列。
42.可选地，所述注意计算子单元，具体用于，包括：
43.将所述融合特征片段序列输入至第一层二维注意力层，通过所述第一层二维注意力层对所述融合特征片段序列进行自注意力计算；
44.通过第二层二维注意力层的每个自注意力单元，对所述第一层二维注意力层的加权输出进行自注意力计算；
45.通过第三层二维注意力层的每个自注意力单元，对所述第二层二维注意力层的加权输出进行自注意力计算，得到所述第一输出片段序列。
46.可选地，所述装置还包括：
47.训练单元，用于预先利用变长文本图像样本，对所述特征提取网络、所述编码器网络和所述解码器网络进行联合训练。
48.可选地，所述特征提取网络中步长为2的卷积层的数量少于预设数量阈值。
49.第四方面，本发明实施例提供一种多姿态文本识别装置，应用于服务端，其特征在于，所述装置包括：
50.图像接收单元，用于接收到用户设备采集的目标文本图像；
51.特征提取单元，用于通过特征提取网络提取所述目标文本图像的二维图像特征；
52.特征切分单元，用于将所述二维图像特征切分为多个等长的特征片段；
53.编码单元，用于将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，其中，所述编码器网络基于注意力机制创建；
54.特征融合单元，用于融合所述多个等长的特征片段的编码特征；
55.解码单元，用于将融合得到的融合编码特征序列输入至解码器网络进行解码，得到所述目标文本图像中的文字信息；
56.文字发送单元，用于反馈所述文字信息至所述用户设备，以使所述用户设备输出所述文字信息。
57.第五方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面或者第二方面中所述方法的步骤。
58.第六方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面或者第二方面所述方法的步骤。
59.本发明实施例提供的一个或者多个技术方案，至少实现了如下技术效果或者优点：
60.本发明实施例通过特征提取网络和二维图像特征切分结合，将特征提取网络从目
标文本图像提取的二维图像特征切分为多个等长的特征片段，利用注意力机制的编码器网络对切分的特征片段进行编码，融合所述多个等长的特征片段的编码特征，并将融合得到的融合编码特征序列输入至解码器网络进行解码，得到目标文本图像中的文字信息，而不是直接利用提取的二维图像特征进行预测，有效利用注意力机制的编码-解码对多姿态文本的识别，并且，在有效应对了注意力机制对变长支持较差的问题，从而提高了注意力机制下对变长文本图像的识别准确性，进而，实现了多姿态变长文本的准确识别。
附图说明
61.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
62.图1为实现本发明实施例应用的文本识别模型的结构示意图；
63.图2为本发明实施例提供的多姿态文本识别方法的流程图；
64.图3为本发明实施例提供的基于注意力机制的编码器网络的结构示意图；
65.图4为本发明实施例提供的二维注意力网络的结构示意图；
66.图5为图4中二维注意力网络的自注意力单元的结构示意图；
67.图6为本发明实施例提供的多姿态文本识别装置的功能模块示意图；
68.图7为本发明实施例提供的电子设备的示意图。
具体实施方式
69.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
70.本发明实施例中，术语“多个”表示“两个以上”，即包括两个或大于两个的情况；术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。
71.本发明实施例提供一种多姿态文本识别方法，用于实现从文本图像中识别出可以编辑的文字信息。
72.本发明实施例提供的多姿态文本识别方法可以直接应用于用户设备，比如：应用于点读笔产品、词典笔产品等；也可以应用于服务端，从而基于用户设备与服务端之间的交互来实现多姿态文本识别。本发明实施例中的用户设备带有摄像头模组，通过摄像头模组采集目标文本图像。具体的，该用户设备可以为智能手机、平板电脑或者智能穿戴设备等等。
73.需要说明的是，如果本发明实施例提供的多姿态文本识别方法应用于用户设备，则需要在用户设备上保存已训练的文本识别模型。如果本发明实施例提供的多姿态文本识别方法应用于服务端，则在用户设备不需要保存已训练的文本识别模型，而在服务端保存已训练的文本识别模型。
74.具体的，参考图1所示，在用户设备或者服务端保存的文本识别模型由特征提取网络、基于注意力机制创建的编码器网络以及解码器网络级联而成，特征提取网络，用于从目标文本图像中提取二维图像特征，其中，在特征提取网络与编码器网络之间还包含切分层，用于将提取的二维图像特征切分为多个等长的特征片段；编码器网络对每个特征片段进行编码，得到对应的编码特征，编码器网络与解码器网络之间还包含融合层，用于融合多个等长的特征片段进行编码后的编码特征；解码器网络，用于对融合得到的融合编码特征序列进行解码，得到目标文本图像中的文字信息。
75.结合参考图1和图2所示，本发明实施例提供的多姿态文本识别方法，包括如下步骤s201～s204：
76.s201、获取待识别的目标文本图像，通过特征提取网络提取目标文本图像的二维图像特征。
77.具体的，步骤s201可以是通过用户设备采集待识别的目标文本图像之后，由用户设备通过特征提取网络提取所述目标文本图像的二维图像特征，并由用户设备执行后续的步骤s202～s204，以获得目标文本图像中的文字信息。
78.具体的，步骤s201也可以是通过用户设备直接采集待识别的目标文本图像之后，上传至服务端，服务端接收到用户设备上传的目标文本图像之后，由服务端通过特征提取网络提取目标文本图像的二维图像特征，并由服务端执行后续的步骤s202～s204，以获得目标文本图像中的文字信息，服务端将获得的文字信息反馈至用户设备。
79.本发明实施例中，特征提取网络根据实际情况选择，具体可以是卷积神经网络，比如：轻量级卷积神经网络或者经典卷积神经网络。为了减少提取二维图像特征时的图像压缩量，以避免丢失细节信息，卷积神经网络中步长为2的卷积层的数量少于预设数量阈值。卷积神经网络中仅仅两个卷积层的步长配置为2，其余卷积层的步长均配置为1。
80.具体来讲，将第二层卷积层和第四层卷积层的步长配置为2，其他卷积层的步长配置为1。使得从目标文本图像提取出的二维图像特征的长宽只被压缩为目标文本图像的1/4，即：假设目标文本图像宽和高分别为w、h；则二维图像特征的宽和高分别为w/4、h/4。
81.在具体实施时，可以对经典卷积神经网络进行修改，保留原始步长为2的前两个卷积层，将其余原始步长为2的卷积层的步长为1。举例来讲，假设原始的卷积神经网络中：第2、4、6、8、10层卷积层的原始步长为2，而第1、3、5、7、9层卷积层的原始步长为1，则将第6、8、10层卷积层的步长修改为1。
82.通过步骤s201提取到了目标文本图像的二维图像特征之后，不需要将二维图像特征转换为一维特征序列，而是直接将提取的二维图像特征应用于步骤s202～s204，从而实现直接在二维空间的编码和解码，能够自动地学习权重用来捕捉编码器网络的隐藏状态和解码器网络的隐藏状态，从而隐性建模字符级别特征和字符之间的联系。
83.在步骤s201之后，执行步骤s202：将二维图像特征切分为多个等长的特征片段。
84.由于通过特征提取网络提取的是二维空间的二维图像特征，实际上，二维图像特征包含多个通道的特征图，通过编码器网络将输入的多个通道的特征图展开，得到二维图像特征序列。接着，根据预设分段数量对二维图像特征序列进行切分，得到在二维空间的多个等长的特征片段。在具体实施时，预设分段数量的具体数值根据实际情况设置，在此不进行限制。
85.s203、将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述多个等长的特征片段中每个特征片段对应的编码特征，其中，编码器网络基于注意力机制构建。
86.其中，基于提取的多个通道的二维图像特征展开得到的二维图像特征序列为m*c维，其中，m为二维图像特征的总长度，c为二维图像特征序列的通道数，即特征图的通道数。则二维图像特征序列切分为多个等长的特征片段，形状为k*c，每个特征片段可以表示为{i1,i2,i3,
……
,i
k-2
,i
k-1
,ik}。将每个特征片段输入至编码器网络中进行编码，得到与每个特征片段一一对应的编码特征。从而，编码器网络输出每个特征片段被编码后的编码特征gi，即得到了编码特征序列{g1,g2,g3,
……
,g
c-2
,g
c-1
,gc}。
87.在本发明实施例中，所使用的编码器网络引入了二维注意力机制，以实现对二维图像特征序列中切分出的每个特征片段，在二维空间进行基于注意力机制的编码。
88.具体来讲，在二维空间的基于注意力机制的编码，参考图3所示，本发明实施例所使用的编码器网络的结构是二维注意力网络，以及与二维注意力网路级联的。其中，参考图1所示，二维注意力网络的输出和切分后等长的特征片段均作为平行注意力网络的输入。
89.下面，先对本发明实施例中二维注意力网络的结构进行介绍：
90.参考图4所示，二维注意力网络的结构采用多层基于注意力机制的二维注意力层串联，每层二维注意力层包含多个自注意力单元，图4中每个圆圈“o”代表一个自注意力单元。在具体实施时，每层二维注意力层的自注意力单元的数量是与每个特征片段的特征向量的数量相匹配的。在具体实施时，自注意力单元可以采用的是transfermer单元，比如，bert(bidirectional encoder representation from transformers，即双向transformer的encoder)单元，具体结构参考图5所示，在此不再赘述。
91.接下来，对利用二维注意力网络对二维图像特征序列进行处理的过程进行描述：
92.步骤1、针对所述多个等长的特征片段中每个特征片段i(i∈[1,k])融合位置编码，形成对位置敏感的融合特征片段f，从而得到待输入到二维注意力网络的融合特征片段序列。参考图4所示，每个融合特征片段f可以表示为f＝{f1,f2,f3,
……
,f
k-2
,f
k-1
,fk}。
[0093]
具体的，针对每个特征片段，将该特征片段中第i个特征向量与针对该第i个特征向量融合的位置编码进行相加，i依次取1至k，以得到对位置敏感的融合特征片段＝{f1,f2,f3,
……
,f
k-2
,f
k-1
,fk}，建立特征片段中各个特征向量之间的顺序关系，从而建立起字符特征之间的顺序关系，其中，位置编码的参考如下公式：
[0094]
若i为奇数：若i为偶数
[0095]
其中，i∈[1,k]，表示特征向量的位置索引，p表示特征片段的特征维度索引，y为位置编码。kb为特征片段的长度。
[0096]
当然，在具体实施时，并不限于上述位置编码的方式，也可以绝对位置编
[0097]
\码：直接对不同的特征向量随机初始化一个位置向量，加到特征向量上，得到融
合特征片段。
[0098]
步骤2、将融合特征片段序列输入至二维注意力网络中进行自注意力计算，得到二维的第一输出片段序列。
[0099]
具体的，通过多层二维注意力层顺序处理融合特征片段序列中每个融合特征片段，以得到第一输出片段序列。第一输出片段序列表示出了字符特征的隐性状态。
[0100]
下面以二维注意力网络包含参考图4所示的三层二维注意力层为例，对多层二维注意力层顺序处理融合特征片段序列中每个融合特征片段的过程进行详细描述：
[0101]
步骤2a、将融合特征片段序列串行输入至第一层二维注意力层，通过第一层二维注意力层的每个自注意力单元对每个融合特征片段进行自注意力计算；
[0102]
步骤2b、通过第二层二维注意力层的每个自注意力单元对第一层二维注意力层的加权输出进行自注意力计算；
[0103]
步骤2c、通过第三层二维注意力层的每个自注意力单元对第二层二维注意力层的加权输出进行自注意力计算，得到第一输出片段序列。
[0104]
针对i个融合特征片段，通过第一层二维注意力层的每个自注意力单元对第i个融合特征片段进行自注意力计算；通过第二层二维注意力层的每个自注意力单元对第一层二维注意力层的加权输出进行自注意力计算；通过第三层二维注意力层的每个自注意力单元对第二层二维注意力层的加权输出进行自注意力计算，得到第i个融合特征片段对应的第一输出片段，i依次取1至c，即得到了包含第1～c个融合特征片段的融合特征片段序列。
[0105]
参考图4，第一输出片段具体表示为{o1,o2,o3,
……
,o
k-2
,o
k-1
,ok}，其中，每个自注意力单元的自注意力计算结合图5来讲，对于第l层第i个自注意力单元而言，需要获取作为输入的查询向量键向量和值向量v
li
：通过应用查询向量键向量和值向量的加权和运算来计算该自注意力单元的输出，i∈[1,k]，l取1、2、3。其中，第一层二维注意力层中每个自注意力单元查询向量的计算依赖于输入的融合特征片段中特征向量fi，键向量和值向量v
li
的计算依赖于输入的融合特征片段f；其余二维注意力层中每个自注意力单元：查询向量的计算依赖于上一层注意力层中对应第i个自注意力单元的查询向量而键向量和值向量v
li
的计算依赖于上一层注意力层中各个自注意力单元的加权和输出。其中，是第l个二维注意力层中第i个自注意力单元的查询向量，其形状为1
×
c。和是键向量和值向量，两者均为k
×
c形状。
[0106]
在一可选的实施方式下，二维注意力网络始终以串行方式工作，可以与rnn集成，rnn利用二维注意力网络的输出进行串行编码处理，但是rnn利用二维注意力网络的输出进行串行编码处理会受到先前步骤的限制，因此，运算编码速度受限。
[0107]
本发明为了提高运算速度，进而加快文本识别效率，提供另一可选的实施方式下，使用了并行注意力网络，即在步骤2之后执行步骤3：将第一输出片段序列和所述多个等长的特征片段输入至平行注意力网络中进行并行编码，得到第二输出片段序列，第二输出片段序列包含每个特征片段对应的编码特征。
[0108]
具体的，平行注意力网络的输出节点的数量为n，第一输出片段序列o为k
×
c维，处
理过程具体参考如下：
[0109]
并行注意力网络将通过以下过程输出权重矩阵系数α，
[0110]
a＝softmax(w2tanh(w1o
t
))
[0111]
其中，w1,w2为平行注意力网络的网络参数，softmax和tanh为激活函数，o
t
表示第一输出片段序列的转置。
[0112]
接着，基于权重系数α和所述多个等长的特征片段，每个输出节点输出对应特征片段的编码特征：
[0113][0114]
其中，i为输出节点的索引，j为特征片段中特征向量索引，gi为第i个输出节点输出的对应第j个特征片段的编码特征，a
ij
为对应第i个输出节点第j个特征向量对应的权重。
[0115]
上述实施方式，由于借助平行注意力网络对二维注意力网络的输出进行并行编码处理，移除了输出节点之间的依赖关系，当前输出节点的计算结果不需要依赖于上一时刻的计算结果，能够并行编码计算，从而提高了编码器网络的计算速度。
[0116]
本发明实施例通过基于注意力机制的二维注意力网络和平行注意力网络的引入，有效的隐性建模了字符级别特征和字符之间的联系，有助于快速有效的识别多姿态文字。
[0117]
s204、融合所述多个等长的特征片段的编码特征，将融合得到的融合编码特征序列输入至解码器网络进行解码，得到目标文本图像中的文字信息。
[0118]
具体的，将属于同一特征图的特征片段进行融合，得到对应的融合编码特征，则多个特征图对应的融合编码特征，构成了融合编码特征序列。
[0119]
在具体实施时，可以采用任意一种现有的特征融合方式对来自同一特征图的各个特征片段的编码特征进行融合，比如，将来自同一特征图的各个特征片段的编码特征相加或者连接，以得到融合编码特征序列，在此不进行限制。
[0120]
具体的，通过融合层将解码器网络输出的编码特征序列{g1,g2,g3,
……
,g
c-2
,g
c-1
,gc}进行融合，得到该二维图像特征对应的融合编码特征，多个通道的二维图像特征对应的融合编码特征，则形成了待输入至解码器网络的融合编码特征序列。
[0121]
融合编码特征序列输入至解码器网络之后，解码器网络基于编码特征序列预测出字符信息。具体来讲，解码器网络包含二维注意力网络和解码模块，解码器网络中的二维注意力网络与编码器网络中的二维注意力网路的结构和工作原理相同，为了说明书的简洁，在此不再赘述。则解码器网络利用注意力机制对第二输出特征序列进行解码，得到字符概率矩阵；根据字符概率矩阵得到文字信息。
[0122]
具体的，首先，解码器网络的每个输出节点，通过以下方式预测出对应输出字符的概率：
[0123]
pi＝softmax(wgi b)
[0124]
其中，pi为编码特征gi输出字符的概率，softmax为激活函数，w和b为解码器网络的网络学习参数，gi为第i个输出节点输出的对应第j个特征片段的编码特征。
[0125]
接着，根据每个输出节点输出的字符概率得到字符概率矩阵，最后，基于字符概率矩阵得到目标文本图像中的文字信息。
[0126]
通过上述步骤s201～s204的技术方案，通过对提取的二维图像特征先进行特征切
分后进行对特征片段进行编码，再融合对每个特征分段的编码特征的方式，而不是直接对提取的二维图像特征进行编码，能够与注意力机制的是软对齐特征相匹配，从而有效的解决了变长文本识别不准确的问题，继而，能够提高文本识别的准确率。
[0127]
在一可选的实施方式下，在通过特征提取网络提取所述目标文本图像的二维图像特征之前，还包括：预先利用变长文本图像样本，联合对特征提取网络、所述编码器网络和所述解码器网络级联而成的文本识别模型进行联合训练。以获得更准确识别变长文本图像中文字的技术效果。
[0128]
基于同一发明构思，本发明实施例提供一种多姿态文本识别装置，参考图6所示，包括：
[0129]
图像获取单元601，用于获取待识别的目标文本图像，通过特征提取网络提取目标文本图像的二维图像特征；
[0130]
特征切分单元602，用于将二维图像特征切分为多个等长的特征片段；
[0131]
编码单元603，用于将多个等长的特征片段输入至编码器网络中进行编码，分别得到特征片段对应的编码特征，其中，编码器网络基于注意力机制创建；
[0132]
特征融合单元604，用于融合多个等长的特征片段的编码特征；
[0133]
解码单元605，用于将融合得到的融合编码特征序列输入至解码器网络进行解码，得到目标文本图像中的文字信息。
[0134]
在一可选的实施方式下，编码器网络包括二维注意力网络，以及与所述二维注意力网路级联的平行注意力网络，编码单元包括：
[0135]
位置融合子单元，用于针对多个等长的特征片段融合位置编码，得到二维的融合特征片段序列；
[0136]
注意计算子单元，用于将融合特征片段序列输入至二维注意力网络中进行自注意力计算，得到二维的第一输出片段序列；
[0137]
并行编码单元，用于将第一输出片段序列和所述多个等长的特征片段输入至平行注意力网络中进行并行编码，得到第二输出片段序列，第二输出片段序列包含每个特征片段对应的编码特征。
[0138]
在一可选的实施方式下，二维注意力网络采用多层二维注意力层，其中，每层二维注意力层包含多个自注意力单元；注意计算子单元，具体用于：
[0139]
通过多层二维注意力层顺序处理融合特征片段序列，得到第一输出片段序列。
[0140]
在一可选的实施方式下，注意计算子单元，具体用于，包括：
[0141]
将融合特征片段序列输入至第一层二维注意力层，通过第一层二维注意力层对所述融合特征片段序列进行自注意力计算；
[0142]
通过第二层二维注意力层的每个自注意力单元，对第一层二维注意力层的加权输出进行自注意力计算；
[0143]
通过第三层二维注意力层的每个自注意力单元，对第二层二维注意力层的加权输出进行自注意力计算，得到第一输出片段序列。
[0144]
在一可选的实施方式下，该装置还包括：
[0145]
训练单元，用于预先利用变长文本图像样本，对特征提取网络、编码器网络和解码器网络进行联合训练。
[0146]
在一可选的实施方式下，特征提取网络中步长为2的卷积层的数量少于预设数量阈值。
[0147]
上述装置，其中各个单元的具体功能已经在本发明实施例提供的多姿态文本识别方法实施例中进行了详细描述，此处将不做详细阐述说明。
[0148]
基于同一发明构思，本发明实施例一种多姿态文本识别装置，应用于服务端，该装置包括：
[0149]
图像接收单元，用于接收到用户设备采集的目标文本图像；
[0150]
特征提取单元，用于通过特征提取网络提取目标文本图像的二维图像特征；
[0151]
特征切分单元，用于将二维图像特征切分为多个等长的特征片段；
[0152]
编码单元，用于将多个等长的特征片段输入至编码器网络中进行编码，分别得到特征片段对应的编码特征，其中，编码器网络基于注意力机制创建；
[0153]
特征融合单元，用于融合多个等长的特征片段的编码特征；
[0154]
解码单元，用于将融合得到的融合编码特征序列输入至解码器网络进行解码，得到目标文本图像中的文字信息；
[0155]
文字发送单元，用于反馈文字信息至用户设备，以使用户设备输出文字信息。
[0156]
上述装置，其中各个宫内人单元的具体功能已经在本发明实施例提供的多姿态文本识别方法实施例中进行了详细描述，此处将不做详细阐述说明。
[0157]
基于与前述多姿态文本识别方法实施例同样的发明构思，本发明实施例还提供一种电子设备，如图7是根据一示例性实施例示出的一种电子设备700的框图。例如，设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
[0158]
参照图7，设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(i/o)的接口712，传感器组件714，以及通信组件716。
[0159]
处理组件702通常控制设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。
[0160]
存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0161]
电力组件706为设备700的各种组件提供电力。电力组件706可以包括电源管理系统，一个或多个电源，及其他与为设备700生成、管理和融合电力相关联的组件。
[0162]
多媒体组件708包括在设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可
以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0163]
音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(mic)，当设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。
[0164]
i/o接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
[0165]
传感器组件714包括一个或多个传感器，用于为设备700提供各个方面的状态评估。例如，传感器组件714可以检测到设备700的打开/关闭状态，组件的相对定位，例如所述组件为设备700的显示器和小键盘，传感器组件714还可以检测设备700或设备700一个组件的位置改变，用户与设备700接触的存在或不存在，设备700方位或加速/减速和设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
[0166]
通信组件716被配置为便于设备700和其他设备之间有线或无线方式的通信。设备700可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信部件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件716还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
[0167]
在示例性实施例中，设备700可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
[0168]
在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0169]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
[0170]
应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种页面滑动的处理方法及相关装置与流程

多姿态文本识别方法、装置及电子设备与流程

相关文献

最热文献