一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种字符识别方法及其相关设备与流程

2021-11-06 00:13:00 来源:中国专利 TAG:


1.本技术涉及图像处理技术领域,尤其涉及一种字符识别方法及其相关设备。


背景技术:

2.随着字符识别技术的发展,字符识别技术的应用范围越来越广。其中,字符识别技术用于针对一个图像中出现的字符进行识别处理。
3.然而,因一些字符识别技术(如,光学字符识别(optical character recognition,ocr)等技术)存在缺陷,使得这些字符识别技术在一些应用场景(如,多帧文本行识别等应用场景)下的识别准确性较低。其中,“多帧文本行识别”是指针对多个图像(尤其是一个视频中多帧连续视频图像)中出现的同一个文本行进行识别。


技术实现要素:

4.为了解决上述技术问题,本技术提供了一种字符识别方法及其相关设备,能够提高多帧文本行识别的字符识别准确性。
5.为了实现上述目的,本技术实施例提供的技术方案如下:
6.本技术实施例提供一种一种字符识别方法,所述方法包括:
7.获取多个待识别图像;其中,所述多个待识别图像包括相同的字符信息;
8.分别对各个所述待识别图像进行第一编码处理,得到各个所述待识别图像的编码特征;
9.对所述多个待识别图像的编码特征进行第二编码处理,得到所述待识别文本的编码特征,以使所述待识别文本对应的编码特征用于表示所述多个待识别图像携带的字符信息;
10.对所述待识别文本的编码特征进行解码处理,得到所述待识别文本的字符识别结果。
11.在一种可能的实施方式中,所述待识别文本的编码特征的确定过程,包括:
12.将所述待识别图像的个数与待使用编码层个数进行比较,得到比较结果;
13.根据所述比较结果和所述多个待识别图像的编码特征,确定所述待使用编码层个数的待编码特征;
14.利用所述待使用编码层个数的待使用编码层,对所述待使用编码层个数的待编码特征进行第三编码处理,得到所述待识别文本的编码特征。
15.在一种可能的实施方式中,所述待识别图像的个数为n;
16.所述根据所述比较结果和所述多个待识别图像的编码特征,确定所述待使用编码层个数的待编码特征,包括:
17.若所述比较结果表示所述待识别图像的个数等于所述待使用编码层个数,则将第n个待识别图像的编码特征,确定为第n个待编码特征;其中,n为正整数,n≤n。
18.在一种可能的实施方式中,所述根据所述比较结果和所述多个待识别图像的编码
特征,确定所述待使用编码层个数的待编码特征,包括:
19.若所述比较结果表示所述待识别图像的个数大于所述待使用编码层个数,则将所述多个待识别图像的编码特征进行拼接,得到待分割编码特征;
20.将所述待分割编码特征按照所述待使用编码层个数进行分割处理,得到所述待使用编码层个数的待编码特征。
21.在一种可能的实施方式中,所述待识别图像的个数为n,且所述待使用编码层个数为j;
22.所述根据所述比较结果和所述多个待识别图像的编码特征,确定所述待使用编码层个数的待编码特征,包括:
23.若所述比较结果表示所述待识别图像的个数小于所述待使用编码层个数,则将第i个待识别图像的编码特征,确定为第i个待编码特征;其中,i为正整数,i≤n

1;
24.利用第n个待识别图像的编码特征,确定第n个待编码特征至第j个待编码特征。
25.在一种可能的实施方式中,所述待使用编码层个数为j;
26.所述利用所述待使用编码层个数的待使用编码层,对所述待使用编码层个数的待编码特征进行第三编码处理,得到所述待识别文本的编码特征,包括:
27.利用第1个待使用编码层对第1个待编码特征进行编码处理,得到所述第1个待编码特征的编码处理结果;
28.利用第j个待使用编码层对第j个待编码特征和第j

1个待编码特征的编码处理结果进行编码处理,得到所述第j个待编码特征的编码处理结果;其中,所述第j

1个待编码特征的编码处理结果是指第j

1个待使用编码层的输出结果;j为正整数,2≤j≤j;
29.将所述第j个待编码特征的编码处理结果,确定为所述待识别文本的编码特征。
30.在一种可能的实施方式中,所述第1个待使用编码层包括一个自注意力模块和一个前馈神经网络模块;
31.所述利用第1个待使用编码层对第1个待编码特征进行编码处理,得到所述第1个待编码特征的编码处理结果,包括:
32.对所述第1个待编码特征进行编码预处理,得到所述第1个待编码特征的预处理结果;
33.将所述第1个待编码特征的预处理结果输入所述第1个待使用编码层中自注意力模块,得到所述自注意力模块输出的所述第1个待编码特征的自注意力处理结果;
34.将所述第1个待编码特征的自注意力处理结果输入所述第1个待使用编码层中前馈神经网络模块,得到所述前馈神经网络模块输出的所述第1个待编码特征的编码处理结果。
35.在一种可能的实施方式中,所述第j个待使用编码层包括两个自注意力模块和一个前馈神经网络模块;
36.所述利用第j个待使用编码层对第j个待编码特征和第j

1个待编码特征的编码处理结果进行编码处理,得到所述第j个待编码特征的编码处理结果,包括:
37.对所述第j个待编码特征进行编码预处理,得到所述第j个待编码特征的预处理结果;
38.将所述第j个待编码特征的预处理结果输入所述第j个待使用编码层中第一个自
注意力模块,得到所述第一个自注意力模块输出的所述第j个待编码特征的第一次自注意力处理结果;
39.将所述第j

1个待编码特征的编码处理结果和所述第j个待编码特征的第一次自注意力处理结果输入所述第j个待使用编码层中第二个自注意力模块,得到所述第二个自注意力模块输出的所述第j个待编码特征的第二次自注意力处理结果;
40.将所述第j个待编码特征的第二次自注意力处理结果输入所述第j个待使用编码层中前馈神经网络模块,得到所述前馈神经网络模块输出的所述第j个待编码特征的编码处理结果。
41.在一种可能的实施方式中,所述待识别图像的个数为n;
42.所述第n个待识别图像的编码特征的确定过程,包括:
43.对所述第n个待识别图像进行特征提取,得到所述第n个待识别图像的视觉特征;其中,n为正整数,n≤n,n为正整数;
44.对所述第n个待识别图像的视觉特征进行第四编码处理,得到所述第n个待识别图像的编码特征。
45.在一种可能的实施方式中,所述多个待识别图像的获取过程,包括:
46.对多个候选图像进行聚类,得到至少一个候选图像集,以使所述候选图像集中所有候选图像包括相同的字符信息;
47.根据所述至少一个候选图像集中待识别图像集,确定所述多个待识别图像。
48.在一种可能的实施方式中,所述至少一个候选图像的确定过程,包括:
49.对待处理视频中多帧视频图像进行文本检测,得到所述多帧视频图像的文本检测结果;
50.根据所述多帧视频图像的文本检测结果,分别对所述多帧视频图像进行图像切割,得到所述多个候选图像。
51.本技术实施例还提供了一种字符识别装置,包括:
52.图像获取单元,用于获取多个待识别图像;其中,所述多个待识别图像包括相同的字符信息;
53.第一编码单元,用于分别对各个所述待识别图像进行第一编码处理,得到各个所述待识别图像的编码特征;
54.第二编码单元,用于对所述多个待识别图像的编码特征进行第二编码处理,得到所述待识别文本的编码特征,以使所述待识别文本对应的编码特征用于表示所述多个待识别图像携带的字符信息;
55.特征解码单元,用于对所述待识别文本的编码特征进行解码处理,得到所述待识别文本的字符识别结果。
56.本技术实施例还提供了一种设备,其特征在于,所述设备包括处理器以及存储器:
57.所述存储器用于存储计算机程序;
58.所述处理器用于根据所述计算机程序执行本技术实施例提供的字符识别方法的任一实施方式。
59.本技术实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本技术实施例提供的字符识别方
法的任一实施方式。
60.本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本技术实施例提供的字符识别方法的任一实施方式。
61.与现有技术相比,本技术实施例至少具有以下优点:
62.本技术实施例提供的技术方案中,在获取到均包括相同字符信息的多个待识别图像之后,先分别对各个待识别图像进行第一编码处理,得到各个待识别图像的编码特征;再对所有待识别图像的编码特征进行第二编码处理,得到该待识别文本的编码特征,以使该“待识别文本的编码特征”能够准确地表示出所有待识别图像携带的字符信息,从而使得该“待识别文本的编码特征”能够更准确地表述出该待识别文本中各个字符,进而使得基于该“待识别文本的编码特征”确定的该待识别文本的字符识别结果更准确,如此有利于提高多帧文本行识别的字符识别准确性。
附图说明
63.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
64.图1为本技术实施例提供的一种字符识别方法的流程图;
65.图2为本技术实施例提供的一种多帧视频图像的示意图;
66.图3为本技术实施例提供的一种文本图像的示意图;
67.图4为本技术实施例提供的一种第一编码网络的结构示意图;
68.图5为本技术实施例提供的一种第二编码网络的结构示意图;
69.图6为本技术实施例提供的一种待分割编码特征的生成示意图;
70.图7为本技术实施例提供的一种第二编码处理的示意图;
71.图8为本技术实施例提供的一种字符识别装置的结构示意图。
具体实施方式
72.发明人针对字符识别技术的研究中发现,对于多帧文本行识别来说,在获取到包括同一个文本行的多个图像之后,可以先利用ocr分别针对各个图像进行字符识别,得到各个图像的字符识别结果;再按照预设规则,将所有图像的字符识别结果进行合并,得到该文本行的字符识别结果。然而,因该文本行在不同图像中可能存在不同瑕疵(如,遮挡、位移、扭曲、漏字等),使得这些图像的字符识别结果不准确,从而使得综合这些图像的字符识别结果确定出的字符识别结果也不准确,如此导致多帧文本行识别的字符识别准确性较低。
73.基于上述发现,为了解决背景技术部分的技术问题,本技术实施例提供了一种字符识别方法,该方法包括:获取多个待识别图像,且该多个待识别图像包括相同的字符信息;分别对各个该待识别图像进行第一编码处理,得到各个该待识别图像的编码特征;对该多个待识别图像的编码特征进行第二编码处理,得到该待识别文本的编码特征;对该待识别文本的编码特征进行解码处理,得到该待识别文本的字符识别结果。
74.可见,因待识别文本的编码特征是根据所有待识别图像的编码特征进行确定的,
使得该待识别文本的编码特征能够准确地表示出所有待识别图像携带的字符信息,从而使得该待识别文本的编码特征能够更准确地表述出该待识别文本中各个字符,进而使得基于该待识别文本的编码特征确定的该待识别文本的字符识别结果更准确,如此有利于提高多帧文本行识别的字符识别准确性。
75.另外,本技术实施例不限定字符识别方法的执行主体,例如,本技术实施例提供的字符识别方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(personal digital assitant,pda)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
76.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
77.为了便于理解和说明本技术技术方案,下面以针对n个待识别图像的多帧文本行识别过程为例介绍本技术实施例提供的字符识别方法。
78.方法实施例
79.参见图1,该图为本技术实施例提供的一种字符识别方法的流程图。
80.本技术实施例提供的字符识别方法,包括s1

s4:
81.s1:获取n个待识别图像。其中,n为正整数。
82.其中,n个待识别图像用于表示需要进行多帧文本行识别的图像,而且该n个待识别图像携带有相同的字符信息。
83.需要说明的是,上述“相同的字符信息”可能会存在以下情况:

第n个待识别图像中出现的所有字符与上述“n个待识别图像”中除了该第n个待识别图像以外其他任一待识别图像中出现的所有字符完全相同;其中,n为正整数,n≤n,n为正整数。

在“n个待识别图像”中,一些待识别图像中出现的所有字符完全相同,但是相比上述“一些待识别图像中出现的所有字符”来说,另一些待识别图像中可能会发生缺字和漏字现象,使得上述“另一些待识别图像”可能只包括上述“一些待识别图像中出现的所有字符”中的大部分字符。

在“n个待识别图像”中,虽然所有待识别图像中出现的所有字符完全相同,但是不同待识别图像中所有字符的出现位置(例如,存在位移等)或者呈现效果(例如,以不同扭曲程度、或者以不同色彩进行呈现等)存在一定的差异性。
84.另外,本技术实施例不限定n个待识别图像,例如,该n个待识别图像可以是图2所示的第1帧视频图像至第n帧视频图像。又如,该n个待识别图像可以是图3所示的第1帧视频图像对应的文本图像至第n帧视频图像对应的文本图像。
85.其中,第n帧视频图像对应的文本图像是依据该第n帧视频图像的文本检测结果针对该第n帧视频图像进行图像分割得到的。n为正整数,n≤n,n为正整数。需要说明的是,第n帧视频图像的文本检测结果可以采用现有的任一种文本检测方法进行实施,本技术实施例对此不做具体限定。
86.另外,本技术实施例不限定第1帧视频图像至第n帧视频图像,例如,第1帧视频图像至第n帧视频图像可以是指一个视频数据(如,下文“待处理视频”)中连续n帧视频图像。
87.待识别文本用于表示在n个待识别图像中出现的字符信息。例如,若n个待识别图
像为图2或图3所示的n个图像,则该待识别文本可以是“这是一行内容相同的文本”。
88.另外,本技术实施例不限定n个待识别图像的获取过程(也就是s1的实施方式),例如,在一种可能的实施方式下,s1具体可以包括s11

s13:
89.s11:获取多个候选图像。
90.其中,候选图像是指筛选n个待识别图像时所需使用的图像数据;而且,候选图像的个数不小于待识别图像的个数(也就是,候选图像的个数≥n)。
91.另外,本技术实施例也不限定候选图像,例如,该候选图像可以是一个视频数据中一帧视频图像,也可以是一个视频数据中一帧视频图像对应的文本图像。
92.此外,本技术实施例不限定s11的实施方式,为了便于理解,下面结合两种情况进行说明。
93.情况1,若候选图像为一帧视频图像,则s11具体可以包括:在获取到待处理视频之后,从该待处理视频中抽多帧视频图像,作为该多个候选图像。其中,待处理视频是指需要进行多帧文本行识别的视频数据。
94.可见,在一些情况下,当获取到待处理视频之后,可以将该待处理视频中多帧视频图像,直接确定为多个候选图像(例如,可以将待处理视频中各帧视频图像均确定为候选图像),以使各个候选图像均是待处理视频中的视频图像。
95.情况2,若候选图像为一帧视频图像对应的文本图像,则s11具体可以包括s111

s112:
96.s111:对待处理视频中多帧视频图像进行文本检测,得到该多帧视频图像的文本检测结果。
97.其中,一帧视频图像的文本检测结果用于表示该帧视频图像中文本所处位置。
98.另外,本技术实施例不限定s111中“文本检测”的实施方式,可以采用现有的或者未来出现的任一种文本检测方法进行实施。
99.基于上述s111的相关内容可知,在获取到待处理视频之后,可以先对该待处理视频中多帧视频图像进行文本检测,得到该多帧视频图像的文本检测结果(例如,分别对该待处理视频中各帧视频图像进行文本检测,得到该待处理视频中各帧视频图像的文本检测结果),以便后续能够基于该多帧视频图像的文本检测结果,确定该多帧视频图像对应的文本图像。
100.s112:根据多帧视频图像的文本检测结果,分别对该多帧视频图像进行图像切割,得到多个候选图像。
101.本技术实施例中,若“多帧视频图像”包括t帧视频图像,则在获取到第t帧视频图像的文本检测结果之后,可以先按照第t帧视频图像的文本检测结果,对该第t帧视频图像进行图像切割,得到该第t帧视频图像对应的文本图像,以使该第t帧视频图像对应的文本图像能够准确地表示出该第t帧视频图像携带的字符信息;再将该第t帧视频图像对应的文本图像,确定为第t个候选图像。其中,因第t帧视频图像对应的文本图像的尺寸小于该第t帧视频图像的尺寸,使得该第t帧视频图像对应的文本图像携带的非字符信息少于该第t帧视频图像携带的非字符信息,从而使得基于该第t帧视频图像对应的文本图像进行的字符识别更准确。t为正整数,t≤t,t为正整数。
102.基于上述s111至s112的相关内容可知,在一些情况下,当获取到待处理视频之后,
可以先对待处理视频中多帧视频图像进行文本检测,得到该多帧视频图像的文本检测结果;再依据该各帧视频图像的文本检测结果,从各帧视频图像中分别切割出各帧视频图像对应的文本图像;最后,将该多帧视频图像对应的文本图像均确定为候选图像。
103.基于上述s11的相关内容可知,在一些应用场景下,可以根据一个视频数据(如,待处理视频)中多帧视频图像,确定多个候选图像,以便后续能够从该多个候选图像中筛选出具有相同文本内容的多个图像进行多帧文本行识别。
104.s12:对多个候选图像进行聚类,得到至少一个候选图像集,以使各候选图像集中所有候选图像包括相同的字符信息。
105.其中,第y个候选图像集是指包括第y个文本的候选图像的集合。y为正整数,y≤y,y为正整数,且y表示候选图像集的个数。
106.另外,本技术实施例不限定s12中“聚类”的实施方式,可以采用现有的或者未来出现的任一种聚类方法进行实施。
107.基于上述s12的相关内容可知,在获取到t个候选图像之后,可以先针对该t个候选图像进行聚类,以使携带有相同字符信息的候选图像划分到同一类,且携带有不同字符信息的候选图像划分到不同类,如此得到y类候选图像,且使得第y类候选图像中所有候选图像均包括第y个文本;再将第y类候选图像中所有候选图像进行集合,确定为第y个候选图像集。其中,y为正整数,y≤y。
108.s13:根据至少一个候选图像集中待识别图像集,确定n个待识别图像。
109.其中,待识别图像集用于表示任一个候选图像集。
110.可见,在获取到第y个候选图像集之后,可以将该第y个候选图像集中各个候选图像均确定为待识别图像,以便后续能够利用下文s2

s3确定出该第y个候选图像集对应的字符识别结果(也就是,第y个文本的字符识别结果)。其中,y为正整数,y≤y,y为正整数。
111.基于上述s1的相关内容可知,对于一些应用场景来说,在获取到待处理视频之后,可以根据该待处理视频中多帧视频图像(如,图2中第1帧视频图像至第n帧视频图像),确定n个待识别图像,以使该n个待识别图像能够表示出该待处理视频中多帧视频图像所携带的字符信息(如,“这是一行内容相同的文本”),以便后续能够针对该n个待识别图像进行多帧文本行识别。
112.s2:对第n个待识别图像进行第一编码处理,得到第n个待识别图像的编码特征。其中,n为正整数,n≤n。
113.其中,“第一编码处理”用于针对图像数据(尤其是,针对图像数据所携带的字符信息)进行编码处理。
114.另外,本技术实施例不限定“第一编码处理”,例如,“第一编码处理”可以采用现有的或者未来出现的任一种能够针对图像数据(尤其是,针对图像数据所携带的字符信息)进行编码处理的方法进行实施。又如,“第一编码处理”也可以采用下文s21

s22所示的任一实施方式进行实施。
[0115]“第n个待识别图像的编码特征”用于表示该第n个待识别图像携带的字符信息。
[0116]
另外,本技术实施例不限定“第n个待识别图像的编码特征”的确定过程(也就是,s2的实施方式),例如,在一种可能的实施方式中,s2具体可以包括s21

s22:
[0117]
s21:对第n个待识别图像进行特征提取,得到该第n个待识别图像的视觉特征。
[0118]
其中,第n个待识别图像的视觉特征用于表示该第n个待识别图像携带的图像信息。
[0119]
另外,本技术实施例不限定s21中“特征提取”的实施方式,可以采用现有的或者未来出现的任一种能够针对图像数据进行特征提取的方法进行实施。
[0120]
例如,在一种可能的实施方式中,s21具体可以包括:将第n个待识别图像输入预先构建的卷积神经网络,得到该卷积神经网络输出的该第n个待识别图像的视觉特征。
[0121]
其中,卷积神经网络用于针对该卷积神经网络的输入数据进行视觉特征提取,而且本技术实施例不限定卷积神经网络,其可以采用现有的或者未来出现的任一种卷积神经网络(例如,深度残差网络(deep residual network,resnet))进行实施。另外,卷积神经网络可以预先根据第一样本图像和该第一样本图像的实际视觉特征进行构建。
[0122]
基于上述s21的相关内容可知,在获取到第n个待识别图像之后,可以针对该第n个待识别图像进行特征提取,得到该第n个待识别图像的视觉特征,以使该第n个待识别图像的视觉特征能够准确地表示出该第n个待识别图像携带的图像信息。
[0123]
s22:对第n个待识别图像的视觉特征进行第四编码处理,得到该第n个待识别图像的编码特征。
[0124]
其中,“第四编码处理”用于针对一个图像数据的视觉特征进行编码处理;而且本技术实施例不限定“第四编码处理”,例如,其可以采用现有的或者未来出现的任一种编码方法进行实施。又如,可以采用下文s221

s223所示的任一实施方式进行实施。
[0125]
另外,为了使得“第n个待识别图像的编码特征”能够更准确地表示出该第n个待识别图像携带的字符信息,本技术实施例还提供了s22的一种可能的实施方式,其具体可以包括s221

s223:
[0126]
s221:对第n个待识别图像的视觉特征进行位置编码,得到该第n个待识别图像的位置特征。
[0127]
其中,第n个待识别图像的位置特征用于表示该第n个待识别图像中携带的位置信息。
[0128]
另外,本技术实施例不限定s221中“位置编码”的实施方式,例如,可以采用现有的或者未来出现的任一种位置编码方法进行实施(如,可以采用transformer模型中位置编码(positional encoding)模块进行实施)。
[0129]
s222:将第n个待识别图像的位置特征和该第n个待识别图像的视觉特征进行特征融合,得到该第n个待识别图像的融合特征。
[0130]
本技术实施例中,在获取到第n个待识别图像的位置特征之后,可以将该第n个待识别图像的位置特征与第n个待识别图像的视觉特征进行特征融合(如,拼接或者加和),得到该第n个待识别图像的融合特征,以使该第n个待识别图像的融合特征能够更准确地表示出该第n个待识别图像携带的字符相关信息(如,各个字符以及各个字符排列顺序等信息)。
[0131]
s223:将第n个待识别图像的融合特征输入预先构建的编码网络,得到该编码网络输出的该第n个待识别图像的编码特征。
[0132]
其中,编码网络用于针对该编码网络的输入数据进行编码处理。另外,本技术实施例不限定编码网络,例如,可以采用现有的或者未来出现的任一种编码网络进行实施。又如,可以采用图4所示的第一编码网络或者图5所示的第二编码网络进行实施。
[0133]
对于图4所示的第一编码网络来说,该第一编码网络可以包括m1个编码层,而且每个编码层均包括一个多头自注意力模块(multi

head self attention module)、一个前馈神经网络(feed forward module)和两个求和与归一模块(add&norm)。另外,在第一编码网络中,第1个编码层的输入数据为该第一编码网络的输入数据(例如,第n个待识别图像的融合特征),且第m1个编码层的输入数据为第m1‑
1个编码层的输出数据,m1为正整数,2≤m1≤m1,m1为正整数(例如,m1=6)。
[0134]
需要说明的是,本技术实施例不限定第一编码网络的实施方式,例如,可以采用transformer模型中encoder网络进行实施。
[0135]
对于图5所示的第二编码网络来说,该第二编码网络包括m2个编码层,而且每个编码层均包括一个多头自注意力模块(multi

head self attention module,mha)、两个前馈神经网络(feedforward neural network,ffn)、一个卷积模块(convolution module)和一个归一化模块(layernorm)。另外,在第二编码网络中,第1个编码层的输入数据为该第二编码网络的输入数据(例如,第n个待识别图像的融合特征),且第m2个编码层的输入数据为第m2‑
1个编码层的输出数据,m2为正整数,2≤m2≤m2,m2为正整数(例如,m2=7)。
[0136]
需要说明的是,本技术实施例不限定第二编码网络的实施方式,例如,可以采用conformer网络进行实施。另外,为了节省计算量,第二编码网络中卷积模块可以采用通道卷积(pointwise conv)和空间卷积(depthise conv)结合的方式进行实施。
[0137]
基于上述s223的相关内容可知,在获取到第n个待识别图像的融合特征之后,可以将该第n个待识别图像的融合特征输入预先构建的编码网络,以使该编码网络针对该第n个待识别图像的融合特征进行编码处理,得到并输出该第n个待识别图像的编码特征,以使该第n个待识别图像的编码特征能够准确地表示出该第n个待识别图像携带的字符信息。
[0138]
基于上述s2的相关内容可知,在获取到n个待识别图像之后,可以针对各个待识别图像分别进行编码处理,得到第1个待识别图像的编码特征至第n个待识别图像的编码特征,以便后续能够参考该n个待识别图像的编码特征,确定待识别文本的编码特征。
[0139]
s3:对n个待识别图像的编码特征进行第二编码处理,得到待识别文本的编码特征。
[0140]
其中,“第二编码处理”用于针对多个图像数据的编码特征进行编码处理;而且本技术实施例不限定“第二编码处理”,例如,可以采用现有的或者未来出现的任一种编码方法进行实施。又如,可以采用下文s31

s33所示的任一实施方式进行实施。
[0141]“待识别文本的编码特征”用于表示上述“n个待识别图像”携带的字符信息。
[0142]
另外,为了使得“待识别文本的编码特征”能够更准确地表示出上述“n个待识别图像”携带的字符信息,本技术实施例还提供了s3的一种可能的实施方式,其具体可以包括s31

s33:
[0143]
s31:将待识别图像的个数(也就是,n)与待使用编码层个数进行比较,得到比较结果。
[0144]
其中,“待使用编码层个数”是指针对上述“n个待识别图像的编码特征”进行第二编码处理时所使用的待使用编码层的个数;而且本技术实施例不限定“待使用编码层个数”,例如,其具体可以为j。j为正整数。
[0145]“比较结果”用于描述上述“待识别图像的个数”与上述“待使用编码层个数”之间
的相对大小关系(也就是,n与j之间的相对大小关系)。
[0146]
s32:根据比较结果和n个待识别图像的编码特征,确定待使用编码层个数的待编码特征。
[0147]
其中,第h个待编码特征是指需要输入至第h个待使用编码层的数据。h为正整数,h≤j,j为正整数,j表示上述“待使用编码层个数”。
[0148]
另外,本技术实施例不限定s32的实施方式,为了便于理解,下面结合三种情况进行说明。
[0149]
情况1:当上述“比较结果”表示待识别图像的个数等于待使用编码层个数(也就是,n=j)时,s32具体可以包括:将第n个待识别图像的编码特征,确定为第n个待编码特征;其中,n为正整数,n≤n。
[0150]
可见,在获取到“比较结果”之后,若确定该“比较结果”表示待识别图像的个数等于待使用编码层个数,则将上述“n个待识别图像的编码特征”中各个待识别图像的编码特征按照该“n个待识别图像”的时序排列顺序依次设定为j个待使用编码层的输入数据;而且该设定过程具体可以包括:将第1个待识别图像的编码特征,确定为第1个待编码特征,以便后续能够将该第1个待编码特征输入第1个待使用编码层;将第2个待识别图像的编码特征,确定为第2个待编码特征,以便后续能够将该第2个待编码特征输入第1个待使用编码层;
……
(以此类推);将第n个待识别图像的编码特征,确定为第n个待编码特征,以便后续能够将该第n个待编码特征输入第n个待使用编码层。
[0151]
情况2:当上述“比较结果”表示待识别图像的个数大于待使用编码层个数(也就是,n>j)时,s32具体可以包括步骤11

步骤12:
[0152]
步骤11:将n个待识别图像的编码特征进行拼接,得到待分割编码特征。
[0153]
其中,“待分割编码特征”用于表示n个待识别图像的编码特征的拼接结果;而且本技术实施例不限定“待分割编码特征”的获取方式,例如,可以采用图6所示的拼接方式进行实施。
[0154]
步骤12:将待分割编码特征按照待使用编码层个数进行分割处理,得到该待使用编码层个数的待编码特征。
[0155]
其中,“分割处理”用于针对上述“待分割编码特征”进行划分处理;而且本技术实施例不限定“分割处理”的实施方式,例如,可以采用现有的或者未来出现的任一种特征分割方法进行实施。又如,可以采用下文步骤121

步骤122所示的任一实施方式进行实施。
[0156]
为了便于理解上述“分割处理”,下面结合示例进行说明。
[0157]
作为示例,当各个待编码特征的特征长度均相同,且各个待识别图像的编码特征的特征长度也均相同时,步骤12具体可以包括步骤121

步骤122:
[0158]
步骤121:根据待识别图像的个数和待使用编码层个数,确定分割参数。
[0159]
其中,“分割参数”是指在对待分割编码特征进行分割处理时所需参考的参数信息;而且本技术实施例不限定“分割参数”,例如,其具体可以包括分割间隔。其中,“分割间隔”用于表示相邻两次分割位置之间的距离。
[0160]
另外,本技术实施例不限定“分割间隔”的确定过程,例如,其具体可以包括步骤21

步骤23:
[0161]
步骤21:对待识别图像的个数与待使用编码层个数之间的比值进行取整处理,得
到待使用倍数(如公式(1)所示)。
[0162]
multiple
use
=[n/j]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0163]
式中,multiple
use
表示待使用倍数;n表示待识别图像的个数;j表示待使用编码层个数;[n/j]表示针对n/j进行取整处理。
[0164]
步骤22:根据待使用倍数和上述“待识别图像的编码特征的特征长度”,确定候选间隔集(如公式(2)所示)。
[0165]
a
arternate
={1
×
len
figure
,2
×
len
figure

……
,multiple
use
×
len
figure
}
ꢀꢀꢀꢀ
(2)
[0166]
式中,a
arternate
表示候选间隔集;multiple
use
表示待使用倍数;len
figure
表示上述“待识别图像的编码特征的特征长度”。
[0167]
步骤23:从候选间隔集中选择分割间隔。
[0168]
本技术实施例中,在获取到候选间隔集之后,可以从候选间隔集中选择分割间隔(例如,从候选间隔集中随机选择选择一个候选间隔,确定为分割间隔。又如,可以从候选间隔集中选择满足预设间隔筛选条件的候选间隔,确定为分割间隔),以便后续能够按照该分割间隔针对待分割编码特征进行分割处理。其中,“预设间隔筛选条件”可以预先设定。
[0169]
基于上述步骤121的相关内容可知,在获取到待识别图像的个数和待使用编码层个数之后,可以依据待识别图像的个数与待使用编码层个数之间的比值,确定分割参数(例如,分割间隔),以便后续能够按照该分割参数进行分割处理。
[0170]
步骤122:将待分割编码特征按照分割参数进行分割处理,得到待使用编码层个数的待编码特征。
[0171]
本技术实施例中,在获取到分割参数之后,可以先按照该分割参数针对待分割编码特征进行分割处理,依次得到第1块分割单元至第j块分割单元;再将第1块分割单元确定为第1个待编码特征;将第2块分割单元确定为第2个待编码特征;
……
(以此类推);将第j块分割单元确定为第j个待编码特征。
[0172]
基于上述步骤11至步骤12的相关内容可知,在获取到“比较结果”之后,若确定该“比较结果”表示待识别图像的个数大于待使用编码层个数,则为了提高后续编码效率,可以针对上述“n个待识别图像的编码特征”依次进行拼接处理以及切割处理,得到j个待编码特征,以使各个待编码特征均包括多个待识别图像的编码特征,从而使得后续每个待使用编码层能够同时针对多个待识别图像的编码特征进行编码处理,如此有利于提高编码效率。
[0173]
情况3:当上述“比较结果”表示待识别图像的个数小于待使用编码层个数(也就是,n<j)时,s32具体可以包括步骤31

步骤32:
[0174]
步骤31:将第i个待识别图像的编码特征,确定为第i个待编码特征;其中,i为正整数,i≤n

1。
[0175]
步骤32:利用第n个待识别图像的编码特征,确定第f个待编码特征;其中,f为正整数,n≤f≤j。
[0176]
基于上述步骤31至步骤32的相关内容可知,在获取到“比较结果”之后,若确定该“比较结果”表示待识别图像的个数小于待使用编码层个数,则可以借助“第n个待识别图像的编码特征”针对上述“n个待识别图像的编码特征”进行数据填充处理的方式,确定j个待编码特征;而且该确定过程具体可以包括:将第1个待识别图像的编码特征,确定为第1个待
编码特征;将第2个待识别图像的编码特征,确定为第2个待编码特征;
……
(以此类推);将第n个待识别图像的编码特征,确定为第n个待编码特征;而且,为了弥补“待识别图像的编码特征”不充足(也就是,n<j)的缺陷,可以继续将第n个待识别图像的编码特征,确定为第n 1个待编码特征;将第n个待识别图像的编码特征,确定为第n 2个待编码特征;
……
(以此类推);将第n个待识别图像的编码特征,确定为第j个待编码特征。
[0177]
基于上述s32的相关内容可知,在获取到待识别图像的个数与待使用编码层个数之间的的比较结果之后,可以参考该比较结果以及上述“n个待识别图像的编码特征”,确定各个待编码特征,以便后续能够将各个待编码特征分别输入各个待使用编码层。
[0178]
s33:利用待使用编码层个数的待使用编码层,对该待使用编码层个数的待编码特征进行第三编码处理,得到待识别文本的编码特征。
[0179]
其中,“待使用编码层个数的待使用编码层”用于针对上述“待使用编码层个数的待编码特征”进行第三编码处理;而且本技术实施例不限定“待使用编码层个数的待使用编码层”,例如,其可以采用图7所示的第三编码网络进行实施。
[0180]
另外,“待使用编码层个数的待使用编码层”可以预先构建;而且本技术实施例不限定“待使用编码层个数的待使用编码层”的构建过程,可以采用现有的或者未来出现的任一种构建方法进行实施。
[0181]“第三编码处理”是指由“待使用编码层个数的待使用编码层”实现的编码处理过程。
[0182]
另外,本技术实施例不限定s33的实施方式,例如,在一种可能的实施方式下,当“待使用编码层个数”为j时,s33具体可以包括s331

s333:
[0183]
s331:利用第1个待使用编码层对第1个待编码特征进行编码处理,得到第1个待编码特征的编码处理结果。
[0184]
其中,“第1个待使用编码层”用于针对该第1个待使用编码层的输入数据进行编码处理。
[0185]
另外,本技术实施例不限定“第1个待使用编码层”,例如,该“第1个待使用编码层”可以包括一个自注意力模块和一个前馈神经网络模块;而且该“前馈神经网络模块”的输入数据包括该“自注意力模块”的输出数据。其中,“自注意力模块”用于针对该自注意力模块的输入数据进行自注意力处理;而且本技术实施例不限定“自注意力模块”(例如,可以采用多头自注意力机制进行实施)。
[0186]
此外,为了便于理解“第1个待使用编码层”的工作原理,下面以“第1个待编码特征的编码处理结果”的确定过程为例进行说明。
[0187]
作为示例,当“第1个待使用编码层”包括一个自注意力模块和一个前馈神经网络模块时,“第1个待编码特征的编码处理结果”的确定过程具体可以包括步骤41

步骤43:
[0188]
步骤41:对第1个待编码特征进行编码预处理,得到该第1个待编码特征的预处理结果。
[0189]
其中,“编码预处理”是指预先设定至少一个编码处理过程;而且本技术实施例不限定“编码预处理”,例如,其可以包括特征编码处理和位置编码处理。
[0190]“特征编码处理”用于针对一个待编码特征携带的字符信息进行编码处理;而且本技术实施例不限定“特征编码处理”,例如,可以采用现有的或者未来出现的任一种能够进
行特征编码的方法(例如,transformer模型中input embedding网络)进行实施。
[0191]“位置编码处理”用于针对一个待编码携带的位置信息进行编码处理;而且本技术实施例不限定“位置编码处理”,例如,可以采用现有的或者未来出现的任一种能够进行位置编码的方法(例如,transformer模型中positional encoding网络)进行实施。
[0192]
上述“第1个待编码特征的预处理结果”用于表示针对该第1个待编码特征进行编码预处理得到的结果。
[0193]
另外,本技术实施例不限定步骤41的实施方式,例如,如图7所示,当上述“编码预处理”包括特征编码处理和位置编码处理时,步骤41具体可以包括步骤411

步骤414:
[0194]
步骤411:针对第1个待编码特征进行特征编码处理,得到该第1个待编码特征的特征编码结果(如,图7中“特征编码结果1”)。
[0195]
步骤412:将第1个待编码特征与该第1个待编码特征的特征编码结果进行融合处理,得到该第1个待编码特征的特征融合结果。
[0196]
步骤413:针对第1个待编码特征进行位置编码处理,得到该第1个待编码特征的位置编码结果(如,图7中“位置编码结果1”)。
[0197]
步骤414:将第1个待编码特征的特征融合结果与该第1个待编码特征的位置编码结果进行融合处理,得到该第1个待编码特征的预处理结果。
[0198]
需要说明的是,本技术实施例不限定步骤412以及步骤414中“融合处理”,可以采用现有的或者未来出现的任一种特征融合处理方法(例如,transformer模型所涉及的融合处理方法)进行实施。
[0199]
基于上述步骤41的相关内容可知,对于上述“第1个待使用编码层”来说,在获取到第1个待编码特征之后,可以对该第1个待编码特征进行编码预处理,得到该第1个待编码特征的预处理结果,以使该预处理结果能够更准确地表示出该第1个待编码特征携带的信息(如,字符信息以及位置信息)。
[0200]
步骤42:将第1个待编码特征的预处理结果输入第1个待使用编码层中自注意力模块,得到该自注意力模块输出的该第1个待编码特征的自注意力处理结果。
[0201]
本技术实施例中,对于上述“第1个待使用编码层”来说,在获取到第1个待编码特征的预处理结果之后,可以由该“第1个待使用编码层”中自注意力模块(如图7中从左往右数第1个灰色实线框内的mha)针对该第1个待编码特征的预处理结果进行自注意力处理(如,多头自注意力处理),得到并输出该第1个待编码特征的自注意力处理结果。
[0202]
步骤43:将第1个待编码特征的自注意力处理结果输入该第1个待使用编码层中前馈神经网络模块,得到该前馈神经网络模块输出的该第1个待编码特征的编码处理结果。
[0203]
本技术实施例中,对于上述“第1个待使用编码层”来说,在获取到第1个待编码特征的自注意力处理结果之后,可以由该“第1个待使用编码层”中前馈神经网络模块(如图7中从左往右数第1个灰色实线框内的ffn)针对该第1个待编码特征的自注意力处理结果进行处理,得到并输出该第1个待编码特征的编码处理结果。
[0204]
基于上述步骤331的相关内容可知,在获取到第1个待编码特征之后,可以由第1个待使用编码层针对该第1个待编码特征进行编码处理,得到并输出第1个待编码特征的编码处理结果,以便后续能够由第2个待使用编码层在该第1个待编码特征的编码处理结果的基础上继续进行编码处理。
[0205]
s332:利用第j个待使用编码层对第j个待编码特征和第j

1个待编码特征的编码处理结果进行编码处理,得到第j个待编码特征的编码处理结果。其中,“第j

1个待编码特征的编码处理结果”是指第j

1个待使用编码层的输出结果。j为正整数,2≤j≤j。
[0206]
其中,“第j个待使用编码层”用于针对该第j个待使用编码层的输入数据进行编码处理;而且该“第j个待使用编码层”的输入数据包括第j个待编码特征和第j

1个待编码特征的编码处理结果(也就是,第j

1个待使用编码层的输出结果)。
[0207]
另外,本技术实施例不限定“第j个待使用编码层”,例如,该“第j个待使用编码层”可以包括两个自注意力模块和一个前馈神经网络模块。其中,第一个自注意力模块的输入数据包括第j个待编码特征;第二个自注意力模块的输入数据包括该第一个自注意力模块的输出数据和第j

1个待编码特征的编码处理结果;上述“前馈神经网络模块”的输入数据包括该第二个自注意力模块的输出数据。
[0208]
此外,为了便于理解“第j个待使用编码层”的工作原理,下面以“第j个待编码特征的编码处理结果”的确定过程为例进行说明。
[0209]
作为示例,当第j个待使用编码层包括两个自注意力模块和一个前馈神经网络模块时,“第j个待编码特征的编码处理结果”的确定过程具体可以包括步骤51

步骤54:
[0210]
步骤51:对第j个待编码特征进行编码预处理,得到该第j个待编码特征的预处理结果。
[0211]
需要说明的是,步骤51可以采用上文步骤41的任一实施方式进行实施,只需将上文步骤41的任一实施方式中“第1个待编码特征”替换为“第j个待编码特征”即可。
[0212]
步骤52:将第j个待编码特征的预处理结果输入第j个待使用编码层中第一个自注意力模块,得到该第一个自注意力模块输出的该第j个待编码特征的第一次自注意力处理结果。
[0213]
本技术实施例中,对于上述“第j个待使用编码层”来说,在获取到第j个待编码特征的预处理结果之后,可以由该“第j个待使用编码层”中第一个自注意力模块(类似于图7中从左往右数第2个灰色实线框内的位置比较靠下的mha)针对该第j个待编码特征的预处理结果进行自注意力处理(如,多头自注意力处理),得到并输出该第j个待编码特征的第一次自注意力处理结果。
[0214]
需要说明的是,如果上述“第j个待使用编码层中第一个自注意力模块”采用多头自注意力机制进行实施,则可以将该多头自注意力机制所涉及的q、k、v参数均设定为第j个待编码特征的预处理结果。
[0215]
步骤53:将第j

1个待编码特征的编码处理结果和第j个待编码特征的第一次自注意力处理结果输入第j个待使用编码层中第二个自注意力模块,得到该第二个自注意力模块输出的该第j个待编码特征的第二次自注意力处理结果。
[0216]
本技术实施例中,对于上述“第j个待使用编码层”来说,在获取到第j

1个待编码特征的编码处理结果和第j个待编码特征的第一次自注意力处理结果之后,可以由该“第j个待使用编码层”中第二个自注意力模块(类似于图7中从左往右数第2个灰色实线框内的位置比较靠上的mha)针对上述两个结果(也就是,第j

1个待编码特征的编码处理结果和第j个待编码特征的第一次自注意力处理结果)进行自注意力处理(如,多头自注意力处理),得到并输出该第j个待编码特征的第二次自注意力处理结果。
[0217]
需要说明的是,如图7所示,如果上述“第j个待使用编码层中第二个自注意力模块”采用多头自注意力机制进行实施,则可以将该多头自注意力机制所涉及的q参数设定为第j个待编码特征的第一次自注意力处理结果,并将该多头自注意力机制所涉及的k、v参数均设定为第j

1个待编码特征的编码处理结果(也就是,第j

1个待使用编码层的输出结果)。
[0218]
步骤54:将第j个待编码特征的第二次自注意力处理结果输入第j个待使用编码层中前馈神经网络模块,得到该前馈神经网络模块输出的该第j个待编码特征的编码处理结果。
[0219]
本技术实施例中,对于上述“第j个待使用编码层”来说,在获取到第j个待编码特征的第二次自注意力处理结果之后,可以由该“第j个待使用编码层”中前馈神经网络模块(类似于图7中从左往右数第2个灰色实线框内的ffn)针对该第j个待编码特征的第二次自注意力处理结果进行处理,得到并输出该第j个待编码特征的编码处理结果。
[0220]
基于上述步骤332的相关内容可知,在获取到第j个待编码特征和第j

1个待编码特征的编码处理结果(也就是,第j

1个待使用编码层的输出结果)之后,可以由第j个待使用编码层针对该第j个待编码特征和第j

1个待编码特征的编码处理结果进行编码处理,得到并输出该第j个待编码特征的编码处理结果,以便后续能够由第j 1个待使用编码层在该第j个待编码特征的编码处理结果的基础上继续进行编码处理。其中,j为正整数,2≤j≤j。
[0221]
s333:将第j个待编码特征的编码处理结果,确定为待识别文本的编码特征。
[0222]
本技术实施例中,在获取到由第j个待使用编码层输出的第j个待编码特征的编码处理结果之后,可以直接将该第j个待编码特征的编码处理结果,确定为待识别文本的编码特征(如图7所示),以便后续能够基于该“待识别文本的编码特征”继续进行解码处理。
[0223]
基于上述s31至s33的相关内容可知,在获取到n个待识别图像的编码特征之后,可以借助j个待使用编码层针对该n个待识别图像的编码特征进行第二编码处理,得到并输出待识别文本的编码特征,以使该“待识别文本的编码特征”能够准确地表示出由该“n个待识别图像”携带的字符信息。
[0224]
s4:对待识别文本的编码特征进行解码处理,得到该待识别文本的字符识别结果。
[0225]
其中,待识别文本的字符识别结果用于表示n个待识别图像中所共有的字符信息。
[0226]
另外,本技术实施例不限定s3中“解码处理”的实施方式,例如,可以采用transformer模型中decoder网络进行实施。
[0227]
基于上述s1至s4的相关内容可知,对于本技术实施例提供的字符识别方法来说,在获取到均包括待识别文本的多个待识别图像之后,先分别对各个待识别图像进行第一编码处理,得到各个待识别图像的编码特征;再对所有待识别图像的编码特征进行第二编码处理,得到该待识别文本的编码特征,以使该“待识别文本的编码特征”能够准确地表示出所有待识别图像携带的字符信息,从而使得该“待识别文本的编码特征”能够更准确地表述出该待识别文本中各个字符,进而使得基于该“待识别文本的编码特征”确定的该待识别文本的字符识别结果更准确,如此有利于提高多帧文本行识别的字符识别准确性。
[0228]
基于上述方法实施例提供的字符识别方法,本技术实施例还提供了一种字符识别装置,下面结合附图进行解释和说明。
[0229]
装置实施例
[0230]
装置实施例提供的字符识别装置的技术详情,请参照上述方法实施例。
[0231]
参见图8,该图为本技术实施例提供的一种字符识别装置的结构示意图。
[0232]
本技术实施例提供的字符识别装置800,包括:
[0233]
图像获取单元801,用于获取多个待识别图像;其中,所述多个待识别图像包括相同的字符信息;
[0234]
第一编码单元802,用于分别对各个所述待识别图像进行第一编码处理,得到各个所述待识别图像的编码特征;
[0235]
第二编码单元803,用于对所述多个待识别图像的编码特征进行第二编码处理,得到所述待识别文本的编码特征,以使所述待识别文本对应的编码特征用于表示所述多个待识别图像携带的字符信息;
[0236]
特征解码单元804,用于对所述待识别文本的编码特征进行解码处理,得到所述待识别文本的字符识别结果。
[0237]
在一种可能的实施方式中,所述第二编码单元803,包括:
[0238]
个数比较子单元,用于将所述待识别图像的个数与待使用编码层个数进行比较,得到比较结果;
[0239]
第一确定子单元,用于根据所述比较结果和所述多个待识别图像的编码特征,确定所述待使用编码层个数的待编码特征;
[0240]
第一编码子单元,用于利用所述待使用编码层个数的待使用编码层,对所述待使用编码层个数的待编码特征进行第三编码处理,得到所述待识别文本的编码特征。
[0241]
在一种可能的实施方式中,所述待识别图像的个数为n;
[0242]
所述第一确定子单元,具体用于:若所述比较结果表示所述待识别图像的个数等于所述待使用编码层个数,则将第n个待识别图像的编码特征,确定为第n个待编码特征;其中,n为正整数,n≤n。
[0243]
在一种可能的实施方式中,所述第一确定子单元,具体用于:若所述比较结果表示所述待识别图像的个数大于所述待使用编码层个数,则将所述多个待识别图像的编码特征进行拼接,得到待分割编码特征;将所述待分割编码特征按照所述待使用编码层个数进行分割处理,得到所述待使用编码层个数的待编码特征。
[0244]
在一种可能的实施方式中,所述待识别图像的个数为n,且所述待使用编码层个数为j;
[0245]
所述第一确定子单元,具体用于:若所述比较结果表示所述待识别图像的个数小于所述待使用编码层个数,则将第i个待识别图像的编码特征,确定为第i个待编码特征;其中,i为正整数,i≤n

1;利用第n个待识别图像的编码特征,确定第n个待编码特征至第j个待编码特征。
[0246]
在一种可能的实施方式中,所述待使用编码层个数为j;
[0247]
所述第一编码子单元,包括:
[0248]
第二编码子单元,用于利用第1个待使用编码层对第1个待编码特征进行编码处理,得到所述第1个待编码特征的编码处理结果;
[0249]
第三编码子单元,用于利用第j个待使用编码层对第j个待编码特征和第j

1个待编码特征的编码处理结果进行编码处理,得到所述第j个待编码特征的编码处理结果;其
中,所述第j

1个待编码特征的编码处理结果是指第j

1个待使用编码层的输出结果;j为正整数,2≤j≤j;
[0250]
第二确定子单元,用于将所述第j个待编码特征的编码处理结果,确定为所述待识别文本的编码特征。
[0251]
在一种可能的实施方式中,所述第1个待使用编码层包括一个自注意力模块和一个前馈神经网络模块;
[0252]
所述第二编码子单元,具体用于:
[0253]
对所述第1个待编码特征进行编码预处理,得到所述第1个待编码特征的预处理结果;
[0254]
将所述第1个待编码特征的预处理结果输入所述第1个待使用编码层中自注意力模块,得到所述自注意力模块输出的所述第1个待编码特征的自注意力处理结果;
[0255]
将所述第1个待编码特征的自注意力处理结果输入所述第1个待使用编码层中前馈神经网络模块,得到所述前馈神经网络模块输出的所述第1个待编码特征的编码处理结果。
[0256]
在一种可能的实施方式中,所述第j个待使用编码层包括两个自注意力模块和一个前馈神经网络模块;
[0257]
所述第三编码子单元,具体用于:
[0258]
对所述第j个待编码特征进行编码预处理,得到所述第j个待编码特征的预处理结果;
[0259]
将所述第j个待编码特征的预处理结果输入所述第j个待使用编码层中第一个自注意力模块,得到所述第一个自注意力模块输出的所述第j个待编码特征的第一次自注意力处理结果;
[0260]
将所述第j

1个待编码特征的编码处理结果和所述第j个待编码特征的第一次自注意力处理结果输入所述第j个待使用编码层中第二个自注意力模块,得到所述第二个自注意力模块输出的所述第j个待编码特征的第二次自注意力处理结果;
[0261]
将所述第j个待编码特征的第二次自注意力处理结果输入所述第j个待使用编码层中前馈神经网络模块,得到所述前馈神经网络模块输出的所述第j个待编码特征的编码处理结果。
[0262]
在一种可能的实施方式中,所述待识别图像的个数为n;
[0263]
所述第一编码单元802,具体用于:
[0264]
对所述第n个待识别图像进行特征提取,得到所述第n个待识别图像的视觉特征;其中,n为正整数,n≤n,n为正整数;
[0265]
对所述第n个待识别图像的视觉特征进行第四编码处理,得到所述第n个待识别图像的编码特征;其中,n为正整数,n≤n,n为正整数。
[0266]
在一种可能的实施方式下,所述图像获取单元801,具体用于:对多个候选图像进行聚类,得到至少一个候选图像集,以使所述候选图像集中所有候选图像包括相同的字符信息;根据所述至少一个候选图像集中待识别图像集,确定所述多个待识别图像。
[0267]
在一种可能的实施方式下,所述至少一个候选图像的确定过程,包括:对待处理视频中多帧视频图像进行文本检测,得到所述多帧视频图像的文本检测结果;根据所述多帧
视频图像的文本检测结果,分别对所述多帧视频图像进行图像切割,得到所述多个候选图像。
[0268]
基于上述字符识别装置800的相关内容可知,对于字符识别装置800来说,在获取到均包括相同字符信息的多个待识别图像之后,先分别对各个待识别图像进行第一编码处理,得到各个待识别图像的编码特征;再对所有待识别图像的编码特征进行第二编码处理,得到该待识别文本的编码特征,以使该“待识别文本的编码特征”能够准确地表示出所有待识别图像携带的字符信息,从而使得该“待识别文本的编码特征”能够更准确地表述出该待识别文本中各个字符,进而使得基于该“待识别文本的编码特征”确定的该待识别文本的字符识别结果更准确,如此有利于提高多帧文本行识别的字符识别准确性。
[0269]
进一步地,本技术实施例还提供了一种设备,所述设备包括处理器以及存储器:
[0270]
所述存储器用于存储计算机程序;
[0271]
所述处理器用于根据所述计算机程序执行本技术实施例提供的字符识别方法的任一实施方式。
[0272]
进一步地,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本技术实施例提供的字符识别方法的任一实施方式。
[0273]
进一步地,本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本技术实施例提供的字符识别方法的任一实施方式。
[0274]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0275]
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献