一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

航空发动机叶片字符明码识别结果的后处理判断校正方法

2022-05-21 10:25:54 来源:中国专利 TAG:


1.本发明属于字符识别技术领域,具体涉及一种字符明码识别结果的后处理判断校正方法。


背景技术:

2.航空发动机叶片物料作为大批量、外形高度相似的零件,选配装配过程只能通过刻印在叶片榫头上的唯一凹陷字符明码人工识别挑选,不仅费事费力,而且难以实现发动机装配自动化和智能化。在人工智能领域,ocr字符识别技术被广泛应用于文字识别领域,通过采集包含字符的图像进而识别出有效字符。但是航空发动机叶片表面的凹陷刻印字符识别容易受到金属反光和环境干扰的影响,导致出现误识别情况,继而造成装配后部件平衡检测不合格,多次返工拖缓生产周期。叶片明码ocr识别结果必须要满足高可靠性要求,因此,需要对识别结果进行判断校正处理。针对以上问题,需要探究航空发动机叶片刻制凹陷字符明码识别结果后处理判断校正方法,在减少人工干涉的情况下,参考包含所有叶片编码信息的样本库,自动判断ocr识别出的字符结果是否与实际叶片编码字符一致,如果不一致则进行纠错处理,输出正确的字符。
3.中国专利公开cn105654082a公开了一种字符识别后处理的方法和装置,字符识别后处理方法是通过对获取的光学字符进行第一迭代减字分解处理,构造包含第一树状结构各节点的第一字符串集合,根据计算字符的后验概率,进行第一字符串的去错处理,得到第二字符串。该发明只针对包含汉字字符(如:胃食服液)进行了迭代删减字符处理,再进行后处理操作,一是面向的字符对象单一是不能覆盖字母和数字组合的输入字符情况,二是只进行删减字符的处理缩小了结果范围,容易陷入局部寻解。
4.现有技术的字符后处理方法没有充分利用已有数据资源的优点,将数据处理范围限制在已有数据样本库之内,因此,本发明专利通过引入样本库的约束规则,采用字符拆分和自适应概率计算的判断纠错方法,保证后处理结果准确可靠。


技术实现要素:

5.为了克服现有技术的不足,本发明提供了一种航空发动机叶片字符明码识别结果的后处理判断校正方法,首先输入叶片明码ocr识别字符结果,参考已有的包含所有明码字符的样本库和已识别输出字符的历史库,通过后处理判断校正方法判断ocr识别字符结果,若正确,则输出原字符为正确结果,不做校正处理;若不正确,则根据本发明所提出的判断校正方法对输入的ocr识别字符结果进行校正处理,最终输出所属于样本库的正确字符结果。通过本发明的应用,可以实现叶片明码字符自动ocr识别结果的判断校正,提高ocr明码字符识别的准确率,减少大批量叶片物料的人工查找核对过程,进而在此基础上打通叶片物料在仓储、物流和装配现场的信息化和自动化管理。
6.本发明解决其技术问题所采用的技术方案包括如下步骤:
7.步骤1:每个航空发动机叶片采用唯一的明码字符串进行表示;采用ocr字符识别
方法识别叶片明码字符串,得到明码字符串识别结果s;
8.步骤2:定义样本库e,初始样本库为所有航空发动机叶片物料明码字符串识别结果集合;
9.定义历史库h,历史库为已经被识别航空发动机叶片物料明码字符串识别结果集合,初始历史库为空;满足
10.定义不规范字符库t为不符合航空发动机叶片明码字符串编码规范的字母字符集合,取值如下:
11.t={c,m,o,p,u,x}
12.定义符号函数f(z)对无法进行后处理判断校正的符号字符进行处理,z表示无法进行后处理判断校正的符号字符集合,符号函数f(z)取值表示如下:
13.f(z)=y1,当z={’.’,’。

,’y
n’}时
14.其中,yn中y表示空格符号,n表示空格符号个数,n≥2且为整数,y1表示1个空格;
15.定义相似字符映射关系k(s)如下:
[0016][0017]
其中s为属于s的单字符;
[0018]
步骤3:输入航空发动机叶片的明码字符串识别结果s;根据航空发动机叶片明码字符串编码规范将s拆成α行,第i行定义为字符单位si;根据航空发动机叶片明码字符串编码规范将字符单位si拆成βi个字符单元,定义第i行第j个字符单元为s
ij

[0019]
s的结构如下:
[0020][0021]
si的结构如下:
[0022][0023]
其中i=1,2,...,α,j=1,2,...,βi;
[0024]
定义样本库e删除运算表达式如下:
[0025]
e(s)=e-{s}
[0026]
定义历史库h添加运算表达式如下:
[0027]
h(s)=h {s}
[0028]
步骤3:对明码字符串识别结果s直接进行判断;
[0029]
步骤3-1:对s进行规范化;
[0030]
遍历s中的字符内容z

,字符内容z

是指s中的单个字符或连续多个字符:
[0031]
如果则说明s符合航空发动机叶片明码字符串编码规范,转到步骤3-2;
[0032]
如果则说明s包含不符合航空发动机叶片明码字符串编码规范的符号,将z

带进符号函数f(z)计算,将不合规范的符号替换更新,再转到步骤3-2;
[0033]
步骤3-2:判断s和样本库e的从属关系:
[0034]
如果则说明在样本库e中查找到了s,即输出s为正确结果;并执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;结束后处理判断校正的全部步骤;
[0035]
如果则说明在样本库e中不存在输入字符s,则转到步骤3-3;
[0036]
步骤3-3:对于s中每个单字符s执行相似字符映射关系k(s),再判断s和样本库e的从属关系:
[0037]
如果则说明在样本库e中查找到了s,即输出s为正确结果;并执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;结束后处理判断校正的全部步骤;
[0038]
如果则说明在样本库e中不存在输入字符s,则转到步骤4;
[0039]
步骤4:根据航空发动机叶片明码字符串编码规范将s根据拆成α行字符单位si;对字符单位si进行判断;令i=1,集合集合
[0040]
步骤4-1:判断字符单位si和样本库e的从属关系:
[0041]
如果则说明在样本库e中查找到了字符单位si,将样本库中字符单位si所属明码字符串识别结果作为候选结果,所有候选结果组成集合ri;令p=i,将p加入集合α1,相应地将ri表示为r
p

[0042]
如果则说明在样本库e中不存在字符单位si,令q=i,将q加入集合α2,相应地将不属于e的si表示为sq;
[0043]
步骤4-2:令i加1,重复执行步骤4-1,当i=α 1时进入步骤5;
[0044]
步骤5:根据航空发动机叶片明码字符串编码规范将sq拆分为βq个字符单元s
qr
,r∈{1,2,...,βq};令r=1,集合集合
[0045]
步骤5-1:判断字符单元s
qr
和样本库e的从属关系:
[0046]
如果则说明在样本库e中查找到了字符单元s
qr
,将样本库中字符单元s
qr
所属明码字符串识别结果作为候选结果,所有候选结果组成集合r
qr
;令t=r,将qt加入集合α3,相应地将r
qr
表示为r
qt

[0047]
如果则说明在样本库e中不存在字符单位s
qr
,令u=r,将qu加入集合α4,相应地将不属于e的s
qr
表示为s
qu

[0048]
步骤5-2:令r加1,重复执行步骤5-1,当r=βq 1时进入步骤6;
[0049]
步骤6:遍历集合α2中的所有q,重复执行步骤5;
[0050]
步骤7:对字符单元s
qu
进行贝叶斯纠错操作;
[0051]
步骤7-1:设样本库e中有be种不同的规范字符单元;计算样本库的每种规范字符单元的词频,即先验概率:
[0052][0053]
其中se表示样本库中不同的规范字符单元,e∈{1,2,...,be};
[0054]
步骤7-2:计算字符单元s
qu
的长度l
qu
和根据航空发动机叶片明码字符串编码规范中字符单元s
qu
所在位置的规范字符单元长度l
qu
的编辑距离d
qu
,即d
qu
=l
qu-l
qu

[0055]
步骤7-3:若d
qu
=-1或d
qu
=-2,则判定字符单元s
qu
包含的字符个数和规范相比少一个或两个字符,则执行贝叶斯纠错操作中的插入操作,形成新字符单元s
qu

;转入步骤7-4;
[0056]
若d
21
=0,则判定字符单元s
qu
包含的字符个数和规范一致,则执行贝叶斯纠错操作中的调换和替换操作,形成新字符单元s
qu

;转入步骤7-4;
[0057]
若d
21
=1或d
21
=2,则判定字符单元s
qu
包含的字符个数和规范相比多一个或两个字符,则执行贝叶斯纠错操作中的删除操作,形成新字符单元s
qu

;转入步骤7-4;
[0058]
若|d
qu
|>2,则判定字符单元s
qu
错误,通过人工核对更正s,使执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;结束后处理判断校正的全部步骤;
[0059]
步骤7-4:计算字符单元s
qu
查找到正确的规范字符单元se的概率:
[0060]
令se=s
qu

;计算:
[0061][0062]
其中,p(s
qu
|se)为编辑距离d
qu
;p(s
qu
)为采用贝叶斯纠错操作方法得到的概率值,为一个固定数值;
[0063]
由于在贝叶斯纠错操作方法中得到的s
qu

有多个,因此会得到多个p(se|s
qu
),将p(se|s
qu
)的值从大到小排列,取前d个值,在样本库中找到这d个值对应的s
qu

所属明码字符串识别结果作为候选结果,所有候选结果组成集合r
qu

[0064]
步骤8:遍历集合α4中的所有qu,重复执行步骤7;
[0065]
步骤9:计算其中表示对于集合α1中的所有的元素p对应的集合r
p
求交集;表示对于集合α3中的所有的元素qt对应的集合r
qt
求交集;表示对于集合α4中的所有的元素qu对应的集合r
qu
求交集;
[0066]
如果即输出rs为正确结果;并执行运算e(rs)和h(rs),在样本库e中删除已输出字符rs,历史库中h添加已输出字符rs;结束后处理判断校正的全部步骤;
[0067]
如果则转到步骤10;
[0068]
步骤10:通过人工核对更正s,使执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;结束后处理判断校正的全部步骤。
[0069]
优选地,所述ocr字符识别方法为百度ocr或tesseract-ocr。
[0070]
本发明的有益效果如下:
[0071]
本发明通过制定叶片明码ocr识别结果后处理判断校正方法,对ocr识别的明码字符进行正误检查,判断识别结果是否存在有误的情况;通过字符明码后处理判断校正方法对输入的不正确ocr识别字符进行判断校正,提高了特定场景下ocr识别字符不正确情况的校正效率。本发明可以对ocr识别字符结果实现自动判断校正的功能,进而实现叶片的自动识别和信息追踪,减轻操作人员多次核对负担,并保证后处理判断校正后的字符结果满足高准确率的要求。
附图说明
[0072]
图1为本发明方法流程图.
[0073]
图2为本发明方法贝叶斯纠错处理流程图;
[0074]
图3为本发明实施例处理判断校正方法输入的ocr识别字符、规范化字符及其拆分
的字符单位和字符单元示例图。
[0075]
图4为本发明实施例贝叶斯纠错算法的示例图。
具体实施方式
[0076]
下面结合附图和实施例对本发明进一步说明。
[0077]
本发明对实现航空发动机叶片标识明码的识别与自动判断纠错,使操作人员能够快速认知叶片所属装配信息,并依据叶片编码信息进行信息化管理,进而在此基础上实现装配过程的零件自动识别和规划有着重要的现实意义和应用价值。通过引入样本库的约束规则,采用字符拆分和自适应概率计算的判断纠错方法,保证后处理结果准确可靠。旨在解决叶片物料在自动化ocr识别中,存在字符识别出错的情况,避免操作工人多次核对,减少人为因素干扰。
[0078]
给定叶片明码ocr识别字符结果为本发明方法的输入,首先对输入字符进行字符间分割符号规范化,然后参考包含所有明码字符的样本库和已识别输出字符的历史库,进行字符匹配,判断输入字符是否为样本库和历史库中的元素;若属于样本库且不属于历史库,则输出为正确结果,并从样本库中剔除,录入到已识别输出的历史库中;反之,则根据不规范字符库进行相似字符处理,并进行上述字符匹配相同判断,若属于样本库且不属于历史库,则输出为正确结果;反之,则跳转到下一步;
[0079]
将输入的整体字符按行拆分为多个字符单位,对每个字符单位进行样本库匹配,判断字符单位是否为样本库中的所属元素,若满足,输出该字符单位对应样本库中的原始明码字符为正确结果集合,对多个字符单位输出的多个正确结果集合进行求交集运算,输出同时满足的结果明码字符。判断该结果明码字符是否属于历史库,若不属于,即为正确结果,并从样本库中剔除,录入到已识别输出的历史库中;若属于,说明识别有误,则跳转到下一步;
[0080]
将每个字符单位按叶片明码编码规则所包含的最小单元体拆分为多个字符单元,对每个字符单元进行样本库匹配,判断字符单元是否为样本库中的所属元素,若满足,输出该字符单元对应样本库中的原始明码字符为正确结果集合,对多个字符单元输出的多个正确结果集合进行求交集运算,输出同时满足的结果明码字符。判断该结果明码字符是否属于历史库,若不属于,即为正确结果,并从样本库中剔除,录入到已识别输出的历史库中;若属于,说明识别有误,则跳转到下一步;
[0081]
以样本库作为训练集生成包含字符词频的词典,对字符单元进行自适应贝叶斯纠错,遍历样本库,查找字符单元纠错后对应样本库中的原始明码字符候选集合;对多个字符单元纠错后输出的多个原始明码字符候选集合进行求交集运算,输出同时满足的结果明码字符。判断该结果明码字符是否属于历史库,若不属于,即为正确结果,并从样本库中剔除,录入到已识别输出的历史库中;若属于,说明识别有误,人工核对无误后录入历史库中,从样本库中剔除,并赋予该明码最高优先权作为后续的比对判断依据。
[0082]
一种航空发动机叶片字符明码识别结果的后处理判断校正方法,包括如下步骤:
[0083]
步骤1:每个航空发动机叶片采用唯一的明码字符串进行表示;采用ocr字符识别方法,如百度ocr或tesseract-ocr识别叶片明码字符串,得到明码字符串识别结果;
[0084]
步骤2:定义样本库e,初始样本库为所有航空发动机叶片物料明码字符串识别结
果集合;
[0085]
定义历史库h,历史库为已经被识别航空发动机叶片物料明码字符串识别结果集合,初始历史库为空;满足
[0086]
定义不规范字符库t为不符合航空发动机叶片明码字符串编码规范的字母字符集合,取值如下:
[0087]
t={c,m,o,p,u,x}
[0088]
定义符号函数f(z)对无法进行后处理判断校正的符号字符进行处理,z表示无法进行后处理判断校正的符号字符集合,符号函数f(z)取值表示如下:
[0089]
f(z)=y1,当z={’.’,’。

,’y
n’}时
[0090]
其中,yn中y表示空格符号,n表示空格符号个数,n之2且为整数,y1表示1个空格;
[0091]
定义相似字符映射关系k(s)如下:
[0092][0093]
其中s为属于s的单字符;
[0094]
步骤3:输入航空发动机叶片的明码字符串识别结果s;根据航空发动机叶片明码字符串编码规范将s拆成α行,第i行定义为字符单位si;根据航空发动机叶片明码字符串编码规范将字符单位si拆成βi个字符单元,定义第i行第j个字符单元为s
ij

[0095]
s的结构如下:
[0096][0097]
si的结构如下:
[0098][0099]
其中i=1,2,...,α,j=1,2,...,βi;
[0100]
定义样本库e删除运算表达式如下:
[0101]
e(s)=e-{s}
[0102]
定义历史库h添加运算表达式如下:
[0103]
h(s)=h {s}
[0104]
步骤3:对明码字符串识别结果s直接进行判断;
[0105]
步骤3-1:对s进行规范化;
[0106]
遍历s中的字符内容z

,字符内容z

是指s中的单个字符或连续多个字符:
[0107]
如果则说明s符合航空发动机叶片明码字符串编码规范,转到步骤3-2;
[0108]
如果则说明s包含不符合航空发动机叶片明码字符串编码规范的符号,将z

带进符号函数f(z)计算,将不合规范的符号替换更新,再转到步骤3-2;
[0109]
步骤3-2:判断s和样本库e的从属关系:
[0110]
如果则说明在样本库e中查找到了s,即输出s为正确结果;并执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;结束后处理判断校正的全部步骤;
[0111]
如果则说明在样本库e中不存在输入字符s,则转到步骤3-3;
[0112]
步骤3-3:对于s中每个单字符s执行相似字符映射关系k(s),再判断s和样本库e的从属关系:
[0113]
如果则说明在样本库e中查找到了s,即输出s为正确结果;并执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;结束后处理判断校正的全部步骤;
[0114]
如果则说明在样本库e中不存在输入字符s,则转到步骤4;
[0115]
步骤4:根据航空发动机叶片明码字符串编码规范将s根据拆成α行字符单位si;对字符单位si进行判断;令i=1,集合集合
[0116]
步骤4-1:判断字符单位si和样本库e的从属关系:
[0117]
如果则说明在样本库e中查找到了字符单位si,将样本库中字符单位si所属明码字符串识别结果作为候选结果,所有候选结果组成集合ri;令p=i,将p加入集合α1,相应地将ri表示为r
p

[0118]
如果则说明在样本库e中不存在字符单位si,令q=i,将q加入集合α2,相应地将不属于e的si表示为sq;
[0119]
步骤4-2:令i加1,重复执行步骤4-1,当i=α 1时进入步骤5;
[0120]
步骤5:根据航空发动机叶片明码字符串编码规范将sq拆分为βq个字符单元s
qr
,r∈{1,2,...,βq};令r=1,集合集合
[0121]
步骤5-1:判断字符单元s
qr
和样本库e的从属关系:
[0122]
如果则说明在样本库e中查找到了字符单元s
qr
,将样本库中字符单元s
qr
所属明码字符串识别结果作为候选结果,所有候选结果组成集合r
qr
;令t=r,将qt加入集合α3,相应地将r
qr
表示为r
qt

[0123]
如果则说明在样本库e中不存在字符单位s
qr
,令u=r,将qu加入集合α4,相应地将不属于e的s
qr
表示为s
qu

[0124]
步骤5-2:令r加1,重复执行步骤5-1,当r=βq 1时进入步骤6;
[0125]
步骤6:遍历集合α2中的所有q,重复执行步骤5;
[0126]
步骤7:对字符单元s
qu
进行贝叶斯纠错操作;
[0127]
步骤7-1:设样本库e中有be种不同的规范字符单元;计算样本库的每种规范字符单元的词频,即先验概率:
[0128][0129]
其中se表示样本库中不同的规范字符单元,e∈{1,2,...,be};
[0130]
步骤7-2:计算字符单元s
qu
的长度l
qu
和根据航空发动机叶片明码字符串编码规范中字符单元s
qu
所在位置的规范字符单元长度l
qu
的编辑距离d
qu
,即d
qu
=l
qu-l
qu

[0131]
步骤7-3:若d
qu
=-1或d
qu
=-2,则判定字符单元s
qu
包含的字符个数和规范相比少一个或两个字符,则执行贝叶斯纠错操作中的插入操作,形成新字符单元s
qu

;转入步骤7-4;
[0132]
若d
21
=0,则判定字符单元s
qu
包含的字符个数和规范一致,则执行贝叶斯纠错操作中的调换和替换操作,形成新字符单元s
qu

;转入步骤7-4;
[0133]
若d
21
=1或d
21
=2,则判定字符单元s
qu
包含的字符个数和规范相比多一个或两个字符,则执行贝叶斯纠错操作中的删除操作,形成新字符单元s
qu

;转入步骤7-4;
[0134]
若|d
qu
|>2,则判定字符单元s
qu
包含的字符个数和规范相比相差太多,属于有问题的识别字符,需要人工核对录入样本库e,通过人工核对更正s,使执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;结束后处理判断校正的全部步骤;
[0135]
步骤7-4:计算字符单元s
qu
查找到正确的规范字符单元se的概率:
[0136]
令se=s
qu

;计算:
[0137][0138]
其中,p(s
qu
|se)为编辑距离d
qu
;p(s
qu
)为采用贝叶斯纠错操作方法得到的概率值,为一个固定数值;
[0139]
由于在贝叶斯纠错操作方法中得到的s
qu

有多个,因此会得到多个p(se|s
qu
),将p(se|s
qu
)的值从大到小排列,取前d个值,在样本库中找到这d个值对应的s
qu

所属明码字符串识别结果作为候选结果,所有候选结果组成集合r
qu

[0140]
步骤8:遍历集合α4中的所有qu,重复执行步骤7;
[0141]
步骤9:计算其中表示对于集合α1中的所有的元素p对应的集合r
p
求交集;表示对于集合α3中的所有的元素qt对应的集合r
qt
求交集;表示对于集合α4中的所有的元素qu对应的集合r
qu
求交集;
[0142]
如果即输出rs为正确结果;并执行运算e(rs)和h(rs),在样本库e中删除已输出字符rs,历史库中h添加已输出字符rs;结束后处理判断校正的全部步骤;
[0143]
如果则转到步骤10;
[0144]
步骤10:通过人工核对更正s,使执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;结束后处理判断校正的全部步骤。
[0145]
具体实施例:
[0146]
选用任何一种ocr字符识别方法,例如百度ocr、tesseract-ocr等识别叶片明码字符,并以此作为本发明后处理判断校正方法的输入;
[0147]
输入用于匹配的参考数据信息包括样本库、历史库、不规范字符库、符号库和相似字符映射关系;
[0148]
(1)输入ocr明码字符结果s,如图3示例中的一种叶片明码字符识别结果,进行以下判断:
[0149]
遍历s中的字符内容z

,字符内容z

是指s中的单个字符或连续多个字符:
[0150]
·
如果则说明s符合航空发动机叶片明码字符串编码规范,跳转到第(2)步继续进行判断;
[0151]
·
如果z

∈z,则说明s包含不符合航空发动机叶片明码字符串编码规范的符号,将z

带进符号函数f(z)计算,将不符合航空发动机叶片明码字符串编码规范的符号替换更新,跳转到第(2)步继续进行判断;
[0152]
(2)对规范化后的s,如图3示例中的第一步操作后的规范化字符,进行以下判断:
[0153]
计算s和样本库e的所属关系:
[0154]
·
得到则说明在样本库e中查找到了s,即输出s为正确结果;并执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;
[0155]
·
反之,则说明在样本库e中不存在s,跳转到第(3)步继续进行判断;
[0156]
(3)对样本库e中不存在的s,进行以下判断:
[0157]
执行相似字符纠错运算k(s),重新计算纠错后s和样本库e的所属关系:
[0158]
·
得到则说明在样本库e中查找到了s,即输出s为正确结果;并执行运算e(s)和h(s),在样本库e中删除s,历史库h中添加s;
[0159]
·
反之,则说明在样本库e中不存在s,跳转到第(4)步继续进行判断;
[0160]
(4)对不存在的s,按行拆分为s1和s2两个字符单位,如图3示例中的第二步操作后的字符单位,对s1和s2进行同第(2)步的判断操作:
[0161]

计算字符单位s2和样本库e的所属关系:
[0162]
·
得到则说明在样本库e中查找到了字符单位s2,但是由于字符单位s2可能存在对应多个候选字符的情况,即输出s2对应的多个候选字符的集合r2;
[0163]
·
得到则说明在样本库e中不存在字符单位s2,跳转到第(5)步继续进行判断;
[0164]

同上,计算字符单位s1和样本库e的所属关系:
[0165]
·
得到输出s2对应的多个候选字符的集合r2;
[0166]
·
得到跳转到第(5)步继续进行判断;
[0167]
(5)对不存在的字符单位s1或s2,以s2为例,按间隔符拆分为s
21
、s
22
和s
23
三个字符单元,如图3示例中的第三步操作后的字符单元,对s
21
、s
22
和s
23
进行同第(2)步的判断操作,下面以s
21
判断过程为例,s
22
和s
23
判断过程同理:
[0168]

计算字符单元s
21
和样本库e的所属关系:
[0169]
·
得到则说明在样本库e中查找到了字符单元s
21
,但是由于字符单元s
21
可能存在对应多个候选字符的情况,即输出s
21
对应的多个候选字符的集合r
21

[0170]
·
得到则说明在样本库e中不存在字符单元s
21
,跳转到第(6)步继续进行判断;
[0171]

同上,计算字符单元s
22
和样本库e的所属关系:
[0172]
·
得到输出s
12
对应的多个候选字符的集合r
22

[0173]
·
得到跳转到第(6)步继续进行判断;
[0174]

同上,计算字符单元s
23
和样本库e的所属关系:
[0175]
·
得到输出s
23
对应的多个候选字符的集合r
23

[0176]
·
得到跳转到第(6)步继续进行判断;
[0177]
(6)对不存在的字符单元s
21
或s
22
或s
23
,以s
21
为例,进行贝叶斯纠错操作,s
22
和s
23
的操作过程同理:
[0178]

计算样本库的所有字符的词频,即先验概率:
[0179]
[0180]

计算字符单元长度l
21
和规范字符长度l
21
的编辑距离d
21
,即d
21
=l
21-l
21

[0181]
·
若d
21
=-1或d
21
=-2,则认为字符单元包含的字符个数和规范相比少一个或两个字符,执行贝叶斯操作中的插入操作,跳转到第(6)大步中的第

小步继续进行纠错;
[0182]
·
若d
21
=0,则认为字符单元包含的字符个数和规范一致,执行贝叶斯操作中的调换和替换操作,跳转到第(6)大步中的第

小步继续进行纠错

[0183]
·
若d
21
=1或d
21
=2,则认为字符单元包含的字符个数和规范相比多一个或两个字符,执行贝叶斯操作中的删除操作,跳转到第(6)大步中的第

小步继续进行纠错;
[0184]
·
若|d
21
|>2,则认为字符单元包含的字符个数和规范相比相差太多,属于有问题的识别字符,需要人工核对录入样本库e;
[0185]

对字符单元s
21
进行贝叶斯纠错,计算在给定字符单元s
21
的情况下查找到正确字符单元se的概率:
[0186][0187]
其中,p(s
21
|se)为编辑距离d
21

[0188]
由于p(s
21
)为固定值,则上式可简写为:
[0189]
p(se|s
21
)

p(s
21
|se)*p(se)
[0190]
将p(se|s
21
)的值从大到小排列,取前5个值,如图4示例中的第一步操作后的字符单元,在样本库e中查找对应字符并组成集合r
21
,如图4示例中的第二步和第三步操作后的字符集合;
[0191]

同上,对字符单元s
22
进行贝叶斯纠错操作:
[0192]
·
若|d
22
|≤2,对s
22
进行贝叶斯纠错,在样本库e中查找对应字符并组成集合r
22

[0193]
·
若|d
22
|>2,需要人工核对录入样本库e;
[0194]

同上,对字符单元s
23
进行贝叶斯纠错操作:
[0195]
·
若|d
23
|≤2,对s
23
进行贝叶斯纠错,在样本库e中查找对应字符并组成集合r
23

[0196]
·
若|d
23
|>2,需要人工核对录入样本库e;
[0197]
(7)同第(5)步和第(6)步中针对s2的操作过程,对s1进行相同操作,得到字符单元s
21
、s
22
和s
23
的集合r
11
、r
12
和r
13

[0198]

计算r
11
∩r
12
∩r
13
∩r
21
∩r
22
∩r
23

[0199]
·
得到即输出候选字符rs为正确结果;并执行运算e(rs)和h(rs),在样本库e中删除已输出字符rs,历史库中h添加已输出字符rs;
[0200]
·
得到则说明在样本库e中不存在字符rs,跳转到第(8)步继续进行;
[0201]
(8)经过判断矫正的字符结果rs仍然有误,需要人工核对录入字符s,并执行运算e(s)和h(s),在样本库e中删除已输出字符s,历史库h中添加已输出字符s;并将此人工输入的字符s赋予历史库h中的准确率最高优先权,优化数据结构。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献