一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

字符识别的方法及电子设备与流程

2022-12-20 22:26:24 来源:中国专利 TAG:

技术特征:
1.一种字符识别的方法,其特征在于,包括:基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;所述交叠长度预设值为任意两个相邻文本子图片之间重叠区域的长度;所述文本子图片的长度大于所述交叠长度预设值且不大于所述切分长度阈值;采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;分别将每两个相邻文本子图片的重叠字符进行匹配,获得匹配结果;两个相邻文本子图片的重叠字符是从所述两个相邻文本子图片的重叠区域中分别识别出的字符;根据所述匹配结果,将各字符识别信息进行拼接处理,获得所述目标文本图片的字符识别信息。2.如权利要求1所述的方法,其特征在于,在所述基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片之前,所述方法还包括:对原始图片进行文本行检测,获得文本行区域;从所述原始图片中划分出包含所述文本行区域的文本行图片;根据所述文本行图片的高度,以及图片高度预设值,获得缩放比例;按照所述缩放比例,分别对所述文本行图片的高度和长度进行缩放,获得所述目标文本图片。3.如权利要求1所述的方法,其特征在于,所述基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片,包括:基于所述切分长度阈值以及所述交叠长度预设值,将所述目标文本图片进行划分,获得至少一个长度为所述切分长度阈值的文本子图片,以及至少一个长度大于所述交叠长度预设值且小于所述切分长度阈值的文本子图片;或者,基于所述切分长度阈值以及所述交叠长度预设值,将所述目标文本图片进行等长划分,获得多个长度相同的文本子图片。4.如权利要求1-3任一项所述的方法,其特征在于,所述采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息,包括:将各文本子图片输入所述字符识别模型,分别获得每一文本子图片中的各字符以及每一字符对应的置信度;其中,所述字符识别信息包括字符及其对应的置信度,所述置信度为字符识别的可信度。5.如权利要求4所述的方法,其特征在于,所述分别将每两个相邻文本子图片的重叠字符进行匹配,获得匹配结果,包括:针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,将所述第一目标文本子图片的第一字符识别信息中的后n个字符与所述第二目标文本子图片中的第二字符识别信息中的前n个字符进行匹配,获得所述匹配结果;其中,所述第一目标文本子图片和所述第二目标文本子图片为各文本子图片中任意相邻的两个文本子图片,且所述第一目标文本子图片为所述第二目标文本子图片的前一个文本子图片,n为最大重叠字符数,n为正整数。6.如权利要求5所述的方法,其特征在于,所述根据所述匹配结果,将各字符识别信息
进行拼接处理,获得所述目标文本图片的字符识别信息,包括:针对各文本子图片中的第一目标文本子图片和第二目标文本子图片,基于重叠区域字符数以及所述匹配结果,对所述第一目标文本子图片的第一字符识别信息和所述第二目标文本子图片的第二字符识别信息进行字符筛选处理;所述重叠区域字符数用于指示一个文本子图片的一个重叠区域中包含的重叠字符的数量;将字符筛选处理后的第一字符识别信息和第二字符识别信息进行拼接。7.如权利要求6所述的方法,其特征在于,所述对所述第一目标文本子图片的第一字符识别信息和所述第二目标文本子图片的第二字符识别信息进行字符筛选处理,包括:循环执行以下步骤,直至确定字符筛选完成:若根据所述匹配结果,确定所述第一字符识别信息中的后m个字符与所述第二字符识别信息中的前m个字符相同,则将所述后m个字符和所述前m个字符中对应相同的字符进行去重,m为重叠区域字符数,m为正整数,所述重叠区域字符数初始值为最大重叠字符数;若确定m大于1,且根据所述匹配结果确定所述后m个字符和所述前m个字符之间存在对应相同的字符,也存在对应不同的字符,则将所述后m个字符和所述前m个字符中对应相同的字符进行去重,并根据各字符的置信度,将所述后m个字符和所述前m个字符中对应不同的字符进行筛选;若确定m=1,且根据所述匹配结果确定所述第一字符识别信息中的最后一个字符和所述第二字符识别信息中的第一个字符不同,则根据所述最后一个字符的置信度以及所述第一个字符的置信度,对所述最后一个字符度以及所述第一个字符进行字符筛选;若确定m大于1,且根据所述匹配结果确定所述后m个字符和所述前m个字符中不存在对应相同的字符,则将所述重叠区域字符数减一,获得更新后的重叠区域字符数。8.如权利要求7所述的方法,其特征在于,所述将所述后m个字符和所述前m个字符中对应相同的字符进行去重,包括:针对相同的第一目标字符和第二目标字符,去除所述第一目标字符,或者,去除所述第二目标字符;其中,所述第一目标字符为所述后m个字符中的第i个字符,所述第二目标字符为所述前m个字符中的第i个字符,i表示字符的序号,i为正整数,i不大于m。9.如权利要求7所述的方法,其特征在于,所述根据各字符的置信度,将所述后m个字符和所述前m个字符中对应不同的字符进行筛选,包括:针对不同的第一目标字符和第二目标字符,确定所述第一目标字符的置信度与所述第二目标字符的置信度中的最小置信度,并去除所述最小置信度对应的字符;其中,所述第一目标字符为所述后m个字符中的第i个字符,所述第二目标字符为所述前m个字符中的第i个字符,i表示字符的序号,i为正整数,i不大于m。10.如权利要求7所述的方法,其特征在于,所述根据所述最后一个字符的置信度以及所述第一个字符的置信度,对所述最后一个字符度以及所述第一个字符进行字符筛选,包括:若确定所述最后一个字符的置信度以及所述第一个字符的置信度均大于置信度上限阈值,则保留所述最后一个字符和所述第一个字符;若确定所述最后一个字符的置信度以及所述第一个字符的置信度均小于置信度下限
阈值,则去除所述最后一个字符和所述第一个字符;若确定所述最后一个字符和所述第一个字符中存在置信度不小于所述置信度下限阈值且不大于所述置信度上限阈值的字符,则确定所述最后一个字符的置信度以及所述第一个字符的置信度中的最小置信度,并去除最小置信度对应的字符。11.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-10任一所述方法。

技术总结
本申请属于计算机视觉技术领域,公开了字符识别的方法及电子设备,该方法包括,基于切分长度阈值以及交叠长度预设值,将待识别的目标文本图片进行切分,获得多个文本子图片;采用字符识别模型,对各文本子图片进行字符识别,获得各文本子图片各自对应的字符识别信息;分别将每两个相邻文本子图片的重叠字符进行匹配,获得匹配结果;两个相邻文本子图片的重叠字符是从两个相邻文本子图片的重叠区域中分别识别出的字符;根据匹配结果,将各字符识别信息进行拼接处理,获得目标文本图片的字符识别信息。这样,解决了字符识别模型难以准确识别包含较长文本的图片的问题。确识别包含较长文本的图片的问题。确识别包含较长文本的图片的问题。


技术研发人员:宋祺 卫虎乐 张睿
受保护的技术使用者:上海弘玑信息技术有限公司
技术研发日:2022.09.26
技术公布日:2022/12/19
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献