一种用于任意长度文本识别的方法和装置与流程

2022-04-27 07:21:22 来源：中国专利 TAG：

技术特征：
1.一种用于任意长度文本识别的方法，其中，该方法包括：将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向；将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片；对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。2.根据权利要求1所述的方法，其中，所述将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息，包括：将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符数量以及字符位置信息；若所述字符数量大于或等于预定数量，根据所述字符位置信息将该文本行图片切分为多个短文本图片，按照切分顺序将所述多个短文本图片依次输入至文本识别模型获得每个短文本图片对应的短文本信息，之后按照所述切分顺序将所述每个短文本图片对应的短文本信息进行拼接，得到该文本行图片对应的文本信息，否则，将该文本行图片直接输入至文本识别模型，获得与该文本行图片对应的文本信息。3.根据权利要求2所述的方法，其中，所述根据所述字符位置信息将该文本行图片切分为多个短文本图片，包括：根据预设字符个数以及所述字符位置信息，确定该文本行图片对应的至少一个切分位置；根据所述至少一个切换位置，将该文本行图片切分为多个短文本图片。4.根据权利要求1所述的方法，其中，所述将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息，包括：将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息以及经所述字符检测模型裁剪得到的多个字符图片，将所述多个字符图片输入至字符识别模型，获得每个字符图片对应的字符，并根据所述字符位置信息将所获得的多个字符进行拼接，获得该文本行图片对应的文本信息。5.根据权利要求4所述的方法，其中，该方法还包括：判断所述多个字符的数量与所述字符检测模型输出的字符数量是否一致，若否，生成提示信息并呈现。6.根据权利要求1至5中任一项所述的方法，其中，在利用文本识别模型或字符识别模型之前，该方法还包括：若所述目标图片满足预定触发条件，执行数据增强和/或图像增强操作。7.一种用于任意长度文本识别的装置，其中，该装置包括：用于将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向的装置；
用于将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片的装置；用于对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息的模块的装置。8.根据权利要求7所述的装置，其中，所述将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息，包括：将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符数量以及字符位置信息；若所述字符数量大于或等于预定数量，根据所述字符位置信息将该文本行图片切分为多个短文本图片，按照切分顺序将所述多个短文本图片依次输入至文本识别模型获得每个短文本图片对应的短文本信息，之后按照所述切分顺序将所述每个短文本图片对应的短文本信息进行拼接，得到该文本行图片对应的文本信息，否则，将该文本行图片直接输入至文本识别模型，获得与该文本行图片对应的文本信息。9.根据权利要求8所述的装置，其中，所述根据所述字符位置信息将该文本行图片切分为多个短文本图片，包括：根据预设字符个数以及所述字符位置信息，确定该文本行图片对应的至少一个切分位置；根据所述至少一个切换位置，将该文本行图片切分为多个短文本图片。10.根据权利要求7所述的装置，其中，所述将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息，包括：将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息以及经所述字符检测模型裁剪得到的多个字符图片，将所述多个字符图片输入至字符识别模型，获得每个字符图片对应的字符，并根据所述字符位置信息将所获得的多个字符进行拼接，获得该文本行图片对应的文本信息。11.根据权利要求10所述的装置，其中，该装置还包括：用于判断所述多个字符的数量与所述字符检测模型输出的字符数量是否一致，若否，生成提示信息并呈现的装置。12.根据权利要求7至11中任一项所述的装置，其中，该装置还包括：用于若所述目标图片满足预定触发条件，执行数据增强和/或图像增强操作的装置。13.一种计算机设备，其中，所述计算机设备包括：存储器，用于存储一个或多个程序；一个或多个处理器，与所述存储器相连，当所述一个或多个程序被所述一个或者多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述的方法。14.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行如权利要求1至7中任一项所述的方法。

技术总结
本申请提供了一种用于任意长度文本识别的方法和装置，该方法包括：将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向；将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片；对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。本申请通过将字符检测模型引入文本识别过程中，能够在无需改变文本识别模型输入尺寸的前提下，确保针对任意长度文本均具备极高的识别精准度。准度。准度。

技术研发人员：苏振锋杨青
受保护的技术使用者：度小满科技(北京)有限公司
技术研发日：2021.12.06
技术公布日：2022/4/26

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于X86平台使用QEMU搭建Jailhouse的方法与流程

一种用于任意长度文本识别的方法和装置与流程

相关文献

最热文献