一种基于集合预测的文本检测方法、系统、装置及介质

2022-06-02 16:31:37 来源：中国专利 TAG：

1.本发明涉及模式识别与人工智能技术领域，尤其涉及一种基于集合预测的文本检测方法、系统、装置及介质。

背景技术：

2.近年来，文档和包含文本的场景图片的数字化需求越来越多，技术也日趋成熟。其中，文本检测是数字化中关键的一环，定位出的文本位置和大小后，再使用文本识别等相关技术进行数字化。然而常常由于文档和包含文本的场景图片具有复杂多样的版面，文本密集排布、尺度变化剧烈、实例数量多等困难，容易导致检测精度下降。
3.现有的文本检测方法大多是通过组合基于传统方法的独立技术模块，或者通过回归和分割的深度学习方法。这些算法的不足之处是需要手工对模型的多个超参数做数据集的适应性调整，而且容易受到背景像素干扰，在密集文本和复杂版面下模型的检测效果不佳。

技术实现要素：

4.为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于集合预测的文本检测方法、系统、装置及介质。
5.本发明所采用的技术方案是：
6.一种基于集合预测的文本检测方法，包括以下步骤：
7.s1、预设查询向量，每个所述查询向量编码一条文本的检测结果，所述检测结果包括文本的分类置信度、矩形边界框坐标位置以及文本区域的分割掩码；
8.s2、利用神经网络对包含文本的图片进行特征提取，通过感兴趣区域池化对齐机制映射每个所述查询向量对应的文本区域高维特征向量；
9.s3、对查询向量进一步编码，获得加强查询向量；
10.s4、构建基于动态卷积的解码器，将所述加强查询向量与所述文本区域高维特征向量进行联合解码，输入到共享的多层全连接感知器，解析获得每个查询向量所编码的文本检测结果；
11.s5、重复步骤s2至s4若干次，迭代得到更准确的文本检测结果，在训练阶段中，每次重复过程，对检测结果和标注真实值计算损失优化神经网络模型，在测试阶段将最后重复过程的输出作为最终结果。
12.进一步地，所述预设查询向量，包括：
13.根据所使用数据集的应用场景，统计出单张图片最大可能出现的文本实例数上限，作为查询向量的个数；
14.设定查询向量的维度大小，初始化查询向量所编码的文本边界框大小和位置。
15.进一步地，所述利用神经网络对包含文本的图片进行特征提取，通过感兴趣区域池化对齐机制映射每个所述查询向量对应的文本区域高维特征向量，包括：
16.利用预设的主干神经网络模型对原始包含文本的图片进行特征提取，并使用特征融合模块进行多尺度特征融合；
17.结合查询向量所编码的文本块大小和位置，通过感兴趣区域池化对齐机制，映射得到每查询向量所编码的文本边界框对应的文本区域高维特征向量。
18.进一步地，所述对查询向量进一步编码，获得加强查询向量，包括：
19.利用基于自注意力机制的编码器对查询向量进一步编码，获得加强查询向量。
20.进一步地，所述利用基于自注意力机制的编码器对查询向量进一步编码，获得加强查询向量，包括：
21.利用包含自注意力机制的transformer encoder模块，将每个查询向量作为一个token，输入到transformer encoder模块中，对所有查询向量进行多次自注意力编码，增加每个查询向量关注图片中不同实例的能力，得到特征更丰富的加强查询向量。
22.进一步地，所述步骤s4，包括：
23.构建基于动态卷积的解码器，使用全连接层扩展查询向量的维度，将查询向量对应的文本区域高维特征，与查询向量进行特征融合，融合后的特征输入到共享的多层全连接感知器，解析得到每个查询向量所编码的文本检测结果；
24.其中，文本检测结果包括文本分类的置信度，矩形边界框坐标位置和文本区域的分割掩码。
25.进一步地，步骤s5中所述对检测结果和标注真实值计算损失优化神经网络模型的步骤，具体为：
26.使用基于集合预测的二分图匹配机制，对检测结果和标注真实值计算损失优化神经网络模型。
27.本发明所采用的另一技术方案是：
28.一种基于集合预测的文本检测系统，包括：
29.数据预设模块，用于预设查询向量，每个所述查询向量编码一条文本的检测结果，所述检测结果包括文本的分类置信度、矩形边界框坐标位置以及文本区域的分割掩码；
30.特征映射模块，用于利用神经网络对包含文本的图片进行特征提取，通过感兴趣区域池化对齐机制映射每个所述查询向量对应的文本区域高维特征向量；
31.向量编码模块，用于对查询向量进一步编码，获得加强查询向量；
32.联合解码模块，用于构建基于动态卷积的解码器，将所述加强查询向量与所述文本区域高维特征向量进行联合解码，输入到共享的多层全连接感知器，解析获得每个查询向量所编码的文本检测结果；
33.迭代训练模块，用于由特征映射模块、向量编码模块和联合解码模块重复执行若干次，迭代得到更准确的文本检测结果，在训练阶段中，每次重复过程，对检测结果和标注真实值计算损失优化神经网络模型，在测试阶段将最后重复过程的输出作为最终结果。
34.本发明所采用的另一技术方案是：
35.一种基于集合预测的文本检测装置，包括：
36.至少一个处理器；
37.至少一个存储器，用于存储至少一个程序；
38.当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现
上所述方法。
39.本发明所采用的另一技术方案是：
40.一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
41.本发明的有益效果是：本发明采用级联的结构迭代预测，在文本行尺度变化剧烈，密集，变形等情况下，检测结果依然精确。对于机器自动化提取、分析、理解文档内容信息有重大的作用和意义。
附图说明
42.为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。
43.图1是本发明实施例中一种基于集合预测的文本检测方法的流程框图；
44.图2是本发明实施例中模型方法框图；
45.图3是本发明实施例中数据集scut-hccdoc的示例；
46.图4是本发明实施例中数据集mthv2的示例；
47.图5是本发明实施例中数据集msra的示例。
具体实施方式
48.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
49.在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
50.在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
51.本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
52.如图1和图2所示，本实施例提供一种基于集合预测的文本检测方法，该方法只需要少量可学习的查询向量，实现多种复杂版面文档的文本行检测和分割；另外，该算法采用级联的结构迭代预测，在文本行尺度变化剧烈，密集，变形等情况下，检测结果依然非常精
确；同时该方法前向流程简单，没有复杂和繁多的传统锚点设计，具有较高的推理效率。该方法具体包括以下步骤：
53.步骤s1、预设特定数量的查询向量(query)，每个查询向量编码一条文本的检测结果，包含文本的分类置信度、矩形边界框坐标位置和文本区域的分割掩码(mask)。
54.进一步作为可选的实施方式，步骤s1包括步骤s11-s12：
55.s11、根据所使用数据集的应用场景，统计出单张图片最大可能出现的文本实例数上限，作为查询向量的个数；
56.s12、设定查询向量的维度大小，初始化查询向量所编码的文本边界框大小和位置。
57.本实施例选择500个查询向量，每个查询向量设定256维，初始化查询向量为输入全图大小，即每个查询向量所表示的文本边界框为输入全图大小。文本分类置信度使用1维向量表示，矩形坐标位置使用4维向量表示，分别代表文本边界框中心点坐标(x,y)位置和宽(w)、高(h)偏移量，文本分割区域掩码使用40维向量表示，代表文本区域掩码的主成分特征，再根据预先使用主成分分析方法(pca)在coco目标检测数据集中物体掩码(mask)得到的统计特征，来还原二维文本区域掩码。
58.步骤s2、利用神经网络对包含文本的图片进行特征提取，通过感兴趣区域池化对齐机制(roialign)映射每个query对应的文本区域高维特征向量。
59.进一步作为可选的实施方式，步骤s2包括步骤s21-s22：
60.s21、利用常见的主干神经网络模型对原始包含文本的图片进行特征提取，并使用特征融合模块进行多尺度特征融合；
61.s22、结合查询向量所编码的文本块大小和位置，通过感兴趣区域池化对齐机制roialign机制，映射得到每个query所编码的文本边界框对应的文本区域高维特征向量。
62.本实施例采用常见的残差连接主干网络resnet50，提取包含文本图片的多层级特征，再使用常见的金字塔特征融合模块fpn进行多层级特征融合。结合每个查询向量所编码的文本块大小和位置，通过感兴趣区域池化对齐机制roialign机制，映射得到每个query所编码的文本边界框对应的文本区域高维特征向量，维度大小为常见的7x7x256。
63.步骤s3、利用基于自注意力机制的编码器(transformer)对query进一步编码得到加强查询向量。
64.具体地，利用常见的包含自注意力机制的transformer encoder模块，将每个查询向量作为一个token，输入到transformer encoder模块中，对所有查询向量进行多次自注意力编码，增加每个查询向量关注图片中不同实例的能力，得到特征更丰富的加强查询向量。
65.本实施例采用常见的自注意机制的编码器transformer encoder一层，将每个query作为一个token输入，总共500个token进行自注意力编码，得到特征更丰富的加强查询向量。
66.步骤s4、构建基于动态卷积的解码器，将加强查询向量(query)与步骤s2中得到的文本区域高维特征向量进行联合解码，输入到共享的多层全连接感知器(mlp)，解析得到每个query所编码的文本检测结果。
67.具体地，构建基于动态卷积的解码器，使用全连接层扩展查询向量的维度，将查询
向量query对应的文本区域高维特征，与查询向量进行特征融合，融合后的特征输入到共享的多层全连接感知器(mlp)，解析得到每个query所编码的文本检测结果，包括文本分类的置信度，矩形边界框坐标位置和文本区域的分割掩码(mask)。
68.本实施例中构建的基于动态卷积的解码器，首先使用一个全连接层扩展查询向量的维度，将256维扩展到32768维，再将32768维向量转换成两个256x64的向量，将查询向量query对应的文本区域高维特征7x7x256，依次与上述两个256x64的向量进行点积相乘融合特征，融合后的特征输入最后的全连接转换维度，生成最终的融合特征，500x256，代表500个256维的查询向量，然后通过共享的3层全连接感知器(mlp)，解析得到每个query所编码的文本检测结果，包括文本分类的1维向量置信度，矩形边界框坐标位置4维向量和文本区域的分割掩码(mask)40维向量。
69.步骤s5、重复步骤s2到步骤s4若干次，迭代得到更准确的文本检测结果，在训练阶段中，每次重复过程使用基于集合预测的二分图匹配机制，对检测结果和标注真实值计算损失优化神经网络模型，在测试阶段将最后重复过程的输出作为最终结果。
70.本实施例中重复迭代6次。训练阶段中，使用focal loss计算文本分类损失，使用smooth l1和giou计算矩形边界框坐标位置损失，将检测结果和标注真实值三个损失相加构成损失矩阵，进行二分图匹配计算求出最大匹配，利用上述三个损失优化神经网络模型。在测试阶段，最后一次重复迭代可以使用多边形边界框非极大值抑制(polynms)后处理进一步去除冗余检测边界框，从而优化结果。
71.本实施例分别在scut-hccdoc、mthv2、msra-td500等数据集上验证，均取得较好性能，部分图片如图3、图4和图5所示。其中scut-hccdoc主要为手写文档数据集，训练集包含9801张图片，测试集包含2452张图片。mthv2主要为古籍印刷体文档数据集，训练集包含2400张图片，测试集包含800张图片。msra-td500为自然场景文本数据集，训练集包含300张图片，测试集包含200张图片。
72.综上所述，本实施例方法相对于现有技术，具有如下优点和有益效果：
73.本实施例提供的方法只需要少量可学习的查询向量，实现多种复杂版面文档的文本行检测和分割。该方法采用级联的结构迭代预测，在文本行尺度变化剧烈，密集，变形等情况下，检测结果依然非常精确。对于机器自动化提取、分析、理解文档内容信息有重大的作用和意义。
74.本实施例还提供一种基于集合预测的文本检测系统，包括：
75.数据预设模块，用于预设查询向量，每个所述查询向量编码一条文本的检测结果，所述检测结果包括文本的分类置信度、矩形边界框坐标位置以及文本区域的分割掩码；
76.特征映射模块，用于利用神经网络对包含文本的图片进行特征提取，通过感兴趣区域池化对齐机制映射每个所述查询向量对应的文本区域高维特征向量；
77.向量编码模块，用于对查询向量进一步编码，获得加强查询向量；
78.联合解码模块，用于构建基于动态卷积的解码器，将所述加强查询向量与所述文本区域高维特征向量进行联合解码，输入到共享的多层全连接感知器，解析获得每个查询向量所编码的文本检测结果；
79.迭代训练模块，用于由特征映射模块、向量编码模块和联合解码模块重复执行若干次，迭代得到更准确的文本检测结果，在训练阶段中，每次重复过程，对检测结果和标注
真实值计算损失优化神经网络模型，在测试阶段将最后重复过程的输出作为最终结果。
80.本实施例的一种基于集合预测的文本检测系统，可执行本发明方法实施例所提供的一种基于集合预测的文本检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。
81.本实施例还提供一种基于集合预测的文本检测装置，包括：
82.至少一个处理器；
83.至少一个存储器，用于存储至少一个程序；
84.当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。
85.本实施例的一种基于集合预测的文本检测装置，可执行本发明方法实施例所提供的一种基于集合预测的文本检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。
86.本技术实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。
87.本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于集合预测的文本检测方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。
88.在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
89.此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
90.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
91.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
92.计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
93.应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
94.在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
95.尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。
96.以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：集合特征提取方法、装置、电子设备及存储介质

一种基于集合预测的文本检测方法、系统、装置及介质

相关文献

最热文献