一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本区域检测方法及装置与流程

2022-05-08 05:52:00 来源:中国专利 TAG:

技术特征:
1.一种文本区域检测方法,所述方法包括:将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算;其中,所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型;所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息;检测所述待检测图像包含的文本区域;获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图,并根据所述方向偏移图为检测到的所述文本区域标记文本语序方向,以得到标记了文本语序方向的所述文本区域。2.根据权利要求1所述的方法,所述文本检测模型的学习目标还包括与所述待检测图像对应的概率图;所述概率图用于指示所述待检测图像中的各像素点位于所述文本区域的概率分布;所述检测所述待检测图像包含的文本区域,包括:获取所述文本检测模型输出的与所述待检测图像对应的概率图,并对所述概率图的概率分布中的各个概率值进行二值化处理,得到与所述待检测图像对应的二值化处理之后的概率图;根据所述二值化处理之后的概率图,检测所述待检测图像包含的文本区域。3.根据权利要求2所述的方法,所述对所述概率图的概率分布中的各个概率值进行二值化处理,得到与所述待检测图像对应的二值化处理之后的概率图,包括:根据用于针对所述概率分布中的各个概率值进行标准二值化处理的预设的固定阈值,对所述概率图的概率分布中对应于各像素点的各个概率值进行标准二值化处理,得到与所述待检测图像对应的标准二值化处理之后的概率图;其中,所述标准二值化处理,包括:分别将所述概率图的概率分布中对应于各像素点的各个概率值与所述固定阈值进行比较;如果对应于任一像素点的概率值大于所述固定阈值,则确定该像素点位于所述文本区域。4.根据权利要求2所述的方法,所述文本检测模型的学习目标还包括与所述待检测图像对应的阈值图;所述阈值图用于指示针对所述概率分布中的各个概率值进行可微分二值化处理的阈值分布;所述对所述概率图的概率分布中的各个概率值进行二值化处理,得到与所述待检测图像对应的二值化处理之后的概率图,包括:获取所述文本检测模型输出的与所述待检测图像对应的阈值图,并根据所述阈值图的阈值分布中的各个自适应阈值,分别针对所述概率图的概率分布中的各个概率值进行可微分二值化处理,得到与所述待检测图像对应的可微分二值化处理之后的概率图;其中,所述可微分二值化处理,包括:分别将所述概率图的概率分布中对应于各像素点的各个概率值与所述阈值图的阈值分布中对应于该像素点的自适应阈值进行比较;如果对应于任一像素点的概率值大于对应于该像素点的自适应阈值,则确定该像素点位于所述文本区域。5.根据权利要求3或4所述的方法,所述根据所述二值化处理之后的概率图,检测所述
待检测图像包含的文本区域,包括:根据所述二值化处理之后的概率图,将位于所述文本区域的像素点构成的区域,确定为检测到的所述待检测图像包含的文本区域。6.根据权利要求3或4所述的方法,所述文本检测模型的学习目标还包括与所述待检测图像对应的边界偏移图;所述边界偏移图用于指示所述待检测图像包含的文本区域的中心区域中的各像素点相对于所述文本区域的各边界的偏移向量;所述根据所述二值化处理之后的概率图,检测所述待检测图像包含的文本区域,包括:根据所述二值化处理之后的概率图,提取所述待检测图像包含的文本区域的中心区域;从所述文本区域的中心区域进行采样,得到若干采样点;获取所述文本检测模型输出的与所述待检测图像对应的边界偏移图,并根据所述边界偏移图中对应于所述若干采样点的偏移向量,针对所述若干采样点分别进行扩展,得到对应的若干文本区域边界点;将所述若干文本区域边界点连接起来而围成的闭合区域,确定为检测到的所述待检测图像包含的文本区域。7.根据权利要求1所述的方法,所述根据所述方向偏移图为检测到的所述文本区域标记文本语序方向,包括:根据所述方向偏移图,在检测到的所述文本区域的边界上,标记文本解析起点和文本解析方向;其中,所述文本解析起点和文本解析方向用于指示所述文本语序方向。8.根据权利要求1所述的方法,所述标记了文本语序方向的所述文本区域为不规则的文本区域;所述方法还包括:基于为不规则的所述文本区域标记的文本语序方向,生成符合所述文本语序方向的、且规则的文本区域;所述规则的文本区域用于作为文本识别模型的输入,以得到所述文本识别模型输出的所述文本区域中的文本内容。9.根据权利要求6所述的方法,所述文本检测模型的学习目标的损失函数loss为所述概率图的损失l
p
、所述可微分二值化处理之后的概率图的损失l
b
、所述阈值图的损失l
t
、所述方向偏移图的损失l
do
、与所述边界偏移图的损失l
bo
的加权之和;所述损失函数loss表示为:loss=l
p
α
×
l
b
β
×
l
t
γ
×
l
do
δ
×
l
bo
;其中,所述α、β、γ、δ分别为与所述l
b
、l
t
、l
do
、l
bo
对应的加权权重。10.根据权利要求9所述的方法,所述l
p
与所述l
b
为二元交叉熵损失函数;所述l
t
为l1损失函数;所述l
do
与所述l
bo
为smooth l1损失函数。11.根据权利要求9所述的方法,α=5,β=10,γ=1,δ=1。12.根据权利要求1所述的方法,所述待检测图像包括电子合同或电子票据对应的图像。13.根据权利要求12所述的方法,所述待检测图像包括电子合同或电子票据中的印章区域对应的图像;所述待检测图像包含的文本区域,包括所述印章区域对应的图像中包含的文本区域。
14.一种文本区域检测装置,所述装置包括:输入单元,用于将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算;其中,所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型;所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息;检测单元,用于检测所述待检测图像包含的文本区域;标记单元,用于获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图,并根据所述方向偏移图为检测到的所述文本区域标记文本语序方向,以得到标记了文本语序方向的所述文本区域。15.一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行权利要求1至13任一项所述的方法。16.一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1至13任一项所述的方法。

技术总结
本说明书实施例提供一种文本区域检测方法及装置,所述方法包括:将包含文本区域的待检测图像输入已训练完成的文本检测模型进行计算;其中,所述文本检测模型包括至少将与所述待检测图像对应的方向偏移图作为学习目标进行有监督训练得到的机器学习模型;所述方向偏移图用于指示所述待检测图像包含的文本区域中的各像素点对应的文本语序方向信息;检测所述待检测图像包含的文本区域;获取所述文本检测模型输出的与所述待检测图像对应的方向偏移图,并根据所述方向偏移图为检测到的所述文本区域标记文本语序方向,以得到标记了文本语序方向的所述文本区域。语序方向的所述文本区域。语序方向的所述文本区域。


技术研发人员:欧阳潘义 陈煜东 胡亮 朱禹轲 杨雷
受保护的技术使用者:浙江网商银行股份有限公司
技术研发日:2022.01.19
技术公布日:2022/5/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献