一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种古籍文档顺序检测方法

2022-06-22 17:25:46 来源:中国专利 TAG:

技术特征:
1.一种古籍文档顺序检测方法,其特征在于,包括:获取图像数据,基于所述图像数据进行各个字符的连接顺序标注以及整个文档的文本行顺序标注,获得训练数据集;基于所述训练数据集,通过空间几何关系构造图的邻接矩阵,构造图中各个结点的特征以及边特征,训练字符连接关系预测模型,得到将字符连接后的文本行;基于所述训练数据集,通过编码-解码的序列模型,构建并训练文本行顺序预测模型,获得文本行顺序预测结果;根据所述图像数据,基于所述训练字符连接关系预测模型和所述训练文本行顺序预测模型,获得图像数据的符合阅读顺序的文档内容。2.如权利要求1所述的古籍文档顺序检测方法,其特征在于,所述图像数据包括:手写无约束文本行数据集casia、字符排列规整古籍文档数据集tkh、单字排布多样古籍文档数据集mth;所述文本数据包括:使用文本行标注的古籍数据集。3.如权利要求2所述的古籍文档顺序检测方法,其特征在于,连续顺序标注包括:各个单字字符的下一个连接字符。4.如权利要求3所述的古籍文档顺序检测方法,其特征在于,构建训练字符连接关系预测模型包括:通过计算各个字符结点的l2距离,对于每个字符结点找到最近的8个字符结点,构造k阶子图网络,基于各个字符的几何结构,构造图的结点特征以及边特征,基于空间几何关系构造图的邻接矩阵,训练得到基于字符结点的连接关系图网络预测模型。5.如权利要求4所述的古籍文档顺序检测方法,其特征在于,构建训练字符连接关系预测模型还包括阈值,所述阈值用于判断所述图像数据能否进行训练;基于空间l2距离,构造每个结点的8邻域子图,计算节点数目的iou,当iou大于阈值则图像数据不进行训练,反之则进行训练。6.如权利要求3所述的古籍文档顺序检测方法,其特征在于,所述构造k阶子图网络中,所述结点特征为各个字符的归一化中心点坐标以及归一化的宽高;所述边特征为字符间的宽高比以及横纵坐标距离差;构造的邻接矩阵为两个字符结点满足每个字符结点的knn矩阵中的前k个结点。7.如权利要求6所述的古籍文档顺序检测方法,其特征在于,所述编码-解码的序列模型包括:基于文本行的版面坐标信息以及位置编号信息,通过transformer模型得到编码后的特征序列,通过decoder添加分类分支,预测各个时间步对应输入序列的索引,根据各个时间步的预测结果,基于交叉熵损失计算损失训练编码-解码的序列模型。8.如权利要求7所述的古籍文档顺序检测方法,其特征在于,根据数据集中的字符输入,通过字符连接关系预测模型,得到连接后的文本行输出;通过文本行的输出,利用文本行顺序预测模型,得到最终的文档顺序化输出内容。

技术总结
本发明公开了一种古籍文档顺序检测方法,包括:获取图像数据,基于图像数据进行各个字符的连接顺序标注以及整个文档的文本行顺序标注,获得训练数据集;基于训练数据集,通过空间几何关系构造图的邻接矩阵,构造图中各个结点的特征以及边特征,训练字符连接关系预测模型,得到将字符连接后的文本行;基于训练数据集,通过编码-解码的序列模型,构建并训练文本行顺序预测模型,获得文本行顺序预测结果;根据图像数据,基于训练字符连接关系预测模型和训练文本行顺序预测模型,获得图像数据的符合阅读顺序的文档内容。本发明针对密集字符型的文档图片,基于字符检测结果进行顺序检测,提出包括单字连接关系预测模型以及文本行顺序预测模型。预测模型。预测模型。


技术研发人员:马伟洪 金连文 孔宇昕
受保护的技术使用者:华南理工大学
技术研发日:2022.04.06
技术公布日:2022/6/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献