一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于ObiBert的甲骨文自动缀合校验方法与流程

2022-02-21 04:30:41 来源:中国专利 TAG:

一种基于obibert的甲骨文自动缀合校验方法
技术领域
1.本发明属于甲骨文技术领域,具体涉及一种基于obibert的甲骨文自动缀合校验方法。


背景技术:

2.甲骨文是中华民族的瑰宝,具有重要的历史价值和科学研究意义。但是甲骨文由于其文物特性和历史、材质等原因往往以碎片形式存在,将这些甲骨文碎片正确地拼接在一起称为甲骨文缀合。实际的甲骨文研究中,研究对象是甲骨文照片、拓片等图像而不是甲骨文实物。传统的甲骨文缀合研究是甲骨文专家通过收集甲骨片图像、复印、裁剪、拼接、校对等步骤完成,只有具备极其深厚的研究积累和缀合经验的专家才能胜任。这极大地阻碍了现代甲骨文研究的进展。自从计算机技术引入甲骨文研究中以来,在很大程度上促进了甲骨文缀合研究的发展,如基于图像处理技术可以实现基于边缘和轮廓的甲骨文碎片自动缀合。但是新的问题是:甲骨文碎片的边缘及轮廓之间并非是严丝合缝的,由于甲骨文材质的磨损以及细小碎片的存在,使得计算机的甲骨碎片自动缀合(以下简称自动缀合)出现大量的候选结果,显然单单使用图像处理技术不足以胜任甲骨片缀合的研究工作。


技术实现要素:

3.为解决现有技术存在的缺陷,本发明提供一种基于obibert的甲骨文自动缀合校验方法。以期结合甲骨文释文文本从计算机自动缀合的候选结果中筛选出概率最大的可选项,即提出一种判断甲骨文碎片自动缀合结果是否正确的方法。
4.为了解决上述技术问题,本发明提供了如下的技术方案:
5.本发明提供一种基于obibert的甲骨文自动缀合校验方法,包括以下步骤:
6.s1、收集大量甲骨文的释文文本,构建甲骨文bert语料;
7.s2、将甲骨文bert语料中的甲骨文释文文本进行向量化,形成加和向量,得到obibert神经网络模型,具体包括token嵌入、文本嵌入和位置嵌入混合加和;
8.s3、然后将缀合后的甲骨片上的甲骨文释文文本,通过obibert的nsp模型来判断甲骨文碎片自动缀合的结果是否正确;判断方法包括以下步骤:提取自动缀合后的任意两片甲骨上的释文前后衔接得到两句话作为输入,nsp模型添加标记符号并将对应的输出作为释文文本的语义表示,同时对输入的两句话用一个分割符号进行分割,并分别对两句话附加两个不同的释文文本向量以作区分;如模型的输出为正确,则表示两片甲骨的缀合是正确的;若模型的输出为错误,则表示两片甲骨的缀合是错误的。
9.作为本发明的一种优选技术方案,步骤s1具体包括以下步骤:
10.s11、将获取的甲骨文的释文文本按照字符进行间隔,即一个甲骨字就分成一个词,且去掉释文文本中的标点符号,符合甲骨文原文本身没有句读符号的特点;
11.s12、构造词典,统计甲骨字的频率,并根据频率将每个甲骨字表示为一个整数id,并记录甲骨字与id之间的映射关系;
12.s13、按语序将甲骨文的释文文本表示为id序列;
13.s14、利用word2vec的cbow神经网络模型对甲骨文释文文本语料进行训练,采用一个大小为3的滑动窗口扫描语料,在每个窗口内,通过上下文预测中心词,并形成训练数据;
14.s15、训练完成后获得一个参数矩阵,该矩阵的每一行就是词典中对应甲骨字的字向量,行数为词典的大小。
15.作为本发明的一种优选技术方案,还包括以下步骤:
16.s4、步骤s3中如果缀合的两片被判断为是正确的,则将其作为一个整体,再与其相邻的甲骨片进行组合,重复步骤s3直至自动缀合的结果中所有片均判断为正确为止,或者保留其最多的正确缀合片数组合作为最终缀合结果。
17.作为本发明的一种优选技术方案,还包括以下步骤:
18.s5、步骤s3中如果缀合的两片被判断为是错误的,则保留其中任一片,另外选择一片与其相邻的甲骨片进行组合,重复步骤s3、s4,直至自动缀合的结果中所有片均判断为正确为止,或者保留其最多的正确缀合片数组合作为最终缀合结果。
19.作为本发明的一种优选技术方案,token嵌入用于建立甲骨文的字向量,即将甲骨文释文句子中的每个甲骨字作为一个分割单元,然后将这些token转换为固定维度的向量表示形式;用[cls]符号标记token的起始;用[sep]符号标记token的结束;考虑到甲骨文的特殊性,用[c]表示残缺或模糊不可识别的甲骨字;用[un](其中n=1,2,3...)表示暂时还不认识的甲骨字。
[0020]
作为本发明的一种优选技术方案,文本嵌入是针对甲骨文释文句子对的操作;具体实现是:用索引0和1构成向量来表示不同的甲骨文释文句子,即将0赋值给第一个句子的所有token,从而构成第一个向量;将1赋值给第二个句子的所有token,从而构成第二个向量;如果只有一个输入句子,则其文本嵌入为所有索引均为0的向量。
[0021]
作为本发明的一种优选技术方案,位置嵌入是在甲骨文释文句子中各个位置上学习一个向量表示来处理文本序列信息;同一个甲骨字在不同的位置出现,用不同的向量表示;具体实现是:设计一个大小合适的查找表,其中第一行是第一个位置上的任意甲骨字的向量表示,第二行是第二个位置上的任意甲骨字的向量表示,依此类推。
[0022]
作为本发明的一种优选技术方案,nsp即为next sentence prediction,nsp的任务是:预测句子b是否是句子a的下一句,nsp的目的是获取句子间的信息。
[0023]
本发明相较于现有技术,具有以下有益效果:
[0024]
本发明通过甲骨文bert语料判断甲骨文碎片自动缀合的结果是否正确,以期结合甲骨文释文文本从计算机自动缀合的候选结果中筛选出概率最大的可选项,即提出一种判断甲骨文碎片自动缀合结果是否正确的方法,进一步提高甲骨文的应用。
附图说明
[0025]
图1是本发明一种基于obibert的甲骨文自动缀合校验方法的工作图。
具体实施方式
[0026]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0027]
实施例1
[0028]
为了达到本发明的目的,如图1所示,在本发明的其中一种实施方式中提供一种基于obibert的甲骨文自动缀合校验方法,包括以下步骤:
[0029]
s1、收集大量甲骨文的释文文本,构建甲骨文bert语料。具体包括以下步骤:
[0030]
s11、将获取的甲骨文的释文文本按照字符进行间隔,即一个甲骨字就分成一个词,且去掉释文文本中的标点符号,符合甲骨文原文本身没有句读符号的特点;
[0031]
s12、构造词典,统计甲骨字的频率,并根据频率将每个甲骨字表示为一个整数id,并记录甲骨字与id之间的映射关系;
[0032]
s13、按语序将甲骨文的释文文本表示为id序列;
[0033]
s14、利用word2vec的cbow神经网络模型对甲骨文释文文本语料进行训练,采用一个大小为3的滑动窗口扫描语料,在每个窗口内,通过上下文预测中心词,并形成训练数据;
[0034]
s15、训练完成后获得一个参数矩阵,该矩阵的每一行就是词典中对应甲骨字的字向量,行数为词典的大小。
[0035]
s2、将甲骨文bert语料中的甲骨文释文文本进行向量化,形成加和向量,得到obibert神经网络模型,具体包括token嵌入、文本嵌入和位置嵌入混合加和。
[0036]
具体的,token嵌入用于建立甲骨文的字向量,即将甲骨文释文句子中的每个甲骨字作为一个分割单元,然后将这些token转换为固定维度的向量表示形式;用[cls]符号标记token的起始;用[sep]符号标记token的结束;考虑到甲骨文的特殊性,用[c]表示残缺或模糊不可识别的甲骨字;用[un](其中n=1,2,3...)表示暂时还不认识的甲骨字。
[0037]
具体的,文本嵌入是针对甲骨文释文句子对的操作;具体实现是:用索引0和1构成向量来表示不同的甲骨文释文句子,即将0赋值给第一个句子的所有token,从而构成第一个向量;将1赋值给第二个句子的所有token,从而构成第二个向量;如果只有一个输入句子,则其文本嵌入为所有索引均为0的向量。
[0038]
具体的,位置嵌入是在甲骨文释文句子中各个位置上学习一个向量表示来处理文本序列信息;同一个甲骨字在不同的位置出现,用不同的向量表示;具体实现是:设计一个大小合适的查找表,其中第一行是第一个位置上的任意甲骨字的向量表示,第二行是第二个位置上的任意甲骨字的向量表示,依此类推。
[0039]
s3、然后将缀合后的甲骨片上的甲骨文释文文本,通过obibert的nsp模型来判断甲骨文碎片自动缀合的结果是否正确;判断方法包括以下步骤:提取自动缀合后的任意两片甲骨上的释文前后衔接得到两句话作为输入,nsp模型添加标记符号并将对应的输出作为释文文本的语义表示,同时对输入的两句话用一个分割符号进行分割,并分别对两句话附加两个不同的释文文本向量以作区分;如模型的输出为正确,则表示两片甲骨的缀合是正确的;若模型的输出为错误,则表示两片甲骨的缀合是错误的。
[0040]
其中,nsp即为next sentence prediction,nsp的任务是:预测句子b是否是句子a的下一句,nsp的目的是获取句子间的信息。
[0041]
s4、步骤s3中如果缀合的两片被判断为是正确的,则将其作为一个整体,再与其相邻的甲骨片进行组合,重复步骤s3直至自动缀合的结果中所有片均判断为正确为止,或者保留其最多的正确缀合片数组合作为最终缀合结果。
[0042]
s5、步骤s3中如果缀合的两片被判断为是错误的,则保留其中任一片,另外选择一
片与其相邻的甲骨片进行组合,重复步骤s3、s4,直至自动缀合的结果中所有片均判断为正确为止,或者保留其最多的正确缀合片数组合作为最终缀合结果。
[0043]
本发明通过甲骨文bert语料判断甲骨文碎片自动缀合的结果是否正确,以期结合甲骨文释文文本从计算机自动缀合的候选结果中筛选出概率最大的可选项,即提出一种判断甲骨文碎片自动缀合结果是否正确的方法,进一步提高甲骨文的应用。
[0044]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献