一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于OCR技术的文件档案防伪识别方法与流程

2022-08-28 04:59:25 来源:中国专利 TAG:

一种基于ocr技术的文件档案防伪识别方法
技术领域
1.本发明涉及文件管理技术领域,尤其涉及一种基于ocr技术的文件档案防伪识别方法。


背景技术:

2.随着科技的进步、社会的发展,文件档案的假冒伪造活动也日益猖獗,文档的防伪技术成为了保护文件档案真实性、完整性的主要手段,当前主流的防伪技术主要为暗记水印防伪、材料防伪、标签数码防伪等防伪技术,主要技术手段为在文档原有基础上印刷或标贴防伪技术进行防伪,虽然可以实现文档防伪,但或多或少也有如下诸多不足:1、材料防伪原料成本较高,暗记水印与标签数码防伪需要在原有文档上增加暗记或粘贴标签,部分工作需要人工处理,效率较低且成本较高;2、暗记水印与标签数码防伪存在影响文档图文原貌的风险且出现失误后难以修改,影响文档阅读体验;3、隐形码、标签等防伪方式需要专属类设备且由专业人员使用进行防伪工作。


技术实现要素:

3.本发明要解决的技术问题是提供一种基于ocr技术的文件档案防伪识别方法,能够保持文档原有特征的真实性和完整性,在文件档案外借或流转后能够快速实现文档防伪识别的方法。
4.为解决上述技术问题,本发明采用的技术方案是:一种基于ocr技术的文件档案防伪识别方法,包括文件档案防伪特征生成步骤和文件档案防伪识别步骤,所述文件档案防伪特征生成步骤包括:a.1、扫描文件档案形成相应的电子文件档案;a.2、对电子文件档案进行ocr处理形成黑白点阵图像文件,然后提取黑白点阵图像文件中档案图形特征和手写图形特征中的至少一种,建立图形特征;a.3、将黑白点阵图像文件转换为可编辑的电子文本格式并经校对后得到电子文本文档;a.4、将电子文件档案、图形特征和电子文本文档相组合生成当前文件档案的防伪特征组合;所述文件档案防伪识别步骤包括:b.1、外借或流转的文件档案入库后,对文件档案进行扫描得到待防伪验证电子文件档案,如发现损坏或缺页则报警处理,否则进入下一步骤;b.2、重复步骤a.2-a.4得到当前待防伪验证电子文件档案的防伪特征组合,随机或者全部对当前待防伪验证电子文件档案的防伪特征组合与数据库中对应电子文件档案的防伪特征组合进行比对,如果对比通过则进入归档入库流程,否则进行报警。
5.进一步的,在a.2中,通过提取黑白点阵特征结合文字字形、字符、字体以及印刷文字的颜色变化提取档案图形特征以及手写图形特征。
6.进一步的,a.4中的防伪特征组合包括特征点、特征链、特征网和特征树中的一种或多种。
7.进一步的,以电子图形文档为对比参照物,综合对比图形特征、电子文本文档信
息,以单一文字为基本单元,为电子图形文档中的文字与电子图形文档、图形特征和电子文本文档中的相应点特征相结合形成特征点,所述相应点特征包括形状、颜色、位置、手写图形、文字内容以及印刷颜色深浅中一种或多种。
8.进一步的,将整段文字的特征点与相应链特征相结合形成特征链,所述相应链特征包括版式、布局、位置中的一种或多种。
9.进一步的,将整页文字中的特征链和特征点相结合形成特征网。
10.进一步的,将电子图形文档中所有页面中的特征网相结合形成特征树。
11.进一步的,所述随机防伪识别包括对需防伪验证文件档案的每一页内容随机选择若干文字、单段文字与数据库中对应电子文件档案的防伪特征组合进行防伪验证;所述重点防伪识别包括对需防伪验证文件档案的每页内容摘选部分重点内容与数据库中对应电子文件档案的防伪特征组合进行防伪验证,所述重点内容包括文字、词语、段落、页面中的一种或多种;所述全文防伪识别包括对需防伪验证文件档案中所有页面的文字、段落、页面与数据库中对应电子文件档案的防伪特征组合进行防伪验证。
12.本发明的有益效果是:1、在保存原有文档特征情况下,实现了整套文档全方位立体式的防伪、识别,提高了文档的安全性与完整性,有利于文档的存储和管理。2、通过严谨而全面的无附加操作的文档防伪特征生成方法,将防伪特征的建立由手工操作变为了智能化处理,减少了人工操作的失误以及意外性,降低了人工成本,提高了文档防伪识别的管理效率。3、多种功能整合到一起,无需添加其他操作设备即可完成文档防伪识别工作。
13.下面结合附图对本发明进行详细说明。
附图说明
14.图1是本发明中文件档案防伪特征生成步骤的流程图;图2是本发明中生成文字原始特征的流程图;图3是本发明中防伪特征组合的结构示意图;图4是本发明中文件档案防伪识别步骤的流程图。
具体实施方式
15.本发明提供了一种基于ocr技术的文件档案防伪识别方法,其包括文件档案防伪特征生成步骤和文件档案防伪识别步骤。
16.参见附图1,上述的文件档案防伪特征生成步骤包括。
[0017] a.1、通过扫描设备(如扫描仪、高拍仪等)扫描纸质的文件档案,形成相应的电子文件档案。
[0018]
在此过程中需要通过排序、合成等方式生成图片性质的电子图形文档。如果文档页数不完整,则需要补充缺页的文档使完整。
[0019] a.2、对扫描得到的电子文件档案进行ocr处理,通过光学检测等方式将图形文档中字符的光暗变化转换为黑白点阵图像文件。
[0020]
提取黑白点阵图像文件中档案图形特征和手写图形特征中的至少一种,从而建立图形特征。具体地,通过提取黑白点阵特征结合文字字形、字符、字体以及印刷文字的颜色变化提取档案图形特征以及手写图形特征。
[0021]
具体地,如图2所示,提取档案图形特征以及手写图形特征包括以下步骤:(1)、将ocr扫描电子文件档案生成黑白点阵图像文件,然后开始生成防伪特征。(2)、通过图像增强、去除模糊和光线校正的方式抓取特征。(3)、通过抓取点阵透视特征、点阵叠加特征、点阵扭曲特征和点阵变形特征,合成几何特征。通过抓取黑白点阵主畸变特征合成畸变特征。(4)、几何特征和畸变特征,合成具有独特性、唯一性的文字原始特征。将文字原始特征结合文字字形、字符、字体以及印刷文字的颜色变化等文字特征提取档案图形特征(如表格、图表、图像等)以及手写图形特征(如手写的签名、批注等),随后存储至数据库中。
[0022]
a.3、将黑白点阵图像文件转换为可编辑的电子文本格式并经校对后得到电子文本文档。
[0023]
在此步骤中转换为可编辑的电子文本后需要对可编辑的电子文本进行人工校对,以保证文本信息正确。
[0024]
a.4、将电子文件档案、图形特征和电子文本文档相组合生成当前文件档案的防伪特征组合。
[0025]
参见附图3,防伪特征组合包括特征点、特征链、特征网和特征树中的一种或多种。
[0026]
以电子图形文档为对比参照物,综合对比图形特征、电子文本文档信息,以单一文字为基本单元,为电子图形文档中的文字与电子图形文档、图形特征和电子文本文档中的相应点特征相结合形成特征点。相应点特征包括形状、颜色、位置、手写图形、文字内容以及印刷颜色深浅中一种或多种。对于单一文字特征,其所对应的点特征不局限于单一特征,还可以有多个特征。
[0027]
将整段文字的特征点与相应链特征相结合形成特征链。相应链特征包括版式、布局、位置中的一种或多种。
[0028]
将整页文字中的特征链和特征点相结合形成特征网。
[0029]
将电子图形文档中所有页面中的特征网相结合形成特征树,从而形成以文字为防伪基本单元的综合性立体式档案防伪特征树。
[0030]
重复上述的步骤,对各需要进行防伪识别的文件档案生成对应的防伪特征组合,然后将防伪特征组合与文件档案信息相绑定并存储至数据库中待进行防伪验证时使用。
[0031]
参见附图4,上述的文件档案防伪识别步骤包括:b.1、外借或流转的文件档案入库后,对文件档案通过扫描设备进行扫描形成电子文件档案,在扫描过程中如发现损坏或缺页则报警处理,否则进入下一步骤b.2。损坏或缺页的文件档案需要交由人工处理使得文件档案完整,随后再次扫描得到电子文件档案。
[0032]
在进行扫描前进行防伪识别模式选择,所述防伪识别模式包括随机防伪识别、重点防伪识别和全文防伪识别。
[0033]
随机防伪识别包括对需防伪验证文件档案的每一页内容随机选择若干文字、单段文字与数据库中对应电子文件档案的防伪特征组合进行防伪验证。
[0034]
重点防伪识别包括对需防伪验证文件档案的每页内容摘选部分重点内容与数据库中对应电子文件档案的防伪特征组合进行防伪验证。所述重点内容包括文字、词语、段落、页面中的一种或多种。
[0035]
全文防伪识别包括对需防伪验证文件档案中所有页面的文字、段落、页面(即需防伪验证文件档案的防伪特征组合中的所有防伪特征)与数据库中对应电子文件档案的防伪
特征组合进行防伪验证。
[0036] b.2、将步骤b.1得到的电子文件档案重复步骤a.2-a.4得到当前待防伪验证电子文件档案的防伪特征组合。根据所选择的防伪识别模式随机或者全部对当前待防伪验证电子文件档案的防伪特征组合与数据库中对应电子文件档案的防伪特征组合进行比对从而进行防伪识别,如果对比通过则进入归档入库流程,否则进行报警并交由工作人员进行处理。
[0037]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献