一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种兼容性好的电子文件元数据采集工具及方法与流程

2022-04-20 22:02:47 来源:中国专利 TAG:
一种兼容性好的电子文件元数据采集工具及方法与流程

本发明涉及数据采集技术领域,具体为一种兼容性好的电子文件元数据采集工具及方法。

背景技术

元数据是描述文件背景、内容、结构及其整个管理过程的数据。不同于传统意义上的著录,元数据内涵更丰富,功能更全面,要求更严格,不可能由档案管理人员在文件归档后进行著录,更不可能由形成机构文件管理人员或业务人员手工录入。元数据需要全程规划,需要嵌入系统,需要实时自动采集,需要真实、动态地再现电子文件管理的背景信息及过程信息。实现元数据自动采集,是元数据自身管理的要求,也是形成机构实际业务的需求。

在数据共享平台中,元数据的准确性会直接影响用户对其所需数据的定位速度,而让用户快速定位到所需数据是数据共享平台最基本的服务要求,因此对元数据的准确性要求较高。传统的元数据提取方法多为自下而上的方法,一般从数据(譬如公布于网上的大量科技文献)所在的网页入手,通过对数据进行语法分析、提取、汇总、统计、挖掘或机器学习,形成最终的元数据。此类方法无法保证最终所提取元数据的准确性,且所获得的元数据格式不能被数据读取器兼容。



技术实现要素:

针对现有技术的不足,本发明提供了一种兼容性好的电子文件元数据采集工具及方法,具备兼容性好的优点。

技术方案

为实现上述目的,本发明提供如下技术方案:一种兼容性好的电子文件元数据采集工具,包括原始电子文件、单片机、数据处理中心和元数据库,所述单片机的输出端与数据处理中心的输入端电性连接,所述数据处理中心的输出端与元数据库的输入端电性连接。

优选的,所述数据处理中心的内部设置有编码识别器,所述数据处理中心与人工PC端连接,所述数据处理中心的内部设置有数据自动采集器,所述数据自动采集器根据相应的文件读取规则对电子文件中的数据信息进行读取。

优选的,所述元数据库的内部设置有数据处理器,所述元数据库与管理员的PC端连接,所述元数据库的输出端连接有新数据库。

优选的,所述新数据库的输出端连接有OA服务器,所述OA服务器并联有EDS加密服务器,所述新数据库通过4G信号与互联网信号连接。

本发明要解决的另一技术问题是提供一种兼容性好的电子文件元数据采集方法,包括以下步骤:

S1:了解原始电子文件的格式和属性,利用单片机的数据处理能力对不同格式的文件分为可识别源文件和不可识别源文件两类,单片机将两类文件传输给数据处理中心。

S2:对于可识别源文件的数据首先获取目标数据的布局结构,之后根据公认确定的文件读取规则对目标数据进行定位读取。

S3:对于不可识别源文件的文件,根据兼容性分为兼容性较高和较差的两种源文件,对兼容性较高的源文件,需要在人工PC端安装相应的软件或硬件,之后建立相应的数据提取规则对目标数据进行提取,对于兼容性较差的源文件,需要触发人工介入,由工程师编写相应的转换工具进行读取。

S4:数据处理中心将S2和S3中读取的数据,以通用的格式进行保存,再传输到元数据库中进行储存。

S5:元数据库中的数据处理器对数据进行整理,首先将梳理分为准确数据、冗余数据和错误数据三种,对于准确数据将直接接输入到新数据库中,对于冗余数据数据处理器对其进行重置标定,然后将冗余数据中有标定的数据筛出,将剩余的数据输入到新数据库中,对于错误数据,则需管理员介入后,确定错误数据中的正确项与错误项,然后由管理员对错误数据进行修改,再输入到新数据库中。

S6:EDS加密服务器对新数据中的数据进行加密保护,企业中的部门可以从OA服务器对新数据库中的所有数据进行加密下载,新数据库中的所有数据均可在客户端通过互联网进行加密下载。

有益效果

与现有技术相比,本发明提供了一种兼容性好的电子文件元数据采集工具及方法,具备以下有益效果:

1、该兼容性好的电子文件元数据采集工具及方法,通过对所有电子文件进行分类处理,对兼容性较高的源文件,需要在人工PC端安装相应的软件或硬件,之后建立相应的数据提取规则对目标数据进行提取,对于兼容性较差的源文件,需要触发人工介入,由工程师编写相应的转换工具进行读取,以通用的格式进行保存,再传输到元数据库中进行储存,提高了所有元数据的兼容性,方便进行读取。

2、该兼容性好的电子文件元数据采集工具及方法,通过数据处理器对数据进行整理,将梳理分为准确数据、冗余数据和错误数据三种,对于准确数据将直接接输入到新数据库中,对于冗余数据数据处理器对其进行重置标定,然后将冗余数据中有标定的数据筛出,将剩余的数据输入到新数据库中,对于错误数据,则需管理员介入后,确定错误数据中的正确项与错误项,然后由管理员对错误数据进行修改,再输入到新数据库中,有效的提高了所有元数据的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的元数据采集方法流程图;

图2为本发明的提取规则建立流程图;

图3为本发明的元数据库内数据整理流程图;

图4为本发明的数据加密分析流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1-4,本发明提供:一种兼容性好的电子文件元数据采集工具包括原始电子文件、单片机、数据处理中心和元数据库,单片机的输出端与数据处理中心的输入端电性连接,数据处理中心的输出端与元数据库的输入端电性连接,数据处理中心的内部设置有编码识别器,数据处理中心与人工PC端连接,数据处理中心的内部设置有数据自动采集器,数据自动采集器根据相应的文件读取规则对电子文件中的数据信息进行读取,元数据库的内部设置有数据处理器,元数据库与管理员的PC端连接,元数据库的输出端连接有新数据库,新数据库的输出端连接有OA服务器,OA服务器并联有EDS加密服务器,新数据库通过4G信号与互联网信号连接,对于安装加密以后的环境,凡是需要外出办公的笔记本电脑可以设置离线授权,控制该笔记本电脑在脱离环境多长时间内可以使用,超过时间,文件打开乱码,无法使用,凡是安装加密以后,能够全面防止企业信息泄密,对其产生的敏感数据泄露管控、核心数据加密防护,同时能够根据企业的实际需求,对企业文件加密以后,对文件进行备份,其备份的文件也可以根据企业的需求是备份为明文或者密文。

一种兼容性好的电子文件元数据采集方法,包括以下步骤:

S1:了解原始电子文件的格式和属性,利用单片机的数据处理能力对不同格式的文件分为可识别源文件和不可识别源文件两类,单片机将两类文件传输给数据处理中心。

S2:对于可识别源文件的数据首先获取目标数据的布局结构,之后根据公认确定的文件读取规则对目标数据进行定位读取。

S3:对于不可识别源文件的文件,根据兼容性分为兼容性较高和较差的两种源文件,对兼容性较高的源文件,需要在人工PC端安装相应的软件或硬件,之后建立相应的数据提取规则对目标数据进行提取,对于兼容性较差的源文件,需要触发人工介入,由工程师编写相应的转换工具进行读取。

S4:数据处理中心将S2和S3中读取的数据,以通用的格式进行保存,再传输到元数据库中进行储存。

S5:元数据库中的数据处理器对数据进行整理,首先将梳理分为准确数据、冗余数据和错误数据三种,对于准确数据将直接接输入到新数据库中,对于冗余数据数据处理器对其进行重置标定,然后将冗余数据中有标定的数据筛出,将剩余的数据输入到新数据库中,对于错误数据,则需管理员介入后,确定错误数据中的正确项与错误项,然后由管理员对错误数据进行修改,再输入到新数据库中。

S6:EDS加密服务器对新数据中的数据进行加密保护,企业中的部门可以从OA服务器对新数据库中的所有数据进行加密下载,新数据库中的所有数据均可在客户端通过互联网进行加密下载。

S2和S3中的数据提取规则基于档案管理的基本原则和基于电子文件的管理规则,具体包括来源原则,有机关联原则和前端控制原则;S5中的冗余数据可能含有数据项指标类似但含义不同的数据,在标定冗余数据时,需要在原始电子文件中确定,哪些数据是基础数据,哪些是摘抄来的数据,对于后者可标定为冗余数据。

元数据采集虽然通过对电子文件信息加以采集、提炼、分析和组织,揭示文件、档案的内容及其产生规律,但是仍然以尊重档案的本质属性和规律为前提,在采集时注重体现电子文件来源,使机构中同一来源的电子文件通过元数据采集得到集中反映,使元数据与档案的来源相联系,以此通过元数据揭示同一来源的档案、文件之间的各种联系,为档案、文件的理解与利用提供来源方面的背景信息;有机联系原则也是档案管理的基本原则,是指系统中文件及组成系统的诸要素之间需保持时空上的相互联系。由于电子文件是以二进制代码的形式分散存在于计算机之中,因此保持文件之间的有机联系显得尤为重要,而要保持这种有机联系,必须依赖于元数据;就元数据采集来说,在已经建立了电子文件管理系统的机构,电子文件在系统中生成、运转,电子文件元数据采集的前端“超前”至系统的设计阶段,前端控制的形式也部分转移到系统功能的设计之中,即尽可能地把文件生命周期各个阶段的元数据需求设计在系统之中,以功能合理的OA系统作为管好电子文件的先决条件。

了解原始数据属性及对应的指标的确切含义。这是采集原始数据的基础。一些数据指标经历了不断调整的过程,因此,必须首先了解原始数据的属性、结构、准确含义、包含的范围以及前后时间阶段的调整关系,确定所需要的数据项和数据提取原则。

数据整理是数据预处理过程中最花费时间,但也是最为关键的步骤,一般情况下,获取的原始数据都会有各类问题或缺陷,在下一步处理之前必须进行整理,数据冗余表现为在一个时间段或一个数据序列内,出现指标含义相同、数据相同的数据项,或是指标名称不同但含义相同、数据相同的数据项,但是要特别注意的是,冗余数据中可能含有数据项指标类似但含义不同的数据,在标定冗余数据时,一般需要在一套报表或原始数据库中确定,哪些数据是基础数据,哪些是摘抄来的数据,对于后者可标定为冗余数据。

数据错误,对于此类错误,关键是要找出平衡关系中错误的数据项加以修改,一般情况下,以一套报表中的其他报表或同时期的其他数据作参考,首先确定正确的数据项和错误数据项的位置,例如确定是合计数据错误还是分项数据错误,然后,通过倒推的方法,确定数据平衡关系中错误数据应有的值加以改正,实际操作中,这种做法要慎之又慎,每一步都要留有记录供随时回到上一步状态,以免引起更大错误出现,因此需要管理员介入。

软件环境中会包含有大量的逻辑审核公式,如原有的软件环境仍可重建,电子类数据缺失补充或错误改正应在原系统中进行,这样可以有效地减少工作量并提高数据准确性,对于纸质类数据,也可借助计算机电子表格类软件,在其中建立对应逻辑审核关系,将纸质数据输入到计算机中进行审核、修改,这样可大大提高效率,如果数据有误,整理出来的档案数据便失去了使用价值或引起负面作用,对删除、修改、估算的数据必须作备注说明,建立数据修改档案以备查用。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献