一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种半结构化数据的解析方法、系统、存储介质和设备与流程

2022-08-24 03:00:14 来源:中国专利 TAG:

技术特征:
1.一种半结构化数据的解析方法,其特征在于,包括步骤:s1:通过上传组件识别半结构化数据文件的类型和版本,并上传待解析的半结构化数据文件;s2:根据所述类型和版本,通过解析组件从预设置的解析库中获取并加载对应的可修改的脚本代码片段;s3:通过所述解析组件对所述半结构化数据文件进行解析以生成结构化数据;s4:通过数据对象组件呈现、存储并输出所述结构化数据,所述上传组件、解析组件和数据对象组件形成有向无环图。2.根据权利要求1所述的解析方法,其特征在于,步骤s1进一步包括步骤:s11:通过所述上传组件识别所述半结构化数据文件的名称、类型、版本和文件大小,根据预设置的传输阈值对所述半结构化数据文件进行分片并对各分片文件进行标识;s12:所述上传组件根据预设置的存储地址将所述各分片文件分别上传对象服务器,以使得对象服务器根据各分片文件的标识进行文件合成以获取所述半结构化数据文件。3.根据权利要求2所述的解析方法,其特征在于,步骤s12进一步包括:所述对象服务器将已合成的所述半结构化数据文件、以及未合成的各分片文件存储在所述对象服务器的临时缓存区,使得所述上传组件根据所述半结构化数据文件的名称、以及各分片文件的标识向所述对象服务器发送查询请求,以查询所述临时缓存区是否存储有所述半结构化数据文件或各分片文件,所述上传组件根据预设置的存储地址将未上传的各分片文件分别上传所述对象服务器。4.根据权利要求1所述的解析方法,其特征在于,在步骤s2之前,所述解析方法还包括:根据待解析的半结构化数据文件构建脚本代码片段并存储在所述解析库中。5.根据权利要求4所述的解析方法,其特征在于,所述脚本代码片段基于定制的解析规则设置多个解析参数,步骤s3进一步包括:所述解析组件运行所述脚本代码片段,利用所述多个解析参数实现对所述半结构化数据文件的解析。6.根据权利要求1所述的解析方法,其特征在于,所述有向无环图还包括数据清洗组件,在步骤s3之后且在步骤s4之前,所述解析方法还包括:通过数据清洗组件对所述结构化数据进行数据清洗、过滤、加工、转换和计算。7.根据权利要求1-6中任一项所述的解析方法,其特征在于,所述半结构化数据文件包括json、xml、ymal、以及dat中的任意一个;和/或所述脚本代码片段的脚本语言包括java语言、python语言、以及groovy语言中的任意一个。8.一种半结构化数据的解析系统,其特征在于,所述解析系统包括上传组件、解析组件、数据对象组件和控制器,其中,所述控制器被配置为:通过上传组件识别半结构化数据文件的类型和版本,并上传待解析的半结构化数据文件;根据所述类型和版本,通过解析组件从预设置的解析库中获取并加载对应的可修改的脚本代码片段;
通过所述解析组件对所述半结构化数据文件进行解析以生成结构化数据;通过数据对象组件呈现、存储并输出所述结构化数据,所述上传组件、解析组件和数据对象组件形成有向无环图。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。

技术总结
本发明公开了一种半结构化数据的解析方法、系统、存储介质和设备,其中一个实施例提供的解析方法包括,通过上传组件识别半结构化数据文件的类型和版本,并上传待解析的半结构化数据文件;根据类型和版本,通过解析组件从预设置的解析库中获取并加载对应的可修改的脚本代码片段;通过解析组件对半结构化数据文件进行解析以生成结构化数据;通过数据对象组件呈现、存储并输出结构化数据。本发明通过在解析半结构化数据的有向无环图中设置上传组件、解析组件和数据对象组件实现对半结构化数据的识别、解析和输出,尤其是通过解析组件中设置的可修改的脚本代码片段实现对不同的半结构化数据的解析,具备较高的灵活性,具有广泛的应用前景。的应用前景。的应用前景。


技术研发人员:时培昕 王海瑞 王伟 李丰川
受保护的技术使用者:北京寄云鼎城科技有限公司
技术研发日:2022.07.22
技术公布日:2022/8/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献