一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种海量物联网数据模型化的处理、存储与共享方法与流程

2022-02-22 03:22:59 来源:中国专利 TAG:
1.本发明涉及物联网
技术领域
:,尤其涉及一种海量物联网数据模型化的处理、存储与共享方法。
背景技术
::2.目前,随着物联网数据种类的增多和数据规模的增大,物联网数据呈现数据多源、异构等特性,数据的表达形式的多种多样性给数据管理带来难题,需要对数据通过统一的样式表达进行管理,以方便友好交互、数据共享及数据增、删、改、查等应用。同时,随着物联网数据种类的增多和数据规模的增大,数据存储成本也不断增加,这对物联网数据的存储提出了新的挑战。因此,如何存储、管理和共享这些海量物联网数据已成为亟待解决的问题。而物联网应用中非结构化物联网数据存储成本远高于轻量级的结构化数据,所以想要实现数据高效及高利用率存储,需要针对海量非结构化物联网数据的存储和处理,提供一套成熟的处理方法。技术实现要素:3.针对如何存储、管理和共享海量物联网数据,本发明公开了一种海量物联网数据模型化的处理、存储与共享方法,针对海量物联网数据建立统一数据的表达形式-物联网数据模型,改善物联网数据多源异构的问题,方便数据统一管理。本发明定义了基于物联网数据模型的海量物联网数据存储的方法,解决数据存储冗余度高、数据处理时效性差等问题,提升了数据中心存储利用率。同时本发明定义了一种物联网设备去冗余的数据存储方法,使部分利用率极低的数据在传输节点进行暂存储,缓解传输压力及数据中心存储压力,同时本发明定义了数据同步的方法。本发明通过定义的物联网设备存储和服务器存储(或云存储)应用方法,覆盖了海量数据存储的广泛应用,并通过定义减量开发的数据共享方法,实现数据共享。4.本发明将物联网数据从结构化数据、非结构化数据角度阐述。本发明公开了一种海量物联网数据模型化的处理、存储与共享方法,将物联网数据分为结构化数据和非结构化数据,将结构化数据分为传感数据和业务数据,将传感数据分为动态数据和静态数据;传感数据包括物联网设备的基本描述信息及其采集的数据,业务数据包括物联网应用系统产生的数据,非结构化数据包括视频、音频和图片等数据,动态数据为物联网设备采集的数据或与物联网设备采集的数据相关的数据,静态数据为物联网设备的基础信息。5.s1,建立物联网结构化数据模型;6.定义物联网结构化数据模型,使多源异的海量数据建立统一规范化的数据格式,改善关系型数据库存储空间浪费、重新健表问题。通过统一数据表达方式使得数据方便理解、查询,存储更规范,易于共享。7.物联网数据模型在数据存储应用层面包括属性描述和扩展描述。属性描述适用于静态数据和动态数据。扩展描述用于业务数据描述。8.在物联网结构化数据模型中,用xh代表当前记录的数据序列的唯一标识,sbid代表数据相关联的物联网设备的唯一标识,jxx代表静态信息,cpid代表某类型的数据概念模型;dxx代表动态信息;sjc代表数据产生的时间标注,bqxx代表扩展描述,用于描述设备标签信息,如设备位置等,kz代表物联网设备的扩展传输信息,如业务数据。9.类在物联网结构化数据模型中用于表达基本概念,id是一个基本概念的唯一标识,name表明类的名字,范畴属性表达的是该模型中的结构数据的基本类型,包括整数类型、浮点数类型、字符类型等;物联网结构化数据模型中的域和类属性表用于将类与范畴属性进行关联,进行关联后,类所代表的基本概念下包含范畴属性所表达的基本类型;物联网结构化数据模型中的类关系表表达的是类之间的关系,包括继承关系(蕴含关系)。10.本物联网结构化数据模型,具有数据异常事件提取功能,以滤除物联网数据采集过程中的干扰和噪声,并对物联网设备采集的数据进行过滤并分组,形成有效事件集。11.s2,建立物联网非结构化数据模型;物联网非结构化数据模型,是一种基于hbase数据库的数据模型;物联网非结构化数据模型包括映射表,映射表用于将非结构化数据对应成固定表达方式,其映射表的索引包括行关键字、列关键字和时间戳,时间戳用于标识物联网数据的更新。12.本发明定义基于hbase数据库进行存储管理的方法,同时本发明改进了一种基于hbase的非结构化数据模型,方便成体系化运行。13.s3,对物联网数据进行边缘融和处理;14.对于具有存储能力的物联网设备,通过自定义的并加载于物联网设备的软件系统或者利用物联网设备本身数据格式转换功能,进行物联网数据格式转换和边缘融和处理,对数据进行去冗余处理,在物联网设备上直接传输经格式转换的数据,对于不具备存储能力的低功耗设备,将原格式数据透传至接入服务器,利用统一脚本进行解析。15.s4,物联网设备数据进行去冗余存储;16.当前市场缺失针对物联网设备数据冗余处理存储技术的应用,本发明对具备一定数据存储服务能力的物联网设备公开了一种数据去冗余存储方法,应用于存储无需存储远端数据中心或者数据访问频次较低的数据。通过本方法实现以边缘计算应用分摊数据中心压力,以节点存储应用提供节点就近数据共享能力,减少了因物联网整体链路数据发送拥塞产生的网络延迟,进而提升数据传输效率。本方法是在数据分块和指纹管理技术基础上,对分块技术技术缺点进行了改善的一种方法。17.本去冗余存储方法采用数据分块和指纹管理技术,对于一个新的数据块,若该数据块的指纹在指纹表中没有与之相同的指纹,则该数据块的指纹为非重复数据块指纹,将该数据块的指纹插入指纹表中,若指纹表中存在与之相同的指纹,将该数据块与指纹表中相同指纹对应的数据块的循环冗余码进行比较,如果二个循环冗余码不同,判断该数据块为非重复数据块,如果二个循环冗余码相同,存储该数据块的地址指针;将指纹表保存于内存中,将非重复数据块保存于外存储器中。18.对物联网数据进行非重叠平均切块,得到若干个数据块,对每个数据块利用md5哈希算法进行计算,得到每个数据块的指纹,对每个数据块的指纹再利用md5哈希算法进行计算,得到每个数据块指纹的整数型索引值,得到每个数据块指纹的整数型索引值,数据块指纹和其对应的索引值,共同构成指纹表;19.在对指纹表做更改前,将指纹表通过映射的方式写入映射文件,将数据指纹的插入操作信息写入日志文件。20.s5,对物联网数据进行分类存储;21.将业务数据、传感数据和非结构化数据分别存储在关系型数据库、时序数据库和非关系型数据库中,对各个数据库进行统一标识,对物联网数据库的集群化管理,实现对物联网数据进行聚合与共享。对于非结构数据通过采用非结构化数据库hbase进行存储,再基于hadoop分布式文件系统对物联网数据创建索引和分布存储策略。22.s6,对各个数据库的数据进行共享;23.采用etl工具对数据库数据进行抽取和转换,并将转换后的数据加载至数据仓库,数据仓库是共享数据的存储器;利用黑板系统的方法,采用非结构化数据库hbase来建立数据仓库,数据仓库用于完成数据共享。24.运用发布-订阅模型对数据进行分发,发布-订阅模型包括消息发布者、消息订阅者和发布订阅服务器,在发布-订阅模型中,消息订阅者先注册主题,并在主题信息有变化时接收信息,当消息发布者把一条信息发送至发布订阅服务器时,服务器根据消息订阅者的注册主题与消息进行匹配比较,把信息发送给符合注册主题的消息订阅者。25.利用数据仓库,建立数据共享模型,数据共享模型包括节点、共享接口、数据复制模块、订阅数据模块、数据源和元数据管理模块;节点与共享接口相连,数据复制模块与数据源相连,数据复制模块与订阅数据模块相连,订阅数据模块与数据源相连,元数据管理模块与数据源相连;元数据管理模块用于完成元数据获取、查询、映射和etl操作;在数据共享模型中,数据仓库与每个数据库之间是通过数字仓库的接口与节点,共享对数字仓库的接口的管理,各数据库的映射接口由数据仓库和共享接口来提供,对已经形成连接的共享接口进行映射。26.在数据共享模型,作为黑板系统中的黑板出现的数据仓库与每个数据库之间是通过其数据仓库共享接口与节点共享接口的连接,实现数据重建和数据复制共享。数据复制共享通过对全局模式和节点模式之间的关系进行虚拟映射来实现。全局模式通过重新组合各节点模式的数据,形成全局模式视图。其中,数据库通过节点共享接口访问数据仓库的全局模式视图并获取数据,而当数据仓库接收到具体的数据获取请求时,全局模式视图会根据具体的数据获取请求,完成对数据库的数据抽取工作,然后将抽取来的数据转换成全局模式数据,用以提供给其他数据库获取。27.s7,对各服务器与物联网设备进行物联网数据的同步;28.利用步骤s3中的方法,对各服务器与物联网设备中的物联网数据进行边缘融和处理,在物联网终端上加载数据同步软件,对各服务器与物联网设备发布定时同步指令,启动数据同步过程,对该同步指令发布时刻前的各服务器与物联网设备中的存储器的所有存储路径下的数据进行同步,即对上次同步完成时刻与本次同步指令发布时刻之间的数据进行同步,采用hash指纹信息为基本标记的数据同步算法,同步时首先确认需要同步的数据的总长度,再对数据初始化。同步完成后,根据返回的数据指针文件,删除本次已同步的源文件。为了保证指针文件一致性,本同步过程需要从服务器下载数据的指针文件。29.本发明的有益效果为:30.本发明针对海量物联网数据建立统一数据的表达形式-物联网数据模型,改善物联网数据多源异构的问题,方便数据统一管理。本发明定义了基于物联网数据模型的海量物联网数据存储的方法,解决数据存储冗余度高、数据处理时效性差等问题,提升了数据中心存储利用率。同时本发明定义了一种物联网设备去冗余的数据存储方法,使部分利用率极低的数据在传输节点进行暂存储,缓解传输压力及数据中心存储压力,同时本发明定义了数据同步的方法。本发明通过定义的物联网设备存储和服务器存储(或云存储)应用方法,覆盖了海量数据存储的广泛应用,并通过定义减量开发的数据共享方法,实现数据共享。附图说明31.图1为本发明的物理网数据模型;32.图2为本发明的cpid结构图;33.图3为本发明的数据模型格式转换图;34.图4为本发明的物联网设备边缘去冗余存储示意图;35.图5为本发明的数据加密传输示意图;36.图6为本发明的数据仓库示意图;37.图7为本发明的数据共享模型示意图。具体实施方式38.为了更好的了解本
发明内容,这里给出一个实施例。39.图1为本发明的物理网数据模型;图2为本发明的cpid结构图;图3为本发明的数据模型格式转换图;图4为本发明的物联网设备边缘去冗余存储示意图;图5为本发明的数据加密传输示意图;图6为本发明的数据仓库示意图;图7为本发明的数据共享模型示意图。40.本发明将物联网数据从结构化数据、非结构化数据角度阐述。本发明公开了一种海量物联网数据模型化的处理、存储与共享方法,将物联网数据分为结构化数据和非结构化数据,将结构化数据分为传感数据和业务数据,将传感数据分为动态数据和静态数据;传感数据包括物联网设备的基本描述信息及其采集的数据,如温湿度等,业务数据包括物联网应用系统产生的数据,如用户名等,非结构化数据包括视频、音频和图片等数据,其存储空间需求大。动态数据为物联网设备采集的数据或与物联网设备采集的数据相关的数据,随时间变化,该类数据的数据量递增,静态数据为物联网设备的基础信息,包括厂家等基础信息,其不随时间变化,只需存储一次数据。41.s1,建立物联网结构化数据模型;42.定义物联网结构化数据模型,使多源异的海量数据建立统一规范化的数据格式,改善关系型数据库存储空间浪费、重新健表问题。通过统一数据表达方式使得数据方便理解、查询,存储更规范,易于共享。43.物联网数据模型在数据存储应用层面包括属性描述和扩展描述。属性描述适用于静态数据和动态数据,用于设备产生的数据。扩展描述用于业务数据描述,方便统一管理与传输。44.物联网结构化数据模型如图1。在物联网结构化数据模型中,用xh代表当前记录的数据序列的唯一标识,sbid代表数据相关联的物联网设备的唯一标识,jxx代表静态信息,cpid代表某类型的数据概念模型;dxx代表动态信息;sjc代表数据产生的时间标注,bqxx代表扩展描述,用于描述设备标签信息,如设备位置等,kz代表物联网设备的扩展传输信息,如业务数据。45.该物联网结构化数据模型的数据存储中的基础记录单元定义形式为sampleelement:46.sampleelement=《key:value》,key∈char,是value的名称,value∈char∪number,用于存储值。47.类在物联网结构化数据模型中用于表达基本概念,id是一个基本概念的唯一标识,name表明类的名字,范畴属性表达的是该模型中的结构数据的基本类型,包括整数类型、浮点数类型、字符类型等,因为是基本类型,所以命名为“范畴属性”;物联网结构化数据模型中的域和类属性表用于将类与范畴属性进行关联,进行关联后,类所代表的基本概念下包含范畴属性所表达的基本类型,域和类属性表中的省略号是当前这个类属性的一些描述,比如值的范围等等;物联网结构化数据模型中的类关系表表达的是类之间的关系,也就概念之间的关系,包括继承关系(蕴含关系),又包括面向对象里提到的“有”关系也可表达,类关系表中的type描述关系的类型,idsup和idsub分别表示两个类的id指向,cpid结构如图2。48.本物联网结构化数据模型,具有数据异常事件提取功能,以滤除物联网数据采集过程中的干扰和噪声,并对物联网设备采集的数据进行过滤并分组,形成有效事件集,提高实时处理的速度和精度。49.s2,建立物联网非结构化数据模型;物联网非结构化数据模型,是一种基于hbase数据库的数据模型;物联网非结构化数据模型包括映射表,映射表用于将非结构化数据对应成固定表达方式,其映射表的索引包括行关键字、列关键字和时间戳,时间戳用于标识物联网数据的更新。在物联网非结构化数据模型中,一张表的结构可通过行键、时间戳和列簇来描述,列簇的基本结构为列column和值value来组成,行键rowkey是表table的主键。50.本发明定义基于hbase数据库进行存储管理的方法,同时本发明改进了一种基于hbase的非结构化数据模型,方便成体系化运行。51.s3,对物联网数据进行边缘融和处理;52.在设备侧即进行数据模型转换,通过边缘节点分摊服务器计算载荷。53.对于具有存储能力的物联网设备,通过自定义的并加载于物联网设备的软件系统或者利用物联网设备本身数据格式转换功能,进行物联网数据格式转换和边缘融和处理,对数据进行去冗余处理,在物联网设备上直接传输经格式转换的数据,对于不具备存储能力的低功耗设备,将原格式数据透传至接入服务器,利用统一脚本进行解析,该过程如图3所示。54.s4,物联网设备数据进行去冗余存储;55.当前市场缺失针对物联网设备数据冗余处理存储技术的应用,本发明对具备一定数据存储服务能力的物联网设备公开了一种数据去冗余存储方法,应用于存储无需存储远端数据中心或者数据访问频次较低的数据。通过本方法实现以边缘计算应用分摊数据中心压力,以节点存储应用提供节点就近数据共享能力,减少了因物联网整体链路数据发送拥塞产生的网络延迟,进而提升数据传输效率。本方法是在数据分块和指纹管理技术基础上,对分块技术技术缺点进行了改善的一种方法。56.本去冗余存储方法采用数据分块和指纹管理技术,如图4,对于一个新的数据块,若该数据块的指纹在指纹表中没有与之相同的指纹,则该数据块的指纹为非重复数据块指纹,将该数据块的指纹插入指纹表中,若指纹表中存在与之相同的指纹,将该数据块与指纹表中相同指纹对应的数据块的循环冗余码(crc)进行比较,如果二个循环冗余码不同,判断该数据块为非重复数据块,如果二个循环冗余码相同,存储该数据块的地址指针;该方案对数据分块和指纹管理技术进行改进,将索引表存在内存,降低i/o开销。将指纹表保存于内存中,将非重复数据块保存于外存储器中。57.对物联网数据进行非重叠平均切块,得到若干个数据块,对每个数据块利用md5哈希算法进行计算,得到每个数据块的指纹,对每个数据块的指纹再利用md5哈希算法进行计算,得到每个数据块指纹的整数型索引值,得到每个数据块指纹的整数型索引值,数据块指纹和其对应的索引值,共同构成指纹表;58.索引表:通过将数据指纹进行哈希计算得到索引值(由0到n构成的整数)。将数据分成非重叠等分数据块q1,q2,q3…。运用md5哈希算法计算每个指纹,f1=h(q1),f2=h(q1),f3=h(q3)…。将数据指纹再次进行哈希计算,得到整数型索引值,i1=h(f1),i2=h(f2),…,i3=h(f3)。用户查询冗余数据块时,计算该数据块的索引值,查询该索引值下的指纹表。遍历索引表的时间复杂度为o(1)。59.为了保证数据结构在内存中的持久性,防止操作系统在崩溃状况下内存中数据消失,在对指纹表做更改前,将指纹表通过映射的方式写入映射文件,将数据指纹的插入操作信息写入日志文件。由于日志是持久化的,可以作为恢复其他所有持久化结构的可靠来源。当系统发生崩溃,内存中的内容消失,此时再次启动映射文件和日志文件中的内容合并成新的数据结构存入内存中,清空文件内容,新的指纹表映射到映射文件,日志文件记录下一次的数据变更,为数据提供容灾保障。60.s5,对物联网数据进行分类存储;61.将业务数据、传感数据和非结构化数据分别存储在关系型数据库、时序数据库和非关系型数据库中,对各个数据库进行统一标识,对物联网数据库的集群化管理,实现对物联网数据进行聚合与共享。对于非结构数据通过采用非结构化数据库hbase进行存储,再基于hadoop分布式文件系统对物联网数据创建索引和分布存储策略。62.本发明根据数据类型进行平行切分方式对数据信息进行分类数据库存储,使数据信息处理更加独立、透明,并在各个数据库之间通过统一标识建立联系,实现对物联网数据库的集群化管理,实现对物联网海量数据进行聚合与共享。63.s6,对各个数据库的数据进行共享;64.当前物联网设备与信息化系统间的交互主要是基于mqtt协议以topic订阅发布的模式,为了方便数据管理,本发明基于应用的数据库,公布了一种基于数据仓库进行数据共享的方法,具体通过本发明定义的数据共享模型,利用黑板系统的思想采用“发布-订阅”数据分发策略来共享数据。本方法具有高效的数据操作能力,同时具备数据高可扩展性。65.采用etl工具对数据库数据进行抽取和转换,并将转换后的数据加载至数据仓库,数据仓库是共享数据的存储器,如图6;利用黑板系统的方法,采用非结构化数据库hbase来建立数据仓库,数据仓库用于完成数据共享。66.运用发布-订阅模型对数据进行分发,发布-订阅模型在目前被各个分布式数据库所采用,发布-订阅模型包括消息发布者、消息订阅者和发布订阅服务器,在发布-订阅模型中,消息订阅者先注册主题,并在主题信息有变化时接收信息,当消息发布者把一条信息发送至发布订阅服务器时,服务器根据消息订阅者的注册主题与消息进行匹配比较,把信息发送给符合注册主题的消息订阅者。67.利用数据仓库,建立数据共享模型,数据共享模型包括节点、共享接口、数据复制模块、订阅数据模块、数据源和元数据管理模块;节点与共享接口相连,数据复制模块与数据源相连,数据复制模块与订阅数据模块相连,订阅数据模块与数据源相连,元数据管理模块与数据源相连;元数据管理模块用于完成元数据获取、查询、映射和etl操作;在数据共享模型中,数据仓库与每个数据库之间是通过数字仓库的接口与节点,共享对数字仓库的接口的管理,该共享通过对全局模式和节点模式之间的关系进行虚拟映射来实现,各数据库的映射接口由数据仓库和共享接口来提供,对已经形成连接的共享接口进行映射,全局模式在一定的转换条件下通过定义视图的方式进行映射。68.在数据共享模型,作为黑板系统中的黑板出现的数据仓库与每个数据库之间是通过其数据仓库共享接口与节点共享接口的连接,实现数据重建和数据复制共享。其中对数据的重建是数据仓库共享数据的方式,主要是在数据管理方面对来自于其他系统的数据进行重建,分开存储这些需要共享的数据与系统的其他数据,形成集中管理。数据复制共享通过对全局模式和节点模式之间的关系进行虚拟映射来实现。全局模式通过重新组合各节点模式的数据,形成全局模式视图。其中,数据库通过节点共享接口访问数据仓库的全局模式视图并获取数据,而当数据仓库接收到具体的数据获取请求时,全局模式视图会根据具体的数据获取请求,完成对数据库的数据抽取工作,然后将抽取来的数据转换成全局模式数据,用以提供给其他数据库获取。69.s7,对各服务器与物联网设备进行物联网数据的同步;当前市场针对服务器间的数据同步应用相对成熟,但缺失物联网设备与服务器间的数据同步应用。而本发明公开了一种部分数据暂存物联网设备数据的方法,但因物联网设备存储有限,所以本发明又定义了一种物联网设备定时向服务器去重同步并删除源数据的方法,定时将物联网设备数据同步至服务器,并清空已同步的数据,应用于链路末端物联网设备存储并定时与服务器同步场景。70.利用步骤s3中的方法,对各服务器与物联网设备中的物联网数据进行边缘融和处理,在物联网终端上加载数据同步软件,对各服务器与物联网设备发布定时同步指令,启动数据同步过程,对该同步指令发布时刻前的各服务器与物联网设备中的存储器的所有存储路径下的数据进行同步,即对上次同步完成时刻与本次同步指令发布时刻之间的数据进行同步,采用hash指纹信息为基本标记的数据同步算法,同步时首先确认需要同步的数据的总长度,再对数据初始化,防止并发读写、及容错等带来巨大开销。同步完成后,根据返回的数据指针文件,删除本次已同步的源文件。为了保证指针文件一致性,本同步过程需要从服务器下载数据的指针文件。同步过程在物联网设备端侧进行,缓解服务器压力。71.本发明的具体步骤包括,72.s01物联网数据模型73.物联网数据模型在数据存储应用层面由两部署组成属性和扩展。属性包含静态数据和动态数据,用于设备产生的数据。扩展用于扩展描述,同时也可用业务数据描述,方便统一管理与传输。74.本物联网数据模型如图1,xh代表唯一标识当前记录序列;sbid代表数据相关联的设备唯一标识;jxx代代表静态信息;cpid代表某类型的数据概念模型;dxx代表动态信息;sjc代表数据产生的时间标注。bqxx代表扩展描述,用于描述位置等设备标签信息。kz代表扩展传输信息,如业务数据。75.该存储模型中的基础记录单元定义形式为sampleelement:76.sampleelement=《key:value》,key∈char,是value的名称,value∈char∪number,用于存储值。77.类在概念模型中表达基本的概念,id用于唯一标识一个概念,name表明类的名字;范畴属性表达的是模型中的最基本类型,如整数类型、浮点数类型、字符类型等,因为是基本类型,所以命名为“范畴属性”;域、类属性表用于将类与范畴属性进行关联,关联则意味着类所代表的概念下蕴含范畴属性表达的性质,域、类属性表的省略号可以是当前这个类属性的一些描述,比如值的范围等等;类关系表表达的是类之间的关系,也就概念之间的关系,比如继承关系(蕴含关系),又比如面向对象里提到的“有”关系也可表达,type标定关系的类型,idsup和idsub分别表示两个类的id指向类表如图2。78.本物联网数据模型,具备数据异常事件提取技术,以滤除数据采集过程中的干扰和噪声,进一步过滤并分组形成有效事件集,提高实时处理的速度和精度。79.s02物联网非结构化数据模型80.物联网非结构化数据存储于hbase,本发明的非结构化数据数据模型,是一种基于hbase的数据模型,其映射表的索引是由行关键字、列关键字和时间戳组成,时间戳用于标识数据的更新。在物联网非结构化数据模型中,一张表的结构可通过行键、时间戳和列簇来描述,列簇的基本结构为列column和值value来组成,行键rowkey是表table的主键。81.s03物联网数据边缘融和处理82.本发明以自定义的软件开发组装载物联网设备或者利用物联网设备本身数据格式转换能力,进行物联网数据边缘融和处理,再边缘(物联网设备侧)直接传输经格式转换的数据(对于物联网设备不具备存储能力的低功耗设备将原格式数据透传至接入服务器进行统一脚本进行解析),如图3。83.s04物联网设备边缘去冗余存储84.本去冗余存储技术基于数据分块和指纹管理技术应用,如图4。本方法需要将指纹表保存于内存中,将非重复数据块置于存储中。若指纹表中没有相同指纹,即为非重复数据块指纹,插入指纹表中。若指纹表中存在相同指纹,将该指纹的数据块与指纹表中相同指纹对应的数据块的循环冗余码(crc)进行比较。如果不同,判断该数据块为非重复数据块,保存在该指纹的数据块链表中;反之,存储该数据块的地址指针。本方案对数据分块和指纹管理技术进行改进,索引表存在内存,降低i/o开销。85.索引表:通过将数据指纹进行哈希计算得到索引值(由0到n构成的整数)。将数据分成非重叠等分数据块q1,q2,q3…。运用md5哈希算法计算每个指纹,f1=h(q1),f2=h(q1),f3=h(q3)…。将数据指纹再次进行哈希计算,得到整数型索引值,i1=h(f1),i2=h(f2),…,i3=h(f3)。用户查询冗余数据块时,计算该数据块的索引值,查询该索引值下的指纹表。遍历索引表的时间复杂度为o(1)。86.本发明为了保证数据结构在内存中的持久性,防止操作系统在崩溃状况下内存中数据消失,指纹表原有的数据信息通过映射的方式写入映射文件,在对数据指纹表做更改前,将数据指纹的插入操作信息写入日志文件。由于日志是持久化的,可以作为恢复其他所有持久化结构的可靠来源。当系统发生崩溃,内存中的内容消失,此时再次启动映射文件和日志文件中的内容合并成新的数据结构存入内存中,清空文件内容,新的指纹表映射到映射文件,日志文件记录下一次的数据变更,为数据提供容灾保障。87.s05物联网数据数据库类别存储方法88.本存储方法如图5,按照业务数据、传感数据、非结构化数据存储分别存储在关系型数据库、时序数据库、非关系型数据库中。89.对于物联网数据模型定义的动态数据、静态数据,提供数据“动静各自处理,统一存储”的方式,对静态数据只写入一次。90.本发明对于非结构数据通过采用非结构化数据库hbase进行存储,我们以本发明定义的非架构化数据模型为其进行建模存储。在基于hdfs对数据创建索引和分布存储策略。在具体存储上,所有的数据可以以二进制的形式存储,这样外部程序进行读取时,可以根据实际需要进行数据格式的转换。91.s06数据仓库数据共享方法92.数据仓库策略:本发明采用etl工具对源数据库数据进行抽取、转换和加载至数据仓库,由数据仓库提供共享数据的存储,如图6。本发明利用黑板思想以数据共享模型中以数据仓库形式存在hbase数据库,提供数据共享。93.数据分发策略:运用“发布-订阅”模型对数据进行分发在目前被各个分布式数据库所采用,该模型主要由消息发布者、消息订阅者和发布订阅服务器三部分组成。订阅者先注册topic,并在topic信息有变化时接收信息,当发布者把一条信息发送至发布订阅服务器时,服务器根据订阅条件与消息进行匹配比较,把信息发送给符合订阅条件的订阅者。94.数据共享模型结构:本发明数据存储方法应用了hbase数据库,本发明利用其可以存储结构化及非结构化数据的特点,以hbase数据库充当数据仓库建立数据共享模型,其主要由5部分组成:共享接口、数据复制、订阅数据、共享数据管理器数据源和元数据管理模块,如图7。95.数据共享模型运行机制:在数据共享模型中,作为“黑板”出现的数据仓库与每个源数据库也就是各个“知识源”之间是通过其数字仓库接口与节点共享接口的管理。这种共享模式通过虚拟映射全局模式和节点模式之间的关系来实现,各源数据库的映射接口由数据仓库和共享接口来提供,通过映射已经形成连接的共享接口,全局模式会在一定的转换条件下通过定义视图的方式进行映射。96.s07数据同步方法97.本方法数据同步算法过程与s03物联网设备边缘去冗余存储一致(但存储目的端为服务器),除此之外需要本发明需要将软件开发组转载与智能终端,实现定时同步指令启动同步过程,并同步基于时间戳前的所有存储路径下的数据,即以上次同步完成时间戳(根据指针信息)与本次启动时间戳,作为首、尾字段检索确认需要同步的字段的总长度,并对字段初始化,防止并发读写、及容错等带来巨大开销。同步完成,根据返回指针信息删除本次已同步的源文件。同时为了保证指针文件一致性,本同步过程需要从服务器下载指针文件(区分s03物联网设备边缘去冗余存储指针,减少误删文件的概率)。98.以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献