Gaia集群中面向数据分布特征的维表缓存管理方法及系统与流程

2021-11-09 22:51:00 来源：中国专利 TAG：

技术特征：
1.gaia集群中面向数据分布特征的维表缓存管理方法，其特征在于，包括如下步骤：步骤1、利用数据分布特征构建维表关联缓存索引结构，所述维表关联缓存索引结构即为多路平衡跳表，由一个固定大小为2p
‑
1的路由数组和p个大小均衡的分段跳表构成，其中，其中参数p由用户通过配置文件或者api接口指定；步骤2、提取维表数据的分布特征信息；步骤3、构建全周期分布式缓存管理机制，具体包括如下步骤：s301、进行缓存构建，具体为：首先定义了路由数组的初始化方法，用于根据全量维表数据的分布特征提取p分位点，完成所述路由数组的初始化；还定义了分段确定方法，用于为每条维表数据确定所属分段；还定义了索引建立方法，用于为每条维表数据建立索引；s302、在维表关联计算任务的执行过程中，根据流数据记录的关键字从所述多路平衡跳表中查询相应的维表数据；s303、所述p个分段跳表之间的平衡调整方法，用于支持对维表数据缓存的增量更新，降低更新代价。2.如权利要求1所述的方法，其特征在于，所述步骤2具体包括如下步骤：s201：gaia集群系统通过dataset数据源把维表数据摄入系统的网络缓冲区，并通过api接口指定维表数据的主键列作为关键字；s202：dataset数据源计算关键字的hash值，通过hash分区的方法把网络缓冲区内维表数据分发给下游的关联计算算子；s203：通过抽样算法从采集维表数据中抽取样本数据，然后统计样本数据的p分位点，样本数据的p分位点用于代表全量维表数据的分布特征；样本数据的p分位点随着网络缓冲区内的维表数据一起发往下游的关联算子。3.如权利要求1或2所述的方法，其特征在于，s301包括如下步骤：s3011：当所述缓存构建子模块收到样本数据的p分位点后，调用路由数组的初始化方法完成针对路由数组的初始化；s3012：对于后续维表数据的到来，调用分段确定方法，确定每条维表数据所属分段；s3013：采用索引建立方法，在所述分段跳表中为每条维表数据建立对应的索引。4.如权利要求3所述的方法，其特征在于，所述s302，包括如下步骤：s3021：根据流数据记录的关键字作为索引，通过分段确定算法确定对应索引所在的分段；s3022：到所在的分段中按照跳表的查找方法查询对应索引；s3023：取出索引指向的维表数据并返回。5.如权利要求1所述的方法，其特征在于，所述s303，包括如下步骤：s3031：gaia集群系统通过dataset数据源查询外部存储系统，把新增维表数据摄入系统的网络缓冲区；s3032：把新增维表数据包装成add事件，把值发生改变的数据包装成mod事件，把过期的脏数据包装成del事件，事件内部包含完整的维表数据，通过hash分区分发给下游的关联计算算子；s3033：对事件做分类处理，首先按照定位新增维表数据在缓存中的位置，对于add事件，执行插入，对于mod事件，执行更新，对于del事件，执行删除；
s3034：调用平衡调整方法，对p个分段跳表的做调整，重新确定各个分段跳表之间的边界，使其大小保持均衡，同时把分段跳表的边界值反馈给所述路由数组；s3035：路由数组接收到分段跳表反馈的边界值后，确定新的p分位点覆盖掉旧的p分位点，以保证数据分布特征的有效性。6.gaia集群中面向数据分布特征的维表缓存管理系统，其特征在于，包括数据分布特征提取模块和缓存管理模块；缓存索引结构，称为多路平衡跳表，由一个大小固定为2p
‑
1的路由数组和p个大小均衡的分段跳表构成，其中，参数p可以由用户通过配置文件或者api接口指定；所述数据分布特征提取模块，用于提取维表数据的分布特征信息，具体地，通过抽样算法从维表数据中抽取数据样本，然后统计样本数据的p分位点，样本数据的p分位点能够代表全量维表数据的分布特征；缓存管理模块，进一步分为缓存构建子模块、缓存查询子模块和缓存更新子模块，用于建立起一套从构建到查询再到增量更新的全周期分布式缓存管理机制；所述缓存构建子模块，用于根据数据分布特征提取模块统计的p分位点，完成路由数组的初始化；还用于根据分段确定方法，为每条维表数据确定所属分段；还定义了索引建立方法，用于为每条维表数据建立索引；所述缓存查询子模块，采用缓存查询方法，在维表关联计算任务的执行过程中，根据流数据记录的关键字从多路平衡跳表中查询相应的维表数据；所述缓存更新子模块，采用p个分段跳表之间的平衡调整方法，对维表数据缓存的增量更新，降低更新代价。7.如权利要求6所述的系统，其特征在于，gaia集群系统通过dataset数据源把维表数据摄入系统的网络缓冲区，并通过api接口指定维表数据的主键列作为关键字；dataset数据源计算关键字的hash值，通过hash分区的方法把维表数据分发给下游的关联计算算子；所述数据分布特征提取模块，包括如下功能：通过抽样算法从采集维表数据中抽取样本数据，然后统计样本数据的p分位点，样本数据的p分位点用于代表全量维表数据的分布特征；样本数据的p分位点随着网络缓冲区内的维表数据一起发往下游的关联算子。8.如权利要求6所述的系统，其特征在于，所述缓存构建子模块，包括如下功能：所述缓存构建子模块收到样本数据的p分位点后，调用路由数组的初始化方法完成针对路由数组的初始化；对于后续维表数据的到来，缓存构建子模块调用分段确定方法，确定每条维表数据所属分段；缓存构建子模块采用索引建立方法，在所述分段跳表中为每条维表数据建立对应的索引。9.如权利要求6所述的系统，其特征在于，所述缓存查询子模块，包括如下功能：缓存查询子模块，用于根据流数据记录的关键字，通过分段确定算法确定对应索引所在的分段，在所在的分段中按照跳表的查找方法查询对应索引，然后取出索引指向的维表数据并返回。10.如权利要求6所述的系统，其特征在于，所述缓存更新子模块，包括如下功能：
gaia集群系统通过dataset数据源查询外部存储系统，把新增维表数据摄入系统；缓存更新子模块把新增维表数据包装成add事件，把值发生改变的数据包装成mod事件，把过期的脏数据包装成del事件，事件内部包含完整的维表数据，通过hash分区分发给下游的关联计算算子，使用和特征提取模块相同的hash函数；缓存更新子模块对接收的事件并做分类处理，定位新增维表数据在缓存中的位置，对于add事件，执行插入，对于mod事件，执行更新，对于del事件，执行删除；缓存更新子模块调用平衡调整方法，对p个分段跳表的做调整，重新确定各个分段跳表之间的边界，使其大小保持均衡，同时把边界值反馈给路由数组；路由数组接收到分段跳表反馈的边界值后，确定新的p分位点覆盖掉旧的p分位点，以保证数据分布特征的有效性。

技术总结
本发明公开了Gaia集群中面向数据分布特征的维表缓存管理方法及系统，构建了一套从构建到查询再到增量更新的全周期分布式缓存管理机制。包括数据分布特征提取模块和缓存管理模块，缓存管理模块为缓存构建、缓存查询和缓存更新子模块。数据分布特征提取模块从维表数据中抽取数据样本，统计样本数据的p分位点作为全量数据的分布特征。缓存构建子模块，根据统计的p分位点完成路由数组的初始化；利用分段确定方法为每条维表数据确定所属分段；利用索引建立方法为每条维表数据建立索引。缓存查询子模块，采用缓存查询方法，根据流数据记录的关键字从多路平衡跳表中查询相应的维表数据。缓存更新子模块，定义了p个分段跳表之间的平衡调整方法。平衡调整方法。平衡调整方法。

技术研发人员：姜苏王国仁赵宇海郑军李博扬
受保护的技术使用者：东北大学
技术研发日：2021.08.04
技术公布日：2021/11/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于BIM+5G技术的工程监测管理系统的制作方法

Gaia集群中面向数据分布特征的维表缓存管理方法及系统与流程

相关文献

最热文献