一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种负载自适应的分布式空间文本流数据处理系统的制作方法

2022-04-09 07:50:38 来源:中国专利 TAG:

技术特征:
1.一种负载自适应的分布式空间文本流数据处理系统,其特征在于,该系统包括:数据输入层,用于读取流式空间文本数据对象和空间查询,并进行解析和预处理后,得到包含标识符、地理位置、文本数据和产生时间的空间文本数据对象四元列表以及包含标识符、查询范围、关键字和查询持续时间的空间查询四元列表;分区路由层,根据来自数据输入层的流式空间文本数据对象和空间查询的四元列表进行空间分区的路由操作;匹配处理层,基于分区路由层的空间分区,在空间查询的持续时间内,存储并连续匹配满足查询空间范围和查询关键字集合的空间文本数据对象;负载均衡层,用于实时监控和收集匹配处理层中匹配处理层的负载信息,并在负载失衡时,调用负载自适应策略,并对局部空间分区重新划分,以满足负载均衡;数据存储层,用于存储匹配处理层中的过时数据。2.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,所述数据输入层将空间文本数据对象的流数据进行解析,处理成后续容易操作的四元列表;所述空间文本数据对象为含有位置信息的文本数据,将其处理为四元列表l
o
=[oid,loc,text,ts],oid为数据对象标识符,loc为地理位置,text为文本数据,ts为产生时间;所述空间查询为包含空间范围和关键字限定的过滤查询,将其处理为四元列表l
q
=[qid,mbr,text,t],qid为查询标识符,mbr为查询空间范围的矩形边界,text为查询关键字集合,t为查询持续时间。3.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,所述分区路由层对空间文本数据对象和空间查询进行索引和搜索空间分区;每一个空间分区对应连续单元格组成的矩形区域,空间分区中的每一个单元格均包含该空间分区的标识符信息和边界信息;空间文本数据对象的loc信息确定唯一的空间分区,而查询的空间范围会覆盖多个空间分区。4.如权利要求3所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,空间分区所占据的矩形区域的划分具有顺序,首先在横向或纵向上进行第一维度的切分,形成候选空间分区,然后再对候选空间分区在另一个维度上进行切分,以形成空间分区:定义两个二元组(xmin,ymin),(xmax,ymax)来表示空间分区的位置,(xmin,ymin)为空间分区的左下角单元格坐标,(xmax,ymax)为空间分区的右上角单元格坐标。空间查询在遍历所覆盖的空间分区时,通过<y不变,xmax 1>的方法向右移动,遍历同一候选空间分区中的其他空间分区,然后再将x变为此候选空间分区的第一个主单元格横坐标,对y进行ymin-1操作,向下移动,到达其他候选空间分区,从而遍历空间查询所覆盖的所有空间分区;定义一个主单元格,即空间查询所覆盖的空间分区的左上角单元格。在进行邻近空间分区搜索时只访问主单元格。5.如权利要求4所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,在邻近搜索时,当向右移动到未被查询空间范围覆盖到的空间分区时,改变y值进入其他候选空间分区进行遍历;当向下移动到未被查询空间范围覆盖到的空间分区,则路由操作结束。6.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在
于,所述匹配处理层由多个处理单元组成,每一个空间分区对应一个处理单元,每个处理单元都维护一个局部关键字索引;当空间文本数据对象的地理位置满足空间查询的空间范围并且空间文本数据对象的文本数据信息包含空间查询的所有关键词时,为该空间查询匹配这个空间文本数据对象。7.如权利要求6所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,所述匹配处理层对流式空间文本数据对象划分时隙,每隔一定时间更新时隙,越旧的数据具有越粗的粒度;粒度遵循指数函数f(x)=2
x
,其中x为数据在匹配处理层中的生存时间;定期检查处理单元内数据大小,若超过预定义阈值,则将最旧的时隙数据存入数据存储层。8.如权利要求6所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,所述负载均衡层实时监控和收集匹配处理层每个处理单元的总负载信息w
i
和维度负载分布表wd
i
,当处理单元中最大的负载和处理单元中最小的负载之比w
max
/w
min
>δ时,基于负载自适应策略,转移最大负载处理单元p
max
中的负载到该处理单元的邻近处理单元上;其中维度负载分布表wd
i
统计该处理单元在第二维度上的负载分布情况。9.如权利要求8所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,当匹配处理层的负载不平衡时,在同一候选空间分区内重新划分最大负载处理单元附近的局部空间分区,过程如下:(1)根据p
max
的二元组坐标(xmin,ymin),(xmax,ymax)确定与p
max
位于同一候选空间分区的相邻处理单元所在的空间分区;(2)对p
max
和相邻两处理单元进行局部空间重划分操作,先计算相邻三个空间分区的总负载,进而得到每个空间分区的平均负载,以重划分后三者中的最大负载为w
max
,若不再满足w
max
/w
min
>δ的均衡触发条件,则进行步骤(3),否则扩大局部空间重划分的范围,加入p
max
的相邻两处理单元的邻近处理单元后,判断是否满足均衡触发条件,若不满足,进行步骤(3),若满足,再次扩大局部空间重划分的范围,以此类推,直至重划分后的空间分区不满足均衡触发条件;(3)重划分时,按空间顺序从左到右合并n个处理单元的维度负载分布表wd
i1
,wd
i2
,

,wd
in
,对n个处理单元需要进行n-1次切分,重新划分为n个空间分区;切分过程具体为:对合并后的维度负载分布表从左到右进行维度负载的累加,当第一次累加和大于或等于平均负载时,进行第一次切分,不清零继续累加,第二次累加和大于或等于两倍的平均负载时,进行第二次切分,以此类推,直到进行n-1次切分。10.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,所述数据存储层将过时的数据从匹配处理层的处理单元中的内存释放,写入持久性存储器,与其他外围系统连接,以供将来的处理分析,所述外围系统包括rdms,hdfs,hbase,hive。

技术总结
本发明提供了一种负载自适应的分布式空间文本流数据处理系统,包括数据输入层,其配置为解析和预处理空间文本流数据;分区路由层,其配置为索引和路由空间文本流数据到相关空间分区;匹配处理层,其配置为存储和匹配符合空间查询的条件的空间文本流数据;负载均衡层,其配置为实时监控各处理单元负载并动态调整负载;数据存储层,其配置为存储过时空间文本流数据。本发明可用于空间文本流数据的分布式处理等。式处理等。式处理等。


技术研发人员:高杨 王新根 黄滔 陈伟 牛诗雅
受保护的技术使用者:浙江邦盛科技股份有限公司
技术研发日:2021.12.30
技术公布日:2022/4/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献