一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种时空数据查询处理中的抽样系统

2022-07-16 15:58:27 来源:中国专利 TAG:


1.本发明属于数据分析技术领域,具体涉及数据分析中的数据抽样系统。


背景技术:

2.如今,为了应对激烈的市场竞争,企业需要对其数据集进行大量分析以做出明智的战略决策。其中,关于用户的时空数据分析逐渐成为分析用户喜好的重要信息来源。尤其是对于社交媒体、餐饮娱乐等和用户活动习惯息息相关的行业。
3.对于在时间和空间维度上有密切相关性的时空数据来说,如果采用简单的均匀采样方法,就会忽略数据在时空上的分布特征,如在空间分布上稠密程度(如市中心和郊区的区别),以及在时间分布上的集中程度(如高峰和低谷的区别)。如果不考虑这些数据间的时空相关性,就会导致样本不具有足够的代表性,从而导致近似查询结果的准确性无法满足要求。因此,为了在采样时考虑到这种时空相关性,我们提出专门的基于时空分区的数据采样方法。


技术实现要素:

4.本发明的目的在于提供一种时空数据查询处理中的抽样系统,以提升时空数据采样的质量,方便更好地挖掘时空数据集中的有效信息。
5.本发明提供的时空数据查询处理中的抽样系统,包括时空网格划分器和样本生成器两个子模块;其中:
6.所述时空网格划分器,负责按照用户定义的划分粒度,结合离线统计的元数据信息(数据分布等),将时空数据集涉及的时空坐标系划分成一系列网格;然后,时空网格划分器将样本容量均匀地分配给每一个网格;对于坐标点稀疏的网格,即坐标点总数少于平均样本容量的,多出的部分会被再次平均分配给余下网格,保证样本容量的充分利用。
7.所述的样本生成器,是在每个网格内按照时空网格划分器分配的样本容量对于网格内的坐标点进行随机均匀采样,同时计算每个网格实际的采样率;然后将采样结果汇总成为最终样本集合,并计算用户需求的统计量的预测值。
8.本发明中,所述时空网格划分器中,具体处理流程如下:
9.(1)划分时空网格
10.根据用户输入的网格宽度w,对于一个n维时空数据集其中n表示坐标总数,其边界表示为{[l1,u1],[l2,u2],

,[ln,un],[l
n 1
,u
n 1
]},其中li,ui分别表示第i个维度的下界和上界,i∈[1,n]。在每个维度上以w的间隔进行划分:
[0011]
{[li,li w],[li w,li 2w],

,[li (k-1)w,li kw],[li kw,ui]};i=1,

,n 1;
[0012]
其中,为向下取正;
[0013]
则时空坐标系被分成:个网格,每个网格有pi个坐标点,i≥0,i=1..|g|;
[0014]
(2)分配样本容量
[0015]
根据用户指定的采样比例λ,可以得到样本容量;s=λn,第i个网格被分配个样本(i∈[1,n])。假设网格子集g1中的网格不足si个样本,即si》pi,则将多余的s
i-pi个样本平均分配给不在g1中的网格。重复这一步直到g1为空集。最终得到实际样本容量分配
[0016]
本发明中,所述时空网格划分器中,具体处理流程如下:
[0017]
(1)进行逐网格采样,对于每个网格gi,用随机均匀采样的方法获取s
′i个坐标点s
′i作为样本,则该网格实际采样率为
[0018]
(2)对于上一步采样的结果进行整合,获取最终样本集合,最终得到的样本集为:
[0019]
s={s
′1,s
′2,

,s

|g|
},
[0020]
运行时,依据上述样本集合计算出用户查询在数据集上的近似查询结果为:
[0021][0022]
其中,f(
·
)为样本数据上相关统计量的计算函数;f(
·
)的具体表达式根据实际需求定义。例如计算样本容量,则可取f(x)=|x|。
[0023]
本发明抽样系统中,根据用户要求和数据库元数据信息划分的网格中进行采样,保证数据稀疏的网格拥有足够的采样率。
[0024]
本发明可以帮助时空数据分析人员获得更加全面且具有代表性的样本,避免某些稀疏区域样本因为采样遗漏而影响进一步的数据分析。实验表明,在相同样本容量时空数据采样的前提下,本发明获取的样本能够更好地涵盖稀疏区域的样本。
附图说明
[0025]
图1为用户需要分析的时空数据集。
[0026]
图2为均匀采样获取的样本。
[0027]
图3为本发明获取的样本。
[0028]
图4为本发明时空数据查询处理中的抽样系统的架构图。
具体实施方式
[0029]
下面通过具体例子,进一步描述本发明。
[0030]
实施例:用户希望对数据库中的某部分时空数据进行抽样分析(图1),但简单均匀采样获得的样本较难反映数据集的一些特性,经常遗漏一些稀疏区域的坐标点(图2)。使用本系统,用户可以指定对于时空数据划分的粒度,如经纬度间隔1
°
。系统会根据用户提供的划分粒度对于数据集进行网格划分,样本容量分配并逐个网格进行采样,最终获取全面而有代表性的样本(图3)。使用本系统采集的样本可以涵盖稀疏区域的样本,保证采样的质量。帮助用户获得更好的分析结果,而不会遗漏潜在的有效信息。用户使用本发明的整个流程如图4所示。


技术特征:
1.一种时空数据查询处理中的抽样系统,其特征在于,包括时空网格划分器、样本生成器两个子模块;其中:(1)所述时空网格划分器子模块,按照用户定义的划分粒度,结合离线统计的元数据信息,将时空数据集涉及的时空坐标系划分成一系列网格;然后,将样本容量按一定规则分配给每一个网格;该模块的具体处理流程如下:(1.1)划分时空网格根据用户输入的网格宽度w,对于一个n维时空数据集其中n表示坐标总数,其边界表示为{[l1,u1],[l2,u2],

,[l
n
,u
n
],[l
n 1
,u
n 1
]},其中l
i
,u
i
分别表示第i个维度的下界和上界,i∈[1,n];在每个维度上以w的间隔进行划分:{[l
i
,l
i
w],[l
i
w,l
i
2w],

,[l
i
(k-1)w,l
i
kw],[l
i
kw,u
i
]};i=1,

,n 1;其中,其中,为向下取整;则时空坐标系被分成:个网格,每个网格有p
i
个坐标点,i≥0,i=1..|g|;(1.2)分配样本容量根据用户指定的采样比例λ,得到总样本容量;s=λn,第i个网格被分配个样本,i∈[1,n];假设网格子集g1中的网格不足s
i
个样本,即s
i
>p
i
,则将多余的s
i-p
i
个样本平均分配给不在g1中的网格;重复这一步,直到g1为空集;最终得到实际样本容量分配(2)所述样本生成器子模块,在每个网格内按照时空网格划分器分配的样本容量对于网格内的坐标点进行随机均匀采样,同时计算每个网格实际的采样率;之后将采样结果汇总成为最终样本集合并计算统计量的预测值;该模块的具体处理流程如下:(2.1)进行逐网格采样,对于每个网格g
i
,用随机均匀采样的方法获取s

i
个坐标点s

i
作为样本,则该网格实际采样率为(2.2)对于上一步采样的结果进行整合,获取最终样本集合,最终得到的样本集为:s={s
′1,s
′2,

,s

|g|
},运行时,依据上述样本集合计算出用户查询在数据集上的近似查询结果为:其中,f(
·
)为样本数据上相关统计量的计算函数;f(
·
)的具体表达式根据实际需求定义。2.根据权利要求1所述的方法,其特征在于,在系统根据用户要求和数据库元数据信息划分的网格中进行采样,保证数据稀疏的网格拥有足够的采样率。

技术总结
本发明属于数据分析技术领域,具体为一种时空数据查询处理中的抽样系统。本发明系统包括时空网格划分器、样本生成器:时空网格划分器按照一定粒度在时空坐标系上划分网格,并给每个网格分配样本容量;具体的划分粒度可以根据实际需求定义;样本生成器按照划分器分配的样本容量在每个网格内均匀采样,并汇总成最终样本。本发明可帮助分析人员从时空大数据中获取更为全面的样本,发掘容易被简单均匀采样遗漏的信息,增加样本分析结论的可靠性。增加样本分析结论的可靠性。增加样本分析结论的可靠性。


技术研发人员:荆一楠 张寒冰 鲍振宇 何震瀛 王晓阳
受保护的技术使用者:复旦大学
技术研发日:2022.04.09
技术公布日:2022/7/15
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献