一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

实现时序特征抽取的方法及装置与流程

2021-12-17 19:19:00 来源:中国专利 TAG:

技术特征:
1.一种实现时序特征抽取的方法,包括:获取输入的数据表;若时间窗口长度与所述数据表中全量数据的时间字段对应的总时间范围的时间长度的比值低于阈值,则将总时间范围拆分为多个时间片,所述时间窗口用于表征对单条数据进行时序特征抽取时需要依赖的数据的时间范围,所述时间片的时间宽度大于或等于2倍时间窗口长度;按照主键和时间片将所述数据表中的数据划分到多个区块中,每个区块对应一个时间片,并且同一区块中数据的主键相同;将所述多个区块分配给多个计算节点进行时序特征抽取处理。2.根据权利要求1所述的方法,其中,若所述数据表中数据随时间均匀分布,则将总时间范围拆分为多个时间片的步骤包括:统计所述数据表中全量数据的时间字段对应的总时间范围;根据分片数、所述总时间范围,确定每个时间片的时间宽度,每个所述时间片的时间宽度等于所述总时间范围与所述分片数的比值;按照所述时间宽度将总时间范围拆分为多个时间片。3.根据权利要求1所述的方法,其中,若所述数据表中数据不随时间均匀分布,则将总时间范围拆分为多个时间片的步骤包括:统计所述数据表中全量数据的直方图,所述直方图的横轴表示时间字段值,所述直方图的纵轴表示数据量;基于所述直方图将所述总时间范围拆分为多个时间片,其中,不同时间片对应的时间范围内的数据量相等或基本相等。4.根据权利要求2或3所述的方法,还包括:判断所述数据表中数据是否随时间均匀分布。5.根据权利要求2或3所述的方法,还包括:由用户指定分片数;或者通过启发式规则设置分片数。6.根据权利要求1所述的方法,还包括:在将数据表中的每条数据划分到区块的过程中,判断该条数据是否为该条数据所在区块的下一区块中的数据进行时序特征抽取时需要依赖的边界数据;若判定该条数据是边界数据,则将该条数据标记为复制数据并添加到所述下一区块中,其中,所述计算节点忽略所述复制数据的时序特征抽取处理。7.一种实现时序特征抽取的装置,包括:获取模块,用于获取输入的数据表;拆分模块,用于若时间窗口长度与所述数据表中全量数据的时间字段对应的总时间范围的时间长度的比值低于阈值,则将总时间范围拆分为多个时间片,所述时间窗口用于表征对单条数据进行时序特征抽取时需要依赖的数据的时间范围,所述时间片的时间宽度大于或等于2倍时间窗口长度;划分模块,用于按照主键和时间片将所述数据表中的数据划分到多个区块中,其中,每个区块对应一个时间片,并且同一区块中数据的主键相同;
分配模块,用于将所述多个区块分配给多个计算节点进行时序特征抽取处理。8.根据权利要求7所述的装置,其中,若所述数据表中数据随时间均匀分布,则所述拆分模块包括:统计模块,用于统计所述数据表中全量数据的时间字段对应的总时间范围;确定模块,用于根据分片数、所述总时间范围,确定每个时间片的时间宽度,每个所述时间片的时间宽度等于所述总时间范围与所述分片数的比值;拆分子模块,用于按照所述时间宽度将总时间范围拆分为多个时间片。9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到6中的任一权利要求所述的方法。10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到6中的任一权利要求所述的方法。

技术总结
提供了一种实现时序特征抽取的方法及装置。获取输入的数据表;若时间窗口长度与数据表中全量数据的时间字段对应的总时间范围的时间长度的比值低于阈值,则将总时间范围拆分为多个时间片,时间窗口用于表征对单条数据进行时序特征抽取时需要依赖的数据的时间范围,时间片的时间宽度大于或等于2倍时间窗口长度;按照主键和时间片将数据表中的数据划分到多个区块中,每个区块对应一个时间片,并且同一区块中数据的主键相同;将多个区块分配给多个计算节点进行时序特征抽取处理。由此,通过按照主键和时间片对数据进行分区,使得原本倾斜的大数据量分区数据能够被拆分到多个均衡数据量的分区,并且可以解决因主键数量较少而导致的数据倾斜问题。导致的数据倾斜问题。导致的数据倾斜问题。


技术研发人员:包新启 陈迪豪 陈靓 王太泽
受保护的技术使用者:第四范式(北京)技术有限公司
技术研发日:2020.06.12
技术公布日:2021/12/16
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献