一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于数据分级混合存储的冷热数据识别方法与流程

2021-12-14 21:46:00 来源:中国专利 TAG:

技术特征:
1.一种用于数据分级混合存储的冷热数据识别方法,其特征在于:该方法采用基于lstm的数据温度预测模型对数据温度进行预测;以数据的温度属性作为数据的冷热程度的识别依据,并且模型假设当前温度较低的数据,在未来被访问的概率也比较低,所以视为冷数据,当前温度较高的数,在未来被访问的概率高,所以视为热数据;将数据的冷热程度定义为数据温度的高低:数据的冷热程度等同于数据温度的高低;模型的训练样本来自于对文件的历史访问数据进行记录行为文件的访问日志;然后根据日志信息,计算各类文件操作在时间轴上的变化趋势,挖掘文件访问的时间特性,并按照合适的时间窗口整理成文件的时序访问特征序列,构建出用于进行训练的数据;对训练数据进行访问热度划分,预定义热度级别按0,1,

,n

1标记训练集中的数据;构建的数据集中就蕴含着文件本身的访问热度信息,然后将数据集划分为训练集和测试集,输入到循环神经网络中进行训练,模型训练完成后经测试集进行验证,验证完成后进行模型封装。2.根据权利要求1所述的用于数据分级混合存储的冷热数据识别方法,其特征在于:其具体步骤如下:s1、数据采集:在文件日志中对文件的历史访问数据进行采集;s2、数据预处理:对采集到的数据进行预处理,对数据进行热度划分,并将数据局划分为训练集和测试集;s3、模型训练:训练集输入预测模型,对模型进行训练;s4、模型验证:将测试集输入训练好的模型,对模型效果进行验证;s5、模型封装使用,将验证好的模型进行封装,投入到使用中;s6、根据温度预测结果,将数据存入到不同的介质中。3.根据权利要求1所述的用于数据分级混合存储的冷热数据识别方法,其特征在于:根据访问的频率来划分数据的冷热程度;采用对训练集中的数据进行访问热度划分,定义热度级别按0,1,

,n

1,标记训练集中的数据;n个热度标签分别使用one

hot编码转换为0和1组成的稀疏向量;然后将数据集划分为训练集和测试集,输入到lstm神经网络中进行训练;lstm使用时间记忆单元用以记录当前时刻的状态,一般称为长短期记忆神经网络的细胞与每个细胞相连的有遗忘门f
t
、输入门i
t
和输出门o
t
这3个信息传递开关门,其中,x
t
为预测模型的输入,h
t
为lstm输出,h
t
‑1为上一时刻lstm的输出,c
t
为细胞状态,c
t
‑1为上一时刻的细胞状态;温度预测模型以数据的访问次数、访问类型、每一次访问的时间戳、访问数据所在的存储介质为输入,以该数据对应的温度为输出;当模型输入x
t
进入lstm单元后,第一步是经过遗忘门,通过遗忘门来决定我们会从细胞状态中丢弃什么信息;遗忘门的输出f
t
为:f
t
=sigmoid(w
f
·
[h
t
‑1,x
t
] b
f
)输入门决定多少新信息被存储在lstm细胞中;输入门包含两个处理层次,sigmoid层决定细胞状态中什么值应被更新,tanh层创建一个新的候选值向量c
t

;i
t
=sigmoid(w
i
·
[h
t
‑1,x
t
] b
i
)c
t

=tanh(w
c
·
[h
t
‑1,x
t
] b
c
)lstm细胞状态更新为原始细胞状态丢弃部分信息后,再加上新的候选值向量c
t

的和;
c
t
=f
t
·
c
t
‑1 i
t
·
c
t

输出门基于更新后的lstm细胞状态,通过一个sigmoid层确定将细胞状态的哪个部分输出;细胞状态通过tanh层后和sigmoid输出相乘;o
t
=sigmoid(w
o
·
[h
t
‑1,x
t
] b
o
)h
t
=o
t
·
tanh(c
t
)隐含层得出结果后将结果h
t
传入到输出层,输出层输出模型预测结果y
t
;y
t
=f(w
y
h
t
b
y
)经过预测模型预测后,可以得到数据的数据温度,从而进行冷热数据识别。

技术总结
本发明是一种用于数据分级混合存储的冷热数据识别方法,属数据存储技术领域。该方法采用基于LSTM的数据温度预测模型对数据温度进行预测;以数据的温度属性作为数据的冷热程度的识别依据,并且模型假设当前温度较低的数据,在未来被访问的概率也比较低,所以视为冷数据,当前温度较高的数,在未来被访问的概率高,所以视为热数据;将数据的冷热程度定义为数据温度的高低:数据的冷热程度等同于数据温度的高低;该方法使用温度模型来衡量数据的冷热程度,为每个数据赋予一个持久性的温度属性,不仅可以用于判断系统中数据的冷热程度,即使当数据进行了迁移,温度属性会一直伴随着数据,依然可以使用该属性来衡量和识别数据的冷热程度。冷热程度。冷热程度。


技术研发人员:胡昌平 侍守创 刘彩云 朱大鹏 姜厚禄 闫四洋 胡翔宇 孟祥慈 李红星 王纪潼 徐雷 左刚 单文金 吕从飞 尹玉峰 韩占港 许永正 董奇
受保护的技术使用者:江苏杰瑞信息科技有限公司
技术研发日:2021.09.01
技术公布日:2021/12/13
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献