一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种企业安全风险管理平台的数据存储与优化方法与流程

2022-02-21 20:15:40 来源:中国专利 TAG:


1.本发明涉及安全风险管理、大数据技术领域,具体涉及一种企业安全风险管理平台的数据存储与优化方法。


背景技术:

2.企业在生产以及监控环节,会产生海量安全生产数据。现有技术通常通过去除冗余数据实现数据存储以及优化,无法满足安全生产场景下的数据存储要求。具体地,企业安全生产数据重要程度不同,现有技术难以针对性的进行数据压缩,且数据压缩较低。


技术实现要素:

3.为了解决上述技术问题,本发明提供了一种企业安全风险管理平台的数据存储与优化方法,方法包括:
4.对企业安全生产数据进行异常检测,得到企业安全生产数据的异常程度;
5.根据企业安全生产数据的异常程度选择变分自编码器,利用选择的变分自编码器的编码端对企业安全生产数据进行压缩并存储至企业安全风险管理平台;其中,变分自编码器参考分布的标准差参数根据企业安全生产数据异常程度等级以及预设密钥确定。
6.进一步地,所述变分自编码器参考分布的均值参数根据标准差参数确定。
7.进一步地,该方法还包括:对所述异常程度进行分级,每个异常程度等级的企业安全生产数据对应一个参考分布、一个变分自编码器。
8.进一步地,所述标准差参数与企业安全生产数据异常程度等级正相关。
9.进一步地,所述变分自编码器参考分布的标准差参数根据企业安全生产数据异常程度等级以及预设密钥确定包括:根据企业安全生产数据异常程度等级确定第一参数,第一参数与企业安全生产数据异常程度等级正相关,将第一参数与预设密钥的乘积作为变分自编码器参考分布的标准差参数。
10.进一步地,所述对企业安全生产数据进行异常检测,得到企业安全生产数据的异常程度包括:对企业安全生产数据进行聚类,噪声数据点即为企业安全生产异常数据,根据噪声数据点与聚类中心的距离确定企业安全生产数据的异常程度。
11.进一步地,所述根据噪声数据点与聚类中心的距离确定企业安全生产数据的异常程度包括:对噪声数据点与聚类中心的距离的进行归一化,归一化距离即为企业安全生产数据的异常程度。
12.进一步地,所述方法还包括:根据参考分布,利用企业安全生产数据对变分自编码器进行训练:根据企业安全生产数据异常程度等级确定误差位数;对企业安全生产数据进行至少两次末尾补数,一次是随机补数,一次是全零补数,补数位数与误差位数相等;将补数后的企业安全生产数据分别输入变分自编码器得到恢复数据。
13.进一步地,所述对所述异常程度进行分级具体为:将所述异常程度分为五级。
14.进一步地,所述变分自编码器的损失包括:随机补数后输入数据与恢复数据的差
异,全零补数后的输入数据与恢复数据的差异,参考分布与输出分布之间的差异。
15.本发明的有益效果在于:
16.本发明将企业安全生产数据采用变分自编码器的隐变量分布表示,具有极高的压缩比。不同异常程度的企业安全生产数据对应不同的变分自编码器,通过设置参考分布、误差位数等手段,使变分自编码器的恢复精度、破解难度与异常程度正相关,使数据安全与其重要程度相适应,综合提高了数据的安全性能。添加误差位数并设置对应的损失函数,确保可正确恢复出原数据,且安全生产数据异常程度越高,恢复精度越高。根据企业安全生产数据的异常程度确定参考分布,异常程度越高,参考分布的参数数值越大,企业安全生产数据越难被解码破解、解压缩,提高了数据的安全性能。由于变分自编码器具有生成作用,若采样位置错误或解码器选择错误,将恢复出与原数据不一致的信息,可起到对所存储数据安全防护的作用。
附图说明
17.图1为本发明方法流程图。
具体实施方式
18.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
19.本发明的主要目的是实现企业安全风险管理平台的安全生产数据压缩及解压缩。为了实现该目的,本发明设计了一种企业安全风险管理平台的数据存储与优化方法。
20.实施例1:
21.本实施例提供一种企业安全风险管理平台的数据存储与优化方法,图1为本发明方法流程图。企业安全风险管理平台场景下,数据主要为安全生产数据,数据异常程度通常代表数据的重要程度。
22.步骤1,对企业安全生产数据进行异常检测,得到企业安全生产数据的异常程度。该步骤输入为:企业安全生产数据,输出为:数据对应的异常程度。该步骤的目的:检测安全生产异常数据并评估异常程度;能够带来的好处:有利于后续根据数据异常程度确定不同的压缩加密程度,提高数据安全性。
23.数据异常检测为公知技术,实施者可采用二分类神经网络、自编码器、svm等多种方式实现。本实施例采用无监督的聚类算法进行异常检测,对企业安全生产数据进行聚类,噪声数据点即为企业安全生产异常数据,根据噪声数据点与聚类中心的距离确定企业安全生产数据的异常程度。其中,对噪声数据点与聚类中心的距离的进行归一化,归一化距离即为企业安全生产数据的异常程度。本实施例采用的聚类算法具体为dbscan聚类算法,进行数据所在高维空间内的密度聚类,聚类半径和数量阈值由实施者自行设置,不同数据对应的聚类半径不同,不同数据量对应的数量阈值不同,但由于本任务实际为二分类任务,因此需满足聚类后只有一个聚类集合;被判断为噪声点的数据认为是异常数据。设第n个噪声数据点与聚类集合内点的最小欧式距离为dn,以dn/d
max
表示第n个噪声数据点的异常程度,d
max
为所有噪声数据点到聚类集合内点的最小欧式距离的最大值,本实施例采用距离度量的方
式描述异常程度,实施者可根据需要选择其他度量方式,在此不作限制。此外,还可以利用神经网络分类模型直接进行企业安全生产数据的异常程度分析,输出异常程度。网络结构采用编码器-全连接层的结构,损失函数采用均方误差损失函数,训练集采用企业安全生产数据。
24.步骤2,根据企业安全生产数据的异常程度选择变分自编码器,利用选择的变分自编码器的编码端对企业安全生产数据进行压缩并存储至企业安全风险管理平台。其中,变分自编码器参考分布的标准差参数根据企业安全生产数据异常程度等级以及预设密钥确定,标准差参数与企业安全生产数据异常程度等级正相关,变分自编码器参考分布的均值参数根据标准差参数确定。步骤2的输入为:企业安全生产数据及对应的异常程度,输出为:压缩后的数据。该步骤的目的:根据企业安全生产数据异常程度确定压缩方式,能够带来的好处:高效压缩数据。优选地,参考分布标准差参数的确定方式:根据企业安全生产数据异常程度等级确定第一参数,第一参数与企业安全生产数据异常程度等级正相关,将第一参数与预设密钥的乘积作为变分自编码器参考分布的标准差参数。
25.在使用变分自编码器进行压缩之前,要进行训练。在训练之前,首先要确定需要训练几个变分自编码器。本发明根据异常程度等级个数确定变分自编码器的个数。具体地,对所述异常程度进行分级,每个异常程度等级的企业安全生产数据对应一个参考分布、一个变分自编码器。本实施例将异常程度分为五级。由于异常程度取值范围为[0,1],则异常程度值在[0,0.2)区间为第一级,异常程度值在[0.2,0.4)区间为第二级,异常程度值在[0.4,0.6)区间为第三级,异常程度值在[0.6,0.8)区间为第四级,异常程度值在[0.8,1.0]区间为第五级;实施者可根据需要确定不同的分级方式,分级的目的在于,用于确定后续压缩过程,且分级在整体压缩前确定并不允许更改,若存在更改,则需要重新对后续网络进行训练。根据分级确定需要训练的变分自编码器个数,本实施例分为五级,则需要训练五个变分自编码器。
[0026]
与现有变分自编码器不同的是,本发明变分自编码器在训练过程中,编码生成的隐变量分布不向标准正态分布看齐,而是根据其所对应安全生产数据异常程度等级确定参考分布。参考分布的标准差参数与企业安全生产数据异常程度等级呈正相关。具体地,首先根据变分自编码器对应安全生产数据异常等级确定大质数pc(第一参数),其中c为等级,等级越大,大质数也越大,并由实施者设置大质数q作为解压密钥(预设密钥),则获取参考正态分布n~(μc,(pc*q)2),其中μc为均值参数,(pc*q)2为方差参数,μc为大质数pc各位之和。
[0027]
此外,为了提高变分自编码器的解压缩精度,本发明还确定误差位数,误差位数与企业安全生产数据异常程度等级呈正相关。误差位数的一种实施方式:kc=[pc/μc],其中,kc为误差位数,此处[
·
]表示向下取整;误差位数用于在训练时对输入数据进行末尾补数,例如若数据为二进制数10,误差位数为2,则输入数据变更为10xx。误差位数的另一种实施方式:kc=[log(pc)],优选地,log(pc)以10为底。
[0028]
利用企业安全生产数据对变分自编码器进行训练:根据企业安全生产数据异常程度等级确定误差位数;对企业安全生产数据进行至少两次末尾补数,一次是随机补数,一次是全零补数,补数位数与误差位数相等;将补数后的企业安全生产数据分别输入变分自编码器得到恢复数据。
[0029]
变分自编码器的训练过程具体如下:同一异常程度等级的安全生产数据作为训练
数据集,由于变分自编码器的训练为无监督训练,不需要进行人为标注;根据安全生产数据异常程度等级c确定误差位数kc,在训练集末尾补数,所补数值可随机生成,不作约束;训练的损失函数l:
[0030]
l=ω1lr ω2lr ω3l
p
[0031]
其中,lr为整体重构损失,ω1为整体重构损失对应的权值,lr为原数据重构损失,ω2为原数据重构损失对应的权值,l
p
为隐变量分布损失,ω3为隐变量分布损失对应的权值;
[0032]
具体地,整体重构损失:
[0033]
lr=||x
′‑
x||2[0034]
其中,x为末尾随机补数后的输入数据,x’为恢复数据;
[0035]
原数据重构损失:
[0036]
lr=||y
′‑
y||2[0037]
其中,y为末尾补数置0的输入数据,y’为y对应恢复数据末尾置零后的数据;
[0038]
l
p
=d
kl
[n(μ,σ2)||n(μc,(pc*q)2)]
[0039]
其中,n(μ,σ2)为隐变量分布,n(μc,(pc*q)2)为参考正态分布,d
kl
()表示kl散度;上述各项权值中,ω2大于ω1,即确保原数据重构的准确性,优选地,三个权值分别设置为0.4、0.6、1;另,变分自编码器需要重参数技巧确保网络可以训练,而不同安全服务数据异常等级对应的基础分布不一致,基础分布为n(0,p
c2
),则重参数变换形如z=μ ε*σ/pc,其中,z为在隐变量分布上的采样点,ε为在基础分布上的采样点。
[0040]
上述多个变分自编码器训练完毕后,在使用过程中,实施者将安全生产数据按照其数据异常等级进行末尾随机补数,然后输入对应的变分自编码器中,经编码器输出隐变量分布,隐变量分布的每一维度均可以均值和方差两个值表示,隐变量分布即为压缩数据,相较于输入数据起到了极大的数据压缩效果。
[0041]
本发明压缩方式的有益效果在于:将输入数据采用变分自编码器的隐变量分布表示,具有极高的压缩比;由于变分自编码器具有生成作用,若采样位置错误或解码器选择错误,将恢复出与原数据不一致的信息,可起到所存储数据安全防护的作用;添加误差位数并设置对应的损失函数,确保可正确恢复出原数据;不同安全服务数据异常等级对应的数据重要程度不同,设置正相关函数,起到异常等级越严重,误差位数越多的效果,则即使数据恢复出现错误,原数据被保留的概率也相对更大;更改变分自编码器损失函数中kl散度度量对象,保证其方差不为0且具有生成作用的同时根据其分布有不同的恢复数据能力;采用大质数作为方差,并添加大质数密钥,可起到更为安全的数据安全防护,此处基于的先验为大质数分解问题。
[0042]
实施例2:
[0043]
本实施例提供一种企业安全风险管理平台的数据存储与优化方法。本实施例在实施例1的基础上,进一步给出解压缩方法。
[0044]
对企业安全生产数据解压缩能够带来的好处:在持有密钥时可准确恢复原数据,否则将会恢复出错误数据。该过程输入为:压缩后的数据,输出为:恢复出的安全生产原数据。解压缩过程包括:解压缩端根据携带的预设密钥以及压缩数据的标准差参数得到第一参数;然后确定第一参数与压缩数据的均值参数是否满足预设条件,若满足则根据第一参
数生成基础分布,在基础分布上采样获取采样值,利用解码端对采样值进行解压缩恢复,得到恢复数据;确定误差位数,将误差位数从恢复数据中删除得到解压缩数据。其中,预设条件包括:第一参数各数据位之和与均值参数相等。预设条件还包括:第一参数各数据位之和与均值参数的误差在可容忍误差范围内。优选地,采样值不为零。
[0045]
具体地,压缩后的数据为隐变量分布的均值μc和方差(pc*q)2,由于各维度分别独立的,此处以单维度说明。若解压缩者携带有预设密钥q,则可根据方差数据恢复出pc(第一参数),否则,则是大质数分解问题。为消除变分自编码网络精度的影响,在恢复第一参数(隐变量标准差/预设密钥)时,取最接近相除结果的质数为第一参数。
[0046]
恢复出pc后,解压缩者可进行均值验证,即根据恢复出的pc各位相加与均值μc对比,若满足预设条件则确认解压缩者的解压缩操作有效。恢复出pc后,基于分布n(0,p
c2
)进行采样,采样点限制为非零整数,再经过重参数变换获取对应n(μc,(pc*q)2)上的采样点,此处限制在分布n(0,p
c2
)进行采样的采样点为非零整数(即ε应为非零整数),则确定n(μc,(pc*q)2)分布上对应的离散采样点,仅当采样点为预存离散采样点(ε为非零整数时输出分布上对应的采样点)时,数据解压缩,否则,数据加锁无法被读取。
[0047]
需要说明的是,本发明设置在基础分布上的采样值不能为零,对本发明的实施十分关键,其具有如下效果:解压缩端必须恢复出第一参数,才能获得正确的值,避免了未携带预设密钥的用户的解压缩读取。若解压缩者不持有预设密钥,直接在n(μc,(pc*q)2)分布上采样,此时采样点难以与预存的离散采样点匹配,数据无法被读取。数据可以解压缩后,将采样点数据送入解码器,输出恢复数据。然后,根据pc、或pc和μc确定误差位数,进而得到解压缩数据。需要说明的是,为防止恶意读取安全服务异常数据,本技术建议设置解压次数限制,如设置为两次,当两次均解压失败时数据加锁,且生成预警信息上报管理终端。
[0048]
以上实施例仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献