一种数据存储方法、系统、计算机设备及存储介质与流程

2022-05-18 16:00:58 来源：中国专利 TAG：

1.本发明涉及数据存储技术领域，具体是涉及一种数据存储方法、系统、计算机设备及存储介质。

背景技术：

2.企业在生产经营过程中会产生大量数据，有时需要对这些数据进行存储，随着工业互联网的普及，大量电子数据应运而生，很多企业都配备有自己的存储设备，用于存储电子数据，但是随着生产经营的不断进行，产生的数据越来越多，会消耗大量的存储空间。
3.现有技术中，经常对数据进行压缩之后再进行存储，这样能够减少一定的存储占用空间，目前数据压缩算法的基本原理就是找到数据中相同的部分或者是找到数据的字符规律，对于数据中相同的出现频次高的内容使用占用空间更小的字符进行替换，但是，现有的压缩一般是针对一份数据而言，不能够对多份数据的相同部分进行高效压缩，数据压缩量较少。因此，需要提供一种数据存储方法、系统、计算机设备及存储介质，旨在解决上述问题。

技术实现要素：

4.针对现有技术存在的不足，本发明的目的在于提供一种数据存储方法、系统、计算机设备及存储介质，以解决上述背景技术中存在的问题。
5.本发明是这样实现的，一种数据存储方法，所述方法包括以下步骤：
6.对上传数据的用户终端进行身份识别，根据识别得到的身份信息将所述上传数据存储至对应部门的存储模块中；
7.当存储模块中未压缩数据的存储量达到第一预设值时，提取出所有未压缩数据的文件名，根据文件名对未压缩数据进行自动分组，在每组数据中添加标记；
8.对每一组的未压缩数据进行一次压缩形成一次压缩数据，根据添加的标记对一次压缩数据进行二次压缩。
9.作为本发明进一步的方案：所述当存储模块中未压缩数据的存储量达到第一预设值时，提取出所有未压缩数据的文件名，根据文件名对未压缩数据进行自动分组，在每组数据中添加标记的步骤，具体包括：
10.实时监控存储模块中未压缩数据的存储量，当未压缩数据的存储量达到第一预设值时，自动提取出所有未压缩数据的文件名；
11.对未压缩数据的文件名进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组；
12.对每组数据的所有文件名进行分析得到标记，在每组数据上添加所述标记。
13.作为本发明进一步的方案：所述对未压缩数据的文件名进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组的步骤，具体包括：
14.随机挑选一个文件名，将所述文件名与剩余的所有文件名逐一进行相似度匹配得
到若干个相似度，即每次有两个文件名之间进行相似度匹配，将所有相似度达到第二预设值的未压缩数据与挑选的文件名所对应的数据归类为一组；
15.对相似度未达到第二预设值的未压缩数据再次进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组；
16.重复上述步骤，直至剩余的未压缩数据的份数为一或者零。
17.作为本发明进一步的方案：所述两个文件名之间进行相似度匹配的步骤，具体包括：
18.分别提取出两个文件名的字符得到第一字符信息的第二字符信息；
19.对比得到第一字符信息和第二字符信息中相同字符的数量；
20.计算得到相似度，所述相似度＝相同字符的数量*相同字符的数量/(第一字符信息中字符的数量*第二字符信息中字符的数量)。
21.作为本发明进一步的方案：所述对每组数据的所有文件名进行分析得到标记，在每组数据上添加所述标记的步骤，具体包括：
22.提取出一组数据的所有文件名的字符，文件名总数量值；
23.对每个字符出现的次数进行计数得到所述字符数量值；
24.将字符数量值除以文件名总数量值得到参考值，当所述参考值大于第三预设值时，参考值对应的字符即为标记，在每组数据上添加所述标记。
25.作为本发明进一步的方案：所述根据添加的标记对一次压缩数据进行二次压缩的步骤，具体包括：
26.每隔预定时间，获取所有一次压缩数据对应的标记；
27.当若干个一次压缩数据的标记相同时，将若干个一次压缩数据归为一组；
28.对一组一次压缩数据进行二次压缩。
29.本发明的另一目的在于提供一种数据存储系统，所述系统包括：
30.分类存储模块，用于对上传数据的用户终端进行身份识别，根据识别得到的身份信息将所述上传数据存储至对应部门的存储模块中；
31.未压缩数据分组模块，当存储模块中未压缩数据的存储量达到第一预设值时，提取出所有未压缩数据的文件名，根据文件名对未压缩数据进行自动分组，在每组数据中添加标记；以及
32.数据压缩模块，用于对每一组的未压缩数据进行一次压缩形成一次压缩数据，根据添加的标记对一次压缩数据进行二次压缩。
33.作为本发明进一步的方案：所述未压缩数据分组模块包括：
34.存储量监控单元，用于实时监控存储模块中未压缩数据的存储量，当未压缩数据的存储量达到第一预设值时，自动提取出所有未压缩数据的文件名；
35.相似度计算单元，用于对未压缩数据的文件名进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组；以及
36.标记添加单元，用于对每组数据的所有文件名进行分析得到标记，在每组数据上添加所述标记。
37.本发明的另一目的在于提供一种计算机设备，包括显示屏、存储器、处理器以及计算机程序，其中所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使
得所述处理器执行所述数据存储方法的步骤。
38.本发明的另一目的在于提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述数据存储方法的步骤。
39.与现有技术相比，本发明的有益效果是：本发明能够对数据按照企业部门进行分散存储，当存储模块中未压缩数据的存储量达到第一预设值时，提取出所有未压缩数据的文件名，根据文件名对未压缩数据进行自动分组，以使得每一组数据具有更多的共性，并在每组数据中添加标记，所述标记能够反映出该组数据的共性；对每一组的未压缩数据进行一次压缩形成一次压缩数据，根据添加的标记对一次压缩数据进行二次压缩，将具有相同标记的一次压缩数据进行再次压缩，如此，能够快速找到数据的相同点，压缩速度快，且被压缩量较大，能够减少数据的占用空间。
附图说明
40.图1为一种数据存储方法的流程图。
41.图2为一种数据存储方法中根据文件名对未压缩数据进行自动分组的流程图。
42.图3为一种数据存储方法中将相似度达到第二预设值的未压缩数据分为一组的流程图。
43.图4为一种数据存储方法中两个文件名之间进行相似度匹配的流程图。
44.图5为一种数据存储方法中对每组数据的所有文件名进行分析得到标记，在每组数据上添加所述标记的流程图。
45.图6为一种数据存储方法中根据添加的标记对一次压缩数据进行二次压缩的流程图。
46.图7为一种数据存储系统的结构示意图。
47.图8为一种数据存储系统中未压缩数据分组模块的结构示意图。
具体实施方式
48.为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
49.以下结合具体实施例对本发明的具体实现进行详细描述。
50.如图1所示，本发明实施例提供了一种数据存储方法，所述方法包括以下步骤：
51.s100，对上传数据的用户终端进行身份识别，根据识别得到的身份信息将所述上传数据存储至对应部门的存储模块中；
52.s200，当存储模块中未压缩数据的存储量达到第一预设值时，提取出所有未压缩数据的文件名，根据文件名对未压缩数据进行自动分组，在每组数据中添加标记；
53.s300，对每一组的未压缩数据进行一次压缩形成一次压缩数据，根据添加的标记对一次压缩数据进行二次压缩。
54.需要说明的是，企业在生产经营过程中会产生大量数据，有时需要对这些数据进行存储，随着工业互联网的普及，大量电子数据应运而生，很多企业都配备有自己的存储设备，用于存储电子数据，但是随着生产经营的不断进行，产生的数据越来越多，会消耗大量
的存储空间，因此，现有技术中，经常对数据进行压缩之后再进行存储，这样能够减少一定的存储占用空间，目前数据压缩算法的基本原理就是找到数据中相同的部分或者是找到数据的字符规律，对于数据中相同的出现频次高的内容使用占用空间更小的字符进行替换，但是，现有的压缩一般是针对一份数据而言，不能够对多份数据的相同部分进行高效压缩，数据压缩量较少，对于企业数据而言，数据之间具有较高的相似度，例如部门报表，如何利用这一特性进一步降低存储数据的占用空间，是本发明实施例旨在解决的问题。
55.本发明实施例中，首先需要对上传数据的用户终端进行身份识别，根据识别得到的身份信息将所述上传数据存储至对应部门的存储模块中，本发明实施例事先会根据企业的部门数量建立若干个存储模块中，当企业员工上传需要进行存储的数据时，本发明实施例能够自动对所述企业员工的用户终端进行识别，得到用户终端所属部门，将所述上传数据存储至对应部门的存储模块，这样既能够对数据进行分类存储，又能够增加同一存储模块中数据的共性，方便后续的压缩工作，因为同一部门的数据的相同点较多，例如，一份数据是工程部的员工上传的，则将该份数据自动存储在属于工程部的存储模块中；另外当存储模块中未压缩数据的存储量达到第一预设值时，提取出所有未压缩数据的文件名，根据文件名对未压缩数据进行自动分组，在每组数据中添加标记，这里，首先会设置一个第一预设值，每当存储模块中未压缩数据的存储量达到第一预设值时，准备对未压缩数据进行压缩，那么如何对未压缩数据进行高效压缩，这里根据未压缩数据的文件名对未压缩数据进行自动分组，以使得每一组数据具有更多的共性，并在每组数据中添加标记，所述标记能够反映出该组数据的共性，最后对每一组的未压缩数据进行一次压缩形成一次压缩数据，并根据添加的标记对一次压缩数据进行二次压缩，这里是将具有相同标记的一次压缩数据进行再次压缩，如此，能够快速找到数据的相同点，压缩速度快，且被压缩量较大，能够减少数据的占用空间。
56.如图2所示，作为本发明一个优选的实施例，所述当存储模块中未压缩数据的存储量达到第一预设值时，提取出所有未压缩数据的文件名，根据文件名对未压缩数据进行自动分组，在每组数据中添加标记的步骤，具体包括：
57.s201，实时监控存储模块中未压缩数据的存储量，当未压缩数据的存储量达到第一预设值时，自动提取出所有未压缩数据的文件名；
58.s202，对未压缩数据的文件名进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组；
59.s203，对每组数据的所有文件名进行分析得到标记，在每组数据上添加所述标记。
60.本发明实施例中，在对未压缩数据进行一次压缩之前，需要提取出所有未压缩数据的文件名，然后对未压缩数据的文件名进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组，最后对每组数据的所有文件名进行分析得到标记，在每组数据上添加所述标记，例如，未压缩数据中的两份数据的文件名分别是“7月产品不合格报表”和“8月产品不合格报表”，则这两个文件名的相似度大于第二预设值，将这两份数据分为一组，同时在该组数据中添加标记，所述标记可以是“产品不合格报表”，这样方便对该组数据进行二次压缩。
61.如图3所示，作为本发明一个优选的实施例，所述对未压缩数据的文件名进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组的步骤，具体包括：
62.s2021，随机挑选一个文件名，将所述文件名与剩余的所有文件名逐一进行相似度匹配得到若干个相似度，即每次有两个文件名之间进行相似度匹配，将所有相似度达到第二预设值的未压缩数据与挑选的文件名所对应的数据归类为一组；
63.s2022，对相似度未达到第二预设值的未压缩数据再次进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组；
64.s2023，重复上述步骤，直至剩余的未压缩数据的份数为一或者零。
65.本发明实施例中，所述第二预设值是事先设置好的，未压缩数据中所有数据的文件名为：“7月产品不合格报表”、“8月产品不合格报表”、“9月产品不合格报表”、“7月产品出库统计表”、“8月产品出库统计表”以及“第三季度工作总结”，首先随机挑选一个文件名，将所述文件名与剩余的所有文件名逐一进行相似度匹配得到若干个相似度，将所有相似度达到第二预设值的未压缩数据与挑选的文件名所对应的数据归类为一组，例如挑选的文件名为“7月产品不合格报表”，则将“7月产品不合格报表”与剩余的5个文件名进行相似度计算，得到“8月产品不合格报表”以及“9月产品不合格报表”与“7月产品不合格报表”之间的相似度达到第二预设值，自动将“7月产品不合格报表”、“8月产品不合格报表”和“9月产品不合格报表”对应的数据归类为一组；接着将相似度未达到第二预设值的“7月产品出库统计表”、“8月产品出库统计表”以及“第三季度工作总结”所对应的未压缩数据再次进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组，依然是随机挑选一个文件名，例如为“7月产品出库统计表”，然后根据相似度结果，将“7月产品出库统计表”和“8月产品出库统计表”对应的数据归类为一组，此时，只剩下“第三季度工作总结”对应的数据没有分组，剩余的未压缩数据的份数为一，则“第三季度工作总结”对应的数据自动成为一组。
66.如图4所示，作为本发明一个优选的实施例，所述两个文件名之间进行相似度匹配的步骤，具体包括：
67.s20211，分别提取出两个文件名的字符得到第一字符信息的第二字符信息；
68.s20212，对比得到第一字符信息和第二字符信息中相同字符的数量；
69.s20213，计算得到相似度，所述相似度＝相同字符的数量*相同字符的数量/(第一字符信息中字符的数量*第二字符信息中字符的数量)。
70.本发明实施例中，例如将“7月产品不合格报表”和“8月产品不合格报表”进行相似度匹配，首先得到第一字符信息的第二字符信息分别为：“7、月、产、品、不、合、格、报、表”和“8、月、产、品、不、合、格、报、表”，对比得到第一字符信息和第二字符信息中相同字符的数量，这里相同字符的数量为8个，则相似度＝相同字符的数量*相同字符的数量/(第一字符信息中字符的数量*第二字符信息中字符的数量)＝8*8/(9*9)＝79％，例如第二预设值为50％，则“7月产品不合格报表”和“8月产品不合格报表”对应的数据被归类为一组。
71.如图5所示，作为本发明一个优选的实施例，所述对每组数据的所有文件名进行分析得到标记，在每组数据上添加所述标记的步骤，具体包括：
72.s2031，提取出一组数据的所有文件名的字符，得到文件名总数量值；
73.s2032，对每个字符出现的次数进行计数得到所述字符数量值；
74.s2033，将字符数量值除以文件名总数量值得到参考值，当所述参考值大于第三预设值时，参考值对应的字符即为标记，在每组数据上添加所述标记。
75.本发明实施例中，在添加标记之前，需要提取出一组数据的所有文件名的字符，例
如一组数据的所有文件名的字符为“7、月、产、品、不、合、格、报、表、7、月、产、品、不、合、格、报、表、9、月、产、品、不、合、格、报、表”，文件名总数量值为3个，然后对每个字符出现的次数进行计数得到所述字符数量值，例如7、8以及9的字符数量值为1，月、产、品、不、合、格、报以及表的字符数量值为3，最后将字符数量值除以文件名总数量值得到参考值，当所述参考值大于第三预设值时，参考值对应的字符即为标记，在每组数据上添加所述标记，例如第三预设值为80％，月、产、品、不、合、格、报以及表的参考值为100％，则该组数据的标记为“月产品不合格报表”。
76.如图6所示，作为本发明一个优选的实施例，所述根据添加的标记对一次压缩数据进行二次压缩的步骤，具体包括：
77.s301，每隔预定时间，获取所有一次压缩数据对应的标记；
78.s302，当若干个一次压缩数据的标记相同时，将若干个一次压缩数据归为一组；
79.s303，对一组一次压缩数据进行二次压缩。
80.本发明实施例中，每隔一定时间，获取所有一次压缩数据对应的标记，例如“7月产品不合格报表”、“8月产品不合格报表”和“9月产品不合格报表”对应的一次压缩数据的标记为“月产品不合格报表”；之前已经压缩过的“4月产品不合格报表”、“5月产品不合格报表”和“6月产品不合格报表”对应的一次压缩数据的标记为“月产品不合格报表”，这两个压缩数据的标记相同，则将这两个一次压缩数据归为一组，对一组一次压缩数据进行二次压缩，如此能够进一步减少数据的占用空间。
81.如图7所示，本发明实施例还提供了一种数据存储系统，所述系统包括：
82.分类存储模块100，用于对上传数据的用户终端进行身份识别，根据识别得到的身份信息将所述上传数据存储至对应部门的存储模块中；
83.未压缩数据分组模块200，当存储模块中未压缩数据的存储量达到第一预设值时，提取出所有未压缩数据的文件名，根据文件名对未压缩数据进行自动分组，在每组数据中添加标记；以及
84.数据压缩模块300，用于对每一组的未压缩数据进行一次压缩形成一次压缩数据，根据添加的标记对一次压缩数据进行二次压缩。
85.本发明实施例中，首先需要对上传数据的用户终端进行身份识别，根据识别得到的身份信息将所述上传数据存储至对应部门的存储模块中，本发明实施例事先会根据企业的部门数量建立若干个存储模块中，当企业员工上传需要进行存储的数据时，本发明实施例能够自动对所述企业员工的用户终端进行识别，得到用户终端所属部门，将所述上传数据存储至对应部门的存储模块，这样既能够对数据进行分类存储，又能够增加同一存储模块中数据的共性，方便后续的压缩工作，因为同一部门的数据的相同点较多，例如，一份数据是工程部的员工上传的，则将该份数据自动存储在属于工程部的存储模块中；另外当存储模块中未压缩数据的存储量达到第一预设值时，提取出所有未压缩数据的文件名，根据文件名对未压缩数据进行自动分组，在每组数据中添加标记，这里，首先会设置一个第一预设值，每当存储模块中未压缩数据的存储量达到第一预设值时，准备对未压缩数据进行压缩，那么如何对未压缩数据进行高效压缩，这里根据未压缩数据的文件名对未压缩数据进行自动分组，以使得每一组数据具有更多的共性，并在每组数据中添加标记，所述标记能够反映出该组数据的共性，最后对每一组的未压缩数据进行一次压缩形成一次压缩数据，并
根据添加的标记对一次压缩数据进行二次压缩，这里是将具有相同标记的一次压缩数据进行再次压缩，如此，能够快速找到数据的相同点，压缩速度快，且被压缩量较大，能够减少数据的占用空间。
86.如图8所示，作为本发明一个优选的实施例，所述未压缩数据分组模块200包括：
87.存储量监控单元201，用于实时监控存储模块中未压缩数据的存储量，当未压缩数据的存储量达到第一预设值时，自动提取出所有未压缩数据的文件名；
88.相似度计算单元202，用于对未压缩数据的文件名进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组；以及
89.标记添加单元203，用于对每组数据的所有文件名进行分析得到标记，在每组数据上添加所述标记。
90.本发明实施例中，在对未压缩数据进行一次压缩之前，需要提取出所有未压缩数据的文件名，然后对未压缩数据的文件名进行相似度计算，将相似度达到第二预设值的未压缩数据分为一组，最后对每组数据的所有文件名进行分析得到标记，在每组数据上添加所述标记，例如，未压缩数据中的两份数据的文件名分别是“7月产品不合格报表”和“8月产品不合格报表”，则这两个文件名的相似度大于第二预设值，将这两份数据分为一组，同时在该组数据中添加标记，所述标记可以是“产品不合格报表”，这样方便对该组数据进行二次压缩。
91.本发明实施例还提供了一种计算机设备，包括显示屏、存储器、处理器以及计算机程序，其中所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述数据存储方法中的具体步骤。
92.本发明实施例还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述数据存储方法中的具体步骤。
93.以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
94.应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
95.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器
(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
96.本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种车辆朝向识别和获取的方法与流程

一种数据存储方法、系统、计算机设备及存储介质与流程

相关文献

最热文献