一种非结构化数据分布式存储方法及装置与流程

2022-04-16 12:30:34 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，更具体的，涉及一种非结构化数据分布式存储方法及装置。

背景技术：

2.随着业务的快速发展，系统中的非结构化数据呈现出海量增长的趋势，并且在这些非结构化数据中以中小型文档、图片、压缩包等文件居多。目前对于非结构化数据的存储方法主要还是：采用mysql等关系型数据库存储文件的元数据信息，采用集中式来存储原始文件，之后通过建立mysql与集中式存储的映射关系来实现文件的检索、查看、修改以及下载等功能。
3.但是，随着非结构化数据的不断增多，此种方法弊端逐渐显现出来，在数据量大的场景下该种存储方法存在检索效率、存储效率和存储性能较低等缺点，并且采用集中式方式存储文件会出现单点故障不易解决，容量空间扩容较难，数据备份机制不完善等问题，影响数据的安全性、稳定性以及高效性。

技术实现要素：

4.有鉴于此，本发明提供了一种非结构化数据分布式存储方法及装置，实现对非结构化数据的高效分布式存储。
5.为了实现上述发明目的，本发明提供的具体技术方案如下：
6.一种非结构化数据分布式存储方法，包括：
7.提取待存储非结构化数据的元数据信息；
8.将所述待存储非结构化数据的元数据信息存储在elasticsearch集群中，并生成所述待存储非结构化数据的元数据信息的elasticsearch索引；
9.将所述待存储非结构化数据存储在hbase mob集群中，并生成所述待存储非结构化数据的行键；
10.建立所述待存储非结构化数据的元数据信息的elasticsearch索引与行键之间的映射关系。
11.可选的，所述提取待存储非结构化数据的元数据信息，包括：
12.提取所述待存储非结构化数据的特征信息；
13.利用elasticsearch-analysis-ik对需要分词的特征信息进行分词；
14.将不需要分词的特征信息和分词后得到的特征信息确定为所述待存储非结构化数据的元数据信息。
15.可选的，将所述待存储非结构化数据的元数据信息存储在elasticsearch集群中，包括：
16.根据预设设定的分类规则，将所述待存储非结构化数据的元数据信息进行分类；
17.将分类完成之后的元数据信息分别存储到elasticsearch集群中对应的元数据存
储区。
18.可选的，将所述待存储非结构化数据存储在hbase mob集群中，并生成所述待存储非结构化数据的行键，包括：
19.将所述待存储非结构化数据存储在hbase mob集群中的写区，并生成所述待存储非结构化数据在所述写区的行键；
20.将所述写区存储的所述待存储非结构化数据同步存储到hbase mob集群中的读区，并生成所述待存储非结构化数据在所述读区的行键。
21.可选的，所述方法还包括：
22.检测所述写区的非结构化数据是否满足自动备份规则；
23.将满足所述自动备份规则的目标非结构化数据从所述写区转移至hbase mob集群中的备份区，并生成所述目标非结构化数据在所述备份区的行键；
24.删除所述读区中的所述目标非结构化数据。
25.一种非结构化数据分布式存储装置，包括：
26.元数据提取单元，用于提取待存储非结构化数据的元数据信息；
27.元数据存储单元，用于将所述待存储非结构化数据的元数据信息存储在elasticsearch集群中，并生成所述待存储非结构化数据的元数据信息的elasticsearch索引；
28.原始文件存储单元，用于将所述待存储非结构化数据存储在hbase mob集群中，并生成所述待存储非结构化数据的行键；
29.映射关系建立单元，用于建立所述待存储非结构化数据的元数据信息的elasticsearch索引与行键之间的映射关系。
30.可选的，所述元数据提取单元，具体用于：
31.提取所述待存储非结构化数据的特征信息；
32.利用elasticsearch-analysis-ik对需要分词的特征信息进行分词；
33.将不需要分词的特征信息和分词后得到的特征信息确定为所述待存储非结构化数据的元数据信息。
34.可选的，所述元数据存储单元，具体用于：
35.根据预设设定的分类规则，将所述待存储非结构化数据的元数据信息进行分类；
36.将分类完成之后的元数据信息分别存储到elasticsearch集群中对应的元数据存储区。
37.可选的，所述原始文件存储单元，包括：
38.写区存储子单元，用于将所述待存储非结构化数据存储在hbase mob集群中的写区，并生成所述待存储非结构化数据在所述写区的行键；
39.自动同步子单元，用于将所述写区存储的所述待存储非结构化数据同步存储到hbase mob集群中的读区，并生成所述待存储非结构化数据在所述读区的行键。
40.可选的，所述原始文件存储单元还包括：
41.自动备份子单元，用于检测所述写区的非结构化数据是否满足自动备份规则；将满足所述自动备份规则的目标非结构化数据从所述写区转移至hbase mob集群中的备份区，并生成所述目标非结构化数据在所述备份区的行键；
42.所述自动同步子单元，还用于删除所述读区中的所述目标非结构化数据。
43.相对于现有技术，本发明的有益效果如下：
44.本发明公开的一种非结构化数据分布式存储方法，使用具有高扩展、实时存储以及检索功能的elasticsearch存储非结构化数据的元数据信息，用来替代原来mysql存储元数据的功能。使用高可靠、高性能、可伸缩的分布式存储系统hbase mob替代原来的集中式存储来管理非结构化数据，通过建立elasticsearch索引与hbase mob行键的映射关系，实现对非结构化数据的高效分布式存储，便于后续实现对非结构化数据的高效检索、查看、修改、下载等功能。本发明通过elasticsearch hbase mob的存储方法，可以有效的解决当前存在的检索速度慢、存储效率低、扩容受限制、备份不容易等问题，提高非结构化数据存储的安全性、稳定性以及高效性。
附图说明
45.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
46.图1为本发明实施例公开的一种非结构化数据分布式存储方法的流程示意图；
47.图2为本发明实施例公开的基于elasticsearch hbase mob的存储示意图；
48.图3为本发明实施例公开的另一种非结构化数据分布式存储方法的流程示意图；
49.图4为本发明实施例公开的一种非结构化数据分布式存储方法的部分方法流程示意图；
50.图5为本发明实施例公开的一种非结构化数据分布式存储装置的结构示意图。
具体实施方式
51.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
52.为了方便理解本发明所公开的技术方案，首先对本发明可能涉及的术语和概念进行简要介绍：
53.elasticsearch：简称es，是一个高扩展的分布式全文检索引擎，它可以近乎实时地存储、检索数据。
54.hbase mob：作为一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，其具有线性拓展方便、备份机制健全以及访问速度快等特点。适合海量存储中小型文件、扩展性要求高以及高并发等应用场景。
55.本发明利用elasticsearch与hbase mob的优势，提供了一种基于elasticsearch hbase mob的非结构化数据分布式存储方法，使用具有高扩展、实时存储以及检索功能的elasticsearch存储非结构化数据的元数据信息，用来替代原来mysql存储元数据功能。使用高可靠、高性能、可伸缩的分布式存储系统hbase mob替代原来的集中式存储来管理非结
构化数据，通过建立elasticsearch索引与hbase mob行键的映射关系，实现对非结构化数据的高效分布式存储，便于后续实现对非结构化数据的高效检索、查看、修改、下载等功能。
56.具体的，请参阅图1，本实施例公开的一种非结构化数据分布式存储方法包括以下步骤：
57.s101：提取待存储非结构化数据的元数据信息；
58.待存储非结构化数据可以为中小型文档、图片、压缩包等文件。
59.具体，提取待存储非结构化数据的元数据信息包括：
60.首先，提取待存储非结构化数据的特征信息，特征信息包括：文件作者、文件名称、文件类型、修改时间、文件格式、涉及业务系统编号等。
61.由于文件名称可能会比较长，需要对其进行分词处理，具体的，可以利用elasticsearch-analysis-ik对需要分词的特征信息进行分词。
62.最后将不需要分词的特征信息和分词后得到的特征信息确定为待存储非结构化数据的元数据信息。
63.s102：将待存储非结构化数据的元数据信息存储在elasticsearch集群中，并生成待存储非结构化数据的元数据信息的elasticsearch索引；
64.由于在搭建elasticsearch集群时已经设置了elasticsearch索引以及类型，选择了合适的分片策略，配置了settings(elasticsearch索引的定义信息)、mapping(elasticsearch索引的存储类型、分词方式以及是否存储等信息)、分类规则(如按照文件作者、文件名称、文件类型、修改时间/上传时间等规则进行分类)等。
65.因此，在提取待存储非结构化数据的元数据信息之后，就可以根据预先设定的分类规则将待存储非结构化数据的元数据信息进行分类，然后将分类完成之后的元数据信息分别存储到elasticsearch集群中对应的元数据存储区，并生成待存储非结构化数据的元数据信息的elasticsearch索引。
66.s103：将待存储非结构化数据存储在hbase mob集群中，并生成待存储非结构化数据的行键；
67.需要说明的是，在搭建hbase mob集群时，根据实际业务场景，对hbase mob的行键(rowkey)进行合理设计，因此，在将待存储非结构化数据存储在hbase mob集群中时，可以生成待存储非结构化数据的行键。
68.s104：建立待存储非结构化数据的元数据信息的elasticsearch索引与行键之间的映射关系。
69.通过建立待存储非结构化数据的元数据信息的elasticsearch索引与行键之间的映射关系，在对已存储的非结构化数据进行检索、查看、修改、下载等操作时，就可以利用非结构化数据的元数据信息的elasticsearch索引与行键之间的映射关系，对已存储的非结构化数据进行检索、查看、修改、下载等操作。
70.可见，本实施例公开的一种非结构化数据分布式存储方法，使用具有高扩展、实时存储以及检索功能的elasticsearch存储非结构化数据的元数据信息，用来替代原来mysql存储元数据的功能。使用高可靠、高性能、可伸缩的分布式存储系统hbase mob替代原来的集中式存储来管理非结构化数据，通过建立elasticsearch索引与hbase mob行键的映射关系，实现对非结构化数据的高效分布式存储，便于后续实现对非结构化数据的高效检索、查
看、修改、下载等功能。本发明通过elasticsearch hbase mob的存储方法，可以有效的解决当前存在的检索速度慢、存储效率低、扩容受限制、备份不容易等问题，提高非结构化数据存储的安全性、稳定性以及高效性。
71.进一步，为了实现读/写分离，本实施例在hbase mob集群中设立读区和写区，并为了节省读/写区空间，本实施例在hbase mob集群中设立备份区，请参阅图2，在搭建hbase mob集群时，在hbase mob集群原始文件存储区中设立读区、写区和备份区，根据实际业务场景对hbase mob的rowkey进行合理的设计，分别建立elasticsearch索引与读区rowkey之间的映射关系、elasticsearch索引与写区rowkey之间的映射关系以及elasticsearch索引与备份区rowkey之间的映射关系。写区文件修改完成之后，读区对应文件自动同步更新，通过设置自动备份规则(如：文件距今最近一次修改或存储的时间超出三个月)，对该类写频率较低的冷文件或老文件，自动从写区转移至备份区，节省读/写区空间。
72.在此基础上，请参阅图3，本实施例公开的一种非结构化数据分布式存储方法包括以下步骤：
73.s201：提取待存储非结构化数据的元数据信息；
74.s202：将待存储非结构化数据的元数据信息存储在elasticsearch集群中，并生成待存储非结构化数据的元数据信息的elasticsearch索引；
75.s203：将待存储非结构化数据存储在hbase mob集群中的写区，并生成待存储非结构化数据在写区的行键；
76.s204：将写区存储的待存储非结构化数据同步存储到hbase mob集群中的读区，并生成待存储非结构化数据在读区的行键；
77.s205：分别建立待存储非结构化数据的元数据信息的elasticsearch索引与待存储非结构化数据在写区和读区的行键之间的映射关系。
78.请参阅图4，本实施例公开了一种自动备份方法，具体包括以下步骤：
79.s301：检测写区的非结构化数据是否满足自动备份规则；
80.自动备份规则可以为：文件距今最近一次修改或存储的时间超出预先设定的时间，如3个月。
81.s302：将满足自动备份规则的目标非结构化数据从写区转移至hbase mob集群中的备份区，并生成目标非结构化数据在备份区的行键；
82.s303：删除读区中的目标非结构化数据。
83.可见，本实施例公开的一种非结构化数据分布式存储方法，通过elasticsearch hbase mob的存储方法，可以有效的的解决当前存在的检索速度慢、存储效率低、扩容受限制、备份不容易等问题，为业务的开展提供强大的底层存储支撑。
84.基于上述实施例公开的一种非结构化数据分布式存储方法，本实施例对应公开了一种非结构化数据分布式存储装置，请参阅图5，该装置包括：
85.元数据提取单元100，用于提取待存储非结构化数据的元数据信息；
86.元数据存储单元200，用于将所述待存储非结构化数据的元数据信息存储在elasticsearch集群中，并生成所述待存储非结构化数据的元数据信息的elasticsearch索引；
87.原始文件存储单元300，用于将所述待存储非结构化数据存储在hbase mob集群
中，并生成所述待存储非结构化数据的行键；
88.映射关系建立单元400，用于建立所述待存储非结构化数据的元数据信息的elasticsearch索引与行键之间的映射关系。
89.可选的，所述元数据提取单元100，具体用于：
90.提取所述待存储非结构化数据的特征信息；
91.利用elasticsearch-analysis-ik对需要分词的特征信息进行分词；
92.将不需要分词的特征信息和分词后得到的特征信息确定为所述待存储非结构化数据的元数据信息。
93.可选的，所述元数据存储单元200，具体用于：
94.根据预设设定的分类规则，将所述待存储非结构化数据的元数据信息进行分类；
95.将分类完成之后的元数据信息分别存储到elasticsearch集群中对应的元数据存储区。
96.可选的，所述原始文件存储单元300，包括：
97.写区存储子单元，用于将所述待存储非结构化数据存储在hbase mob集群中的写区，并生成所述待存储非结构化数据在所述写区的行键；
98.自动同步子单元，用于将所述写区存储的所述待存储非结构化数据同步存储到hbase mob集群中的读区，并生成所述待存储非结构化数据在所述读区的行键。
99.可选的，所述原始文件存储单元300还包括：
100.自动备份子单元，用于检测所述写区的非结构化数据是否满足自动备份规则；将满足所述自动备份规则的目标非结构化数据从所述写区转移至hbase mob集群中的备份区，并生成所述目标非结构化数据在所述备份区的行键；
101.所述自动同步子单元，还用于删除所述读区中的所述目标非结构化数据。
102.本实施例公开的一种非结构化数据分布式存储装置，使用具有高扩展、实时存储以及检索功能的elasticsearch存储非结构化数据的元数据信息，用来替代原来mysql存储元数据的功能。使用高可靠、高性能、可伸缩的分布式存储系统hbase mob替代原来的集中式存储来管理非结构化数据，通过建立elasticsearch索引与hbase mob行键的映射关系，实现对非结构化数据的高效分布式存储，便于后续实现对非结构化数据的高效检索、查看、修改、下载等功能。本发明通过elasticsearch hbase mob的存储方法，可以有效的解决当前存在的检索速度慢、存储效率低、扩容受限制、备份不容易等问题，提高非结构化数据存储的安全性、稳定性以及高效性。
103.需要说明的是，本发明提供的一种非结构化数据分布式存储方法及装置，可应用于分布式领域或金融领域。上述仅为示例，并不对本发明提供的一种非结构化数据分布式存储方法及装置的应用领域进行限定。
104.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
105.还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间
存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
106.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
107.上述各个实施例之间可任意组合，对所公开的实施例的上述说明，本说明书中各实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本技术。
108.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种管道施工期实景影像的制作方法、装置、设备及存储介质与流程

一种非结构化数据分布式存储方法及装置与流程

相关文献

最热文献