一种数据平台及其应用方法与流程

2022-06-05 21:37:46 来源：中国专利 TAG：

1.本发明涉及数据处理领域，尤其涉及一种数据平台及其应用方法。

背景技术：

2.随着数据量的增长以及业务需求的不断增加，数据平台在数据和业务处理中所起的作用越来越重要。数据平台具有数据收集、存储、计算以及分析等等功能，可以满足一定的数据处理需求。
3.数据平台对数据处理的能力需要考虑多种因素，现有技术中的数据平台对数据处理的能力(性能)还较低，不能满足实际应用中对数据处理的需求。

技术实现要素：

4.本发明实施例提供了一种数据平台及其应用方法。
5.本公开实施例第一方面提供一种数据平台，包括：第一类服务器和第二类服务器；其中，所述第一类服务器的运行速率高于所述第二类服务器的运行速率；所述第二类服务器的存储性能强于所述第一类服务器的存储性能；所述存储性能包括：存储容量和/或存储稳定性；所述第一类服务器上部署有计算引擎；所述第二类服务器上部署有数据仓库，所述数据仓库用于存储入库的数据。
6.在一个实施例中，所述第一类服务器上还部署有资源调度器。
7.在一个实施例中，所述第一类服务器中包括有第一存储介质；所述第二类服务器中包括有第二存储介质；所述第一存储介质的读写速率大于所述第二存储介质的读写速率；所述第一存储介质存储第一类数据；所述第二存储介质存储第二类数据；其中，所述第一类数据的访问频率，高于所述第二类数据的访问频率；所述数据仓库部署在所述第二存储介质上。
8.在一个实施例中，所述第一类服务器和第二类服务器上部署有分布式文件系统；所述分布式文件系统包括：第一存储目录和第二存储目录；所述第一存储目录中的数据存储在所述第一存储介质；所述第二存储目录中的数据存储在所述第二存储介质；其中，所述第一存储目录存储所述第一类数据，所述第二存储目录存储所述第二类数据。
9.在一个实施例中，所述分布式文件系统包含：所述分布式文件系统还包括：存储策略；所述存储策略包括：与所述第一存储目录对应的第一策略条目和与所述第二存储目录对应的第二策略条目；所述第一策略条目，用于指示将所述第一类数据存储到所述第一存储介质；所述第二策略条目，用于指示将所述第二类数据存储到所述第二存储介质。
10.在一个实施例中，所述第一类服务器和第二类服务器中还部署有：应用工具，所述应用工具的数据存储在所述数据仓库中。
11.本公开实施例第二方面提供一种数据平台的应用方法，包括：接收服务请求；根据所述服务请求，确定出所述服务请求的类型；若所述服务请求为计算请求，通过部署有计算引擎的第一类服务器响应所述计算请求；
12.或者，
13.若所述服务请求为数据仓库的读写请求时，通过部署有数据仓库的第二类服务器响应所述数据仓库的读写请求；所述第一类服务器的运行速率高于所述第二类服务器的运行速率；所述第二类服务器的存储性能强于所述第一类服务器的存储性能；所述存储性能包括：存储容量和/或存储稳定性。
14.在一个实施例中，所述第一类服务器中包括的第一存储介质的读写速率，大于所述第一类服务器中包括的第二存储介质的读写速率；所述方法还包括：通过部署在所述第一类服务器和/或所述第二类服务器中的分布式文件系统，根据读写请求中的待存储数据确定所述待存储数据的类型；所述待存储数据的类型包括第一类数据和第二类数据，所述第一类数据的访问频率高于所述第二类数据的访问频率；根据所述待存储数据的类型，将待存储的所述第一类数据存储到所述第一存储介质上，并将待存储的所述第二类数据存储到所述第二存储介质上。
15.在一个实施例中，所述分布式文件系统包括：第一存储目录和第二存储目录；所述通过部署在所述第一类服务器和所述第二类服务器中的分布式文件系统，根据读写请求中的待存储数据确定所述待存储数据的类型，包括：确定所述待存储数据属于与所述第一存储目录对应的所述第一类数据，或属于与所述第二存储目录对应的所述第二类数据。
16.在一个实施例中，所述分布式文件系统还包括：存储策略；所述存储策略包括：第一策略条目和第二策略条目；所述根据所述待存储数据的类型，将待存储的所述第一类数据存储到所述第一存储介质上，并将待存储的所述第二类数据存储到所述第二存储介质上，包括：当所述待存储数据属于与所述第一存储目录对应的所述第一类数据时，根据与所述第一存储目录对应的第一策略条目，将待存储的所述第一类数据存储到所述第一存储介质上；当所述待存储数据属于与所述第二存储目录对应的所述第二类数据时，根据与所述第二存储目录对应的第二策略条目，将待存储的所述第二类数据存储到所述第二存储介质上。
17.本公开实施例的技术方案中包括第一类服务器和第二类服务器。其中，第一类服务器的运行速率高于第二类服务器的运行速率，第一类服务器上部署有计算引擎。由于计算引擎需要较高运行速率的服务器的硬件支持，以及第二类服务器的运行速率高于第一类服务器的运行速率，所以通过在第二类服务器中部署计算引擎，利用第二类服务器的运行速率较高的特点，第二类服务器为计算引擎提供硬件支持，从而提高了数据平台的计算效率。
18.第二类服务器的存储性能强于第一类服务器的存储性能，该存储性能包括：存储容量和/或存储稳定性。第二类服务器上部署有数据仓库，数据仓库用于存储入库的数据。由于数据仓库中存储有大量数据，所以通过将数据仓库部署在存储性能更强的第二类服务器中，利用第二类服务器的存储性能更强的特性为数据仓库提供硬件支持，从而提高了数据平台的存储性能。
19.第一类服务器中部署有计算引擎和第二类服务器中部署有数据仓库，实现了将计数据算和数据存储的分离。利用第一类服务器的运行效率较高的特性，将第一类服务器与计算引擎配合工作，利用第二类服务器存储性能较强的特性，将第二类服务器和数据仓库配合工作，从而提高了数据平台对数据处理的能力。
附图说明
20.图1为本公开实施例提供的一种数据平台的结构示意图；
21.图2为本公开实施例提供的一种数据平台的应用方法的流程示意图；
22.图3为本公开实施例提供的一种另一种数据平台的应用方法的流程示意图；
23.图4为本公开实施例提供的另一种数据平台的结构示意图；
24.图5为本公开实施例提供的一种数据平台的部署过程的流程示意图；
25.图6为本公开实施例提供的一种对待存储数据进行存储的流程示意图；
26.图7为本公开实施例提供的另一种对待存储数据进行存储的流程示意图。
具体实施方式
27.以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
28.数据平台处理数据的能力需要考虑多种因素，例如需要考虑搭载数据平台的服务器、服务器的存储介质以及数据平台的开源组件等等。服务器包括多种，不同的服务器具有不同的数据处理能力。例如arm服务器和x86服务器等，arm服务器与x86服务器之间除了指令集的复杂程度不同之外，最大的区别是，arm服务器的功耗更低，x86服务器的性能(计算速度、处理数据的速度等)更高。
29.存储介质同样包括多种，不同的存储介质具有不同的数据处理能力。例如机械硬盘(hard disk drive，hdd)和固态硬盘(solid state disk，ssd)等，hdd的存储容量更大，ssd的数据读写速率更快。
30.数据平台的开源组件包括具有数据收集功能的组件、具有数据存储功能的组件、具有数据计算功能的组件、以及数据分析功能的组件等。数据收集功能的组件包括日收集组件(flume)和分布式发布订阅消息组件(kafka)等。具有数据存储功能的分布式文件系统(hdfs)和数据库(hbase)等。具有数据计算功能的分布式实时数据处理组件(storm)和计算引擎(spark)等。具有数据分析功能的数据仓库工具组件(hive)和数据查询组件(impala)等。
31.由于数据量的增长，以及对数据平台处数据业务能力的需求的改变，所以需要处理数据能力更好的数据平台，例如高性能、低成本的数据平台。
32.通常情况下，为了实现数据平台搭建过程的简易性和高效性，以及数据平台进行业务处理的便利性，即为了减少数据平台的部署过程的复杂性，以及降低数据平台进行各种操作的难度(例如减少资源调度的难度，提高资源调度的便利性等)。在数据平台能够实现正常工作的情况下，一般的数据平台包括单一类型的服务器，通过该单一类型的服务器为数据平台提供各种服务支持。由于数据平台只包括这一种类型的服务器，所以数据平台中的其他开源组件将均部署在这一种类型的服务器中，实现了数据平台搭建过程的简易性和高效性。
33.如图1所示，本公开实施例提供了一种数据平台，该数据平台主要包括第一类服务器和第二类服务器。该实施例的数据平台基于第一类服务器和第二类服务器，通过两种不同类型的服务器和部署在这两种不同类型的服务器中的数据平台的其他组成部分共同实现对数据的处理功能。具体地，两种不同类型的服务器为数据平台中的其他组成部分提供服务(包括计算和存储等)，从而完成对数据的处理。数据平台的其他组成部分包括计算引
擎、资源调度器、数据仓库、分布式文件系统、存储介质以及应用工具等。
34.其中，由于第一类服务器和第二类服务器是两种不同类型的服务器，以及不同类型的服务器具有不同的特性，所以该实施例中的第一类服务器和第二类服务器为两种具有不同特性的服务器。该特性可以是存储容量的大小和/或存储稳定性的强弱，还可以是运行速率的快慢(可以是计算速率的快慢)等等。例如，第一类服务器的运行速率高于第二类服务器的运行速率的特性，即第一类服务器具有运行速率较高的特性。第二类服务器的存储性能强于第一类服务器的存储性能的特性，即第二类服务具有更强的存储性能的特性。
35.相比于单一类型的服务器的数据平台，只能利用单一类型的服务器响应数据平台中所有其他组成部分的请求，为数据平台提供所有的服务支持，例如数据计算、资源调度、数据存储等。这样的数据平台并没有考虑服务器的特点和其他组成部分的需求等多种因素，若该单一类型的服务器在某一种服务中并不能提供较好的服务，则将会影响数据平台的数据处理能力。例如，该单一类型的服务器的运行速率较低，并不能提供较好的数据计算服务，则该数据平台的数据计算能力将会很低。
36.而本方案通过数据平台中的两种不同类型的服务器配合工作，将不同类型的服务器的特性和数据平台中其他组成部分的工作需求相结合，实现了对数据平台的数据处理能力的提升。例如，运算速率较高的服务器中部署关于数据计算的组件，存储性能较高的服务器中部署与数据存储有关的组件等。
37.在该实施例中，第一类服务器的运行速率高于第二类服务器的运行速率，第一类服务器上部署有计算引擎。由于第一类服务器的运行速率高于第二类服务器的运行速率，所以第一类服务器进行数据处理时的运行速率高于第二类服务器进行数据处理时的运行速率，此处的数据处理包括数据的计算处理。
38.相对于第二类服务器而言，根据第一类服务器的运行速率更高的特性，在处理相同的数据时，在第一类服务器中部署计算引擎进行数据的计算的速率，高于在第二类服务器中部署计算引擎进行数据计算的速率。由于计算引擎在进行数据计算时需要大量的计算资源，即需要计算速率更快的硬件作支撑，所以将计算引擎部署在第一类服务器中。计算引擎利用第一类服务器运行速率更高的特性可以更好的对数据进行处理，可以使得数据平台对数据处理的能力更强。
39.计算引擎包括具有数据计算功能的分布式实时数据处理组件(storm)、计算引擎(spark)、并行运行计算组件(mapreduce)、数据处理引擎(flink)和/或数据计算组件(tez)等。这些计算引擎用于驱动服务器根据这些计算引擎对数据进行计算等处理。
40.第二类服务器的存储性能强于第一类服务器的存储性能，该存储性能包括：存储容量和/或存储稳定性。由于第二类服务器的存储性能强于第一类服务器的存储性能，以及数据存储需要存储性能更强的存储器，所以将数据存储在第二类服务器中，这里的数据为存储进入数据仓库的数据。非存储进入数据仓库的数据可以存储在第一类服务器中。由于数据平台中的组成部分包括数据仓库，该数据仓库用于存储入库的数据，所以将数据仓库部署在第二类服务器上。部署有数据仓库的第二类服务器可以利用第二类服务器存储性能强于第一类服务器的存储性能的特性，提高数据平台对数据存储的性能。
41.其中，服务器的存储性能可以通过服务器的存储介质的存储性能进行体现，存储介质的存储性能即可表示服务器的存储性能，两种不同的服务器的存储介质不同，也就表
征了两种服务器的存储性能的不同。存储性能中包括的存储容量可以是存储空间的大小，存储稳定性可以是存储数据的最大写入次数、数据恢复的难易程度等。
42.第二类服务器的存储介质的最大写入次数，比第一类服务器的存储介质的最大写入次数多。通过存储介质的最大写入次数反应出第二类服务器的存储稳定性高于第一类服务器的存储稳定性。此外，存储介质中数据恢复的难易程度同样反应了存储稳定性，第二类服务器的存储介质的数据恢复比第一类服务器的存储介质的数据恢复更容易。第二类服务器的存储介质的存储容量大于第一类服务器的存储介质的存储容量，可以存储更多的数据等。
43.这里的数据仓库中可以包括数据库(hbase)、数据分析工具(hive)、数据查询组件(impala)、数据查询引擎(presto)、数据分析引擎(kylin)以及数据分析引擎(phoneix)等。
44.该方案中的数据平台通过部署有计算引擎的第一类服务器，为计算引擎提供更高运行速率的计算运行支持，使得计算引擎可以更好、更快的对数据进行计算。通过部署有数据仓库的第二类服务器为数据仓库提供存储性能更强的存储支持，使得数据仓库可以更好的对数据进行存储。该方案中的数据平台利用对数据处理和存储的综合性能更好，同时也实现了计算和数据存储的分离。
45.在另一实施例中，第一类服务器可以是x86服务器，第二类服务器可以是arm服务器。x86服务器的运算速率高于arm服务器，所以在对数据进行计算处理时，部署有计算引擎的x86服务器可以利用x86服务器运算速率较高的特性，为数据计算提供计算支持，从而达到了更快、更好的进行数据的计算的效果。
46.arm服务器的存储性能强于x86服务器的存储性能，arm服务器的存储容量和/或存储稳定性强于x86服务器的存储容量和/或存储稳定性。例如，arm服务器的存储介质的存储容量大于x86服务器的存储介质的存储容量，arm服务器的存储介质的读写次数大于x86服务器的存储介质的存储容量。部署有数据仓库的arm服务器可以利用arm服务器存储性能较强的特性，为数据仓库的数据存储提供数据存储支持，从而可以更好的进行数据的存储。
47.另外，arm服务器的功耗相比于x86服务器的功耗更低，数据仓库在进行数据存储时的功耗也更低，从而可以实现节能的目的。
48.在另一实施例中，第一类服务器上还部署有资源调度器，资源调度器在进行资源调度时同样需要依靠服务器的运算。资源调度器部署在运算速率更高的第一类服务器中，资源调度器可以利用第一类服务器运算速率更高的特性，可以更好、更快的进行资源调度。资源调度器可以包括资源调度器(yarn等)。
49.在另一实施例中，第一类服务器中包括有第一存储介质，第二类服务器中包括有第二存储介质。第一存储介质作为第一类服务器的存储介质，用于存储需要存储在第一类服务器中的数据，第二存储介质作为第二类服务器的存储介质，用于存储需要存储在第二类服务器中的数据。其中，第一存储介质的读写速率大于第二存储介质的读写速率，第一存储介质存储第一类数据，第二存储介质存储第二类数据，第一类数据的访问频率高于第二类数据的访问频率。
50.由于第一类数据的访问频率高于第二类数据的访问频率，以及在访问第一类数据和第二类数据时需要对第一类数据和第二类数据进行读写，所以为了更好、更快地对第一数据进行读写，将第一类数据存储在读取速率较大的第一存储介质中。这样可以更容易地
访问第一类数据，减少了读取访问频率较高的第一类数据时的读取时间，提升了数据平台中资源的使用效率和对数据的读写性能。由于第二类数据的访问频率较低，所以将第二类数据存储在第二存储介质中。
51.该实施例中的第一类数据可以是热数据，第二类数据是可以冷数据。热数据可以是数据平台内的资源调度数据等。冷数据可以是备份数据或日志数据等等。
52.进一步地，数据仓库部署在第二存储介质上，通过数据仓库将访问频率较低的第二类数据，存储在第二存储介质中。存储到数据参仓库的数据可为长期存储的入库数据。根据入库数据的长期存储特性，入库到容量大且存储稳定性强的第二服务器的第二存储介质上，可以实现数据仓库的大容量和高稳定性的存储。
53.入库数据可以不区分第一类数据和第二类数据。
54.在一个实施例中，所述第一类数据和第二类数据，可为在第一类服务器和第二类服务器的缓存的数据，是暂时无需入库或者永久不需要入库的数据。
55.在另一实施例中，第一存储介质包括固态硬盘ssd，第二存储介质包括机械硬盘hdd，ssd的读写速率高于hdd的读写速率，hdd的存储性能强于ssd。x86服务器中包括存储介质ssd，arm服务器中包括存储介质hdd，hdd上部署有数据仓库，ssd存储第一类数据，数据仓库存储第二类数据，第二类数通过数据仓库存储在hdd上。
56.通过ssd对访问频率更高的第一类数据进行读写时，由于ssd的读写速率更高，所以可以减少读取第一类数据的时间，提高读写速率，进而提高了数据平台的读写性能。由于第二类数据的访问频率较低，所以通过hdd对第二类数据进行读写时，对数据的读写的影响较小。
57.由于hdd的存储性能更高，hdd的最大写入次数比ssd的最大写入次数更多，hdd的数据恢复比ssd的数据恢复更容易。所以通过hdd存储访问频率较低的并且需要存储进入数据仓库的第二类数据，可以提高数据平台的数据存储性能。例如将需要长期存储的数据存储得到hdd中。
58.另外，由于ssd的成本较高，hdd的成本较低，所以通过hdd存储第二类数据还可以减少数据平台的存储成本。
59.在另一实施例中，第一类服务器和第二类服务器上部署有分布式文件系统，分布式文件系统用于将数据分布式存储在不同类型的服务器中，该分布式文件系统可以理解为一种存储机制，根据该存储机制将数据存储在不同类型的服务器中。根据该分布式文件系统，将不同类型的数据存储在第一类服务器或第二类服务器中。
60.该分布式文件系统包括第一存储目录和第二存储目录，第一存储目录中的数据存储在第一存储介质，第二存储目录中的数据存储在第二存储介质。其中，第一存储目录存储第一类数据，第二存储目录存储第二类数据，即第一类数据存储在第一存储介质，第二类数据存储在第二存储介质。第一存储目录和第二存储目录用于表示数据在分布式文件系统中的存储位置。
61.具体地，待存储数据中包括数据标识或者数据属性，该数据标识或者数据属性可以表征该待存储数据的访问频率。分布式文件系统根据待存储数据的数据标识或者数据属性，确定待存储数据的访问频率，进而确定待存储数据的类型。第一存储目录和第二存储目录中包括数据标识或者数据属性，当待存储数据自身的数据标识或者数据属性，与第一存
储目录或第二存储目录中包括数据标识或者数据属性相匹配时，确定待存储数据存储在第一存储目录或者第二存储目录，即确定待存储数据为第一类数据或者第二类数据。
62.通过该分布式文件系统中的第一存储目录和第二存储目录，可以将存储在第一存储目录中的第一类数据存储在第一存储介质中，将存储在第二存储目录中的第二类数据存储在第二存储介质中。实现了将第一类数据和第二类数据存储在不同类型的服务器包括的存储介质中，从而可以根据不同存储介质的存储读写速率对第一类数据和第二类数据进行读写。
63.进一步的，该分布式文件系统还包括存储策略。
64.该存储策略包括：
65.与第一存储目录对应的第一策略条目和与第二存储目录对应的第二策略条目。第一策略条目，用于指示将第一类数据存储到第一存储介质，第二策略条目，用于指示将第二类数据存储到第二存储介质。
66.分布式文件系统中第一存储目录中存储的第一类数据，根据第一策略条目将第一类数据存储到第一存储介质；第二存储目录中存储的第二类数据，根据第二策略条目将第二类数据存储到第二存储介质。
67.具体地，策略条目可以包括存储地址或服务器地址，该存储地址指向服务器，不同的策略条目包括不同的存储地址或服务器地址，指向不同的服务器。根据策略条目中的存储地址将数据存储到对应的存储介质中。例如，第一策略条目中包括第一存储地址，第一存储地址指向第一类服务器中的第一存储介质。第二策略条目中包括第二存储地址，第二存储地址指向第二类服务器中的第二存储介质。在确定待存储数据的类型后，根据策略条目中的存储地址或服务器地址，将确定数据类型的待存储数据存储到相应的存储介质中。
68.例如，x86服务器和arm服务器中部署有分布式文件系统，该分布式文件系统中包括第一存储目录和第二存储目录，以及与第一存储目录对应的第一策略条目和与第二存储目录对应的第二策略条目。第一存储目录中存储有第一类数据，第二存储目录中存储有第二类数据，根据第一策略条目将第一存储目录中存储的第一类数据存储到第一类服务器的第一存储介质中，根据第二策略条目将第二存储目录中存储的第二类数据存储到第二类服务器的第二存储介质中。
69.根据该存储策略可以将第一类数据存储到第一存储介质中，将第二类数据存储到第二存储介质中。
70.在另一实施例中，第一类服务器和第二类服务器中还部署有应用工具，应用工具用于进行任务开发和管理等，包括工作流和协作服务引擎(oozie)、数据转移工具(sqoop)、日志处理工具(flume)、web管理器(hue)等等。该应用工具的数据可以根据分布式文件系统存储在数据仓库中，也可以存储在第一存储介质中。资源调度器可以根据应用工具的开发需求调度计算引擎或者仓库数据等等。
71.如图2所示，在另一实施例中，本公开还提供了一种数据平台的应用方法，该方法主要包括：
72.步骤s100，接收服务请求。在数据平台数据进行数据处理或者业务处理之前，需要先接收服务请求，然后在对该服务请求进行进一步处理。该服务请求可以是通过应用工具接收的访问请求。
73.步骤s200，根据服务请求，确定出服务请求的类型。在实施例中，由于服务请求可以是不同类型的服务请求，不同类型的服务请求的处理方式不同，所以在接收到服务请求后，需要确定出服务请求的类型。在本实施例中，该服务请求的类型包括计算请求和数据仓库的读写请求，当然还可以包括其他服务请求，这里不再进行限定。
74.步骤s300，若服务请求为计算请求，通过部署有计算引擎的第一类服务器响应计算请求。由于第一类服务器的运行速率高于第二类服务器的运行速率，并且第一类服务器中部署有计算引擎，所以在确定服务请求为计算请求时，通过部署有计算引擎的第一类服务器响应该计算请求。通过第一类服务器响应该计算请求，可以对计算服务进行更快的运行处理，进而提高了数据平台的计算能力。
75.或者，
76.步骤s400，若服务请求为数据仓库的读写请求时，通过部署有数据仓库的第二类服务器响应数据仓库的读写请求。由于第二类服务器的存储性能强于第一类服务器的存储性能，并且第二类服务器中部署有数据仓库，所以在确定服务请求为数据仓库的读写请求时，通过部署有数据仓库的第二类服务器响应该数据仓库的读写请求。通过第二类服务器响应该数据仓库的读写请求，可以提高数据平台的存储性，其中，该存储性能包括：存储容量和/或存储稳定性等。
77.在该实施例的方法中，由于第一类服务器的运行速率更高，所以将部署有计算引擎的第一类服务器响应计算请求，第二类服务器的存储性能更强，部署有数据仓库的第二类服务器响应数据仓库的读写请求。不同的服务请求通过不同类型的服务器进行响应，实现了不同类型的服务器响应不同服务请求的分离，从而提高了数据平台处理服务请求的能力。
78.参考图3，在另一实施例中，该方法还提供了另一种数据平台的应用方法：
79.步骤s500，接收服务请求。在该实施例中，由于第一类服务器中部署有资源调度器，所以在服务请求为计算请求时，可以通过资源调度器对服务请求进行进一步的处理。在服务请求为读写请求时，可以通过第二类服务器对数据进行读写操作。
80.步骤s600，通过第一类服务器和第二类服务器上部署的应用工具，确定出服务请求的类型。在接收到服务请求后，应用工具可以确定出服务请求的类型，然后便于针对不同类型的服务请求进行相应的资源调度。可以通过应用工具接收用户发送的服务请求，然后确定服务请求的类型，是计算请求还是数据仓库的读写请求。
81.步骤s700，若服务请求的类型为计算请求，通过第一类服务器中部署的资源调度器调度第一类服务器响应该计算请求。具体可以是资源调度器调度第一类服务器中的计算资源，如调度计算引擎，然后第一类服务器根据该计算引擎进行相应的计算处理等。
82.步骤s800，若服务请求的类型为数据仓库读写请求，通过第二类服务器响应数据读写请求。接收到数据仓库的读写请求时，第二类服务器中的数据仓库响应该读写请求，进行数据的读写操作。
83.通过利用不同类型服务器中的不同资源，实现了不同类型的服务器响应不同类型的服务请求，从而提高了数据平台对服务请求的处理能力。
84.在另一实施例中，第一类服务器中包括的第一存储介质的读写速率，大于第二类服务器中包括的第二存储介质的读写速率。
85.该应用方法还包括：
86.通过部署在第一类服务器和/或第二类服务器中的分布式文件系统，根据读写请求中的待存储数据确定待存储数据的类型。待存储数据的类型包括第一类数据和第二类数据，第一类数据的访问频率高于第二类数据的访问频率。分布式文件系统可以根据访问频率确定待存储数据的类型，若将待存储数据分类两类，访问频率较高的一类数据为第一类数据，访问数据较低的一类数据为第二类数据。
87.根据待存储数据的类型，将待存储的第一类数据存储到第一存储介质上，并将待存储的第二类数据存储到第二存储介质上。当确定待存储数据的类型为第一类数据时，由于第一类服务器中的第一存储介质的读写速率相对较高，所以将第一类数据存储在第一存储介质中，可以更快地对第一类数据进行读写。当确定待存储数据的类型为第二类数据时，由于第二类服务器中的第二存储介质的存储性能相对较强，所以将第二类数据存储在第二存储介质中，可以更好的对第二类数据进行存储。
88.进一步地，该分布式文件系统包括：第一存储目录和第二存储目录。
89.根据该第一存储目录和第二存储目录可以确定待存储数据的类型，具体包括：
90.确定待存储数据属于与第一存储目录对应的第一类数据，或属于与第二存储目录对应的第二类数据。分布式文件系统可以根据待存储数据属于与第一存储目录对应数据还是与第二存储目录对应数据，确定待存储数据为第一类数据还是第二类数据。当待存储数据属于与第一存储目录对应数据时，确定待存储数据为第一类数据，当待存储数据属于与第二存储目录对应数据时，确定待存储数据为第二类数据。
91.进一步地，该分布式文件系统还包括：存储策略。该存储策略包括：第一策略条目和第二策略条目，第一策略条目用于指示将第一类数据存储到第一存储介质，第二策略条目用于指示将第二类数据存储到第二存储介质。
92.当待存储的数据属于与第一存储目录对应的第一类数据时，根据与第一存储目录对应的第一策略条目，将待存储的第一类数据存储到第一存储介质上.
93.当待存储的数据属于与第二存储目录对应的第二类数据时，根据与第二存储目录对应的第二策略条目，将待存储的第二类数据存储到第二存储介质上。
94.通过分布式系统中的第一存储目录、第二存储目录、第一策略条目和第二策略条目，实现了根据待存储数据的类型，将待存储数据存储到不同的存储介质中。
95.参考图4，在另一实施例中，还提供了另一种数据平台的结构示意图。
96.该数据平台包括第一类服务器和第二类服务器，第一类服务器的运行速率高于第二类服务器的运行速率。第二类服务器的存储性能强于第一类服务器的存储性能。
97.第一类服务器中部署有计算引擎和资源调度器。计算引擎包括具有数据计算功能的分布式实时数据处理组件(storm)、计算引擎(spark)、并行运行计算组件(mapreduce)、数据处理引擎(flink)和/或数据计算组件(tez)等。资源调度器可以是资源调度器(yarn等)。
98.第二类服务器中部署有数据仓库，包括数据库(hbase)、数据分析工具(hive)、数据查询组件(impala)、数据查询引擎(presto)、数据分析引擎(kylin)以及数据分析引擎(phoneix)等io密集型工具。第一类服务器和第二类服务器中还部署有分布式文件系统(hdfs)。第一类服务器和第二类服务器中还部署有应用工具，包括工作流和协作服务引擎
(oozie)、数据转移工具(sqoop)、日志处理工具(flume)、web管理器(hue)等等。
99.第一类服务器包括x86服务器，第二类服务器包括arm服务器，x86服务器的第一存储介质包括ssd，arm服务器的第二存储介质包括hdd。
100.此外，该数据平台还包括数据平台搭建工具(ambari)，即第一类服务器和第二类服务器中还部署有数据平台搭建工具(ambari)。该数据平台中的计算引擎、资源调度器、数据仓库、分布式文件系统以及应用工具的部署，均通过该数据平台搭建工具进行部署。
101.现有技术中的数据平台的部署，主要是为了解决手动部署大数据平台效率低，管理麻烦且被动的问题，实现了自动化部署数据平台。没有综合利用不同服务器以及存储介质的性能优势，不能在实现自动部署数据平台的同时，使部署的数据平台具有高性能，低成本的优点。
102.现有技术中的自动化部署数据平台技术主要有以下几种：
103.一种是基于模板的数据组件web部署：通过入口找到相应的应用模板和组件模板，然后对获取的输入信息进行初始化，最后通过获得的信息调用相应的shell脚本执行组件的安装。
104.一种是利用docker容器引擎自动化部署与管理数据集群的方法。该方法包括：
105.编写dockerfile文件，构建hadoop(分布式系统架构)数据集群自动化部署相关的docker镜像，包括server端镜像和agent端镜像。然后利用docker镜像建立由一个server端、多个agent端和web端组成的分布式架构，以实现自动化启动部署hadoop相关数据集群的服务。
106.另一种是基于ambari的组件自动部署及管理的方法。该方法包括：
107.通过打包脚本将组件编译输出为tar包(一种压缩文件)，然后通过设置配置文件模板的占位符获取web配置信息，生成组件集成配置文件。根据组件名称设置相应运维脚本，并采集组件信息和相应运维脚本信息生成元信息配置文件。最后根据元信息配置文件和组件集成配置文件对tar包组件进行部署管理。
108.但是，部署的数据平台，通常既需要数据平台部署过程简单，又需要数据平台具有性能高、成本低的特点。现有的数据平台部署技术部署的数据平台只能满足数据平台部署过程简单的要求，不能满足性能高、成本低的要求。
109.参考图5，为数据平台的部署过程的流程示意图。该过程主要包括：
110.步骤s10，将数据平台部署组件(ambari)部署在第一类服务器和第二类服务器中。具体地，可以是在第一类服务器或者第二类服务器的一台或者两台机器中部署ambari-server，将这一台或者两台机器作为server端，在第一类服务器和第二类服务器的所有机器中部署ambari-agent，所有的机器均作为agent端。
111.步骤s20，通过ambari-web配置页面配置第一类服务器和第二类服务器中部署的各类组件的安装包地址(包括yum源)，各类组件包括计算引擎、资源调度器、分布式文件系统、数据仓库以及应用工具等。第一类服务器和第二类服务器中部署的组件的安装包地址不同。
112.步骤s30，通过ambari-web配置页面配置各类组件的部署位置，包括部署在第一类服务器和第二类服务器中的哪些机器中，以及将哪些组件部署在哪一类服务器中。
113.本实施例中，将数据仓库部署在第二类服务器中，将计算引擎和资源调度器部署
在第一类服务器中，分布式文件系统和应用工具部署在第一类服务器和第二类服务器中。
114.步骤s40，根据服务器的类型，完成数据平台的部署。
115.在了另一实施例中，参考图6，为根据分布式文件系统中的存储目录和策略条目对待存储数据进行存储的流程示意图。该流程主要包括：
116.步骤a，创建存储目录，包括第一存储目录和第二存储目录。该步骤为第一次对待存储数据进行存储时执行的步骤。
117.步骤b，创建于存储目录对应的策略条目。该策略条目包括与第一存储目录对应的第一策略条目，以及与第二存储目录对应的第二策略条目。该步骤为第一次对待存储数据进行存储时执行的步骤。
118.步骤c，确定待存储数据的类型。确定待存储数据属于与第一存储目录对应的第一类数据，或属于与第二存储目录对应的第二类数据。第一存储目录和第二存储目录为已经创建完成的存储目录。
119.步骤d，当待存储的数据属于与第一存储目录对应的第一类数据时，根据与第一存储目录对应的第一策略条目，将待存储的第一类数据存储到第一类服务器中包括的第一存储介质上。第一策略条目同样为已经创建完成的策略条目。
120.步骤e，当待存储的数据属于与第二存储目录对应的第二类数据时，根据与第二存储目录对应的第二策略条目，将待存储的第二类数据存储到第二类服务器包括的第二存储介质上。第二策略条目同样为已经创建完成的策略条目。
121.在另一实施例中，数据仓库中包括的hbase数据库中的数据的存储方式请参考步骤a至步骤e，在分布式文件系统具有数据分离功能的情况下，存储目录更改为数据库(hbase)中的数据表。参考图7，步骤f至步骤j。
122.该数据平台根据两种类型服务器的特点，实现了大数据平台的数据计算和数据存储的分离。同时根据两种服务器的存储介质的特性，实现了不同类型的数据的分离存储，第一类数据包括热数据，第二类数包括冷数据。针对不同类型的服务器配置不同的yum源，以及在对数据进行冷热分离存储时对hdfs的存储目录以及hbase的数据表配置策略条目，从而使得该数据平台具有操作简单，方便实用的特点。
123.在本技术所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
124.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
125.另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
126.在一些情况下，上述任一两个技术特征不冲突的情况下，可以组合成新的方法技
术方案。
127.在一些情况下，上述任一两个技术特征不冲突的情况下，可以组合成新的设备技术方案。
128.本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
129.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：传递个人内心信息的方法和系统与流程

一种数据平台及其应用方法与流程

相关文献

最热文献