一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据管控方法、系统、装置和介质与流程

2021-10-24 12:07:00 来源:中国专利 TAG:数据 介质 装置 方法 提供


1.本发明涉及数据管控技术领域,具体提供一种数据管控方法、系统、装置和介质。


背景技术:

2.训练平台提供包括数据集数据管理,数据标注以及模型训练的功能。其中,数据集中包含大量的数据文件,包括图片、视频以及文本文件等。同时,由于模型训练的需要,数据集会存在不同的版本,以实现不同目的的模型训练以及训练改进功能。不同版本的数据集之间是存在继承关系的,比如v2版本的数据集是由v1版本的数据集派生而来的。因而,不同版本的数据集之间会存在大量的重复数据,同时也会有一些特有的差异。
3.但是,不同版本的数据集产生的大量重复数据会在底层存储空间中占用大量的存储空间。此外,当训练平台在同时读取多个不同版本数据集的数据进行训练时,由于这些数据中会存在大量的重复数据,因此,会显著增加训练平台的数据读取量。而目前训练平台通常是采用图形处理器(graphics processing unit,gpu)等处理器读取数据并根据读取到的数据进行训练,如果数据读取量增大,会导致gpu等处理器的i/o吞吐量提高,进而降低gpu等处理器的数据处理效率,即降低训练平台的训练效率。


技术实现要素:

4.本发明旨在解决上述技术问题,即解决针对存在一部分重复数据的不同版本的数据集,如何有效降低这些数据集的存储空间,以及外部设备如gpu等同时读取多个数据集导致的数据处理效率降低的问题。
5.在第一方面,本发明提供一种数据管控方法,应用于图文数据管控,所述方法包括:
6.接收数据需求平台发送的数据查询请求,所述数据查询请求包括待查询图文数据集文件的版本;
7.确定所述版本的版本依赖路径中每个版本的图文数据集文件的版本目录;
8.对所述版本目录进行版本合并生成新的版本目录,以便所述数据需求平台通过访问所述新的版本目录读取相应的图文数据集文件;
9.其中,所述版本依赖路径中每个版本的图文数据集文件分别是根据各自依赖的前一个版本的图文数据集文件创建的,所述创建的方式包括以所述前一个版本的图文数据集文件为基础进行数据增量更新。
10.在上述数据管控方法的一个技术方案中,“对所述版本目录进行版本合并生成新的版本目录”的步骤包括:
11.按照预设的版本顺序对所述版本目录进行排序;
12.使用堆叠文件系统将排序后的所述版本目录进行合并以生成所述新的版本目录,并将所述新的版本目录挂载至预设的挂载点。
13.在上述数据管控方法的一个技术方案中,所述方法还包括通过下列步骤以待创建
图文数据集文件依赖的图文数据集文件为基础进行数据增量更新,以完成所述待创建图文数据集文件的创建:
14.建立所述待创建图文数据集文件的版本和版本目录;
15.将所述待创建图文数据集文件依赖的图文数据集文件的版本目录作为所述待创建图文数据集文件的父级目录,将所述待创建图文数据集文件的版本目录挂载到所述父级目录下;
16.根据所述待创建图文数据集文件的图文数据以及所述依赖的图文数据集文件的图文数据,确定需要增加的图文数据;
17.将所述需要增加的图文数据存储至所述待创建图文数据集文件的版本目录指定的存储空间,以完成所述待创建图文数据集文件的创建;
18.并且/或者,所述方法还包括通过下列步骤以待创建图文数据集文件依赖的图文数据集文件为基础进行数据全量备份,以完成所述待创建图文数据集文件的创建:
19.建立所述待创建图文数据集文件的版本和版本目录;
20.将所述待创建图文数据集文件依赖的图文数据集文件的版本目录作为所述待创建图文数据集文件的父级目录,将所述待创建图文数据集文件的版本目录挂载到所述父级目录下;
21.将所述待创建图文数据集文件依赖的图文数据集文件对应的所有图文数据全部存储至所述待创建图文数据集文件的版本目录指定的存储空间,以完成所述待创建图文数据集的创建。
22.在上述数据管控方法的一个技术方案中,“确定需要增加的图文数据”的步骤具体包括:
23.分别计算所述待创建图文数据集文件的图文数据和所述依赖的图文数据集文件的图文数据的散列值;
24.对所述散列值进行比较,确定所述需要增加的图文数据。
25.在上述数据管控方法的一个技术方案中,所述方法还包括通过下列步骤删除图文数据集文件:
26.当需要删除存在依赖关系的图文数据集文件中的一部分图文数据集文件时,获取需要进行删除的图文数据集文件的版本;
27.确定是否存在依赖所述版本的其他版本的图文数据集文件;
28.若是,则不删除所述图文数据集文件;
29.若否,则删除所述图文数据集文件,并删除所述图文数据集文件的版本目录;
30.并且/或者,当需要删除存在依赖关系的所有图文数据集文件时,获取每个图文数据集文件的版本和版本目录;
31.按照预设的版本顺序依次删除对应版本的图文数据集文件并删除相应的版本目录。
32.在第二方面,本发明提供一种数据管控系统,应用于图文数据管控,所述系统包括:
33.查询请求接收模块,其被配置为接收数据需求平台发送的数据查询请求,所述数据查询请求包括待查询图文数据集文件的版本;
34.版本目录确定模块,其被配置为确定所述版本的版本依赖路径中每个版本的图文数据集文件的版本目录;
35.版本目录合并模块,其被配置为对所述版本目录进行版本合并生成新的版本目录,以便所述数据需求平台通过访问所述新的版本目录读取相应的图文数据集文件;
36.其中,所述版本依赖路径中每个版本的图文数据集文件分别是根据各自依赖的前一个版本的图文数据集文件创建的,所述创建的方式包括以所述前一个版本的图文数据集文件为基础进行数据增量更新。
37.在上述数据管控系统的一个技术方案中,所述版本目录合并模块包括:
38.版本目录排序单元,其被配置为按照预设的版本顺序对所述版本目录进行排序;
39.版本目录合并单元,其被配置为使用堆叠文件系统将排序后的所述版本目录进行合并以生成所述新的版本目录,并将所述新的版本目录挂载至预设的挂载点。
40.在上述数据管控系统的一个技术方案中,所述系统还包括第一图文数据集文件创建模块,所述第一图文数据集文件创建模块被配置为以待创建图文数据集文件依赖的图文数据集文件为基础进行数据增量更新,以完成所述待创建图文数据集文件的创建;所述第一图文数据集文件创建模块包括第一版本及版本目录建立单元、第一挂载单元、增加图文数据确定单元和第一存储单元:
41.所述第一版本及版本目录建立单元,其被配置为建立所述待创建图文数据集文件的版本和版本目录;
42.所述第一挂载单元,其被配置为将所述待创建图文数据集文件依赖的图文数据集文件的版本目录作为所述待创建图文数据集文件的父级目录,将所述待创建图文数据集文件的版本目录挂载到所述父级目录下;
43.所述增加图文数据确定单元,其被配置为根据所述待创建图文数据集文件的图文数据以及所述依赖的图文数据集文件的图文数据,确定需要增加的图文数据;
44.所述第一存储单元,其被配置为将所述需要增加的图文数据存储至所述待创建图文数据集文件的版本目录指定的存储空间,以完成所述待创建图文数据集文件的创建;
45.并且/或者,
46.所述系统还包括第二图文数据集文件创建模块,所述第二图文数据集文件创建模块被配置为以待创建图文数据集文件依赖的图文数据集文件为基础进行数据全量备份,以完成所述待创建图文数据集文件的创建;所述第二图文数据集文件创建模块包括第二版本及版本目录建立单元、第二挂载单元和第二存储单元:
47.所述第二版本及版本目录建立单元,其被配置为建立所述待创建图文数据集文件的版本和版本目录;
48.所述第二挂载单元,其被配置为将所述待创建图文数据集文件依赖的图文数据集文件的版本目录作为所述待创建图文数据集文件的父级目录,将所述待创建图文数据集文件的版本目录挂载到所述父级目录下;
49.所述第二存储单元,其被配置为将所述待创建图文数据集文件依赖的图文数据集文件对应的所有图文数据全部存储至所述待创建图文数据集文件的版本目录指定的存储空间,以完成所述待创建图文数据集的创建。
50.在上述数据管控系统的一个技术方案中,所述增加图文数据确定模块包括:
51.散列值确定单元,其被配置为分别计算所述待创建图文数据集文件的图文数据和所述依赖的图文数据集文件的图文数据的散列值;
52.散列值比较单元,其被配置为对所述散列值进行比较,确定所述需要增加的图文数据。
53.在上述数据管控系统的一个技术方案中,所述系统还包括第一图文数据集文件删除模块,所述第一图文数据集文件删除模块被配置为通过下列步骤删除图文数据集文件:
54.当需要删除存在依赖关系的图文数据集文件中的一部分图文数据集文件时,获取需要进行删除的图文数据集文件的版本;
55.确定是否存在依赖所述版本的其他版本的图文数据集文件;
56.若是,则不删除所述图文数据集文件;
57.若否,则删除所述图文数据集文件,并删除所述图文数据集文件的版本目录;
58.并且/或者,
59.所述系统还包括第二图文数据集文件删除模块,所述第二图文数据集文件删除模块被配置为通过下列步骤删除图文数据集文件:
60.当需要删除存在依赖关系的所有图文数据集文件时,获取每个图文数据集文件的版本和版本目录;
61.按照预设的版本顺序依次删除对应版本的图文数据集文件并删除相应的版本目录。
62.在第三方面,提供一种控制装置,该控制装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述数据管控方法的技术方案中任一项技术方案所述的数据管控方法。
63.在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述数据管控方法的技术方案中任一项技术方案所述的数据管控方法。
64.在采用上述技术方案的情况下,本发明能够在接收数据需求平台发送的数据查询请求后,获取查询请求包含的待查询图文数据集文件的版本,并根据待查询图文数据集文件的版本确定版本依赖路径中的每个版本的图文数据集文件的版本目录,将版本目录合并生成新的版本目录,使得数据需求平台通过访问新的版本目录读取相应的图文数据集文件,其中版本依赖路径中每个版本的图文数据集文件分别是根据各自依赖的前一个版本的图文数据集文件创建的,创建方式包括以前一个版本的图文数据集文件为基础进行数据增量更新。通过这种设置方式,能够在图文数据集文件创建时使用数据增量更新的方式进行图文数据集文件的创建,并根据数据需求平台发送的查询请求,将数据需求平台需要访问的图文数据集文件对应的版本目录进行合并,生成新的版本目录,新的版本目录中对应的图文数据集文件是各个版本的图文数据文件的集合,以便数据需求平台读取图文数据。同时由于各个版本的图文数据集文件是通过数据增量更新方式创建的,在确保图文数据集的数据量足够满足数据需求平台的需求同时,多个图文数据集文件之间不再存在重复的图文数据,不仅能够减少重复的图文数据的存储,提高底层存储空间的存储利用率,还能够有效解决数据需求平台中的数据处理器如gpu等处理器同时读取多个图文数据集文件导致的数据处理效率降低的问题,显著提升了数据需求平台的数据处理效率。
附图说明
65.参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。其中:
66.图1是根据本发明的一个实施例的数据管控方法的主要步骤流程示意图;
67.图2是根据本发明实施例的一个实施方式的版本依赖路径示意图;
68.图3是根据本发明实施例的一个实施方式的创建图文数据集文件的流程示意图;
69.图4是根据本发明实施例的一个实施方式的使用堆叠文件系统挂载版本目录以使数据需求平台进行读取的流程示意图;
70.图5是根据本发明的一个实施例的数据管控系统的主要结构框图。
具体实施方式
71.下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
72.在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“a和/或b”表示所有可能的a与b的组合,比如只是a、只是b或者a和b。术语“至少一个a或b”或者“a和b中的至少一个”含义与“a和/或b”类似,可以包括只是a、只是b或者a和b。单数形式的术语“一个”、“这个”也可以包含复数形式。
73.数据需求平台如训练平台一般可以提供包括图文数据集管理、图文数据标注以及模型训练等功能。图文数据集中可以包含大量的图文数据文件,如图片、视频以及文本等,同时图文数据集也会存在不同的版本,用于不同目的的模型训练以及模型的训练改进。一般而言,不同版本的图文数据集之间是存在着继承关系的,比如说v2版本的图文数据集是由v1版本的图文数据集派生而来的。现有技术中,不同版本的图文数据集之间一般会存在大量重复的图文数据,同时也会存在着一定的差异。这就会导致大量不同版本的图文数据集在底层存储空间中会占用大量的存储空间;同时,在读取不同版本的图文数据集文件时,对于数据需求平台中的数据处理器如gpu等的数据处理效率也会产生影响。
74.在本发明实施例中,提供一种数据管控方法、系统、装置和介质来解决上述问题。
75.参阅附图1,图1是根据本发明的一个实施例的数据管控方法的主要步骤流程示意图。如图1所示,本发明实施例中的数据管控方法主要包括下列步骤s101

步骤s103。
76.步骤s101:接收数据需求平台发送的数据查询请求,数据查询请求包括待查询图文数据集文件的版本。
77.在本实施例中,数据需求平台可以发送数据查询请求,数据查询请求中可以包括待查询的图文数据集文件的版本。
78.一个实施方式中,数据需求平台可以是训练平台,在训练平台需要查询图文数据集文件进行模型训练时,需要指定待查询的图文数据集文件的版本,并在发送的数据查询
请求中包含待查询图文数据集文件的版本信息。
79.步骤s102:确定版本的版本依赖路径中每个版本的图文数据集文件的版本目录。
80.在本实施例中,可以根据步骤s101中获取的待查询图文数据集文件的版本,确定待查询图文数据集文件的版本的版本依赖路径,并进一步确定版本依赖路径中每个版本的图文数据集文件的版本目录。其中,版本依赖路径是指,不同版本的图文数据集文件的继承关系。不同版本的图文数据集文件的版本目录,是指存储每个版本的图文数据集文件的存储空间对应的目录。
81.步骤s103:对版本目录进行版本合并生成新的版本目录,以便数据需求平台通过访问新的版本目录读取相应的图文数据集文件。
82.在本实施例中,可以将步骤s102中获取的每个版本的图文数据集文件的版本目录进行合并,生成新的版本目录。数据需求平台能够通过访问新的版本目录读取相应的图文数据集文件。
83.其中,版本依赖路径中每个版本的图文数据集文件分别是根据各自依赖的前一个版本的图文数据集文件创建的,创建方式包括以前一个版本的图文数据集文件为基础进行数据增量更新。
84.具体地,每个版本的图文数据集文件可以是以前一个版本的图文数据集文件为基础,以数据增量更新的方式创建的。也就是说,在创建新版本的图文数据集文件时,可以计算待创建版本的图文数据集文件与其前一个版本的图文数据集文件的数据增量部分,并以数据增量更新的方式来创建新版本的图文数据集文件。其中,数据增量更新是指在进行图文数据集存储时,计算出图文数据集相对前一个图文数据集的数据增量部分,只更新数据增量部分的图文数据。
85.基于上述步骤s101

步骤s103,本发明实施例能够在接收数据需求平台发送的数据查询请求后,获取查询请求包含的待查询图文数据集文件的版本,并根据待查询图文数据集文件的版本确定版本依赖路径中的每个版本的图文数据集文件的版本目录,将版本目录合并生成新的版本目录,使得数据需求平台通过访问新的版本目录读取相应的图文数据集文件,其中版本依赖路径中每个版本的图文数据集文件分别是根据各自依赖的前一个版本的图文数据集文件创建的,创建方式包括以前一个版本的图文数据集文件为基础进行数据增量更新。通过这种设置方式,能够在图文数据集文件创建时使用数据增量更新的方式进行图文数据集文件的创建,并根据数据需求平台发送的查询请求,将数据需求平台需要访问的图文数据集文件对应的版本目录进行合并,生成新的版本目录,新的版本目录中对应的图文数据集文件是各个版本的图文数据文件的集合,以便数据需求平台读取图文数据。同时由于各个版本的图文数据集文件是通过数据增量更新方式创建的,在确保图文数据集的数据量足够满足数据需求平台的需求同时,多个图文数据集文件之间不再存在重复的图文数据,不仅能够减少重复的图文数据的存储,提高底层存储空间(图文数据集文件的版本目录指向的存储空间)的存储利用率,还能够有效解决数据需求平台中的数据处理器如gpu等处理器同时读取多个图文数据集文件导致的数据处理效率降低的问题,显著提升了数据需求平台的数据处理效率。
86.下面对在步骤s103作进一步地说明。
87.在本发明实施例步骤s103的一个可选实施方式中,步骤s103可以包括:
88.步骤s1031:按照预设的版本顺序对版本目录进行排序;
89.步骤s1032:使用堆叠文件系统将排序后的版本目录进行合并以生成新的版本目录,并将新的版本目录挂载至预设的挂载点。
90.堆叠文件系统是指,堆叠式的文件系统,其本身不提供数据存储能力,而是直接利用下层文件系统(底层存储空间)存储数据,其可以独立于下层文件系统,提供副本策略设计,实现异步副本、归档、数据缓存以及名字空间统一等功能。本实施例采用的是计算机技术领域中常规的堆叠文件系统。
91.在本实施方式中,可以根据预设的版本顺序对版本依赖路径中各个版本的图文数据集文件的版本目录进行排序。进一步,可以使用堆叠文件系统将排序后的版本目录合并生成新的版本目录,并将新的版本目录挂载到预设的挂载点。预设的挂载点可以为在堆叠文件系统中预设的训练数据目录。其中,挂载是指将文件的目录连接到堆叠文件系统中的某一目录(挂载点),访问该目录就可以访问该文件,读取文件中的数据。
92.一个例子,预设的版本顺序可以是从高版本到低版本的顺序,如版本依赖路径中包含的图文数据集的版本为v1.0、v1.1、v1.2、v1.3,这些版本对应的版本木目录为dv1.0、dv1.1、dv1.2、dv1.3,则排序后的版本目录顺序为dv1.3、dv1.2、dv1.1、dv1.0。可以将排序后的版本目录合并以生成新的版本目录ndv1.3,并将新的版本目录挂载至堆叠文件系统的训练数据目录上,以便数据需求平台通过访问堆叠文件系统读取训练数据目录中的dv1.3读取相应的图文数据集文件。
93.在本发明实施例的一个实施方式中,数据管控方法除了包括上述步骤s101

s103外,还可以包括以下步骤s104

步骤s107,以待创建图文数据集文件依赖的图文数据集文件为基础进行数据增量更新,以完成待创建图文数据集文件的创建:
94.步骤s104:建立待创建图文数据集文件的版本和版本目录;
95.步骤s105:将待创建图文数据集文件依赖的图文数据集文件的版本目录作为待创建图文数据集文件的父级目录,将待创建图文数据集文件的版本目录挂载到父级目录下;
96.步骤s106:根据待创建图文数据集文件的图文数据以及依赖的图文数据集文件的图文数据,确定需要增加的图文数据;
97.步骤s107:将需要增加的图文数据存储至待创建图文数据集文件的版本目录指定的存储空间,以完成待创建图文数据集文件的创建。
98.在本实施方式中,在进行图文数据集文件的创建时,可以建立待创建图文数据集文件的版本和版本目录,并将待创建的图文数据集文件依赖的图文数据集文件的版本目录作为待创建图文数据集文件的父级目录,将待创建图文数据集文件的版本目录挂载到父级目录下。进一步,根据待创建的图文数据集文件的图文数据以及依赖的图文数据集文件的图文数据,确定需要增加的图文数据作为数据增量更新的增量部分,并存储至待创建版本目录指定的存储空间,以完成待创建图文数据集文件的创建。也就是说,待创建的图文数据集文件可以在其依赖图文数据集文件的基础上以数据增量更新的方式,获得需要增加的图文数据;将待创建的图文数据的版本目录挂载在依赖的图文数据文件的版本目录下;并将需要增加的图文数据存储至待创建图文数据文件的版本目录指定的存储空间。
99.一个实施方式中,上述步骤s106可以包括:
100.步骤s1061:分别计算待创建图文数据集文件的图文数据和依赖的图文数据集文
件的图文数据的散列值;
101.步骤s1062:对散列值进行比较,确定需要增加的图文数据。
102.具体地,可以分别计算待创建图文数据集文件的图文数据和依赖的图文数据集文件的图文数据的散列值,并根据散列值来确定图文数据集文件的需要增加的图文数据(增量部分),可以将增量部分存储在待创建的图文数据集文件中。其中,散列值是指作为哈希运算的结果给出的一段数据。哈希运算是指,将一大组数据转换成一小组数据,来代表全部数据的操作。散列值可以是hash(哈希)值或md5(message

digest algorithm)值。
103.在一个例子中,可以根据待创建图文数据集的图文数据和依赖的图文数据集的图文数据的md5值进行全表比对的方式,确定需要增加的图文数据。具体地,可以根据依赖的图文数据文件的图文数据建立一个结构类似的md5临时表,该临时表记录源表(待创建的图文数据文件的图文数据)主键以及根据所有图文数据计算的md5值,比较源表和md5临时表的md5值,来确定源表中需要增加的图文数据。
104.在一个例子中,可以使用基于图文数据集文件的数据块hash值确定数据增量更新时需要增加的图文数据。即,将待创建的图文数据集的图文数据和依赖的图文数据的图文数据分别划分为不同的数据块,并计算各个数据块的hash值,根据不同数据块的hash值确定不同数据块的中需要增加的图文数据,并最终确定待创建图文数据集的图文数据中需要增加的图文数据。
105.在本发明实施例的一个实施方式中,数据管控方法除了包括上述步骤s101

s103外,还可以包括以下步骤s108

步骤s110,以待创建图文数据集文件依赖的图文数据集文件为基础进行数据全量备份,以完成待创建图文数据集文件的创建:
106.步骤s108:建立待创建图文数据集文件的版本和版本目录;
107.步骤s109:将待创建图文数据集文件依赖的图文数据集文件的版本目录作为待创建图文数据集文件的父级目录,将待创建图文数据集文件的版本目录挂载到父级目录下;
108.步骤s110:将待创建图文数据集文件依赖的图文数据集文件对应的所有图文数据全部存储至待创建图文数据集文件的版本目录指定的存储空间,以完成待创建图文数据集的创建。
109.在本实施方式中,可以建立待创建图文数据集文件的版本和版本目录,并将依赖的图文数据集文件的版本目录作为待创建图文数据集文件的父级目录,将待创建图文数据集文件的版本目录挂载到父级目录下,并将待创建图文数据集文件依赖的图文数据集文件对应的所有图文数据全部存储至待创建图文数据集文件的版本目录指定的存储空间,以数据全量备份的方式完成待创建图文数据集文件的创建。其中,所有图文数据除了包括待创建图文数据集文件依赖的图文数据集文件的版本目录指定的存储空间内存储的图文数据,还包括待创建图文数据集文件依赖的图文数据集文件依赖的其他所有文件的版本目录指定的存储空间内存储的数据。通过上述设置,在图文数据集文件的版本过多的情况下,可以进行图文数据的数据全量备份,将所有图文数据都全量备份至新的图文数据集文件中,从而利用这个新的数据集文件作为创建基础,继续使用数据增量更新的方式来创建新的图文数据集文件,以解决因为版本过多影响堆叠文件系统读取性能的问题。
110.一个例子,如待创建的图文数据集文件的版本为v1.3,v1.3依赖的图文数据集文件的版本依次为v1.2,v1.1和v1.0,那么在v1.3对应的图文数据集文件进行数据全量备份
时,需要将v1.2对应的版本目录dv1.2作为v1.3对应的版本目录dv1.3的父级目录,将v1.3对应的版本目录dv1.3挂载到v1.2对应的版本目录dv1.2下,并将v1.2,v1.1和v1.0对应的图文数据集文件中的图文数据都保存至v1.3对应的图文数据集文件中。
111.在本发明实施例的一种实施方式中,数据管控方法还可以通过以下步骤删除图文数据集文件:
112.当需要删除存在依赖关系的图文数据集文件中的一部分图文数据集文件时,获取需要进行删除的图文数据集文件的版本;
113.确定是否存在依赖需要进行删除的图文数据集文件的版本的其他版本的图文数据集文件;
114.若是,则不删除图文数据集文件;
115.若否,则删除图文数据集文件,并删除图文数据集文件的版本目录。
116.在本实施方式中,当需要删除存在依赖关系的图文数据集文件中的一部分图文数据集文件时,可以获取需要进行删除的图文数据集文件的版本,并进一步确定是否存在依赖需要进行删除的图文数据集文件的版本的其他版本的图文数据集文件,若是,则不删除该图文数据集文件,以避免对与其存在依赖关系的其他版本的图文数据集文件产生影响。若否,则删除需要删除的图文数据集文件,并删除该图文数据集文件的版本目录。其中,依赖关系是指图文数据集文件之间的继承关系,即为后一个版本的图文数据集文件是在前一个版本的图文数据集文件基础上进行创建的,则可认为后一个版本的图文数据集文件和前一个版本的图文数据集文件之间具有依赖关系。
117.在本发明实施例的一种实施方式中,数据管控方法还可以通过以下步骤删除图文数据集文件:
118.当获取需要删除存在依赖关系的所有图文数据集文件时,获取每个图文数据集文件的版本和版本目录;
119.按照预设的版本顺序依次删除对应版本的图文数据集文件并删除相应的版本目录。
120.在本实施方式中,当需要删除存在依赖关系的所有图文数据集文件时,可以获取每个需要删除图文数据集文件的版本和版本目录,并按照预设的版本顺序依次删除对应版本的图文数据集文件,并删除相应的版本目录。
121.在一个例子中,预设的版本顺序为从高版本到低版本进行依次删除。
122.参阅图2,其中图2是根据本发明实施例的一个实施方式的版本依赖路径示意图。在一个实施方式中,如图2所示,其中,v1.0、v1.1、v1.2、v1.3、v2.0分别为对应的图文数据集文件的版本,版本依赖路径分别包括v1.0

v1.1

v1.2

v1.3以及v1.0

v1.1

v2.0。v1.0的对应的版本目录下存储的图文数据为a.jpg、b.jpg、c.jpg;v1.1的对应的版本目录下存储的图文数据为数据增量更新d.jpg;v1.2的对应的版本目录下存储的图文数据为数据增量更新y.jpg并删除a.jpg;v1.3的对应的版本目录下存储的图文数据为更新c.jpg(更新);v2.0的对应的版本目录下存储的图文数据增量更新x.jpg以及更新a.jpg(更新)。对应的,在需要挂载v1.0时,通过合并版本目录生成新的版本目录后对应的图文数据为a.jpg、b.jpg、c.jpg;在需要挂载v1.1、v1.0时,通过合并版本目录生成新的版本目录后对应的图文数据为a.jpg、b.jpg、c.jpg、d.jpg;在需要挂载v2.0、v1.1、v1.0时,通过合并版本目录生
成新的版本目录后对应的图文数据为a.jpg(更新)、b.jpg、c.jpg、d.jpg;在需要挂载v1.2、v1.1、v1.0时,通过合并版本目录生成新的版本目录后对应的图文数据为b.jpg、c.jpg、d.jpg、x.jpg、y.jpg;在需要挂载v1.3、v1.2、v1.1、v1.0时,通过合并版本目录生成新的版本目录后对应的图文数据为b.jpg、c.jpg(更新)、d.jpg、x.jpg、y.jpg。
123.在一个实施方式中,可以使用git的文件版本管理和合并机制,实现图文数据集文件的版本目录的合并。其中,git是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。
124.需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
125.进一步,本发明还提供了一种数据管控系统。
126.参阅附图5,图5是根据本发明的一个实施例的数据管控系统的主要结构框图。如图5所示,本发明实施例中的数据管控系统应用于图文数据管控,数据管控系统可以包括查询请求接收模块、版本目录确定模块和版本目录合并模块。在本实施例中,查询请求接收模块可以被配置为接收数据需求平台发送的数据查询请求,数据查询请求包括待查询图文数据集文件的版本。版本目录确定模块可以被配置为确定版本的版本依赖路径中每个版本的图文数据集文件的版本目录。版本目录合并模块可以被配置为对版本目录进行版本合并生成新的版本目录,以便数据需求平台通过访问新的版本目录读取相应的图文数据集文件。其中,版本依赖路径中每个版本的图文数据集文件分别是根据各自依赖的前一个版本的图文数据集文件创建的,创建的方式包括以前一个版本的图文数据集文件为基础进行数据增量更新。
127.在一个实施方式中,版本目录合并模块可以包括版本目录排序单元和版本目录合并单元。在本实施方式中,版本目录排序单元可以被配置为按照预设的版本顺序对所述版本目录进行排序。版本目录合并单元可以被配置为使用堆叠文件系统将排序后的版本目录进行合并以生成新的版本目录,并将新的版本目录挂载至预设的挂载点。
128.在一个实施方式中,数据管控系统还可以包括第一图文数据集文件创建模块,第一图文数据集文件创建模块可以被配置为以待创建图文数据集文件依赖的图文数据集文件为基础进行数据增量更新,以完成待创建图文数据集文件的创建;第一图文数据集文件创建模块可以包括第一版本及版本目录建立单元、第一挂载单元、增加图文数据确定单元和第一存储单元。在本实施方式中,第一版本及版本目录建立单元可以被配置为建立待创建图文数据集文件的版本和版本目录。第一挂载单元可以被配置为将待创建图文数据集文件依赖的图文数据集文件的版本目录作为待创建图文数据集文件的父级目录,将待创建图文数据集文件的版本目录挂载到父级目录下。增加图文数据确定单元可以被配置为根据待创建图文数据集文件的图文数据以及依赖的图文数据集文件的图文数据,确定需要增加的图文数据。第一存储单元可以被配置为将需要增加的图文数据存储至待创建图文数据集文件的版本目录指定的存储空间,以完成待创建图文数据集文件的创建。
129.在一个实施方式中,数据管控系统还可以包括第二图文数据集文件创建模块,第二图文数据集文件创建模块可以被配置为以待创建图文数据集文件依赖的图文数据集文
件为基础进行数据全量备份,以完成待创建图文数据集文件的创建;第二图文数据集文件创建模块可以包括第二版本及版本目录建立单元、第二挂载单元和第二存储单元。在本实施方式中,第二版本及版本目录建立单元可以被配置为建立待创建图文数据集文件的版本和版本目录。第二挂载单元可以被配置为将待创建图文数据集文件依赖的图文数据集文件的版本目录作为待创建图文数据集文件的父级目录,将待创建图文数据集文件的版本目录挂载到父级目录下。第二存储单元可以被配置为将待创建图文数据集文件依赖的图文数据集文件对应的所有图文数据全部存储至待创建图文数据集文件的版本目录指定的存储空间,以完成待创建图文数据集的创建。
130.在一个实施方式中,增加图文数据确定模块可以包括散列值确定单元和散列值比较单元。在本实施方式中,散列值确定单元可以被配置为分别计算待创建图文数据集文件的图文数据和依赖的图文数据集文件的图文数据的散列值。散列值比较单元可以被配置为对散列值进行比较,确定需要增加的图文数据。
131.在一个实施方式中,数据管控系统还可以包括第一图文数据集文件删除模块,第一图文数据集文件删除模块可以被配置为通过下列步骤删除图文数据集文件:当需要删除存在依赖关系的图文数据集文件中的一部分图文数据集文件时,获取需要进行删除的图文数据集文件的版本;确定是否存在依赖版本的其他版本的图文数据集文件;若是,则不删除图文数据集文件;若否,则删除图文数据集文件,并删除图文数据集文件的版本目录。
132.在一个实施方式中,数据管控系统还可以包括第二图文数据集文件删除模块,第二图文数据集文件删除模块可以被配置为通过下列步骤删除图文数据集文件:当需要删除存在依赖关系的所有图文数据集文件时,获取每个图文数据集文件的版本和版本目录;按照预设的版本顺序依次删除对应版本的图文数据集文件并删除相应的版本目录。
133.在一个实施方式中,数据管控系统可以包括训练平台(数据需求平台)、数据管理平台、版本管理模块、文件挂载模块、堆叠文件系统、文件管理模块以及底层存储模块。其中,版本管理模块用于管理图文数据集文件的版本的基本信息,包括版本号、依赖关系以及该版本图文数据集文件是否采用数据增量更新方式创建的;文件管理模块用于管理图文数据集文件的增加、删除和更改,依据不同的版本创建方式(数据增量更新或数据全量备份)采用不同的方式修改版本目录对应的图文数据集文件;文件挂载模块用于使用堆叠文件系统挂载指定的版本目录,并将不同的版本目录进行合并生成新的版本目录。
134.参阅图3,其中图3是根据本发明实施例的一个实施方式的创建图文数据集文件的流程示意图。在一个例子中,如图3所示,在接收上传图文数据集请求后,数据管理平台可以根据上传图文数据请求创建图文数据集的版本,并进一步创建图文数据集的版本目录,文件管理模块根据创建的版本目录将图文数据文件存储至版本目录指定的底层存储模块的存储空间。
135.参阅图4,其中图4是根据本发明实施例的一个实施方式的使用堆叠文件系统挂载版本目录以使数据需求平台进行读取的流程示意图。在一个例子中,如图4所示,在训练平台(数据需求平台)启动训练任务后,可以向数据管理平台发送获取数据集的请求(数据查询请求),数据管理平台会根据获取数据集的请求向版本管理模块查询数据版本(版本依赖路径中每个版本的图文数据集文件的版本目录)。文件挂载模块根据数据版本向堆叠文件系统发送挂载请求,堆叠文件系统根据挂载请求,读取版本目录指定的底层存储模块的存
储空间存储的图文数据集文件,并将各个版本目录对应的图文数据集文件合并后挂载至堆叠文件系统,训练平台通过堆叠文件系统读取相应的图文数据集文件。
136.上述数据管控系统以用于执行图1所示的数据管控方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,数据管控系统的具体工作过程及有关说明,可以参考数据管控方法的实施例所描述的内容,此处不再赘述。
137.本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
138.进一步,本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的数据管控方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的数据管控方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
139.进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的数据管控方法的程序,该程序可以由处理器加载并运行以实现上述数据管控方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
140.进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
141.本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
142.至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜