数据处理方法、装置及存储介质与流程

2022-04-27 03:24:03 来源：中国专利 TAG：

1.本公开涉及数据处理技术领域，尤其涉及一种数据处理方法、装置及存储介质。

背景技术：

2.目前，可读写高速存储后端和只读存储后端是常见的数据存储单元，可以用于数据的存储与读取。其中，可读写高速存储后端通常指以固态硬盘为代表的主要基于集成电路制作的存储器，其数据存储速度较快，但容量较小。只读存储后端通常指以机械硬盘为代表的旋转盘片为基础的非易失性存储器，其容量较大，但数据存储速度较慢。
3.相关技术中，通常采用可读写高速存储后端与只读存储后端相结合的方式进行数据的存储及读取。相关技术中的数据处理方法，数据存储效率较低，无法满足用户的需求。

技术实现要素：

4.为克服相关技术中存在的问题，本公开提供一种数据处理方法、装置及存储介质。
5.根据本公开实施例的第一方面，提供一种数据处理方法，包括：
6.获取待存储数据，并将所述待存储数据存储至存储系统的可读写高速存储后端；在可读写高速存储后端的已存储数据中确定待转存数据；将所述待转存数据转存至所述存储系统的只读存储后端。
7.一种实施方式中，将所述待存储数据存储至存储系统的可读写高速存储后端，包括：确定所述待存储数据所属的存储桶；响应于所述存储系统的可读写高速存储后端中已存在第一目标数据，所述第一目标数据所属存储桶与所述已存储数据所属存储桶相同，将所述待存储数据与所述第一目标数据整合为同一数据段存储至所述存储系统的可读写高速存储后端。
8.一种实施方式中，在可读写高速存储后端的已存储数据中确定待转存数据，包括：确定所述存储系统的可读写高速存储后端所存储的数据段，并通过所述数据段，得到转存至所述存储系统的只读存储后端的待转存数据。
9.一种实施方式中，将所述待转存数据转存至所述存储系统的只读存储后端之前，所述方法还包括：确定可读写高速存储后端已存储数据的数量达到目标数量阈值，和/或确定可读写高速存储后端已存储数据中存在有数据大小达到目标大小阈值的数据。
10.一种实施方式中，将所述待转存数据转存至所述存储系统的只读存储后端，包括：确定所述待转存数据所属的存储桶；响应于所述存储系统的只读存储后端中已存在第二目标数据，所述第二目标数据所属存储桶与所述待转存数据所属存储桶相同，将所述待转存数据与所述第二目标数据整合为同一数据段存储至所述存储系统的只读存储后端。
11.一种实施方式中，采用如下方式将指定数据与指定待转存数据整合为同一数据段存储所述存储系统的指定存储后端，其中，所述指定数据包括待存储数据，所述指定待转存数据包括第一目标数据，所述指定存储后端包括可读写高速存储后端，或，所述指定数据包括待转存数据，所述指定待转存数据包括第二目标数据，所述指定存储后端包括只读存储
后端：将所述指定数据存储于所述指定存储后端的第一存储地址，以及将所述指定待转存数据存储于所述指定存储后端的第二存储地址，所述第一存储地址与所述第二存储地址之间的存储地址差异度小于第一差异度阈值。
12.一种实施方式中，所述方法还包括：将所述指定数据的元数据存储于所述指定存储后端的第三存储地址，以及将所述指定待转存数据的元数据存储于所述指定存储后端的第四存储地址，所述第三存储地址与所述第四存储地址之间的存储地址差异度小于第二差异度阈值。
13.根据本公开实施例的第二方面，提供一种数据处理方法，包括：
14.响应于获取到数据集读取请求，确定匹配所述数据集读取请求的指定数据集；在存储系统的可读写高速存储后端和/或只读存储后端中，确定匹配所述指定数据集的元数据，并基于匹配所述指定数据集的元数据，读取所述指定数据集；其中，针对指定存储后端中存储的数据，所述指定存储后端包括可读写高速存储后端或只读存储后端，匹配相同数据集的所述数据之间的存储地址差异度小于第一差异度阈值，匹配相同数据集的所述数据的元数据之间的存储地址差异度小于第二差异度阈值。
15.根据本公开实施例的第三方面，提供一种数据处理装置，包括：
16.获取单元，用于获取待存储数据；处理单元，用于将所述待存储数据存储至存储系统的可读写高速存储后端；确定单元，用于在可读写高速存储后端的已存储数据中确定待转存数据；所述处理单元，还用于将所述待转存数据转存至所述存储系统的只读存储后端。
17.一种实施方式中，所述处理单元采用如下方式将所述待存储数据存储至存储系统的可读写高速存储后端：确定所述待存储数据所属的存储桶；响应于所述存储系统的可读写高速存储后端中已存在第一目标数据，所述第一目标数据所属存储桶与所述已存储数据所属存储桶相同，将所述待存储数据与所述第一目标数据整合为同一数据段存储至所述存储系统的可读写高速存储后端。
18.一种实施方式中，所述确定单元采用如下方式在可读写高速存储后端的已存储数据中确定待转存数据：确定所述存储系统的可读写高速存储后端所存储的数据段，并通过所述数据段，得到转存至所述存储系统的只读存储后端的待转存数据。
19.一种实施方式中，所述确定单元还用于：将所述待转存数据转存至所述存储系统的只读存储后端之前，确定可读写高速存储后端已存储数据的数量达到目标数量阈值，和/或确定可读写高速存储后端已存储数据中存在有数据大小达到目标大小阈值的数据。
20.一种实施方式中，所述处理单元采用如下方式将所述待转存数据转存至所述存储系统的只读存储后端：确定所述待转存数据所属的存储桶；响应于所述存储系统的只读存储后端中已存在第二目标数据，所述第二目标数据所属存储桶与所述待转存数据所属存储桶相同，将所述待转存数据与所述第二目标数据整合为同一数据段存储至所述存储系统的只读存储后端。
21.一种实施方式中，所述处理单元采用如下方式将指定数据与指定待转存数据整合为同一数据段存储所述存储系统的指定存储后端，其中，所述指定数据包括待存储数据，所述指定待转存数据包括第一目标数据，所述指定存储后端包括可读写高速存储后端，或，所述指定数据包括待转存数据，所述指定待转存数据包括第二目标数据，所述指定存储后端包括只读存储后端：将所述指定数据存储于所述指定存储后端的第一存储地址，以及将所
述指定待转存数据存储于所述指定存储后端的第二存储地址，所述第一存储地址与所述第二存储地址之间的存储地址差异度小于第一差异度阈值。
22.一种实施方式中，所述处理单元，还用于：将所述指定数据的元数据存储于所述指定存储后端的第三存储地址，以及将所述指定待转存数据的元数据存储于所述指定存储后端的第四存储地址，所述第三存储地址与所述第四存储地址之间的存储地址差异度小于第二差异度阈值。
23.根据本公开实施例的第四方面，提供一种数据处理装置，包括：
24.获取单元，用于获取数据集读取请求；确定单元，用于确定匹配所述数据集读取请求的指定数据集；以及在存储系统的可读写高速存储后端和/或只读存储后端中，确定匹配所述指定数据集的元数据，并基于匹配所述指定数据集的元数据，读取所述指定数据集；其中，针对指定存储后端中存储的数据，所述指定存储后端包括可读写高速存储后端或只读存储后端，匹配相同数据集的所述数据之间的存储地址差异度小于第一差异度阈值，匹配相同数据集的所述数据的元数据之间的存储地址差异度小于第二差异度阈值。
25.根据本公开实施例第五方面，提供一种电子设备，包括：
26.处理器；用于存储处理器可执行指令的存储器；
27.其中，所述处理器被配置为：执行第一方面或者第一方面任意一种实施方式中所述的数据处理方法，或执行第二方面或者第二方面任意一种实施方式中所述的数据处理方法。
28.根据本公开实施例第六方面，提供一种存储介质，所述存储介质中存储有指令，当所述存储介质中的指令由处理器执行时，使得处理器能够执行第一方面或者第一方面任意一种实施方式中所述的数据处理方法，或执行第二方面或者第二方面任意一种实施方式中所述的数据处理方法。
29.本公开的实施例提供的技术方案可以包括以下有益效果：可以通过可读写高速存储后端存储待存储数据，保证数据存储效率。并且，可以通过在可读写高速存储后端的已存储数据中确定待转存数据，以及将待转存数据转存至存储系统的只读存储后端的方式，使可读写高速存储后端有充足的存储空间完成数据存储，该方法在保证数据存储效率的同时，可以实现大量数据的存储。
30.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
31.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
32.图1是根据一示例性实施例示出的一种数据处理方法的流程图。
33.图2是根据一示例性实施例示出的一种将待存储数据存储至存储系统的可读写高速存储后端的方法流程图。
34.图3是根据一示例性实施例示出的另一种数据处理方法的流程图。
35.图4是根据一示例性实施例示出的又一种数据处理方法的流程图。
36.图5是根据一示例性实施例示出的一种将待转存数据转存至存储系统的只读存储
后端的方法流程图。
37.图6是根据一示例性实施例示出的另一种数据处理方法的流程图。
38.图7是根据一示例性实施例示出的又一种数据处理方法的流程图。
39.图8是根据一示例性实施例示出的另一种数据处理方法的流程图。
40.图9是根据一示例性实施例示出的一种数据处理方法的流程图。
41.图10是根据一示例性实施例示出的一种数据存储流程图。
42.图11是根据一示例性实施例示出的一种数据读取流程图。
43.图12是根据一示例性实施例示出的一种通过本公开实施例提供的数据处理方法，执行神经网络模型训练的方法流程图。
44.图13是根据一示例性实施例示出的一种基于存储于存储系统的可读写高速存储后端和/或只读存储后端的神经网络模型训练数据，训练神经网络模型的方法流程图。
45.图14是根据一示例性实施例示出的一种数据处理装置框图。
46.图15是根据一示例性实施例示出的另一种数据处理装置框图。
47.图16是根据一示例性实施例示出的一种用于数据处理的电子设备框图。
具体实施方式
48.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。
49.近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(artificial intelligence，ai)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(slam)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
50.本公开实施例提供的数据处理方法可以应用于数据处理场景中。例如，可以应用于存储和/或数据读取的场景中。
51.以下对本公开所涉及的部分名词进行解释：
52.存储桶(bucket)：存储数据的逻辑单位，每个数据必须属于且仅属于一个存储桶，所有对于数据的操作都需要提供其所在的存储桶。
53.数据段(layer)：在逻辑上是一个存储桶的一部分数据的集合。
54.元数据(metadata)：用于描述数据属性的数据。例如，可以用于指示数据存储位
置、历史数据、资源查找以及文件记录。
55.目前，可读写高速存储后端和只读存储后端是常见的数据存储单元，可以用于数据的存储与读取。其中，可读写高速存储后端通常指以固态硬盘为代表的主要基于集成电路制作的存储器，其数据存储速度较快，但容量较小。只读存储后端通常指以机械硬盘为代表的旋转盘片为基础的非易失性存储器，其容量较大，但数据存储速度较慢。
56.相关技术中，通常采用可读写高速存储后端与只读存储后端相结合的方式进行数据的存储及读取。相关技术中，由于可读写高速存储后端的容量较小，因此，针对可读写高速存储后端的容量无法满足数据存储需求的场景，部分数据存储任务需要由只读存储后端承担。由于只读存储后端的数据存储速度较慢，因此，相关技术中的数据存储方法，存在数据存储效率较低的问题，且该问题在针对大量数据的存储场景时尤为明显。
57.本公开实施例提供了一种数据处理方法，针对所获取的待存储数据，可以通过存储系统的可读写高速存储后端进行数据存储，保证数据存储效率。并且，可以将可读写高速存储后端的已存储数据转存至只读存储后端，该方法可以实现通过可读写高速存储后端存储大量数据，满足了用户针对大量数据的高速存储需求。
58.图1是根据一示例性实施例示出的一种数据处理方法的流程图，如图1所示，包括以下步骤。
59.在步骤s11中，获取待存储数据，并将待存储数据存储至存储系统的可读写高速存储后端。
60.在步骤s12中，在可读写高速存储后端的已存储数据中确定待转存数据。
61.其中，待转存数据可以为已存储数据中的部分数据或全部数据。
62.在步骤s13中，将待转存数据转存至存储系统的只读存储后端。
63.本公开实施例中，将待转存数据转存至存储系统的只读存储后端，可以是在可读写高速存储后端进行数据存储的过程中实时进行的。当然，也可以是在可读写高速存储后端完成数据存储的情况下进行的。
64.例如，在待存储数据的数据量小于或等于可读写高速存储后端的数据存储容量的情况下，可以在可读写高速存储后端完成数据存储时，将可读写高速存储后端中的已存储数据转存至只读存储后端，以此保证可读写高速存储后端具备充足的存储空间来执行后续的数据存储任务。
65.又例如，在待存储数据的数据量大于可读写高速存储后端的数据存储容量的情况下，可以在可读写高速存储后端进行数据存储的过程中，不断将可读写高速存储后端中的已存储数据转存至只读存储后端，以此保证可读写高速存储后端可以继续执行数据存储任务。
66.本公开实施例提供的数据处理方法，针对固有的可读写高速存储后端以及只读存储后端，通过将可读写高速存储后端中的已存储数据转存至只读存储后端的方式，使存储系统具备以较高的存储效率存储大量数据的能力，以此满足数据存储需求。
67.本公开实施例中，针对存储系统的可读写高速存储后端，可以将属于相同存储桶的数据整合存储。本公开为便于描述，将可读写存储后端中已存在的与待存储数据属于相同存储桶的数据称为第一目标数据。
68.图2是根据一示例性实施例示出的一种将待存储数据存储至存储系统的可读写高
速存储后端的方法流程图，如图2所示，包括以下步骤。
69.在步骤s21中，确定待存储数据所属的存储桶。
70.在步骤s22a中，在存储系统的可读写高速存储后端中已存在第一目标数据的情况下，将待存储数据与第一目标数据整合为同一数据段存储至存储系统的可读写高速存储后端。
71.在步骤s22b中，在存储系统的只读存储后端中未存在第一目标数据的情况下，直接将待存储数据存储至存储系统的只读存储后端。
72.通常的，针对属于相同存储桶的已存储数据，以及由属于相同存储桶的已存储数据整合得到的一个目标数据段，只读存储后端存储多个属于相同存储桶的已存储数据所需的耗时，通常要高于存储该目标数据段所需的耗时。例如，数据a和数据b属于相同存储桶，目标数据段c由数据a和数据b整合得到，针对只读存储后端存储数据a和数据b所需的耗时t1，以及只读存储后端存储目标数据段c所需的耗时t2，通常为t1＞t2。
73.图3是根据一示例性实施例示出的另一种数据处理方法的流程图，如图3所示，本公开实施例中的步骤s31、步骤s32a和步骤s32b与图2中的步骤s21、步骤s22a和步骤s22b的实施过程相似，在此不做赘述。
74.在步骤s33中，确定存储系统的可读写高速存储后端所存储的数据段，并通过数据段，得到转存至存储系统的只读存储后端的待转存数据。
75.示例的，针对存储系统的可读写高速存储后端所存储的数据段，可以将所存储的一个或多个数据段，作为转存至存储系统的只读存储后端的待转存数据。
76.在步骤s34中，将待转存数据转存至存储系统的只读存储后端。
77.本公开实施例提供的数据处理方法，通过数据整合以及将整合得到的数据段作为转存至只读存储后端的待转存数据的方式，提升了数据转存效率。
78.此外，由于系统读取多个小数据的效率，低于读取由多个小数据整合得到的一个大数据的效率，因此，通过将多个小数据整合存储的方式，还可以提高可读写高速存储后端中数据的易读性。换言之，该方法可以提升针对可读写高速存储后端的数据读取效率。
79.示例的，为保证已存储数据可以以数据段的形式转存于只读存储介质，可以为可读写高速存储后端设置相应的数据转存限制，以使已存储数据只有在达到数据转存限制的情况下，才会被转存于只读存储后端。其中，针对可读写高速存储后端设置数据转存限制，例如可以是针对已存储数据的数量设置目标数量阈值，又例如，还可以是针对已存储数据的数据大小设置目标大小阈值。当然，还可以通过其他方式设置数据转存限制，本公开对此不作具体限定。
80.图4是根据一示例性实施例示出的又一种数据处理方法的流程图，如图3所示，本公开实施例中的步骤s41、步骤s42a、步骤s42b和步骤s43与图3中的步骤s31、步骤s32a、步骤s32b和步骤s33的实施过程相似，在此不做赘述。
81.在步骤s44中，在确定可读写高速存储后端已存储数据的数量达到目标数量阈值，和/或确定可读写高速存储后端已存储数据中存在有数据大小达到目标大小阈值的数据的情况下，将待转存数据转存至存储系统的只读存储后端。
82.其中，目标数量阈值以及目标大小阈值可以是根据实际需求设置的。例如，若存储桶的类别数量为d，目标数量阈值为d 1，则在所存储的数据数量大于目标数量阈值的情况
下，至少有两个数据属于相同存储桶。该情况下，可以保证存储系统的可读写高速存储后端中，至少存储有一个由多个数据整合得到的数据段，基于此，满足了以数据段形式进行数据转存的数据转存需求。此外，目标大小阈值与目标数量阈值的设置方式相似，在此不做赘述。
83.本公开实施例中，通过设置目标数量阈值和/或目标大小阈值的方式，可以保证以数据段的形式，将可读写高速存储后端中的已存储数据转存至只读存储后端，以此保证数据转存效率。
84.示例的，可以在只读存储后端中已存在与待转存数据属于相同存储桶的数据的情况下，将该数据与待转存数据进行数据整合，进而将整合后的数据存储于指读存储后端。本公开以下为便于描述，将只读存储后端中已存在的与待转存数据属于相同存储桶的数据称为第二目标数据。
85.图5是根据一示例性实施例示出的一种将待转存数据转存至存储系统的只读存储后端的方法流程图，如图5所示，包括以下步骤。
86.在步骤s51中，确定待转存数据所属的存储桶。
87.在步骤s52a中，在存储系统的只读存储后端中已存在第二目标数据的情况下，将待转存数据与第一目标数据整合为同一数据段存储至存储系统的只读存储后端。
88.在步骤s52b中，在存储系统的只读存储后端中未存在第二目标数据的情况下，直接将待转存数据存储至存储系统的只读存储后端。
89.通常的，相较于多个数据，由多个数据整合得到的数据段更便于存储。本公开实施例中，通过将待转存数据与第二目标数据整合为同一数据段存储至只读存储后端的方式，可以实现优化只读存储后端的存储性能。并且，由于数据段具有易读性，因此，针对数据读取场景，在所整合的数据段中读取所需的数据，可以提升数据读取效率。
90.本公开实施例中，针对属于相同存储桶的数据，可以将数据的存储地址设置为相近的存储地址。示例的，可以在确定指定存储后端中已存在与待存储数据属于相同存储桶的数据的情况下，将待存储数据存储于与该数据的存储地址相近的存储地址。其中，指定数据例如可以包括待存储数据或待转存数据，指定存储后端例如可以包括可读写高速存储后端或只读存储后端。示例的，可以将待存储数据与第一目标数据存储于可读写存储后端的相近存储地址，以及可以将待转存数据与第二目标数据存储于只读存储后端的相近存储地址。本公开以下为便于描述，将指定数据的存储地址称为第一存储地址，将指定待转存数据的存储地址称为第二存储地址，将用于限制第一存储地址与第二存储地址之间为相近存储地址的存储地址差异度阈值称为第一差异度阈值。
91.图6是根据一示例性实施例示出的另一种数据处理方法的流程图，如图6所示，包括以下步骤。
92.在步骤s61中，获取待存储数据，并确定待存储数据所属的存储桶。
93.在步骤s62中，在可读写高速存储后端中存在第一目标数据的情况下，将待存储数据存储于可读写高速存储后端的第一存储地址，以及将第一目标数据存储于可读写高速存储后端的第二存储地址。
94.其中，可读写高速存储后端中，待存储数据所存储的第一存储地址与第一目标数据所存储的第二存储地址相比，存储地址差异度小于第一差异度阈值。
95.示例的，第一目标数据为在先存储于可读写高速存储后端中的数据，将第一目标数据存储于第二存储地址，可以理解为将第一目标数据由可读写高速存储后端中的原存储地址转存于可读写高速存储后端的第二存储地址，以使待存储数据与第一目标数据之间的存储地址差异度小于第一差异度阈值。
96.在步骤s63中，在可读写高速存储后端的已存储数据中确定待转存数据，并确定待转存数据所属的存储桶。
97.在步骤s64中，在只读存储后端中已存在第二目标数据的情况下，将待转存数据存储于只读存储后端的第一存储地址，以及将第二目标数据存储于只读存储后端的第二存储地址。
98.其中，只读高速存储后端中，待转存数据所存储的第一存储地址与第二目标数据所存储的第二存储地址相比，存储地址差异度小于第一差异度阈值。
99.示例的，第二目标数据为在先存储于只读存储后端中的数据，将第二目标数据存储于第二存储地址，可以理解为将第二目标数据由只读存储后端中的原存储地址转存于只读存储后端的第二存储地址，以使待转存数据与第二目标数据之间的存储地址差异度小于第一差异度阈值。
100.本公开实施例提供的数据处理方法，可以实现将属于数据相同存储桶的数据存储于相近的存储地址。在此基础上，针对属于相同存储桶的多个数据，可以实现快速读取。示例的，针对数据集的读取场景，由于同一数据集中数据属于相同存储桶，因此，该方法可以实现针对数据集的快速读取。
101.示例的，除将属于相同存储桶的数据存储于相近的存储地址外，还可以将属于相同数据通的数据的元数据存储于相近的存储地址，以使属于相同存储桶的数据的元数据具有易读性。进一步的，针对属于相同存储桶的多个数据，可以实现快速读取。示例的，可以在确定指定存储后端中存在指定待转存数据的情况下，将指定数据的元数据存储于与指定待转存数据的元数据相邻的存储地址。本公开以下为便于描述，将将指定数据的元数据的存储地址称为第三存储地址，将指定待转存数据的元数据的存储地址称为第四存储地址，将用于限制第三存储地址与第四存储地址之间为相近存储地址的存储地址差异度阈值称为第二差异度阈值。
102.图7是根据一示例性实施例示出的又一种数据处理方法的流程图，如图7所示，本公开实施例中的步骤s71和步骤s73与图6中的步骤s61和步骤s63的实施过程相似，在此不做赘述。
103.在步骤s72中，在可读写高速存储后端中存在第一目标数据的情况下，将待存储数据的元数据存储于可读写高速存储后端的第三存储地址，以及将第一目标数据的元数据存储于可读写高速存储后端的第四存储地址。
104.其中，可读写高速存储后端中，待存储数据的元数据所存储的第三存储地址与第一目标数据的元数据所存储的第四存储地址相比，存储地址差异度小于第二差异度阈值。
105.示例的，第一目标数据为在先存储于可读写高速存储后端中的数据，将第一目标数据的元数据存储于第四存储地址，可以理解为将第一目标数据的元数据由可读写高速存储后端中的原存储地址转存于可读写高速存储后端的第四存储地址，以使待存储数据的元数据与第一目标数据的元数据之间的存储地址差异度小于第二差异度阈值。
106.在步骤s74中，在只读存储后端中已存在第二目标数据的情况下，将待转存数据的元数据存储于只读存储后端的第三存储地址，以及将第二目标数据的元数据存储于只读存储后端的第四存储地址。
107.其中，只读高速存储后端中，待转存数据的元数据所存储的第三存储地址与第二目标数据的元数据所存储的第四存储地址相比，存储地址差异度小于第二差异度阈值。
108.示例的，第二目标数据为在先存储于只读存储后端中的数据，将第二目标数据的元数据存储于第四存储地址，可以理解为将第二目标数据的元数据由只读存储后端中的原存储地址转存于只读存储后端的第四存储地址，以使待转存数据的元数据与第二目标数据的元数据之间的存储地址差异度小于第二差异度阈值。
109.本公开实施例提供的数据处理方法，可以实现将属于相同存储桶的数据对应的元数据存储于相近的存储地址。在此基础上，针对属于相同存储桶的多个数据的元数据，可以实现快速读取。示例的，由于同一数据集中数据属于相同存储桶，因此，同一数据集中数据对应的元数据存储于相近存储地址。进一步的，针对数据集的读取场景，数据集中数据对应的元数据可以被快速读取。
110.示例的，针对数据相同存储桶的数据，可以将数据存储于相近存储地址的同时，将数据对应的元数据存储于相近存储地址，以此进一步提升针对数据集的整体读取效率。
111.图8是根据一示例性实施例示出的另一种数据处理方法的流程图，如图8所示，本公开实施例中的步骤s81和步骤s83与图7中的步骤s71和步骤s73的实施过程相似，在此不做赘述。
112.在步骤s82中，在可读写高速存储后端中存在第一目标数据的情况下，将待存储数据存储于可读写高速存储后端的第一存储地址，将第一目标数据存储于可读写高速存储后端的第二存储地址，将待存储数据的元数据存储于可读写高速存储后端的第三存储地址，以及将第一目标数据的元数据存储于可读写高速存储后端的第四存储地址。
113.其中，可读写高速存储后端中，待存储数据所存储的第一存储地址与第一目标数据所存储的第二存储地址相比，存储地址差异度小于第一差异度阈值。可读写高速存储后端中，待存储数据的元数据所存储的第三存储地址与第一目标数据的元数据所存储的第四存储地址相比，存储地址差异度小于第二差异度阈值。
114.在步骤s84中，在只读存储后端中已存在第二目标数据的情况下，将待转存数据存储于只读存储后端的第一存储地址，以及将第二目标数据存储于只读存储后端的第二存储地址，将待转存数据的元数据存储于只读存储后端的第三存储地址，以及将第二目标数据的元数据存储于只读存储后端的第四存储地址。
115.其中，只读高速存储后端中，待转存数据所存储的第一存储地址与第二目标数据所存储的第二存储地址相比，存储地址差异度小于第一差异度阈值。只读高速存储后端中，待转存数据的元数据所存储的第三存储地址与第二目标数据的元数据所存储的第四存储地址相比，存储地址差异度小于第二差异度阈值。
116.本公开实施例提供的数据处理方法，可以实现将属于相同存储桶的数据存储于相近的存储地址，以及将属于相同存储桶的数据对应的元数据存储于相近的存储地址。在此基础上，针对属于相同存储桶的多个数据，以及属于相同存储桶的多个数据的元数据，可以实现快速读取。示例的，由于同一数据集中数据属于相同存储桶，因此，同一数据集中数据
存储于相近存储地址，同一数据集中数据对应的元数据也存储于相近存储地址。进一步的，针对数据集的读取场景，可以实现快速读取。
117.基于相同的构思，本公开实施例还提供了一种数据处理方法，该方法可以应用于数据读取场景。
118.图9是根据一示例性实施例示出的一种数据处理方法的流程图，如图9所示，包括以下步骤。
119.在步骤s91中，响应于获取到数据集读取请求，确定匹配数据集读取请求的指定数据集。
120.示例的，请求读取的指定数据集，可以为一个或多个数据集。
121.在步骤s92中，在存储系统的可读写高速存储后端和/或只读存储后端中，确定匹配指定数据集的元数据，并基于匹配指定数据集的元数据，读取指定数据集。
122.其中，指定数据集中数据属于相同存储桶。示例的，针对指定存储后端中存储的数据，指定存储后端包括可读写高速存储后端或只读存储后端，匹配相同数据集的数据之间的存储地址差异度小于第一差异度阈值，匹配相同数据集的数据的元数据之间的存储地址差异度小于第二差异度阈值。
123.本公开实施例中，所存储的数据可以通过字节码标识，且匹配相同数据集的数据对应有相同前缀的字节码标识。针对数据集读取场景，存储系统在可读写存储后端和/或只读存储后端中，搜索具有相同前缀的数据。由于匹配相同数据集的数据被存储于相近存储地址，且匹配数据集的数据被配置有相同前缀，因此，存储系统可以在较小的存储地址范围内，对该数据集中的数据进行连续读取，该方法可以提高数据集读取效率，可以满足用户的使用需求。
124.图10是根据一示例性实施例示出的一种数据存储流程图。
125.本公开实施例中，如图10所示，可以实现数据的存储。示例的，可以接收由客户端发送的数据存储请求(也称数据写入请求)，确定待存储数据，并通过将数据存储请求重定向至可读写高速存储后端。进一步的，可以通过一个或多个可读写高速存储后端存储待存储数据，并在存储待存储数据的过程中，将已存储于可读写高速存储后端的已存储数据转存至一个或多个只读存储后端。
126.一实施方式中，可以在确定可读写高速存储后端已存储数据的数量达到目标数量阈值，和/或确定可读写高速存储后端已存储数据中存在有数据大小达到目标大小阈值的数据的情况下，将属于相同存储桶的已存储数据整合为目标数据段，得到转存至存储系统的只读存储后端的待转存数据。具体的，可以在一个或多个可读写高速存储后端中的已存储数据中，确定属于相同存储桶的数据，并对属于相同存储桶的数据进行数据整合，得到待转存数据。进一步的，可以将数据段形式的待转存数据转存于只读存储后端。
127.示例的，针对存储于只读存储后端的待转存数据，若只读存储后端中未存储有与待转存数据属于相同存储桶的数据，则可以直接将待转存数据存储于只读存储后端。若只读存储后端中存储有与待转存数据属于相同存储桶的数据，则可以将该数据与待转存数据进行数据整合，以此优化只读存储后端的存储性能。其中，待转存数据与只读存储后端存储的数据之间的数据整合过程，可以是在只读存储后端获取到待转存数据的情况下实时触发进行的。当然，也可以是周期性检测只读存储后端所存储的数据，若发现存在属于相同存储
桶的不同数据，则触发进行数据整合。
128.本公开实施例提供的处理处理方法，可以待存储数据存储完成的情况下，向客户端发送数据存储完成的反馈结果。
129.图11是根据一示例性实施例示出的一种数据读取流程图。
130.本公开实施例中，如图11所示，可以实现数据的读取。示例的，可以接收由客户端发送的数据读取请求，并通过数据读取请求确定所请求数据所属的存储桶。进一步的，可以获取匹配该存储桶的元数据，并根据所获取的元数据查找请求读取的数据。
131.一实施方式中，可以根据匹配数据读取请求的存储桶，在可读写高速存储后端中查找相应的元数据，并根据元数据，确定可读写高速存储后端中是否存在所请求读取的数据。进一步的，可以在未查找到或查找到部分数据的情况下，在只读存储后端中查找相应的元素，并根据元数据，确定只读存储后端中是否存在所请求读取的数据。其中，在只读存储后端中查找的数据，可以包括属于相应存储桶的整合后的数据段，以及属于相应存储桶的尚未整合的数据。在查找到全部所需数据的情况下，将所请求的数据反馈至客户端，完成数据读取。
132.示例的，若将匹配相同数据集的数据存储于相近存储地址，以及将匹配相同数据集的数据的元数据存储于相近存储地址，则在数据读取请求所请求的数据为指定数据集的情况下，可以快速查找匹配指定数据集的元数据，并根据元数据快速查找匹配指定数据集的数据，进而实现针对指定数据集的快速读取。示例的，针对匹配同一数据集的数据e、数据f以及数据g，将匹配相同数据集的数据存储于相近存储地址，例如可以是数据e和数据g分别存储于与数据f相邻的存储地址。例如，可以将数据e与数据f存储于相邻存储地址，并将数据g存储于与数据f相邻的存储地址，在此基础上，若数据e、数据f以及数据g存储于可读写高速存储后端，则三者间的任意两个数据之间的存储地址差异度小于第一差异度阈值。
133.本公开实施例中，通过元数据及存储桶进行数据存储的方式，采用了对象存储系统的存储方式。其中，对象存储系统，是指把每项数据指定为一个对象，使用一个特定标识符(即，本公开涉及的元数据)来索引对象的存储系统。
134.示例的，包括可读写高速存储后端以及只读存储后端的对象存储系统，可以是基于ext4文件系统以及raft共识性协议设置的。
135.一实施方式中，针对本公开涉及的可读写高速存储后端或只读存储后端，可以直接使用其他对象存储系统进行部分替换。例如，针对包括可读写高速存储后端g以及只读存储后端i的对象存储系统j，可以直接使用另一对象存储系统k替换只读存储后端i，以此得到包括可读写高速存储后端g以及对象存储系统k的对象存储系统j。在此基础上，对象存储系统k可以继续执行只读存储后端i的功用。例如，在可读写高速存储后端g进行数据存储的过程中，将可读写高速存储后端g中的已存储数据转存至对象存储系统k。不同方式实现的存储系统在逻辑上构成新的存储后端，可以根据业务类型和各存储系统的偏向将不同存储桶分配到不同系统实现上，从而更好地服务用户。
136.本公开实施例提供的数据处理方法，可以应用于神经网络模型的训练场景。
137.通常的，在人工智能模型构建中，训练和测试往往需要存储海量非结构化数据。示例的，针对神经网络模型的训练场景，通常对神经网络模型训练数据有着高效快速的存储需求。
138.示例的，可以通过本公开实施例提供的数据处理方法，以存储系统的可读写高速存储后端进行数据存储，保证数据存储效率。并且，可以将可读写高速存储后端的已存储数据转存至只读存储后端，该方法可以实现通过可读写高速存储后端存储大量数据，满足神经网络模型训练场景的训练数据存储需求。进一步的，以所存储的神经网络模型训练数据，对神经网络模型进行训练，可以满足针对神经网络模型的训练需求。
139.图12是根据一示例性实施例示出的一种通过本公开实施例提供的数据处理方法，执行神经网络模型训练的方法流程图。
140.在步骤s101中，获取待存储的神经网络模型训练数据，并将神经网络模型训练数据存储至存储系统的可读写高速存储后端。
141.在步骤s102中，在可读写高速存储后端已存储的神经网络模型训练数据中确定待转存数据。
142.在步骤s103中，将待转存数据转存至存储系统的只读存储后端。
143.在步骤s104中，基于存储于存储系统的可读写高速存储后端和/或只读存储后端的神经网络模型训练数据，训练神经网络模型。
144.示例的，可以将匹配相同数据集的数据存储于相近的存储地址，以及将匹配相同数据集的元数据也存储于相近的存储地址。进一步的，在读取神经网络模型训练所需的数据集的过程中，可以在相近的存储地址连续读取指定数据集的元数据，并根据元数据，在相近的存储地址连续读取指定数据集中的数据，以此实现指定数据集的快速读取。
145.通常的，针对神经网络模型训练数据，通常只会新增数据，而不会修改原有数据。由于在本公开实施例提供的神经网络模型训练方法中，存储系统具有较优的数据存储能力，因此，可以满足针对神经网络模型的训练需求。
146.图13是根据一示例性实施例示出的一种基于存储于存储系统的可读写高速存储后端和/或只读存储后端的神经网络模型训练数据，训练神经网络模型的方法流程图。
147.在步骤s111中，确定用于训练神经网络模型的指定数据集，指定数据集包括存储于存储系统的可读写高速存储后端和/或只读存储后端中的神经网络模型训练数据。
148.在步骤s112中，在存储系统的可读写高速存储后端和/或只读存储后端中，确定匹配指定数据集的元数据，并基于匹配指定数据集的元数据，读取指定数据集。
149.在步骤s113中，基于指定数据集，训练神经网络模型。
150.其中，指定数据集中数据之间的存储地址差异度小于第一差异度阈值，指定数据集中数据的元数据之间的存储地址差异度小于第二差异度阈值。
151.由于本公开实施例中，存储系统可以实现对同一数据集的附加数据进行整合存储(即，将附加数据与该数据集中已存储数据整合为同一数据段)，因此，可以提高数据集的易读性，以使针对数据集的读取效率得到进一步提升。
152.基于相同的构思，本公开实施例还提供一种数据处理装置。
153.可以理解的是，本公开实施例提供的数据处理装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功
能，但是这种实现不应认为超出本公开实施例的技术方案的范围。
154.图14是根据一示例性实施例示出的一种数据处理装置框图。参照图14，该装置100包括获取单元101、处理单元102和确定单元103。
155.获取单元101，用于获取待存储数据。处理单元102，用于将待存储数据存储至存储系统的可读写高速存储后端。确定单元103，用于在可读写高速存储后端的已存储数据中确定待转存数据。处理单元102，还用于将待转存数据转存至存储系统的只读存储后端。
156.一种实施方式中，处理单元102采用如下方式将待存储数据存储至存储系统的可读写高速存储后端：确定待存储数据所属的存储桶。响应于存储系统的可读写高速存储后端中已存在第一目标数据，第一目标数据所属存储桶与已存储数据所属存储桶相同，将待存储数据与第一目标数据整合为同一数据段存储至存储系统的可读写高速存储后端。
157.一种实施方式中，确定单元103采用如下方式在可读写高速存储后端的已存储数据中确定待转存数据：确定存储系统的可读写高速存储后端所存储的数据段，并通过数据段，得到转存至存储系统的只读存储后端的待转存数据。
158.一种实施方式中，确定单元103还用于：将待转存数据转存至存储系统的只读存储后端之前，确定可读写高速存储后端已存储数据的数量达到目标数量阈值，和/或确定可读写高速存储后端已存储数据中存在有数据大小达到目标大小阈值的数据。
159.一种实施方式中，处理单元102采用如下方式将待转存数据转存至存储系统的只读存储后端：确定待转存数据所属的存储桶。响应于存储系统的只读存储后端中已存在第二目标数据，第二目标数据所属存储桶与待转存数据所属存储桶相同，将待转存数据与第二目标数据整合为同一数据段存储至存储系统的只读存储后端。
160.一种实施方式中，处理单元102采用如下方式将指定数据与指定待转存数据整合为同一数据段存储存储系统的指定存储后端，其中，指定数据包括待存储数据，指定待转存数据包括第一目标数据，指定存储后端包括可读写高速存储后端，或，指定数据包括待转存数据，指定待转存数据包括第二目标数据，指定存储后端包括只读存储后端：将指定数据存储于指定存储后端的第一存储地址，以及将指定待转存数据存储于指定存储后端的第二存储地址，第一存储地址与第二存储地址之间的存储地址差异度小于第一差异度阈值。
161.一种实施方式中，处理单元102，还用于：将指定数据的元数据存储于指定存储后端的第三存储地址，以及将指定待转存数据的元数据存储于指定存储后端的第四存储地址，第三存储地址与第四存储地址之间的存储地址差异度小于第二差异度阈值。
162.基于相同的构思，本公开实施例还提供另一种数据处理装置。
163.图15是根据一示例性实施例示出的另一种数据处理装置框图。参照图15，该装置200包括获取单元201和确定单元202。
164.获取单元201，用于获取数据集读取请求。确定单元202，用于确定匹配数据集读取请求的指定数据集。以及在存储系统的可读写高速存储后端和/或只读存储后端中，确定匹配指定数据集的元数据，并基于匹配指定数据集的元数据，读取指定数据集。其中，针对指定存储后端中存储的数据，指定存储后端包括可读写高速存储后端或只读存储后端，匹配相同数据集的数据之间的存储地址差异度小于第一差异度阈值，匹配相同数据集的数据的元数据之间的存储地址差异度小于第二差异度阈值。
165.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法
的实施例中进行了详细描述，此处将不做详细阐述说明。
166.图16是根据一示例性实施例示出的一种用于数据处理的电子设备300框图。
167.如图16所示，本公开的一个实施方式提供了一种电子设备300。其中，该电子设备300包括存储器301、处理器302、输入/输出(input/output，i/o)接口303。其中，存储器301，用于存储指令。处理器302，用于调用存储器301存储的指令执行本公开实施例的数据处理方法。其中，处理器302分别与存储器301、i/o接口303连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器301可用于存储程序和数据，包括本公开实施例中涉及的数据处理方法的程序，处理器302通过运行存储在存储器301的程序从而执行电子设备300的各种功能应用以及数据处理。
168.本公开实施例中处理器302可以采用数字信号处理器(digitalsignalprocessing，dsp)、现场可编程门阵列(field-programmablegatearray，fpga)、可编程逻辑阵列(programmablelogicarray，pla)中的至少一种硬件形式来实现，所述处理器302可以是中央处理单元(centralprocessingunit，cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
169.本公开实施例中的存储器301可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(randomaccessmemory，ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(read-onlymemory，rom)、快闪存储器(flashmemory)、硬盘(harddiskdrive，hdd)或固态硬盘(solid-statedrive，ssd)等。
170.本公开实施例中，i/o接口303可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备300的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本公开实施例中i/o接口303可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。
171.在一些实施方式中，本公开提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。
172.尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。
173.本公开的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
174.此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
175.出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。
176.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
177.可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。
178.进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。
179.进一步可以理解的是，除非有特殊说明，“连接”包括两者之间不存在其他构件的直接连接，也包括两者之间存在其他元件的间接连接。
180.进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。
181.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利范围指出。
182.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利范围来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：云灾备系统、方法、电子设备及存储介质与流程

数据处理方法、装置及存储介质与流程

相关文献

最热文献