一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

增量数据识别方法、装置、设备及存储介质与流程

2022-10-13 00:53:43 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,尤其涉及一种增量数据识别方法、装置、设备及存储介质。


背景技术:

2.随着科学技术的发展和社会的进步,存储设备已逐渐普及,在对存储设备中的文件或数据进行备份时,通常需要先对存储设备中的所有文件或数据进行全量备份,然后再对其新增或修改过的文件或数据进行增量备份,而目前的增量无法准确地预测存储设备中需要进行增量操作的文件或数据,导致无法有效地对存储设备中需要进行增量备份。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

4.本发明的主要目的在于提供一种增量数据识别方法、装置、设备及存储介质,旨在解决现有技术无法准确地对存储设备进行增量数据识别,导致无法有效地对存储设备进行增量备份的技术问题。
5.为实现上述目的,本发明提供了一种增量数据识别方法,所述方法包括以下步骤:基于待备份存储设备中的各数据路径的变更时间从各数据路径中筛选出多个候选路径;对筛选出的多个候选路径进行选取,将选取到的候选路径作为当前候选路径;获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略;基于所述命名策略和所述路径名确定所述当前候选路径中的待识别路径;对所述待识别路径进行增量识别。
6.可选地,所述获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略,包括:获取所述当前候选路径的路径名;根据所述路径名对所述当前候选路径中的各数据进行字符串排序;根据所述变更时间对各数据进行时间排序;根据字符串排序结果和时间排序结果确定所述当前候选路径的命名策略。
7.可选地,所述基于所述命名策略和所述路径名确定所述当前候选路径中的待识别路径,包括:在所述命名策略为时序命名策略时,基于所述变更时间对所述当前候选路径中的各数据进行概率排序;基于所述时序命名策略和概率排序结果确定所述当前候选路径中的各数据对应的增量概率;根据所述增量概率对所述当前候选路径中的各数据进行增量排序,并基于增量排
序结果确定所述当前候选路径中的待识别路径。
8.可选地,所述基于所述命名策略和所述路径名确定所述当前候选路径中的待识别路径,包括:在所述命名策略为随机命名策略时,根据所述路径名确定所述当前候选路径中的各数据对应的字符重复概率;基于所述字符重复概率对所述当前候选路径中的各数据进行重复性排序,并根据所述随机命名策略和重复性排序结果确定所述当前候选路径中的各数据对应的增量概率;根据所述增量概率对所述当前候选路径中的各数据进行增量排序,并基于增量排序结果确定所述当前候选路径中的待识别路径。
9.可选地,所述在所述命名策略为随机命名策略时,根据所述路径名确定所述当前候选路径中的各数据对应的字符重复概率,包括:在所述命名策略为随机命名策略时,获取所述当前候选路径的路径名的字节组成信息,其中,所述字节组成信息包括字节数、字节类型和字节排序;根据所述字节组成信息确定所述当前候选路径中的各数据对应的字符重复概率。
10.可选地,所述对所述待识别路径进行增量识别之后,还包括:根据增量识别结果对所述待识别路径进行增量枚举,获得所述待识别路径中的待增量数据;获取所述待增量数据对应的增量策略,并根据所述增量策略对所述待增量数据进行增量操作。
11.可选地,所述获取所述待增量数据对应的增量策略,并根据所述增量策略对所述待增量数据进行增量操作之后,还包括:获取当前增量数据数量和当前增量数据容量;在所述当前增量数据数量不低于所述待备份存储设备中的未增量数据数量时,停止进行增量枚举;或/和,在所述当前增量数据容量不低于所述待备份存储设备的剩余容量时,停止进行增量枚举。
12.此外,为实现上述目的,本发明还提出一种增量数据识别装置,所述增量数据识别装置包括:路径筛选模块,用于基于待备份存储设备中的各数据路径的变更时间从各数据路径中筛选出多个候选路径;路径选取模块,用于对筛选出的多个候选路径进行选取,将选取到的候选路径作为当前候选路径;命名获取模块,用于获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略;路径识别模块,用于基于所述命名策略和所述路径名确定所述当前候选路径中的待识别路径;增量识别模块,用于对所述待识别路径进行增量识别。
13.此外,为实现上述目的,本发明还提出一种增量数据识别设备,所述增量数据识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的增量数据识
别程序,所述增量数据识别程序配置为实现如上文所述的增量数据识别方法的步骤。
14.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有增量数据识别程序,所述增量数据识别程序被处理器执行时实现如上文所述的增量数据识别方法的步骤。
15.本发明通过基于待备份存储设备中的各数据路径的变更时间从各数据路径中筛选出多个候选路径,对筛选出的多个候选路径进行选取,将选取到的候选路径作为当前候选路径;获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略;基于所述命名策略和所述路径名确定所述当前候选路径中的待识别路径;对所述待识别路径进行增量识别;由于本发明根据各数据路径的变更时间对各数据路径进行筛选,根据筛选结果获得多个候选路径,从而缩小了路径识别的范围,再获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略,基于命名策略和路径名确定当前候选路径中的待识别路径,从而提升了对路径的识别效率,对待识别路径进行增量识别,从而实现了对待备份存储设备中待增量处理数据的增量预测,有效地提升了增量处理的效率。
附图说明
16.图1是本发明实施例方案涉及的硬件运行环境的增量数据识别设备的结构示意图;图2为本发明增量数据识别方法第一实施例的流程示意图;图3为本发明增量数据识别方法第二实施例的流程示意图;图4为本发明增量数据识别方法第三实施例的流程示意图;图5为本发明增量数据识别装置第一实施例的结构框图。
17.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
18.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
19.参照图1,图1为本发明实施例方案涉及的硬件运行环境的增量数据识别设备结构示意图。
20.如图1所示,该增量数据识别设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
21.本领域技术人员可以理解,图1中示出的结构并不构成对增量数据识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
22.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及增量数据识别程序。
23.在图1所示的增量数据识别设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明增量数据识别设备中的处理器1001、存储器1005可以设置在增量数据识别设备中,所述增量数据识别设备通过处理器1001调用存储器1005中存储的增量数据识别程序,并执行本发明实施例提供的增量数据识别方法。
24.本发明实施例提供了一种增量数据识别方法,参照图2,图2为本发明一种增量数据识别方法第一实施例的流程示意图。
25.本实施例中,所述增量数据识别方法包括以下步骤:步骤s10:基于待备份存储设备中的各数据路径的变更时间从各数据路径中筛选出多个候选路径;步骤s20:对筛选出的多个候选路径进行选取,将选取到的候选路径作为当前候选路径;步骤s30:获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略;步骤s40:基于所述命名策略和所述路径名确定所述当前候选路径中的待识别路径;步骤s50:对所述待识别路径进行增量识别。
26.需要说明的是,本实施例应用于待备份存储设备需要进行增量备份的场景下,获取待备份存储设备的命名策略,基于所述命名策略确定所述待备份存储设备中的候选增量数据和候选增量数据对应的增量概率,根据所述候选增量数据对应的增量概率依次对所述候选增量数据进行增量预测,以实现对待备份存储设备中待备份数据的增量预测,从而提升了增量备份的效率。
27.应当理解的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的增量数据识别设备,例如计算机等,或者是其他能够实现相同或相似功能的装置或设备,此处以上述增量数据识别设备(以下简称增量预测设备)为例进行说明。
28.需要说明的是,待备份存储设备可以是需要进行文件备份或数据备份的可读写存储设备,例如网络附属存储设备(nas,network attached storage)等,待备份存储设备可以是一种文件级(与块级存储相对)的计算机数据存储服务器,为网络中的windows / linux / mac os 等各种不同操作系统的计算机提供文件共享服务,其中nas存储可以是unix、linux中的nfs服务器,windows中的cifs服务器。
29.上述数据路径可以是待备份存储设备中的当前存在的文件路径或数据路径,上述候选路径可以是数据路径中近期存在文件变更或数据变更的路径,增量数据识别设备可根据变更时间确定数据路径存在近期发生过文件变更或数据变更的候选路径,上述近期可以是1个月内或3个月内等,本实施例不加以限定,增量数据识别设备可预先设置近期时间间隔。
30.上述当前候选路径可以是候选路径中符合预设要求的路径,上述预设要求可以是增量数据识别设备预先设置的用于遍历候选路径的遍历要求,例如预设要求可以是格式要求、数据大小要求或可读类型要求等。
31.上述命名策略可以是待备份存储设备存储文件或数据时进行命名的规则,例如命名策略为基于日期命名的规则、基于路径路径命名的规则或随机命名的规则等。
32.应当理解的是,为了确定待备份存储设备中各数据的修改顺序或产生顺序,本实施例增量预测设备通过获取待备份存储设备中各数据的路径名和变更日期,基于路径名对各数据进行排序,并基于变更日期对各数据进行排序,将二者排序进行对比,根据对比结果确定待备份存储设备中各数据的命名策略,以此确定待备份存储设备中各数据的修改顺序或产生顺序。
33.例如,增量预测设备获取待备份存储设备中各数据的路径名为202104131622.jpg、202104131623.jpg、2021041335.jpg和2021041356.jpg等,然后获取各数据的变更日期为2021年4月13日16点22分、2021年4月13日16点23分、2021年4月13日16点35分和2021年4月13日16点56分,由上述路径名和变更日期可知,待备份存储设备的命名策略为基于日期顺序命名的规则。
34.需要说明的是,候选增量数据可以是待备份存储设备中近期存在变更的数据,候选增量数据可以是文件或数据,也可以是其它类型的存储数据。在命名策略为时序命名策略时,增量预测设备可根据各数据的变更日期确定各数据中的候选增量数据,其中变更日期可以是数据最近一次变更的日期,变更形式可以是生成或修改;在命名策略为随机命名策略时,增量预测设备可根据各数据的路径名确定各数据中的候选增量数据。
35.应当理解的是,为了准确地进行增量备份,避免漏备份而导致数据丢失或多备份导致效率降低,增量预测设备基于命名策略确定待备份存储设备中近期存在变更的数据,以候确定候选增量数据的增量概率,筛选出实际需要进行增量备份的数据。
36.在具体实现中,增量预测设备基于命名策略确定待备份存储设备中各数据的命名方式,在命名策略是时序命名策略时,根据各数据的变更时间对各数据进行排序,根据排序结果确定各数据中的候选增量数据;在命名策略是随机命名策略时,根据各数据的路径名确定各数据的字符重复概率,再根据字符重复概率确定各数据中的候选增量数据。
37.例如,增量预测设备基于命名策略确定待备份存储设备中各数据的命名方式为时序命名策略,获取各数据的变更日期,其中数据a为2022年2月17日18点11分32秒、数据b为2022年2月18日12点13分52秒、数据c为2022年2月22日14点31分12秒、数据d为2020年9月22日1点44分32秒和数据e为2019年5月20日11点29分11秒,根据上述变更日期对各数据进行顺序时序排序为数据c、数据b、数据a、数据d、数据e,因此确定各数据中的候选增量数据为数据c、数据b、数据a。
38.需要说明的是,增量概率可以是候选增量数据需要进行增量备份的概率,增量预测设备可根据候选增量数据的时间排序或路径名排序确定该候选增量数据的增量概率。
39.应当理解的是,为了降低预测时长,以提升预测效率,本实施例增量预测设备先确定待备份存储设备中各数据中的候选增量数据,再确定候选增量数据的增量概率,从而避免了需要计算待备份存储设备中所有数据增量概率的问题,提升了增量预测的效率,再根据候选增量数据对应的增量概率依次对所述候选增量数据进行增量预测。
40.在具体实现中,增量预测设备确定候选增量数据对应的增量概率,根据增量概率对候选增量数据进行排序,根据排序结果以此对候选增量数据进行增量预测,从而实现了优先预测增量概率较大的候选增量数据,提升了增量预测的效率。
41.例如,增量预测设备确定待备份存储设备中各数据中的候选增量数据为数据g、数据h、数据i、数据j和数据k,其中数据g的增量概率为50%、数据h的增量概率为10%、数据i的
增量概率为15%、数据j的增量概率为5%、数据k的增量概率为20%,根据上述各增量概率对候选增量数据进行排序,以获得候选增量数据的增量预测顺序为数据g、数据k、数据i、数据h、数据j,根据上述增量预测顺序以此对候选增量数据进行增量预测,以确定候选增量数据中的待增量数据。
42.在具体实现中,增量数据识别设备基于待备份存储设备中各数据路径的变更时间从各数据路径中筛选出5个候选路径,对筛选出的5个候选路径进行选取,将选取到的候选路径作为当前候选路径,获取所述当前候选路径的路径名分别为2021\09\27\01\25、2021\05\22\11\34、2022\01\13\14\55和2022\02\01\18\20,以及所述当前候选路径的命名策略为时序命名策略,基于所述命名策略和所述路径名确定所述当前候选路径中的2022\01\13\14\55和2022\02\01\18\20路径的增量概率较大,因此基于所述命名策略和所述路径名确定所述当前候选路径中的待识别路径为2022\01\13\14\55和2022\02\01\18\20,并对所述待识别路径进行增量识别。
43.进一步地,为了有效地对待备份存储设备进行增量操作,上述步骤s50之后,可包括:根据增量识别结果对所述待识别路径进行增量枚举,获得所述待识别路径中的待增量数据;获取所述待增量数据对应的增量策略,并根据所述增量策略对所述待增量数据进行增量操作。
44.需要说明的是,增量操作可包括增量备份、增量同步或增量迁移等操作,增量策略可以是增量预测设备预先设置的操作规则。上述待增量数据为待备份存储设备中需要进行增量操作的数据。
45.进一步地,为了避免存储设备空间不足而导致备份丢失,上述获取所述待增量数据对应的增量策略,并根据所述增量策略对所述待增量数据进行增量操作之后,可包括:获取当前增量数据数量和当前增量数据容量;在所述当前增量数据数量不低于所述待备份存储设备中的未增量数据数量时,停止进行增量枚举;或/和,在所述当前增量数据容量不低于所述待备份存储设备的剩余容量时,停止进行增量枚举。
46.需要说明的是,当前增量数据数量可以是当前已进行增量操作的数据数量,上述未增量数据数量可以是待备份存储设备中没有进行增量操作的数据数量。上述当前增量数据容量可以是当前已进行增量操作的数据所占用的总容量,上述剩余容量可以是待备份存储设备中可以进行增量操作的剩余空间容量。
47.应当理解的是,增量预测设备对待增量数据进行增量备份、增量同步或增量迁移成功后,计算待增量数据存储的总数据量或总大小或总占用空间,如果上述总数据量或总大小或总占用空间满足当前待备份存储设备存储的记录数量,则停止枚举,以避免待备份存储设备因存储空间不足而丢失数据。
48.本实施例基于待备份存储设备中的各数据路径的变更时间从各数据路径中筛选出多个候选路径,对筛选出的多个候选路径进行选取,将选取到的候选路径作为当前候选路径;获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略;基于所述命名
策略和所述路径名确定所述当前候选路径中的待识别路径;对所述待识别路径进行增量识别;由于本发明根据各数据路径的变更时间对各数据路径进行筛选,根据筛选结果获得多个候选路径,从而缩小了路径识别的范围,再获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略,基于命名策略和路径名确定当前候选路径中的待识别路径,从而提升了对路径的识别效率,对待识别路径进行增量识别,从而实现了对待备份存储设备中待增量处理数据的增量预测,有效地提升了增量处理的效率。
49.参考图3,图3为本发明一种增量数据识别方法第二实施例的流程示意图。
50.基于上述第一实施例,在本实施例中,所述步骤s30,包括:步骤s301:获取所述当前候选路径的路径名;步骤s302:根据所述路径名对所述当前候选路径中的各数据进行字符串排序;步骤s303:根据所述变更时间对各数据进行时间排序;步骤s304:根据字符串排序结果和时间排序结果确定所述当前候选路径的命名策略。
51.需要说明的是,待备份存储设备中的各数据可以是待备份存储设备中存储的数据或文件,待备份存储设备中的各数据可以是任何格式的数据,例如jpg格式、txt格式、exe格式或stp格式等,上述路径名可以是待备份存储设备中存储的数据或文件的名称。路径名可以是时序命名生成的,例如2022\06\02\14\23\42.jpg;也可以是随机命名生成的,例如56786148.jpg。
52.在具体实现中,在命名策略为随机命名策略时,路径名为用随机数计算获得的,即路径名的字符组成全部是随机的。在命名策略为时序命名策略时,路径名是根据该数据的变更时刻进行命名的,此时路径名可以是年月日小时加秒和毫秒一样的方法命名,也可以是时间加顺序id或逆序id的组成,例如2022\03\12\789789.jpg。
53.需要说明的,字符串排序可以是根据路径名中的各字符对各数据进行字符顺序的排序,字符串排序可以是升序排序或逆序排序等,例如对各数据的路径名进行字符串升序排序为6148.jpg、6149.jpg、6158.jpg、7132.jpg。
54.应当理解的是,为了准确地确定待备份存储设备的命名策略,本实施例增量预测设备获取各数据的路径名对应的字符组成类型,以确定路径名的字符数量、字符类型等,根据上述字符组成类型根据所述路径名对各数据进行字符串排序。
55.例如,增量预测设备获取待备份存储设备中的各数据对应的路径名和各数据对应的变更时刻,其中数据a为88519246.jpg、数据b为33199586.jpg、数据c为11063592.jpg、数据d为10020227.jpg,对各数据的路径名进行升序的字符串排序为10020227.jpg、11063592.jpg、33199586.jpg、88519246.jpg,即数据排名为数据d、数据c、数据b、数据a。
56.需要说明的是,变更时刻可以是各数据最近一次进行变更的时刻,变更时刻可以是数据生成的时刻,也可以是数据修改的时刻,例如数据s最近一次进行修改的时刻为2022年1月23日20时32分,则数据s的变更时刻为2022年1月23日20时32分。
57.上述时间排序结果可以是基于各数据的变更时刻对各数据进行时间排序的结果,例如数据a的变更时刻为23时12分、数据b的变更时刻为21时23分、数据c的变更时刻为22时59分,则上述数据的时间升序排序结果为数据b、数据c、数据a。
58.应当理解的是,为了提升预测待备份存储设备的命名策略的准确性,本实施例增
量预测设备获取待备份存储设备中的各数据对应的变更时刻,基于所述变更时刻对各数据进行时间排序,对时间排序结果和所述字符串排序结果进行排序对比,根据排序对比结果确定所述待备份存储设备的命名策略。
59.在具体实现中,增量预测设备获取待备份存储设备中的各数据对应的变更时刻,基于所述变更时刻对各数据进行时间排序,对时间排序结果和所述字符串排序结果进行排序对比,若时间排序结果与字符串排序结果的排列顺序一致,则确定待备份存储设备的命名策略为时序命名策略;若时间排序结果与字符串排序结果的排列顺序不一致,则确定待备份存储设备的命名策略为随机命名策略。
60.应当理解的是,为了准确地预测待备份存储设备的命名策略,本实施例增量预测设备获取待备份存储设备中的各数据的变更时刻的排序,根据变更时刻的排序对各数据的路径名的字符串排序结果进行对比,根据对比结果确定待备份存储设备的命名策略。
61.在具体实现中,增量预测设备根据各数据的变更时刻的排序对字符串排序结果进行对比,若对比结果判定字符串排序结果与变更时刻的排序与字符串排序结果一致,则命名策略为时序命名策略;若对比结果判定字符串排序结果与变更时刻的排序与字符串排序结果不一致,则命名策略为随机命名策略。
62.例如,增量预测设备获取各数据的变更时刻,根据变更时刻对各数据进行时间排序,变更时间排序结果为数据a、数据b、数据c、数据d,获取各数据a的路径名为21751615.jpg、数据b的路径名为16068523.jpg、数据c的路径名为97585704.jpg、数据d的路径名为56169277.jpg,根据上述路径名对各数据进行字符串排序为数据b、数据a、数据d、数据c,根据上述字符串排序结果和上述变更时间排序结果可知,字符串排序结果与变更时间排序结果不一致,因此确定待备份存储设备的命名策略为随机命名策略。
63.本实施例通过获取所述当前候选路径的路径名,根据所述路径名对所述当前候选路径中的各数据进行字符串排序,根据所述变更时间对各数据进行时间排序,根据字符串排序结果和时间排序结果确定所述当前候选路径的命名策略;由于本发明获取所述当前候选路径的路径名,根据所述路径名对所述当前候选路径中的各数据进行字符串排序,根据所述变更时间对各数据进行时间排序,根据字符串排序结果和时间排序结果确定所述当前候选路径的命名策略,从而提升了增量预测的效率和准确性。
64.参考图4,图4为本发明一种增量数据识别方法第三实施例的流程示意图。
65.基于上述第一实施例,在本实施例中,所述步骤s40,包括:步骤s401:在所述命名策略为随机命名策略时,根据所述路径名确定所述当前候选路径中的各数据对应的字符重复概率;步骤s402:基于所述字符重复概率对所述当前候选路径中的各数据进行重复性排序,并根据所述随机命名策略和重复性排序结果确定所述当前候选路径中的各数据对应的增量概率;步骤s403:根据所述增量概率对所述当前候选路径中的各数据进行增量排序,并基于增量排序结果确定所述当前候选路径中的待识别路径。
66.需要说明的是,随机命名策略可以是基于随机字符命名的规则,随机字符可以是数字或其它类型的字符,例如723589.txt、083589.txt或1098578.txt等。上述字符重复概率可以是各数据的路径名字符之间重复出现的概率,字符重复概率可以是路径名中第一个
字符的差异概率或其它字符的差异概率,例如在2331.jpg、2212.jpg、2521.jpg、9123.jpg中,上述各数据中的第一个字符的字符重复概率最高的是字符2,字符重复概率最低的是字符9。
67.上述增量概率可以是候选增量数据需要进行增量备份的概率,增量预测设备可根据候选增量数据的时间排序或路径名排序确定该候选增量数据的增量概率。
68.应当理解的是,本实施例增量预测设备根据所述字符重复概率对各数据进行重复性排序,根据重复性排序结果逆向确定各数据的增量概率,例如数据a的重复概率为80%、数据b的重复概率为15%、数据c的重复概率为5%,对上述各数据进行重复性排序,升序进行重复性排序的结果为数据c、数据b、数据a,根据上述重复性排序结果对上述各数据进行升序增量排序结果为数据a、数据b、数据c,再根据上述增量排序结果确定各数据的增量概率。
69.需要说明的是,增量排序结果可以是根据各数据的增量概率排列的增量顺序,其中增量排序可以是升序排列,也可以是降序排列。
70.在具体实现中,增量预测设备根据各数据的增量概率对各数据进行增量排序,根据增量排序结果和预设的筛选要求确定各数据中的候选增量数据,其中预设的筛选要求可以是增量概率超过预设阈值的数据作为候选增量数据,例如预设阈值可以是50%或40%等。
71.例如,增量预测设备获取各数据的增量概率,其中数据a为80%、数据b为20%、数据c为40%、数据d为10%、数据e为15%,根据上述增量概率对各数据进行升序的增量排序为数据d、数据e、数据b、数据c、数据a,根据上述增量排序结果确定候选增量数据为数据d和数据e。
72.进一步地,为了准确地获取各数据的字符重复概率,上述步骤s401,可包括:步骤s4011:在所述命名策略为随机命名策略时,获取所述当前候选路径的路径名的字节组成信息,其中,所述字节组成信息包括字节数、字节类型和字节排序;步骤s4012:根据所述字节组成信息确定所述当前候选路径中的各数据对应的字符重复概率。
73.需要说明的是,字节数可以是路径名中的字节数量,例如12590.jpg的字节数为5个字节。上述字节类型可以是数字、英文或中文等类型。上述字节排序可以是路径名中的各字节的排列顺序。
74.进一步地,为了在命名策略为时序命名策略时,准确地确定候选增量数据,上述步骤s40,可包括:在所述命名策略为时序命名策略时,基于所述变更时间对所述当前候选路径中的各数据进行概率排序;基于所述时序命名策略和概率排序结果确定所述当前候选路径中的各数据对应的增量概率;根据所述增量概率对所述当前候选路径中的各数据进行增量排序,并基于增量排序结果确定所述当前候选路径中的待识别路径。
75.应当理解的是,在命名策略为时序命名策略时,根据时间排序结果确定备份存储设备中的各数据的时间变更顺序,以确定变更时间接近当前时间的数据,以此确定备份存储设备中的各数据对应的增量概率,根据所述增量概率对各数据进行增量排序,并根据增量排序结果确定各数据中的候选增量数据。
76.在具体实现中,例如增量预测设备在所述命名策略为时序命名策略时,根据所述
时间排序结果确定所述待备份存储设备中的数据a的变更时刻最接近当前时刻、其次是数据b、再次是数据c,最后是数据d,因此升序时间排序结果为数据d、数据c、数据b、数据a,根据上述时间排序结果确定各数据的增量概率的升序增量排序结果为数据d、数据c、数据b、数据a。
77.本实施例通过在所述命名策略为随机命名策略时,根据所述路径名确定所述当前候选路径中的各数据对应的字符重复概率,基于所述字符重复概率对所述当前候选路径中的各数据进行重复性排序,并根据所述随机命名策略和重复性排序结果确定所述当前候选路径中的各数据对应的增量概率,根据所述增量概率对所述当前候选路径中的各数据进行增量排序,并基于增量排序结果确定所述当前候选路径中的待识别路径。由于本发明在命名策略为随机命名策略时,根据所述待备份存储设备中的各数据对应的路径名确定各数据对应的字符重复概率,根据字符重复概率对各数据进行重复性排序,从而实现了对随机命名的数据的差异划分,根据重复性排序结果确定各数据对应的增量概率,根据所述增量概率对各数据进行增量排序,并根据增量排序结果确定各数据中的候选增量数据,对各数据进行重复性排序,以确定候选增量数据,从而缩小了增量预测的数据数量,提升了增量预测的效率。
78.此外,本发明实施例还提出一种存储介质,所述存储介质上存储有增量数据识别程序,所述增量数据识别程序被处理器执行时实现如上文所述的增量数据识别方法的步骤。
79.由于本存储介质采用了上述所有实施例的全部技术方案,因此至少有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
80.参照图5,图5为本发明增量数据识别装置第一实施例的结构框图。
81.如图5所示,本发明实施例提出的增量数据识别装置包括:路径筛选模块10,用于基于待备份存储设备中的各数据路径的变更时间从各数据路径中筛选出多个候选路径;路径选取模块20,用于对筛选出的多个候选路径进行选取,将选取到的候选路径作为当前候选路径;命名获取模块30,用于获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略;路径识别模块40,用于基于所述命名策略和所述路径名确定所述当前候选路径中的待识别路径;增量识别模块50,用于对所述待识别路径进行增量识别。
82.进一步地,所述命名获取模块30,还用于获取所述当前候选路径的路径名;根据所述路径名对所述当前候选路径中的各数据进行字符串排序;根据所述变更时间对各数据进行时间排序;根据字符串排序结果和时间排序结果确定所述当前候选路径的命名策略。
83.进一步地,所述路径识别模块40,还用于在所述命名策略为时序命名策略时,基于所述变更时间对所述当前候选路径中的各数据进行概率排序;基于所述时序命名策略和概率排序结果确定所述当前候选路径中的各数据对应的增量概率;根据所述增量概率对所述当前候选路径中的各数据进行增量排序,并基于增量排序结果确定所述当前候选路径中的待识别路径。
84.进一步地,所述路径识别模块40,还用于在所述命名策略为随机命名策略时,根据所述路径名确定所述当前候选路径中的各数据对应的字符重复概率;基于所述字符重复概率对所述当前候选路径中的各数据进行重复性排序,并根据所述随机命名策略和重复性排序结果确定所述当前候选路径中的各数据对应的增量概率;根据所述增量概率对所述当前候选路径中的各数据进行增量排序,并基于增量排序结果确定所述当前候选路径中的待识别路径。
85.进一步地,所述路径识别模块40,还用于在所述命名策略为随机命名策略时,获取所述当前候选路径的路径名的字节组成信息,其中,所述字节组成信息包括字节数、字节类型和字节排序;根据所述字节组成信息确定所述当前候选路径中的各数据对应的字符重复概率。
86.进一步地,所述增量识别模块50,还用于根据增量识别结果对所述待识别路径进行增量枚举,获得所述待识别路径中的待增量数据;获取所述待增量数据对应的增量策略,并根据所述增量策略对所述待增量数据进行增量操作。
87.进一步地,所述增量识别模块50,还用于获取当前增量数据数量和当前增量数据容量;在所述当前增量数据数量不低于所述待备份存储设备中的未增量数据数量时,停止进行增量枚举;或/和,在所述当前增量数据容量不低于所述待备份存储设备的剩余容量时,停止进行增量枚举。
88.本实施例基于待备份存储设备中的各数据路径的变更时间从各数据路径中筛选出多个候选路径,对筛选出的多个候选路径进行选取,将选取到的候选路径作为当前候选路径;获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略;基于所述命名策略和所述路径名确定所述当前候选路径中的待识别路径;对所述待识别路径进行增量识别;由于本发明根据各数据路径的变更时间对各数据路径进行筛选,根据筛选结果获得多个候选路径,从而缩小了路径识别的范围,再获取所述当前候选路径的路径名,以及所述当前候选路径的命名策略,基于命名策略和路径名确定当前候选路径中的待识别路径,从而提升了对路径的识别效率,对待识别路径进行增量识别,从而实现了对待备份存储设备中待增量处理数据的增量预测,有效地提升了增量处理的效率。
89.应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
90.需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
91.另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的增量数据识别方法,此处不再赘述。
92.此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
93.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
94.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read only memory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
95.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献