一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种敏感数据发现处理方法和系统与流程

2022-02-22 04:33:22 来源:中国专利 TAG:


1.本技术涉及到数据库数据处理领域,具体而言,涉及一种敏感数据发现处理方法和系统。


背景技术:

2.敏感数据是指泄漏后可能会给社会或个人带来严重危害的数据。包括个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;也包括企业或社会机构不适合公布的数据,如企业的经营情况,企业的网络结构、ip地址列表等。
3.敏感数据脱敏有两种技术路线,一种是静态脱敏,另外一种是动态脱敏,再有可以通过数据资产梳理实现敏感数据发现,将数据库中的敏感数据进行变形处理,以实现敏感数据防泄漏。
4.无论是静态脱敏还是动态脱敏均需要在发现敏感数据后进行,发现敏感数据可以根据数据本身的内容来进行发现,这就需要对数据进行抽样,现有技术中采用顺序抽样并且抽样步长是固定不变的,这会导致对抽样数据判断出现误差。


技术实现要素:

5.本技术实施例提供了一种敏感数据发现处理方法和系统,以至少解决现有技术中采用顺序抽样并且抽样步长是固定不变的所导致对抽样数据判断出现误差的问题。
6.根据本技术的一个方面,提供了一种敏感数据发现处理方法,包括:获取数据库预定字段下的数据量;根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;从所述每个区间中抽取预定条数的数据;将在所有区间抽取到的数据进行汇总得到待处理数据;对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
7.进一步地,从所述每个区间中抽取预定条数的数据包括:以第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。
8.进一步地,从所述每个区间中抽取预定条数的数据包括:在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
9.进一步地,根据所述数据量将所述预定字段下数据分为多个区间包括:在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述第一阈值。
10.进一步地,还包括:在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
11.根据本技术的另一个方面,还提供了一种敏感数据发现处理系统,包括:获取模块,用于获取数据库预定字段下的数据量;划分模块,用于根据所述数据量将所述预定字段
下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;抽取模块,用于从所述每个区间中抽取预定条数的数据;汇总模块,用于将在所有区间抽取到的数据进行汇总得到待处理数据;确定模块,用于对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
12.进一步地,所述抽取模块用于:以第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。
13.进一步地,所述抽取模块用于:在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
14.进一步地,所述划分模块用于:在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述第一阈值。
15.进一步地,所述划分模块还用于:在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
16.在本技术实施例中,采用了获取数据库预定字段下的数据量;根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;从所述每个区间中抽取预定条数的数据;将在所有区间抽取到的数据进行汇总得到待处理数据;对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。通过本技术解决了现有技术中采用顺序抽样并且抽样步长是固定不变的所导致对抽样数据判断出现误差的问题,从而数据抽样的准确性,在一定程度上提高了敏感数据发现的效率以及准确性。
附图说明
17.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:图1是根据本技术实施例的敏感数据发现处理方法的流程图。
具体实施方式
18.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
19.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
20.在本实施例中提供了一种敏感数据发现处理方法,图1是根据本技术实施例的敏感数据发现处理方法的流程图,如图1所示,该流程包括如下步骤:步骤s102,获取数据库预定字段下的数据量;步骤s104,根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;在本步骤中,可以由多种区间划分方式,例如,在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述
第一阈值。在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
21.作为一个可选的实施方式,可以预先确定一个数值范围[a,b]该a和b都是整数,b大于a,划分每个区间的时候,可以随机从该数字范围内抽取一个数字,根据该数字来划分区间,每次划分好一个区间之后,均获取所述预定字段下剩余的未划分区间的数据量,如果未划分区间的数据量小于所述第一阈值,则将剩余的未划分区间的数据量作为最后一个区间。
[0022]
步骤s106,从所述每个区间中抽取预定条数的数据;抽取数据的方式有很多种,例如,第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。可选地,还可以在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
[0023]
作为一个可选的实施方式,每个区间可以对应两个或两个以上的步长,确定了首条数据之后,根据第一步长抽取第一条数据,根据第二步长抽取第二条数据,根据第n步长抽取第n条数据,其中,该区间对应了n个步长;然后再根据第一步长抽取第n 1条数据,依次类推。每个区间对应的步长的数量以及每个步长的长度不相同。
[0024]
步骤s108,将在所有区间抽取到的数据进行汇总得到待处理数据;步骤s110,对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
[0025]
作为一个可选的实施方式,在脱敏发现确定所述预定字段下的数据为敏感数据的情况下,将所述预定字段中的敏感数据进行脱敏处理。
[0026]
在确定所述预定字段的数据下为非敏感数据的情况下,改变区间的划分方式以及每个区间的步长确定方式,在新确定的区间和步长下再次进行数据抽取,如果再次抽取的数据仍然判断为非敏感数据,则确定所述预定字段中的数据为非敏感数据。如果再次抽取的数据判断为敏感数据,则将所述预定字段中的敏感数据进行脱敏处理。
[0027]
通过本技术解决了现有技术中采用顺序抽样并且抽样步长是固定不变的所导致对抽样数据判断出现误差的问题,从而数据抽样的准确性,在一定程度上提高了敏感数据发现的效率以及准确性。
[0028]
敏感数据的发现方式有很多种,例如:取企业数据库的数据库描述,每个数据库描述指示对应数据库的数据库属性;获取用于敏感数据类型的记录分类规则,记录分类规则指定至少一种字段类型;通过识别具有记录分类规则指定的至少一种字段类型的数据记录来识别敏感数据类型的敏感数据记录;确定评估分数对于企业数据库,根据相应数据库中识别出的敏感数据记录的数量确定评估分数;为具有共同数据库属性的企业数据库组生成状态指标,企业组的状态指标反映识别出的总数中的敏感数据记录具有企业组成员资格的企业数据库;提供包括生成的状态指示符的界面;通过用户界面接收生成的状态指示符之一的选择和保护策略的选择; 并且将选择的保护策略应用于具有与选择的状态指示符对应的企业组中的成员资格的企业数据库的敏感数据记录。可选地,接收对所生成的状态指示符之一的选择包括: 经由所述接口接收企业数据库的初始选择; 识别向初始选择的企业数据库提供数据记录的源数据库; 识别一组从源数据库访问源数据记录的依赖数据库;
在界面中提供一个沿袭视图,包括:源数据库和依赖数据库集合的数据库状态指示符,以及指示数据库状态之间的数据访问依赖关系的连接元素指标;并且接收从源状态指示符和从属数据库状态指示符之一中所生成的状态指示符之一的选择。
[0029]
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
[0030]
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (pram)、静态随机存取存储器 (sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器 (ram)、只读存储器 (rom)、电可擦除可编程只读存储器 (eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器 (cd-rom)、数字多功能光盘 (dvd) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
[0031]
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
[0032]
该本实施例中就提供了这样的一种装置或系统。该系统被称为敏感数据发现处理系统,包括:获取模块,用于获取数据库预定字段下的数据量;划分模块,用于根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;抽取模块,用于从所述每个区间中抽取预定条数的数据;汇总模块,用于将在所有区间抽取到的数据进行汇总得到待处理数据;确定模块,用于对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
[0033]
该系统或者装置用于实现上述的实施例中的方法的功能,该系统或者装置中的每个模块与方法中的每个步骤相对应,已经在方法中进行过说明的,在此不再赘述。
[0034]
例如,所述抽取模块用于:以第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。可选地,所述抽取模块用于:在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
[0035]
又例如,所述划分模块用于:在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述第一阈值。可选地,所述划分模块还用于:在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
[0036]
在本实施例中发现任务随机抽取数据,按照区间和步长进行取样,如果发现结果差不多的话,动态调整补步长。数据量的比较大的时候来还可以调整区间大小。
[0037]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、
改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献