一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据脱敏方法、装置、存储介质及终端与流程

2022-04-27 03:14:56 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,特别涉及一种数据脱敏方法、装置、存储介质及终端。


背景技术:

2.敏感数据又称隐私数据,常见的有姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等。这些与个人生活、工作密切相关的信息受到不同行业和政府数据隐私法规的管制。如果负责存储和发布这些信息的企业或政府无法保证数据隐私,就会面临严重的财务、法律或问责风险,同时在用户信任方面蒙受巨大损失。而在企业、政府进行业务开展、开展日常活动的过程中,又不可避免数据逐级下发的场景。而这些数据中,经常包含公民个人数据。如何在保障公民个人信息不泄露的前提下,正常进行数据分发,就成了政府与企业日常工作中的难题。
3.在现有的技术方案中,当前针对涉及公民个人信息的数据分发方法,主要采用人工介入的方式,即在数据分发前,由专门的数据安全管理人员进行审核,或由敏感数据识别工具对数据是否敏感进行标识,给出模糊化/标签化意见,再由职能部门进行模糊化/标签化后,进行数据分发。当前数据分发存在如下缺陷:极度依赖于人工,由于敏感数据的特殊性,无法直接自动化分发,需要人工或敏感数据识别工具的介入进行数据识别分类分级,之后再人工分发,且不能形成有效的知识积累,依赖于职能人员的个人经验,既消耗人力资源,也缺乏效率,数据的时效性也收到了影响;无法沉淀形成有效知识图库,导致容易因为人员变动引起敏感数据分发审核的断档,降低了数据分发的效率。


技术实现要素:

4.本技术实施例提供了一种数据脱敏方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
5.第一方面,本技术实施例提供了一种数据脱敏方法,应用于服务端,方法包括:
6.当接收到待分发的目标数据文本时,获取目标数据文本的多个字段;
7.在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合;
8.对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据;
9.将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。
10.可选的,获取目标数据文本的多个字段,包括:
11.根据预设键值规则解析目标数据文本,生成解析后的数据文本;
12.在解析后的数据文本中逐一遍历获取键值对集合;
13.将键值对集合中每个键值对划分为属性特征和值特征,得到每个键值对的属性特
征和值特征;
14.基于每个键值对的属性特征和值特征确定目标数据文本的多个字段。
15.可选的,基于每个键值对的属性特征和值特征确定目标数据文本的多个字段,包括:
16.将每个键值对的属性特征和值特征进行特征拼接,得到多个拼接特征;
17.将每个拼接特征转换为一个向量,得到向量集合;
18.将向量集合中各向量组合后生成词项矩阵;
19.将词项矩阵进行奇异值分解,得到多个语义索引;
20.根据预设语义字段表查询多个语义索引中每个语义索引对应的字段,得到目标数据文本的多个字段。
21.可选的,在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合,包括:
22.获取针对敏感字段设置的敏感字段类型表;
23.分析多个字段中每个字段的数据类型;
24.根据敏感字段类型表以及每个字段的数据类型逐一映射,以判定每个字段是否为敏感字段,并将敏感字段标记为1,以及将非敏感字段标记为0;
25.统计标记为1的字段,并确定为敏感字段集合;
26.统计标记为0的字段,并确定为非敏感字段集合。
27.可选的,分析多个字段中每个字段的数据类型,包括:
28.将多个字段中每个字段输入预先训练的数据类型识别模型中,输出每个字段的数据类型;其中,
29.按照以下步骤生成预先训练的数据类型识别模型,包括:
30.采用卷积神经网络创建数据类型识别模型;
31.获取预先标记的多条字段-类型标签数据;
32.将多条字段-类型标签数据输入数据类型识别模型进行训练,输出损失值;
33.当损失值到达最小时,生成预先训练的数据类型识别模型。
34.可选的,对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据,包括:
35.根据敏感字段集合中各敏感字段的类型信息获取每个敏感字段对应的脱敏规则;
36.根据每个敏感字段对应的脱敏规则将对应的敏感字段的数据进行脱敏处理,得到脱敏数据;
37.对脱敏数据进行脱敏复制后生成脱敏后的数据。
38.可选的,对脱敏数据进行脱敏复制后生成脱敏后的数据之后,还包括:
39.删除敏感字段集合和脱敏数据。
40.第二方面,本技术实施例提供了一种数据脱敏装置,应用于服务端,装置包括:
41.字段获取模块,用于当接收到待分发的目标数据文本时,获取目标数据文本的多个字段;
42.字段识别模块,用于在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合;
43.字段脱敏模块,用于对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据;
44.数据分发模块,用于将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。
45.第三方面,本技术实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
46.第四方面,本技术实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
47.本技术实施例提供的技术方案可以包括以下有益效果:
48.在本技术实施例中,数据脱敏装置首先当接收到待分发的目标数据文本时,获取目标数据文本的多个字段,然后在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合,其次对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据,最后将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。由于本技术通过在服务端自动识别目标数据文本中存在的敏感字段进行自动脱敏处理,从而实现了能进行数据的自动识别、脱敏以及分发,减少了数据流转所导致的数据泄露风险,提高了数据分发的效率。
49.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
50.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
51.图1是本技术实施例提供的一种数据脱敏方法的流程示意图;
52.图2是本技术提供的一种数据脱敏过程的流程示意图;
53.图3是本技术实施例提供的另一种数据脱敏方法的流程示意图;
54.图4是本技术实施例提供的一种数据脱敏装置的结构示意图;
55.图5是本技术实施例提供的一种终端的结构示意图。
具体实施方式
56.以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
57.应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
58.下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
59.在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不
能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
60.本技术提供了一种数据脱敏方法、装置、存储介质及终端,应用于服务端,以解决上述相关技术问题中存在的问题。本技术提供的技术方案中,由于本技术通过在服务端自动识别目标数据文本中存在的敏感字段进行自动脱敏处理,从而实现了能进行数据的自动识别、脱敏以及分发,减少了数据流转所导致的数据泄露风险,提高了数据分发的效率,下面采用示例性的实施例进行详细说明。
61.下面将结合附图1-附图3,对本技术实施例提供的数据脱敏方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的数据脱敏装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
62.请参见图1,为本技术实施例提供了一种数据脱敏方法的流程示意图,应用于服务端。如图1所示,本技术实施例的方法可以包括以下步骤:
63.s101,当接收到待分发的目标数据文本时,获取目标数据文本的多个字段;
64.通常,数据下发方指意图将数据共享至另一方的组织或个人的终端,具备数据库访问权限。
65.在一种可能的实现方式中,在获取目标数据文本的多个字段时,首先根据预设键值规则解析目标数据文本,生成解析后的数据文本,然后在解析后的数据文本中逐一遍历获取键值对集合,其次将键值对集合中每个键值对划分为属性特征和值特征,得到每个键值对的属性特征和值特征,最后基于每个键值对的属性特征和值特征确定目标数据文本的多个字段。
66.具体的,在基于每个键值对的属性特征和值特征确定目标数据文本的多个字段时,首先将每个键值对的属性特征和值特征进行特征拼接,得到多个拼接特征,再将每个拼接特征转换为一个向量,得到向量集合,然后将向量集合中各向量组合后生成词项矩阵,再将词项矩阵进行奇异值分解,得到多个语义索引,最后根据预设语义字段表查询多个语义索引中每个语义索引对应的字段,得到目标数据文本的多个字段。
67.s102,在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合;
68.其中,敏感字段是需要脱敏处理的字段,该字段涉及隐私数据。非敏感字段是无需加密字段,可直接提供给第三方。
69.在一种可能的实现方式中,在生成敏感字段集合以及非敏感字段集合时,首先获取针对敏感字段设置的敏感字段类型表,再分析多个字段中每个字段的数据类型,然后根据敏感字段类型表以及每个字段的数据类型逐一映射,以判定每个字段是否为敏感字段,并将敏感字段标记为1,以及将非敏感字段标记为0,最后统计标记为1的字段,并确定为敏感字段集合,并统计标记为0的字段,并确定为非敏感字段集合。
70.具体的,在分析多个字段中每个字段的数据类型时,将多个字段中每个字段输入预先训练的数据类型识别模型中,输出每个字段的数据类型。
71.进一步地,可以按照以下步骤生成预先训练的数据类型识别模型,首先采用卷积神经网络创建数据类型识别模型,再获取预先标记的多条字段-类型标签数据,然后将多条字段-类型标签数据输入数据类型识别模型进行训练,输出损失值,最后当损失值到达最小时,生成预先训练的数据类型识别模型。
72.进一步地,当损失值未到达最小时,继续将预先标记的多条字段-类型标签数据输入数据类型识别模型进行训练,直到损失值不能变化时生成预先训练的数据类型识别模型。
73.s103,对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据;
74.在本技术实施例中,在进行脱敏处理时,首先根据敏感字段集合中各敏感字段的类型信息获取每个敏感字段对应的脱敏规则,然后根据每个敏感字段对应的脱敏规则将对应的敏感字段的数据进行脱敏处理,得到脱敏数据,最后对脱敏数据进行脱敏复制后生成脱敏后的数据。
75.进一步地,在对脱敏数据进行脱敏复制后生成脱敏后的数据之后,需要删除敏感字段集合和脱敏数据,这样可以大大增加敏感数据的安全性。
76.需要说明的是,一般用在生产环境,敏感数据需要实时进行脱敏,因为有时在不同情况下对于同一敏感数据的读取,需要做不同级别的脱敏处理,例如:不同角色、不同权限所执行的脱敏方案会不同。
77.具体的,脱敏规则可分为无效化方式、随机值方式、数据替换方式、对称加密方式、平均值方式以及偏移和取整方式。
78.在一种可能的实现方式中,当脱敏规则为无效化方式时,无效化方式在处理待脱敏的数据时,通过对敏感字段数据值进行截断、加密、隐藏等方式让敏感数据脱敏,使其不再具有利用价值。一般采用特殊字符(*等)代替真值,这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式,如果想要获取完整信息,要让用户授权查询。例如将身份证号用*替换真实数字就变成了"220724******3523"
79.在另一种可能的实现方式中,当脱敏规则为随机值方式时,随机值替换方式,是将敏感数据的字母变为随机字母,数字变为随机数字,文字随机替换文字的方式来改变敏感数据,这种方案的优点在于可以在一定程度上保留原有数据的格式,往往这种方法用户不易察觉的。
80.在另一种可能的实现方式中,当脱敏规则为数据替换方式时,数据替换与前边的无效化方式比较相似,不同的是这里不以特殊字符进行遮挡,而是用一个设定的虚拟值替换真值。比如说我们将手机号统一设置成“13651300000”。
81.在另一种可能的实现方式中,当脱敏规则为对称加密方式时,对称加密是一种特殊的可逆脱敏方法,通过加密密钥和算法对敏感数据进行加密,密文格式与原始数据在逻辑规则上一致,通过密钥解密可以恢复原始数据,例如sha256加密算法进行加密。
82.在另一种可能的实现方式中,当脱敏规则为平均值方式时,平均值方式需要针对数值型数据,先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。
83.在另一种可能的实现方式中,当脱敏规则为偏移和取整方式时,该方式通过随机移位改变数字数据,偏移取整在保持了数据的安全性的同时保证了范围的大致真实性,比
之前几种方案更接近真实数据,在大数据分析场景中意义比较大。例如日期字段create_time中2020-12-08 15:12:25变为2018-01-02 15:00:00。
84.s104,将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。
85.在一种可能的实现方式中,在得到脱敏后的目标字段后,将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。
86.例如图2所示,图2是本技术提供的一种数据脱敏过程的流程示意图,下发区用户指数据库内为数据下发方专门创建的数据库用户,使下发数据与数据库内其它数据隔离;下发数据(待分发的目标数据文本)指下发方意图分享的数据,其中既可能有敏感数据也可能有非敏感数据。敏感数据识别装置根据数据文本特征来进行数据分类的装置,分类标准参照组织内部的数据分级分类规范,通过类型来判别是否为敏感数据,并将判定好的类型进行记录标识。数据的类别信息是数据是否敏感及敏感数据的脱敏依据,单独配置在一张表中存储,包含表-字段-敏感类别等信息。脱敏复制装置根据数据类别信息,对数据进行脱敏复制,创建脱敏副本。脱敏副本及接收区用户,脱敏副本中,敏感字段的数据会进行模糊化,包括用*代替,sha256加密等形式,使模糊化后的数据不具备复现、辨识的可能性,视组织内的数据分级分类标准而定。接收区用户指在数据库中为接收方创建的数据库用户,只存放脱敏副本,用于数据隔离。数据接收方是数据分发的下游,接收上游分发的数据。
87.在本技术实施例中,数据脱敏装置首先当接收到待分发的目标数据文本时,获取目标数据文本的多个字段,然后在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合,其次对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据,最后将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。由于本技术通过在服务端自动识别目标数据文本中存在的敏感字段进行自动脱敏处理,从而实现了能进行数据的自动识别、脱敏以及分发,减少了数据流转所导致的数据泄露风险,提高了数据分发的效率。
88.请参见图3,为本技术实施例提供了一种数据脱敏方法的流程示意图,应用于服务端。如图3所示,本技术实施例的方法可以包括以下步骤:
89.s201,根据预设键值规则解析目标数据文本,生成解析后的数据文本;
90.s202,在解析后的数据文本中逐一遍历获取键值对集合;
91.s203,将键值对集合中每个键值对划分为属性特征和值特征,得到每个键值对的属性特征和值特征;
92.s204,基于每个键值对的属性特征和值特征确定目标数据文本的多个字段;
93.s205,获取针对敏感字段设置的敏感字段类型表;
94.s206,分析多个字段中每个字段的数据类型;
95.s207,根据敏感字段类型表以及每个字段的数据类型逐一映射,以判定每个字段是否为敏感字段,并将敏感字段标记为1,以及将非敏感字段标记为0;
96.s208,统计标记为1的字段,并确定为敏感字段集合,统计标记为0的字段,并确定为非敏感字段集合;
97.s209,根据敏感字段集合中各敏感字段的类型信息获取每个敏感字段对应的脱敏规则;
98.s210,根据每个敏感字段对应的脱敏规则将对应的敏感字段的数据进行脱敏处理,得到脱敏数据,对脱敏数据进行脱敏复制后生成脱敏后的数据;
99.s211,将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。
100.在本技术实施例中,数据脱敏装置首先当接收到待分发的目标数据文本时,获取目标数据文本的多个字段,然后在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合,其次对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据,最后将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。由于本技术通过在服务端自动识别目标数据文本中存在的敏感字段进行自动脱敏处理,从而实现了能进行数据的自动识别、脱敏以及分发,减少了数据流转所导致的数据泄露风险,提高了数据分发的效率。
101.下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
102.请参见图4,其示出了本发明一个示例性实施例提供的数据脱敏装置的结构示意图,应用于服务端。该数据脱敏装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括字段获取模块10、字段识别模块20、字段脱敏模块30、数据分发模块40。
103.字段获取模块10,用于当接收到待分发的目标数据文本时,获取目标数据文本的多个字段;
104.字段识别模块20,用于在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合;
105.字段脱敏模块30,用于对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据;
106.数据分发模块40,用于将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。
107.需要说明的是,上述实施例提供的数据脱敏装置在执行数据脱敏方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据脱敏装置与数据脱敏方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
108.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
109.在本技术实施例中,数据脱敏装置首先当接收到待分发的目标数据文本时,获取目标数据文本的多个字段,然后在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合,其次对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据,最后将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。由于本技术通过在服务端自动识别目标数据文本中存在的敏感字段进行自动脱敏处理,从而实现了能进行数据的自动识别、脱敏以及分发,减少了数据流转所导致的数据泄露风险,提高了数据分发的效率。
110.本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器
执行时实现上述各个方法实施例提供的数据脱敏方法。
111.本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的数据脱敏方法。
112.请参见图5,为本技术实施例提供了一种终端的结构示意图。如图5所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
113.其中,通信总线1002用于实现这些组件之间的连接通信。
114.其中,用户接口1003可以包括显示屏(display)、摄像头(camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
115.其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
116.其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
117.其中,存储器1005可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据脱敏应用程序。
118.在图5所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的数据脱敏应用程序,并具体执行以下操作:
119.当接收到待分发的目标数据文本时,获取目标数据文本的多个字段;
120.在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合;
121.对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据;
122.将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。
123.在一个实施例中,处理器1001在执行获取目标数据文本的多个字段时,具体执行
以下操作:
124.根据预设键值规则解析目标数据文本,生成解析后的数据文本;
125.在解析后的数据文本中逐一遍历获取键值对集合;
126.将键值对集合中每个键值对划分为属性特征和值特征,得到每个键值对的属性特征和值特征;
127.基于每个键值对的属性特征和值特征确定目标数据文本的多个字段。
128.在一个实施例中,处理器1001在执行基于每个键值对的属性特征和值特征确定目标数据文本的多个字段时,具体执行以下操作:
129.将每个键值对的属性特征和值特征进行特征拼接,得到多个拼接特征;
130.将每个拼接特征转换为一个向量,得到向量集合;
131.将向量集合中各向量组合后生成词项矩阵;
132.将词项矩阵进行奇异值分解,得到多个语义索引;
133.根据预设语义字段表查询多个语义索引中每个语义索引对应的字段,得到目标数据文本的多个字段。
134.在一个实施例中,处理器1001在执行在多个字段中识别敏感字段以及非敏感字段,生成敏感字段集合以及非敏感字段集合时,具体执行以下操作:
135.获取针对敏感字段设置的敏感字段类型表;
136.分析多个字段中每个字段的数据类型;
137.根据敏感字段类型表以及每个字段的数据类型逐一映射,以判定每个字段是否为敏感字段,并将敏感字段标记为1,以及将非敏感字段标记为0;
138.统计标记为1的字段,并确定为敏感字段集合;
139.统计标记为0的字段,并确定为非敏感字段集合。
140.在一个实施例中,处理器1001在执行分析多个字段中每个字段的数据类型时,具体执行以下操作:
141.将多个字段中每个字段输入预先训练的数据类型识别模型中,输出每个字段的数据类型;其中,
142.按照以下步骤生成预先训练的数据类型识别模型,包括:
143.采用卷积神经网络创建数据类型识别模型;
144.获取预先标记的多条字段-类型标签数据;
145.将多条字段-类型标签数据输入数据类型识别模型进行训练,输出损失值;
146.当损失值到达最小时,生成预先训练的数据类型识别模型。
147.在一个实施例中,处理器1001在执行对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据时,具体执行以下操作:
148.根据敏感字段集合中各敏感字段的类型信息获取每个敏感字段对应的脱敏规则;
149.根据每个敏感字段对应的脱敏规则将对应的敏感字段的数据进行脱敏处理,得到脱敏数据;
150.对脱敏数据进行脱敏复制后生成脱敏后的数据。
151.在本技术实施例中,数据脱敏装置首先当接收到待分发的目标数据文本时,获取目标数据文本的多个字段,然后在多个字段中识别敏感字段以及非敏感字段,生成敏感字
段集合以及非敏感字段集合,其次对敏感字段集合中各敏感字段的数据进行脱敏处理,生成脱敏后的数据,最后将脱敏后的数据与非敏感字段的数据组合,并将组合后的数据分发至客户端。由于本技术通过在服务端自动识别目标数据文本中存在的敏感字段进行自动脱敏处理,从而实现了能进行数据的自动识别、脱敏以及分发,减少了数据流转所导致的数据泄露风险,提高了数据分发的效率。
152.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,数据脱敏的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
153.以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献