一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据表的脱敏分类方法、分类模型训练方法及装置与流程

2023-02-04 12:31:43 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,尤其涉及一种数据表的脱敏分类方法、分类模型训练方法及装置。


背景技术:

2.随着数字化时代的进步,数据爆炸式增长催化了数字产业的蓬勃发展。对各种形式数据的敏感信息进行有效控制的同时,最大程度地减少对数据效用性的损耗,才能够加快数据的流通,推动数字产品的消费与应用。
3.数据脱敏是一种对敏感数据进行保护,同时又可以最大程度保留原数据信息的数据安全技术。在数据脱敏中需进行敏感数据的识别。相关技术中,可使用按照规则的正则匹配方式,利用基于专家经验编写的规则库和模式串,对待进行处理的数据进行正则匹配,实现对数据中敏感信息的识别。
4.然而,上述方式的灵活性不足,在不同数据之间的迁移性较差,在不同的脱敏系统间或者不同场景的数据下,甚至需要对规则库进行大量修改。


技术实现要素:

5.本技术提供一种数据表的脱敏分类方法、分类模型训练方法及装置,用以敏感信息识别方式的灵活性不足、在不同数据之间的迁移性较差的问题。
6.第一方面,本技术提供一种数据表的脱敏分类方法,包括:获取数据表的表结构信息;从表结构信息中,获取字段信息;通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型,其中,数据分类模型为训练得到的神经网络模型。
7.在一种可行的实现方式中,获取数据表的表结构信息,包括:通过数据库管理语句,对数据库进行遍历,得到数据表的建表语句;利用正则表达式对建表语句进行解析,得到表结构信息。
8.在一种可行的实现方式中,数据分类模型包括第一滤波器、第二滤波器、第一bigru模型、第二bigru模型和径向基函数rbf神经网络。通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型,包括:通过编码模型对字段信息进行编码,得到字段信息的词向量;将词向量分别输入第一滤波器和第二滤波器,在第一滤波器中通过多个卷积核对词向量进行特征提取,得到第一滤波特征,在第二滤波器中通过多个卷积核对词向量进行特征提取,得到第二滤波特征;将第一滤波特征输入至第一bigru模型,将第二滤波特征输入至第二bigru模型,在第一bigru模型中通过注意力机制对第一滤波特征进行上下文特征提取,得到第一上下文特征,在第二bigru模型中通过注意力机制对第二滤波特征进行上下文特征提取,得到第二上下文特征;将第一上下文特征和第二上下文特征输入至rbf神经网络,在rbf神经网络中对字段信息进行敏感类型识别,得到预测敏感类型。
9.在一种可行的实现方式中,对字段信息进行编码,得到字段信息的词向量,包括:
确定字段信息的初始向量;将初始向量输入至连续词袋模型,在连续词袋模型中,基于初始向量预测字段信息对应的类别概率;根据类别概率,确定词向量。
10.第二方面,本技术提供一种分类模型训练方法,包括:获取训练数据集,训练数据集包括数据表的表结构信息中的字段信息和字段信息对应的类型标签,类型标签表示字段信息实际所属的敏感类型;根据训练数据集,对数据分类模型进行训练,其中,数据分类模型用于在根据上述第一方面提供的数据表的脱敏分类方法中对数据表进行敏感类型识别。
11.在一种可行的实现方式中,数据分类模型包括第一滤波器、第二滤波器、第一bigru模型、第二bigru模型和rbf神经网络,数据分类模型的训练为多次。数据分类模型的一次训练过程,包括:通过编码模型对字段信息进行编码,得到字段信息的词向量;将词向量分别输入第一滤波器和第二滤波器,在第一滤波器中通过多个卷积核对词向量进行特征提取,得到第一滤波特征,在第二滤波器中通过多个卷积核对词向量进行特征提取,得到第二滤波特征;将第一滤波特征输入至第一bigru模型,将第二滤波特征输入至第二bigru模型,在第一bigru模型中通过注意力机制对第一滤波特征进行上下文特征提取,得到第一上下文特征,在第二bigru模型中通过注意力机制对第二滤波特征进行上下文特征提取,得到第二上下文特征;将第一上下文特征和第二上下文特征输入至rbf神经网络,在rbf神经网络中对字段信息进行敏感类型识别,得到预测敏感类型;根据类型标签与预测敏感类型之间的差异,调整编码模型和数据分类模型的模型参数。
12.第三方面,本技术提供一种数据表的脱敏分类装置,包括:结构信息获取单元,用于获取数据表的表结构信息;字段获取单元,用于从表结构信息中,获取字段信息;脱敏分类单元,用于通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型,其中,数据分类模型为训练得到的神经网络模型。
13.第四方面,本技术提供一种分类模型训练装置,包括:训练数据获取单元,用于获取训练数据集,训练数据集包括数据表的表结构信息中的字段信息和字段信息对应的类型标签,类型标签表示字段信息实际所属的敏感类型;模型训练单元,用于根据训练数据集,对数据分类模型进行训练,其中,数据分类模型用于在根据第一方面提供的数据表的脱敏分类方法中对数据表进行敏感类型识别。
14.第五方面,本技术提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上述第一方面提供的数据表的脱敏分类方法或者执行如上述第二方面提供的分类模型训练方法。
15.第六方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述第一方面提供的数据表的脱敏分类方法或者实现如上述第二方面提供的分类模型训练方法。
16.第七方面,本技术提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的数据表的脱敏分类方法或者实现如上述第二方面所述的分类模型训练方法。
17.本技术提供的数据表的脱敏分类方法、装置、设备及介质,针对作为结构化数据之一的数据表,从数据表的表结构信息中获取字段信息,通过数据分类模型对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型。其中,数据分类模型为训练得到的神经
网络模型。从而,利用神经网络模型,实现对结构化数据之一的数据表的敏感类型识别,实现数据库表结构的自动化管理,不需要依赖大量的专家知识,灵活性高、可迁移性高,人工成本低。
附图说明
18.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
19.图1示出了本公开实施例适用的一种应用场景的示意图;
20.图2为本技术实施例提供的数据表的脱敏分类方法的流程示意图一;
21.图3为本技术实施例提供的数据表的脱敏分类方法的流程示意图二;
22.图4为本技术实施例提供的分类模型训练方法的流程示意图;
23.图5为本技术实施例提供的数据表的脱敏分类装置的结构示意图;
24.图6为本技术实施例提供的分类模型训练方法的结构示意图;
25.图7为本技术实施例提供的一种电子设备的结构示意图。
26.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
27.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
28.首先,为了便于理解本方案,对本技术的部分用语进行解释:
29.数据脱敏:屏蔽或隐藏数据库中的敏感数据。
30.结构化数据:是指经过高度组织化和统一的结构加以表示的数据。其中,常见的结构化数据即数据库、表格形式存在的数据。
31.非结构化数据:包括文本、图像、语音等形式存在的数据。
32.相关技术中,可通过如下两种方式进行敏感数据识别:
33.方式一,使用按照规则的正则匹配,对数据进行敏感信息的识别和分类。
34.具体的,基于规则的技术主要是使用词典、规则判断以及正则表达式的模式串,不需要前期数据的进行训练,针对制定模式下的模式效果比较好。然而方式一存在以下缺点:1、对于较为模糊的数据误识别率高,需要人工干预进行修改,提高了人工成本;2、在编写脱敏规则和模式串时,需要专家知识背景,即需要大量的专家经验,人工成本高;3、脱敏规则和模式串与数据关联较少,匹配方式比较呆板,在内容模糊的情况下容易出错,敏感数据识别的准确性、可靠性较低,在不同的脱敏系统间或者不同场景的数据下,甚至需要对规则库进行大量修改,迁移性差。
35.方式二,使用深度学习进行敏感数据识别。随着深度学习的发展,神经网络对文本、图像等非结构化数据的特征提取的能力日益提高,一些基于神经网络的算法已经具有
较高的识别能力,比如采用神经网络进行图像识别、自然语言处理。然而,采用深度学习方式对结构化数据进行敏感数据识别,需要耗费大量的计算资源和时间成本。
36.为解决上述缺点,本技术提供了一种数据表的脱敏分类方法、分类模型训练方法及装置。在本技术中,基于数据表的表结构信息中的字段信息和字段信息对应的类型标签,训练得到数据分类模型,在数据表的脱敏分类方法中,通过数据分类模型对数据表的表结构信息中的字段信息进行敏感类型预测,得到字段信息对应的预测敏感类型。在需要进行数据脱敏的相关业务中,可根据对敏感数据的界定对相应预测敏感类型的字段信息进行脱敏处理。
37.可见,本技术引入了深度学习的方法实现了对结构化数据之一的数据表的敏感类型识别,在数据表结构管理、数据类型分类、脱敏分类等方面有显著优势,提高了企业、团队对结构化数据的管理,增强了数据处理的时效性与敏捷性;无需基于专家经验编写规则库和模式串,降低了人工成本,具备较高的灵活性和迁移性,可适用于不同的脱敏系统和不同的数据场景;避免了传统正则匹配和模式串的冗余性,提高了脱敏数据分类的准确度,保证数据脱敏质量,为后续数据加工与处理的安全性提供保障。
38.其中,装置的实现原理和技术效果可参照方法内容。
39.图1示出了本公开实施例适用的一种应用场景的示意图。在该应用场景中,涉及的设备包括用于训练数据分类模型的模型训练设备和用于识别数据表中字段信息的敏感类型的脱敏分类设备,其中,模型训练设备和脱敏分类设备可以为服务器或者终端,图1以模型训练设备为第一服务器101、脱敏分类设备为第二服务器102为例。
40.在第一服务器101上,进行数据分类模型的训练。将训练后的数据分类模型部署至第二服务器102上,在第二服务器102上,通过数据分类模型对数据表中的字段信息进行敏感类型识别,得到字段信息的预测敏感类型。
41.如图1所示,应用场景涉及到设备还可包括数据库103,第一服务器101可从数据库103中获得训练数据,和/或,第二服务器102可从数据库103中获得待进行脱敏分类的数据表。
42.其中,服务器可以为集中式服务器,也可以为分布式服务器,还可以为云端服务器。终端可以是个人数字处理(personal digital assistant,简称pda)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,简称pc))、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能音箱、智能显示设备)、智能机器人等。
43.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
44.参考图2,图2为本技术实施例提供的数据表的脱敏分类方法的流程示意图一。如图2所示,该实施例提供的数据表的脱敏分类方法包括:
45.s201、获取数据表的表结构信息。
46.其中,数据表的表结构信息用于反映数据表的表结构,在数据表的表结构信息中可包括数据表的字段信息、表名等与数据表的结构相关的信息。
47.本实施例中,可在数据库中,获取数据库中一个或多个数据表的表结构信息。其
中,数据表的表结构信息反映数据表的表结构,在数据表的表结构信息中可包括数据表中的字段信息。或者,可接收用户输入的数据表,从数据表中获取得到数据表的表结构信息。在从数据库中获取数据表的表结构信息的情况下,本实施例可以实现对数据库中批量数据表的字段信息的敏感类型识别,提高敏感类型识别的效率。
48.s202、从表结构信息中,获取字段信息。
49.其中,字段信息可包括字段名称,一张数据表中可包括多个字段名称。
50.本实施例中,在得到表结构信息后,在表结构信息中进行数据解析并查询,得到数据表的字段信息。
51.可选地,字段信息还可包括字段类型和/或字段长度。从而,可在字段类型和/或字段长度的辅助下,实现字段名称的敏感类型预测,提高对数据表中的字段信息进行敏感类型识别的准确性。
52.s203、通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型。
53.其中,数据分类模型为训练得到的神经网络模型。数据分类模型的训练过程可参照后续实施例,在本实施例中不进行描述。
54.其中,字段信息对应的预测敏感类型用于表示在数据脱敏领域中经数据分类模型预测后字段信息所属的数据类型。比如,字段信息对应的预测敏感类型可为如下任一种:名称类、代码类、标志类、金额类、证件类。在不同的脱敏业务中可能需要对不同的敏感类型的字段信息进行脱敏处理,比如,脱敏业务a需要对名称类、证件类对应的字段信息进行脱敏处理,脱敏业务b需要对证件类、金额类对应的字段信息进行脱敏处理。
55.本实施例中,可将字段信息或者经过初步处理后的字段信息输入至数据分类模型中,在数据分类模型中对字段信息进行特征提取、基于提取的特征进行类型预测,得到字段信息对应的预测敏感类型。
56.本技术实施例中,基于神经网络模型,实现对结构化数据之一的数据库、数据表中的字段信息的敏感类型识别,提高了敏感类型识别的准确性,进而提高了脱敏业务基于字段信息的敏感类型进行脱敏处理的准确性。该方式不需要采用脱敏规则、模式串,降低了人工成本,提高了效率,而且具备较高的灵活性和迁移性,能够适用于不同的脱敏系统和不同的数据表。
57.在一些实施例中,获取数据表的表结构信息,包括:通过数据库管理语句,对数据库进行遍历,得到数据表的建表语句;利用正则表达式对数据表的建表语句进行解析,得到数据表的表结构信息。
58.其中,数据库管理语句可为show语句,该语句可用于从数据库中获取得到数据表的建表语句并对建表语句进行输出显示。
59.本实施例中,可通过show语句遍历数据库中的数据表的表名,获取数据表的建表语句,可将建表语句保存至建表语句日志中。之后,可利用正则表达式对建表语句日志中的建表语句进行解析,得到建表语句中的表名、字段名、字段类型、字段长度等与数据表的结构有关的数据,即得到数据表的表结构信息。其中,利用正则表达式对建表语句日志中的建表语句进行解析可通过python脚本实现,python是一种计算机编程语言,可在python脚本中编写正则表达式以及基于正则表达式对建表语句进行解析的程序。从而,利用数据库管
理语句和正则表达式,提高在数据库中获取数据表的表结构信息的效率和准确性,进而提高对数据表进行脱敏分类的效率和准确性。
60.其中,数据表的表结构信息可以采用表格的形式呈现,使得对数据表的表结构信息更为规整,便于对这些数据进行整理、分析。
61.在一些实施例中,数据分类模型可包括滤波器(filter)、上下文特征提取网络以及分类网络,通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型,包括:确定字段信息的词向量;将字段信息对应的词向量输入至滤波器,在滤波器中通过多个卷积核对词向量进行特征提取,得到滤波特征,即滤波器的输出数据;将滤波特征输入至上下文特征提取网络,在上下文特征提取网络对滤波特征进行上下文特征提取,得到上下文特征,即上下文特征网络的输出数据;将上下文特征输入至分类网络,在分类网络中基于上下文特征对字段信息进行分类,即在多个敏感类型中预测字段信息所属的敏感类型,最终得到字段信息对应的预测敏感类型。
62.例如,多个敏感类型包括名称类、代码类、标志类、金额类、证件类等。
63.进一步的,在数据分类模型中,滤波器包括第一滤波器和第二滤波器,第一滤波器中的卷积核尺寸与第二滤波器中的卷积核尺寸不同,或者,第一滤波器的卷积核数量与第二滤波器中的卷积核数量不同。从而,通过不同的第一滤波器和第二滤波器,提高滤波特征的多样性。
64.进一步,在数据分类模型中,上下文特征提取网络包括第一双向门控循环单元(bidirectional gated recurrent unit,bigru)模型和第二bigru模型。其中,第一bigru模型与第二bigru模型的结构一致。第一bigru模型用于对第一滤波特征进行上下文特征提取,第二bigru模型用于对第二滤波特征进行上下文提取,提高上下文特征的多样性。
65.进一步,在数据分类模型中,分类网络可采用径向基函数(radial basis function neural network,rbf)神经网络。其中,rbf神经网络具备结构简单、学习速度快、收敛速度快等有点,能够提高数据分类模型的训练速度,也可以提高数据分类模型的模型性能。
66.参考图3,图3为本技术实施例提供的数据表的脱敏分类方法的流程示意图二。如图3所示,该实施例提供的数据表的脱敏分类方法包括:
67.s301、获取数据表的表结构信息。
68.s302、从表结构信息中,获取字段信息。
69.其中,s301~s302的实现原理和技术效果可参照前述实施例,不再赘述。
70.s303、通过编码模型对字段信息进行编码,得到字段信息的词向量。
71.本实施例中,可将字段信息输入至编码模型中,在编码模型中对字段信息进行编码,得到字段信息的词向量。除了在编码模型中进行字段信息进行编码外,也可以在数据分类模型中设置编码网络层,通过编码网络层对字段信息进行编码。相较于该方式,采用单独的编码模型对字段信息进行编码,能够在一定程度上提高对字段信息进行编码的编码效果。
72.在一种可行的实现方式中,如图3所示,s303包括s3031~s3033:
73.s3031、确定字段信息的初始向量。
74.本实现方式中,可采用编码方式对字段信息进行初步编码,得到字段信息的初始
向量,比如,采用独热编码方式对字段信息进行初步编码,又如,采用标签编码方式对字段信息进行初步编码。
75.s3032、将初始向量输入至连续词袋模型(continuous bag-of-words,cbow),在连续词袋模型中,基于初始向量预测字段信息对应的类别概率。
76.其中,在数据分类模型的训练过程中,不仅对数据分类模型的模型参数进行调整,也对cbow模型的模型参数进行调整,使得cbow模型在一定程度上能够预测字段信息对应的类别概率。其中,字段信息对应的类别概率可包括字段信息分别属于多个敏感类型的概率,比如,字段信息分别属于名称类、代码类、标志类、金额类、证件类的概率。
77.本实现方式中,由于字段信息的初始向量可能存在过于稀疏、与字段信息所属的敏感类型无关的不足之处,可将初始向量输入至cbow模型中,在cbow模型对初始向量进行特征处理,预测字段信息对应的类别概率。从而,采用word2vec的词向量方法,将字段信息转化为机器能识别的词向量,使得转化后的词向量还与字段信息所属的敏感类型相关。
78.在编码过程中,cbow模型可基于给定窗口大小为c的上下文预测字段信息对应的类别概率。具体的,cbow模型的结构包括输入层、投影层以及输出层,其中:向输入层输入的初始向量可表示为在投影层中可对所有的初始词向量求平均,公式可表示为:
[0079][0080]
在输出层中,可采用software函数计算字段信息对应的类型概率:
[0081][0082]
其中,ωi表示第i个字段信息,表示第i个字段信息对应的初始向量,v表示字段信息对应的初始向量的集合,p表示类型概率。
[0083]
s3033、根据字段信息对应的类别概率,确定字段信息的词向量。
[0084]
本实现方式中,在得到字段信息对应的类别概率后,针对各个字段信息,可将字段信息对应的所有类别概率进行组合,得到字段信息的词向量。
[0085]
从而,在本实现方式中利用词袋模型提高对字段信息的编码效果。
[0086]
s304、将词向量分别输入第一滤波器和第二滤波器,在第一滤波器中通过多个卷积核对词向量进行特征提取,得到第一滤波特征,在第二滤波器中通过多个卷积核对词向量进行特征提取,得到第二滤波特征。
[0087]
本实施例中,将词向量分别输入第一滤波器和第二滤波器中,滤波器的深度取决于滤波器中卷积核的数量,换句话说,滤波器包括多个滤波器。在第一滤波器中,通过多个卷积核对词向量进行卷积运算,以提取词向量中的局部特征,得到第一滤波器的输出数据,即第一滤波特征;在第二滤波器中,通过多个卷积核对词向量进行卷积运算,以提取词向量中的局部特征,得到第二滤波器的输出数据,即第二滤波特征。
[0088]
其中,第一滤波器中的卷积核的尺寸与第二滤波器中的卷积核的尺寸不同;和/或,第一滤波器中的卷积核的数量与第二滤波器中卷积核的数量不同。
[0089]
其中,第一滤波器可为多个,第二滤波器也可为多个。在第一滤波器为多个的情况下,依次通过各个滤波器对词向量进行特征提取,得到多个第一滤波特征;在第二滤波器为多个的情况下,依次通过各个滤波器对词向量进行特征提取,得到多个第二滤波特征。
[0090]
例如,在数据分类模型中,包括128个第一滤波器和64个第二滤波器,第一滤波器中卷积核尺寸为3、4、5,第二滤波器中卷积核尺寸为4、5、6。
[0091]
s305、将第一滤波特征输入至第一bigru模型,将第二滤波特征输入至第二bigru模型,在第一bigru模型中通过注意力机制对第一滤波特征进行上下文特征提取,得到第一上下文特征,在第二bigru模型中通过注意力机制对第二滤波特征进行上下文特征提取,得到第二上下文特征。
[0092]
本实施例中,将第一滤波器输出的第一滤波特征,输入至第一bigru网络,在第一bigru模型中利用注意力(attention)机制对第一滤波特征进行上下文的特征提取,具体的,利用注意力机制提高特征提取的权重计算,突出第一滤波特征中的关键信息,最终得到第一bigru模型的输出数据,即第一上下文特征。将第二滤波器输出的第二滤波特征,输入至第二bigru网络,在第二bigru模型中利用注意力机制对第二滤波特征进行上下文的特征提取,具体的,利用注意力机制提高特征提取的权重计算,突出第二滤波特征中的关键信息,最终得到第二bigru模型的输出数据,即第二上下文特征。
[0093]
s306、将第一上下文特征和第二上下文特征输入至rbf神经网络,在rbf神经网络中对字段信息进行敏感类型识别,得到预测敏感类型。
[0094]
本实施例中,将第一上下文特征和第二上下文特征一起输入至rbf神经网络,在rbf神经网络中,基于第一上下文特征和第二上下文特征,对字段信息属于各个敏感类型的概率进行预测,即对字段信息进行概率分布的计算,得到字段信息属于各个敏感类型的预测概率。确定字段信息对应的预测敏感类型为在字段信息属于各个敏感类型的预测概率中预测概率最大的敏感类型。
[0095]
本技术实施例中,利用包含第一滤波器、第二滤波器、第一bigru模型、第二bigru模型以及rbf神经网络的数据分类模型,对数据表中的字段信息进行敏感类型识别,提高敏感类型识别的准确性和可靠性。该方式不需要采用脱敏规则、模式串,降低了人工成本,提高了效率,而且具备较高的灵活性和迁移性,能够适用于不同的脱敏系统和不同的数据表。
[0096]
参考图4,图4为本技术实施例提供的分类模型训练方法的流程示意图。
[0097]
如图4所示,该实施例提供的分类模型训练方法包括:
[0098]
s401、获取训练数据集。
[0099]
其中,训练数据集包括数据表的表结构信息中的字段信息和字段信息对应的类型标签,类型标签表示字段信息实际所属的敏感类型。
[0100]
本实施例中,可从数据库中,获取训练数据集。在训练数据集中,数据表的表结构信息中的字段信息可先从数据库中获取数据表的表结构信息、再从表结构信息中获取字段信息,具体可参照前述实施例的描述,不再赘述。
[0101]
在一种可行的实现方式中,生成训练数据集的过程可包括:通过数据库管理语句,对数据库进行遍历,得到数据表的建表语句;利用正则表达式对建表语句进行解析,得到表结构信息;从表结构信息中获取字段信息;获取字段信息对应的类型标签;根据字段信息和字段信息对应的类型标签,得到训练数据集。其中,数据库遍历、建表语句解析的具体过程
可参照前述实施例,不再赘述。字段信息对应的类型标签可由人工输入得到。
[0102]
s402、根据训练数据集,对数据分类模型进行训练。
[0103]
其中,数据分类模型可在上述任一实施例提供的脱敏分类方法中用于对数据表进行敏感类型识别。
[0104]
本实施例中,可基于训练数据集中的字段信息和字段信息对应的类型标签,对数据分类模型进行有监督训练。在有监督训练的过程中,可根据数据分类模型输出的字段信息对应的预测敏感类型与字段信息对应的类型标签之间的差异,确定模型损失值;根据模型损失值对数据分类模型进行参数调整。其中,数据分类模型的训练次数为一次或多次,在数据分类模型的训练次数为多次的情况下,可参照上述过程对数据分类模型进行多次参数调整。
[0105]
本技术实施例中,基于数据表的表结构信息中的字段信息和字段信息对应的类型标签,训练得到数据分类模型,通过该数据分类模型,可实现对作为结构化数据的数据库、数据表中的字段信息的敏感类型识别,为各种脱敏业务提供字段信息的敏感类型。该数据分类模型可以适用于不同的数据库、不同的数据表以及不同的脱敏系统,灵活性和可迁移性较强。
[0106]
在一些实施例中,数据分类模型可包括滤波器、上下文特征提取网络以及分类网络,数据分类模型的一次训练过程可包括:确定字段信息的词向量;将字段信息对应的词向量输入至滤波器,在滤波器中通过多个卷积核对词向量进行特征提取,得到滤波特征,即滤波器的输出数据;将滤波特征输入至上下文特征提取网络,在上下文特征提取网络对滤波特征进行上下文特征提取,得到上下文特征,即上下文特征网络的输出数据;将上下文特征输入至分类网络,在分类网络中基于上下文特征对字段信息进行分类,即在多个敏感类型中预测字段信息所属的敏感类型,得到字段信息对应的预测敏感类型;根据字段信息对应的预测敏感类型和字段信息对应的类型标签之间的差异,调整数据分类模型的模型参数。
[0107]
进一步的,在数据分类模型中,滤波器包括第一滤波器和第二滤波器,第一滤波器中的卷积核尺寸与第二滤波器中的卷积核尺寸不同,或者,第一滤波器的卷积核数量与第二滤波器中的卷积核数量不同。从而,通过不同的第一滤波器和第二滤波器,提高滤波特征的多样性。
[0108]
进一步,在数据分类模型中,上下文特征提取网络包括第一bigru模型和第二bigru模型。其中,第一bigru模型与第二bigru模型的结构一致。第一bigru模型用于对第一滤波特征进行上下文特征提取,第二bigru模型用于对第二滤波特征进行上下文提取,提高上下文特征的多样性。
[0109]
进一步,在数据分类模型中,分类网络可采用rbf神经网络。其中,rbf神经网络具备结构简单、学习速度快、收敛速度快等有点,能够提高数据分类模型的训练速度,也可以提高数据分类模型的模型性能。
[0110]
在一些实施例中,数据分类模型的一次训练过程可包括:通过编码模型对字段信息进行编码,得到字段信息的词向量;将词向量分别输入第一滤波器和第二滤波器,在第一滤波器中通过多个卷积核对词向量进行特征提取,得到第一滤波特征,在第二滤波器中通过多个卷积核对词向量进行特征提取,得到第二滤波特征;将第一滤波特征输入至第一bigru模型,将第二滤波特征输入至第二bigru模型,在第一bigru模型中通过注意力机制对
第一滤波特征进行上下文特征提取,得到第一上下文特征,在第二bigru模型中通过注意力机制对第二滤波特征进行上下文特征提取,得到第二上下文特征;将第一上下文特征和第二上下文特征输入至所述rbf神经网络,在rbf神经网络中对字段信息进行敏感类型识别,得到预测敏感类型;根据类型标签与预测敏感类型之间的差异,调整编码模型和数据分类模型的模型参数。
[0111]
其中,上述步骤的执行过程可参照前述实施例不再赘述。
[0112]
在一些实施例中,通过编码模型对字段信息进行编码,得到字段信息的词向量,包括:确定字段信息的初始向量;将初始向量输入至连续词袋模型,在连续词袋模型中,基于初始向量预测字段信息对应的类别概率;根据类别概率,确定词向量。从而,利用连续词袋模型提高编码效果。
[0113]
进一步的,连续词袋模型的目标函数可表示为:
[0114]
l=∑
i∈v
logp(ωi|ω
i-c
,...,ω
i-1
,ω
i 1
,...,ω
i c
)
[0115]
其中,在训练过程中,通过调整连续词袋模型,使得目标函数朝着最大化的方向进行优化。上述公式中变量的含义可参照前述实施例,不再赘述。
[0116]
下述为本技术装置实施例,可以用于执行本技术对应的方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术对应的方法实施例。
[0117]
图5为本技术实施例提供的数据表的脱敏分类装置的结构示意图。如图5所示,本实施例提供的数据表的脱敏分类装置500,包括:
[0118]
结构信息获取单元501,用于获取数据表的表结构信息;
[0119]
字段获取单元502,用于从所述表结构信息中,获取字段信息;
[0120]
脱敏分类单元503,用于通过数据分类模型,对所述字段信息进行敏感类型识别,得到所述字段信息对应的预测敏感类型,其中,所述数据分类模型为训练得到的神经网络模型。
[0121]
在一种可行的实现方式中,结构信息获取单元501具体用于:通过数据库管理语句,对数据库进行遍历,得到数据表的建表语句;利用正则表达式对建表语句进行解析,得到表结构信息。
[0122]
在一种可行的实现方式中,数据分类模型可包括滤波器、上下文特征提取网络以及分类网络,脱敏分类单元503包括:确定字段信息的词向量;将字段信息对应的词向量输入至滤波器,在滤波器中通过多个卷积核对词向量进行特征提取,得到滤波特征,即滤波器的输出数据;将滤波特征输入至上下文特征提取网络,在上下文特征提取网络对滤波特征进行上下文特征提取,得到上下文特征,即上下文特征网络的输出数据;将上下文特征输入至分类网络,在分类网络中基于上下文特征对字段信息进行分类,即在多个敏感类型中预测字段信息所属的敏感类型,最终得到字段信息对应的预测敏感类型。
[0123]
在一种可行的实现方式中,滤波器包括第一滤波器和第二滤波器,第一滤波器中的卷积核尺寸与第二滤波器中的卷积核尺寸不同,或者,第一滤波器的卷积核数量与第二滤波器中的卷积核数量不同。从而,通过不同的第一滤波器和第二滤波器,提高滤波特征的多样性。
[0124]
在一种可行的实现方式中,上下文特征提取网络包括第一bigru模型和第二bigru模型。
[0125]
在一种可行的实现方式中,分类网络可采用rbf神经网络。
[0126]
在一种可行的实现方式中,数据分类模型包括第一滤波器、第二滤波器、第一bigru模型、第二bigru模型和径向基函数rbf神经网络。脱敏分类单元503具体用于:通过编码模型对字段信息进行编码,得到字段信息的词向量;将词向量分别输入第一滤波器和第二滤波器,在第一滤波器中通过多个卷积核对词向量进行特征提取,得到第一滤波特征,在第二滤波器中通过多个卷积核对词向量进行特征提取,得到第二滤波特征;将第一滤波特征输入至第一bigru模型,将第二滤波特征输入至第二bigru模型,在第一bigru模型中通过注意力机制对第一滤波特征进行上下文特征提取,得到第一上下文特征,在第二bigru模型中通过注意力机制对第二滤波特征进行上下文特征提取,得到第二上下文特征;将第一上下文特征和第二上下文特征输入至rbf神经网络,在rbf神经网络中对字段信息进行敏感类型识别,得到预测敏感类型。
[0127]
在一种可行的实现方式中,在对字段信息进行编码,得到字段信息的词向量的过程中,脱敏分类单元503具体用于:确定字段信息的初始向量;将初始向量输入至连续词袋模型,在连续词袋模型中,基于初始向量预测字段信息对应的类别概率;根据类别概率,确定词向量。
[0128]
值得说明的,上述各实施例提供的数据表的脱敏分类装置,可用于执行上述任一实施例提供的数据表的脱敏分类方法中的各步骤,具体实现方式和技术效果类似,这里不再赘述。
[0129]
图6为本技术实施例提供的分类模型训练装置的结构示意图。如图6所示,本实施例提供的分类模型训练装置600,包括:
[0130]
训练数据获取单元601,用于获取训练数据集,训练数据集包括数据表的表结构信息中的字段信息和字段信息对应的类型标签,类型标签表示字段信息实际所属的敏感类型;
[0131]
模型训练单元602,用于根据训练数据集,对数据分类模型进行训练,其中,数据分类模型用于在前述实施例提供的数据表的脱敏分类方法中对数据表进行敏感类型识别。
[0132]
在一种可行的实现方式中,训练数据获取单元601具体用于:通过数据库管理语句,对数据库进行遍历,得到数据表的建表语句;利用正则表达式对建表语句进行解析,得到表结构信息;从表结构信息中获取字段信息;获取字段信息对应的类型标签;根据字段信息和字段信息对应的类型标签,得到训练数据集。
[0133]
在一种可行的实现方式中,数据分类模型可包括滤波器、上下文特征提取网络以及分类网络,在数据分类模型的一次训练过程中,模型训练单元602具体用于:确定字段信息的词向量;将字段信息对应的词向量输入至滤波器,在滤波器中通过多个卷积核对词向量进行特征提取,得到滤波特征,即滤波器的输出数据;将滤波特征输入至上下文特征提取网络,在上下文特征提取网络对滤波特征进行上下文特征提取,得到上下文特征,即上下文特征网络的输出数据;将上下文特征输入至分类网络,在分类网络中基于上下文特征对字段信息进行分类,即在多个敏感类型中预测字段信息所属的敏感类型,得到字段信息对应的预测敏感类型;根据字段信息对应的预测敏感类型和字段信息对应的类型标签之间的差异,调整数据分类模型的模型参数。
[0134]
在一种可行的实现方式中,滤波器包括第一滤波器和第二滤波器。
[0135]
在一种可行的实现方式中,上下文特征提取网络包括第一bigru模型和第二bigru模型。
[0136]
在一种可行的实现方式中,分类网络可采用rbf神经网络。
[0137]
在一种可行的实现方式中,数据分类模型包括第一滤波器、第二滤波器、第一bigru模型、第二bigru模型和rbf神经网络,数据分类模型的训练为多次。在数据分类模型的一次训练过程中,模型训练单元602具体用于:通过编码模型对字段信息进行编码,得到字段信息的词向量;将词向量分别输入第一滤波器和第二滤波器,在第一滤波器中通过多个卷积核对词向量进行特征提取,得到第一滤波特征,在第二滤波器中通过多个卷积核对词向量进行特征提取,得到第二滤波特征;将第一滤波特征输入至第一bigru模型,将第二滤波特征输入至第二bigru模型,在第一bigru模型中通过注意力机制对第一滤波特征进行上下文特征提取,得到第一上下文特征,在第二bigru模型中通过注意力机制对第二滤波特征进行上下文特征提取,得到第二上下文特征;将第一上下文特征和第二上下文特征输入至rbf神经网络,在rbf神经网络中对字段信息进行敏感类型识别,得到预测敏感类型;根据类型标签与预测敏感类型之间的差异,调整编码模型和数据分类模型的模型参数。
[0138]
在一些实施例中,在通过编码模型对字段信息进行编码,得到字段信息的词向量的过程中,模型训练单元602具体用于:确定字段信息的初始向量;将初始向量输入至连续词袋模型,在连续词袋模型中,基于初始向量预测字段信息对应的类别概率;根据类别概率,确定词向量。
[0139]
值得说明的,上述各实施例提供的分类模型训练装置,可用于执行上述任一实施例提供的分类模型训练方法中的各步骤,具体实现方式和技术效果类似,这里不再赘述。
[0140]
本技术所提供的上述各装置实施例仅仅是示意性的,其中的模块划分仅仅是一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个模块可以结合或者可以集成到另一个系统。各个模块相互之间的耦合可以是通过一些界面实现,这些界面通常是电性通信界面,但是也不排除可能是机械界面或其他的形式界面。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。
[0141]
图7为本技术实施例提供的一种电子设备的结构示意图。如图7所示,该电子设备700可以包括:至少一个处理器701和存储器702。图7示出的是以一个处理器为例的电子设备。
[0142]
存储器702,用于存放处理器701的程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
[0143]
存储器702可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0144]
处理器701配置为用于执行存储器702存储的计算机程序,以实现以上各方法实施例中数据表的脱敏分类方法中的各步骤。
[0145]
其中,处理器701可能是一个中央处理器(central processing unit,简称为cpu),或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本技术实施例的一个或多个集成电路。
[0146]
可选地,存储器702既可以是独立的,也可以跟处理器701集成在一起。7当存储器
702是独立于处理器701之外的器件时,电子设备700,还可以包括:总线703,用于连接处理器701以及存储器702。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
[0147]
可选的,在具体实现上,如果存储器702和处理器701集成在一块芯片上实现,则存储器702和处理器701可以通过内部界面完成通信。
[0148]
本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有计算机执行指令,当电子设备的至少一个处理器执行该计算机执行指令时,电子设备执行上述的各种实施方式提供的数据表的脱敏分类方法或者分类模型训练方法的各个步骤。
[0149]
本技术实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的数据表的脱敏分类方法或者分类模型训练方法的各个步骤。
[0150]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其他实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
[0151]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献