一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据脱敏方法、数据脱敏装置、设备及存储介质与流程

2022-02-19 23:51:39 来源:中国专利 TAG:


1.本技术涉及人工智能领域,尤其涉及数据脱敏方法、数据脱敏装置、计算机设备及存储介质。


背景技术:

2.大数据时代下,针对数据进行的攻击频率日益增多,攻击方式也日趋丰富。数据脱敏技术是解决数据安全问题和风险的一种行之有效的方法。数据脱敏是指对关键信息或个人信息按照预设的规则或者变换进行数据变形,从而使得个人身份无法识别或者隐去关键信息。目前常见的结构化数据脱敏方式有基于匿名化技术或者扰乱技术的脱敏方式。
3.而基于匿名化技术或扰乱技术的结构化数据脱敏方法中存在脱敏后数据与原数据是一对一的映射关系的问题,导致脱敏后的数据容易被逆向破解,从而被轻易还原出原数据,进而导致原数据中隐私信息的泄露,数据安全性较差。


技术实现要素:

4.本技术提供了一种数据脱敏方法、数据脱敏装置、计算机设备及存储介质,旨在解决现有的脱敏方式存在容易被逆向破解导致隐私信息容易被泄露的问题。
5.为实现上述目的,本技术提供一种数据脱敏方法,所述方法包括:
6.获取用户数据,并基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息;
7.对所述关键信息进行预处理,得到所述关键信息对应的离散变量,所述预处理包括数据离散化处理或数据归一化处理;
8.基于条件损失函数,对所述离散变量进行条件随机采样处理,得到条件嵌入向量和隐向量,并将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量;
9.将所述拼接向量输入到预训练好的生成器进行脱敏处理,得到脱敏数据。
10.为实现上述目的,本技术还提供一种数据脱敏装置,所述数据脱敏装置包括:
11.关键信息提取模块,用于获取用户数据,并基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息;
12.信息处理模块,用于对所述关键信息进行预处理,得到所述关键信息对应的离散变量,所述预处理包括数据离散化处理或数据归一化处理;
13.向量拼接模块,用于基于条件损失函数,对所述离散变量进行条件随机采样处理,得到条件嵌入向量和隐向量,并将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量;
14.数据脱敏模块,用于将所述拼接向量输入到预训练好的生成器进行脱敏处理,得到脱敏数据。
15.此外,为实现上述目的,本技术还提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序
并在执行所述的计算机程序时实现本技术实施例提供的任一项所述的数据脱敏方法。
16.此外,为实现上述目的,本技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本技术实施例提供的任一项所述的数据脱敏方法。
17.本技术实施例公开的数据脱敏方法、数据脱敏装置、设备及存储介质,通过提取用户数据的关键信息以及关键信息的离散变量,从而生成拼接向量,并利用预训练好的生成器对拼接向量进行脱敏处理,得到脱敏数据,由此能够使脱敏数据的无法轻易被逆向破解,从而保证了隐私数据不被泄露,提高了脱敏数据的安全性。
附图说明
18.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术实施例提供的一种数据脱敏方法的场景示意图;
20.图2是本技术实施例提供的一种数据脱敏方法的流程示意图;
21.图3是本技术一实施例提供的一种数据脱敏装置的示意性框图;
22.图4是本技术一实施例提供的一种计算机设备的示意性框图。
具体实施方式
23.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
25.在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
26.数据脱敏技术是一种可以通过对数据进行处理,从而达到降低和去除数据敏感程度的数据处理技术。采用数据脱敏技术,可以降低数据泄露的风险和危害,有效地保护用户数据的隐私。在互联网或医疗领域,用户可以通过个人数字空间存储、查看和分享个人医疗健康数据,但是个人的医疗数据在网上看病、网上购买药品、门诊预约等流程中会面临用户医疗敏感信息泄露的风险,而在医疗行业用户的数据具有极高的真实性和敏感性特点,一旦用户的个人敏感信息泄露可能会对用户本人造成潜在的生命威胁。借助数据脱敏,个人数字空间中的信息可以被用于业务相关的分析和处理,同时避免用户数据的泄露。
27.目前常见的结构化数据脱敏方式有基于匿名化技术或者扰乱技术的脱敏方式。常见的匿名化技术有k

匿名、l

多样性和t

closeness等,它们是通过对单条记录的准标识符进行泛化后使得该数据在整个数据集中无法进行区分,从而达到脱敏的效果。基于扰乱技
术则是往记录中加入噪声,比如在连续值中加入加性或者乘性噪声,从而达到脱敏的效果。
28.而基于匿名化技术或扰乱技术的结构化数据脱敏方法中存在脱敏后数据与原数据是一对一的映射关系的问题,导致脱敏后的数据存在被逆向的风险,而且经过脱敏的数据往往与原数据差别较大而失去了研究的价值。
29.为解决上述问题,本技术提供了一种数据脱敏方法,可以应用在服务器中,具体应用金融、医疗等多个领域,通过不断对生成器参数进行迭代更新,得到预训练好的生成器,提取用户数据的敏感信息,并利用预训练好的生成器对敏感信息进行脱敏处理,得到脱敏数据,由此能够使脱敏数据的无法被轻易逆向破解,从而保证了隐私数据不被泄露,提高了脱敏数据的安全性。
30.其中,服务器例如可以为单独的服务器或服务器集群。但为了便于理解,以下实施例将以应用于服务器的数据脱敏方法进行详细介绍。
31.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
32.如图1所示,本技术实施例提供的数据脱敏方法,可以应用于如图1所示的应用环境中。该应用环境中包含有终端设备110和服务器120,其中,终端设备110可以通过网络与服务器120进行通信。具体地,服务器120获取终端设备110发送的用户数据,服务器120对用户数据进行关键信息提取、信息处理以及脱敏处理后生成脱敏数据,并将该脱敏数据发送给终端设备110,以实现数据脱敏处理。其中,服务器120可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
33.请参阅图2,图2是本技术实施例提供的一种数据脱敏方法的示意流程图。其中,该数据脱敏方法可以应用在服务器中,由此能够使脱敏数据的无法被轻易逆向破解,从而保证了隐私数据不被泄露,提高了脱敏数据的安全性。
34.如图2所示,该数据脱敏方法包括步骤s101至步骤s104。
35.s101、获取用户数据,并基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息。
36.其中,所述用户数据为包含关键信息的数据,具体可以包括医疗数据比如病历数据、金融数据比如银行账户数据等。所述关键信息识别模型可以是基于注意力机制的预训练bert

crf模型,用于提取用户数据中的关键信息。所述关键信息是用户需要进行脱敏的信息,一般为用户的隐私信息,比如关键信息可以为病历数据中的身高、体重信息等,还可以为银行账户数据中的账户余额信息和投资信息等。需要说明的是,一切敏感信息或隐私信息均可以作为关键信息。
37.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
38.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
39.在一些实施例中,对所述用户数据进行分词处理,得到多个分词;对每个所述分词进行特征提取,得到每个所述分词的嵌入特征;根据每个所述分词的嵌入特征进行词义预测,得到每个所述分词对应的词义;根据每个所述分词对应的词义对所述多个分词进行筛选,得到关键信息。由此可以能够准确地提取得到关键信息,提高脱敏数据生成的准确性以及安全性。
40.其中,所述嵌入特征为词嵌入特征,位置嵌入特征和切分嵌入特征。所述词嵌入特征是每个分词的向量表示,所述位置嵌入为每个分词位置的向量表示,所述切分嵌入特征用于区分不同的两句话。
41.具体地,可以基于分词算法对所述用户数据进行分词处理,得到多个分词,所述分词算法可以为正向最大匹配法、逆向最大匹配法、基于隐马尔可夫模型的分词算法、基于条件随机场的分词算法等算法。
42.示例性的,可以基于隐马尔可夫模型的分词算法对用户数据比如病历数据的病历文本为“患者存在尿频、易饿、焦虑、震颤等症状,疑似糖尿病,”进行分词,得到对应的多个分词比如尿频、易饿、焦虑、震颤等。
43.具体地,可以对每个所述分词进行特征提取,得到每个所述分词的嵌入特征,并基于词义预测模型,根据每个所述分词的嵌入特征对每个所述分词进行词义预测,得到每个分词对应的词义预测结果,并基于每个分词对应的词义预测结果对所述多个分词进行筛选,得到关键信息。由此能够最大程度地挖掘文本特征,抽取更丰富的词表示,消除传统词向量比如word2vec、glove等无法动态表示上下文信息和无法解决一词多义的缺点。从而可以快速得到每个分词与预设的标准敏感分词的相似度,进而快速得到对应的关键信息。
44.其中,所述词义预测模型用于预测每个分词与预设的标准敏感分词的相似程度,所述词义预测模型通过语义匹配模型与标准敏感分词数据库进行训练得到,所述语义预测模型可以包括lstm匹配模型、mv

dssm模型、esim模型等模型,所述词义预测结果为每个分词与标准敏感分词数据库中的标准敏感分词的相似度。
45.示例性的,比如分词包括账户信息的账户余额等分词以及股票走势信息等分词,可以对每个所述分词进行特征提取,得到每个所述分词的词嵌入特征,位置嵌入特征和切分嵌入特征,基于lstm匹配模型,根据词嵌入特征,位置嵌入特征和切分嵌入特征对每个所述分词进行词义预测,得到每个分词对应的词义预测结果,并基于每个分词对应的词义预测结果将股票走势信息对应的分词筛选掉,得到关键信息。
46.s102、对所述关键信息进行预处理,得到所述关键信息对应的离散变量,所述预处理包括数据离散化处理或数据归一化处理。
47.由于关键信息一般都是连续型数据,因此需要对连续型数据和离散型数据进行表示转换,即数据预处理操作,是神经网络的输入和输出的关键一步。
48.示例性的,当关键信息为身高、体重等信息时,则该关键信息为连续型数据,当关键信息为投资企业个数等信息时,则该关键信息为离散型数据。
49.其中,所述离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量,比如职工人数、工厂数、机器台数等。具体地,所述数据归一化处理可以包括最大最小归一化处理和根据高斯混合模型进行归一化处理;所述数据离散化处理可以包括k

bins离散化处理和回归树离散化处理。
50.在一些实施例中,对所述关键信息进行最大最小归一化处理,得到所述关键信息对应的离散变量;或,通过高斯混合模型对所述关键信息进行归一化处理,得到所述关键信息对应的离散变量;或,对所述关键信息进行k

bins离散化处理,得到所述关键信息对应的离散变量;或,对所述关键信息进行回归树离散化处理,得到所述关键信息对应的离散变量。
51.具体地,若关键信息为连续型数据,可以通过最大最小线性变换被映射到[0,1]的范围内,使得利用tanh激活函数可以表示该连续值,得到所述关键信息对应的离散变量。
[0052]
具体地,若关键信息为连续型数据,可以通过高斯混合模型对关键信息进行拟合,根据该关键信息在混合模型的高斯分量的概率来采样高斯分量,用采样出来的高斯分量对记录中的关键信息进行归一化表示。那么,关键信息即可由归一化后的表示以及高斯分量的独热编码共同构成,从而得到所述关键信息对应的离散变量。
[0053]
具体地,若关键信息为连续型数据,可以对所述关键信息进行k

bins离散化处理,得到所述关键信息对应的离散变量。其中,所述离散化,也可称为分箱,即按一定规则将关键信息分入各个区间中,并用独热编码表示每个区间,从而将关键信息用一个含有四个区间的分段函数进行拟合,得到所述关键信息对应的离散变量。
[0054]
具体地,若关键信息为连续型数据,可以利用cart回归树对所述关键信息进行离散化处理,得到所述关键信息对应的离散变量。其中,cart回归树可以预测连续型数据,其叶子节点即表示一个预测值。将关键信息的回归树或回归树集合的一系列叶子节点通过独热编码表示,即可将该关键信息转化为离散值。
[0055]
需要说明的是,若关键信息为离散型数据,则无需进行数据离散化处理或数据归一化处理。
[0056]
s103、基于条件损失函数,对所述离散变量进行条件随机采样处理,得到条件嵌入向量和隐向量,并将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量。
[0057]
其中,所述条件损失函数为基于对抗生成网络的条件损失函数,所述基于对抗生成网络的损失函数的数据项是基于条件概率生成的,其初衷是使得数据能够按条件生成,使得同样类型的待脱敏数据与生成的脱敏数据的分布尽可能一致。然而,因为每次采样出来的条件都可能是不同的变量,因此,基于条件变量下的数据很难得到充分的训练,可以观察到生成的数据中对应的变量的值与其条件变量的值不一致。可通过对条件变量的预测,对训练过程进行约束,使得条件变量的值与生成的数据中对应的变量的值一致,即可进一步优化数据生成的效果。
[0058]
具体地,所述条件嵌入向量可以随机等概率地从所述关键信息对应的多个离散变量中挑选出一个符合预设条件的离散变量,所述隐向量可以从所述关键信息对应的白噪声采样得到,所述拼接向量是通过所述条件嵌入向量与所述隐向量拼接得到的,用于作为生成器的输入。通过加入隐向量,从而改变了脱敏后数据与原数据一对一的映射关系,从而使脱敏后的数据不容易被逆向破解,得到隐私信息。
[0059]
具体地,可以通过构建离散变量下各个值的概率质量分布函数,得到该离散变量的分布式表示,并对该离散变量的分布式表示进行条件随机采样处理,得到条件嵌入向量和隐向量。
[0060]
示例性的,可以通过深度神经网络转换离散变量对应的白噪声,以从该离散变量的分布式表示生成隐向量。
[0061]
在一些实施例中,对所述条件嵌入向量进行转化处理,得到独热编码;将所述独热编码与所述隐向量进行拼接,得到拼接向量。其中,所述独热编码即one

hot编码,又称有效编码,其方法是使用n位状态寄存器来对n个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。将所述条件嵌入向量转化为独热编码能够解决判别器不好处理属性数据的问题,同时在一定程度上也起到了扩充向量特征的作用。
[0062]
具体地,可以通过深度神经网络对条件嵌入向量进行转化处理,得到独热编码,并通过独热编码与隐向量进行拼接,得到拼接向量。由此可以得到符合生成器输入需求的拼接向量。
[0063]
s104、将所述拼接向量输入到预训练好的生成器进行脱敏处理,得到脱敏数据。
[0064]
其中,所述预训练好的生成器是基于对抗生成网络训练生成的,所述脱敏数据为对待脱敏数据中关键信息进行脱敏后的数据。
[0065]
在一些实施例中,获取训练数据对应的拼接向量,并将所述拼接向量输入到第一生成器进行脱敏处理,得到脱敏后的数据;基于所述脱敏后的数据和训练数据对预设的判别器进行训练,得到预训练好的判别器;根据预设的学习率和所述预训练好的判别器的参数,对所述第一生成器的参数进行多次迭代更新,得到第二生成器,并将所述第二生成器作为预训练好的生成器。由此可以通过预训练好的判别器和脱敏后的数据对第一生成器的参数进行多次迭代更新,能够生成非常真实的脱敏数据。之所以要先训练得到预训练好的判别器,再训练生成器,是因为要先拥有一个好的判别器,使得能够教好地区分出待脱敏数据和生成的脱敏数据之后,才能够更为准确地对生成器的参数进行更新。
[0066]
其中,所述训练数据为用于训练生成器参数的的待脱敏数据集,所述第一生成器为预设的未经过训练的生成器,所述第二生成器为第一生成器经过多次迭代更新生成的。其中,所述第一生成器和所述第二生成器的参数不同。可以通过离散变量的分布式表示得到该离散变量的先验概率,并在先验概率中采样出参数,以此作为第一生成器的参数。具体地,可以通过随机梯度哈密顿蒙特卡洛方法对生成器和判别器进行训练,得到预训练好的生成器和预训练好的判别器。
[0067]
具体地,基于所述脱敏后的数据和训练数据对预设的判别器进行训练,得到预训练好的判别器是通过将所述条件嵌入向量分别与所述脱敏后的数据和所述训练数据进行拼接,得到第一拼接数据和第二拼接数据,并根据计算第一拼接数据和第二拼接数据的相似度,并根据第一拼接数据和第二拼接数据的相似度优化损失函数,并对通过该损失函数对判别器进行梯度裁剪,得到预训练好的判别器。
[0068]
示例性的,可以通过第一生成器和预设的判别器参数对判别器参数进行训练,将脱敏数据尽可能判别为假,从而调整判别器参数,进而提高判别器对于待脱敏数据的判别能力。
[0069]
示例性的,可以通过第一生成器和预训练好的判别器参数的先验概率计算第二生
成器的后验概率,从而使该脱敏数据要尽可能使得判别器误判其为待脱敏数据,从而调整生成器参数,能够生成真实的脱敏数据。
[0070]
在一些实施例中,得到第二生成器之后,基于统计信息的损失函数,对所述第二生成器进行增噪处理,得到预训练好的生成器,其中,所述第一生成器、所述参数更新后的生成器和所述预训练好的生成器的参数不同。由此可以控制脱敏数据的生成质量和脱敏程度。
[0071]
其中,所述基于统计信息的损失函数可以包括基于均值的损失函数、基于方差的损失函数等。
[0072]
具体地,可以对第二生成器的参数加入高斯噪声,由此可以实现多项式拟合正弦曲线,所述高斯噪声是符合高斯正态分布的误差。而高斯噪声的具体数值可以通过实验得到。
[0073]
示例性的,可以对第二生成器的参数引入误差项,从而对第二生成器的参数进行修正,得到预训练好的生成器。由于误差项的存在,使得生成的脱敏数据与原数据存在一定差别,但差别不大,由此可以避免经过脱敏的数据往往与原数据差别较大而失去了研究的价值,同时也保证数据不会被轻易被逆向。
[0074]
在一些实施例中,得到脱敏数据之后,对所述脱敏数据的离散变量进行随机采样处理,得到目标离散变量;基于逻辑回归模型,根据所述脱敏数据的其余离散变量对所述目标离散变量进行预测,得到所述目标离散变量的预测结果;基于所述目标离散变量的预测结果调整所述预训练好的生成器的参数。由此可以通过对离散变量进行预测,从而调整生成器的参数,进而达到更好的脱敏效果。这里更好的脱敏效果是指可以防止脱敏后的数据被逆向破解,同时还能保持与原数据的关联。
[0075]
其中,所述目标离散变量为从脱敏数据的多个离散变量中随机采样得到的,同时为了脱敏数据与原数据的关联离散变量,一般可以认为目标离散变量不发生改变,脱敏数据与原数据差别较小,便不会失去了研究的价值,因此需要保证目标离散变量的一致性。所述逻辑回归模型用于对离散变量进行预测。
[0076]
具体地,可以利用交叉熵损失函数来判断生成的目标离散变量的预测结果与目标离散变量是否一致,从而确定所述脱敏数据的生成质量。若目标离散变量的预测结果与目标离散变量一致,则无需对所述预训练好的生成器的参数进行调整;若目标离散变量的预测结果与目标离散变量不一致,则确定目标离散变量的预测结果与目标离散变量的差值,根据所述差值调整所述预训练好的生成器的参数。由此可以确定目标离散变量的准确性,避免生成的脱敏数据使原数据差别过大。由于脱敏数据与原数据的大部分离散变量是相同的,因此去除其中一个离散变量,可以根据其余离散变量准确地预测得到该离散变量。
[0077]
示例性的,若脱敏数据的目标离散变量是鞋码为43码,基于逻辑回归模型,则可以通过脱敏数据的其余离散变量比如身高、体重等对目标离散变量进行预测,得到对于鞋码的预测结果,判断生成的鞋码的预测结果与脱敏数据的鞋码是否一致,比如若生成的鞋码的预测结果是鞋码为40码,则确定差值为1码,根据所述差值对所述预训练好的生成器的参数进行不断地迭代更新;若生成的鞋码的预测结果是鞋码为43码,则无需对所述预训练好的生成器的参数进行调整。
[0078]
在一些实施例中,服务器还可以将用于提示用户脱敏数据已经生成的提示信息发
送给终端设备。
[0079]
其中,所述提示信息的方式具体可以包括应用程序(app)或emai l、短信、聊天工具,聊天工具例如微信、qq等。
[0080]
示例性的,当脱敏数据已经生成时,服务器会发送脱敏数据已经生成的提示信息给终端设备以提醒用户。
[0081]
请参阅图3,图3是本技术一实施例提供的一种数据脱敏装置的示意性框图,该数据脱敏装置可以配置于服务器中,用于执行前述的数据脱敏方法。
[0082]
如图3所示,该数据脱敏装置200包括:关键信息提取模块201、信息处理模块202、向量拼接模块203和数据脱敏模块204。
[0083]
关键信息提取模块201,用于获取用户数据,并基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息;
[0084]
信息处理模块202,用于对所述关键信息进行预处理,得到所述关键信息对应的离散变量,所述预处理包括数据离散化处理或数据归一化处理;
[0085]
向量拼接模块203,用于基于条件损失函数,对所述离散变量进行条件随机采样处理,得到条件嵌入向量和隐向量,并将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量;
[0086]
数据脱敏模块204,用于将所述拼接向量输入到预训练好的生成器进行脱敏处理,得到脱敏数据;
[0087]
特征提取模块201,还用于对所述用户数据进行分词处理,得到多个分词;对每个所述分词进行特征提取,得到每个所述分词的嵌入特征;根据每个所述分词的嵌入特征进行词义预测,得到每个所述分词对应的词义;根据每个所述分词对应的词义对所述多个分词进行筛选,得到关键信息。
[0088]
信息处理模块202,还用于对所述关键信息进行最大最小归一化处理,得到所述关键信息对应的离散变量;或,通过高斯混合模型对所述关键信息进行归一化处理,得到所述关键信息对应的离散变量;或,对所述关键信息进行k

bins离散化处理,得到所述关键信息对应的离散变量;或,对所述关键信息进行回归树离散化处理,得到所述关键信息对应的离散变量。
[0089]
向量拼接模块203,还用于对所述条件嵌入向量进行转化处理,得到独热编码;将所述独热编码与所述隐向量进行拼接,得到拼接向量。
[0090]
生成器训练模块205,用于获取训练数据对应的拼接向量,并将所述拼接向量输入到第一生成器进行脱敏处理,得到脱敏后的数据;基于所述脱敏后的数据和训练数据对预设的判别器进行训练,得到预训练好的判别器;根据预设的学习率和所述预训练好的判别器的参数,对所述第一生成器的参数进行多次迭代更新,得到第二生成器,并将所述第二生成器作为预训练好的生成器。
[0091]
生成器训练模块205,还用于基于统计信息的损失函数,对所述第二生成器进行增噪处理,得到预训练好的生成器,其中,所述第一生成器、所述第二生成器和所述预训练好的生成器的参数不同。
[0092]
生成器训练模块205,还用于对所述脱敏数据的离散变量进行随机采样处理,得到目标离散变量;基于逻辑回归模型,根据所述脱敏数据的其余离散变量对所述目标离散变
量进行预测,得到所述目标离散变量的预测结果;基于所述目标离散变量的预测结果调整所述预训练好的生成器的参数。
[0093]
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0094]
本技术的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0095]
示例性的,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
[0096]
请参阅图4,图4是本技术实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器。
[0097]
如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括易失性存储介质、非易失性存储介质和内存储器。
[0098]
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种数据脱敏方法。
[0099]
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
[0100]
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种数据脱敏方法。
[0101]
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0102]
应当理解的是,处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0103]
其中,在一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:获取用户数据,并基于预训练好的关键信息识别模型,对所述用户数据进行信息识别,得到关键信息;对所述关键信息进行预处理,得到所述关键信息对应的离散变量,所述预处理包括数据离散化处理或数据归一化处理;基于条件损失函数,对所述离散变量进行条件随机采样处理,得到条件嵌入向量和隐向量,并将所述条件嵌入向量与所述隐向量进行拼接,得到拼接向量;将所述拼接向量输入到预训练好的生成器进行脱敏处理,得到脱敏数据。
[0104]
在一些实施例中,所述处理器还用于:对所述用户数据进行分词处理,得到多个分词;对每个所述分词进行特征提取,得到每个所述分词的嵌入特征;根据每个所述分词的嵌
入特征进行词义预测,得到每个所述分词对应的词义;根据每个所述分词对应的词义对所述多个分词进行筛选,得到关键信息。
[0105]
在一些实施例中,所述处理器还用于:对所述关键信息进行最大最小归一化处理,得到所述关键信息对应的离散变量;或,通过高斯混合模型对所述关键信息进行归一化处理,得到所述关键信息对应的离散变量;或,对所述关键信息进行k

bins离散化处理,得到所述关键信息对应的离散变量;或,对所述关键信息进行回归树离散化处理,得到所述关键信息对应的离散变量。
[0106]
在一些实施例中,所述处理器还用于:对所述条件嵌入向量进行转化处理,得到独热编码;将所述独热编码与所述隐向量进行拼接,得到拼接向量。
[0107]
在一些实施例中,所述处理器还用于:获取训练数据对应的拼接向量,并将所述拼接向量输入到第一生成器进行脱敏处理,得到脱敏后的数据;基于所述脱敏后的数据和训练数据对预设的判别器进行训练,得到预训练好的判别器;根据预设的学习率和所述预训练好的判别器的参数,对所述第一生成器的参数进行多次迭代更新,得到第二生成器,并将所述第二生成器作为预训练好的生成器。
[0108]
在一些实施例中,所述处理器还用于:基于统计信息的损失函数,对所述第二生成器进行增噪处理,得到预训练好的生成器,其中,所述第一生成器、所述第二生成器和所述预训练好的生成器的参数不同。
[0109]
在一些实施例中,所述处理器还用于:对所述脱敏数据的离散变量进行随机采样处理,得到目标离散变量;基于逻辑回归模型,根据所述脱敏数据的其余离散变量对所述目标离散变量进行预测,得到所述目标离散变量的预测结果;基于所述目标离散变量的预测结果调整所述预训练好的生成器的参数。
[0110]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现本技术实施例提供的任一种数据脱敏方法。
[0111]
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
[0112]
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0113]
本发明所指区块链语言模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0114]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利
要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献