训练分类模型、识别隐私数据的方法和装置与流程

2022-04-27 10:45:47 来源：中国专利 TAG：

1.本说明书一个或多个实施例涉及计算机领域，尤其涉及训练分类模型、利用分类模型识别隐私数据的方法和装置。

背景技术：

2.个人信息(personal information)指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反应特定自然人活动状况的各种信息。
3.个人敏感信息(personal sensitive information)即隐私信息或隐私数据(private data)，指一旦泄露、非法提供或滥用可能危害人身和财产安全，极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。
4.随着信息化技术的发展和移动智能设备的普及，人们无时无刻不在产生数据，各大公司和机构都收集和积累大量的用户数据，其中有不少数据都属于用户隐私数据。在做隐私数据保护工作前，先要识别出哪些数据是隐私数据，或者说识别出数据对应的隐私信息类别。对于数据库中存储的大量的用户数据，如何识别出哪些字段的数据是隐私数据已经成为一个比较棘手的问题。

技术实现要素：

5.本说明书一个或多个实施例描述了一种训练分类模型、利用分类模型识别隐私数据的方法和装置，能够有效识别数据库中的隐私数据。
6.第一方面，提供了一种训练分类模型的方法，方法包括：
7.获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合；
8.通过数据增强的方式生成负样本集合；
9.基于所述正样本集合中正样本的成对组合，形成正样本对集合；
10.基于所述正样本集合中的正样本和所述负样本集合中的负样本的成对组合，形成负样本对集合；
11.基于正样本对集合和负样本对集合，训练分类模型，用于预测输入样本对是否同属于所述目标隐私类别。
12.在一种可能的实施方式中，所述获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合，包括：
13.读取数据库表中目标字段的原始数据作为所述一组隐私数据，所述目标字段预先被标注为对应于所述目标隐私类别。
14.在一种可能的实施方式中，所述通过数据增强的方式生成负样本集合，包括：
15.从数字、英文、中文常用字中随机选取字符，生成预设长度的字符串作为负样本；或者，
16.统计所述正样本集合包括的正样本中出现的字符分布和样本的长度分布，基于该字符分布和长度分布通过均匀采样得到负样本；或者，
17.通过针对任一正样本插入若干字符，得到负样本；或者，
18.通过针对任一正样本删除若干字符，得到负样本；或者，
19.通过针对任一正样本改变若干字符的排序，得到负样本；或者
20.统计正样本中出现的字符分布及其频率、样本的长度分布及其频率，基于字符分布及其频率、样本的长度分布及其频率，通过采样得到负样本；或者，
21.截取第一正样本的部分字符串，截取第二正样本的部分字符串，将两者拼接在一起生成负样本。
22.在一种可能的实施方式中，所述基于所述正样本集合中正样本的成对组合，形成正样本对集合，包括：
23.将所述正样本集合中的任意两个正样本组合起来得到第一数目的正样本对；
24.从所述第一数目的正样本对中随机采样，得到第二数目的正样本对构成的正样本对集合。
25.在一种可能的实施方式中，所述基于所述正样本集合中的正样本和所述负样本集合中的负样本的成对组合，形成负样本对集合，包括：
26.将所述正样本集合中的任意一个正样本和所述负样本集合中的任意一个负样本组合起来得到第三数目的负样本对；
27.从所述第三数目的负样本对中随机采样，得到第四数目的负样本对构成的负样本对集合。
28.在一种可能的实施方式中，所述基于正样本对集合和负样本对集合，训练分类模型，包括：
29.将正样本对集合中的任意一个正样本对包括的两个正样本的特征数据通过特殊符号拼接，得到第一拼接字符串；
30.将负样本对集合中的任意一个负样本对包括的正样本和负样本的特征数据通过特殊符号拼接，得到第二拼接字符串；
31.将第一拼接字符串或第二拼接字符串作为分类模型的输入，得到正样本对或负样本对的预测结果；
32.根据预测结果与实际情况是否相符，对分类模型的参数进行调整。
33.第二方面，提供了一种利用分类模型识别隐私数据的方法，所述分类模型采用第一方面的方法训练得到，包括：
34.获取用户指定的目标隐私类别下的n个正样本；
35.将待检测样本与所述n个正样本中的k个正样本分别组合，得到k个样本对；
36.将所述k个样本对分别输入所述分类模型，通过所述分类模型输出所述k个样本对分别对应的是否为正样本对的预测结果；
37.当各预测结果中为正样本对的预测结果的比例大于第一阈值时，确定所述待检测样本属于所述目标隐私类别下的隐私数据。
38.在一种可能的实施方式中，所述待检测样本属于目标数据库的目标字段对应的多个数据中的任一数据；所述方法还包括：
39.当所述多个数据中属于所述目标隐私类别下的隐私数据的比例大于第二阈值时，确定所述目标字段用于记录所述目标隐私类别下的隐私数据。
40.第三方面，提供了一种训练分类模型的装置，装置包括：
41.获取单元，用于获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合；
42.生成单元，用于通过数据增强的方式生成负样本集合；
43.第一组合单元，用于基于所述获取单元获取的正样本集合中正样本的成对组合，形成正样本对集合；
44.第二组合单元，用于基于所述获取单元获取的正样本集合中的正样本和所述生成单元生成的负样本集合中的负样本的成对组合，形成负样本对集合；
45.训练单元，用于基于所述第一组合单元得到的正样本对集合和所述第二组合单元得到的负样本对集合，训练分类模型，用于预测输入样本对是否同属于所述目标隐私类别。
46.第四方面，提供了一种利用分类模型识别隐私数据的装置，所述分类模型采用第三方面的装置训练得到，包括：
47.获取单元，用于获取用户指定的目标隐私类别下的n个正样本；
48.组合单元，用于将待检测样本与所述获取单元获取的n个正样本中的k个正样本分别组合，得到k个样本对；
49.预测单元，用于将所述组合单元得到的k个样本对分别输入所述分类模型，通过所述分类模型输出所述k个样本对分别对应的是否为正样本对的预测结果；
50.第一确定单元，用于当所述预测单元得到的各预测结果中为正样本对的预测结果的比例大于第一阈值时，确定所述待检测样本属于所述目标隐私类别下的隐私数据。
51.第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。
52.第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面的方法。
53.通过本说明书实施例提供的训练分类模型的方法和装置，首先获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合；然后通过数据增强的方式生成负样本集合；接着基于所述正样本集合中正样本的成对组合，形成正样本对集合；基于所述正样本集合中的正样本和所述负样本集合中的负样本的成对组合，形成负样本对集合；最后基于正样本对集合和负样本对集合，训练分类模型，用于预测输入样本对是否同属于所述目标隐私类别。由上可见，本说明书实施例，采用基于样本对的数据结构，使得可以通过少量的正样本构造出更多的正样本对和负样本对，利用正样本对和负样本对训练分类模型，用于自动化识别数据库中的隐私数据，在只有少量的标注隐私信息样本下，分类模型仍然能够获得很好的训练效果，从而能够有效识别数据库中的隐私数据。
54.通过本说明书实施例提供的利用分类模型识别隐私数据的方法和装置，所述分类模型采用第一方面的方法训练得到，首先获取用户指定的目标隐私类别下的n个正样本；然后将待检测样本与所述n个正样本中的k个正样本分别组合，得到k个样本对；接着将所述k个样本对分别输入所述分类模型，通过所述分类模型输出所述k个样本对分别对应的是否为正样本对的预测结果；最后当各预测结果中为正样本对的预测结果的比例大于第一阈值时，确定所述待检测样本属于所述目标隐私类别下的隐私数据。由上可见，本说明书实施例，将待检测样本与多个正样本组合成多个待检测的样本对，利用训练好的分类模型，预测
待检测的样本对是否为正样本对，通过对预测结果的统计分析，确定待检测样本是否属于所述目标隐私类别下的隐私数据，其中待检测样本可以为数据库中某一字段的数据，从而能够有效识别数据库中的隐私数据。
附图说明
55.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
56.图1为本说明书披露的一个实施例的实施场景示意图；
57.图2示出根据一个实施例的训练分类模型的方法流程图；
58.图3示出根据一个实施例的分类模型的结构示意图；
59.图4示出根据一个实施例的利用分类模型识别隐私数据的方法流程图；
60.图5示出根据一个实施例的针对单个待检测样本的决策逻辑示意图；
61.图6示出根据一个实施例的针对数据列的决策逻辑示意图；
62.图7示出根据一个实施例的训练分类模型的装置的示意性框图；
63.图8示出根据一个实施例的利用分类模型识别隐私数据的装置的示意性框图。
具体实施方式
64.下面结合附图，对本说明书提供的方案进行描述。
65.图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及识别隐私数据，尤其是识别数据库中各个字段数据的隐私类别。数据库包括多个数据表，每个数据表包括多个字段，其中，字段对应于列。参照图1，数据库中包括n个数据表，分别记为表1、表2、
…
、表n，其中，表1包括i列，表2包括j列，
…
，表n包括k列。
66.通常地，在识别数据库中的隐私数据时，针对表中的每列数据分别进行隐私数据识别，判断该列数据是否属于隐私数据，或者判断该列数据属于的隐私类别。由于隐私数据对应的隐私类别通常会有数十种之多，有些隐私数据识别可能会基于深度学习模型，需要大量的有标签的训练样本，在大数据场景下，隐私数据只是数据库中很小的一部分，大部分的数据都是非隐私数据，很难获取大量的分布均衡的有标签的训练样本，采用通常的有监督学习的训练方式会使得模型的训练效果不佳，导致模型不能够有效识别数据库中的隐私数据。
67.本说明书实施例，对通常的有监督学习的训练方式进行改进，通过少量的正样本构造出更多的正样本对和负样本对，以提高训练样本的数量，在只有少量的标注隐私信息样本下，分类模型仍然能够获得很好的训练效果，从而能够有效识别数据库中的隐私数据。
68.有监督学习(supervised learning)是机器学习的一种方法，指在利用一组已知类别的样本调整分类模型的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。
69.分类问题属于有监督学习，即分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类；根据类别的数量还可以进一步将分类问题划分为二
分类和多分类问题。本说明书实施例中的分类模型对应解决二分类问题，即用于预测输入样本对是否同属于目标隐私类别。
70.图2示出根据一个实施例的训练分类模型的方法流程图，该实施例可以基于图1所示的实施场景。如图2所示，该实施例中训练分类模型的方法包括以下步骤：步骤21，获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合；步骤22，通过数据增强的方式生成负样本集合；步骤23，基于所述正样本集合中正样本的成对组合，形成正样本对集合；步骤24，基于所述正样本集合中的正样本和所述负样本集合中的负样本的成对组合，形成负样本对集合；步骤25，基于正样本对集合和负样本对集合，训练分类模型，用于预测输入样本对是否同属于所述目标隐私类别。下面描述以上各个步骤的具体执行方式。
71.首先在步骤21，获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合。可以理解的是，正样本集合中包括的各数据不仅属于隐私数据，而且均属于目标隐私类别，目标隐私类别可以为预先划分的多个隐私类别中的任一隐私类别，例如，目标隐私类别为地名隐私数据。
72.目前常见的隐私数据的隐私类别如表一所示。
73.表一：常见的隐私类别
74.[0075][0076]
参见表一，隐私类别多样，目标隐私类别可以为比较宽泛的隐私类别，例如，个人基本资料，也可以为比较具体的隐私类别，例如，住址。其中，住址也可以归为地名隐私数据这一隐私类别，也就是说，隐私类别的划分方式并不唯一，可以根据需要来预先划分各隐私类别。
[0077]
在一个示例中，所述获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合，包括：
[0078]
读取数据库表中目标字段的原始数据作为所述一组隐私数据，所述目标字段预先被标注为对应于所述目标隐私类别。
[0079]
然后在步骤22，通过数据增强的方式生成负样本集合。可以理解的是，负样本不属于目标隐私类别，生成的负样本需要与正样本能够区分开来，避免生成正样本。
[0080]
在一个示例中，所述通过数据增强的方式生成负样本集合可以采用如下任一种具体的生成方式：
[0081]
方式一，从数字、英文、中文常用字中随机选取字符，生成预设长度的字符串作为负样本。这种数据增强的方式可以称为随机生成方式，例如，上述预设长度可以为3至50个
字符。
[0082]
方式二，统计所述正样本集合包括的正样本中出现的字符分布和样本的长度分布，基于该字符分布和长度分布通过均匀采样得到负样本。这种数据增强的方式可以称为同词库生成方式，例如，统计正样本中出现的所有字符分布f1和样本的长度分布f2，从分布f2均匀采样获得需要生成的负样本长度l，从分布f1中均匀采样生成长度为l的负样本。
[0083]
方式三，通过针对任一正样本插入若干字符，得到负样本。这种数据增强的方式可以称为随机插入方式，例如，在给定样本中随机采样2至5个连续字符构成的字符串，随机的在正样本的某处插入该字符串。
[0084]
方式四，通过针对任一正样本删除若干字符，得到负样本。这种数据增强的方式可以称为随机删除方式，例如，随机地在正样本中选择2至5个连续字符删除。
[0085]
方式五，通过针对任一正样本改变若干字符的排序，得到负样本。这种数据增强的方式可以称为重新排列方式，例如，对给定的样本中的字符，进行随机的重新排序。
[0086]
方式六，统计正样本中出现的字符分布及其频率、样本的长度分布及其频率，基于字符分布及其频率、样本的长度分布及其频率，通过采样得到负样本。这种数据增强的方式可以称为按频率生成方式，例如，统计正样本中出现的所有字符及其频率分布f1和样本的长度及其频率分布f2，从分布f2中依据其频率采样获得需要生成的负样本长度l，从分布f1中依据其频率采样生成长度为l的负样本。
[0087]
方式七，截取第一正样本的部分字符串，截取第二正样本的部分字符串，将两者拼接在一起生成负样本。这种数据增强的方式可以称为随机交叉方式，例如，随机取两个正样本，随机地从前往后截取第一个样本的部分字符串，即第一个样本开头的若干字符，随机地从后往前截取第二个样本的部分字符串，即第二个样本结尾的若干字符，将两者拼接在一起生成负样本。
[0088]
需要说明的是，上述示例只是列举了一些生成负样本的方式，但是负样本的生成方式多样，并不限定于此。此外，本说明书实施例，可以通过规则，根据目标隐私类别对生成负样本的数据增强方式进行筛选，以确保负样本的生成质量。例如，当目标隐私类别为手机号等时，各个正样本字符长度一致，对一个正样本重新排列很可能产生的不是负样本，而是另一个正样本，给模型训练带来噪声，因此这种情况下，就需要通过规则排除前述方式五的重新排列方式。
[0089]
本说明书实施例，在得到目标隐私类别的正样本集合和负样本集合后，可以为各个正样本和负样本添加相应的标签，例如，为正样本添加标签1，为负样本添加标签0。表二以目标隐私类别为地名隐私数据为例，示出了正样本和负样本的组成示例。
[0090]
表二：正样本和负样本的组成示例
[0091]
编号样本标签正样本1山东省日照市东风村1正样本2上海市杨浦区锦西路1
………………
负样本1广告推荐算法0负样本2快速样式生成0
………………
[0092]
参见表二，可以看出，正样本1“山东省日照市东风村”和正样本2“上海市杨浦区锦西路”属于地名隐私数据，而负样本1“广告推荐算法”和负样本2“快速样式生成”不属于地名隐私数据。
[0093]
接着在步骤23，基于所述正样本集合中正样本的成对组合，形成正样本对集合。可以理解的是，正样本集合中的任意两个正样本，可以组合成一组正样本对。
[0094]
在一个示例中，所述基于所述正样本集合中正样本的成对组合，形成正样本对集合，包括：
[0095]
将所述正样本集合中的任意两个正样本组合起来得到第一数目的正样本对；
[0096]
从所述第一数目的正样本对中随机采样，得到第二数目的正样本对构成的正样本对集合。
[0097]
举例来说，有一列用户指定的目标隐私类别的正样本构成的正样本集合，数目为n个正样本，通过组合任意两个正样本可以生成正样本对个，对这些正样本对随机下采样，获得n＇个正样本对构成的正样本对集合。
[0098]
再在步骤24，基于所述正样本集合中的正样本和所述负样本集合中的负样本的成对组合，形成负样本对集合。可以理解的是，正样本集合中的任意一个正样本，与负样本集合中的任意一个负样本，可以组合成一组负样本对。
[0099]
在一个示例中，所述基于所述正样本集合中的正样本和所述负样本集合中的负样本的成对组合，形成负样本对集合，包括：
[0100]
将所述正样本集合中的任意一个正样本和所述负样本集合中的任意一个负样本组合起来得到第三数目的负样本对；
[0101]
从所述第三数目的负样本对中随机采样，得到第四数目的负样本对构成的负样本对集合。
[0102]
举例来说，有一列用户指定的目标隐私类别的正样本构成的正样本集合，数目为n个正样本，根据数据增强的方式生成m个负样本，通过组合任意一个正样本和任意一个负样本可以生成负样本对n
×
m个，对这些负样本对随机下采样，获得m＇个负样本对构成的负样本对集合。
[0103]
本说明书实施例，在得到目标隐私类别的正样本对集合和负样本对集合后，可以将样本对中包括的两个样本通过特殊符号拼接起来，并为各组正样本对和负样本对添加相应的标签，例如，为正样本对添加标签1，为负样本对添加标签0。表三以目标隐私类别为地名隐私数据为例，示出了正样本对和负样本对的组成示例。
[0104]
表三：正样本对和负样本对的组成示例
[0105]
编号样本对标签正样本对1山东省日照市东风村$上海市杨浦区锦西路1正样本对2新疆哈密市中山北路$山东省日照市东风村1
………………
负样本对1山东省日照市东风村$广告推荐算法0负样本对2上海市杨浦区锦西路$快速样式生成0
………………
[0106]
参见表三，可以看出，正样本对1“山东省日照市东风村$上海市杨浦区锦西路”包
negative)表示把正样本预测为负的数量。
[0121]
通过本说明书实施例提供的训练分类模型的方法，首先获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合；然后通过数据增强的方式生成负样本集合；接着基于所述正样本集合中正样本的成对组合，形成正样本对集合；基于所述正样本集合中的正样本和所述负样本集合中的负样本的成对组合，形成负样本对集合；最后基于正样本对集合和负样本对集合，训练分类模型，用于预测输入样本对是否同属于所述目标隐私类别。由上可见，本说明书实施例，采用基于样本对的数据结构，使得可以通过少量的正样本构造出更多的正样本对和负样本对，利用正样本对和负样本对训练分类模型，用于自动化识别数据库中的隐私数据，在只有少量的标注隐私信息样本下，分类模型仍然能够获得很好的训练效果，从而能够有效识别数据库中的隐私数据。
[0122]
图4示出根据一个实施例的利用分类模型识别隐私数据的方法流程图，该实施例可以基于图1所示的实施场景，所述分类模型采用图2所示的方法训练得到。如图4所示，该实施例中利用分类模型识别隐私数据的方法包括以下步骤：步骤41，获取用户指定的目标隐私类别下的n个正样本；步骤42，将待检测样本与所述n个正样本中的k个正样本分别组合，得到k个样本对；步骤43，将所述k个样本对分别输入所述分类模型，通过所述分类模型输出所述k个样本对分别对应的是否为正样本对的预测结果；步骤44，当各预测结果中为正样本对的预测结果的比例大于第一阈值时，确定所述待检测样本属于所述目标隐私类别下的隐私数据。下面描述以上各个步骤的具体执行方式。
[0123]
首先在步骤41，获取用户指定的目标隐私类别下的n个正样本。可以理解的是，该n个正样本可以来源于数据库的某个数据表中同一列的数据。
[0124]
在一个示例中，所述获取用户指定的目标隐私类别下的n个正样本，包括：
[0125]
读取数据库表中目标字段的原始数据作为所述n个正样本，所述目标字段预先被标注为对应于所述目标隐私类别。
[0126]
本说明书实施例，上述n个正样本与训练分类模型时获取的正样本集合中包括的正样本，可以相同，也可以不同。
[0127]
然后在步骤42，将待检测样本与所述n个正样本中的k个正样本分别组合，得到k个样本对。可以理解的是，k小于或等于n。
[0128]
其中，当k小于n时，可以通过对n个正样本随机采样，得到k个正样本。
[0129]
可以理解的是，若待检测样本为正样本，则理论上k个样本对都应该为正样本对，若待检测样本为负样本，则理论上k个样本对都应该为负样本对，因此可以通过判断k个样本对是否为正样本对，来判断待检测样本是否为正样本。
[0130]
接着在步骤43，将所述k个样本对分别输入所述分类模型，通过所述分类模型输出所述k个样本对分别对应的是否为正样本对的预测结果。可以理解的是，k个样本对分别对应的预测结果可能相同，也可能不同，例如，k的取值为10，共有10个样本对，其中，可能出现6个样本对的预测结果为正样本对，4个样本对的预测结果为负样本对。
[0131]
最后在步骤44，当各预测结果中为正样本对的预测结果的比例大于第一阈值时，确定所述待检测样本属于所述目标隐私类别下的隐私数据。可以理解的是，虽然理论上待检测样本属于所述目标隐私类别下的隐私数据时，k个样本对应该均为正样本对，但是由于前述步骤41中获取的正样本中噪声等因素的影响，k个样本对的预测结果往往不能达到均
为正样本对。
[0132]
本说明书实施例，对某个待检测样本而言，有k个对应的样本对，对这k个样本对的预测结果设置阈值ta，如果各预测结果中为正样本对的预测结果的比例高于该阈值，则认为该待检测样本属于所述目标隐私类别下的隐私数据。
[0133]
图5示出根据一个实施例的针对单个待检测样本的决策逻辑示意图。参照图5，将待检测样本1与正样本1、正样本2、
…
正样本k分别组合，得到样本对1、样本对2、
…
样本对k，将这k个样本对分别作为输入样本对输入分类模型，得到输入样本对是否为正样本对的预测结果，用标签1表示预测结果为正样本对，用标签0表示预测结果为负样本对，通过对上述标签的统计分析，得到该待检测样本是否为正样本的预测结果，上述正样本意味着待检测样本属于所述目标隐私类别下的隐私数据，上述统计分析具体可以包括，对上述标签求和得到求和结果，再将该求和结果除以k，得到各预测结果中为正样本对的预测结果的比例，再将该比例与第一阈值ta比较，根据比较结果判定该待检测样本1是否为正样本。
[0134]
需要说明的是，上述正样本1、正样本2、
…
正样本k可以为从n个正样本中采样得到，对于不同的待检测样本，可以重新采样得到k个正样本，当然也可以只进行一次采样得到k个正样本，后续对于每个待检测样本可以重复利用这k个正样本。
[0135]
本说明书实施例，通过控制单个待检测样本对应生成的样本对的数量，即k值，以及阈值ta的大小，可以消除获取的n个正样本中的噪声的影响。例如，在用户指定的n个正样本中存在较多的噪声，其中，噪声实际上不属于正样本，比如，正样本为身份证号数据，噪声为非身份证号数据，那么在生成样本对时选择较大的k值，从n个正样本中随机采样得到k个正样本，可以使得采样得到的正样本能够尽可能均匀分布，选择较大的阈值ta，以避免噪声带来的影响。这样的情况下，即使有部分的噪声存在于获取的n个正样本中，只要采样到超过阈值ta比例的非噪声正样本，将其与待检测样本组成样本对作为分类模型的输入进行预测，确定所述待检测样本是否属于正样本，就可以得到正确的预测结果，从而减少噪声带来的影响。
[0136]
在一个示例中，所述待检测样本属于目标数据库的目标字段对应的多个数据中的任一数据；所述方法还包括：
[0137]
当所述多个数据中属于所述目标隐私类别下的隐私数据的比例大于第二阈值时，确定所述目标字段用于记录所述目标隐私类别下的隐私数据。
[0138]
图6示出根据一个实施例的针对数据列的决策逻辑示意图。参照图6，在数据库场景下，往往需要识别一列数据是否属于目标隐私类别，也就是说，需要确定一个字段是否用于记录所述目标隐私类别下的隐私数据。本说明书实施例，首先将一列数据分别作为待检测样本，或者，将一列数据中抽取的若干数据分别作为待检测样本，利用图5所示的决策逻辑，确定各个待检测样本是否属于正样本的样本预测结果，然后还需要通过阈值tb判断该列数据是否属于目标隐私类别。如果根据各样本预测结果统计出属于正样本的待检测样本的比例高于阈值tb，则判定该列数据属于目标隐私类别。例如，一列样本经过分类模型后其中超过一半的样本都被模型判定为了属于目标隐私类别，那当阈值为50％时，则认定该列数据属于目标隐私类别。例如，一列数据包括待检测样本1、待检测样本2、待检测样本3和待检测样本4，待检测样本1的样本预测结果为正样本，待检测样本2的样本预测结果为负样本，待检测样本3的样本预测结果为正样本，待检测样本4的样本预测结果为正样本，可以得
出，该列数据中属于正样本的待检测样本的比例为75％，如果阈值为50％，那么就可以判定该列数据属于目标隐私类别。
[0139]
通过本说明书实施例提供的利用分类模型识别隐私数据的方法，所述分类模型采用图2的方法训练得到，首先获取用户指定的目标隐私类别下的n个正样本；然后将待检测样本与所述n个正样本中的k个正样本分别组合，得到k个样本对；接着将所述k个样本对分别输入所述分类模型，通过所述分类模型输出所述k个样本对分别对应的是否为正样本对的预测结果；最后当各预测结果中为正样本对的预测结果的比例大于第一阈值时，确定所述待检测样本属于所述目标隐私类别下的隐私数据。由上可见，本说明书实施例，将待检测样本与多个正样本组合成多个待检测的样本对，利用训练好的分类模型，预测待检测的样本对是否为正样本对，通过对预测结果的统计分析，确定待检测样本是否属于所述目标隐私类别下的隐私数据，其中待检测样本可以为数据库中某一字段的数据，从而能够有效识别数据库中的隐私数据。
[0140]
根据另一方面的实施例，还提供一种训练分类模型的装置，该装置用于执行本说明书实施例提供的训练分类模型的方法。图7示出根据一个实施例的训练分类模型的装置的示意性框图。如图7所示，该装置700包括：
[0141]
获取单元71，用于获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合；
[0142]
生成单元72，用于通过数据增强的方式生成负样本集合；
[0143]
第一组合单元73，用于基于所述获取单元71获取的正样本集合中正样本的成对组合，形成正样本对集合；
[0144]
第二组合单元74，用于基于所述获取单元71获取的正样本集合中的正样本和所述生成单元72生成的负样本集合中的负样本的成对组合，形成负样本对集合；
[0145]
训练单元75，用于基于所述第一组合单元73得到的正样本对集合和所述第二组合单元74得到的负样本对集合，训练分类模型，用于预测输入样本对是否同属于所述目标隐私类别。
[0146]
可选地，作为一个实施例，所述获取单元71，具体用于读取数据库表中目标字段的原始数据作为所述一组隐私数据，所述目标字段预先被标注为对应于所述目标隐私类别。
[0147]
可选地，作为一个实施例，所述生成单元72，具体用于：
[0148]
从数字、英文、中文常用字中随机选取字符，生成预设长度的字符串作为负样本；或者，
[0149]
统计所述正样本集合包括的正样本中出现的字符分布和样本的长度分布，基于该字符分布和长度分布通过均匀采样得到负样本；或者，
[0150]
通过针对任一正样本插入若干字符，得到负样本；或者，
[0151]
通过针对任一正样本删除若干字符，得到负样本；或者，
[0152]
通过针对任一正样本改变若干字符的排序，得到负样本；或者
[0153]
统计正样本中出现的字符分布及其频率、样本的长度分布及其频率，基于字符分布及其频率、样本的长度分布及其频率，通过采样得到负样本；或者，
[0154]
截取第一正样本的部分字符串，截取第二正样本的部分字符串，将两者拼接在一起生成负样本。
[0155]
可选地，作为一个实施例，所述第一组合单元73包括：
[0156]
组合子单元，用于将所述正样本集合中的任意两个正样本组合起来得到第一数目的正样本对；
[0157]
采样子单元，用于从所述组合子单元得到的第一数目的正样本对中随机采样，得到第二数目的正样本对构成的正样本对集合。
[0158]
可选地，作为一个实施例，所述第二组合单元74包括：
[0159]
组合子单元，用于将所述正样本集合中的任意一个正样本和所述负样本集合中的任意一个负样本组合起来得到第三数目的负样本对；
[0160]
采样子单元，用于从所述组合子单元得到的第三数目的负样本对中随机采样，得到第四数目的负样本对构成的负样本对集合。
[0161]
可选地，作为一个实施例，所述训练单元75包括：
[0162]
第一拼接子单元，用于将正样本对集合中的任意一个正样本对包括的两个正样本的特征数据通过特殊符号拼接，得到第一拼接字符串；
[0163]
第二拼接子单元，用于将负样本对集合中的任意一个负样本对包括的正样本和负样本的特征数据通过特殊符号拼接，得到第二拼接字符串；
[0164]
预测子单元，用于将所述第一拼接子单元得到的第一拼接字符串或所述第二拼接子单元得到的第二拼接字符串作为分类模型的输入，得到正样本对或负样本对的预测结果；
[0165]
调整子单元，用于根据所述预测子单元得到的预测结果与实际情况是否相符，对分类模型的参数进行调整。
[0166]
通过本说明书实施例提供的训练分类模型的装置，首先获取单元71获取用户指定的目标隐私类别下的一组隐私数据作为正样本集合；然后生成单元72通过数据增强的方式生成负样本集合；接着第一组合单元73基于所述正样本集合中正样本的成对组合，形成正样本对集合；第二组合单元74基于所述正样本集合中的正样本和所述负样本集合中的负样本的成对组合，形成负样本对集合；最后训练单元75基于正样本对集合和负样本对集合，训练分类模型，用于预测输入样本对是否同属于所述目标隐私类别。由上可见，本说明书实施例，采用基于样本对的数据结构，使得可以通过少量的正样本构造出更多的正样本对和负样本对，利用正样本对和负样本对训练分类模型，用于自动化识别数据库中的隐私数据，在只有少量的标注隐私信息样本下，分类模型仍然能够获得很好的训练效果，从而能够有效识别数据库中的隐私数据。
[0167]
根据另一方面的实施例，还提供一种利用分类模型识别隐私数据的装置，该装置用于执行本说明书实施例提供的利用分类模型识别隐私数据的方法，所述分类模型采用图7的装置训练得到。图8示出根据一个实施例的利用分类模型识别隐私数据的装置的示意性框图。如图8所示，该装置800包括：
[0168]
获取单元81，用于获取用户指定的目标隐私类别下的n个正样本；
[0169]
组合单元82，用于将待检测样本与所述获取单元81获取的n个正样本中的k个正样本分别组合，得到k个样本对；
[0170]
预测单元83，用于将所述组合单元82得到的k个样本对分别输入所述分类模型，通过所述分类模型输出所述k个样本对分别对应的是否为正样本对的预测结果；
[0171]
第一确定单元84，用于当所述预测单元83得到的各预测结果中为正样本对的预测结果的比例大于第一阈值时，确定所述待检测样本属于所述目标隐私类别下的隐私数据。
[0172]
可选地，作为一个实施例，所述待检测样本属于目标数据库的目标字段对应的多个数据中的任一数据；所述装置还包括：
[0173]
第二确定单元，用于当所述第一确定单元84确定的多个数据中属于所述目标隐私类别下的隐私数据的比例大于第二阈值时，确定所述目标字段用于记录所述目标隐私类别下的隐私数据。
[0174]
通过本说明书实施例提供的利用分类模型识别隐私数据的装置，所述分类模型采用图7的装置训练得到，首先获取单元81获取用户指定的目标隐私类别下的n个正样本；然后组合单元82将待检测样本与所述n个正样本中的k个正样本分别组合，得到k个样本对；接着预测单元83将所述k个样本对分别输入所述分类模型，通过所述分类模型输出所述k个样本对分别对应的是否为正样本对的预测结果；最后第一确定单元84当各预测结果中为正样本对的预测结果的比例大于第一阈值时，确定所述待检测样本属于所述目标隐私类别下的隐私数据。由上可见，本说明书实施例，将待检测样本与多个正样本组合成多个待检测的样本对，利用训练好的分类模型，预测待检测的样本对是否为正样本对，通过对预测结果的统计分析，确定待检测样本是否属于所述目标隐私类别下的隐私数据，其中待检测样本可以为数据库中某一字段的数据，从而能够有效识别数据库中的隐私数据。
[0175]
根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图4所描述的方法。
[0176]
根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图4所描述的方法。
[0177]
本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0178]
以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种程序调试方法、装置、设备及介质与流程

训练分类模型、识别隐私数据的方法和装置与流程

相关文献

最热文献