一种多模态隐私敏感数据检测及加密方法

2022-07-31 05:31:26 来源：中国专利 TAG：

1.本发明涉及隐私数据安全领域，尤其涉及一种多模态隐私敏感数据检测及加密方法。

背景技术：

2.随着网络社交应用的高速发展，微博、朋友圈等社交平台已经成为大多数人分享个人日常的渠道。但是随之而来的是各式各样的个人隐私泄露问题，不经意间分享的笔记、图片、语音或视频都有可能成为不法分子的谋利工具。而现如今的隐私检测技术大多采用传统的rmm分词算法、贝叶斯分类算法等。这些方法采用了人为的方法来对隐私特征进行定义，如绿坝花季护航系统简单的将肉色定义为色情内容。并且现有方法大都是针对单一模态数据，而实际生活中往往需要面对多种模态的数据。

技术实现要素：

3.根据现有技术存在的问题，本发明公开了一种多模态隐私敏感数据检测及加密方法，具体包括如下步骤：
4.分别构造一组适用于文本、图像、语音的特征提取器和权重生成器，并构造一组相应的预测模块从而获得整体的神经网络模型；
5.在原数据集的基础上生成支撑数据集，针对原数据集和支撑数据集中的不同模态数据，采用不同模态对应的方法进行预处理，将预处理后的数据输入至神经网络模型中；
6.将构造的特征提取器和预测模块进行组合，在隐私敏感数据集上进行训练获得第一阶段神经网络模型；
7.将构造的权重生成器接入训练好的第一阶段神经网络模型进行联合训练，获得最终整体的神经网络模型，该权重生成器从数据集中提取出相应模态的各类别的权重向量，并以该向量对检测样本的特征图进行加权，从而对加权后的特征图进行预测；
8.将待检测样本输入完成训练的神经网络模型进行隐私区域检测，并对检测出的区域进行加密操作。
9.进一步的，构造基于lstm的rnn模型作为文本特征提取器，将文本特征提取器每个时序下的输出构成特征图，在公开的数据集上对rnn模型进行情感预测任务的训练，将训练好的特征提取器用于文本特征提取，同时构造一个同样的rnn模型作为文本权重生成器，以最后一个时序的输出作为权重生成器的输出；
10.利用一维卷积构造文本中隐私区域预测模块，对rnn模型输出的二维特征图进行预测；
11.构造resnet模型并作为图像特征提取器，对该图像特征提取器进行图片分类任务的训练，获得训练好的图像特征提取器，构造一个同样的resnet模型并将其输出层改为全局平局池化层，作为图像权重生成器；
12.利用二维卷积构造图像中隐私区域预测模块，对resnet输出的三维特征图进行预
测。
13.进一步的，根据标注信息对原始数据中的隐私区域进行截取并分类，将所有隐私区域单独截取作为支撑数据构成支撑数据集；
14.采用skip-gram算法将文本数据映射到新的多维空间中，获得文本嵌入向量；
15.将图像转为rgb图像，并对图像进行缩放和填充从而获得固定大小的图像，对裁剪后的图像进行像素值归一化处理；
16.构建汉明窗，利用该汉明窗对音频数据进行分帧加窗，再对处理完的数据进行快速傅里叶变换，将时域信号转换成频域信号，从而获得音频数据的语谱图。
17.进一步的，将视频数据进行分帧读取获得多张图像数据，再对多张图像数据进行预处理操作。
18.进一步的，在原始数据集中采样某一模态数据作为待检测样本，并对待检测样本进行预处理；
19.将预处理后的数据输入该模态对应的特征提取器中获得特征图；
20.将特征图上的每个点设置为锚点并生成多个不同大小的先验框，将特征图输入该模态对应的预测模块，获得预测结果，对预测框进行非极大抑制，获得最终的预测框及其分类结果；
21.选取类置信度和先验框调整参数对应的损失函数并进行反向传播和模型参数更新；
22.重复上述过程对第一阶段神经网络进行训练。
23.进一步的，在原始数据集中随机采样某一模态数据作为待检测样本，在支撑数据集中该模态下对每个类别随机采样一个样本作为支撑样本，采用相应的模态预处理方法对采样数据进行处理；
24.将待检测样本和支撑样本分别输入该模态对应的特征提取器和权重生成器，获得特征图和各类别的权重向量；
25.利用各类别的权重向量对特征图进行加权操作，对于文本特征图采用逐行相乘、图像特征图和音频特征图采用逐通道相乘的方法，获得每个类别的加权特征图；
26.将各个类别的加权特征图上的每个点设置为锚点并生成多个大小不同的先验框，将预测模块最后一层类别预测输出维度改为一，利用改变后的预测模块对各个类别的加权特征图进行预测，获得各类别的预测结果，对预测框进行非极大抑制，获得最终的预测框及其分类结果；
27.选取类置信度和先验框调整参数对应的损失函数并进行反向传播和模型参数更新；
28.重复上述过程对整体的神经网络进行训练。
29.进一步的，输入所需检测的数据样本，判断其模态类型，在支撑数据集中的该模态下对每个类别随机采样一个样本作为支撑样本，根据模态类型选择相应的数据预处理方法对数据样本和支撑样本进行预处理，将预处理后的数据输入训练好的神经网络模型，该神经网络模型根据该模态类型选择相应的模块进行预测，获得预测框及其分类结果；
30.按照模态类型对检测样本的预测框区域进行加密处理，采用该模态对应的加密方法进行检测样本的预测框区域进行局部加密。
31.由于采用了上述技术方案，本发明提供的一种多模态隐私敏感数据检测及加密方法，该方法可有效解决不同模态情况下数据中隐私敏感内容的检测，从而能够进一步对隐私区域进行加密处理；本发明提出的算法简单且高效，通过利用了深度学习模型，能够准确地识别出多种模态下的隐私敏感区域及其类别，为个人隐私提供了有力的保护。
附图说明
32.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
33.图1为本发明方法的流程图；
34.图2为本发明中加权过程原理图；
35.图3为本发明中先验框设置方法原理图；
36.图4为本发明中图像加密及解密结果示意图。
具体实施方式
37.为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：
38.如图1所示的一种多模态隐私敏感数据检测及加密方法，具体包括如下步骤：
39.s1：模型初始化阶段：分别构造一组适用于文本、图像、语音的特征提取器和权重生成器，并构造一组相应的预测模块。具体采用如下方式：
40.s11：构造基于lstm的rnn模型作为特征提取器，将每个时序下的输出构成特征图，并在imdb数据集上对两个模型进行情感预测任务的训练，获得训练好的特征提取器用于文本特征提取。同时构造一个同样的rnn模型作为权重生成器，以最后一个时序的输出作为模型的输出；
41.s12：利用一维卷积构造文本隐私区域预测模块，对rnn输出的二维特征图进行预测；
42.s13：构造resnet模型作为特征提取器，并在imagenet上进行图片分类任务的训练，获得训练好的特征提取器用于图像特征提取。同时构造一个同样的resnet模型并将其输出层改为全局平局池化层，作为权重生成器；
43.s14：利用二维卷积构造图像中隐私区域预测模块，对resnet输出的三维特征图进行预测；
44.s15：构造dfcnn模型作为特征提取器，并在thchs30上进行语音识别任务的训练，获得训练好的特征提取器用于音频特征提取。同时构造一个同样的dfcnn模型并将其输出层改为全局平局池化层，作为权重生成器；
45.s16：利用二维卷积构造图像中隐私区域预测模块，对dfcnn输出的一维多通道特征图进行预测。
46.s2：数据预处理阶段：在原数据集的基础上生成支撑数据集。然后针对原数据集和支撑数据集中的不同模态数据，采用相应的方法进行预处理，使其能够直接输入神经网络
模型。具体采用如下方式：
47.s21：按照标注信息对于原始数据中的隐私区域进行截取并分类，将所有隐私区域单独截取出来作为支撑数据构成支撑数据集；
48.s22：利用skip-gram算法将文本数据映射到新的多维空间中，获得其嵌入向量；
49.s22：将图像转为rgb图像，并对图像进行缩放和填充以获得固定大小的图像，对裁剪后的图像像素值归一化；
50.s23：利用如下公式构建汉明窗，利用该汉明窗对音频数据进行分帧加窗，然后对处理完的数据进行快速傅里叶变换，将时域信号转到频域上来；
[0051][0052]
s24：对视频数据分帧读取为多张图像数据，转化为图像处理方法。
[0053]
s3：训练第一阶段：将构造的特征提取器和预测模块进行组合，在隐私敏感数据集上进行训练。具体采用如下方式：
[0054]
s31：在原始数据集中采样某一模态数据作为待检测样本，并根据该模态采用相应的方法进行的预处理；
[0055]
s32：将预处理后的数据输入该模态对应的特征提取器中，获得特征图；
[0056]
s33：将特征图上的每个点设置为锚点并生成3个不同大小的先验框，然后将特征图输入该模态对应的预测模块，获得预测结果[先验框，两个先验框调整参数，分类置信度]，其中先验框调整参数对于文本和音频数据为左右边框调整值，对图像数据为宽高调整值。然后对预测框进行非极大抑制，获得合理的预测框及其分类；
[0057]
s34：利用focal loss和iou loss分别作为分类置信度和先验框调整参数的损失函数进行反向传播更新模型参数；
[0058]
s35：重复s31-s34进行训练。
[0059]
s4：训练第二阶段：将构造的权重生成器接入训练好的第一阶段模型进行联合训练。该权重生成器从数据集中提取出相应模态的各类别的权重向量，并以该向量对检测样本的特征图进行加权，随后对加权后的特征图进行预测。具体采用如下方式：
[0060]
s41：在原始数据集中随机采样某一模态数据作为待检测样本，同时在支撑数据集中该模态下对每个类别随机采样一个样本作为支撑样本。采用相应的模态预处理方法对采样数据进行处理；
[0061]
s42：将待检测样本和支撑样本分别输入该模态对应的特征提取器和权重生成器，获得特征图和各类别的权重向量；
[0062]
s43：利用各类别的权重向量对特征图进行加权操作，对于文本特征图采用逐行相乘、图像特征图和音频特征图采用逐通道相乘的方法，获得每个类别的加权特征图。加权模块如图2所示；
[0063]
s44：将各个类别的加权特征图上的每个点设置为锚点并生成3个不同大小先验框，先验框设置如图3所示。将预测模块最后一层类别预测输出维度改为一，然后利用改变后的预测模块对各个类别的加权特征图进行预测，获得各类别的预测结果[先验框，两个先验框调整参数，属于该类别的置信度]，并对所有预测结果中属于该类别的置信度这一维度进行softmax。然后对预测框进行非极大抑制，获得合理的预测框及其分类；
[0064]
s45：利用focal loss和iou loss作为损失函数进行反向传播更新模型参数；
[0065]
s46：重复s41-s45进行训练。
[0066]
s5：在线检测加密阶段：将待检测样本输入模型进行隐私区域检测，并对于检测出的区域进行加密操作。具体采用如下方式：
[0067]
s51：输入所需检测的数据样本，判断其模态类型，在支撑集中的该模态下对每个类别随机采样一个样本作为支撑样本，同时根据模态类型选择相应的数据预处理方法对数据样本和支撑样本进行预处理；
[0068]
s52：将预处理后的数据输入训练好的神经网络模型，神经网络模型根据该模态类型选择相应的模块进行预测，获得预测框及其分类结果；
[0069]
s53：按照模态类型对检测样本的预测框区域进行加密处理。采用des加密算法对文本数据加密；基于混沌logistic加密算法对图像数据加密，图像加密结果如图4所示；对音频进行消音处理。
[0070]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于UnrealEngine数字孪生实时天气场景构建方法和系统与流程

一种多模态隐私敏感数据检测及加密方法

相关文献

最热文献