一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据表的脱敏分类方法、分类模型训练方法及装置与流程

2023-02-04 12:31:43 来源:中国专利 TAG:

技术特征:
1.一种数据表的脱敏分类方法,其特征在于,包括:获取数据表的表结构信息;从所述表结构信息中,获取字段信息;通过数据分类模型,对所述字段信息进行敏感类型识别,得到所述字段信息对应的预测敏感类型,其中,所述数据分类模型为训练得到的神经网络模型。2.根据权利要求1所述的数据表的脱敏分类方法,其特征在于,所述获取数据表的表结构信息,包括:通过数据库管理语句,对数据库进行遍历,得到所述数据表的建表语句;利用正则表达式对所述建表语句进行解析,得到所述表结构信息。3.根据权利要求1所述的数据表的脱敏分类方法,其特征在于,所述数据分类模型包括第一滤波器、第二滤波器、第一双向门控循环单元bigru模型、第二bigru模型和径向基函数rbf神经网络;所述通过数据分类模型,对所述字段信息进行敏感类型识别,得到所述字段信息对应的预测敏感类型,包括:通过编码模型对所述字段信息进行编码,得到所述字段信息的词向量;将所述词向量分别输入所述第一滤波器和所述第二滤波器,在所述第一滤波器中通过多个卷积核对所述词向量进行特征提取,得到第一滤波特征,在所述第二滤波器中通过多个卷积核对所述词向量进行特征提取,得到第二滤波特征;将所述第一滤波特征输入至第一bigru模型,将所述第二滤波特征输入至所述第二bigru模型,在所述第一bigru模型中通过注意力机制对所述第一滤波特征进行上下文特征提取,得到第一上下文特征,在所述第二bigru模型中通过注意力机制对所述第二滤波特征进行上下文特征提取,得到第二上下文特征;将所述第一上下文特征和所述第二上下文特征输入至所述rbf神经网络,在所述rbf神经网络中对所述字段信息进行敏感类型识别,得到所述预测敏感类型。4.根据权利要求3所述的数据表的脱敏分类方法,其特征在于,所述对所述字段信息进行编码,得到所述字段信息的词向量,包括:确定所述字段信息的初始向量;将所述初始向量输入至连续词袋模型,在所述连续词袋模型中,基于所述初始向量预测所述字段信息对应的类别概率;根据所述类别概率,确定所述词向量。5.一种分类模型训练方法,其特征在于,包括:获取训练数据集,所述训练数据集包括数据表的表结构信息中的字段信息和所述字段信息对应的类型标签,所述类型标签表示所述字段信息实际所属的敏感类型;根据所述训练数据集,对数据分类模型进行训练,其中,所述数据分类模型用于在根据权利要求1-4中任一项所述的数据表的脱敏分类方法中对数据表进行敏感类型识别。6.根据权利要求5所述的分类模型训练方法,其特征在于,所述数据分类模型包括第一滤波器、第二滤波器、第一bigru模型、第二bigru模型和rbf神经网络,所述数据分类模型的训练为多次;所述数据分类模型的一次训练过程,包括:
通过编码模型对所述字段信息进行编码,得到所述字段信息的词向量;将所述词向量分别输入所述第一滤波器和所述第二滤波器,在所述第一滤波器中通过多个卷积核对所述词向量进行特征提取,得到第一滤波特征,在所述第二滤波器中通过多个卷积核对所述词向量进行特征提取,得到第二滤波特征;将所述第一滤波特征输入至所述第一bigru模型,将所述第二滤波特征输入至所述第二bigru模型,在所述第一bigru模型中通过注意力机制对所述第一滤波特征进行上下文特征提取,得到第一上下文特征,在所述第二bigru模型中通过注意力机制对所述第二滤波特征进行上下文特征提取,得到第二上下文特征;将所述第一上下文特征和所述第二上下文特征输入至所述rbf神经网络,在所述rbf神经网络中对所述字段信息进行敏感类型识别,得到所述预测敏感类型;根据所述类型标签与所述预测敏感类型之间的差异,调整所述编码模型和所述数据分类模型的模型参数。7.一种数据表的脱敏分类装置,其特征在于,包括:结构信息获取单元,用于获取数据表的表结构信息;字段获取单元,用于从所述表结构信息中,获取字段信息;脱敏分类单元,用于通过数据分类模型,对所述字段信息进行敏感类型识别,得到所述字段信息对应的预测敏感类型,其中,所述数据分类模型为训练得到的神经网络模型。8.一种分类模型训练装置,其特征在于,包括:训练数据获取单元,用于获取训练数据集,所述训练数据集包括数据表的表结构信息中的字段信息和所述字段信息对应的类型标签,所述类型标签表示所述字段信息实际所属的敏感类型;模型训练单元,用于根据所述训练数据集,对数据分类模型进行训练,其中,所述数据分类模型用于在根据权利要求1-4中任一项所述的数据表的脱敏分类方法中对数据表进行敏感类型识别。9.一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-4任一项所述的数据表的脱敏分类方法,或者执行如权利要求5-6中任一项所述的分类模型训练方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-4任一项所述的数据表的脱敏分类方法,或者实现如权利要求5-6中任一项所述的分类模型训练方法。

技术总结
本申请提供一种数据表的脱敏分类方法、分类模型训练方法及装置,涉及数据处理技术领域。其中,数据表的脱敏分类方法包括:获取数据表的表结构信息;从表结构信息中,获取字段信息;通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型,其中,数据分类模型为训练得到的神经网络模型。从而,引入神经网络模型,提高对结构化数据的敏感类型识别的精准度与可迁移性。敏感类型识别的精准度与可迁移性。敏感类型识别的精准度与可迁移性。


技术研发人员:王刚 张效铭
受保护的技术使用者:中国农业银行股份有限公司
技术研发日:2022.11.11
技术公布日:2023/2/3
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献