一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于presto引擎的敏感数据识别及脱敏方法与流程

2022-07-10 05:56:50 来源:中国专利 TAG:

技术特征:
1.一种基于presto引擎的敏感数据识别及脱敏方法,其特征在于:包括数据输入单元、数据识别单元、数据脱敏单元和数据输出单元;所述数据输入单元,用于用户数据的输入并触发敏感数据识别单元;所述数据识别单元,用于对用户数据进行分析,使用计算引擎判断目标用户数据内是否存在敏感数据,若存在则将数据直接输入数据脱敏单元,若不存在则直接输出至数据输出单元;所述数据脱敏单元,用于对判断为敏感数据的用户数据进行脱敏操作,包括支持脱敏规则模板的管理,支持预定义和自定义方式、用户密级管理模块、表格字段级别脱敏规则管理(模板,参数,密级,数据字段相互关联)、计算引擎实现动态脱敏功能,所述计算引擎为presto引擎;所述数据输出单元,用于输出不携带敏感数据的用户数据,且包含完全不存在敏感数据的用户数据以及包含脱敏处理后的敏感数据的用户数据。2.根据权利要求1所述的一种基于presto引擎的敏感数据识别及脱敏方法,其特征在于:所述数据识别单元的识别方法包括:s1:根据用户数据判断用户数据类型,即client发送请求给coordinator,sql通过antlr进行解析生成ast;s2:生成可供分析的关键词后,与mysql数据库内部的敏感数据关键词进行匹配,若未匹配到结果则直接输出到数据输出单元,若匹配到关键词,则ast通过元数据进行语义解析;s3:语义解析后的数据生成逻辑执行计划,并且通过数据识别规则进行优化,切分逻辑执行计划为不同stage,并调度worker节点去生成task;s4:task根据不同的敏感数据关键词生成相应物理执行计划;s5:调度完后根据调度结果coordinator串联stage;s6:worker执行相应的物理执行计划,并对敏感数据进行标记;s7:client不断地向coordinator拉取查询结果,coordinator从最终汇聚输出的worker节点拉取查询结果,并最终汇总输出给数据脱敏单元。3.根据权利要求1所述的一种基于presto引擎的敏感数据识别及脱敏方法,其特征在于:所述coordinator用于从数据输入单元获得sql语句,并解析sql语句,规划查询的执行计划,并管理worker节点状态。4.根据权利要求1所述的一种基于presto引擎的敏感数据识别及脱敏方法,其特征在于:所述coordinator只接受sql语言,用户端可通过prestocli、jdbc、odbc驱动、其他语言工具库等工具和coordinator进行交互。5.根据权利要求1所述的一种基于presto引擎的敏感数据识别及脱敏方法,其特征在于:所述coordinator通过基于http的协议和worker、客户端之间进行通信。6.根据权利要求1所述的一种基于presto引擎的敏感数据识别及脱敏方法,其特征在于:所述数据脱敏单元的数据脱敏方法包括以下步骤:s1:脱敏规则生成,脱敏规则包括系统规则和用户规则,系统规则是指系统中预定义的规则,用户可以直接使用,参数已经配置完成,用户规则指用户定义新的脱敏规则,或者新的规则参数;
s2:配置表格脱敏规则,选择对应的列、脱敏规则,脱敏后的密级,修改表格脱敏配置时,进行脱敏操作审计日志的记录,记录操作的人员和脱敏配置前后的变化;s3:配置用户密级,对于一般的用户系统,可以设置用户组、用户角色和用户本身,可以针对这三类主题进行密级设置,系统综合计算用户的所有身份,获取到最大的密级权限进行验证;s4:执行查询。7.根据权利要求6所述的一种基于presto引擎的敏感数据识别及脱敏方法,其特征在于:所述脱敏规则包括脱敏模板名称、脱敏模板类型、支持字段类型、脱敏算法名称、脱敏算法参数。8.根据权利要求7所述的一种基于presto引擎的敏感数据识别及脱敏方法,其特征在于:所述支持字段类型是指脱敏字段的字段类型,只有符合字段类型要求的字段才能应用该脱敏规则,字段类型列表,所述脱敏算法名称是指实现脱敏功能的算法名称,所述脱敏算法参数是指本规则对应的脱敏算法预定义的参数列表。9.根据权利要求6所述的一种基于presto引擎的敏感数据识别及脱敏方法,其特征在于:所述数据脱敏方法还包括以下脱敏执行方式:1)三类密级:数据列的原始访问密级;数据列脱敏后密级(一个字段可以定义多种脱敏规则和脱敏后密级);用户密级;2)脱敏规则确定方式:如果用户密级不低于数据列的原始密级,则无需脱敏;如果用户密级低于字段原始密级,且存在脱敏后密级不高于用户密级脱敏规则,则选择脱敏后密级最高的脱敏规则;如果用户密级低于字段原始密级,且低于所有的脱敏后密级,则退化为无查看权限;3)确定脱敏规则后交由执行引擎下推到计算任务中执行:在presto执行过程中的语义分析环节,通过获取元数据信息和脱敏配置信息,获取到字段脱敏规则名称,通过名称可以关联到presto中预定义的函数,通过替换ast中的对应节点,达到改写sql的目标,实际计算过程中会调用脱敏函数的算法逻辑产出最后的查询结果;执行查询计算时,进行审计日志的记录。

技术总结
本发明属于大数据技术领域,且公开了一种基于presto引擎的敏感数据识别及脱敏方法包括数据输入单元、数据识别单元、数据脱敏单元和数据输出单元;所述数据输入单元,用于用户数据的输入并触发敏感数据识别单元;所述数据识别单元。该发明通过其简单的数据结构,列式存储逻辑行,大部分数据都可以轻易的转化成presto所需要的这种数据结构,且利用presto引擎进行数据脱敏,解决presto引擎上无法支持灵活高效数据脱敏功能的问题,可以通过自定义脱敏规则,平台全流程化、引擎解耦,主数据规则引擎生成、数据标准规范引擎、数据质量规则引擎可基于需求场景进行能力扩展和升级,能较好的集成不同的用户管理平台,元数据管理平台。元数据管理平台。元数据管理平台。


技术研发人员:唐良运 邹文景 甘莹 孙刚
受保护的技术使用者:南方电网数字电网研究院有限公司
技术研发日:2022.02.23
技术公布日:2022/7/9
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献