一种大数据平台数据脱敏系统

2023-02-02 02:43:25 来源：中国专利 TAG：

1.本发明涉及大数据脱敏系统领域，特别涉及一种大数据平台数据脱敏系统。

背景技术：

2.大数据或称巨量资料，指的是所涉及的资料量规模巨大到无法透过主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯，随着大数据的不断发展。
3.随着大数据时代的到来，大数据中蕴藏的巨大商业价值得以挖掘并面世，同时也带来了隐私、敏感信息保护方面的棘手难题，导致数据人员被不法分子盗取，并且人员操作也十分不便，如无法精确理解用户需求。

技术实现要素：

4.(一)技术方案
5.为实现以上目的，本发明通过以下技术方案予以实现：一种大数据平台数据脱敏系统，包括系统架构、系统处理流程、敏感数据识别方法、系统主要功能，所述系统架构包括资源层、数据层、服务层、应用层、安全管理和运维管理，所述系统处理流程包括脱敏需求配置、敏感数据识别、脱敏策略配置、脱敏服务运行和脱敏状态监控五个环节，所述敏感数据识别分为两个阶段，即数据源注册和数据脱敏任务执行，所述系统主要功能主要包括敏感数据识别、数据脱敏、脱敏验证主要部分组成；
6.所述资源层为数据脱敏服务提供基础性物理资源，包括计算资源、网络资源和存储资源；
7.所述数据层包括支持系统完成智能敏感数据发现、脱敏的各类数据库、知识库，针对不同敏感数据的脱敏规则库，管理规则及规则集合的脱敏策略库，支持智能敏感数据发现的本体知识库和机器学习所形成的模型库，运维管理和安全管理所需的权限库；
8.所述服务层以松耦合的方式承载数据脱敏所需的一系列核心服务及中间件，提供数据脱敏、规则化和服务化三大引擎；
9.所述应用层是面向最终用户，按照数据类型，提供数据库脱敏、文件脱敏以及多媒体脱敏；
10.所述运维管理包括用户、策略、数据源等系统要素及配置的管理，确保系统的可用性；
11.所述安全管理包括权限、角色和合规性安全隐私要素及配置的管理，确保系统的对外安全性和自身安全性，它与运维管理的协同。
12.优选的，所述脱敏需求配置是根据用户的资产重要性和数据价值对脱敏的粒度、强度和目标进行定义和配置；
13.所述敏感数据识别是对目标系统的全量数据进行智能识别，获取用户数据源中数据元信息、数据结构，对数据字段的内容进行分析，对格式和语义进行识别，对主键及外键
进行处理，识别出系统中存在的敏感数据；
14.所述脱敏策略配置提供两种脱敏策略的配置方式，一种是基于系统内置的敏感数据类型，采用智能推荐方式进行脱敏策略的配置；另一种是支持用户自定义脱敏策略以及更改合适的脱敏算法；
15.所述脱敏服务运行按照用户需求进行静态数据脱敏和动态数据脱敏；
16.所述脱敏状态监控是持续对脱敏系统的运行情况进行监控和审计，及时发现异常并做出响应。
17.进一步，所述数据源注册时，系统将连接注册数据源，一方面验证数据源的联通性，一方面将获取该数据源的元数据和部分样例数据，系统将对样例数据执行一次敏感数据的初步识别，其步骤如下：
18.s1、系统识别获取的样例数据，通过其数据类型(字符、数值等)和数据内容进行敏感数据识别；
19.s2、敏感数据识别由敏感数据识别引擎完成；敏感数据识别引擎采用规则、知识库以及自然语言处理中的命名实体识别、特征词提取，特征密度计算等方式进行智能识别；
20.s3、如果字段属于长字段，则对该字段进行标记；
21.s4、如果字段不属于长字段，但无法进行敏感数据识别，此时系统将对其字段描述进行语义分析和理解，补充相关信息后进行识别；
22.s5、识别出的字段将存储在敏感字段识别库中。
23.更进一步，所述数据脱敏任务执行阶段为提高敏感数据发现以及数据脱敏的效率，在脱敏任务执行阶段，主要对长字段进行识别，步骤如下：
24.s1、系统根据用户配置的参数对访问数据库的所有sql语句进行解析，首先在敏感数据字段库中查验哪些属于敏感字段，已识别出的敏感字段按其脱敏策略执行脱敏；
25.s2、如果字段为长字段，则获取每一条流经系统的数据，送入敏感数据识别引擎中，作为型数据进行识别，其中可能包含多种敏感数据类型；
26.s3、根据识别结果进行脱敏。
27.更加进一步，所述敏感数据识别将针对不同数据的特点，设计敏感数据识别所需的模型、算法、知识库，以覆盖数据库中敏感字段的识别、其中敏感数据的识别、图片和视频中的敏感区域识别。
28.更加进一步，所述数据脱敏：将针对不同类型的数据形态，实现不破坏其数据格式和可用性的数据脱敏处理。
29.更加进一步，所述脱敏验证数据脱敏的本质是通过数据变形来保证对敏感信息的保护，主要目标是安全使用数据。
30.(二)有益效果
31.本发明提供了一种大数据平台数据脱敏系统。具备以下有益效果：本发明能够的安全有效的保护大数据信息和数据，并且更加精确理解用户需求、更细的粒度、更高的精确度和可用度、更佳的自动化程度、更好的抗破解能力、更强的扩展能力和更友好的方式呈现，从而满足用户多领域的数据交互、共享和融合需求。
附图说明
32.图1为本发明系统框架示意图；
33.图2为本发明安全识别流程图；
34.图3为本发明系统功能框图。
具体实施方式
35.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
36.实施例一：
37.如图1所示，本发明实施例提供一种大数据平台数据脱敏系统，包括系统架构、系统处理流程、敏感数据识别方法、系统主要功能，所述系统架构包括资源层、数据层、服务层、应用层、安全管理和运维管理，所述系统处理流程包括脱敏需求配置、敏感数据识别、脱敏策略配置、脱敏服务运行和脱敏状态监控五个环节，所述敏感数据识别分为两个阶段，即数据源注册和数据脱敏任务执行，所述系统主要功能主要包括敏感数据识别、数据脱敏、脱敏验证主要部分组成；
38.所述资源层为数据脱敏服务提供基础性物理资源，包括计算资源、网络资源和存储资源；
39.所述数据层包括支持系统完成智能敏感数据发现、脱敏的各类数据库、知识库，针对不同敏感数据的脱敏规则库，管理规则及规则集合的脱敏策略库，支持智能敏感数据发现的本体知识库和机器学习所形成的模型库，运维管理和安全管理所需的权限库；
40.所述服务层以松耦合的方式承载数据脱敏所需的一系列核心服务及中间件，提供数据脱敏、规则化和服务化三大引擎，支撑大数据多元异构敏感数据发现和脱敏操作；
41.所述应用层是面向最终用户，按照数据类型，提供数据库脱敏、文件脱敏以及多媒体脱敏；按照业务需求，分为测试和研发过程所需的静态脱敏和生产过程中对敏感数据访问及应用的动态脱敏；
42.所述运维管理包括用户、策略、数据源等系统要素及配置的管理，确保系统的可用性；
43.所述安全管理包括权限、角色和合规性安全隐私要素及配置的管理，确保系统的对外安全性和自身安全性，它与运维管理的协同，使数据脱敏服务的运行时刻处于严密和安全防护及监控之下；
44.所述脱敏需求配置是根据用户的资产重要性和数据价值对脱敏的粒度、强度和目标进行定义和配置；
45.所述敏感数据识别是对目标系统的全量数据进行智能识别，获取用户数据源中数据元信息、数据结构，对数据字段的内容进行分析，对格式和语义进行识别，对主键及外键进行处理，识别出系统中存在的敏感数据；
46.所述脱敏策略配置提供两种脱敏策略的配置方式，一种是基于系统内置的敏感数据类型，采用智能推荐方式进行脱敏策略的配置，另一种是支持用户自定义脱敏策略以及
更改合适的脱敏算法；
47.所述脱敏服务运行按照用户需求进行静态数据脱敏和动态数据脱敏；
48.所述脱敏状态监控是持续对脱敏系统的运行情况进行监控和审计，及时发现异常并做出响应，定期将综合后的运行结果反馈用户，完善脱敏需求配置，提升脱敏效果；
49.所述数据源注册时，系统将连接注册数据源，一方面验证数据源的联通性，一方面将获取该数据源的元数据和部分样例数据，系统将对样例数据执行一次敏感数据的初步识别，其步骤如下：
50.s1、系统识别获取的样例数据，通过其数据类型(字符、数值等)和数据内容进行敏感数据识别；
51.s2、敏感数据识别由敏感数据识别引擎完成；敏感数据识别引擎采用规则、知识库以及自然语言处理中的命名实体识别、特征词提取，特征密度计算等方式进行智能识别；
52.s3、如果字段属于长字段，则对该字段进行标记；
53.s4、如果字段不属于长字段，但无法进行敏感数据识别，此时系统将对其字段描述进行语义分析和理解，补充相关信息后进行识别；
54.s5、识别出的字段将存储在敏感字段识别库中；
55.所述数据脱敏任务执行阶段。为提高敏感数据发现以及数据脱敏的效率，在脱敏任务执行阶段，主要对长字段进行识别，步骤如下：
56.s1、系统根据用户配置的参数对访问数据库的所有sql语句进行解析，首先在敏感数据字段库中查验哪些属于敏感字段，已识别出的敏感字段按其脱敏策略执行脱敏；
57.s2、如果字段为长字段，则获取每一条流经系统的数据，送入敏感数据识别引擎中，作为型数据进行识别；
58.s3、根据识别结果进行脱敏；
59.所述敏感数据识别将针对不同数据的特点，设计敏感数据识别所需的模型、算法、知识库，以覆盖数据库中敏感字段的识别、其中敏感数据的识别、图片和视频中的敏感区域识别，所述数据脱敏将针对不同类型的数据形态，实现不破坏其数据格式和可用性的数据脱敏处理，例如：当对word文件中的数据执行脱敏时，脱敏完成后文件格式依然为word，需要注意的是，针对不同的数据类型其脱敏的方式和方法也将会有所不同，所述脱敏验证数据脱敏的本质是通过数据变形来保证对敏感信息的保护，主要目标是安全使用数据，如果脱敏后的数据导致可用性降低或者丧失，将失去数据脱敏的意义，因此对脱敏后的数据必须在完整性、一致性以及关联性三个方面进行验证；
60.随着大数据技术的发展和分布式计算技术的成熟，基于大数据平台的脱敏服务为数据安全产品及相关服务设计提供了全新的思路和支撑环境，非常适合数据脱敏这一计算密集、时间敏感型的应用，基于大数据平台的敏感数据智能探测、智能分析与统计、智能处理平台，有望成为数据安全产品的重要发展方向，按照动态数据脱敏的基本原理和需求，将数据脱敏系统的存储和计算依托大数据平台实现，提供数据脱敏服务dmaas(data masking as a service)，它以集中控制和分布代理方式运行，面向政府数据、医疗、教育行业数据和金融数据等，进行按需定制和调用的脱敏服务；
61.基于大数据的数据脱敏平台作为数据拥有者和数据使用者之间的关联途径，承载数据安全隐私保护的重要使命。大数据脱敏平台以集中、松耦合方式进行数据的保护与处
理，为企业拥有的敏感和隐私信息提供灵活、实时的服务，不必对应用程序和数据库进行昂贵且耗时的变更，也不会干扰开发、测试及数据使用者履行其各自的职责，根据应用场景，dmaas可以划分为劳务、承包、中转和托管四种应用模式，劳务模式：sdm实现方式，按照用户需求将需要脱敏的数据一次性转换完毕，并将结果交付用户，承包模式：私有化ddm实现方式，在用户生产/测试环境中搭建dmaas，持续运行脱敏功能，中转模式：公有化ddm实现方式。在用户数据环境外搭建dmaas，应用程序运行结果在呈现前由脱敏服务处理并交付用户，实现业务流程的灵活调用。托管模式，公有化ddm/数据仓库实现方式，用户的所有敏感数据存放在dmaas中，业务需要访问数据时调用脱敏服务处理后提交至用户，这种模式有利于数据的集中监管和高强度隐私保护。
62.尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于GB28181的高清低码视频转换方法、装置及应用与流程

一种大数据平台数据脱敏系统

相关文献

最热文献