一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种防止泄露敏感信息的数据共享开放方法及系统与流程

2021-11-09 21:08:00 来源:中国专利 TAG:


1.本发明属于数据共享开放技术领域,尤其涉及一种防止泄露敏感信息的数据共享开放方法及系统。


背景技术:

2.随着信息化发展不断深入,不同系统、不同组织或者不同个体之间必然存在数据共享开放的需求。数据流通成为数据时代中释放数据红利和价值主要手段和途径。
3.而数据共享不可避免涉及到敏感信息保护的问题,如个人隐私信息、商业敏感信息等,如果不进行处理,会存在敏感信息泄露的风险。
4.目前主要的数据共享、数据开放过程是经过申请、审核、授权访问的形式,通过人工识别敏感信息、判定数据的共享范围和共享形式、配置数据脱敏方法等。
5.而随着数据共享开放的需求越来越广泛,上述方式存在效率低下、审查尺度难以统一等问题,因而会导致诸多问题,如:人工效率低下,周期过长;存在审核不严、导致敏感数据泄露的风险;惧怕担责,导致数据不敢共享等。


技术实现要素:

6.发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种防止泄露敏感信息的数据共享开放方法及系统。
7.为了解决上述技术问题,本发明第一方面公开了一种防止泄露敏感信息的数据共享开放方法,包括:
8.s1、对原始数据所包含的敏感信息进行识别并标定;
9.s2、根据标定结果生成数据处理规则库;
10.s3、根据数据处理规则库生成数据处理任务;
11.s4、执行数据处理任务,对原始数据所包含的敏感信息进行处理;
12.s5、基于处理后的数据和数据共享开放规则对外提供数据共享和开放服务。
13.结合第一方面,进一步的,所述的步骤s1包括:
14.s101、对原始数据进行抽样;
15.s102、结合机器学习算法,判断抽样数据是否包含敏感信息,以及所述敏感信息的敏感信息类型和敏感等级等。如数据是否包含个人身份证号、个人联系方式、个人地址、银行卡号等。
16.s103、根据判断结果,使用标签对数据各信息项的敏感属性进行标定;所述敏感属性包括数据信息项是否包含敏感信息、敏感信息类型以及敏感等级。
17.数据敏感属性的判定,通常根据个人经验、结合数据本身的属性和业务背景综合判断,具有低效、不客观、尺度不统一等缺点。而采用机器学习的方法,经过训练,可以生成一个标准化的判定模型,从而解决人工标定的上述问题。
18.结合第一方面,进一步的,所述的步骤s103中使用标签对数据各信息项的敏感属
性进行标定,可对各单信息项的敏感属性进行标定;也可以对多个信息项的组合所包含的敏感信息进行标定。
19.敏感信息既有可能包含在单个信息项中,如个人联系方式;也可能包含在一些特定的信息项的组合中,如一条信息中同时包含了身份证号码、籍贯和出生日期等属性,即使按照规则对身份证号相关位置进行了脱敏,仍然有可能从脱敏后的数据结合籍贯和出生日期信息唯一确定该条记录所关联的自然人个体,即导致个人敏感信息的泄露。对于多个信息项组合的敏感信息形式,人工审核标定极容易忽略,而通过固化到数据标定模块中,则可以提高敏感信息发现的准确率。
20.结合第一方面,进一步的,所述的步骤s2根据标定结果,结合机器学习算法,制定数据处理规则,形成数据处理规则库;所述数据处理规则包括数据脱敏、变形、字段屏蔽、字符串替换等。
21.结合第一方面,进一步的,所述的步骤s3中数据处理任务包括一个以上的子任务、抽取任务和数据加载任务,所述子任务用于根据数据处理规则库中的一条处理规则对数据进行处理,所述对数据进行处理包括敏感信息脱敏、加密、变形和替换;所述抽取任务用于抽取原始数据,所述数据加载任务用于对处理后的数据输出到文件、数据库或数据仓库等,供数据共享和开放使用;
22.步骤s3包括:
23.s301、根据数据处理规则库中的每一条处理规则,生成对数据进行处理的一个子任务;
24.s302、将一个以上的子任务连接在一起,并在第一个子任务前增加数据抽取任务、在最后一个子任务后增加数据加载任务,生成数据处理任务。
25.结合第一方面,进一步的,所述的步骤s3中的数据处理任务的任务类型包括离线处理任务和实时处理任务,所述离线处理任务能够周期性地对原始数据进行数据处理,获得静态数据,并将静态数据存入数据库或文件系统,静态数据能够直接对外共享或开放;所述实时处理任务指在收到数据共享或数据开放请求时,动态执行数据处理任务,获得动态数据,并向请求方发送动态数据;
26.所述的步骤s4中,数据处理任务根据任务类型由系统调度执行,当任务类型为离线处理任务时,则执行离线处理任务,生成静态数据;当任务类型为实时处理任务时,则在收到数据共享或开放请求时,执行实时处理任务,生成动态数据,并向请求方发送动态数据。
27.第二方面,提供了一种防止泄露敏感信息的数据共享开放系统,包括原始数据存储库、元数据存储库、数据标定模块、规则管理模块、任务管理模块、数据处理模块、数据共享网站和数据开放网站,
28.所述原始数据存储库,用于保存需要被共享或开放的原始数据,所述原始数据包括结构化的数据、半结构化数据和非结构化数据;
29.所述元数据存储库,用于保存元数据信息,包括数据格式、存储方式、访问方式,是否可以共享、是否可以开放,以及经数据标定模块分析后生成的标签数据,所述标签数据包括是否包含敏感信息、敏感信息类型和敏感等级;
30.所述数据标定模块,与原始数据存储库、元数据存储库和规则管理模块连接,用于
对原始数据所包含的敏感信息、敏感信息类型和敏感等级进行识别并标定;
31.所述规则管理模块,与数据标定模块、元数据存储库连接,用于根据标定结果生成数据处理规则库;
32.所述任务管理模块,与规则管理模块和数据处理模块连接,用于根据数据处理规则库生成数据处理任务,对数据处理任务进行管理;所述数据处理任务的任务类型包括离线处理任务和实时处理任务;所述管理包括任务的启动、停止和调度;
33.所述数据处理模块,与原始数据存储库连接,并通过网络隔离设备与数据共享网站和数据开放网站连接;所述数据处理模块用于接收任务管理模块的调度,执行离线处理任务或实时处理任务;
34.所述数据共享网站,以数据资源目录的形式,将共享数据库、共享数据文件系统和共享数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理和日志审计功能。
35.所述数据开放网站,以数据资源目录的形式,将开放数据库、开放数据文件系统和开放数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理和日志审计功能。
36.结合第二方面,进一步的,所述数据标定模块包含一个敏感数据分析模型,通过机器学习和模型训练,实现采集分析原始数据,并判定各原始数据是否包含敏感信息、敏感信息类型和敏感等级,并生成相应的标签,保存到元数据存储库。
37.结合第二方面,进一步的,所述规则管理模块,包含一个规则引擎,通过读取元数据存储库中的敏感信息元数据,根据数据存储方式和共享开放属性,匹配对应的数据处理规则。
38.结合第二方面,进一步的,数据共享网站、数据开放网站、原始数据存储库、元数据存储库、数据标定模块、任务管理模块、数据处理模块及原始数据是物理隔离的,通过单向网闸和安全设备实现数据交换,以进一步降低敏感信息被泄露的风险。
39.有益效果:
40.本发明所述的防止泄露敏感信息的数据共享开放方法及系统可以自动识别原始数据中所包含的敏感信息、敏感信息类型和敏感等级,并结合机器学习、规则引擎等技术手段,自动生成数据处理任务,并基于处理后的数据提供数据共享和数据开放服务。借助该方法及系统实现高效自动化的数据共享和开放,且能很好的保护隐私数据不被泄露。
附图说明
41.下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
42.图1为本发明实施例所述的一种防止泄漏敏感信息的数据共享开放系统结构图。
43.图2为本发明实施例所述的一种防止泄漏敏感信息的数据共享开放方法处理流程图。
具体实施方式
44.下面将结合附图,对本发明的实施例进行描述。
45.本发明第一实施例公开一种防止泄露敏感信息的数据共享开放方法,如图2所示,包括:
46.s1、对原始数据所包含的敏感信息进行识别并标定;
47.s2、根据标定结果生成数据处理规则库;
48.s3、根据数据处理规则库生成数据处理流程和任务;
49.s4、执行数据处理任务,对原始数据所包含的敏感信息进行处理;
50.s5、基于处理后的数据和数据共享开放规则对外提供数据共享和开放服务,所述数据共享开放规则根据业务需要设置,包括无条件共享开放、仅部分字段可共享开放和需对字段进行脱敏后方可共享开放等。
51.第一实施例中,所述的步骤s1的具体执行方法如下:
52.s101、对原始数据进行抽样;所述原始数据包括结构化的数据、半结构化数据和非结构化数据,对于结构化数据,不同数据的相同列,其数据格式、含义等都是一样的,仅需要抽样即可获取其数据属性;对于非结构化数据,需要进行全文扫描和标定。
53.s102、结合机器学习算法,判断抽样的数据是否包含敏感信息,以及所述敏感信息的敏感信息类型和敏感等级等,如数据是否包含个人身份证号、个人联系方式、个人地址、银行卡号等。本实施例中,可以使用分类技术对抽样的数据进行分类管理,通过机器学习引擎,实施有监督机器学习,最终实现自动标定抽样数据的敏感属性。
54.在本实施例中,可以使用决策树算法作为一种可选实现方式。决策树是一种简单而又被广泛使用的分类器,具体实施中,通过对数据的业务属性、对应业务场景中该数据是否包含敏感信息、敏感信息类型以及敏感等级进行量化,来构建训练集形成决策树。并可以在使用过程中,持续将新的业务场景中数据的敏感属性加入训练集,对决策树持续改进以提高决策树的鲁棒性。
55.s103、根据判断结果,使用标签对数据各信息项的敏感属性进行标定;所述敏感属性包括数据信息项是否包含敏感信息、敏感信息类型以及敏感等级。
56.第一实施例中,所述的步骤s103中使用标签对数据各信息项的敏感属性进行标定,可对各单信息项的敏感属性进行标定;也可以对多个信息项的组合所包含的敏感信息进行标定。
57.第一实施例中,所述的步骤s2根据标定结果,结合机器学习算法制定数据处理规则库。所述数据处理规则包括数据脱敏、变形、字段屏蔽和字符串替换等;本实施例中,可以采用决策树算法作为一种可选的实现方式。将数据的敏感属性、各类数据处理规则对敏感信息的保护效果等进行量化,实施有监督学习形成决策树,并持续把新的数据处理规则加入训练集。
58.第一实施例中,所述的步骤s3中数据处理任务包括一个以上的子任务、抽取任务和数据加载任务,所述子任务用于根据数据处理规则库中的一条处理规则对数据进行处理,所述对数据进行处理包括敏感信息脱敏、加密、变形和替换;所述抽取任务用于抽取原始数据,所述数据加载任务用于对处理后的数据输出到文件、数据库或数据仓库等,供数据共享和开放使用;
59.所述的步骤s3的具体执行方法如下:
60.s301、根据数据处理规则库中的每一条处理规则,生成对数据进行处理的一个子
任务;
61.s302、将一个以上的子任务连接在一起,并在第一个子任务前增加数据抽取任务、在最后一个子任务后增加数据加载任务,生成数据处理任务。
62.第一实施例中,所述的步骤s3中的数据处理任务的任务类型包括离线处理任务和实时处理任务,所述离线处理任务能够周期性地对原始数据进行数据处理,获得静态数据,并将静态数据存入数据库或文件系统,静态数据能够直接对外共享或开放;所述实时处理任务指在收到数据共享或数据开放请求时,动态执行数据处理任务,获得动态数据,并向请求方发送动态数据;
63.所述的步骤s4中,数据处理任务根据任务类型由系统调度执行,当任务类型为离线处理任务时,则执行离线处理任务,生成静态数据;当任务类型为实时处理任务时,则在收到数据共享或开放请求时,执行实时处理任务,生成动态数据,并向请求方发送动态数据。
64.本发明第二实施例公开一种防止泄露敏感信息的数据共享开放系统,如图1所示,包括原始数据存储库、元数据存储库、数据标定模块、规则管理模块、任务管理模块、数据处理模块、数据共享网站和数据开放网站:
65.原始数据存储库,用于保存需要被共享或开放的原始数据,所述原始数据包括结构化的数据、半结构化数据和非结构化数据。
66.元数据存储库,用于保存元数据信息,包括数据格式、存储方式、访问方式,是否可以共享、是否可以开放,以及经数据标定模块分析后生成的标签数据,如是否包含敏感信息、敏感信息类型、敏感等级等。
67.数据标定模块,与原始数据存储库、元数据存储库和规则管理模块连接,用于对原始数据所包含的敏感信息、敏感信息类型和敏感等级进行识别并标定;
68.规则管理模块,与数据标定模块、元数据存储库连接,用于根据标定结果生成数据处理规则库;
69.任务管理模块,与规则管理模块、数据处理模块连接,用于根据数据处理规则库生成数据处理任务,对数据处理任务进行管理;所述数据处理任务的任务类型包括离线处理任务和实时处理任务;所述管理包括任务的启动、停止和调度;
70.数据处理模块,与原始数据存储库连接,并通过网络隔离设备与数据共享网站和数据开放网站连接;所述数据处理模块是数据处理任务的计算引擎,用于接收任务管理模块的调度,并进行相关的离线或实时数据处理工作。对于离线任务,把数据转换后存入共享库、开放库或者以文件形式存入共享开放网站对应的文件系统;对于实时任务,可根据配置生成数据服务接口,和对应的接口后台实现,并将服务接口注册到共享网站或开放网站以对外提供服务。
71.数据共享网站,以数据资源目录的形式,把共享数据库、共享数据文件系统和共享数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理、日志审计等流程和功能。
72.数据开放网站,以数据资源目录的形式,把开放数据库、开放数据文件系统和开放数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理、日志审计等流程和功能。
73.例如,针对政务数据处理,数据共享网站用于将政府内部各部门或其所属单位之间的数据交换或提供数据服务;数据开放网站用于面向社会公众提供数据或数据服务。
74.第二实施例中,所述的数据标定模块包含一个敏感数据分析模型,通过机器学习和模型训练,实现采集分析原始数据,并判定各原始数据是否包含敏感信息、敏感信息类型和敏感等级,并生成相应的标签,保存到元数据存储库。
75.第二实施例中,所述的规则管理模块,包含一个规则引擎,通过读取元数据存储库中的敏感信息元数据,根据数据的存储类型和共享开放属性,匹配对应的数据处理规则。
76.第二实施例中,所述的数据共享网站、开放网站数据和数据处理模块之间通过隔离设备实现物理隔离,防止未经授权或未经处理的数据被共享或开放,保护原始数据所包含的敏感信息不被泄露。
77.数据共享网站、数据开放网站、原始数据存储库、元数据存储库、数据标定模块、任务管理模块、数据处理模块及原始数据是物理隔离的,通过单向网闸和安全设备实现数据交换,以进一步降低敏感信息被泄露的风险。
78.本发明提供了一种防止泄露敏感信息的数据共享开放方法及系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献