一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Pulsar的分布式敏感数据识别方法及系统与流程

2022-02-25 23:53:42 来源:中国专利 TAG:

一种基于pulsar的分布式敏感数据识别方法及系统
技术领域
1.本发明涉及计算机信息安全技术领域,具体涉及一种基于pulsar的分布式敏感数据识别方法及系统。


背景技术:

2.随着移动互联网、云计算、物联网、工业互联网等技术的高速发展,人们进入到了大数据时代。当人们在享受大数据带来一切便利的同时,数据安全问题也随之暴露出来;近年来,数据泄露事件频发,给国家、企业和个人都造成了巨大损失。
3.敏感数据识别的一般步骤是首先对目标数据源进行评估,然后划分识别任务,最后由识别引擎根据识别规则进行敏感数据识别。在海量的数据背景下,如何快速、高效的进行敏感数据发现就显得尤为重要。


技术实现要素:

4.本发明的目的在于提供一种基于pulsar的分布式敏感数据识别方法及系统,以期解决背景技术中存在的技术问题。
5.为了实现上述目的,本发明采用以下技术方案:
6.一种基于pulsar的分布式敏感数据识别方法,包括:
7.评估目标数据源的规模和大小,并根据评估结果划分并发布数据采集任务;
8.去目标数据源拉取当前子任务的划分的数据并将数据存入redis;
9.从redis拉取数据并根据规则进行敏感数据识别;
10.根据redis执行lua脚本的原子性来实现限速api接口,以控制敏感数据识别系统对目标数据源的访问压力。
11.在一些实施例中,所述评估目标数据源的规模和大小,并根据评估结果划分并发布数据采集任务,包括:数据源评估模块收到评估任务后先去请求qpslimit限速接口,校验通过后再去评估目标数据源有哪些表名、字段名和字段类型,有多少字段数量,然后根据配置文件配置的子任务数来划分数据采集任务,最后向pulsar中发布数据采集任务。
12.在一些实施例中,所述去目标数据源拉取当前子任务的划分的数据并将数据存入redis,包括:数据采集模块根据收到的数据采集任务先去请求qpslimit限速接口,校验通过后再去目标数据源拉取当前子任务的划分的数据并将数据进行矩阵转置然后按字段为单位以hash类型存入redis中,然后向pulsar中发布敏感数据识别任务。
13.在一些实施例中,所述从redis拉取数据并根据规则进行敏感数据识别,包括:敏感数据识别模块收到任务后根据key从redis中拉取被识别数据,根据识别规则进行敏感数据发现,识别引擎支持机器学习和规则匹配两种模式,并将识别进行上报。
14.本发明还提供了一种基于pulsar的分布式敏感数据识别系统,包括:
15.数据源评估和任务拆分模块:负责评估目标数据源的规模和大小,并根据评估结果划分并发布数据采集任务;
16.数据采集模块:负责去目标数据源拉取当前子任务的划分的数据并将数据存入redis;
17.敏感数据识别模块:从redis拉取数据并根据规则进行敏感数据识别;
18.qpslimit限速器模块:根据redis执行lua脚本的原子性来实现限速api接口,以控制敏感数据识别系统对目标数据源的访问压力。
19.在一些实施例中,所述数据源评估模块收到评估任务后先去请求qpslimit限速接口,校验通过后再去评估目标数据源有哪些表名、字段名和字段类型,有多少字段数量,然后根据配置文件配置的子任务数来划分数据采集任务,最后向pulsar中发布数据采集任务。
20.在一些实施例中,所述数据采集模块根据收到的数据采集任务先去请求qpslimit限速接口,校验通过后再去目标数据源拉取当前子任务的划分的数据并将数据进行矩阵转置然后按字段为单位以hash类型存入redis中,然后向pulsar中发布敏感数据识别任务。
21.在一些实施例中,所述敏感数据识别模块收到任务后根据key从redis中拉取被识别数据,根据识别规则进行敏感数据发现,识别引擎支持机器学习和规则匹配两种模式,并将识别进行上报。
22.有益效果
23.本发明基于pulsar和docker的特性,具备以下优点:
24.1)快速、高效的进行敏感数据识别:本发明将整个流程划分为数据源评估并且任务拆分、数据采集和敏感数据识别三个模块并封装成docker,方便构建分布式系统以提高系统的识别速度和效率;并利用redis的set集合成员是唯一的特性,大大压缩了数据量,使得识别速度更快;
25.2)可根据业务需求进行动态扩展集群:由于本发明将模块docker化,并利用了pulsar在共享订阅下可以扩展超出分区数量的消费者数量的特性,本系统中数据采集和敏感数据识别两个模块最耗时,所以只需调整对应模块的docker节点数就可以达到扩展集群的目的,无需其他额外的操作。
附图说明
26.图1为实施例中基于pulsar的分布式敏感数据识别方法的流程图。
具体实施方式
27.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
28.相反,本技术涵盖任何由权利要求定义的在本技术的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本技术有更好的了解,在下文对本技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本技术。
29.实施例1:
30.一种基于pulsar的分布式敏感数据识别方法,包括:
31.评估目标数据源的规模和大小,并根据评估结果划分并发布数据采集任务;
32.去目标数据源拉取当前子任务的划分的数据并将数据存入redis;
33.从redis拉取数据并根据规则进行敏感数据识别;
34.根据redis执行lua脚本的原子性来实现限速api接口,以控制敏感数据识别系统对目标数据源的访问压力。
35.整个系统通过pulsar分布式消息系统来进行任务发布和接收,拥有消息确认机制,只有当数据成功消费时,才向生产者发送确认,同时支持无缝动态添加或删除消费者(本系统中就是docker),不需要额外的去手动重新平衡或管理broker。
36.用户在客户端添加需要脱敏的数据源,配置敏感识别规则后发起敏感数据识别任务;后端api接口收到敏感数据识别任务后向pulsar中发布数据源评估任务。
37.数据源评估模块收到评估任务后先去请求qpslimit限速接口,校验通过后再去评估目标数据源有哪些表名、字段名和字段类型,有多少字段数量,然后根据配置文件配置的子任务数来划分数据采集任务,最后向pulsar中发布数据采集任务。
38.数据采集模块根据收到的数据采集任务先去请求qpslimit限速接口,校验通过后再去目标数据源拉取当前子任务的划分的数据并将数据进行矩阵转置然后按字段为单位以hash类型存入redis中,然后向pulsar中发布敏感数据识别任务。
39.敏感数据识别模块收到任务后根据key从redis中拉取被识别数据,根据识别规则进行敏感数据发现,识别引擎支持机器学习和规则匹配两种模式,并将识别进行上报。
40.实施例2:
41.本发明还提供了一种基于pulsar的分布式敏感数据识别系统,包括:
42.数据源评估和任务拆分模块:负责评估目标数据源的规模和大小,并根据评估结果划分并发布数据采集任务;
43.数据采集模块:负责去目标数据源拉取当前子任务的划分的数据并将数据存入redis;
44.敏感数据识别模块:从redis拉取数据并根据规则进行敏感数据识别;
45.qpslimit限速器模块:根据redis执行lua脚本的原子性来实现限速api接口,以控制敏感数据识别系统对目标数据源的访问压力,其中lua脚本采用令牌桶算法。
46.上面所述模块都采用docker化技术,方便构建分布式系统以提高系统的识别速度和效率。
47.本专利提出了一种基于pulsar的分布式敏感数据识别系统,将整个流程分为数据源评估并且任务拆分、数据采集和敏感数据识别三个模块并封装成docker,通过基于pulsar的分布式识别引擎,利用其可动态横向拓展而不需要复杂操作和额外开支的特性,对海量数据进行快速、高效的敏感数据识别。
48.整个系统通过pulsar分布式消息系统来进行任务发布和接收,拥有消息确认机制,只有当数据成功消费时,才向生产者发送确认,同时支持无缝动态添加或删除消费者(本系统中就是docker),不需要额外的去手动重新平衡或管理broker。
49.用户在客户端添加需要脱敏的数据源,配置敏感识别规则后发起敏感数据识别任务;后端api接口收到敏感数据识别任务后向pulsar中发布数据源评估任务。
50.在一些实施例中,所述数据源评估模块收到评估任务后先去请求qpslimit限速接
口,校验通过后再去评估目标数据源有哪些表名、字段名和字段类型,有多少字段数量,然后根据配置文件配置的子任务数来划分数据采集任务,最后向pulsar中发布数据采集任务。
51.在一些实施例中,所述数据采集模块根据收到的数据采集任务先去请求qpslimit限速接口,校验通过后再去目标数据源拉取当前子任务的划分的数据并将数据进行矩阵转置然后按字段为单位以hash类型存入redis中,然后向pulsar中发布敏感数据识别任务。hash类型的key为敏感识别子任务id,hash类型的value为set集合,这个集合中存放某个字段的数据,由于集合成员的唯一性,所以大大压缩了数据量。
52.在一些实施例中,所述敏感数据识别模块收到任务后根据key从redis中拉取被识别数据,根据识别规则进行敏感数据发现,识别引擎支持机器学习和规则匹配两种模式,并将识别进行上报。
53.由于数据源评估并且任务拆分、数据采集和敏感数据识别三个模块封装成了docker,所以只需要添加或减少对应模块的docker节点,无需再做其他任何工作就可以动态扩展整个分布式系统,基于此便能快速、高效的进行敏感数据识别。
54.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献