一种https加密流量的敏感信息识别方法与流程

2022-11-30 22:10:38 来源：中国专利 TAG：

1.本发明属于信息处理技术领域，特别是涉及一种https加密流量的敏感信息识别方法，使用中间人代理的方法首先拦截加密流量或获取明文，从而根据明文识别出是否涉及个人隐私数据。

背景技术：

2.对企业数据安全保护对象和应用场景提出了更高合规要求，满足监管方数据安全合规要求，如何识别数据涉敏、以及识别网络流量中的敏感数据，均需要一些相关技术监控。近几年，apt攻击、供应链投毒等新型攻击方法频发，它些新型方法，基本上是采用利用了https，因为https加密流量特性能直接逃避传统安全设备的检测。
3.通过检索专利分析，专利集中在对加密流量的恶意检测目标上，首先使用特征工程方法，提炼加密流量的特征，包括网络4元组、tls证书特征、 tls协议各包特征、网络包大小等，之后使用聚类、集成学习、卷积神经网络、textcnn等算法训练输出模型；最后采用模型识别加密流量是否恶意、恶意流量间接说明存在敏感信息泄漏的可能性；然而，恶意流量不一定是敏感信息，如果攻击者加密流量的目的只是获取主机的一些环境信息，以达到进一步控制本主机充当控制僵尸主机。恶意流量中不涉及到个人隐私相关的敏感信息。恶意流量的识别方法对个人隐私识别不具有普遍性。
4.本发明与它们的区别是解密加密流量为明文、再根据从明文识别出个人隐私相关的敏感信息，通过中间代理的方式解密https，还原为原始的流量，再基于原始流量进行敏感信息识别。

技术实现要素：

5.本发明的目的在于提供一种https加密流量的敏感信息识别方法，通过在https应用所在的主机上配置中间人代理截https请求流量，再根据明文进行根据从明文识别出个人隐私相关的敏感信息，解决了现有的恶意流量的识别方法对个人隐私识别不具有普遍性问题。
6.为解决上述技术问题，本发明是通过以下技术方案实现的：
7.本发明为一种https加密流量的敏感信息识别方法，包括如下步骤：
8.步骤s1：应用主机潜在https外发流量，即内网主机恶意木马反向外连的流量；
9.步骤s2：中间人代理为中间人攻击工具，用来拦截、修改、保存 http/https请求；
10.步骤s3：攻击者信息收集后，反向外连的https url；
11.步骤s4：明文采集模块采集日志文件并采集到kafka；
12.步骤s5：敏感识别模块使用正则表达式、算法训练模型和nlp三种方式识别敏感数据。
13.作为一种优选的技术方案，所述步骤s1中，应用主机上配置网络代理模式后，排除内网ip；所述网络代理通过环境变量http_proxy和 https_proxy指定中间人代理ip和端
口；若排除ip，则通过no_proxy环境变量指定。
14.作为一种优选的技术方案，所述https应用的所有访问网络流量均会首先经过代理中间人。
15.作为一种优选的技术方案，所述步骤s2中，中间人攻击工具通过编程代码获取请求和响应结果，为明文采集模块提供文本流量用于采集分析。
16.作为一种优选的技术方案，所述url为已经被威胁情报告为恶意的url 和ip或云计算主机ip。
17.作为一种优选的技术方案，所述步骤s4中，明文采集模块的采集步骤如下：
18.步骤s41：使用filebeat监控中间人代理输出的日志文件并采集到 kafka；
19.步骤s42：配置采集规则和http协议解析规则提取请求头、请求baby、响应头、响应baby操作方式。
20.作为一种优选的技术方案，所述步骤s5中，正则表达式用于对手机号码、手机和邮件进行正则识别；对地址使用nlp识别；对姓名、学校、单位，使用特征工程方法和卷积神经算法训练识别。
21.作为一种优选的技术方案，所述卷积神经算法包括输入层、三个1d卷积层、池化层和全连接层；
22.所述输入层为特征工程后的宽表数据；
23.三个所述1d卷积层的核长度为3，则激活函数为relu；
24.所述池化层通过合并三个1d卷积层输出的局部特征块，降低采样，过滤掉多余信息；
25.所述全连接层使用dropout让部分节点临时失效。
26.本发明具有以下有益效果：
27.(1)本发明通过使用中间人的方式解密潜在https外发流量，即内网主机恶意木马反向外连的流量，大量内网主机成常态，为了避免影响到内网间应用代理被代理，主机上配置网络代理模式后，会排除内部ip，仅代理主机反向外连的网络流量；
28.(2)本发明使用多种个人隐私信息识别方法，正则表达式、nlp识别、分词以及神经网络与领域专家特征方法方法进行敏感信息识别，从而提高效率和准确性。
29.(3)本发明通过tls1.3无法获取pre-mater-key而无法加密流量的问题
30.当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
31.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
32.图1为本发明的一种https加密流量的敏感信息识别方法流程图；
33.图2为明文采集模块采集数据的流程图；
34.图3为卷积神经网络的结构示意图。
具体实施方式
35.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
36.请参阅图1所示，本发明为一种https加密流量的敏感信息识别方法，包括如下步骤：
37.步骤s1：应用主机潜在https外发流量，即内网主机恶意木马反向外连的流量，为了避免影响到内网间应用代理被代理；应用主机上配置网络代理模式后，排除内网ip；网络代理通过环境变量http_proxy和 https_proxy指定中间人代理ip和端口；若排除ip，则通过no_proxy环境变量指定，所有访问https应用的网络流量均会首先经过代理中间人。
38.步骤s2：中间人代理为中间人攻击工具，用来拦截、修改、保存 http/https请求；通过python等编程代码可以获取请求和响应结果，其为明文采集模块提供文本流量用于采集分析，中间人攻击工具通过编程代码获取请求和响应结果，为明文采集模块提供文本流量用于采集分析；
39.步骤s3：攻击者信息收集后，反向外连的https url；url为已经被威胁情报告为恶意的url和ip或云计算主机ip；单从url判断是否恶意，也会存在误报或者漏报的情况。从url外发的信息识别敏感外泄可以降低漏报和误报；
40.请参阅图2所示，步骤s4：明文采集模块采集日志文件并采集到kafka；
41.步骤s41：使用filebeat监控中间人代理输出的日志文件并采集到 kafka；
42.步骤s42：配置采集规则和http协议解析规则提取请求头、请求baby、响应头、响应baby操作方式。
43.步骤s5：敏感识别模块使用正则表达式、算法训练模型和nlp三种方式识别敏感数据；正则表达式用于对手机号码、手机和邮件进行正则识别；对地址使用nlp识别；对姓名、学校、单位，使用特征工程方法和卷积神经算法训练识别。
44.请参阅图3所示，卷积神经算法包括输入层、三个1d卷积层、池化层和全连接层；
45.输入层为特征工程后的宽表数据；
46.三个1d卷积层的核长度为3，则激活函数为relu；
47.池化层通过合并三个1d卷积层输出的局部特征块，降低采样，过滤掉多余信息；
48.全连接层使用dropout让部分节点临时失效。
49.本实施例的一个具体应用为：
50.以姓名为例，从如下几个方面提炼特征：
51.音韵特征：“王五六”，声调为二三四(阳平、上声、去声)，特征为三维[234]。
[0052]
姓名拼音特征：直接按拼音字母表直接映射为one-hot编码形式。
[0053]
笔划数特征：复杂笔画数的姓和名同时出现的概率很小。
[0054]
姓名长度特征；
[0055]
nlp人名识别是否为姓名；
[0056]
首字母是否为百家姓。
[0057]
值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划
分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
[0058]
另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。
[0059]
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于双重盲化的拜占庭容错共识方法

一种https加密流量的敏感信息识别方法与流程

相关文献

最热文献