数据过滤的方法、装置、设备及存储介质与流程

2022-02-24 16:34:16 来源：中国专利 TAG：

1.本发明涉及通信领域，尤其涉及一种数据过滤的方法、装置、设备及存储介质。

背景技术：

2.互联网服务的普及，给大众带来便利的同时，也面临着日益严峻的安全挑战。
3.目前，大量业务和在线服务是通过web业务系统承载的，web业务系统本身架构复杂，使用的技术多种多样，是黑客攻击的重要目标。
4.现有的对web业务系统进行安全防护的方法是通过指定防御的web攻击类型来对攻击行为进行识别，该方法漏判风险较高，难以在实际生产应用场景下发挥作用。
5.因此，现有的技术方案中，检测攻击行为的效果较差。

技术实现要素：

6.本发明实施例提供了一种数据过滤的方法、装置、设备及存储介质，解决了检测攻击行为的过程中存在效果较差的问题，提高了web系统防御攻击的能力。
7.为了解决上述技术问题，本发明：
8.第一方面，提供了一种数据过滤的方法，该方法包括：
9.获取待检测数据；
10.当待检测数据通过第一名单库的匹配且未通过第二名单库的匹配时，将待检测数据发送给业务系统。
11.在第一方面的一些实现方式中，在将待检测数据发送给万维网系统之前，该方法还包括：
12.获取被防护系统运行的目标数据；
13.根据目标数据中的特征信息生成第一名单库。
14.在第一方面的一些实现方式中，特征信息包括请求头；第一名单库包括请求头第一名单库；根据目标数据中的特征信息生成第一名单库，包括：
15.对请求头进行解析，得到请求头关键字和与请求头关键字对应的值；
16.存储请求头关键字和与请求头关键字对应的值，生成请求头第一名单库。
17.在第一方面的一些实现方式中，特征信息包括请求体；第一名单库包括请求体第一名单库；根据目标数据中的特征信息生成第一名单库，包括：
18.对请求体进行解析，得到请求体关键字和与请求体关键字对应的值；
19.存储请求体关键字和与请求体关键字对应的值，生成请求体第一名单库。
20.第二方面，提供了一种数据过滤的装置，该装置包括：
21.获取模块，用于获取待检测数据；
22.发送模块，用于当待检测数据通过第一名单库的匹配且未通过第二名单库的匹配时，将待检测数据发送给业务系统。
23.在第二方面的一些实现方式中，获取模块，还用于获取被防护系统运行的目标数
据；装置还包括处理模块；
24.处理模块，用于根据目标数据中的特征信息生成第一名单库。
25.在第二方面的一些实现方式中，特征信息包括请求头；第一名单库包括请求头第一名单库；
26.处理模块，还用于对请求头进行解析，得到请求头关键字和与请求头关键字对应的值；
27.处理模块，还用于存储请求头关键字和与请求头关键字对应的值，生成请求头第一名单库。
28.在第二方面的一些实现方式中，特征信息包括请求体；第一名单库包括请求体第一名单库；
29.处理模块，还用于对请求体进行解析，得到请求体关键字和与请求体关键字对应的值；
30.处理模块，还用于存储请求体关键字和与请求体关键字对应的值，生成请求体第一名单库。
31.第三方面，提供了一种电子设备，该设备包括：处理器以及存储有计算机程序指令的存储器；
32.处理器执行计算机程序指令时实现第一方面，以及第一方面的一些实现方式中的数据过滤的方法。
33.第四方面，提供了一种计算机存储介质，该计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面，以及第一方面的一些实现方式中的数据过滤的方法。
34.本发明实施例提供了一种数据过滤的方法、装置、设备及存储介质，通过使用第一名单库和第二名单库对获取的待检测数据进行检测，对于外部访问请求合法性的判定采取了严格的规则，即未知的都是非法的，只有已知才是合法的的策略来实现数据过滤，使得业务系统风险暴露面大大减少，安全性大大提高，解决了检测攻击行为的过程中存在效果较差的问题，提高了业务系统防御攻击的能力。
附图说明
35.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
36.图1是本发明实施例提供的一种数据过滤的方法的流程示意图；
37.图2是本发明实施例提供的一种生成第一名单库的方法的流程示意图；
38.图3是本发明实施例提供的一种数据过滤的装置的结构示意图；
39.图4是本发明实施例提供的一种计算设备的结构图。
具体实施方式
40.下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描
述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
41.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
42.在互联网服务普及，给大众带来便利的同时，也同样面临着日益严峻的安全挑战。传统的网络安全威胁，手段花样翻新，令人防不胜防，不少知名企业纷纷中招，造成很坏的社会影响。
43.除了以往传统的安全威胁之外，在当前国际竞争的大环境下，虚拟网络空间也成为一个看不见的战场，国家对网络安全工作日益重视，各种检查、对抗演练，由之前的例行化变为现在的常态化。信息安全已上升到国家战略高度。
44.目前，大量的业务和服务的在线服务是通过web业务系统承载的，web服务由于其高度可用性和便利性，成为信息服务提供的主要方式。在web应用带来便利的同时，因为其本身架构复杂，使用的技术多种多样，成为了不法分子攻击的主要目标。针对web业务系统的渗透和攻击手段多种多样，形式不断翻新，具有很强的隐蔽性和破坏性。当前，防护web攻击的主要技术手段是通过对流量的旁路分析实现对攻击行为的实时检测，但市场上现有的web攻击防护产品普遍存在告警数量大，误报率高，告警内容针对性弱的问题，这些问题将会极大增加运维人员的工作量，使得大量的人力和资源投入到对无效告警的排查和处置中，从而导致工作效率和防护效能低下。
45.因此，在现有的技术方案中，存在检测攻击行为的效果较差的问题。
46.为了解决目前的技术方案中存在检测攻击行为效果较差的问题，本发明实施例提供了一种数据过滤的方法、装置、设备及存储介质。通过获取待检测数据；当待检测数据通过第一名单库的匹配且未通过第二名单库的匹配时，将所述待检测数据发送给业务系统。通过使用第一名单库和第二名单库进行过滤，解决了检测攻击行为的过程中存在效果较差的问题，提高了业务系统防御攻击的能力。
47.下面结合附图对本发明实施例提供的技术方案进行描述。
48.图1是本发明实施例提供的一种数据过滤的方法的流程示意图。如图1所示，该方法的执行主体可以为终端设备，数据过滤的方法可以包括：
49.s101：获取待检测数据。
50.其中，该待检测数据可以为与业务系统相关的访问请求，其中该业务系统包括被防护的web业务系统。
51.s102：当待检测数据通过第一名单库的匹配且未通过第二名单库的匹配时，将待检测数据发送给业务系统。
52.其中，第一名单库可以指白名单特征库，白名单特征库可以包括合法访问请求应
具备的特征；第二名单库可以指黑名单特征库，该黑名单特征库则可以包括非法访问请求的特征。
53.具体的，在该过程中，访问请求需要首先经过白名单特征库进行特征匹配，如果能匹配到特征项，则认为该访问请求通过了白名单验证，之后，将通过白名单验证的访问请求再经过黑名单特征库进行特征匹配，如果没有匹配到特征项，则认为该访问请求为合法请求，并将该访问请求发送给业务系统进行正常处理。
54.此外，如果访问请求在经过白名单特征库进行特征匹配时，没有匹配到特征项，则认为该访问请求为非法请求，将丢弃该访问请求；如果通过白名单验证的访问请求在经过黑名单特征库进行特征匹配时，匹配到了特征项，则认为该访问请求也为非法请求，也将丢弃该访问请求。
55.在上述包括s101和s102的数据过滤的方法中，所有访问请求只有通过“白名单特征库黑名单特征库”的两级联合过滤后，才能被放行，也就是说，所有访问请求，须具备白名单特征库定义的合法请求的特征，且该访问请求中不能出现黑名单特征库所定义的特征，才会交予业务系统处理。本发明实施例中的数据过滤的方法会拦截所有未知访问请求，仅放行已知的访问请求，这样会大大减少了被防御系统的风险暴露面，可以有效防御已知攻击以及各种新型未知攻击手段，从而提高了业务系统防御攻击的能力。
56.本发明实施例中提供的数据过滤的方法，通过使用白名单特征库和黑名单特征库对获取的待检测数据进行检测，对于外部访问请求合法性的判定采取了严格的规则，即未知的都是非法的，只有已知才是合法的的策略来实现数据过滤，使得系统风险暴露面大大减少，安全性大大提高，解决了检测攻击行为的过程中存在效果较差的问题，提高了业务系统防御攻击的能力。
57.可选的，在一个实施例中，在执行s102之前，要预先生成白名单特征库和黑名单特征库，以实现对待检测数据的检测。生成白名单特征库即第一名单库的具体过程可以如图2所示，生成第一名单库的方法可以包括：
58.s201：获取被防护系统运行的目标数据。
59.其中，该被防护系统可以是被防护的生产业务系统对应的内部测试系统或用户验收(user acceptance test，uat)系统。
60.因此，目标数据可以是包括内部测试系统的实时业务请求报文和内部测试系统的日志(例如：web组件、中间件日志等)。因为这些报文数据和日志数据均来自内部测试系统，所以认为是可靠和安全的，可以作为第一目标数据，用于从中抽取访问模式。
61.此外，目标数据还可以包括防护生产业务系统的日志文件。是批量的历史访问数据。这些日志是已被生产系统正常处理(状态码http status＝2xx/3xx)的业务访问请求的记录，故认为也是可靠和安全的，可以作为第二目标数据，用于随后的学习。
62.s202：根据目标数据中的特征信息生成第一名单库。
63.在该过程中，可以通过对目标数据逐条进行解析和格式化处理，提取请求头(request header)、请求体(request body)、响应头(response header)和响应体(response body)等特征信息。其中，该第一名单库可以包括请求头第一名单库和/或请求体第一名单库。
64.具体的解析和格式化处理的过程，可以包括：
内进一步查找子规则。
86.可选的，请求头head元素白名单子规则索引可以如表2所示。
87.表2
[0088][0089]
再者，对于请求头head元素白名单子规则，可以采用redis存储set结构来进行存储。
[0090]
结构说明可以如下所示：
[0091]
1)key：{schemacode}
[0092]
2)setvalue：存储学习到的白名单规则数据
[0093]
可选的，请求头head元素白名单子规则可以如表3所示。
[0094]
表3
[0095][0096]
需要说明的是，请求头第一名单库可以包括上述的请求头head元素白名单子规则索引和请求头head元素白名单子规则。
[0097]
再者，对于特征信息中的请求体，也可以通过采用redis存储set结构，来存储请求体body白名单子规则索引。
[0098]
结构说明可以如下所示：
[0099]
1)key：{path}_{method}_{bussyscode}_body
[0100]
2)setvalue：存储schemalist，{schemacode}，通过hashvalue值到“请求体body白名单子规则”内查找body子规则。
[0101]
可选的，请求体body白名单子规则索引可以如表4所示。
[0102]
表4
[0103][0104]
再者，对于请求体body白名单子规则，也可以采用redis存储hash结构来进行存储。
[0105]
结构说明可以如下所示：
[0106]
1)key：{schemacode}
[0107]
2)hashkey：{参数树形集合结构}，存储参数白名单规则
[0108]
3)hashvalue：value值检验正则表达式
[0109]
可选的，请求体body白名单子规则可以如表5所示。
[0110]
表5
[0111][0112]
还需要说明的是，请求体第一名单库可以包括上述的请求体body白名单子规则索引和请求体body白名单子规则。
[0113]
此外，白名单中的响应头(response header)和响应体(response body)等特征信息以及黑名单中的特征信息也同样可以使用上述存储请求头(request header)、请求体(request body)的方法，以树形数据结构存储，并用key或value进行父子节点间的关联，因此在此不做赘述。
[0114]
在一个实施例中，在第二目标数据通过步骤一至步骤五的解析和格式化处理后，还可以进行额外的预处理，以根据预处理后的数据对提取出来的特征信息中包括的value取值范围、取值长度等进行精细化的设定和调整，实现精细化学习。该预处理可以包括对指定字段做归一化处理、对某些字段进行编码转换等。
[0115]
可选的，在一个具体的示例中，提取的原始数据可以为：
[0116]“auth01:dmz_e07_02_50:18001:1585497602.412:926623135:1[2020-03-30t00:00:02 08:00]200 0.008 300 1"10.26.2.249""171.11.63.216""10.26.2.31:17106""200""0.007"737"44""login.10086.cn""login.10086.cn:443""http/1.1""post""/sendrandomcodeaction.action""https://login.10086.cn/html/login/touch.html""application/x-www-form-urlencoded；charset＝utf-8""mozilla/5.0(iphone；cpu iphone os 6_0like mac os x)applewebkit/536.26(khtml,like gecko)version/6.0mobile/10a5376e safari/8536.25"username＝16575470520&type＝01&channelid＝12014"”[0117]
对提取的原始数据进行解析，格式化以及预处理后的数据可以为：
[0118][0119][0120]
此外，在根据请求头第一名单库，请求体第一名单库等生成对应的白名单特征库或者对应的黑名单特征库时，可以通过合并和覆盖等操作，以确保生成的白名单特征库或者黑名单特征库中的模式不重复。
[0121]
本发明实施例中提供的数据过滤的方法，基于从防护系统获取的可靠且安全的数据，针对每个被防护的web业务系统生成个性化、定制化的白名单特征库和黑名单特征库，进而通过使用白名单特征库和黑名单特征库对获取的待检测数据进行检测，对于外部访问请求合法性的判定采取了严格的规则，即未知的都是非法的，只有已知才是合法的的策略来实现数据过滤，使得系统风险暴露面大大减少，安全性大大提高，解决了检测攻击行为的过程中存在效果较差的问题，因此防御的针对性强，对一些新型的攻击方式具有很好的过滤效果，提高了业务系统防御攻击的能力。
[0122]
与图1中数据过滤的方法的流程示意图相对应，本发明实施例还提供了一种数据过滤的装置。
[0123]
图3是本发明实施例提供的一种数据过滤的装置的结构示意图。如图3所示，数据过滤的装置可以包括：获取模块301，发送模块302。
[0124]
获取模块301，可以用于获取待检测数据。
[0125]
发送模块302，可以用于当待检测数据通过第一名单库的匹配且未通过第二名单库的匹配时，将待检测数据发送给万维网系统。
[0126]
获取模块301，还可以用于获取防护系统运行的目标数据。
[0127]
此外，数据过滤的装置还可以包括处理模块(图2中未示出)。
[0128]
处理模块，可以用于根据目标数据中的特征信息生成第一名单库。
[0129]
其中，特征信息可以包括请求头；第一名单库可以包括请求头第一名单库。
[0130]
处理模块，还可以用于对请求头进行解析，得到请求头关键字和与请求头关键字对应的值；此外，还可以用于存储请求头关键字和与该请求头关键字对应的值，生成请求头第一名单库。
[0131]
其中，特征信息还可以包括请求体；第一名单库还可以包括请求体第一名单库。
[0132]
处理模块，还可以用于对请求体进行解析，得到请求体关键字和与请求体关键字对应的值；此外，还可以用于存储请求体关键字和与该请求体关键字对应的值，生成请求体第一名单库。
[0133]
可以理解的是，图2所示的数据过滤的装置中的各个模块具有实现图1中各个步骤的功能，为简洁描述，在此不再赘述。
[0134]
本发明实施例中提供的数据过滤的装置，通过使用第一名单库和第二名单库对获取的待检测数据进行检测，对于外部访问请求合法性的判定采取了严格的规则，即未知的都是非法的，只有已知才是合法的的策略来实现数据过滤，使得系统风险暴露面大大减少，安全性大大提高，解决了检测攻击行为的过程中存在效果较差的问题，提高了业务系统防御攻击的能力。
[0135]
另外，处理模块，在将待检测数据发送给万维网系统之前，根据获取的防护系统运行的目标数据中的特征信息生成第一名单库，基于从防护系统获取的可靠且安全的数据，针对每个被防护的web业务系统生成个性化、定制化的白名单特征库和黑名单特征库，因此防御的针对性强，对一些新型的攻击方式具有很好的过滤效果，解决了检测攻击行为的过程中存在效果较差的问题，提高了业务系统防御攻击的能力。
[0136]
图4是本发明实施例提供的一种计算设备的结构图。如图4所示，计算设备400包括输入设备401、输入接口402、中央处理器403、存储器404、输出接口405、以及输出设备406。
其中，输入接口402、中央处理器403、存储器404、以及输出接口405通过总线410相互连接，输入设备401和输出设备406分别通过输入接口402和输出接口405与总线410连接，进而与计算设备400的其他组件连接。
[0137]
具体地，输入设备401接收来自外部的输入信息，并通过输入接口402将输入信息传送到中央处理器403；中央处理器403基于存储器404中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器404中，然后通过输出接口405将输出信息传送到输出设备406；输出设备406将输出信息输出到计算设备400的外部供用户使用。
[0138]
也就是说，图4所示的计算设备也可以被实现为数据过滤的设备，该数据过滤的设备可以包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现本发明实施例提供的数据过滤的方法。
[0139]
本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现本发明实施例提供的数据过滤的方法。
[0140]
需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。
[0141]
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0142]
还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
[0143]
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。
[0144]
以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种视频播放方法、CDN服务器和计算机可读存储介质与流程

数据过滤的方法、装置、设备及存储介质与流程

相关文献

最热文献